Coding and Paper Letter(四十七)
资源整理。
1 Coding:
1.Rstudio2019年会,Tidyverse中的数据科学材料,两天的研讨会。
2.推荐系统示例与实践。
3.R语言包fsttable,用于以fst格式存储的快速磁盘数据表的接口。
4.Point Cloud Library(PCL)是一个独立的大型开放项目,用于2D/3D图像和点云处理。
5.120个数据科学面试问题的答案。
120 Data Science Interview Questions
6.cesm,通用地球系统模型,目前比较流行的一种陆面系统模型。
7.美国开放的citygml数据。
8.R语言包xgboostExplainer,使xgboost模型完全可解释。
9.数据可视化课程。
10.R语言包landscapetools,用于执行一些景观分析的操作(主要是转换格式类)。
11.基于CFFI的Python的cairo桥接。
12.Julia库DynamicalSystems,用于探索混沌和非线性动力学。
13.Shiny工程,邻里多样性。
14.R语言包tidycensus,允许用户使用美国人口普查局的十年期人口普查和五年美国社区API接口,并返回整齐的data.frame,可选择包括简单的地理要素。
15.R语言包dapr,无依赖性的类似purrr的apply/map/iterate函数。
16.Pentaho数据集成(ETL)
17.R语言中空间数据的学习课程,主要是swirl包。
18.研讨会网页模板渲染。
19.图神经网络论文。
20.自动区分C++的工具。
21.Julia库RecurrenceAnalysis,供了计算递归图并在递归量化分析框架内进行探索的工具。
22.创建具有GPU启用节点的小型slurm集群的步骤。
23.城市增长模型。
24.Python库PySimpleGUI,用于构建GUI界面的库。
25.简单易用用于标注fast-cnn训练所需图片的Python程序。
26.Tidyverse训练研讨会的材料。
27.R语言包geospark,通过geospark scala包将sf带入spark。
28.有用的函数、教程以及其他Python相关材料。
29.Python库numexpr,用于Python,NumPy,PyTables,pandas,bcolz等的快速数值求解。
30.R语言包opencage,Opencage API的R语言接口。
2 Paper:
目的:确定登革热病例的高风险时空聚类,探讨相关的危险因素。方法:2005-2017年每月土着登革热病例在县一级汇总。使用SaTScan9.4.4和Arcgis10.3.0,使用时空聚类分析来探索登革热分布特征。此外,使用Maxent 3.3.1软件中的生态位模型分析了登革热暴发的影响因素和潜在高风险区域。结果:我们发现了登革热病例的异质性时空分布模式。确定的初级集群高风险区域覆盖广东省13个县,次要集群包括云南省14个县。此外,气象和环境因素与登革热爆发之间存在非线性关联,年平均最低气温,土地覆盖和年平均降水量分别为8.5%57.1%,6.7%38.3%和3.2%~40.4%。结论:登革热暴发的高危地区主要分布在广东和云南省,这些地区受温度,降水和土地覆盖等环境和气象因素的影响很大。健康地理的一篇文章,主要分析登革热的影响因素,由于登革热受蚊虫传播,因此在湿热的环境下容易爆发,与自然因子有很好的关联。这篇应该用的依旧是时空扫描统计方法以及最大熵模型。
2.Air pollution lowers Chinese urbanites’expressed happiness on social media/空气污染降低了中国城市居民在社交媒体上的幸福感
中国较重的空气污染可能导致城市人口表达出较低的幸福感。为了测试这一说法,我们根据中国最大的微博平台新浪微博上2.1亿条带有地理标记的微博内容的情绪构建了每日城市级幸福感指标,并研究了其相对于每天本地空气的动态质量指数和PM2.5浓度(直径等于或小于2.5μm的细颗粒物质,中国城市中最突出的空气污染物)。利用2014年144个中国城市的每天数据,我们的结果表明,PM2.5浓度(或空气质量指数)增加一个标准差会导致幸福指数的0.043(或0.046)标准差减少。人们在周末,假日和极端天气条件下遭受更多的痛苦。女性群体的幸福感相对于普通城市(无论是空气清净或者是污染严重的)居民对空气污染更为敏感。社交媒体数据为中国政府提供了关于生活质量提高的实时反馈意见。发表于Nature Human Behavior的文章,来自于清华大学郑思齐老师、地理所王江浩老师的成果,社交媒体地理学的一篇应用案例,非常有意思的研究。三个关键信息,一是这种方法在大数据时代的可能性,二是空气污染对于居民的影响,三是女性可以做为一个脆弱性人群的分析。当然我觉得关于新浪微博数据的代表性问题也是可以讨论的。
城市绿地被认为是缓解城市热岛(UHI)的生态措施。然而,很少有研究调查城市公园相邻区域的降温效果;作为从绿色空间到硬化表面的过渡区域,发生更复杂的热交换,值得更多关注。本文考察了北京奥林匹克森林公园城市绿化模式与周边地区降温效应的关系。结果表明,林地和水体分别可以降低6.51%和12.82%的不透水表面温度。绿地率每增加10%,地表温度下降0.4°C,距森林公园距离每公里增加,地表温度上升0.15°C。绿色空间图案的聚集指数(AI)和最大斑块指数(LPI)与表面温度呈现强烈的负相关。这项研究证实了城市公园相邻区域的降温效果,并突出了它们对城市绿化模式的依赖。因此,我们不仅要开发更多的绿地,还要在有限的城市土地上科学规划其空间结构,以提高降温效果。关注在公园这种大型绿地对于LST的影响。
我们将来自多个来源(MODIS,Landsat-5,7,8)的图像与土地覆盖数据相结合,以测试温带高山地区Ecrins国家公园的植被长期(1984-2015)绿化或褐变趋势。近期气候变化和国内放牧实践的背景。我们发现,在过去16年(2000-2015),Ecrins国家公园中超过一半(56%)的峰值归一化植被指数(NDVI max)显着增加。重要的是,NDVI max的最大比例增加发生在高海拔(> 2500 m)的岩石栖息地。虽然MODIS和Landsat检测到的NDVI最大变化方向的空间一致性很高(76%重叠),但对数响应比值之间的相关性具有中等强度(约0.3)。在上述树线栖息地的背景下,我们发现1984年至2000年间NDVI max的比例增加高于2000年至2015年,表明近十年来绿化动态减缓。 2000年之前加速绿化的时机恰逢1980年代和1990年代发生的无雪增长度日数明显增加。在草原和低灌木栖息地的情况下,我们没有发现放牧对绿化趋势的负面影响的证据,可能是由于研究区域通常发现的低放牧强度。我们提出,更长和更温暖的生长季节的出现使得高海拔植物群落能够产生更多的生物量,并且还允许植物定居以前以长期积雪为特征的栖息地。在高山环境中提高植物生产力对生物多样性轨迹和山地景观中的生态系统服务具有潜在影响。欧洲阿尔卑斯山区代表性地区长期绿化趋势的证据为进一步研究高山景观绿化机制奠定了基础。利用多源遥感影像来分析长时间的greening,这类研究前段时间傅伯杰院士团队也发过一篇。事实上应该还是由于气候变化导致的一些冰雪融化产生的环境效应。
由于生长迅速和收获轮伐期短,竹林在碳循环和地方经济发展中发挥着重要作用。在过去二十年中,准确估算竹林地上生物量(AGB)已引起越来越多的关注。然而,由于对竹林生长特征与遥感数据之间机制的认识不足,基于遥感的竹林AGB估算具有挑战性。本研究的目的是检查不同日期的年度和年度竹林的遥感特征及其AGB估算性能。本研究利用多个Sentinel-2数据,考虑了中国和中国竹林生长特征的独特特征,探讨了中国浙江省竹林的AGB估算。结合野外调查数据和Sentinel-2光谱响应(光谱带和植被指数)和纹理图像,随机森林被用于识别AGB估计的关键变量。结果表明:(1)年际和年年竹林的光谱特征差别很大,特别是在红边2和近红外波长(NIR2)(740-865 nm)之间的波长,使得分开的年度和年度竹林; (2)同年竹林具有相似的光谱特征,尽管AGB从40 Mgha-1增加到高达90 Mgha-1,这意味着光学传感器数据不能有效模拟年际竹AGB; (3)年度竹AGB与4月图像中的红色和短波红外(SWIR)光谱带有显着关系,7月图像中红色边缘2,但AGB饱和度问题的估计精度差; (4)分层显着改善了年度竹AGB估算,但不是同比,建议使用4月图像进行非分层; (5)当AGB大于70 Mgha-1时,Sentinel-2数据无法解决竹AGB数据饱和问题,类似于其他光学传感器数据,如Landsat。未来应该进行更多的研究,以将多个源 - 遥感数据(例如,激光雷达,光学传感器数据)和辅助数据(例如,土壤,地形) - 集成到AGB建模中以改进估计。使用可以有效提取树密度信息的非常高的空间分辨率图像可以改善竹子AGB估计并产生新的见解。基于哨兵卫星的竹林AGB估计,有很多卓有成效的地面调查工作结合了遥感估算,从遥感光谱上分析也较为深入,提出的展望和未来研究方向值得关注。
高空间分辨率图像的全球可用性使得树种分布成为可能,以便更好地管理森林资源。以前的研究主要集中在绘制单一树种,但往往需要有关各种树木,尤其是人工林的空间分布的信息。该研究旨在确定适用于土地覆盖,森林和树种分类的变量和算法。使用双时间资源3号多光谱和立体图像。通过对包括最大似然分类器(MLC),k-的六种分类算法的比较分析,检查来自多光谱图像的光谱响应和纹理,来自双时间立体图像的冠层高度特征以及来自立体衍生的数字表面模型数据的斜率和高度。最近邻(kNN),决策树(DT),随机森林(RF),人工神经网络(ANN)和支持向量机(SVM)。结果表明,与单独的光谱带相比,使用多个源数据 - 光谱带,植被指数,纹理和地形因子 - 显着提高了土地覆盖和森林分类准确度,土地覆盖等级的最高总体准确度为84.5%。来自SVM,以及89.2%的森林类,来自MLC。与单季光谱图像相比,叶片和叶片季节性图像的组合进一步提高了土地覆盖类别的分类准确度7.8%至15.0%,森林类别的分类准确度提高了6.0%至11.8%。与单独的光谱图像相比,多个源数据的组合还将土地覆盖分类提高了3.7%至15.5%,森林分类提高了1.0%至12.7%。当仅使用光谱数据时,MLC提供了比机器学习算法更好的土地覆盖和森林分类准确度。但是,当使用多个数据源时,一些机器学习方法(如RF和SVM)提供了比MLC更好的性能。在多个源数据中进一步增加冠层高度特征对改善土地覆盖或森林分类没有影响或影响有限,但提高了一些树种如桦树和蒙古苏格兰松的分类准确度。考虑到树种分类,中国松,蒙古苏格兰松,红松,白杨和榆树等阔叶树的分类精度超过92%,落叶松和桦树的准确度相对较低,分别为87.3%和84.5%。然而,这些高分类精度来自不同的数据源和分类算法,并且没有一种分类算法为所有树种类提供最佳准确度。该研究表明相同的数据源和分类算法无法为不同的土地覆盖类别提供最佳分类结果。有必要使用基于专家的方法或基于分层的分类方法开发综合分类程序,该方法可以为每个树种类使用特定的数据变量和算法。基于国产资源3号卫星的土地覆盖、森林和树种分类研究,尤其是本身资源三号属于测绘卫星,可以提供多角度立体像对,不仅仅是遥感影像也能提供DEM的数据,对国产卫星数据的挖掘。
地表温度(LST)是区域和全球范围内的基本地球表层参数。在1996年,2004年和2016年的春季和夏季,我们使用7张Landsat图像在苏州市获得LST,并检查了影响LST模式的空间因素。候选空间因素包括(1)土地覆盖指数,如归一化差异建立指数(NDBI),归一化差异植被指数(NDVI)和归一化差异水指数(NDWI),(2)邻近因子如到市中心,市中心和主要道路的距离,以及(3)LST位置。我们的研究结果表明,随着时间的推移,表面城市热岛(SUHI)的强度不断增加,SUHI的空间分布在两个季节之间是不同的。苏州的SUHI主要分布在市中心,1996年,但在2004年和2016年扩展到近郊区,并在SUHI的最高水平上大幅扩张。我们基于缓冲区的梯度分析表明,随着到苏州市中心的距离,LST以对数方式衰减或线性衰减。由广义加性模型(GAMs)推断,LST与候选因子之间存在强关系,其中主导因子是NDBI,其次是NDWI和NDVI。虽然土地覆盖指数是LST的主导因素,但空间接近度和位置也对LST和SUHI产生了实质性影响。这项工作提高了我们对SUHI及其在苏州的影响的理解,并有助于政策制定者制定减轻SUHI影响的对策。城市热岛与相关因子的分析,其实诸如此类的文章这几年热岛研究不断,但是对这些研究也有值得讨论的点。
基于遥感数据解释的结果,本文旨在模拟和预测祁连山区20世纪90年代至2040年代受年平均气温(MDAT)影响的山地多年冻土分布变化。基于遥感影像,可视化地解释基准地图以从20世纪90年代获得山地永久冻土分布。通过比较和估计,使用基准地图,地形和土地覆盖因子以及20世纪90年代的MDAT数据构建逻辑回归模型(LRM)。根据气象站的调查数据预测2010年至2040年代的MDAT数据。利用LRM,MDAT数据和因子,模拟和预测了20世纪90年代至2040年代的十年山地永久冻土分布的概率(p)。根据p值,永久冻土分布状态被分类为“永久冻土可能”(p> 0.7),“永久冻土可能”(0.7≥p≥0.3)和“永久冻土不可能”(p <0.3)。从20世纪90年代到2040年代,“永久冻土可能”类型主要降级为“永久冻土可能”类型,总面积从73.5×103 km2变为66.5×103 km2。 “永久冻土可能”类型主要降级为“不可能永久冻土”,退化面积为6.5×103 km2,占总面积的21.3%。同时,模拟结果的准确性可以达到约90%,这是通过基于遥感数据解释结果的20世纪90年代,2000年代和2010年的模拟结果的验证来确定的。本研究为了解长期以来气温上升所影响的山地多年冻土分布变化提供了一种方法,可用于研究其他具有相似地形和气候条件的山区。利用遥感数据和回归模型解译和模拟冻土长时间序列空间分布。