Coding and Paper Letter(八十二)
新一期资源整理博客。
1 Guide:
Coding and Paper Letter这个系列的博客第一篇起源于2018年,做这个系列的初衷可以用下面这张图来代表,我手机上关注的公众号在一天时间内可以推送给我193条推送,信息量之大可见一斑。当前是一个快速阅读或者叫快餐式阅读的时代,大量的信息堆砌。因此我发觉资源整理是非常关键的。于是在当年的7月7日我正式开始在博客上更新这个系列,在此期间也收到了不少读者的评论。当然我自己也受益良多。
这个系列其实就是针对我看到的一些coding资源以及泛读论文(读题目和摘要)的一些感悟。然后用处就在于是把这个系列作为研究资源的查询手册。由于我在hexo的个人博客里有集成搜索功能,因此只需要点击这个地方,就可以跳出搜索框,根据自己的需求进行搜索。
比如前一段关于voronoi treemap可视化的博客,我是在搜索框里搜索我曾经看到过相关的代码资料基础上加以实现。
因此这也是我做这个系列接近2年来的感受,资源整理可以给自己提供很多便利之处。也希望这次分享能让更多人了解到这个系列。
2 Coding:
1.阿尔托大学“空间分析入门”课程的演示站点。
2.在Docker容器中使用R,Rstudio,Shiny,Radiant,Python和Jupyter。
3.IBM可信AI研讨会。
4.Pastas,用于水文时间序列分析的开源框架。
5.R语言包geohashTools,用于快速,准确的geohash编码。
6.R语言包sfnetworks,sfnetworks的目标是填补R在空间网络分析方面的空白。
7.RasterFrames®汇集了地球观测(EO)数据访问,云计算和基于DataFrame的数据科学。地理空间栅格对Spark DataFrames的支持。
8.手写实现李航《统计学习方法》书中全部算法。
Statistical Learning Method Code
9.geonumpy 是一个 GIS,遥感影像处理库,实现了矢量,遥感影像读取,存储,预处理,拼接,重采样,常规指标计算,地图绘制等功能。
10.R Shiny项目,《名侦探柯南》B站弹幕浏览器。这个项目在上一篇点评里提到过了。
11.具有R Markdown,Git,Make和Docker的可重复性数据分析工作流。
12.强化学习纲要。
13.R语言包datadrivencv,用于从电子表格构建可定制的简历
14.R语言包oceanmap,用于绘制2D海洋数据的R包。
15.精选的合成孔径雷达(SAR)软件,库和资源的精选列表。
16.MoCo:用于无监督视觉表示学习的动量对比。
17.R语言包writeMDX,writeMDX将Rmarkdown(.Rmd)文件写入MDX。漂亮又简单。
18.地球系统建模框架(ESMF)是一套软件工具,用于开发高性能,多组件的地球科学建模应用程序。
19.基于R语言包生成海报的脚本。Flexdashboard海报的最小模板。
20.2016年公交投资图。
21.有关R中数据可视化,绘图和发布的精选资源。
22.用Python绘制岭脊图。
23.Python库shap,一种博弈论方法,用于解释任何机器学习模型的输出。
24.用Selenium scraper从Medium.com收集了一百万个故事
25.R语言包LTN,低交通流量邻里社区的规划工具。
26.在IPython Notebook中使用Bokeh进行交互式Web绘图。
27.用于不同深度学习框架/软件的深度学习模型的转换器/转换。
28.ONNXMLTools支持将模型转换为ONNX。
29.R语言包rcropmod,用于作物模型仿真,主要提供包装功能,用于运行和分析DSSAT CSM的输出,包括网格结果的产生。DSSAT模型是最有名的作物生长模型之一。提供R语言包,并且提供网格化模型的输出结果可以有效扩展它在地学与生态学里的应用。
30.加州大学戴维斯分校策划的课程,植物病原性Ralstonia菌株的全球多样性。
31.精选的营销文章和工具集,可用来开发您的产品。
32.大转移(BiT):通用的视觉表示学习。
33.Julien Ponge在2008年在布莱斯·帕斯卡大学(法国克莱蒙费朗)和新南威尔士大学(澳大利亚悉尼)的博士学位论文。
34.通过转移学习进行高质量单眼深度估计。
35.Julia的非等距快速傅立叶变换(NFFT)实现。
36.人们如何描述自然灾害期间的位置:来自哈维飓风的推文分析。
37.R语言包rgrassdoc,在RStudio Viewer窗格或浏览器中查阅GRASS GIS文档。
38.用于教学/学习Python 3的Jupyter笔记本。
39.数据科学Python笔记本:深度学习(TensorFlow,Theano,Caffe,Keras),scikit-learn,Kaggle,大数据(Spark,Hadoop MapReduce,HDFS),matplotlib,pandas,NumPy,SciPy,Python必需品,AWS和各种命令行。
data science ipython notebooks
40.LaTeX.css是一个CSS库,可使您的网站看起来像LaTeX文档。
41.R语言包ukpolice,下载有关英国警察和犯罪的数据。
42.Julia包用于快速正交多项式变换。
43.在Binder上将R与Jupyter / RStudio结合使用。
44.R语言包worktime,导入和可视化运行时间。
45.用于构建命令行应用程序的简单但功能强大的框架。
46.基于rust的官方mongodb库软件包为deno开发的MongoDB数据库驱动程序。
47.与Deno相关的精彩事物的精选清单。
48.R语言包dddr,R中的三维矢量运算。
49.零拷贝读取和写入地理空间数据。GeoZero定义了一种无需中间表示即可读取地理空间数据格式的API。 它定义了可实现以读取和转换为任意格式或直接渲染几何图形的特征。
50.R语言包s2plot,为libs2地理区域提供快速绘图功能。
51.用于重现我们对Nike Vaporfly对马拉松性能影响的研究的代码和数据。
52.dask-ml是使用dask进行分布式和并行机器学习的库。
53.sklearn-xarray是一个开源python程序包,它将xarray的n维标记数组与scikit-learn的机器学习和模型选择工具结合在一起。
54.将Github仓库转换为支持Jupyter的Docker镜像。
55.使用Stan进行传染病模型的现代统计推断。
56.Dask中的广义线性模型。
57.从卫星图像中提取路网,并估算速度和行驶时间。
58.Hugo入门和部署到Netlify。
59.异构计算博客
60.GDAL集成上的实验性尝试。
61.使用Hugo和paged.js将漂亮的书封装为html和PDF。
62.PyTorch中的C ++扩展。
63.30个迷你Swift应用程序供自学。
64.时空数据目录(STAC)规范的网页。
65.时空数据目录API规范-OGC功能API,使地理空间资产可公开搜索和爬取。
66.云原生机器学习自动化平台。
67.使用Python的图像多边形标注(多边形,矩形,圆形,直线,点和图像级标注)。
68.R语言包i2dash,交互式和迭代式仪表板。
69.贝尔卡卡迪米尔弗莱贝格工业大学地球物理与地球信息学研究所的受邀汇报。
70.有使用内核图注意网络进行细粒度事实验证的源代码。
71.R语言包allcontributor,所有贡献者写入R包。
72.pytorch框架中卷积网络的触发器计数器。
73.包含与神经网络和深度学习相关的小型项目。主题与我在Medium上发表的文章紧密相关。我鼓励大家阅读并检查代码在操作中的工作方式。
74.R会议和用户组列表。
75.BERT模型在Attention分析中的应用。
76.Packt Publishing撰写的《 Python机器学习指南》代码。
Python Machine Learning Cookbook
77.来自R中数据实时探索性分析的代码。
78.Nichols等人用于分析的Agricultural & Environmental Letters论文中数据的R代码。
79.讨论区文本存储库,探讨巴西的城市机动性和机会。
80.R语言包pollingBR,包含Poder360网站汇编的选举调查数据。
81.用publisher APIs以编程方式检索科学期刊文章以进行文本挖掘。
82.C ++中的conda命令行实用程序的快速替代品。
83.R语言包LAGOSNE,与LAke多尺度时空数据库的接口。
84.R语言包ecodata,ecodata是由东北渔业科学中心的生态系统动力学和评估处开发的R数据包,用于生态系统状态(SOE)报告。
85.数据科学实例。
86.现代,直观的基于终端的文本编辑器。
87.”Assessing Population Viability of Black Bears using Spatial Capture‐Recapture Models”论文的代码。
88.R语言包HASP,水文分析软件包。
89.R语言包exactextract,快速进行栅格分区统计的R包。
90.在运行模型之前测试更平滑的边界是否有意义。
91.GeoNode是一个开放源代码平台,可促进地理空间数据的创建,共享和协作使用。
92.Pixellib是用于执行图像分割的Python库。
93.R语言包phencamrCS,方便PhenoCam时间序列的检索和后处理。PhenoCam数据的后处理包括异常值去除和数据产品的生成,例如物候转换日期。
94.R语言包PWCfilegenerator,水农药模型的天气输入数据文件生成工具。
95.WebGL指南的样例和资源。
96.C++20范围里的算法实现。
97.R代码生态学中隐藏变量的统计方法。
98.LaTeX的测试和构建系统。
99.Pangeo AWS Binder的自定义JupyterHub模板。
100.传感器不变大气校正(SIAC)版的GEE。
101.加快PyTorch的研发补充主分。
102.JupyterLab Dask扩展。
103.虾神的Python Demo代码库。
104.创建仅向海延伸的集水区多边形的沿海缓冲区。
105.R语言包geometries,用于创建和处理空间几何数据结构。
106.R语言包litsearchr,可使用关键字共现网络部分自动化搜索词的选择,以进行系统的评论。
107.R语言包hugodown,使用hugo和RMarkdown制作网站。
108.R包details,以创建用于Markdown和包文档的详细信息HTML标签。
109.R语言包ggalluvial,ggplot2扩展用于绘制平行坐标图。
110.R语言包mapboxapi,mapbox Web服务的R语言接口。
111.R语言包captions,为TeX文档以简单的方式创建图和表的插入latex代码。
112.使用深度学习,MegaDetector和RetinaNet进行检测/分类,可以对相机陷阱像素进行物种识别。
113.R语言包basemaps,一个轻量级的R包,用于从OpenStreetMap,Carto和Mapbox等开放源下载和缓存空间底图。
114.R语言包downlit,语法高亮和自动链接。
115.Manubot的Python实用程序:开放式和自动化的手稿。
116.R语言包CCAMLRGIS,为了简化CCAMLR公约区中的地图制作。它提供了两类功能:加载功能和创建功能。加载功能用于从在线CCAMLR GIS(http://gis.ccamlr.org/)导入空间图层,例如ASD边界。创建函数用于根据用户数据(例如多边形和网格)创建图层。
117.这是一本使用ggplot2构建图的活动书籍。
118.SLAM资料:
带有BoPLW对的实时SLAM,用于立体声摄像机,具有环路检测和重新定位功能
一种通过使用点和线段特征来计算立体视觉SLAM的算法。
119.基于Reveal.js的汇报幻灯片模板。
120.简单,干净的纯Python 3 Zenodo API(上传,下载)。
121.R语言包epca,探索性主成分分析。
122.R语言包mazealls,用于生成迷宫。
123.Julia语言的资源。
124.视角n点和线,用于相机姿势估计。
125.EPnP:高效的透视n点相机姿势估计。
3 Paper:
红树林森林生态系统分布在热带和亚热带地区的陆海界面,在碳循环和生物多样性中发挥重要作用。准确绘制全球红树林地上生物量(AGB)的地图将有助于我们了解气候变化和人类活动的影响如何影响红树林生态系统。事实证明,LiDAR技术可以准确捕获红树林的三维结构,并且LiDAR可以高精度估算森林AGB。在这项研究中,我们通过将地面清单数据,星载LiDAR,光学影像,气候场和地形数据与随机森林(一种机器学习方法)相结合,以250米的分辨率制作了2004年的全球红树林AGB地图。从已发表的文献和红树林生物量的免费数据集中,我们选择了342个地面观测数据来训练和验证红树林AGB估算模型。我们的全球红树林AGB地图显示,全球平均红树林AGB密度为115.23 Mg / ha,标准偏差为48.89 Mg / ha。红树林中的全球AGB总存储量为1.52 Pg。与观测数据的交叉验证表明,我们对红树林AGB的估计是可靠的。调整后的测定系数(R2)和均方根误差(RMSE)分别为0.48和75.85 Mg / ha。我们估计的全球红树林AGB存储量与以前的遥感方法所预测的相似,并且遥感方法可以克服基于气候的模型的高估。这个新的生物量图提供的信息可以帮助我们了解全球红树林的分布,同时还可以作为监测全球红树林生物量趋势的基准。郭庆华老师团队的成果,关于全球红树林AGB估算。红树林是一个很重要的碳汇来源,尤其是“蓝碳”的重要组分之一。结合多源数据和机器学习的方法提供红树林的AGB制图,还是很不错的研究,精度也显示较高。另外这也是近期看到少见的非GEE的全球遥感制图研究。当然后续如果结合GEE拓展会有更多扩展研究。
在过去的几十年中,水文气象现象的强度和频率不断增加,欧洲是受影响最严重的地区之一。这造成了该地区的巨大经济损失。为了使成本最小化的区域适应策略,需要在多个区域范围内全面评估灾难的经济影响。本文将洪水足迹方法应用于总经济影响的多区域评估,并将其应用于2009年中欧洪水事件。洪水足迹是一种基于投入产出方法的影响力核算框架,用于从经济角度评估气候灾害造成的区域和更广泛的经济网络内的自然破坏(直接)和生产不足(间接)。在此,该模型通过资本矩阵扩展,以启用多种恢复策略。根据结果,间接损失占自然灾害总成本的很大一部分,其中大多数发生在非高度直接影响的行业中。对于2009年中欧洪灾,间接损失占总损失的65%,其中70%来自四个行业:商业服务,一般制造业,建筑业和商业。此外,结果表明,尽管工业化经济体较少受到直接冲击,但与工业化程度较低的经济体相比,遭受的间接损失要更多。这可能与其高资本密集度和行业间紧密联系的特定经济结构有关。结合经济学的投入产出方法估算灾害的洪水足迹评估。将自然灾害与经济连接起来的一个案例研究。
在降雨后的土壤干燥过程中,从高时间分辨率遥感数据(例如MODIS)捕获的土壤光谱动态反馈可以帮助进行数字土壤制图。但是,该方法在利用具有相对高的空间分辨率的影响方面是无效的。在土壤干燥过程中,图像数量不足,因为那些高空间分辨率的图像往往具有较低的时间分辨率。这项研究旨在通过整合在不同降雨事件后多次干燥过程中从图像中捕获的具有高空间分辨率的反馈来生成土壤光谱动态反馈。以时间分辨率为16天的Landsat 8数据为例。首先调整从Landsat 8获得的每个光谱反馈,以消除不同降雨幅度的影响。然后,根据调整后的反馈对土壤光谱动态反馈进行重组和生成。最后,基于Landsat 8生成的土壤光谱动态反馈被用于绘制表层土壤的纹理,并与基于MODIS数据以及MODIS和Landsat 8的融合数据的制图结果进行比较。基于Landsat 8数据的土壤光谱动态反馈改善了土壤质地空间分布的细节,但也提高了制图的准确性。基于Landsat 8数据的制图精度高于基于MODIS数据和融合数据的制图精度。在地表条件更为复杂的区域,精度的提高更为明显。这项研究拓宽了土壤光谱动态反馈的应用范围,并为大规模,高精度数字土壤测绘提供了支持。朱阿兴老师团队的成果,实现Landast8和MODIS影像的时空融合从而实现高精度的土壤空间制图。核心思想是基于土壤光谱的动态变化。
背景:抑郁和焦虑症的病因复杂,并伴有严重的疾病负担。尽管人们认为空气污染是造成这些疾病的可能危险因素,但对这些关联的研究仍不足。我们旨在分析长期暴露于环境臭氧和直径小于10μm(PM10)的颗粒物与一般人群的抑郁症和焦虑症之间的关联。方法:我们利用了来自德国萨克森州的一家大型法定健康保险公司的数据。 2005-2014年可获得有关抑郁症和焦虑症的门诊临床诊断信息。我们将居住环境中的臭氧和PM10估算值分配给了113万个16岁及16岁以上居民的居住区。抑郁和焦虑被定义为诊断计数。使用调整后的广义估计方程模型评估与抑郁和焦虑的关联。结果:在十年研究期间,观察到的抑郁症和焦虑症患病率分别为7.40%和3.82%。在两种污染物的模型中,连续10天的最大8小时平均臭氧浓度超过120μg/m³时,相对风险(RR)为1.010,抑郁和抑郁的置信区间(CI)为95%(1.005,1.014)。焦虑的RR为1.007(95%CI(1.000,1.014))。 PM10浓度每升高10μg/m³,对抑郁和焦虑症的PM10效果估计分别为1.180(95%CI(1.160,1.201))和1.176(95%CI(1.148,1.205))。年龄,性别和个人获得医疗保健的机会也与疾病的诊断有关。在一种和两种污染物模型之间的关联是一致的。
结论:们的发现表明,普通人群中环境臭氧和PM10含量的升高可能会增加患抑郁症或焦虑症的风险。但是,由于缺乏有关单个空气污染物暴露和社会经济状况的数据,因此我们的结果应谨慎解释。进一步设计良好的流行病学研究应复制我们的发现。分析臭氧,PM10空气污染与抑郁症焦虑症的关联的一项研究,阐述了空气污染暴露对精神健康的潜在影响途径。
在这项研究中,我们将天气研究和预报模型应用于预测2050年的城乡温度。我们进行了时间分层分析,将其与2001年至2014年以及2011年至2014年之间的死亡率进行比较,以估算2050年高温事件的风险增加。我们将白天相对于夜间的变化以及城市相对于农村的温度变化作为预测死亡率的因素,以评估气候变化对死亡风险的潜在影响。在2050年的高温事件中,最高和最低气温预计分别升高2.9°C和2.6°C,白天和黑夜的温度分别比2001-2014年高9.8°C和4.9°C。不考虑温度变化的情况,预计2050年的死亡率风险将比2001-2014年(IRR 1.721 [1.650,1.796])和2011-2014年(IRR 1.622 [1.547,1.701])高得多。考虑到温度变化后,农村地区最高温度的变化将在2050年引发最高的死亡风险,这可能是由于整个城市的快速城市化所致,而第二高的死亡风险是由于城市化的最低温度的变化所致。因为在夏季,城市中的当地居民已经适应了最大的城市热应激水平。缓解气候变化迫切需要改进热量预警系统和可持续计划协议。评估气候变化——高温热浪事件的死亡率风险,基于WRF模拟的未来情景健康风险分析。是个蛮不错的研究。
6.On the measurement of bias in geographically weighted regression models/关于地理加权回归模型中偏差的度量
在认识到地理加权回归(GWR)是一种数据借阅技术的前提下,本文通过从过程可能与回归位置不同的位置借用数据来导出引入局部参数估计的偏差量的表达式。这对于GWR和多尺度GWR(MGWR)都是完成的。我们通过与基于已知局部参数值的模拟数据集的经验得出的估计值进行比较,证明了偏差表达的准确性。通过能够在两个模型中计算偏差,我们可以证明MGWR的优越性。然后,我们展示了校正的Akaike信息准则统计信息在寻找GWR和MGWR中的最佳带宽方面的效用,这是在最小化偏差和不确定性之间的权衡。我们进一步展示了一组局部参数估计中的偏差如何影响另一组局部估计中的偏差。从其他位置借用数据所产生的偏差似乎很小。Forthingham院士团队的研究,发表在空间统计领域的旗舰刊物spatial statistics上,分析的是GWR方法拟合时从领域获取数据造成的偏差影响。对于GWR的过拟合现象可能有些有意思的结论。
公共汽车在城市居民的日常旅行中起着至关重要的作用。先前对公交车微环境暴露及其对乘客健康和舒适度的不利影响的研究引起了广泛关注。但是,迄今为止,很少有研究探索公交车微环境暴露与乘客瞬时情绪之间的关系,研究了各种微环境因素的阈值,并分析了乘客的最佳微环境暴露水平。为此,在中国广州的6条路线上随机选择的公交车中,同时从543名乘客中同时收集了微环境暴露和问卷调查数据。然后,使用多元回归模型来探索现有文献中的一些研究空白。结果表明,公交车内的噪音和载客量与乘客的瞬时情绪呈负相关,而温度和相对湿度与乘客的瞬时情绪呈正相关。乘客的瞬时情绪受这四个微观环境指标的阈值影响。这项研究确定的公交车噪声,温度和相对湿度的阈值分别为65–79 dB,30–34°C和50–65%。就乘客量而言,8–18是一个阈值,在此阈值以下,瞬时情绪会变得更糟,而19–29是另一个阈值,在此阈值之上,瞬时情绪会严重恶化。此外,这些总线微环境指标的最佳暴露水平分别为0–65 dB,22–28°C,41–50%和18–19。这些阈值效应为交通规划人员和公交运营商基于对乘客瞬时情绪变化的更好理解,以实现理想且用户友好的公交车内微环境,具有重要的意义。关美宝老师团队的研究,基于公交微环境暴露(噪声)对于乘客瞬时情绪的影响。可以说是一个比较有意思的时空行为地理学研究,不过数据搜集难度相对大一些。
8.Random Forest Spatial Interpolation/随机森林空间插值
几十年来,克里金法和确定性插值技术(例如逆距离加权和最近邻插值)一直是最流行的空间插值技术。具有外部漂移的克里金法和回归克里金法已成为从空间自相关和协变量信息中受益的基本技术。最近,诸如随机森林和梯度增强之类的机器学习技术变得越来越流行,并且现在经常用于空间插值。为了在机器学习中明确考虑空间成分,已经进行了一些尝试,但是到目前为止,这些方法都没有采用将最近的观测值及其与预测位置的距离作为协变量的自然路线。在这项研究中,我们通过引入随机森林空间插值(RFSI)来探索包括最近位置的观测值及其与预测位置的距离的价值。在三个案例研究中,我们将RFSI与确定性插值方法,普通克里格法,回归克里格法,随机森林和随机森林用于空间预测(RFsp)进行了比较。第一个案例研究利用了合成数据,即使用已知的半变异函数对正态分布的平稳随机域进行的模拟,对于这种情况,普通克里金法被认为是最佳的。第二个和第三个案例研究使用西班牙加泰罗尼亚2016-2018年期间的每日降水数据和克罗地亚2008年的平均日温度评估了各种插值方法的性能。综合案例研究的结果表明,RFSI优于大多数简单的确定性插值技术,并且具有与反距离权重和RFsp相似的性能。不出所料,在综合案例研究中,克里金法是最准确的技术。在降水和温度案例研究中,RFSI的性能优于回归克里格法,反距离权重,随机森林和RFsp。此外,RFSI比RFsp快得多,特别是在训练数据集很大且已制作高分辨率预测图的情况下。将随机森林的机器学习算法引入到空间插值算法做了扩展,提出了随机森林空间插值算法。以降水数据为案例研究,发现RFSI的算法优于大部分空间插值算法,且性能卓越。
邻里的建成环境可能会影响居民的体力活动,但缺乏非中国主要城市的证据。我们调查了五个社会人口统计学特征,十个客观评估的环境特征,八个感知的邻里属性以及社会环境对体力活动和健康结果(社区的感觉,体重指数以及自我报告的健康状况)的影响。我们还研究了(1)在概念上可比较的五个邻域属性,它们是客观环境属性和体育活动之间关系的中介; (2)使用中介分析进行回归,以其他感知指标和社会环境作为这些关系的调节者。客观评估的住宅密度,土地使用结构,街道连通性和可及性与身体活动呈曲线和/或线性相关。地形的坡度与体重指数(BMI)成反比。没有发现任何可感知的属性作为调解人,这可能是由于主观和客观环境之间的关联性较弱。高密度有助于体力活动,但阻碍了社区意识。此外,感知的美学和安全性与体力活动有关。此外,社会环境调节了所有感知环境(坡度除外)和社区意识的积极联系。本研究表明,大连的体育和社会环境属性均与体力活动显着相关。建成环境对体力活动的影响分析,提出了一些潜在路径,但是是基于截面数据的分析,具体的关系推断还需要更多的纵向研究。