失踪人口回归,本篇来介绍下R语言读取大型NetCDF文件的一些实践。
先给一段Wiki上关于NetCDF的定义。
|
|
本质上NetCDF是一个多维矩阵的数据,常用于地球科学领域的数据存储。
给出一个典型的例子(CHAP的O3数据)。
我们可以看到NetCDF本质上这就是多个栅格叠在一起的文件,在R里面的处理方式基本依赖于几个栅格和NetCDF相关的包。包括ncdf4, raster/terra。
|
|
接下来给出一个标准的读nc文件的代码。
|
|
这部分代码的运行结果就是第一部分显示的那张图。这里要注意的是,print(nc_o3)那句代码是会决定下面获取经纬度,变量名与缺失名的关键。如图所示,这里的变量数量是一个,就是臭氧浓度O3,单位是$\mu g/m^3$,变量名叫o3,缺失值为-999,然后对应的经纬度名字是lat和lon。
由于这个数据是10 km的处理起来比较快。当遇到全球或者全国比较精细化的NetCDF文件的时候,读取和另存为栅格可能会非常耗内存,因为R语言在处理数据的时候,默认是把数据全部读进去内存。笔者最近处理了一个全国km级的逐月气象数据。当我加载某一个三年的数据时,忽然内存飙升了,存进去的多维矩阵能占据5.7G内存。因此这就对处理速度和机子要求很高,也会有很多麻烦。那么当然我并不需要全国的数据,实际上我也是裁出研究区的数据。因此做了一下搜索和实践,总结了下如何根据需求,只读取部分区域的大型NetCDF文件。这样子就不需要机子内存的高要求了,这里以福建省为例(福建省的shp数据可以参照如下的链接下载)。使用的NetCDF数据为国家青藏高原科学数据中心1901到2022年逐月1km降水数据。
主要的代码如下:
|
|
关键在于ncvar_get函数里的start和count参数。这两个负责控制读取NC的行列数据以及多维数(如果没有时间轴,直接给一个2个元素的数组就行)。start是读取NetCDF的起始行列数,count是读取NetCDF的数量。后续转栅格的操作是raster函数的写法。由于raster快停止维护了。我们也会提供terra包的写法(实际上差别不大)。
|
|
由于后续的裁剪代码terra和raster毫无差别。这里就不赘述了。这部分代码我也会放在我的Github项目上(My Studies of Urban GIS)。
最后感谢下Google搜到的几个资料。
参考链接:
]]>由于过去一段时间比较忙,后续电脑内存盘更替等原因,停更了很久。最近总算重新修复了下博客
由于断更很久,一直没更新,这次重新deploy以后,发现博客内大量图片以及部分文件都无法显示。在网上查询以后发现本质原因是,Github Pages网页已经全部强制支持https,但是我博客的图床是基于七牛云存储的,还是http,导致无法显示,包括音乐文件等。在网上搜索以后发现了部分解决方案。
总结了下基本思路就是使用https外链的图床。比较可行的方案有三种,第一种是升级七牛云的图床外链到https服务(这个需要根据流量算钱)。第二种是找其他https外链的图床。第三种是借用github作为图床,这个是基于hexo主题框架里设置的资源文件夹(详情见第6和第7篇参考解决方案链接)。核心需要对每篇博客建立对应的md文件和文件夹(然后把图片全部放到文件夹里)。
升级七牛云的图床外链的核心是要申请域名对应的SSL的证书。由于我用的是我阿里云的二级域名,所以本质上是现在阿里云申请对应的免费SSL证书,然后上传到七牛云上。然后把绑定的域名全部升级为https服务。就能访问大部分内容了。
参考解决方案链接
2.hexo使用七牛图床 放到github pages上无法显示
3.Hexo+Github静态网站使用七牛云图床+PicGO+Typora自动上传图片并替换链接,详细配置流程
4.解决Hexo+GitHub+七牛云图床+PicGO+Typora自动上传图片时,Chrome浏览器默认https请求,图片无法显示的问题
另外这次一开始配置的时候,发现有一次deploy到github上全是空文件。后面搜索网页发现是nodejs的版本太高了。
参考链接
]]>本期是之前做的应用统计学与R语言实现笔记的番外篇四,本期主要关注两个问题,一个是重新利用R的bookdown包创建新的电子书,另一个是计算公共卫生当中一个比较常见的指标OR值。
bookdown是谢益辉之前开发的R语言包,可以基于rmarkdown快速生成在线电子书,并且可以输出pdf和epub。具体的使用方法可以参见官方文档。
这里由于中文在输出pdf中容易有bug,因此中文图书推荐使用谢益辉提供的模板进行修改。同时可以参考李东风的这本中文使用指南辅助进行。
https://www.math.pku.edu.cn/teachers/lidf/docs/Rbook/html/_Rbook/
这里提供一些使用过程中的tips经验。
|
|
其中include_graphics括号后面为图片路径。同时在R code的设置里,在设置图片大小时推荐使用out.width和out.height参数,设置为’100%’,这样图片可以根据排版情况进行自适应。
|
|
|
|
最后奉上最新的bookdown在线电子书地址:
http://gisersqdai.top/Note-of-Applied-Statistics-with-R-Book/
在修改的过程里,我发现了来自BruceZhaoR同学18年的一条pr,虽然不知道什么原因我一直没注意到这条pr。这里郑重向这位同学道歉,非常感谢他的指正。他指出在原本第三章描述性统计里的样本方差与标准差公式里有误。并给出了wiki上的参考公式。
wiki:https://en.wikipedia.org/wiki/Standard_deviation#Corrected_sample_standard_deviation
具体错误这里也说明下。原公式如下:
样本方差:
$$s^2=\frac{\sum_{i=1}^N (x_i-\mu)^2}{n-1}$$
或
$$s^2=\frac{\sum_{i=1}^k (M_i-\mu)^2f_i}{n-1}$$
样本标准差:
$$s=\sqrt {\frac{\sum_{i=1}^N (x_i-\mu)^2}{n-1}}$$
或
$$s=\sqrt{\frac{\sum_{i=1}^k (M_i-\mu)^2f_i}{n-1}}$$
这里用$\mu$是不对的,$\mu$虽然可以指代统计学中的均值,但是$\mu$是代表总体均值。而严格来说,样本均值通常只是近似总体均值,因此必须作区分,故常用$\bar x$来做为样本均值。故修改后公式为
样本方差:
$$s^2=\frac{\sum_{i=1}^N (x_i-\bar x)^2}{n-1}$$
或
$$s^2=\frac{\sum_{i=1}^k (M_i-\bar x)^2f_i}{n-1}$$
样本标准差:
$$s=\sqrt {\frac{\sum_{i=1}^N (x_i-\bar x)^2}{n-1}}$$
或
$$s=\sqrt{\frac{\sum_{i=1}^k (M_i-\bar x)^2f_i}{n-1}}$$
由于我目前主要从事健康地理学方面的研究,最近碰上了一个基础的OR值计算问题。首先OR值的全称是odds ratio值,这是公共卫生领域的一个专业名词。这里给出Encyclopedia of Public Health的定义。
The odds ratio (OR) provides a measure of the strength of relationship between two variables, most commonly an exposure and a dichotomous outcome. It is most commonly used in a case control study where it is defined as “the ratio of the odds of being exposed in the group with the outcome to the odds of being exposed in the group without the outcome.”
This concept can be extended to a situation with multiple levels of exposure (e.g., low, moderate, or high exposure to an environmental containment). One exposure level is assigned as the “reference” level. For each of the remaining exposure levels, one divides the odds of that exposure level in the outcome positive group (compared with the reference level) by the odds of that exposure level in the outcome negative group.
The OR ranges in value from 0 to infinity. Values close to 1.0 indicate no relationship between the exposure and the outcome. Values less than 1.0 suggest a protective effect, while values greater than 1.0 suggest a causative or adverse effect of exposure.
这里简单翻译一下,OR值是用来度量两个变量之间关系强度的指标,常见于暴露水平与二分的健康结局变量。最常用在案例对照研究。OR被定义为“组中暴露患病几率与暴露未患病几率的比值”。这个概念通常可以拓展到多水平暴露指标,通常定义某一类别的暴露水平为参考水平,对于剩余的暴露水平,则除以该参考水平的暴露几率用来进行比较。这里要先给出odds的定义。odds,称为几率、比值、比数,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。用p表示事件发生的概率,则:odds = p/(1-p)。OR值的公共卫生意义如下:范围从0到无穷大。接近1.0的值表示暴露与结果之间没有关系。小于1.0的值表示保护作用,而大于1.0的值表示暴露的致病性或不利影响。
针对一个标准的2x2流病表格(如下)。实际上OR值计算如下:
$$暴露时患病几率=\frac{暴露时患病病例数}{未暴露时患病病例数}=\frac{a}{c}$$
$$暴露时未患病几率=\frac{暴露时未患病病例数}{未暴露时未患病病例数}=\frac{b}{d}$$
$$OR = \frac{a/c}{b/d}=\frac{ad}{bc}$$
Outcome +ve | Outcome -ve | |
---|---|---|
Exposed | a | b |
No exposed | c | d |
这里选用一个ICU的数据来进行说明,这个数据来源于David W. Hosmer等人出版的applied logistic regression一书中的数据。获取途径可以通过安装这个书的r包,命令如下。
|
|
安装完成以后,载入数据做个初步探索。
|
|
为了简单化,我们这里定义健康结局变量为status,即数据中的sta(Lived或者Died),感兴趣的自变量为age。首先绘制一下图。由于status是个二分变量。所以图就变成了如下的样子。
你是否觉得很熟悉?其实这就是logistic regression的典型数据。那么根据age的数据,我们做一个处理,统计不同年龄段的死亡率,以10岁为分界线。我们可以得到如下的图。
那么我们突然发现,这个散点是有线性趋势的。假设我们采用线性回归来做分析,即假定有:$pr(death)=\beta_0+\beta_1(age)$,不就可以拟合了吗?但是我们又会发现一个问题。那就是这里的y(pr(death))是有现实意义的实数,也就是它的值域必须在(0,1)中。然而等式右边实际上是可以取任何值的(根据$\beta_0 , \beta_1, age$),因此这个线性方程即使求解出来,预测值通常会超过实际的值域。所以为了解决这个问题,logistics regression就提出了。首先是定义了logit函数为:
$$logit(p)=log(\frac{p}{1-p})$$
$$p=pr(death)$$
那么这个logit函数的现实意义是事件发生几率的对数。那么同时模型就变成了:
$$log(\frac{p}{1-p})=\beta_0+\beta_1(age)$$
这时我们就会发现p的值域是在(0,1),而logit(p)的值域则是$[ - \infty, + \infty ]$
那这个时候我们就可以用线性回归方法求解系数了,因此logistic regression也被称为广义线性回归的一类。
那么我们再来看一个更特殊的情况,就是前面说的2x2联表的情况。假定自变量是个分类变量。这里选用icu数据里的type来分析(健康结局变量不变)。也就是说方程如下:
$$logit(p)=\beta_0+\beta1 (I{type})$$
2x2联表则为:
Lived | Died | |
---|---|---|
elective admission | a | b |
emeregency admission | c | d |
那么这时候$I{type}=0$时是elective admission,$I{type}=1$时是emeregency admission。因此我们可以得到对应的y值。也就是elective adminssion的logit(p)为$\beta_0$。而emergency admission的logit(p)为$\beta_0+\beta_1$。那么根据logit函数的定义,我们就有如下的式子:
对elective adminssion的odds:
$$odds_{ele}=\frac{p}{1-p}=\frac{a}{b}=e^{\beta_0}$$
对emergency adminssion的odds:
$$odds_{eme}=\frac{p}{1-p}=\frac{c}{d}=e^{\beta_0+\beta_1}$$
那么所以这个OR值就可以计算:
$$OR =\frac{ad}{bc} =odds{ele}/odds{eme}=\frac{a}{b}/\frac{c}{d}=e^{\beta_0+\beta_1}/e^{\beta_0}=e^{\beta_0+\beta_1-\beta_0}=e^{\beta_1}$$
也就是说,实际上OR值就是e的logistics regression中的回归系数次方。因此通常在公共卫生研究中求OR值,第一步就是先做logistics regression然后接着进行计算。对应其实也可以计算OR的95%置信区间以及p值(Explaining Odds Ratios)。这块这里就不详述了。我这里还是采用icu数据做个样例分析,展示三种方式(第一种不借助其他包,第二个使用epiDisplay,第三个是用questionr)求OR。
|
|
目前个人推荐第三种,能把p值一起算出来,这里要注意R里面默认factor的第一个因子作为参考组(baseline),如需要设置不同的参考组。可以用如下的函数。
|
|
最后本次的代码也都是在之前的github项目上。欢迎大家使用。最后再放一下两个项目地址:
Note-of-Applied-Statistics-with-R
Note-of-Applied-Statistics-with-R-Book
参考链接:
]]>大家新年好,新一期资源整理博客。
1.针对R语言新手的shiny培训教程。
2.R语言包tinter,用于获取颜色的色调和阴影。
3.Power BI的培训研讨会。
4.使用C语言的API测试GEOS的性能。
5.R语言包exploreRGEE,探索RGEE-Google Earth Engine的包。
6.Shiny开发的拓展包资源。
7.深度学习框架性能分析工具包,可以对比多个深度学习框架性能。
8.R语言包rFIA,这个包可以让R语言用户轻松访问和获取美国农业部USDA的森林清查数据。
9.R语言包ggtext,改进ggplot2的文字渲染。
10.Microsoft AI for Earth计划在Azure上托管地理空间数据,这对于环境可持续科学和地球科学至关重要。 这个仓库托管有关AI for Earth管理的所有数据的文档和演示笔记本。
11.使用Python处理地理空间数据栅格与矢量的简介课程。
12.使用The Carpentries课程模板的示例课程。
13.生态与遥感深度学习的教育资源。
14.根据仓库名推断应该是美国摄影测量与遥感学会2020年会相关材料,涉及NDVI和植被覆盖相关分析的jupyter notebook。
15.开源大数据管理系统ClickHouse。
16.用于SpaDES软件包依赖项安装的elper实用程序,SpaDES是一个空间离散场模拟模型。
17.R语言包ggside,ggplot2的扩展包,可以用ggplot2 API绘制组合图(侧边)。
18.R语言包g2r,G2.js的R接口。
19.一个工作流,可自动集成植物性状数据以形成统一的最终数据集。
20.Julia包EndpointRanges,用于在数组索引中对端点进行算术运算。
21.MMCV是用于计算机视觉研究的基础python库,并支持以下许多研究项目。
22.PyNHD是用于检索和处理水文和气候学数据集的软件的一部分。该软件包提供对WaterData,国家地图的NHDPlus HR和NLDI Web服务的访问。这些Web服务可用于从NHDPlus V2(中等分辨率和高分辨率)数据库中导航和提取矢量数据。
23.2D格子Boltzmann-离散元方法。
24.Python库geoviews,简单的交互式地理空间数据可视化库。
25.Python库hvplot,用于基于HoloViews的pandas,dask,xarray和networkx的高级绘图API。
26.Python库rioxarray,由rasterio支持的地理空间xarray扩展。
27.针对坦桑尼亚野生生物种群和人类冲突的AI辅助航空影像分析。
28.geo_interface(类似于GeoJSON)协议是由Sean Gillies提出的,用于各类Python地理空间模块。
Python geo interface applications
29.R语言包poissnidisc,它实现了Robert Bridson的快速Poisson圆盘采样算法。Poisson圆盘采样是一种产生一组随机的点的方法,但这些点之间的最小距离绝不能彼此接近。
30.CoastSat是一个用Python编写的开源软件工具包,使用户能够获取30年来(并且正在不断增长)长时间序列公开卫星影像提取出的全球任何海岸线位置。
31.给微信公众号生成 RSS 订阅源。
32.R语言包bayes4psy,旨在简化心理学中贝叶斯统计的使用。
33.介绍性的datacube笔记本,这些笔记本旨在与Data Observatory的AWS租约上的智利CSIRO的datacube基础设施安装一起使用。
34.R语言数据可视化课程SDS375。
35.VS Code扩展,在侧边栏或面板中显示悬停文档。
36.Google Earth Engine教程。
37.2019栅格教程目录。
38.有关ICESat-2的介绍性讲座,以及ICESat-2数据产品的介绍。
39.R语言包gsDesign,轻松创建临床试验的分组顺序设计的工具。
40.Python库xagg,将网格数据聚合到多边形中。
41.适用于显微学家和其他图像处理爱好者的Python教程(Youtube视频对应代码)。
42.图像处理入门python教程(Youtube视频对应代码)。
python for image processing APEER
43.PyTorch中计算机视觉应用程序的自注意力构建基块。
44.rOpenSci扩展软件同行评审。
statistical software review book
45.R语言包modeltime,tidymodels的时间序列预测包。
46.发表在Nature Communication关于空间验证的论文的代码和数据。
47.R语言包timetk,在R里做时间序列分析的工具。
48.高斯过程的贝叶斯优化纯Python实现。
49.ESA关于mgcv包的研讨会。
50.R语言包starsExtra,使用“stars”栅格的其他功能。
51.R语言包opentripplanner,设置OpenTripPlanner(OTP)并将其用作多模式出行规划工具。
52.R语言包mapsf,在您的R工作流程中创建和集成专题图。 该软件包可帮助设计各种制图表达,例如比例符号,十字线或类型图。 它还提供了多种功能来显示布局元素,以改善地图的图形显示效果(例如比例尺,向北箭头,标题,标签)。 mapsf在基础图形上映射sf对象。
53.R语言包bayesGAM,使用Stan的贝叶斯广义加性模型。
54.2021年公开数据挑战赛:该暴露事件被描述为“从受孕以来人类环境暴露的总数”,它认识到个人同时暴露于多种不同的环境因素,并采取整体方法来发现疾病的病因。 与传统的“一次接触一种疾病病”研究方法相比,该接触物的主要优势在于,它为研究多种环境危害(城市,化学,生活方式,社会危害)及其综合影响提供了前所未有的概念框架。该挑战赛的目的是促进创新的统计,数据科学或其他定量方法,以研究复杂的高通量暴露指标(暴露物)对健康的影响。 此链接上提供了详细的挑战示例。这些是可用的数据集,可提出数据分析以应对任何挑战。
55.一个shinyapp包的例子。
56.用LaTex做的简历。
57.Mataveid是GNU Octave和MATLAB®的基本系统识别工具箱。
58.R语言包finetune,包含一些用于模型调整的附加函数,例如通过模拟退火优化进行调整是另一个用于查找良好值的迭代搜索工具。
59.R语言包quillt,R Markdown生态系统的pkgdown模板。
60.滴滴云推理服务的 HTTP 客户端示例代码。
61.关于类似于Markdown的规范的一个非常早期的,未经阐述的想法,该规范用于快速编写自由文本医学笔记,这些医学笔记可以通过编程方式解析为结构化数据,并在适当的地方使用术语。
62.课程606分布式计算系统的Hadoop和Spark代码。
63.Python库prettymaps,一个小的Python函数可从OpenStreetMap数据绘制漂亮的地图。 基于osmnx,matplotlib和shapely的库。
64.R语言包arduinor,提供了一种从arduino到R获取串行数据的简化方法。。
65.根据时间,经度和纬度计算日出和日落。这是Mike Chirico在2004年发布的Sunrise.c的修改。
66.《Machine Learning Design Patterns》一书的源码。
67.Echarts的Python库。
68.水体探测算法。
69.简单,开源,轻量级(<1 KB)和隐私友好的网络分析,可替代Google Analytics(分析)。
70.记录世界植物分布地理计划(WGSRPD)。
71.Python API旨在与ArcGIS REST Services在外部协同工作,以查询和提取数据以及查看服务属性。
72.树莓派安装脚本。
Raspberry Pi Installer Scripts
73.交通API,应用程序,数据集,研究和软件的资源列表。
74.开放的可持续研究技术。
75.这是一个具有ATI GPU监控功能的多线程多池GPU挖矿器。
76.在Python中发送JSON-RPC请求。
77.可通过EPA网站获得的多个Python API。
78.重命名Github仓库的默认分支master。
79.R语言包brolgar,用图形方式和分析方式浏览R中的纵向数据。
80.R语言包treetop,一个shiny app用来从LiDAR数据里提取森林信息。
81.R语言包linemap,创建线密度图的工具。
82.Ecology Letters上一篇论文的代码实现,关于用贝叶斯网络实现物种分布模型预测。
83.R语言包megaSDM,可以使用MaxEnt框架和并行处理有效地创建和订正物种分布模型。
84.在历史/考古数据集中建模时间不确定性。
85.LANDIS-II模型的净碳与氮循环模块扩展。
86.《DAX Cookbook》一书的代码。
87.R语言包mitre,旨在提供轻松访问的网络安全数据标准。
88.Python库glocaltokens,可从Google服务器提取Google家用设备本地身份验证令牌。
89.R语言包rcompendium,简化R软件包/研究纲要(即预定义的文件/文件夹结构)的创建,以便用户可以专注于代码/分析而不是浪费时间来组织文件。
90.wagyu是一个基于OGC标准的用于基本几何运算的通用库。
背景:全球变暖可能会增加复合极端天气(CHE)的频率。本研究旨在评估中国因CHEs引起的当前死亡负担和未来死亡风险。方法:2006年至2017年,中国各地共有364个地点收集了每日气象,空气污染和死亡率数据。白天/夜晚热被确定为每天的Tmax / Tmin高于夏季的90%的一天。 CHE被定义为一个炎热的夜晚,紧接着是炎热的一天。首先使用分布式滞后非线性模型评估每个位置的CHEs造成的死亡风险。使用多元荟萃分析模型汇总了特定于地点的关联,并评估了在不同气候变化情景下(RCP 2.6,RCP 4.5,RCP 8.5)当前CHEs当前时间和死亡风险的可归因分数。结果:CHEs(RR:1.23,95%CI:1.19-1.28)与较高的死亡风险相关,而0.96%的死亡率可归因于CHEs。我们发现,华北地区的女性,老年人和人们更容易受到CHE的侵害。此外,更密集(RR:1.07,95%CI:1.06-1.08)和连续的CHEs(RR:1.09,95%CI:1.02-1.17)可能会增加死亡风险。我们还观察到,在中高气候变化情景下,2090年代可归因于CHE的死亡人数是七至十九倍。结论:我们的研究发现,CHEs显着增加了死亡风险,并且将来会引起相当大的死亡负担。这些发现表明,有必要制定临床和公共卫生政策以减轻与CHEs相关的死亡率负担。关于高温和极端天气造成的死亡率负担,气候变化与公众健康的一个研究。正如比尔盖茨基金会前一段的文章以及Lancet清华大学的报告,气候变化或许是比新冠更大的一个公众健康危机。
2.Deep multisensor learning for missing-modality all-weather mapping/深度多传感器学习,用于丢失模式的全天候地图绘制
多传感器地球观测极大地加速了多传感器协作遥感应用的开发,例如使用合成孔径雷达(SAR)影像和光学影像的全天候地图绘制。但是,在实际应用场景中,并非所有数据源都可用,即缺少模态问题,例如不良的成像条件阻碍了光学传感器,并且只有SAR图像可用于映射。这种现实情况提出了如何利用历史多传感器数据来提高可用模型的表示能力的挑战。作为可行的解决方案,基于知识转移和基于知识荟萃的方法可用于将知识从其他传感器模型转移到可用模型。但是,这些方法存在知识被遗忘的问题和多模式共注册问题,这意味着利用历史多传感器数据效率低下。根本问题在于以下事实:这些方法是按照单传感器数据驱动的方法设计的。为了解决上述问题,本文提出了一种免注册的多传感器数据驱动学习方法,即深度多传感器学习,以解决上述问题。为了探讨元感觉表示的存在,首先提出了元感觉表示假说,该假说揭示了基于来自不同传感器的数据训练的深度模型的本质差异在于传感器不变和传感器不变的参数分布。具体操作。基于此假设,提出了一个原型网络,通过使用建议的差异对齐操作(DiffAlignOp)对知识保留机制进行建模,以学习元感官表示。 DiffAlignOp使原型网络能够动态生成特定于传感器的网络,以从免注册的多传感器数据中收集监控信号。这种动态网络生成是可区分的。因此,可以获取多传感器梯度来学习元感觉表示。为了证明深度多传感器学习的灵活性和实用性,在缺少模式的情况下进行了全天候地图的应用。实验是在大型公共多传感器全天候地图数据集上进行的,该数据集由空间分辨率为0.5 m的高分辨率光学和SAR图像组成。实验结果表明,深度多传感器学习在性能和稳定性方面优于其他学习方法,并且揭示了元传感器表示在多传感器遥感应用中的重要性。武大张良培老师团队的成果,基于多传感器联合的深度学习方法。
夜间灯光(NTL)卫星数据已被广泛用于调查城市化过程。DMSP-OLS稳定的夜间光数据和Suomi NPP-VIIRS夜间光数据是两个广泛使用的NTL数据集。但是,它们在空间分辨率和传感器设计上的差异要求对这两个数据集进行跨传感器校准,以分析长期的城市化过程。通过将NPP-VIIRS转换为类似DMSP-OLS的NTL数据,与传统的NTL数据跨传感器校准不同,本研究通过一个新的交叉根据DMSP-OLS NTL数据(2000-2012年)和每月NPP-VIIRS NTL数据(2013-2018年)进行传感器校准。由于通过使用植被指数和自动编码器模型增强了图像,因此提出的跨传感器校准是唯一的。与2012年的年度NPP-VIIRS NTL综合数据相比,我们扩展的类NPP-VIIRSNTL数据产品在像素水平和城市水平显示出良好的一致性,R2分别为0.87和0.95。我们还发现,通过与2000年,2004年,2006年和2010年的DMSP-OLS辐射校准的NTL(RNTL)数据进行比较,我们的产品具有很高的准确性。总的来说,我们扩展了类NPP-VIIRS的NTL数据(2000–2018年)具有与合成NPP-VIIRS NTL数据相似的出色空间模式和时间一致性。此外,与现有产品相比,可以轻松更新所得产品并提供有用的代理,以在更长的时间内监视人口统计和社会经济活动的动态。佐旗师兄与余柏蒗老师团队的成果,一套非常不错的数据,发表于数据期刊top杂志ESSD,结合自动编码器等一些计算机视觉的算法进行数据融合,可以为长时间序列城市研究提供数据基础。
由于空间分辨率和计算成本之间的权衡关系,在大型流域的生态水文模型中,要代表田间尺度(例如,数米至数十米)的异质性仍然是一个巨大的挑战。这项研究通过引入土地覆被的亚网格结构,多层土壤水模拟以及网格内灌溉的精确空间覆盖,改进了现有的生态水文模型HEIFLOW。这些改进使该模型能够在从田间尺度到大盆地尺度(即104至105 km2)的各种空间尺度上提供可靠的模拟。该新模型在黑河流域(中国第二大内陆流域)中实施,其网格大小为1 km x 1 km,建模范围约为90,589 km2。主要研究结果包括以下内容。首先,在植被稀疏的干旱地区,忽略陆地表面的亚网格特征将导致重大误差,当使用建模结果来支持管理或扩大规模以进行更大范围的气候建模时,误差可能会进一步传播。其次,多层土壤结构可以改善随时间变化的生态水文模拟,并且有必要从干旱地区的土壤区域中分离出一个薄表层。在案例研究中,单层土壤结构在模拟年度最大叶面积指数(LAI)时会引入大于10%的误差。第三,考虑网格单元内灌溉的准确空间覆盖对于成功模拟干旱地区的生态水文过程至关重要。在案例研究中,准确的空间覆盖率将导致整个灌溉区域的模拟平均土壤蒸发,蒸腾作用和LAI的变化分别为-31%,+ 46%和+ 13%。总体而言,这项研究为解决生态水文建模中的规模问题提供了独特的视角,并揭示了田间尺度的异质性对基于生态水文建模的水资源和生态系统管理的重要性。李新老师团队的成果,改进生态水文模型来实现田间尺度空间异质性的建模。亚网格结构的引入是一个关键。
5.Greenhouse gas observations from the Northeast Corridor tower network/东北廊道的温室气体通量塔观测网
我们介绍了东北廊道温室气体观测网络的组织,结构,仪器和测量。 这个基于通量塔的现场二氧化碳和甲烷观测站网络于2015年建立,其目标是量化美国东北部城市地区这些气体的排放量。 该网络的重点是马里兰州的巴尔的摩市和美国的华盛顿特区市,这两个城市地区的观测站密度很高。 其他观测站遍布美国东北部,其建立是为了补充其他现有的城市和区域网络,并在人口密度高和多个大都市区的这个复杂区域中调查排放量。 本文描述的数据已保存在美国国家标准技术研究院,并可以在https://doi.org/10.18434/M32126(Karion等人,2019)找到。一套美国的温室气体观测网络数据,这也是未来碳中和研究的重要数据基础,目前中国区域内还没有类似这样子的观测网络,这对长期城市二氧化碳排放研究是不利的,当前的大量研究缺乏直接通量的测量数据。
随着全球变暖趋势的加剧,中国政府面临减少二氧化碳排放的巨大压力。这项研究的目的是准确测量中国城市规模的二氧化碳排放量,并研究环境库兹涅茨曲线,从而为决策提供参考。校正后的NPP-VIIRS夜间光数据用于准确估算中国省市规模的二氧化碳排放量。然后,基于STRIPAT模型,使用了中国的291个城市来验证环境库兹涅茨曲线。我们的结果表明,在省级范围内,二氧化碳的估计值与统计值之间的R2达到0.85。中国的西部城市,经济发达的城市以及以工业和采矿为主的城市排放的二氧化碳也更多。北部有两个CO2排放热点,南部有一个冷点。发现存在城市规模的环境库兹涅茨曲线。这项研究在利用NPP-VIIRS数据估算城市CO2排放量方面具有实用价值。这些结果对于确定导致二氧化碳排放的因素也具有学术价值,可以为相关决策者提供参考。这项研究可被认为是第一个基于NPP-VIIRS夜间灯光数据模拟中国省市水平的CO2排放量,以探索相关的地理分布特征和潜在影响因素的研究。用NPP-VIIRS夜间灯光数据模拟的CO2排放量分析环境库兹涅兹曲线,不过对摘要的最后一句第一个这样子的研究表示有所怀疑。
]]>大家新年好,新一期资源整理博客。
1.R语言包radiant.basics,使用R和shiny的商业分析软件包。
2.一个用于探索和发布数据的开源多功能工具,Datasette是用于浏览和发布数据的工具。 它可以帮助人们获取任何形状或大小的数据,并将其发布为交互式,可探索的网站和API。
3.关于作者硕士论文的技术部分,基于Google Earth Engine实现的结合Landsat和Sentinel 2以进行作物监测。
4.处理道路相关数据的流程化脚本。
5.小麦枯萎病杀菌剂功效的Meta分析。
6.OpenMapKit Server是OpenMapKit的轻量级服务器组件,用于处理OpenStreetMap和OpenDataKit数据的收集和聚合。
7.OpenMapKit的主要文件。
8.世界卫生组织的开源沟通频道。
open source communication channel
9.现代C++的教程。
10.InVEST模型的docker镜像。
11.R语言包targettypes,是target包的目标原型和管道原型的集合。 这些原型使用简洁的语法表示复杂的流水线,从而增强了可读性,从而提高了可重复性。
12.R语言包rstac, SpatioTemporal Asset Catalog 的R客户端,SpatioTemporal Asset Catalog是用于描述地理空间信息数据的文件和Web服务的规范。
13.Adobe Illustrator的Javascript脚本集合。
14.Python库xarray_leaflet,leaflet的xarray拓展插件。
15.局部气候分区图的多标签机器学习标注,还在建设中。
16.QGIS的资源。
17.Python库DearPyGui,一个快速且有力的GUI工具。
18.Kevin Murphy《概率机器学习》的一系列书籍。
19.UCL CASA的课程编程导论。
20.R语言包bnspatial,贝叶斯网络与地理空间制图的空间化实现。
21.Aalto GIS课程的CSC JupyterLab环境。
22.R语言包rmdrive,提供了简单的功能可将rmd文件移动到google drive以进行同步协作,然后将其返回到本地.Rmd进行修订。
23.R语言包USAboundaries,用以获取美国的历史和当代边界数据。
24.局部气候分区图的例子。
25.R语言包mschart,方便创建可以用于Microsoft Power Point的可交互式图片。
26.一位生态学家的Shiny介绍。
27.gdal-summarize.py的目标是汇总跨图层的栅格数据。
28.更简单构建机器学习API的方式。
29.一个基于Postgres SQL与PostGIS构建的开源地理空间轨迹数据库。
30.R语言包ape,系统发育和进化分析。
31.贝叶斯方法+概率编程的介绍,纯Python实现。
Probabilistic Programming and Bayesian Methods for Hackers
32.R语言包rgeoboundaries,geoboundaries API的R客户端。
33.课程可持续发展的空间数据科学的jupyter Notbebook(学生版本)。
34.100天的tensorflow概率实验。
tensorflow probability 100days
35.开源web地图js库openlayers。
36.rspatialdata的主页。
37.R语言包DataEditR,在R中手动输入和编辑数据可能很繁琐,尤其是如果您的编码经验有限并且习惯于使用带有图形用户界面(GUI)的软件。 DataEditR是一个基于shiy和可扩展的R软件包,可以轻松地交互查看,输入,过滤和编辑数据。
38.一个用于构建管理面板和内部工具的Web框架。
39.Rowan University生物学家的数据科学的课程资料。
40.plaidml是一个框架将深度学习应用到不同领域。
41.Python库PrettyErrors,美化Python异常输出以使其清晰可见。
42.Python库diagrams,使您可以用Python代码绘制云系统架构。 它的诞生是为没有任何设计工具的新系统架构设计提供原型。 您还可以描述或可视化现有的系统架构。
43.Postgre SQL和PostGIS。
44.DevOps,开发人员和平台工程师的工具集合。
docker development youtube series
45.R语言包msmbstyle,为使用R包的书籍生成的HTML页面提供了另一种设计。将注释放在页面右边。
46.气候相关的数据集API与开源项目。
47.R语言包slider,提供了一系列通用的“滑动窗口”功能。 该API的目的与purrr非常相似。 这些功能的目标通常是计算滑动平均值,累积总和,滑动回归或其他基于“窗口”的计算。
48.免费R-Tips是Business Science提供的免费新闻通讯。每个星期二提供的代码教程。
49.仿制控制算法中的通用性多任务评估(MAGICAL)。
50.PyCRS是一个纯Python GIS软件包,用于在各种通用坐标参考系统(CRS)字符串和数据源格式之间进行读取,写入和转换。
51.Julia的软件包DoctorDocstring,用于诊断软件包中缺少的文档字符串。
52.papermill是用于参数化,执行和分析Jupyter Notebook的工具。
53.将钢琴录音转录成MIDI文件的任务。 高分辨率钢琴转录系统的PyTorch实现。
54.R语言包tmaptools,该软件包提供了一组方便的工具功能,用于读取和处理空间数据。 这些功能的目的是提供工作流程以创建专题图。
55.使用PySimpleGUI开发的数据科学和机器学习GUI程序/桌面应用程序。
56.使用Python、OpenCV、FFmpeg,自动识别电影剪辑、分析剪辑主题颜色。
cut video and generate color with python opencv
57.Sentinel系列卫星SAR影像分析的jupyter notebook样例。
58.rodent小数据集中的缺失值探索。
59.bco app是用于创建,验证和浏览BioCompute对象的Shiny应用程序。
60.使用Golang编写的LAS文件的Cesium.js点云3D切片生成器。
61与Tucker, A.M., C.P. McGowan, E. Mulero, N.F. Angeli, and J.P. Zegarra的论文”A demographic projection model to support conservation decision making for an endangered snake with limited monitoring data(In revision - Animal Conservation)”相关的代码和文件。
62.严重性估算:虚拟实验。
63.微软的人工智能系统课程资源。
64.R语言包agriwater,使用卫星影像和农业气象数据获取能量平衡和实际蒸散量的R软件包。
65.Voilà将Jupyter笔记本变成独立的Web应用程序。
66.IPSQL是可以在IPFS中运行的去中心化数据库。 它实现了SQL模式,数据模型和查询语言。
67.R语言包speed,空间增强和熵导出的邻接矩阵(SpEED-CoMat)。
68.forty是一个多页面网站的hugo主题。 它是HTML5 UP构建的移植主题。该主题包含许多样式元素,并具有联系表单。 专为博客,企业或自由职业者而设计。
69.由克罗姆(Peter Lemon)设计的Game Boy Advance裸机代码。所有代码都可以通过FASMARM汇编器即时进行编译。
70.R语言包correlation,相关分析的方法包。
71.Python库geosnap,使探索,建模,分析和可视化社区的社会和空间动态变得更加容易。
72.Python库tobler,用于面插值,等轴测图映射和支持更改。
73.JuliaGeo是一个组织,其中包含许多相关的Julia项目,用于处理,查询和处理地理空间几何数据。 该存储库旨在围绕JuliaGeo组织进行讨论,并列出了一些可用的现有库,以及参与JuliaGeo生态系统的方式(软件包,教材等)。
74.“学习玩混沌游戏:通过区分迭代函数系统来实现分形叶子”的代码。
75.Python库scikit-multilearn,能够执行多标签学习任务。
76.Google Earth Engine代码,可通过Landsat系列卫星计算地表温度。Remote Sensing发表文章的代码。
77.”An Introduction to Statistical Learning”一书的练习与答案。
An Introduction to Statistical Learning
78.具有重要性加权Actor-Learner架构的可扩展分布式深度强化学习。
79.该数据集16级的Web墨卡托地图瓦片提供了全球固定宽带和移动(蜂窝)网络性能指标。
80.ImplicitGlobalGrid是瑞士国家超级计算中心,苏黎世联邦理工学院(Samuel Omlin博士)与斯坦福大学(LudovicRäss博士)和瑞士地理计算中心(Yuri Podladchikov教授)合作的产物。 它使规则的交错网格上基于模板的GPU和CPU应用程序的分布式并行化几乎变得微不足道,并且使成千上万个GPU上的现实应用程序接近理想的尺度。
81.多标注模型性能的评估指标。
82.Python库TensorFlow Recommenders,一个使用TensorFlow构建推荐系统模型的库。
83.Python库acme,一个强化学习的研究框架。
84.Python库TF-Agents,使用Tensorflow进行强化学习的库。使实施,部署和测试新的Bandits和强化学习算法更加容易。 它提供了经过测试的模块化组件,可以对其进行修改和扩展。 它具有良好的测试集成和基准测试,可实现快速代码迭代。
85.docker的基础。
86.Reverb是专为机器学习研究而设计的高效且易于使用的数据存储和传输系统。
87.hugo的coder主题。
88.Klever是用于机器学习工作负载的云原生平台。 它可以帮助用户训练,分发,管理和服务其机器学习模型。
89.分布式强化学习代理的实现。
90.基于Ray和Tensorflow的分布式强化学习框架。
91.Linux运行wine应用(QQ/微信/百度网盘/TIM/迅雷极速版/Foxmail等),适用于所有发行版——- Best wine-QQ/TIM/Wechat for all Linux distros。
92.stravalib项目旨在提供一个用于与Strava v3 Web服务进行交互的简单API。
93.有关机器学习和捕捉相机陷阱的所有信息的列表。
94.21世纪的探索性数据分析。
exploratory data analysis in the 21st century
95.Python库gdown,从Google云端硬盘下载大文件(由于安全提示,curl / wget失败)。
96.通过利用Apache MXNet进行动态培训,可以利用AWS云的弹性和规模来降低深度神经网络的培训成本和时间。
dynamic training with apache mxnet on aws
97.Python库modin,通过更改一行代码来加速pandas工作流程。
98.苏格兰NHS(国家健康服务系统)的数据分析专家/商业智能开发者的主页(使用R)。
99.R语言包rdwplus,Peterson&Pearse(2017)的IDW-PLUS的开源实现(IDW-PLUS,溪流土地的反距离加权百分比)。
100.基于dashboard的shiny app,内容是地下水相关。
101.R语言包terrainr,从USGS国家地图获取DEM和正射影像,对图像进行地理配准并合并栅格,并对输出进行转换,以便将其导入到Unity中。
102.Python库geocube,将Geopandas矢量数据转换为栅格化xarray数据的工具。
103.IGARSS 2021会议相关材料。
104.来自微软AI for Earth项目,土地覆被制图,前端Web应用程序和后端服务器。
105.通过Excel学习数据挖掘。
Learn Data Mining through Excel
106.Learning to Rearrange Deformable Cables, Fabrics, and Bags with Goal-Conditioned Transporter Networks论文代码。
107.RStudio的地理数据科学环境docker容器化镜像。
108.R语言包scholar,提供了从Google Scholar中提取引用数据的功能。 除了检索有关单个学者的基本信息之外,该软件包还允许您比较多个学者并预测未来的h指数值。
109.tensorflow源码阅读笔记。
110.PyHSPF包含Fortran水文模拟程序(HSPF)的Python扩展,包括用于收集输入数据,构建输入文件,执行模拟,后处理结果,校准水文过程参数以及预测气候和土地利用变化对水资源的影响的类。要使用HSPF,需要一个河流网络的流线和集水量数据,河流到达子流域的土地利用数据,气候参数的时间序列数据以及每个土地利用类别/子流域的水文参数。可以根据需要在外部提供数据(例如,使用Python扩展程序来处理各种数据类型)或使用PyHSPF的预处理类。
111.Python库atral,计算太阳和月亮的位置。
112.用于软件和Web开发的免费API的汇总列表。
113.R语言包sizzled,可创建需要样本量计算的实验。
114.R语言包AOI,AOI的目的是帮助人们为分析和制图工作流创建可重现的的边界。
115.R语言包slga,可以从澳大利亚土壤与景观网格下载指定区域的数据。
116.FORCE11软件引证实施工作组。
117.udemy.com的课程The Complete JavaScript Course 2021: From Zero to Expert资料。含课程中所有部分和项目的入门文件和最终代码。
118.使用“ Apache”“ Drill”转换和查询数据的工具。
119.Python库manim,用于数学解释视频的动画引擎。
120.joplin在VSCode中的集成目前允许对目录和注释进行直接操作,同时支持搜索功能。
121.全球湖泊数据库(GLLD)是Python软件包LakePy的后端体系结构。 GLLD在Amazon Web Services(AWS)关系数据库服务(RDS)上托管历史湖泊数据。
122.Google Cloud Developer的视觉笔记,Google Cloud系列产品中的每个产品都以可视化的草图注释格式描述,以快速,轻松地掌握工具的功能。
123.带有自动完成功能,订阅和GraphiQL的GraphQL的curl。 也是一个简单的通用javascript GraphQL客户端。
124.Python库nmslib,dbMAP(基于扩散的流形逼近和投影),一个用于运行基于扩散的流形近似和投影(dbMAP)的python模块,这是一种快速,准确和模块化的降维方法。
125.HugeCTR是NVIDIA Merlin Open Beta的组件,是GPU加速的推荐程序框架。
126.TensorFlow的性能分析和性能分析工具。
127.一个有趣的shiny小应用程序,灵感来自@nnstats的推文。
128.XNNPACK是针对ARM,WebAssembly和x86平台的高度优化的浮点神经网络推理运算符库。
129.音乐深度学习的资源。
130.如何使用苏格兰NHS网站的API。
131.免费的计算机编程类中文书籍,欢迎投稿。
132.练习旨在反映对可持续性和空间数据科学的看法,并帮助开始使用Python并学习使用课程环境。
133.R语言包polite,基于出色的工具包,用于定义和管理http会话(httr和rvest),声明用户代理字符串和调查站点策略(robotstxt)以及利用速率限制和响应缓存(ratelimitr和备忘录)。
134.Data Science Studio课程的资料。用于分析人群动态。
135.Python库isort,用于按字母顺序对导入进行排序,并自动将其按部分和类型分开。 它为各种编辑器提供了命令行实用程序,Python库和插件,可快速对所有导入进行排序。
136.Python库LakePy,是以用户为中心的Global Lake Level Database的pythonic前端。
137.Python库xoak,Xoak是Xarray扩展,它允许逐点选择以任意数量的维度在坐标中编码的不规则n维数据。
138.滑铁卢大学的CS350(操作系统)课程考试复习笔记。
139.R语言包parallelly,提供增强并行程序包的功能。例如,availableCores()给出R选项和环境变量(包括由作业调度程序在高性能计算(HPC)集群上设置的选项)和环境变量给定的R进程可用的CPU内核数。如果R在’cgroups’或Linux容器下运行,那么它们的设置也会被确认。
140.Carter et al. 2020论文的代码和数据。
temporal island prioritization
141.Python库Opacus,可以使用不同的隐私训练PyTorch模型。 它支持在客户端上进行的代码更改最少的培训,对培训性能的影响很小,并且允许客户端在线跟踪在任何给定时刻花费的隐私预算。
142.Verdaccio是一个简单的,零配置所需的本地私有npm注册表。 无需整个数据库就可以开始! Verdaccio具有自己的小型数据库,并且具有代理其他注册表(例如npmjs.org)的能力,并一路缓存下载的模块。
143.Three.js渲染器,它利用路径跟踪来渲染具有真实照片级逼真的场景。 渲染器支持全局照明,反射,柔和阴影和逼真的环境照明。
144.Python库dalle-pytorch,在Pytorch中实现/复制OpenAI,即OpenAI的文本到图像转换器。 它还将包含CLIP,用于对世代进行排名。
145.LocalStack为开发云应用程序提供了易于使用的测试/模拟框架。
146.用于信用卡审批分析的R Shiny App。
147.Python库alive-progress,一种新型的进度条,具有实时吞吐量,eta和非常酷的动画!
148.Topeka, Kansas的FEV1探索性数据分析。
149.R语言包easystats,旨在提供一个统一和一致的框架来训练,约束和利用R统计信息及模型。
150.使用U-Net架构的Pytorch实施进行道路和建筑物提取。
151.SEVIR天气数据集的挑战和基线模型。SEVIR(用于雷达和卫星气象学中的深度学习应用的Storm事件图像数据集)。
152.R语言包urlchecker,从旧版本的R 4.1中的R 4.1运行URL检查,并根据需要自动更新URL。
越来越多地研究环境暴露,作为健康行为和疾病后果的可能驱动因素。旨在识别和更好地了解暴露在整个生命过程中对行为和疾病风险的影响的所谓暴露研究需要高质量的环境暴露数据。荷兰拥有各种各样的环境数据,包括有关城市基础设施,物理化学暴露,社区服务的存在和可用性等的高空间分辨率和时空分辨率信息。直到最近,这些环境数据还是在不同的空间尺度上进行分散和测量的,这阻碍了与个人(队列)数据的链接,因为它们尚未作为个人暴露进行操作,即暴露于特定于某个人的环境特征。在地球科学和健康人群联合会(GECCO)中,并在全球地球健康数据中心(GGHDC)的支持下,荷兰建立了一个平台,该平台将环境变量集中化,作为个人暴露进行操作,并用于丰富23个人群研究并应要求提供给研究人员。我们在这里展示并详细介绍了迄今为止GECCO内可用的一系列个人暴露数据集,涵盖了荷兰整个土地上荷兰所有居民(目前约为1700万)的个人暴露,并讨论了挑战和机遇。现在和不久的将来使用它。一项先瞻性的地理环境暴露队列研究,非常重要的一项数据。
对于诸如地图,导航和监视之类的各种应用,市区的语义标记是一项必不可少但具有挑战性的任务。光检测和测距(LiDAR)系统的飞速发展为这项任务提供了使用3D点云的可能解决方案,该点云可访问,负担得起,准确且适用。在所有类型的平台中,具有LiDAR的机载平台可以用作市区大规模3D映射的高效工具。在这种背景下,已经开发了大量算法和方法来充分探索3D点云的潜力。但是,对于评估已开发算法和方法的性能至关重要的,可公开访问的大规模注释数据集的创建仍处于早期阶段。在这项工作中,我们提出了在高密度和复杂的市区中获取的大规模空中LiDAR点云数据集,用于评估语义标记方法。该数据集覆盖了大约1平方千米的高密度建筑物的市区,并包含超过300万个点,并标记了五类对象。此外,利用几种基线方法的结果进行了实验,证明了该数据集作为评估语义标记方法的基准的可行性和能力。慕尼黑工大团队的一套数据集,语义标记的航空LiDAR数据集。
3.Coastal vulnerability to climate change in China’s Bohai Economic Rim/中国环渤海地区沿海地区对气候变化的脆弱性
气候变化和人类活动给城市沿海地区带来了各种各样的压力。对沿海脆弱性的综合评估对于有效的干预措施和长期规划至关重要。但是,很少有基于对城市沿海地区的生态和物理特征以及社会经济状况进行综合分析的研究。这项研究建立了一个整体框架,从生物物理暴露,敏感性和适应能力三个方面评估沿海脆弱性,并将其应用于中国广阔而重要的开发区环渤海经济圈。针对总5627公里海岸线中的每1 km2段,开发了一个综合脆弱性指数(CVI),并通过绘制当前和未来气候变化情景下CVI的分布模式,确定了最容易造成沿海灾害的地区。 CVI显示出空间异质性,较高的值集中在西南和东北海岸,而较低的值集中在南部海岸。目前,约有35万人的海岸线中有20%极易受到沿海灾害的影响。在2100年的未来情景中,随着海平面上升,更多的海岸线将变得高度脆弱,受高度威胁的人口数量估计将增加13-24%。在沿海城市中,东营被归类为脆弱性最高的国家,这主要是由于交通和医疗服务差以及人均GDP低,这导致适应能力低下。我们的结果可通过突出优先领域并确定优先级的最重要决定因素,促进针对气候变化适应和可持续沿海管理的针对特定地点的干预措施而使决策者受益。欧阳志云老师团队的研究,分析海岸带对气候变化的脆弱性。研究的框架值得参考,包括暴露,敏感性和适应能力的综合评估。
正确估计初始状态变量和模型参数对于确定数值模型预测的准确性至关重要。在这项工作中,我们开发了基于集成卡尔曼滤波器和Common Land Model 3.0版(CoLM)的一维土地数据同化方案。该方案用于改善土壤温度剖面的估算。叶面积指数(LAI)也由MODIS LAI生产动态更新,并且MODIS地表温度(LST)产品被吸收到CoLM中。在2002年10月1日至2003年9月30日期间,通过对CEOP蒙古参考站中的四个自动气象站(BTS,DRS,MGS和DGS)进行观测,对该方案进行了测试和验证。结果表明,数据同化可以改善估计土壤温度剖面约为1K。与模拟相比,BTS和DGS处土壤热通量的同化结果分别约为13 W m-2和DRS和MGS处分别为2 W m-2。此外,将MODIS土地产品同化为地表模型是一种改进地表变量和通量估算的实用而有效的方法。李新老师团队的成果,发表于遥感界top期刊RSE,利用集成卡尔曼滤波和MODIS LST进行数据同化,改进土壤温度估算。结合了通用陆面模型的一个研究。从结论看似乎是把土地产品(分类数据)同化为地表模型,这是比较有意思的点,用分类变量同化数值变量。
激光雷达的出现彻底改变了我们从地面和地面上观察和测量植被结构的方式,代表了对3D生态观察定量化的重大进步。激光雷达硬件系统和数据处理算法的发展极大地改善了激光雷达观测在生态研究中的可访问性和易用性。广泛的研究致力于精确地测量和建模激光雷达数据中的植被结构和功能属性,这些数据来自一系列空间尺度(从单个器官到全球尺度)和生态系统类型(例如,森林,农业,草地和城市生态系统) )。随着激光雷达技术和应用的发展,人们越来越认识到研究3D生态系统结构的重要性。研究表明,激光雷达观测可以有效地用于校准和改善生态模型,并产生更详细,更准确的结果,带来了新的生态学见识,对我们现有的知识提出了挑战。尽管如此,我们认为将3D激光雷达观测纳入生态模型仍处于起步阶段,并且尚未充分探索将3D激光雷达观测与多源遥感数据融合以促进对生态过程的新认识的潜力。 3D生态观测的获取应继续拥抱多维大遥感数据时代,带来新的挑战和机遇。通过数据融合探索多时相和多平台遥感数据的潜力,将使下一代生态模型受益。郭庆华老师团队的成果,一篇综述关于LiDAR在3D生态观测与建模中的应用与潜力。适合对LiDAR与生态遥感的同学研读,从而快速了解该领域的发展与现状。发表于遥感界当前IF最高的top期刊IEEE Geoscience and Remote Sensing Magazine 。
背景:短期暴露于PM2.5已与人类发病率和死亡率广泛相关。但是,大多数最新研究都是在每天的时间范围内进行的,而忽略了暴露和结果的日内变化。作为PM2.5中的重要组成部分,尚未对PM1在几个小时内的非常严重的影响进行过研究。方法:2015-2016年,从中国广州收集了针对特定规模的PM(即PM1,PM2.5和PM10),全因急诊室(ED)的就诊和气象因素的每小时数据。进行了时间分层的病例交叉设计,并进行了条件逻辑回归分析,以评估特定大小的PM和ED访视之间的每小时关联,并调整了每小时平均温度和相对湿度。进行了按年龄,性别和季节分层的亚组分析,以确定潜在的影响因素。结果:总共包括292,743例急诊就诊。特定尺寸颗粒物的影响表现出高度相似的滞后模式,其中估计的比值比(OR)从滞后0–3到4–6 h略有上升,随后随着滞后时间的延长而衰减为零。与PM2.5和PM10相比,PM1对急诊就诊的影响略大。例如,在滞后0–3小时,急诊就诊次数增加了1.49%(95%置信区间:1.18-1.79%),1.39%(1.12-1.66%)和1.18%(0.97-1.40%),与10- PM1,PM2.5和PM10分别升高μg/ m3。我们已经发现,随着季节的变化,效果显着变化,与寒冷月份(1.010,1.005至1.015)相比,在寒冷月份(1.017,1.013至1.021),与PM1相关的OR值更大。结论:我们的研究提供了关于PM1暴露在几个小时内对人体健康的不利影响的全新证据。在寒冷的月份,与PM相关的作用明显更强。这些发现可能有助于卫生政策制定者建立每小时的空气质量标准并优化紧急医疗资源的分配。PM1对急诊就诊的影响,PM1是当前还不那么受重视的大气污染物。但是不能忽视的是它对健康的影响,这样子的污染暴露研究是非常具有前瞻性的。
植物表型学是将植物基因组学与环境研究联系起来的新途径,从而改善了植物育种和管理。遥感技术改善了高通量植物的表型。但是,三维(3D)表型的准确性,效率和适用性仍然具有挑战性,尤其是在现场环境中。随着设施和算法的快速发展,光检测和测距(激光雷达)为3D表型提供了强大的新工具。在农业中,已经进行了许多努力来研究使用激光雷达的结构和功能表型的静态和动态变化。这些进展还改善了跨不同时空尺度和学科的3D植物建模,提供了与基因的关联和环境实践分析的更轻松,更便宜的方法,并为育种和管理提供了新见识。除了农业表型以外,激光雷达在林业,园艺和草类表型方面也显示出巨大的潜力。尽管激光雷达在植物表型和建模方面已取得了显着的进步,但基于激光雷达的表型在育种和管理中的综合应用尚未得到充分探索。我们确定了基于激光雷达的表型开发中的三个主要挑战:1)开发低成本,高时空和高光谱激光雷达设施,2)进入多维表型并努力生成新的算法和模型,以及3)拥抱开源和大数据。郭庆华老师组的成果,发表于遥感top期刊ISPRS摄影测量与遥感上。关于LiDAR应用在植物表型学上的优势,进展和前景。感兴趣的同学可以阅读从而快速入门该领域。
我们构建了近实时的每日CO2排放数据集,即Carbon Monitor,以监测自2019年1月1日以来国家层面的化石燃料燃烧和水泥生产所产生的CO2排放变化,每日覆盖近乎全球基础和经常更新的潜力。每天的二氧化碳排放量是根据各种各样的活动数据估算得出的,其中包括31个国家/地区的每小时到每天的发电数据,62个国家/地区的月度生产数据和行业过程的生产指数以及该州的每日流动性数据和流动性指数。全球416个城市的地面运输。各个飞行位置数据和月度数据用于航空和海上运输部门的估算。此外,还使用针对206个国家/地区的每日气温进行校正的月度燃料消耗数据来估算商业和住宅建筑的排放量。这个碳监测器数据集通过受工作日和节假日以及COVID-19大流行的不断发展影响的每日,每周和季节性变化来显示CO2排放的动态性质。 Carbon Monitor近实时CO2排放数据集显示,与2019年同期相比,2020年1月1日至6月30日全球CO2排放量下降了8.8%,并在4月下旬检测到CO2排放量的回升,主要是这归因于中国经济活动的复苏以及其他国家/地区部分禁售的放松。每日更新的二氧化碳排放数据集可以为相关科学研究和政策制定提供一系列机会。清华大学刘竹老师团队开发的近实时每日CO2排放数据集。有对应的一篇NC论文,感兴趣的可以看,本篇论文主要描述数据。
人们越来越意识到城市的绿色空间对居民的健康有益。尽管大量研究集中在绿地数量上,但对绿地质量的关注却很少。现有的评估绿地质量的方法要么是劳动密集型的,要么是费时的。这项研究开发了一种新的机器学习方法,可基于从中国广州收集的街景图像来评估绿地质量。它还检查了绿地暴露差异是否与邻里社会经济地位(SES)相关。验证过程表明,我们的评分系统在预测训练数据以外的基于街景的绿地质量方面达到了很高的准确性。结果还表明,聚集的NDVI(归一化植被指数),街景绿色量和质量之间在空间分布上存在明显差异。回归模型表明,邻域SES与NDVI不相关。尽管邻里SES与街景绿色量和质量指标值都相关,但街景绿色质量对邻里SES的变化更为敏感。我们的工作表明,建议政策制定者和规划者更多地关注城市地区的绿地质量和绿地暴露差异。中山大学刘晔老师团队的研究,利用街景图像评估绿地质量,以及分析绿地暴露差异与社会经济地位的关系,比较新的研究。后续可以与健康数据关联。
背景:青春期男性通常被认为在医疗上不那么容易受害,导致社区保健减少,但是环境意识(准备和知识)对空气污染风险自我预防策略的影响更大。但是,社会环境经验可以改变对环境的主观理解,从而改变他们的环境意识。方法:采用两阶段分析来评估社会环境观念对551名青春期男性的空气污染风险的准备和知识的影响。在第一阶段,我们用高斯回归评估对整体准备和知识的影响,在第二阶段中,我们用二项式回归评估具体的准备和知识。结果:第一阶段分析表明,社会环境观念影响了整体准备,但没有影响整体知识。尤其是,对自己的环境知识了解程度低,会对整体准备产生负面影响,而对于较大的家庭而言,可以感知地对整体准备产生积极影响。第二阶段的分析进一步暗示了感知,准备和知识之间的复杂机制。具体而言,家庭周围的室外空气质量较差,以及对自己的环境了解不足,会对照料家庭成员的具体准备产生不利影响。本身对环境的了解不足,也会对室外空气污染的防范以及对能见度,口罩,心血管疾病和死亡风险的了解产生负面影响。恶劣的室内环境会对戴口罩的准备工作产生负面影响。但是,参加很少的体育活动会对戴口罩的准备工作以及戴口罩,温室气体和对流层臭氧的知识产生负面影响,但对朦胧的日子对户外活动的准备产生积极影响。可以看出,低中学历对对流层臭氧的知识产生了积极影响。父母和大家庭对环境的了解不足,也对特定的准备产生了积极影响。家里室内空气质量差对死亡风险的认识产生积极影响。结论:由于青春期男性的准备和知识的复杂性,应有针对性地制定进一步的环境和健康行动(例如社区服务,环境教育和健康研讨会),并采取适当的预防策略。一项分析高密度城市里男性社会和环境观念对空气污染风险防范和知识影响的研究,社会经济地位对健康认知影响的研究。
背景:城市温室气体(GHG)排放的量化是应对气候变化的重要任务。包括空间上明确的排放估算在内的排放清单有助于准确跟踪排放变化,识别排放源以及制定减缓气候变化的政策。当前许多可用的网格化排放估算是基于国家或州范围内排放估算的分类,这可能有助于描述城市范围内的排放,但在跟踪国家以下各级的变化方面价值有限。因此,应该采用真正的自下而上的方法对城市温室气体排放进行量化。结果:得出了来自日本东京都的化石燃料二氧化碳(FFCO2)排放的多分辨率,空间显式估计。收集了点(例如发电厂和废物焚化炉),线路(主要是交通)和区域(例如住宅和商业区)源的空间明确的排放数据。排放是根据为源位置计算的排放率绘制的。将活动,排放和空间数据进行了整合,并使用地理信息系统方法将结果可视化。结论:2014年东京都的FFCO2年度总排放量为43916 Gg CO2,其中道路运输部门(16323 Gg CO2)占总量的37.2%。通过与日本东亚空气污染物排放网格数据库(EAGrid-Japan)和人为CO2开源数据清单(ODIAC)进行比较,验证了空间排放模式,这证明了该方法在整个国家其他地区的适用性。高分辨率空间显示估计化石燃二氧化碳排放。基于点线面三者结合的空间排放清单编制。
在全球范围内,城市一直是温室气体(GHG)排放的主要来源,因此在减少二氧化碳排放的努力中发挥着越来越重要的作用。但是,由于缺乏或与能源相关的统计数据质量较低,尤其是对一些欠发达地区而言,量化城市一级的CO2排放通常是一项艰巨的任务。为了解决这个问题,本研究使用了一组开放访问数据和机器学习方法来估计和预测中国整个城市的二氧化碳排放量。递归特征消除和Boruta等两种特征选择技术用于提取重要的关键变量和输入参数,以模拟CO2排放。最后,从31个预测变量中选择18个来建立CO2排放的预测模型。我们发现,城市环境污染的统计指标(如工业SO2和人均粉尘排放量)是预测中国城市水平CO2排放的最重要变量。与其他方法相比,XGBoost模型的估计精度最高,R2 R> 0.98,相对误差较低(约0.8%)。通过组合地理空间和气象插值预测变量(例如DEM,年平均降水量和气温),可以适度提高CO2排放预测精度。当其余变量保持不变时,我们还观察到城市人均二氧化碳排放量与城市经济增长之间呈S型关系,而不是U型。本文提供的发现提供了概念的第一个证明,即在城市地区容易获得的社会经济统计记录和地理空间数据具有借助机器学习算法准确预测城市水平CO2排放的潜力。我们的方法可用于为欠发达地区频繁生成碳足迹图,其中缺乏与能源相关的详细统计数据,以协助政策制定者设计减少和分配碳排放量减少目标的具体措施。结合开放获取数据和机器学习构建城市二氧化碳排放制图。值得注意的是这里得出人均碳排放量与经济是S型关系,不是常见的U型。
已经提出将生态系统服务的概念纳入规划和管理实践中,以此作为改善城市生态系统管理的一种方式。然而,由于许多政治和技术障碍,该想法的采用缓慢。技术障碍之一是缺乏用于城市预测拟议政策和行动对城市生态系统服务影响的工具。为了解决这一差距,我们基于社会生态模型框架开发了一种城市生态系统服务模型。以中国北京的PM2.5去除服务为例,我们展示了如何使用此模型来模拟不同政策方案对特定生态系统服务的影响。我们的模拟结果表明,该城市生态系统贡献的PM2.5去除服务可以帮助降低其社会系统中的PM2.5排放,从而形成了积极的反馈。在2016年至2035年期间,北京城市绿地提供的PM2.5清除服务在三种政策方案中有很大不同,包括照常营业,限制城市增长和调整能源结构。根据PM2.5清除服务的预测,我们得出结论,北京应优先考虑通过城市规划限制城市增长的政策。我们的研究表明,从长远来看,生态系统服务的反馈效应非常重要。此外,本研究开发的模型提供了一个有用的工具,可以模拟城市规划和管理对城市生态系统服务的影响。清华大学杨军老师团队的成果,将社会生态模型应用到了生态系统服务当中,去分析PM2.5去除服务的影响。非常有意思的一篇论文,代码也已开源,更详细的内容可以参见杨军老师团队微信公众号推送文章。
鉴于大部分人暴露在城市的PM2.5中都是在室内进行的,因此降低室内PM2.5的水平可能提供一种更可行,更直接的方法,以挽救因PM2.5暴露而造成的大量生命和经济损失。我们旨在评估与实现新建立的中国室内空气指南和一些假设的室内PM2.5指南值相关的过早死亡率和经济损失的减少。我们使用2015年中国339个城市的1497个监测点的室外PM2.5浓度,结合稳态质量平衡模型,估算了室外渗透PM2.5的室内浓度。使用针对城市居民的省份特定时间活动模式,我们估算了室外和室内暴露于室外PM2.5的情况。然后,我们继续使用基于人口普查的局部浓度响应模型和统计寿命估计值来计算整个中国城市PM2.5暴露引起的过早死亡和经济损失。最后,我们通过满足当前基于24小时的准则以及各种假设的室内PM2.5限值,估计了可避免的死亡率和相应的经济损失。 2015年,在中国大陆城市地区,城市特定的室外和室内PM2.5年度平均浓度分别为9-108μg/ m3和5-56μg/ m3。室内暴露每天占总时间加权暴露的62%–91%,每年68%–83%。在每日室内浓度达到当前准则75μg/ m3、37.5μg/ m3和25μg/ m3的情况下,总死亡人数和经济损失的潜在减少量为16.9(95%CI:0.7-62.1)千,分别为87.7(95%CI:9.7–197.7)千和165.5(95%CI:30.8–304.0)千。相应减少的经济损失分别为5.7(95%CI:0.2-34.8)十亿美元,29.4(95%CI:2.4-109.6)十亿美元和55.2(95%CI:7.7-168.0)十亿美元。对于假定的室内PM2.5限值,死亡和经济损失将在0–75μg/ m3范围内成倍减少。研究结果表明,降低室内源自室外的PM2.5浓度在挽救中国大量生命和经济损失方面是有效的。该分析提供了定量证据,以支持实施室内空气质量指南或PM2.5。非常有意思的环境健康研究,结合居民时空行为模式和室外室内PM2.5暴露的死亡和经济损失。同时考虑室内室外的一个非常全面的空气污染暴露研究。
15.Mapping routine measles vaccination in low- and middle-income countries/绘制低收入和中等收入国家的常规麻疹疫苗图
自1974年以来,全球一直在推荐使用安全,高效的麻疹疫苗,但在2017年,五岁以下儿童中有超过1,700万例麻疹病例和83,400例死亡,其中超过99%的病例发生在中低等收入国家(LMIC)1,2,3,4。对于常规的首剂含麻疹疫苗(MCV1)覆盖率而言,全球可比性,年度和本地估计对于了解地理精确的免疫模式,朝着实现全球疫苗行动计划(GVAP)的目标以及在干扰中处于高风险地区至关重要接受由冠状病毒病2019(COVID-19)引起的疫苗接种计划5,6,7,8。在这里,我们对101个中低收入国家从2000年至2019年的5×5 km2像素和第二行政级别的常规儿童期MCV1覆盖率进行了年度估算,量化了地理不平等并通过地理偏远性评估了疫苗接种状况。在从2000年到2010年获得MCV1广泛普及之后,2010年至2019年之间,一半以上的地区覆盖率下降,使得许多中低收入和中等收入国家远离GVAP目标,即到2019年所有地区覆盖率达到80%。农村地区的MCV1覆盖率低于城市地区尽管总体上有较大比例的未接种疫苗的儿童生活在城市地区;提供基本疫苗接种服务的策略应针对两种地理环境。这些结果为决策者提供了加强常规MCV1免疫计划并为所有儿童提供公平疾病保护的工具。疫苗覆盖率的疾病负担小组的分析结果,基于多源数据结合地统计模型实现了101个中低收入国家2000-2019年5公里的麻疹疫苗覆盖地图。
16.Spatial and Temporal Analysis of Lung Cancer in Shenzhen, 2008–2018/2008-2018年深圳市肺癌的时空分析
肺癌是中国最常被诊断出的癌症。中国南方地区肺癌的发病趋势和地理分布尚未见报道。本研究探讨了2008年至2018年深圳肺癌发病率的时间趋势和空间分布。肺癌发病率数据是从2008年至2018年在深圳癌症登记系统中登记的人口中获得的。肺癌的标准化发病率使用联接点回归模型进行了分析。 Moran的I方法用于空间自相关分析,并进一步绘制了深圳的空间聚类图。从2008年到2018年,肺癌的平均原始发病率为27.1(1 / 100,000),年百分比变化为2.7%(p <0.05)。组织学类型肺癌的最大平均比例被确定为腺癌(69.1%),女性观察到呈上升趋势,年平均变化率为14.7%。空间自相关分析表明,深圳的一些地点是高发生率的空间聚类区。了解肺癌的发病模式有助于监测和预防。深圳市肺癌的时空分析,结合时空统计模型挖掘疾病流行模式。
建筑物是遥感(RS)图像中最重要的景观之一,并且在从城市规划到其他社会经济研究的广泛应用中得到了广泛的分析。随着超高分辨率(VHR)RS图像变得越来越容易获得,当前的建筑物提取方法面临着复杂场景中各种外观,不同比例和复杂建筑物结构的挑战。随着上下文感知深度学习方法的发展,许多著作已证明捕获上下文信息可以提供空间关系线索,以对对象进行可靠的识别和检测。在本文中,我们提出了一种新颖的本地-全局双流网络(DS-Net),该网络可以自适应地捕获本地和远程信息,以便在VHR RS图像中准确绘制建筑物屋顶。 DS-Net的本地分支和全局分支以互补的方式相互配合,在输入图像上具有不同的视野。通过定义明确的双流体系结构,DS-Net可以学习本地和全球分支机构的分层表示形式,并且进一步开发了深度功能共享策略以强制两个分支机构进行更多的协作集成。进行了广泛的实验以验证我们的模型在三个广泛使用的VHR RS数据集上的有效性:马萨诸塞州建筑物数据集,Inria航空影像标签数据集和DeepGlobe建筑物检测挑战数据集。从经验上讲,在定量测量和视觉评估方面,与当前的最新技术相比,拟议的DS-Net具有竞争性或优越的性能。一个新的神经网络用于VHR遥感图像提取建筑物。武大张良培老师团队的成果。从结果上看,是一个非常不错的神经网络模型。
]]>新一期资源整理博客。
1.阿根廷地质协会(AGA)于2020年8月和9月提供的“地理信息学应用于多专题制图”课程的虚拟课程。
2.R语言包glmmTMB,基于Template Model Builder拟合广义线性混合效应模型。
3.Python库rich,是一个Python库,用于在终端中显示富文本和精美格式。
4.Python库Mici,提供了概率模型中近似推论的马尔可夫链蒙特卡罗(MCMC)方法的实现。
5.在大约2分钟内免费获得MacOS或Linux Shell。
6.OpenGL与GDAL的教程。
7.2020年英国生态学会研讨会材料:用广义线性潜变量模型分析多元生态数据。
8.R语言包getremotedata,它提供协调下载网络上各种可用开放数据集的功能。
9.R语言包opendapr,它提供了使用OpenDAP框架(开源项目,用于 网络数据访问协议),一种广泛用于各类卫星遥感产品下载的框架。
10.像普通书一样简单的hugo文档主题。
11.R语言包tidytable,data.table包的tidy接口。
12.R markdown生成的CV。
13.Python库pint,Pandas的pint支持。
14.Python库uncertainties,它可以执行带有不确定性(又称为“错误传播”)的透明计算。
15.Rocky Linux是一个社区企业操作系统,旨在与Enterprise Linux进行100%错误兼容。
16.王江浩老师在国科大上课的ucasmap课程相关内容。
17.R语言包rBLAST,连接基本局部比对搜索工具(BLAST),以使用Bioconductor基础结构搜索基因序列数据库。
18.一组旨在与Google Earth Engine(GEE)中的Continuous Change Detection and Classification(CCDC)算法的输出进行交互的工具和应用程序。
19.Python库POT,为信号,图像处理和机器学习的最佳传输有关的优化问题提供了多个求解方法。
20.R语言包freshAirFinderApp,一个shiny app,目标是在大湾区寻找空气清新之地。
21.一组Python脚本,用于清理和增强GTFS。
22.Python库pyodbc,一个开放源代码的Python模块,使访问ODBC数据库变得简单。
23.AGU 2020年会研讨会资料。主题为开发和维护开源研究软件的最佳实践。
24.2005年以来马来西亚空气污染指数的历史数据(带脚本)。
25.小型OpenGL程序,用于可视化兼容设备的多点触摸输入。
26.Python库intake,一组轻量级的工具,用于在数据科学项目中加载和共享数据。
27.Tengine Lite 由 OPEN AI LAB 主导开发,该项目实现了深度学习神经网络模型在嵌入式设备上的快速、高效部署需求。为实现在众多 AIoT 应用中的跨平台部署,本项目基于原有 Tengine 项目使用 C 语言进行重构,针对嵌入式设备资源有限的特点进行了深度框架裁剪。同时采用了完全分离的前后端设计,有利于 CPU、GPU、NPU 等异构计算单元的快速移植和部署。同时兼容 Tengine 框架原有 API 和 模型格式 tmfile,降低评估、迁移成本。
28.ncnn 是一个为手机端极致优化的高性能神经网络前向计算框架。ncnn 从设计之初深刻考虑手机端的部署和使用。无第三方依赖,跨平台,手机端 cpu 的速度快于目前所有已知的开源框架。基于 ncnn,开发者能够将深度学习算法轻松移植到手机端高效执行,开发出人工智能 APP,将 AI 带到你的指尖。ncnn 目前已在腾讯多款应用中使用,如 QQ,Qzone,微信,天天P图等。
29.Python库Pint,用于定义,操作和操纵物理量:数值和度量单位的乘积。 它允许它们之间进行算术运算,以及在不同单位之间进行转换。
30.Python库puppeteer cluster,通过puppeteer生成了一个Chromium实例池,并有助于跟踪作业和错误。 如果要爬网多个页面或并行运行测试,这将很有帮助。
31.为rOpensci社区主题和演讲者征集您的“投票”和新想法。
32.该存储库包含一些python代码,其中包含一些传统的变更检测方法,或者提供其原始网站(例如SFA,MAD)以及一些基于深度学习的变更检测方法(例如SiamCRNN,DSFA和某些基于FCN的方法)。
33.这是卡里姆·杜伊布(KarimDouïeb)为瑞士写的著名的可视化版本”Land doesn’t vote, people do”的版本。该版本显示了市政一级受欢迎的“为负责任的企业–保护人权和环境”倡议的成果。 。 通过瑞士公开政府数据平台opendata.swiss检索了此过程中使用的所有数据。
34.R语言包funneljoin,使分析行为漏斗变得容易。
35.CNN网络的Pytorch实现。
36.R语言包robservable,允许将Observable笔记本(或其中的一部分)用作R中的htmlwidgets。
37.从Internet Archive Wayback Machine下载整个网站。
38.R语言包bslib,通过Bootstrap(3或4)Sass从R设置shiny和rmarkdown主题的工具。
39.MLOPS with R: An end-to-end process for building machine learning applications汇报的相关资源。
40.通过Z-Wave和Flask控制的圣诞灯。
minimum viable christmas lights
41.地表温度反演的R markdown文档。
42.使用GeoPandas和PyData堆栈进行地理空间数据分析教程。
43.可持续的免费开源社区网站。
44.开源项目关键度评分项目。
45.transit API,应用程序,数据集,研究和软件的社区列表
46.Python库causal curve,当感兴趣的治疗持续时,可以用这个包基于观察数据执行因果推理。
47.Python库transplant,Python调用Matlab的方法。
48.Covid-19事件预测项目
49.R语言包tic,tic的目标是增强和简化使用持续集成(CI)系统的工作。
50.R语言包wrfhydroSubsetter,一组WRF-Hydro(NWM)子模型的域文件供本地化运行的工具。
51.R语言包faraway,包含三本R语言书籍的所有数据与函数。
52.CloudBase Framework 是云开发官方出品的前后端一体化部署工具。
53.蒙彼利埃生物统计学家网络页面。
54.MapLibre GL由社区主导的派生工具maplibre。
55.永久免费开源的导师评价数据、数据爬虫、无需编程基础的展示网页以及新信息补充平台。
56.ipyevents提供了一个自定义窗口小部件,用于将鼠标和键盘事件返回给Python。
57.R语言包BETS,用于获取与分析巴西时间序列的经济数据。
58.Serge Rey,Dani Arribas-Bel和Levi Wolf为地理数据科学书籍提供的入门幻灯片。
59.马尔堡大学环境信息学实验室的材料,组织R数据分析工作流和项目,包括文档。
60.R语言包modleR,一个基于package dismo的工作流,旨在在执行生态位模型时自动执行一些常见步骤。
61.PyMC3模型的示例,包括Jupyter笔记本库。
62.R语言包shinyvalidate,Shinyvalidate为Shiny添加了输入验证功能。
63.R语言2020会议用shiny做数据可视化的研讨会。
64.康奈尔大学课程高级编译。
65.mikejohonson的个人主页。
66.帮你记住你的python装饰器。
67.Python库RavenPy,用于设置和运行水文模型框架Raven。
68.R语言包doc2vec,用于构建Paragraph Vector模型,也称为doc2vec模型。 您可以训练分布式内存(’PV-DM’)和分布式单词袋(’PV-DBOW’)模型。
69.R语言包streamgraph,用于制作流图的htmlwidget。
70.RainBench数据集。
71.’什么是科学’速查表。
72.R语言包ggx,该软件包是ggplot2的附加组件,ggplot2是用于创建出色图形的R软件包,将自然语言转化为ggplot2绘图语句。
73.R语言包OBservData,作物授粉数据库。
74.Leaflet的插件(v1.0.3和v0.7.7),用于创建画布可视化图层,用于显示任意速度(例如风,洋流)的方向和强度。
75.WebGPU学习。
76.R语言包memer,memer是与tidyverse兼容的R包,通常是围绕magick函数进行包装。
77.从NCI文件系统将geotiff转换为云优化Geotiff(cog)。
78.2020年12月9日R-Ladies St.Louis(STL)的演讲的幻灯片和代码。
rladiesSTL dec2020 intro shiny
79.R语言包dftTrafficCounts,目标是在其roadtraffic.dft.gov.uk网站上提供对英国运输部(DfT)提供的数据集的轻松访问
80.Python库volpy,Python中数字高程模型的体积计算(volpy),提供一种以三角不规则网络(TIN)表示的数字高程模型(DEM)计算体积的方法。
81.用于为ReferenceFileSystem进行参考描述的函数。
82.组织Hack Week的工具包。
83.PaddleSeg是基于PaddlePaddle开发的端到端图像分割开发套件,覆盖了DeepLabv3+, U-Net, ICNet, PSPNet, HRNet, Fast-SCNN等主流分割网络。通过模块化的设计,以配置化方式驱动模型组合,帮助开发者更便捷地完成从训练到部署的全流程图像分割应用。
84.C-Plan是一种保护决策支持软件,可与GIS链接以映射用于实现明确保护目标的选项。 它是由Matt Watts和Bob Pressey开发的。 它充当Marxan的图形用户界面,可以从C-Plan数据集生成Marxan数据集。
85.hugo的cupper主题。
86.一个用python和pygame编写的台球游戏。
87.Eclipse布局内核(ELK)实现了将图编辑器或查看器连接到自动布局算法的基础结构。
88.使用Flask搭建的经典Python论坛软件。
89.pixelNeRF:一幅或几幅图像的神经辐射场。
90.GraphScope是一个统一的分布式阿里巴巴图形计算平台,提供了一个一站式环境,可通过用户友好的Python界面在计算机集群上执行各种图形操作。
91.AKS Engine是旧版ARM模板驱动的方法,用于在Azure上置备自管理的Kubernetes群集。
92.R语言包nimbleDistance,用于在nimble中拟合距离贝叶斯采样模型的函数。
93.Ravens是PyBullet中模拟任务的集合,用于学习基于视觉的机器人操纵,重点是拾取和放置。
94.Python库forestatrisk,可以对热带地区的森林砍伐进行建模和预测。它提供了根据各种空间解释变量估算毁林空间概率的功能。
95.该存储库是BBC R&D在制作合成声音时产生的脚本和指南的集合。 我们将这种基于深度卷积网络的高效可训练文本语音转换系统的实施作为指导,并将其作为指导工作的基础。 提供的文档将说明我们采取的不同步骤,以便从中获得最佳效果,从而迅速而廉价地发出新声音。
96.R语言包validate,验证的R-package使得根据域知识检查数据是否符合您的期望变得非常容易。 通过允许您定义独立于代码或数据集的数据验证规则,它可以工作。 接下来,您可以使用规则处理数据集或其各种版本。
97.R语言包tinter,调色器提供了一种生成单色调色板的简单方法。
98.DGGRID是一个免费软件程序,用于创建和处理由Kevin Sahr创建和维护的离散全球网格。
99.R语言包mcor,蒙大拿州气候办公室的核心R包。
100.Python库rHEALPixDGGS,实现了rHEALPix离散全球网格系统(DGGS)。
101.DGGRID是一个命令行应用程序,旨在生成和操作二十面体离散全局网格(DGG)。
102.JupyterHub 2020年冬季地理空间数据分析课程的docker镜像。
103.韩国的人口格网建模
104.MIT感知实验室的Treepedia项目。利用街景图像识别树木。
105.oci-cloud-controller-manager是用于Oracle Cloud Infrastucture(OCI)的Kubernetes Cloud Controller Manager实现。
106.将Red Hat Enterprise Linux 7.6作为EKS工作节点运行
107.Cling是基于Clang和LLVM编译器基础结构的交互式C ++解释器。
108.xeus-cling是基于C ++解释器cling和Jupyter协议xeus的本机实现的C ++ Jupyter内核。
109.mkcert是制作本地信任的开发证书的简单工具。 它不需要任何配置。
110.KernelFunctions.jl为内核函数提供了一个灵活而完整的框架,可以对输入数据进行预转换。
111.Mundane是由BoringSSL支持的Rust密码术库,它很难被滥用,符合人体工程学且性能优异(按此顺序)。
112.该存储库包含用于使用HashiCorp Packer构建自定义Amazon EKS AMI的资源和配置脚本。 这与Amazon EKS用于创建官方经Amazon EKS优化的AMI的配置相同。
113.该项目提供了一个操作员来管理yarn的节点管理器和资源管理器。 它支持大数据系统顺利迁移到kuberenets。
114.Spack是一个多平台程序包管理器,可构建和安装软件的多个版本和配置。 它可以在Linux,macOS和许多超级计算机上运行。
115.Xtensor C ++多维数组库的R接口。
116.xtensor是一个C ++库,用于使用多维数组表达式进行数值分析。
117.现代C++的json。
118.仅限小型头文件的C ++库,用于编写多平台终端应用程序。
119.jupyter-leaflet地图可视化库的C ++后端。
120.Python库conan,C/C++的包管理器。
121.R语言包winch,Winch为跨R和C函数调用的调用链提供堆栈跟踪。
122.英国邮政编码和地理位置API,提供开放数据。
123.Rasterio插件可从Cloud Optimized GeoTIFF数据集中读取墨卡托瓦片。
124.R语言包tabnet,TabNet的R语言实现,细心的可解释表格学习。
125.Regression Modeling in People Analytics手册。
peopleanalytics regression book
126.”Accurate 3D Object Detection using Energy-Based Models”的官方实现。
127.Julia的包管理器。
128.nCompiler旨在提供一个新的R开发工具,用于代码生成C ++并轻松在R和C ++之间进行接口。
129.Julia包的示例。
130.INLG 2020论文”RecipeNLG: A Cooking Recipes Dataset for Semi-Structured Text Generation”的代码实现。
131.PlotJuggler是一种可视化时间序列的工具,它快速,强大且直观。
132.一组Google Earth Engine的常用调色板。
133.使用遥感和水费预算产品的农场尺度土壤水分。
134.Web 3D GIS引擎。
135.该数据集包含一个静态地质模型及其各个组成部分:来自6000口测井的数据,叠前深度的地震量,地震层位以及大量已解释的断层。
136.这项正在进行的工作是将Google EarthEngine(GEE)API功能集成到Python 3.x语言的HydroShare中,以用于犹他州立大学CEE/PSC/WATS 5003/6003土地表面遥感春季班。
137.Esri CityEngine库,带有用于大型项目的辅助规则和脚本。
138.jp_doodle使实现特殊目的的交互式可视化变得容易。 它旨在促进定制科学数据表示和交互式探索工具的开发。
139.阿伯丁研究小组教程项目。
140.Python科学堆栈,编译为WebAssembly。
141.R语言包nomadsNC,目标是从NWC国家水模型中下载最新的预测,并将数据用于时间序列访问。 您必须安装NCO才能运行此软件包。
142.关于贝叶斯因素的个人论文的论文。
143.帝国理工学院环境与健康中心讲习班。
144.面向地球科学家的社区教育资源。
145.有关为澳大利亚海洋数据网生成标准NetCDF文件的模板和代码的存储库。
146.Learning Ansible 2.7第三版。
Learning Ansible 2.X Third Edition
147.Deno是使用V8并内置于Rust的JavaScript和TypeScript的简单,现代且安全的运行环境。
148.确定使用Pangeo工具(GDAL,Rasterio,Xarray,Dask)访问越来越多的COG数据的最佳实践。
149.最小巧、最准确、最全面、最实用的中国大陆 GeoIP2 数据库及 IP 地址段。
150.Visual Studio Code的R拓展。
151.快速,耐错字的模糊搜索引擎,可提供令人愉悦的搜索体验。
152.提供了用于模拟印欧航线上常见玫瑰雀的最佳资源和风迁路线的代码。我们对风和资源的一般最佳迁徙路线进行了建模,从追踪的普通玫瑰雀的五个繁殖地点(芬兰,瑞典,德国,捷克和保加利亚)到巴基斯坦和印度的非繁殖地点。
Optimal migration along the Indo European Flyway
153.R语言包ggstream,ggplot2的拓展包,用来绘制河流图。
154.自托管应用程序,可通过REST访问IMAP和SMTP帐户。
155.微软开源地图项目。
156.国家环境信息中心(NCEI)API的接口。
157.Julia包Diversity,它提供了用于测量元社区(例如生态系统)及其组成子社区的alpha,beta和γ多样性的功能。
158.Python库parsac(以前称为acpy),用于并行运算灵敏度分析和自动校准。它用于分析需要大量时间才能运行的模型。 因此,它着重于存储和利用每个模型结果,并在单个计算机或计算机集群上并行执行模型。
159.用Python和Julia实现HYMOD降雨径流模型。
160.这是用易于阅读的JavaScript编写的现代编译器所有主要部分的极简示例。
161.Python练习材料。
162.Python库SALib,敏感性分析方法,包含Sobol,Morris,分数阶乘和FAST方法。
163.说明了如何使用子文档将插图的snowflakes添加到R Markdown。
164.带有requirements.txt文件说明与Binder兼容的Python库。
165.具有environment.yml文件的与Binder兼容的Python库。
166.R语言包mlr3learners,为mlr-org团队维护的mlr3提供了重要的学习者。 可以在GitHub上的mlr3extralearners包中找到其他学习者。
167.mlr3提供超参数调整。可以设置和组合各种终止条件。
168.这使用反向工程的ReMarkable API库将文件从Zotero集合自动传输到reMarkable文件夹。
169.华北平原建设用地制图指南。
North China Plain GEE Organized
170.R语言包rmapshaper,提供对Matthew Bloch出色的mapshaper工具的访问,该工具同时具有Node.js命令行工具和交互式Web工具。
171.Github用户的学生的机器学习项目,并且学生同意分享。
MachineLearning StudentProjects
172.Python库ocetrac,用于跟踪海洋热浪。
173.R语言包diffabsr,将来自SOLEIL同步加速器的DIFFABS光束线的数据转换为R兼容格式。 此外,它还提供了将原始光谱转换为元素计数和/或浓度的功能。
174.OpenGV是解决几何视觉问题的计算机视觉方法的集合。 它由上海科技大学移动感知实验室主持和维护。
175.Jupyter与其他公司的实时协作。
176.分布式系统的经典材料。
177.GridIndex是可传递的2D空间索引。
178.使用Mapbox GL JS轻松为您的应用生成地形立交的界面。
179.在kubernetes运行第一个你的程序。
180.一个用create-next-app引导的Next.js项目。
181.2020年印度scipy会议下pysal的研讨会。
182.R语言包rinvest,Python invest模型的R接口。
183.Pymc3里的隐马尔科夫链-蒙特卡洛模拟。
184.R和RStudio用于教授可重复科学的材料。
185.GeoNode是一个开放源代码平台,可促进地理空间数据的创建,共享和协作使用。
186.Python cf软件包是一个基于CF数据模型的完整实现构建的Earth Science数据分析库。气候和预报元数据公约(CF-1.6)的数据模型,并带有软件实现。
187.该存储库包含用于从Wikipedia对英国境内地点的描述中提取地理实体的代码。
188.Python库c lasso,一个用于约束稀疏回归和分类的Python包。
189.Python和Java的Plain Paxos实现。
190.SuperflexPy:水文建模的灵活语言。
191.地理空间公司的资源列表。
192.如何使用Libtorch构建你的C++应用。
193.VaRest是Unreal Engine 4的插件,可使REST服务更易于使用。
研究城市森林生物量的空间分布及其潜在影响因素将为配置城市绿地提供有用的见识。尽管中国正经历着前所未有的城市化规模,但城市森林生物量分布的空间格局作为城市景观的重要组成部分尚未得到充分研究。使用地理检测器方法,本研究研究了四种地理因素(GFs)(主要树种,森林类别,土地类型和年龄组)对中国西安市1480个样地中城市森林地上生物量分布的影响。结果表明:(1)西安市地上生物量和4个GF在空间分布上存在明显的异质性。 (2)影响地上生物量模式的优势树种和年龄组是主要的GF,独立q值(用于量化研究中GF的影响的统计量度)分别达到0.595和0.202,而森林种类和土地类型与地上生物量的空间变化之间存在弱联系,其q值分别为0.087和0.076。 (3)这四个GF之间的相互作用也往往有助于地上生物量的分布方式。与从因素独立获得的影响总和相比,GF之间的相互作用产生了更大的影响。我们的结果表明,使用地理探测器的方法在市区是一种有用的工具,可以揭示地上生物量的驱动模式,并为城市规划和管理提供参考。利用地理探测器分析AGB的空间异质性与驱动因子。这个方面一个比较有意思的问题是如何定义urban forest。
人类活动产生了各种复杂的功能区域,并可能影响功能区域的现有计划。了解人类活动与功能区域之间的关系是基于轨迹识别实时城市功能区域的关键。很少有先前的研究对人和区域的交互信息进行分析以识别功能区域。人类活动与居住区之间的关系是城市功能区中最具代表性的关系,因为居住区覆盖范围广且与人类生活紧密相关。本文的目的是提出一种通勤活动和居住区模型,以量化人类活动与城市居住区之间的相关性。在此模型中,人类活动由高斯混合模型算法提取的热点表示,而居民区由POI(兴趣点)数据表示。该模型显示,人类活动和居住区呈对数关系。通过从共享电动自行车轨迹中反演滕州市的城市居民区,进一步评估了CARA模型。与实际地图相比,准确度达到83.3%,证明了该模型的可靠性和可行性。该研究为基于轨迹数据的功能区识别提供了一种新方法,有助于制定以人为本的城市政策。利用共享电动自行车轨迹数据分析人类活动与功能区的关系。数据和方法比较新颖。一个问题在于共享电动自行车的数据代表性,本质上属于有偏数据,同时居民区用POI的点数据表示,可能一定程度上也造成了结果的不确定性。
台风是一种环境威胁,主要影响全世界的沿海地区。自然和社会经济因素对台风灾害造成的损失的互动影响有待进一步研究。在这项研究中,GeoDetector用于量化自然和社会经济因素的决定力及其对2018年台风”山竹”造成的中国东南广东和广西省房屋倒塌率的互动影响。我们进一步确定了影响该因素的主导因素灾难的损失。然后介绍了空间关联方法的局部指标,以解释在主导因素影响下灾害损失的空间异质性。结果表明,自然因素和社会经济因素均显着影响房屋倒塌率。最大降水量是主要因素,其q值为0.21,其次是坡度和海拔,其q值分别为0.17和0.13。人口密度和人均国内生产总值的q值分别为0.15和0.13。在所有影响因素的交互作用中,海拔和砖木房屋比率的交互作用对房屋倒塌率的影响最大(q = 0.63)。这些结果可有助于制定更具体的安全和财产保护政策。分析台风’山竹’的灾后影响评估。并且分析不同自然社会经济因素造成的影响。
将人类活动模式数字化的准确,详细的地理信息在应对自然灾害方面起着至关重要的作用。自愿提供的地理信息,特别是OpenStreetMap(OSM),在提供人类住区知识以支持人道主义援助方面显示出巨大潜力,而OSM的可用性和质量仍然是一个主要问题。现有的评估OSM数据质量的大部分工作都集中在外部分析或内在分析上,这在一定程度上不足以实现人道主义制图方案。本文旨在从社会感知和遥感的综合角度探索OSM缺失的堆积区。首先,应用分层DBSCAN聚类算法,生成带有地理标记的推文的聚类作为人类活动区域的代理。然后,提出了一种基于深度学习的模型,该模型在现有OSM数据上进行了微调,以进一步映射缺失的堆积区域。莫桑比克共和国于2019年受到飓风伊代(Idai)和肯尼斯(Kenneth)的袭击,被选为研究区域,在全国范围内评估拟议的方法。结果,识别并映射了13个OSM缺失的堆积区域,总体精度超过90%,与最新产品相比具有竞争力,这证实了所提出方法的有效性。Top期刊ISPRS的一篇雄文,结合Twitter数据,聚类算法和深度学习对OSM缺失的建成区进行补充制图。
害怕犯罪会导致对生活和主观幸福感的满意度降低。害怕犯罪的指标因社会和文化背景而异,户籍(户籍)状况导致中国本地户口与非本地户口居民之间的权利不平等。为了提高人们对安全的认识,本研究将户口作为社会脆弱性的指标,并研究了户口,感知的邻里条件和对犯罪的恐惧之间的关系。二元逻辑回归模型用于分析2016年中国广州市广州市社区安全项目(PPSGN)中获得的1727名居民。结果表明,妇女,受害经历,身体和社会障碍以及社区警务与居民对犯罪的恐惧有关。尽管户口地位对犯罪的恐惧没有统计学上的显着影响,但户口地位显着减轻了感知的邻里条件对犯罪恐惧的影响。也就是说,感知到的邻里状况对恐惧的影响取决于一个人的户籍状况:非本地户籍,对社会混乱的感知对恐惧的危害更大,对社会融合的感知对恐惧的帮助作用则较小。总而言之,本研究通过揭示户口对中国城市恐惧的条件影响,为国际文献增色不少。柳林老师团队的成果,分析邻里环境以及社会经济因子对犯罪恐惧的影响。犯罪地理学与心理学的交叉研究。
语境:城市群是城市的高级空间组织,通常由城市发展到一定水平时的城市化过程引起,通常与更高的人口密度和一定密度的建筑环境有关。但是,与针对特定城市的各种研究相比,城市群仍处于研究不足状态,尤其是在定量识别城市群时空演变方面。目标:本研究旨在确定2000年至2012年中国城市群的边界,并探讨城市群的时间演变和空间差异。方法:首先,使用适当的夜间光数字(DN)阈值来确定城市群的核心区域。其次,利用平均斑块面积和重力模型确定城市群的受影响区域。第三,以中国23个主要城市群为中心进行时空对比。结果:到2012年,最发达的长三角和珠江三角洲城市群达到世界水平,其中京津冀城市群为区域一级,亚区域级为11个城市群。在2000-2012年的研究期间,中国南部和北部之间,或沿海与内陆之间城市群的区域差异保持稳定。与西部城市群相比,东部城市群的向外扩张有所减速。从2000年到2012年,城市群的总体发展模式从核心扩张向边缘发展转变,而2006年以后城市群扩张速度放缓。结论:夜间光数据可有效探索城市群的时空演变。彭建老师团队的研究,发表在top期刊Landscape Ecology,从夜间灯光遥感角度分析中国城市群的时空演变规律,工作量较大。
地理参考数据源的增长要求使用高级匹配方法来提高地理空间数据处理(如地图合并)的可靠性。现有的匹配方法主要集中于实体规模或区域规模的相似性度量。结合实体规模和区域规模相似性的度量可以在各种情况下提供合理的匹配结果。在本文中,我们提出了一个地理参考图模型,该模型集成了多尺度相似性以进行数据匹配。具体地,在面积比例度量的约束下,通过实体比例度量来识别对应数据对象的匹配。所建议的地理参考图模型中的节点通过其质心表示多边形,而图中的链接则根据预定义的规则连接节点(即质心)。然后,我们开发一种算法来识别多对多匹配。我们在实际实验中使用OpenStreetMap数据演示了提出的图形模型和算法。实验结果表明,所提出的地理参考图模型可以有效地整合不同数据集之间的上下文和地理空间数据匹配的位置和形式距离。葛咏老师团队发在IJGIS上的一篇雄文,一个地理参考图模型用于多源数据匹配融合。
在基于遥感影像的土地利用和土地覆盖分类中,学习失衡是一个普遍的问题。学习不平衡会导致分类准确性降低,甚至导致少数群体的遗漏。在本文中,提出了一种基于极端梯度增强(ISS-XGB)的公正半监督学习策略,以对数据不平衡的超高分辨率(VHR)图像进行分类。 ISS-XGB通过使用几个半监督分类器来解决多分类问题。它首先采用多组未标记数据来消除训练样本的不平衡,然后利用基于梯度增强的回归来模拟具有正样本和未标记样本的目标类别。在这项研究中,在八个不同失衡状况的研究区域进行了实验。结果表明,与最常用的分类方法(即随机森林(RF),XGB,多层感知器(MLP)和支持向量机(SVM))相比,ISS-XGB提供了可比但更稳定的性能,阳性和未标记的学习(PU学习)方法(PU-BP和PU-SVM),以及典型的基于合成样本的不平衡学习方法。尤其是在极端不平衡的情况下,ISS-XGB可以为少数族裔提供高精度,而不会损失总体性能(平均总体准确性达到85.92%)。所提出的策略在解决遥感分类不平衡问题方面具有很大的潜力。VHR影像的分类不平衡问题解决策略。
尽管已证明短期暴露于细颗粒物(PM2.5)空气污染会导致血压升高(BP),但有关中国全国环境PM2.5与血压水平之间的关联以及如何关联的证据有限可能会改变。这项研究试图探索在低于中国现行国家环境空气质量标准(NAAQS)的水平下暴露于PM2.5引起的急性BP变化。基于对超过100万成年人的时空研究,我们将BP测量值与来自多个来源的PM2.5的每日估算值(即原位观测,气溶胶的卫星测量值和空气质量模型的数值模拟)联系起来,并针对多个个体进行了调整,通过限制将短期PM2.5暴露低于75μg/ m3(即中国的24小时PM2.5的NAAQS)的个体的子集进行分析,我们进一步建立了以下水平的模型,并进一步推导了以下标准模型。我们进一步探索了BP-PM2.5关联随污染水平和不同人口群体的变化。经过全面调整后,PM2.5的10μg/ m3升高与收缩压的0.049(95%置信区间,CI:0.041,0.057)mmHg,0.022(95%CI:0.017,0.027)显着相关。 )舒张压增加mmHg,高血压风险增加0.77%(95%CI:0.62%,0.92%)。对于BP和高血压,暴露-反应曲线在低浓度时呈线性,无阈值效应,在高浓度时呈亚线性。低于当前的NAAQS,人口水平的关联仍然具有统计学意义,甚至更强。低于NAAQS PM2.5增加10μg/ m3与高血压风险增加1.95%(95%CI:1.44%,2.47%)有关。特定的亚群更容易暴露于PM2.5。这些发现可以帮助支持决策者修改相关环境法规以保护公众健康的决策。短期PM2.5污染暴露对健康效应(血压水平)的研究。非常不错的一个环境流行病学与环境健康研究。清华大学张强老师团队成果。
10.Global Carbon Budget 2020/2020年全球碳预算
在不断变化的气候中,准确评估人为二氧化碳(CO2)排放及其在大气,海洋和陆地生物圈之间的重新分配(“全球碳预算”)对于更好地了解全球碳循环,支持制定气候政策至关重要,并预测未来的气候变化。在这里,我们描述并综合了数据集和方法,以量化全球碳预算的五个主要组成部分及其不确定性。化石的二氧化碳排放量(EFOS)基于能源统计数据和水泥生产数据,而土地利用变化(ELUC)的排放量(主要是森林砍伐)则基于土地利用和土地利用变化数据以及簿记模型。直接测量大气中的CO2浓度,并根据浓度的年度变化计算其增长率(GATM)。海洋CO2汇(SOCEAN)和陆地CO2汇(SLAND)是通过受观测约束的全球过程模型估算的。由此产生的碳预算失衡(BIM),即估计的总排放量与大气,海洋和陆地生物圈的估计变化之间的差,是衡量数据不完善和对当代碳循环的了解的一种度量。所有不确定度均报告为±1σ。在过去的十年中(2010-2019年),EFOS为9.6±0.5 GtC yr-1(不包括水泥碳化池)(包括水泥碳酸化池时为9.4±0.5 GtC yr-1),ELUC为1.6±0.7 GtC yr-1 -1。在同一十年中,GATM为5.1±0.02 GtC yr-1(2.4±0.01 ppm yr-1),SOCEAN 2.5±0.6 GtC yr-1和SLAND 3.4±0.9 GtC yr-1,预算不平衡BIM为- 0.1 GtC yr-1表示过去十年中估计的源和汇之间的接近平衡。仅在2019年,EFOS的增长仅约0.1%,化石排放增加到9.9±0.5 GtC yr-1(不包括水泥碳化池)(包括水泥碳酸化池时为9.7±0.5 GtC yr-1)和ELUC人为CO2排放总量为11.5±±0.9 GtC yr-1(42.2±±3.3 GtCO2)为1.8±0.7 GtC yr-1。同样在2019年,GATM为5.4±0.2 GtC yr-1(2.5±0.1 ppm yr-1),SOCEAN为2.6±0.6 GtC yr-1,SLAND为3.1±1.2 GtC yr-1,BIM为0.3 GtC 。 2019年全球平均大气CO2浓度达到409.85±0.1ppm。2020年的初步数据(考虑了COVID-19引起的排放变化)表明,相对于2019年,EFOS相对于2019年减少了约-7%(中值)。来自四项研究的单独估计值分别为-6%,-7%,-7%(-3%至-11%)和-13%。总体而言,在1959年至2019年期间,对全球碳预算各组成部分的均值和趋势进行了一致的估算,但对于CO2通量的半年代际变化,仍存在高达1 GtC yr-1的差异。比较来自各种方法和观察结果的估计值表明:(1)过去十年间,土地利用变化排放的平均值和趋势没有共识;(2)不同方法之间关于土地二氧化碳通量大小的持续低一致性。 (3)在热带以外,特别是在南大洋,不同的海沉方法之间存在明显的差异。该实时数据更新记录了此新全球碳预算中使用的方法和数据集的变化以及与该数据集以前的出版物相比在了解全球碳循环方面的进展(Friedlingstein等,2019; LeQuéré等。 ,2018b,a,2016、2015b,a,2014、2013)。这项工作中提供的数据可在https://doi.org/10.18160/gcp-2020(Friedlingstein等人,2020)获得。全球碳预算项目。非常全面的碳核算项目数据。值得关注。
邻里影响平均问题(NEAP)是一个主要的方法论问题,可能会影响对暴露于与流动性相关的环境因素(例如空气/噪声污染)的个体暴露评估的准确性。本文着眼于室外地面臭氧作为主要的空气污染物,利用3790个人的一日活动旅行日记数据,研究了NEAP在评估洛杉矶人口空气污染中的社会人口统计学差异。它解决了两个问题:(1)NEAP如何影响人们空气污染暴露中社会人口统计学差异的评估? (2)哪些以居民为基础的暴露人群较高,没有平均邻域效应?我们的空间回归模型的结果表明,当人们的日常活动被忽略时,由于不同社会/种族群体平均邻里效应的表现形式不同,因此对人们在室外地面臭氧暴露中的社会人口统计学差异的评估可能是错误的。我们的空间自logistic回归模型的结果表明,非劳动者(例如,失业者,家庭主妇,退休者和学生)没有经历向下平均化的可能性:他们经历向下平均化的可能性要低得多,这可能会降低他们的高暴露水平在他们的居民区旅行到其他街区时(因此处于双重不利地位)。因此,为了避免在环境不平等研究中得出错误的结论和无效的公共政策,在未来与人口流动相关的环境因素相关的社会人口学差异研究中考虑NEAP至关重要。关美宝老师团队的成果,分析NEAP对环境暴露与健康效应相关的一个实证研究案例。结合时空行为地理学的典型数据进行分析。
12.Analyzing Asymmetric City Connectivity by Toponym on Social Media in China/在中国社交媒体上按地名分析不对称的城市连通性
在移动和大数据时代,城市之间的联系已成为城市和区域研究中讨论最广泛的主题之一。确定的一个问题是城市连接不对称,部分原因是数据可用性。我们基于从社交媒体数据中提取的位置和地名(地名)提出了一种数据驱动的方法,以评估城市之间的不对称连通性。假定城市i的名称在位于城市j的帖子中出现的频率更高,则意味着该城市i对城市j的影响力要强于其他城市。此外,我们已经开发了一组度量标准,例如相关性指数,影响指数,链接强度指数,依赖性指数和结构相似指数,以表征这种相互作用。考虑到城市之间不断发展的相互作用,这种连通性度量框架还可以用于支持智能规划。案例研究了中国城市系统的时空结构。叶信岳老师团队的成果,社交媒体地理学的一个应用,通过社交媒体数据以及地名出现频率构建起的城市联系强度模型。非常有意思的一个研究。
颗粒物(PM2.5和PM10)的环境浓度是监测与生活条件相关的空气质量的重要指标。估计PM2.5和PM10的大多数现有方法都采用遥感气溶胶光学深度(AOD)产品作为主要变量。但是,AOD产品中丢失数据的覆盖范围通常很大,这可能给研究人员带来不便。为了有效解决这一问题,我们的研究探索了一种新颖的方法,即使用PM2.5和PM10的前体和化学成分数据集代替AOD产品。具体来说,根据Sentinel-5P和GEOS-FP,估计中国全天的PM2.5和PM10周围环境浓度为5公里(0.05°)。在本文中,利用光梯度增强机来训练估计模型,它将完全融合多源数据。为了进行比较,在类似的框架中采用了VIIRS的Deep Blue AOD产品作为基准(基于AOD)。验证结果表明,通过所提出的方法可以很好地估算环境浓度,对于PM2.5(PM10),基于样品的交叉验证R2和RMSE分别为0.93(0.9)和8.982(17.604)μg/ m3。同时,在不同情况下(例如,整体和季节性),所提出的方法比基于AOD的方法具有更好的性能。相对于中国以前的相关工作,我们方法的估计精度也令人满意。此外,正如预期的那样,PM2.5和PM10的所有前体和化学组成的所有变化都对所提出的方法中的估算有积极贡献。关于制图结果,通过提出的方法得出的估计结果呈现连续的空间分布,并且可以准确表示PM2.5和PM10的季节性变化。可以得出结论,本研究的全覆盖估计结果有利于在AOD值缺失的地区进行PM2.5和PM10的研究。通过化学传输模型输出结果来替代缺失的AOD估算PM2.5和PM10的制图研究,非常有意思的一个研究。目前还在大气化学top期刊ACP公开评审,感兴趣的同学也可以comment。
近年来, 出现了越来越多的基于大数据的流动性研究, 揭示了人们在旅行中的行为和活动模式。但是, 数据真实性问题及其对知识发现过程的影响, 目前鲜有研究。本文探讨了手机信令数据(MSD)在描述流动性模式中的数据真实性问题。首先讨论了影响人类流动性模式估算的MSD位置不确定性问题, 然后研究了现有的两个解决方法(聚类法、时间窗口法)。我们还提出一个新方法, 可以克服上述两种方法的某些缺陷。将这三种方法用于MSD大数据, 我们发现, 不同的数据预处理方法, 可能会很大程度上改变数据的特征, 并进一步影响对人类流动性模式的描述和解释。对三种方法的输出结果, 我们计算了四个流动性指数(旅行数、活动点位数、停留总时间、活动熵), 发现三种方法对(与位置不确定性相关的)个体流动性估算有不同的影响。分析结果表明, 我们应更多地关注数据驱动流动性研究中的真实性问题、及其对地理空间研究的可复制性、可重现性的意义。港理工徐阳老师的研究,分析手机信令数据的位置不确定性问题,实际上这个问题是非常关键的,手机信令数据的地理定位依赖于基站的位置,可能造成小尺度的流动性估算不确定性。
]]>最近忙于研究事宜,许久未归。新一期资源整理博客。
1.Python的Geohash编码压缩工具。
2.基于Google Earth Engine平台用于洪涝灾害的水文遥感分析包。
3.Python库moto,一个使您能够轻松模拟基于AWS基础架构的测试的库。
4.R语言包helpr,可以改善友好的HTML文档。
5.Binder实例与地理信息科学和技术知识体系的章节进行交互。
6.论文’How to build a biodiverse city: environmental determinants of bird diversity within and among 1581 cities. Biodiversity and Conservation’的重现和分析代码。
7.R语言包sixs,使用6S模型做大气校正。
8.R语言的Github Actions。
9.Deep Reinforcement Learning Hands on一书的代码。
Deep Reinforcement Learning Hands on
10.R语言包equtiomatic,将模型转化为Latex的公式。
11.R语言学习资源。
12.Python库networkx,网络分析库。
13.用于GeoStats.jl框架的Jupyter笔记本形式的教程。
14.Python库networkit,一个还在发展的开源大规模网络分析库。
15.Richard McElreath的Statistical Rethinking一书第二版的数据与代码。
16.学习者从头开始构建应用程序的编程教程列表。
17.Harmonize Project是使用Python内置的低延迟视频分析和传递应用程序。
18.macOS的gfortran和gcc编译器。
19.Python库rasterio,可以读写地理空间栅格数据。
20.EMNLP2020论文Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information的代码。
21.CVPR2020论文,此存储库提供了OCDA驾驶数据的示例代码。 它实现了本文中的AdaptSeg基线模型。
22.Python库zss提供了一个函数(zss.distance),该函数计算两个给定树之间的编辑距离,以及一小组实用程序,以方便使用。
23.Python库apted,这是APTED算法的Python实现,这是用于计算树编辑距离的最新解决方案,它取代了RTED算法。
24.GuwenBERT: 古文预训练语言模型。
25.R语言包parallaxr,使用YAML和Markdown在R中生成如图的文档。
26.对您的Polygons和MultiPolygons应用布尔多边形裁剪操作(联合,交集,差,异或)。
27.pysal样例。
28.这是俄勒冈大学的Grant McDermott教授的硕士学位课程:Big Data in Economics。
29.nep29计算工具,推荐的numpy科学计算工具。
30.Stan math是一个C ++模板库,可使用正向,反向和混合模式自动区分任何顺序。 它包括一系列用于概率建模,线性代数和方程求解的内置函数。
31.Flarum 简体中文语言包。
flarum lang simplified chinese
32.Minkowski Engine是用于高维稀疏张量的自动差异神经网络库。
33.Duplicati是一个免费的开放源备份客户端,可将加密的,增量的,压缩的备份安全地存储在云存储服务和远程文件服务器上。
34.这是一个简单的脚本,用于实时从pushift收集作者,subreddit对。
35.一组用于在点和形状之间绘制完美箭头的最小功能。
36.R语言包billboarder,billboarder.js的htmlwidget插件。
37.Python库xclim,基于xarray的反演气候变量库。
38.OGGM是用于冰川动力学的模块化开源模型,该模型考虑了冰川的几何形状(包括贡献分支),并包括一个明确的冰动力学模块。 它可以在全自动和可扩展的工作流程中模拟过去和将来(几乎)任何冰川的质量平衡,体积和几何形状。 我们完全依靠公开可用的数据进行校准和验证。
39.Julia编写的快速友好的不可压缩流体流动求解器,可以在1-3尺寸的CPU和GPU上运行。 它旨在解决在非静水海洋建模中使用的旋转Boussinesq方程,但可用于解决任何不可压缩的流动。
40.Python库cf xarray,xarray对象的轻量级访问器,用于解释CF属性。
41.Python工具StreetSpace用以测量与分析街道。
42.R语言包gggap,在“ ggplot2”图的y轴上简化了线段的创建。
43.基于MLT Framework和KDE Frameworks 5的免费和开源视频编辑器。
44.R语言selectr,使处理HTML和XML文档更加容易。 它通过将CSS选择器转换为XPath表达式来做到这一点,以便您可以轻松查询XML和xml2文档。
45.R语言包d3r,d3.js R的帮助。
46.R语言包convo,convo的目标是实现一个控件的创建,以便为关系数据集中的列命名。
47.Statistical Rethinking: A Bayesian课程(R / Stan / Python / Julia中的代码示例)。
48.如果您需要快速的开发人员/数据科学产品组合,请使用此模板! 基于GitHub Pages的最小Jekyll主题。
49.R语言包rtreesitter,Tree-sitter解析库的R接口。
50.拼音首字母缩写翻译工具。
51.Kvass提供了Prometheus分片的解决方案,该解决方案使用Sidecar生成新配置。
52.精选的出色开源医疗软件,库,工具和资源的清单。 每个链接都经过审核,以确保该项目有效,并为医疗机构,提供商,开发商,政策专家和/或研究科学家提供价值。
53.R语言包riskmetric,用于评估R软件包的质量。
54.TorchServe是用于PyTorch模型服务部署的灵活易用的工具。
55.Cloud-init是用于跨平台云实例初始化的行业标准多分发方法。
56.从美国国家航空航天局获取气候变量的R代码。
57.该页面是利用Stan进行贝叶斯推断的软件的生态学应用的集合。
58.双信号转换LSTM网络,Interspeech 2020论文。
59.GraphQL的JavaScript参考实现,GraphQL是Facebook创建的API的查询语言。
60.此存储库是“Engineering Production-Grade Shiny Apps”书附录的附件。
61.R语言包windninjr,辅助函数,用于从R运行WindNinja。
62.Python包pyrosm,可将OSM数据从Protobuf格式解析为Geopandas GeoDataFrames。
63.芬兰Python公开地理数据。
64.2020年秋季Earth Analytics训练营课程的作业。
bootcamp 2020 12 vector template
65.使用基于特征的方法调查北美鸟类的年内城市化模式。
66.防止敏感数据意外提交到github的工具。
67.在苏格兰公共卫生组织内使用GitHub的指导和最佳实践规则。
68.jsdom是许多Web标准(特别是WHATWG DOM和HTML标准)的纯JavaScript实现,可与Node.js一起使用
69.现代C ++的活动指标。
70.一系列很棒的用于张量计算和深度学习的编译器项目和论文。
71.Earth Lab JupyterHubs的基础架构和运营。
72.Python库progressbar,文本进度条。
73.R语言包reactable,基于React Table库并使用react制作的R的交互式数据表。
74.使用CNN监督分类(CSC)对冰川景观进行分类。
75.适用于Citywide数据科学和Predictive Analytics JupyterHub部署的Docker映像和Kubernetes配置。
76.使用pyproject.toml Python配置文件的项目列表。
77.对于打算为Chapman&Hall写书的人来说,这是一个最简单的例子,谢益辉大大给的神器。
78.Python库Momepy是一个用于定量分析城市形态-城市形态计量学。它建立在GeoPandas,PySAL和networkX之上。
79.R语言包collapse,一个基于C/C ++的软件包,用于R中的数据转换和统计计算。
80.使用JAGS的贝叶斯综合人口建模(IPM)。
81.Vegeta是一种多功能的HTTP负载测试工具,其构建目的是为了以恒定的请求速率钻取HTTP服务。 它既可以用作命令行实用程序,也可以用作库。
82.Emacs的markdown预览模式。
83.dygraphs JavaScript库生成时间序列的交互式可缩放图表。
84.从node.js应用程序创建一个可执行文件。
85.在本地运行GitHub操作。
86.不同计划数据和技术资源的精选列表。 邀请对构建环境感兴趣的人查看该仓库并做出贡献。
87.R语言包changer,更改现有R程序包的名称。
88.适用于Chrome的功能最强大的屏幕记录器和注释工具。
89.R语言包actel,来自穿过接收器阵列的鱼类的声音遥测数据的标准化分析。
90.R语言包RSP,完善在河口地区使用声发射器追踪的动物的最短路径(RSP)。
91.R语言包jtools,汇总/可视化回归和其他有用内容的工具。
92.用于学习Python的地方和速查表。 Python脚本集合,按主题划分,并包含带说明的代码示例。
93.Python库echopype,在海洋声纳数据分析中实现互操作性和可伸缩性。
94.Google Earth Engine红树林制图方法。
95.使用pulp包解决空间优化的示例(p-median/set covering)
96.R语言包drc,通过一套灵活而通用的模型拟合和拟合后功能,可以进行剂量反应数据分析。
97.农业科学研究的CRAN任务视图。
98.中国软件著作权申请教程 & 模板文件。
99.Python库Pymer4,用于估计Python中的各种回归模型和多层回归模型。类似R里面的lme4。
100.初学者的网页开发教程,24节课,12周。
101.NHS-R社区会议2019的回归建模研讨会。
102.reMarkable的资源。reMarkable是一种纸质手写板,适合那些喜欢在纸上而不是键盘上打字的人。
103.R语言包miceFast,面向对象编程范式下的快速插补。 此外,还提供了一些与流行的R包一起使用的功能,例如“ data.table”或“ dplyr”。
104.R语言包lplyr,dplyr的拓展,专门针对list操作。
105.R语言包timetk,可视化,整理和特征工程的时间序列数据以进行预测和机器学习预测。
106.R语言包plotly,可视化神器,plotly.js的R接口,与ggplot2深度集成,可以直接转换。
107.提供SQL Server数据管理功能的SQL Tools API服务。
108.Linux系统优化程序和监视。
109.应用与计算统计学的案例研究。
110.基于RNNoise库的语音降噪lv2插件。
111.通过累积按频率建模的波动来进行语音降噪。
112.该项目旨在建立一个语音增强系统来减轻环境噪声。
113.一个示例ALTREP程序包,无需重复即可将向量实现为其他向量的窗口/视图。
114.R语言包placekey,用于placekey的API交互的R包。
115.“地学研究人员所需要的GIS”研讨会系列的开源仓库。包含研讨会上使用的数据,协议,输出,讲座和资源。 Nicholas Barber教授的课程。
116.PixieDust是用于Python或Scala笔记本的生产力工具,开发人员可以使用它将业务逻辑封装到易于客户使用的东西中。
117.基于LiDAR的动态移动网络全景分割。
118.caldera是一个网络安全框架,旨在轻松运行自主的违规和模拟练习。
119.Plotly图形库的开源文档。
120.R语言包splitr,用于使用HYSPLIT进行空气污染源的后向轨迹轨迹和色散建模。
121.响应式Python + Flask + SQLAlchemy + Google Maps应用程序,墓碑地图。
这项研究调查了在灾难管理中利用VGI的可能性。有效的跨辖区灾难管理需要实时信息,而官方来源无法提供这些信息。本文将来自Twitter的推文确定为潜在的VGI数据源,并说明如何发现和利用相关的推文。本文提出了实时(或接近实时)推文收集,实时推文保存在分布式地理数据库中以及实时VGI数据重新分配的研究方法。该研究将Web GIS应用程序实现为带有地理标签的推文操作的平台。已实现的Web GIS应用程序包括一个tweet发现组件,一个带有地理标签的tweets映射组件以及一个在线带有地理标签的tweets操作和分析组件。主要任务包括如何在地理数据库中记录收获的带有地理标签的推文,以便可以对其进行实时重新分发。基于2015年飓风华金的推文和假设的大规模撤离,该案例研究评估了VGI在应急管理中响应的利弊。还演示了时空分析组件。社交媒体地理学与应急灾害研究的一个范例,集成为实时系统可以迅速响应应急灾害的管理。
2.Exploring the influence of land cover on weight loss awareness/探索土地覆被对减肥意识的影响
减肥被认为是美国越来越多的人的承诺,因为肥胖是该国普遍存在的公共卫生问题。人们生活的地理环境和体重状况的自我意识被认为在体重管理中起着重要的作用。因此,了解地理环境和体重状况的认识对于维持或改善生活质量至关重要。随着大量带有地理标签的社交媒体数据源的出现,在地理环境下对体重状况的“地理意识”分析导致了新的研究途径。为了充分了解体重状况及其与地理环境的关系,我们的分析基于与减肥有关的“ tweets”(在Twitter上发送的消息)和National Land Cover Dataset。我们介绍从建模中获得的发现:(1)与减肥相关的推文的地理模式,以及(2)土地覆盖变化如何使用交叉制表法影响与减肥相关的网络空间消息活动。分析结果通过表格和图形进行汇总。社交媒体地理学与健康地理的一个交叉研究,以Twitter数据与土地覆被数据分析土地覆被对于减肥意识的影响。
这项研究使用来自中国最大的互联网公司之一的腾讯公司前所未有的高分辨率和覆盖面广的LBS数据集,研究了城市环境中人口的时空分布及其与城市功能的关系。通过检查不同时期的人口分布,可以观察到不同的城市形态。基于时间熵的时空人口分布分析表明,就业,商业和风景名胜区的人口分布具有比居民区和混合用途区更大的时间波动。关于基于300×300-m网格的城市功能与人口时空分布之间的Spearman相关系数,然后对其进行测量以揭示人口时空分布的根本原因。结果表明,随着城市功能的日益混合,人口的时间分布变得更加均匀。在局部范围内,关键地区的临时人口分布表明,人们在某个地方的位置与人类行为相符。在就业为主的地区,工作日的人口波动较大,但周末的分布相对均匀。商业区的人口在工作日和周末仅达到几个小时的高峰。相比之下,混合区域和大型居民区始终可以容纳稳定的人数。利用社交媒体数据(腾讯LBS数据)分析不同时期的人口分布与城市形态的关系。当前的城市中功能区混合是一个比较大的趋势。
4.Spatial and big data analytics of E-market transaction in China/中国电子市场交易的空间和大数据分析
本研究使用大数据方法和引力模型,基于淘宝平台2011年6月至12月在线手机交易的数据,量化了中国城市在线交易的范围和来源,并探索了驱动力。 晋冀地区,长三角和珠三角表明,较高的经济发展水平与物流业的发展和C2C淘宝店铺的增多有关。 回归结果表明,距离,GDP和人口密度是影响电子市场交易数量和数量的三个主要因素。 交易者的数量和声誉(按相对价值)也显着提高了交易量和数量。 此外,来自淘宝平台的大数据提供了证据,表明重力模型在估计在线交易量方面是有效的。基于淘宝大数据分析中国城市电商市场的空间分布趋势,从结果来看,电商市场与传统市场同样受到三个主要因素影响,即距离,GDP和人口密度。
本文基于收集的2005年,2010年和2015年中国地级以上城市的信息,分析了城市形态,收缩城市与居民碳排放之间的关系。在控制了许多城市形态和社会经济之后, 变量(例如大小,紧凑性和多中心性),本文关注“收缩城市”中的居民碳排放,这些城市经历了人口流失,是中国最近出现的城市现象。 在其他所有条件都相同的情况下,收缩城市往往比增长中的城市具有更低的能源效率,这表明这些城市不仅可能与人口和经济的萎缩“斗争”,而且还需要考虑环境问题。我院王明舒老师与港大刘行健老师的研究成果,分析当前中国收缩城市中的环境问题,以碳排放为例。收缩城市本身就经历着人口与经济的萎缩,加上环境问题,城市的发展将更受桎梏。非常有意思的一个研究,发表于能源top期刊Applied Energy。
以良好的时空分辨率估算地表PM2.5是在其健康风险的流行病学研究中进行暴露评估的关键技术。先前的研究已经利用监测,卫星遥感或空气质量建模数据来评估PM2.5浓度的时空变化,但是此类研究很少同时将这些数据组合在一起。通过组装技术,包括具有空间变化系数的线性混合效应回归,最大似然估计器和时空Kriging,我们开发了一个三阶段模型来融合PM2.5监测数据,卫星反演的气溶胶光学深度(AOD)以及社区多尺度空气质量(CMAQ)模拟,并将其用于估算中国全天的PM2.5,空间分辨率为0.1°。使用交叉验证(CV)方法逐步评估三阶段模型的性能。 CV结果表明,最终融合的PM2.5估算器与观测数据(RMSE = 23.0μg/ m3,R2 = 0.72)非常吻合,并且优于AOD衍生的PM2.5(R2 = 0.62)或CMAQ模拟( R2 = 0.51)。根据特定于步骤的CV,在数据融合中,AOD反演的PM2.5在降低平均偏差中起关键作用,而CMAQ提供时空上完整的预测,避免了卫星反演AOD的非随机不完整所引起的采样偏差。与CMAQ模拟或基于AOD的估算相比,我们的融合产品在雾霾发作期间表征污染过程的能力更强,因此可以支持对环境PM2.5的慢性和急性暴露评估。根据这些产品,2014年中国全国PM2.5的年平均暴露浓度为55.7μg/ m3,而中国的平均污染天数(PM2.5> 75μg/ m3)为81。融合产品可以用于未来健康相关研究。清华大学张强老师课题组的成果,融合地面监测PM2.5数据,卫星反演AOD和空气污染的数值模型生成高时空分辨率的PM2.5数据。从结果上看融合产品由于单独使用三者其中任何一个数据估算的产品。笔者最近也做了一个类似的研究,融合多源数据实现高时空分辨率的PM2.5制图并且估算相对应的暴露健康风险。
7.An analysis of forest biomass sampling strategies across scales/跨尺度森林生物量采样策略分析
热带森林在全球碳循环中起着重要作用,因为它们在其生物量中存储了大量碳。为了估计森林景观的平均生物量,通常使用样地,假设这些样地的生物量代表周围森林的生物量。在这项研究中,我们研究了在有限数量的样地下符合该假设的条件。因此,通过将统计方法与模拟抽样策略相结合,可以确定用于预测热带森林景观平均生物量的最小样本量。我们检查了Barro科罗拉多岛,巴拿马和南美,非洲和东南亚的森林生物量图。结果表明,如果采样的样地是随机分布的,则需要约100个样地(每个1-25公顷)来估算整个大陆的生物量。但是,当前清单图的位置通常不满足此要求,例如,因为其抽样设计基于气候梯度之间的空间样线。我们表明,这些非随机位置导致需要更高的采样强度(对于南美准确的生物量估计,最多需要54 000个地块)。使用样带内各样点之间的较大距离(5?km)可以减少所需样点的数量。我们还应用了新颖的点模式重构方法,以解决已知林地网络中盘点的聚集问题。结果表明,如果不采用进一步的统计方法,当前的样地网络可能具有集群结构,从而降低了森林生物量大规模估计的准确性。为了在整个南美热带森林中建立更可靠的生物量预测,我们建议在空间上随机分布更多的清单图(最少100个样地),并确保清单图数据的分析考虑其空间特征。森林属性估计的精度取决于采样强度和策略。一个非常有意思的研究,关于森林生物量样地采样分布策略分析,事实上样地空间分布与代表性将会大大影响森林生物量估算的精度。该结果表明单就南美热带森林而言,需要随机分布至少100个样地,且必须考虑空间特征,方能保证足够的精度。
8.From small-scale forest structure to Amazon-wide carbon estimates/从小尺度森林结构到亚马逊范围的碳估算
热带森林在全球碳循环中起着重要作用。高分辨率遥感技术,例如空载激光雷达,可以测量复杂的热带森林结构,但是如何解释此类信息以评估森林生物量和生产力仍然是一个挑战。在这里,我们通过将770,000 GLAS激光雷达(ICESat)轮廓与考虑空间异质性环境和生态条件的森林模拟相匹配,开发出一种方法来估算亚马逊地区的基础面积,地上生物量和生产力。这允许导出整个亚马逊的关键森林属性的频率分布。与使用平均树冠高度进行的(传统)估算相比,这种对遥感数据的详细解释将森林属性的估算提高了20-43%。森林建模的纳入具有很大的潜力,可以弥补遥感测量与森林的3D结构之间缺失的联系,从而可以改善整个大陆对生物量和生产力的估计。基于GLAS ICESat的亚马逊森林碳估算。加入LiDAR提供的平均树高可使精度提升20%到40%。
空气污染和噪音都是无处不在的环境压力,对公共健康构成了巨大威胁。越来越多的证据表明,在居住环境中,与交通有关的空气污染物和噪声的共存会带来综合的健康风险。然而,人们对流动的人如何同时暴露于多种空气污染和噪音源,从而在居住地以外做出更敏锐的心理反应的了解却很少。这项研究研究了在时空环境中同时暴露于细微心理压力的情况下,细颗粒物(PM2.5)和噪声的共同暴露。通过一项创新的研究方案,包括配备GPS的活动旅行日记,空气污染物和噪音传感器以及生态瞬时评估,从中国北京的居民样本中收集实时数据。结果表明,在考虑了个体迁移率和这两种环境污染物的时空动态之后,PM2.5与噪声暴露之间存在较小的相关性。此外,考虑到无关紧要的独立作用和噪声暴露的弱化作用,暴露于PM2.5与瞬时心理压力更为相关。划定了三种涉及共同暴露健康风险的时空背景,包括早晨高峰时间和公共交通出行,由于暴露于空气污染和噪音共同导致压力风险加剧,工作场所具有两种暴露均能缓解压力影响的能力,在家中因压力引起的空气污染和缓解压力的社会噪音。总之,基于流动性和上下文感知的分析提供了对共同暴露与环境污染和时空同步心理压力之间联系的更细微的了解。柴彦威老师与关美宝老师团队的成果,分析空气污染与噪声共同暴露对时空心理压力的影响。配备GPS的活动旅行日记,空气污染物和噪音传感器以及生态瞬时评估的创新研究方案是本研究的亮点。
黑碳(BC)对空气质量和气候的影响仍不清楚,部分原因是对大气中BC老化过程的了解不足。在这项工作中,我们基于排放清单和反向轨迹分析开发了一种新方法来模拟BC混合状态(即,在BC表面上涂覆的其他物种)。该模型跟踪了大气传输过程中BC老化程度的演变(以整个颗粒与BC核的尺寸比为特征)。使用这些模型,我们量化了从各种发射源(即0.25∘×0.25∘网格)传输到受体(例如观察点)的总BC粒子的质量平均老化程度。模拟结果与现场测量结果吻合良好,这验证了我们的模型计算。对大气中BC的老化过程进行建模的研究表明,它在很大程度上取决于排放水平。来自更多排放源(即受污染区域)的BC颗粒的特征在于,由于更多共同排放的涂料前体,因此在大气运输过程中的老化程度更高。另一方面,高排放区域还控制了从较清洁区域发出并在大气传输过程中穿过这些污染区域的BC颗粒的老化过程。模拟确定了广泛的发射区在大气运输过程中在BC老化过程中的重要作用,这意味着广泛的发射区对BC光吸收的贡献增加。这为华北平原污染加剧的现象提供了新的视角,进一步表明这主要是由区域运输和转型驱动的。大气运输过程中BC老化程度的模拟为改善空气污染和气候变化提供了更多线索。清华大学张强老师团队的成果,发表于大气物理化学口top期刊ACP。分析大气中黑碳的老化过程。
量化城市范围的时空变化对于理解城市化的新兴过程很重要。已经使用了许多性能良好的方法来绘制城市区域图并使用夜间光数据检测城市变化,但是其中许多方法都假定城市区域等同于不透水表面或发达土地所占百分比较高的区域。我们提出了一种在区域规模上有效绘制城市区域图的方法,它还提供了从不同的理论角度认识城市范围的机会。在我们的方法中,基于对研究区域城市化现状的了解,选择了适当的划界标准和城市指标。在基于对象的分割和初始城市中心的检测之后,通过使用分组算法从这些初始城市中心扩展来识别城市斑块,描绘出城市区域的相对边缘。我们使用2010年DMSP夜间灯光数据和县级行政部门对这种新方法进行了测试。我们发现市区的总面积为146,806,分布在2489个县中,占中国大陆土地的1.5%。根据罗盘方向,城市斑块的划定边界具有不同的值。条纹的平均值和不同城市斑块的大小在不同地区之间差异很大。我们检测了所有省会城市,97.3%的地级市和91.0%的县级市。因此,这种方法能够在区域范围内以可靠的精度识别城市斑块。生态中心周伟奇老师团队的成果,利用工农夜间灯光数据,面向对象分类方法与中心检测实现区域上的城市建成区划分。
12.Operational local join count statistics for cluster detection/用于空间集聚检测的空间局部自相关性统计
本文针对感兴趣的变量为二进制的情况,实现了空间关联的局部指标的想法。 这产生了局部联接计数统计信息的条件版本。 通过对共址的显式处理,该统计信息扩展到双变量和多变量上下文。 对于事件的所有潜在位置都可用(例如,城市中的所有地块)的情况,该方法提供了一种替代基于点模式的统计信息。 统计信息在开源GeoDa软件中实现,并生成了二进制变量的本地群集以及两个(或多个)二进制变量的共置群集的产量图。 实证插图调查了2013年和2014年底特律的房屋销售局部群以及2017年芝加哥人口普查区的城市设计特征。Luc Anselin院士的成果,对二进制变量的空间自相关性检测方法join count做了扩展,用于空间集聚特征检测。
13.Geographically weighted regression and multicollinearity: dispelling the myth/地理加权回归和多重共线性:消除神话
地理加权回归(GWR)通过为研究区域内任意数量的位置估计一组参数来扩展熟悉的回归框架,而不是为模型中指定的每个关系生成单个参数估计。 最近的文献表明,GWR极易受到解释变量之间多重共线性影响的影响,并提出了一系列多重共线性的局部度量作为潜在问题的指标。 在本文中,我们采用受控仿真来证明GWR实际上对多重共线性的影响非常稳健。 因此,需要重新考虑GWR极易受到多重共线性问题的影响。Stewart Forthingham院士团队的城固,分析了GWR与多重共线性的关系,从仿真结果来看,多重共线性对GWR的影响是稳健的。非常有意思的一个结论。
短期空气污染事件促使人们更好地理解空气污染与急性发病和死亡事件之间的关系,并触发了所需的缓解计划。已经采用了多种方法来评估空气污染事件的暴露程度,包括基于GIS的扩散模型,稀疏监视站点之间的插值,土地利用回归模型,优化模型,线或面积扩散羽状模型以及使用信息的模型。来自成像卫星,通常包括土地利用和气象变量。越来越多地使用人造卫星气溶胶产品来评估短期空气质量事件。它们提供了更好的空间覆盖范围,但目前是以低时间覆盖范围和粗略的空间分辨率为代价的。这是关于使用卫星数据为短期空气质量和污染事件建模的简短回顾。该评估可以作为使用卫星产品对空气质量进行建模的实用指南,因为它包括研究设计和模型开发阶段均应考虑的重要问题。该领域的进展是详细的,包括已发布的模型及其在环境和健康研究中的使用。涵盖了当前和未来的卫星能力。它还提供了访问和下载相关数据集的链接,以及一些用于数据处理和建模的示例R代码。一篇关于卫星估算PM2.5与短期污染时间策略的综述,非常详尽,提供了很多有利的研究进展与该领域研究概况。
混合土地用途已被广泛用作改善城市功能的规划工具。然而,由于其复杂性,描绘混合土地用途相当困难。先前的研究已经使用遥感图像或地理空间大数据分解了城市土地区域。由于缺乏方法,很少有研究将这两个数据源结合在一起。本文提出了一种端到端两流卷积神经网络(CNN),用于通过结合高空间分辨率(HSR)图像和真实的时间腾讯用户密度(RTUD)数据。两个深度学习网络(一个用于图像信息提取,另一个用于与人类活动相关的信息提取)用于构造CF-CNN的两个分支。可以通过在街区一级计算每种土地利用类型的比例来描述混合土地利用。与使用单源数据的方法相比,CF-CNN获得了最高的分类精度。我们进一步应用了香农多样性指数(SHDI)来量化城市群的混合土地利用。计算了SHDI,社区距离和邻里活力之间的Spearman相关系数,以验证混合土地利用组合的有效性。我们的框架通过整合多源数据提供了一种识别混合土地利用结构的替代方法。地大姚尧老师团队的成果,结合高分辨率影像与地理空间大数据(腾讯LBS数据),结合两个深度学习网络估算街区尺度土地利用混合比例,发表于遥感口top期刊TGRS上的雄文。
16.A gridded establishment dataset as a proxy for economic activity in China/中国经济活动代理变量:一套网格化的企业数据集
衡量经济活动的地理分布在科学研究和政策制定中起着关键作用。但是,先前关于经济活动的研究和数据要么具有较粗糙的空间分辨率,要么涵盖有限的时间跨度,而且社会经济动态的高分辨率特征在很大程度上尚不清楚。在这里,我们构建了有关中国大陆经济活动的数据集,即网格化的企业数据集(GED),该数据集可测量经纬度为0.01∘的经纬度范围为0.01∘的机构的数量。具体而言,我们的数据集捕获了2005-2015年间在中国大陆注册的大约2550万家公司的地理分布。细粒度和长期可观察性的特性使GED具有很高的应用价值。该数据集不仅使我们能够量化场所的时空格局,城市活力和社会经济活动,而且还有助于我们揭示工业和经济发展动态基础的基本原理。北京大学刘瑜老师团队的成果,目前是预印本,提供了一套高质量的由注册公司网格化形成的数据,可以作为中国经济活动的代理变量。
土地利用集约化导致生物多样性丧失,这通过改变植物功能性状而影响生态系统特性和服务。然而,土地利用强度(LUI)通过其影响功能特征和生态系统特性的生态系统服务的机制途径仍不清楚。我们研究了中国热带海南岛的土地利用变化,植物功能性状,生态系统特性和土壤水养护之间的关系,这些地区的土地利用变化,生物多样性丧失和季节性干旱均对其产生了严重影响。土壤水养护以两个互补过程为代表,即土壤保水率(SWR)和土壤水分捕获(SWC)。在发生27次降雨事件(14次轻度,10次中度和3次重度)后,沿着LUI梯度观测到SWR和SWC。我们量化了LUI的直接和间接影响,与水有关的植物功能性状(树高,叶厚,比叶面积和叶干物质含量)的社区加权平均值(CWM)和功能差异(FDvar),以及贝叶斯结构方程模型在西南海和西南半球的生态系统特性结果表明,LUI不会直接影响SWC和SWR,但会通过功能性状和生态系统特性产生间接影响。重要的是,树高FDvar介导了LUI对SWC和SWR的最重要的间接影响。树高FDvar通过生态系统特性间接影响SWC,而随着降雨强度的增加,影响的方向从负向正转变,并通过增加凋落物和土壤有机质直接或间接地促进了SWR。我们的结果进一步提供了LUI主要通过树高FDvar间接影响土壤水保持的证据。 LUI导致植物高度功能多样性的丧失导致SWR和SWC降低,表明季节性干旱导致影响增加。研究结果强调,在热带土地利用中保持树高的功能多样性有利于土壤水养护,减轻气候变化带来的季节性干旱加剧。欧阳志云老师团队的成果,分析土地利用变化,植物功能性状,生态系统特性和土壤水养护之间的关系。
近年来,有关经济增长与环境污染之间关系的争论引起了学术研究人员和政策制定者的极大关注。在实证研究中,过度使用了空间计量经济学模型,而过分强调统计程序。在这项研究中,我们通过使用空间杜宾模型对中国城市的经济增长与CO2排放之间的关系进行更严格的分析,为现有文献做出了贡献。我们的结果表明,二氧化碳排放量相对于城市一级的经济增长而言呈单调增加,并且中部地区经济增长的推动作用略小于东部和西部地区。除经济增长外,行业在经济中的份额是CO2排放的主要驱动力,而技术进步(通过单位国内生产总值(GDP)的能源强度衡量)和环境治理的有效性使环境Kuznets的形态趋于平坦。曲线。我们提供了解释变量对CO2排放的局部溢出效应的证据。发现中国城市存在与二氧化碳排放有关的经济竞争和技术扩散。我们还发现,仅当给定城市的人均GDP低于493美元(以2010年不变价美元计算)时,城市之间的碳泄漏量才会出现。执行健壮性检查时,结果保持不变。决策者在制定减碳政策时应仔细考虑地区差异和因素之间固有的空间相互作用。黄波老师团队的成果,利用空间计量经济模型分析地方经济发展与二氧化碳排放的关系。
19.Spatial sampling for a rabies vaccination schedule in rural villages/农村村庄狂犬病疫苗接种时间表的空间采样
自1954年以来,在南部高地地区已有报道称,坦桑尼亚正在努力遏制狂犬病,目前坦桑尼亚的所有地区都在流行。已经确定,至少70%的家畜种群的大规模疫苗接种在减少狂犬病的传播方面是最有效的。坦桑尼亚村庄目前的疫苗接种运动面临许多行政和后勤挑战。动物可以自由漫游,因此不可能进行全面的疫苗接种。提出了村庄中家庭的空间抽样,其中最优性是通过接种者步行为每个抽样家庭接种疫苗的步行距离来衡量的。步行距离是通过在最佳确定的停车点之间合并驱动网络来实现的,接种者随后从步行点开始步行以进行疫苗接种,同时确保70%的动物种群覆盖率。我们使用模拟说明了真实数据集上的采样方案。发现系统的常规空间采样是最佳的。提出的疫苗接种计划为管理疫苗接种活动提供了有效的方法。分析疫苗接种时间的空间采样,是一个非常有意思的研究,即在有限时间内有效地根据人群流动特征把保证接种疫苗的人成功接种,可以实现真正意义上的群体免疫。该研究也可以提供给目前COVID-19疫苗接种的思路。
随着中国城市化进程的迅速发展,人为的反应性氮(Nr)释放到城市环境中会导致水资源枯竭和水质严重恶化。这项研究通过使用灰色水足迹(GWF)和水污染水平(WPL)指标评估了城市化城市(中国深圳)中与氮有关的水污染,涉及水体Nr释放对行政区和相关城市河流的潜在影响在城市内。结果表明,2001-2016年城市水体Nr释放量动态减少,平均N为15980 t N,伴随的是灰色水足迹从23.06××108减少到15.56××108 m3,主要来自居民活动。宝安和龙岗两个行政区是2012-2016年期间主要的全球GWF生产国。潜在WPL极高的城市河流地区主要位于宝安北部和龙岗东北部,水污染发展的风险仍散布在深圳市的城市供水网络中。为减轻城市水污染,需要采取几种策略(鼓励可持续的生活方式,改善基础设施并制定地区一级的全球自然基金会减排目标)。这项研究提供了洞察城市中减轻水体氮污染,应对当前水挑战的同化能力状况的见识。欧阳志云老师团队的成果,关于分析人为的反应性氮,灰色水足迹与水安全的研究。
21.Geographical and temporal huff model calibration using taxi trajectory data/使用出租车轨迹数据进行地理和时间Huff模型校准
Huff模型旨在根据购物中心的吸引力和客户的旅行费用估算购物中心光顾的可能性。在本文中,我们尝试通过使用出租车轨迹GPS数据并共享自行车GPS数据来校准中国深圳和美国纽约的Huff模型,从而发现一些一般的购物趋势。使用地理和时间加权回归(GTWR)拟合模型,并将校准结果与普通最小二乘(OLS)回归,地理加权回归(GWR)和时间加权回归(TWR)进行比较。结果表明,由于吸引力和旅行成本的霍夫模型参数的明显地理和时间变化,GTWR的性能最高。为了解释地域差异,我们使用深圳和纽约的房屋销售价格和租金价格来代替每个地区客户的财富。皮尔逊产品与商品时间的相关性结果显示,本地化销售和租金价格与吸引力的Huff模型参数之间存在中等关系:也就是说,客户财富说明了对购物区吸引力的地理敏感性。为了解释时间变化,我们使用深圳和纽约的人口普查数据来提供每个地区的工作概况分布,以此来估计客户的闲暇时间。回归结果表明,闲暇时间的长短与购物区吸引力参数之间存在显着的线性关系。特别是,我们证明,闲暇时间较少的富裕客户对购物中心的吸引力更加敏感。我们还发现客户对旅行距离的敏感性与其旅行方式有关。尤其是,与骑出租车的人相比,骑自行车去购物区的人们更关心旅行距离。最后,结果显示,纽约和深圳的客户在周末之间的行为存在差异。纽约的顾客更喜欢在周末在本地购物,而深圳的顾客则不太在乎行程距离。我们提供霍夫模型的GTWR校准作为我们的理论贡献。 GTWR将Huff模型扩展到两个维度(时间和空间),以分析居民在不同时间和位置的出行行为的差异。我们还将提供影响城市出行行为(财富和就业)的因素的发现,作为可能有助于优化城市交通设计的实际贡献。尤其是,居民对购物区吸引力的敏感性与房价呈显着正线性关系,与居民的闲暇时间呈显着负线性关系。利用出租车GPS轨迹数据与GTWR对时空Huff模型做校准。可以说是一个典型的新地理大数据改进传统地学模型的案例,非常值得一看。
22.The scales of human mobility/人口流动的尺度
当前我们对个人和集体出行方式的理解的核心是矛盾。一方面,在对大量经验数据集进行分析的驱动下,关于人类活动性的大量文献研究发现,人类活动没有显示出特征性空间尺度的证据。在那里,人们的流动性被描述为无标度。另一方面,在地理上,比例尺的概念(指从各个建筑物到邻里,城市,地区和国家的有意义的描述水平)对于描述人类行为的各个方面(如社会经济互动,政治或政治,社会和文化)至关重要。文化动态4.,5。在这里,我们通过证明日常的人类活动确实包含有意义的尺度来解决这一明显的悖论,这与限制行动行为的空间“容器”相对应。无标度的结果是由于容器之间的总位移而产生的。我们给出一个简单的模型(给出一个人的轨迹),推断出他们的邻居,城市等,以及这些地理容器的大小。我们发现,具有超过700,000个人特征的容器确实具有典型的尺寸。我们证明了我们的模型还能够生成高度现实的轨迹,并提供了一种了解国家,性别群体和城乡地区之间流动行为差异的方法。Nature上一篇文章,关于分析human mobility的尺度问题。当前的human mobility已成为各种地理环境与生态研究的人类活动的主要刻画指标。非常值得一看的文章。
人们普遍认为,绿色空间的可利用性是宜居环境和人类福祉的关键方面。越来越多的社区认为,绿色空间的可及性在社区之间是否公平,已成为环境正义的问题。因此,本研究的重点是在中国蓬勃发展的住房市场背景下,住宅社区之间可能存在的绿色空间可及性环境不平等现象。中国上海的案例研究是利用大数据进行的。开发了基于Amap应用程序编程接口(AAPI)的实时导航路线测量,以计算绿色空间的可及性,并使用住房价格来指示居民的社会经济状况。采用双变量Moran I,多元回归和空间滞后回归来探讨居住社区之间绿色空间可及性的不平等性。结果表明,城市中心地区的社区与城市周边地区的社区之间的绿色空间可及性在空间上不平等。我们进一步发现绿色空间可及性与房价之间的空间不匹配。内环和中环道路上存在明显的环境不平等现象,富裕社区比处境不利的社区从绿色空间可及性中受益更多。我们将这些发现归因于上海的空间重组和绿色高档化进程。研究结果可以帮助规划人员和政策制定者确定在何处以及如何实施绿化战略,并提高认识以防止环境不平等。Landscape and Urban Planning上的一篇文章,基于大数据分析(API)计算绿色空间可达性,并结合莫兰指数,多元回归与空间滞后回归分析环境不平等问题。
]]>失踪人口回归+爷青回,本篇介绍下Suomi NPP VIIRS夜间灯光遥感数据下载。
夜间灯光遥感数据就是指利用遥感技术捕捉夜晚地球上的灯光分布状况,可以有效反映人类活动的空间分布,因此常用于各类社会经济数据方面的遥感反演。这方面应用的知名案例包括武汉大学李德仁院士与李熙老师利用夜间灯光监测叙利亚战争状况,斯坦福大学利用夜间灯光与机器学习算法识别全球贫困人群等。
当前常用的夜间灯光遥感数据主要是两个卫星,一个是DMSP(Defense Meteorological Sate-llite Program)是美国国防部的极轨卫星计划,传感器空间分辨率为3000 m,生产的夜光遥感产品空间分辨率通常为1000 m,同时DMPS夜光遥感数据是当前最长时间序列的夜光遥感数据(自1992-2013),可以提供长时间序列连续的夜光遥感监测。另一个则是2011年发射的新一代对地观测卫星Suomi NPP,该卫星搭载的可见光/红外辐射成像仪(Visible Infrared Imaging Radiometer Suit,VIIRS)能够获取新的夜间灯光遥感影像(Day/Night Band,DNB波段),空间分辨率也提高到750 m(以下简称NPP-DNB),生产的夜间灯光遥感产品空间分辨率通常为500 m。这两个卫星以外,还有一些其他相关的夜间灯光卫星,但是数据较少,且不易获取。值得注意的是,2018年中国也发射了自己的首颗专业夜间灯光卫星(由武汉大学设计与发射)——珞珈一号。
另外这里推荐几篇相关的夜间灯光遥感文章。第一篇是我参与的一篇RSE论文翻译。第二篇是RSE最新的夜间灯光遥感综述文章。
DMSP夜间灯光遥感数据提供年尺度产品下载。由于该卫星存在过饱和效应,NOAA为此发布了多套去饱和的校正影像,关于DMSP夜间灯光遥感数据的详细介绍可以参考ENVI/IDL的博客:DMSP卫星介绍和数据下载。
DMSP夜间灯光遥感数据年尺度产品下载地址:https://ngdc.noaa.gov/eog/dmsp.html
NPP夜间灯光遥感数据提供了年,月和日尺度数据下载。其中年和月的数据为合成产品,经过一定校正处理和合成。当前NPP夜间灯光遥感数据的年产品和月产品合成工作由科罗拉多矿业大学承担。NPP夜间灯光遥感数据的年产品和月产品下载链接,其中月产品数据存在3个月滞后期。
科罗拉多矿业大学提供的NPP夜间灯光遥感数据年尺度和与尺度下载地址:https://eogdata.mines.edu/download_dnb_composites.html
此外,这里要介绍另一套夜间灯光遥感数据产品。约莫两年前我曾经收到一位当老师的同学提出的一个关于夜间灯光遥感问题:为什么印度的灯光比中国亮?之前我不是特别明白怎么回答,一直到看到我即将介绍的这套产品,终于有了答案,这套产品名为“火石(Flint)”,是由中国科学院中国遥感卫星地面站陈甫团队研制的地球夜光产品数据集。
这里引用该团队在科普中国发表的文章中的文字“之前说NASA公布的夜光图上印度比中国亮,主要原因那是图没做好,另外一个原因是印度农村密度大,所以灯光分布广,其实不怎么亮”来回答前面那个问题。
“火石(Flint)”产品主页:http://satsee.radi.ac.cn/cfimage/nightlight/
科普中国文章“ 5年夜光遥感监测合成,中科院版全球高清夜光数据集来了!”:http://www.kepuchina.cn/wiki/yzts/201805/t20180518_629897.shtml
本篇博客主要介绍NPP夜间灯光遥感数据日尺度产品的下载。目前NOAA官网提供从当天起到60天前的日尺度夜间灯光产品,全球被分割为6块。
NOAA NPP夜间灯光遥感数据日尺度产品下载地址:https://ngdc.noaa.gov/eog/viirs/download_ut_mos.html
初次外,NOAA也提供了过往的历史日尺度数据下载,被集成在NOAA的综合大型数组数据管理系统(The Comprehensive Large Array-data Stewardship System,CLASS)中。
NOAA CLASS系统:https://www.bou.class.noaa.gov/saa/products/welcome
如果想下载需要先注册该网站的账户,接着选择传感器,NPP夜间灯光遥感数据请选择VIIRS_SDR的数据。
点击GO以后,跳转到如下的页面。
接着可以设置感兴趣研究区以及研究时间段。
选择所需的波段。
NPP夜间灯光遥感数据常用的波段文件为以下两个,一个是DNB数据。
另一个是对应的定位数据。
选择完毕以后,点击quick search % order。
接下来就会等收到NOAA CLASS的下载邮件(如下图)。
这个数据同样是采用FTP进行下载,对于FTP不了解的同学可以翻一下前面这篇博客:葵花8号卫星数据简介与下载(一)——数据介绍与FTP下载。
这里不赘述FileZilla软件的安装,只介绍如何配置FTP站点进行下载。
点击站点管理器。主机地址就是邮件最上面第一行FTP地址,用户为anonymous,密码为user@internet。设置完毕点击连接。
接下来会看到很多文件夹。根据你的订单号找到对应的文件夹下。
然后把选择的文件拖拽到左边的本地文件夹即可下载。
NPP夜间灯光遥感数据用户文档:https://ncc.nesdis.noaa.gov/documents/documentation/viirs-users-guide-tech-report-142a-v1.3.pdf
NPP夜间灯光遥感数据初学者slides。
数据命名规则。
除了以上数据,日尺度的产品数据还有NASA制作的一套校正产品——NASA Black Marble Product。
下载链接:https://viirsland.gsfc.nasa.gov/Products/NASA/BlackMarble.html
Google Earth Engine是Google推出的行星尺度的遥感云计算平台,提供了大量遥感数据的集成与运算工具。同时也包括DMSP和NPP夜间灯光遥感数据(月尺度和年尺度)。这里给出样例的可视化代码。
|
|
运行结果。
月尺度和年尺度产品提供的是tiff产品。可以在ArcGIS和ENVI里进行进一步处理。
关于用ENVI读取日尺度hdf5数据的方式,详情参见以下ENVI/IDL博客与L3HARRIS。
这里也介绍下如何在R语言里读取hdf5以及转换格式。基础的两个包分别为raster和rhdf5。其中rhdf5必须通过BioManager包安装。这里是安装命令。
|
|
hdf5是一个在科学计算领域有广泛应用的数据格式,可以理解为多个文件夹压缩而成的格式。对于这类文件读取,首先需要先了解文件的结构才能读取。这里采用的命令就是h5ls。
|
|
filename为hdf5文件名。如下图所示给出了NPP夜间灯光遥感数据hdf5文件的具体结构。
我们所需要用到的属性包括All_Data/VIIRS-DNB-GEO_All/下的Longitude和Latitude,以及All_Data/VIIRS-DNB-SDR_All/下的radiance,即夜间灯光DNB波段值。利用h5read函数读取这几个数据,命令行如下。
|
|
这样即得到了夜间灯光遥感数据矩阵形式存储的经度,纬度以及波段值。接下来将三个矩阵组合成一个栅格即可。根据如下代码即可得到一个栅格数据。
|
|
简单可视化结果如图。
另外可以看到这个DNB波段值数值较小,是经过缩放的,需要乘以10的9次方使得DNB波段值呈现正常范围。当然日尺度的数据由于云,月相等因素的影响,质量还有待提升。
这里也提供一些转换NASA的hdf5夜间灯光遥感相关数据的代码。
Working with Daily NASA VIIRS Surface Reflectance Data
参考链接:
]]>新一期资源整理博客。
1.快速生成三维球几何图形。
2.mapskin是地理空间可缩放矢量图标的集合。
3.Python库TSFRESH,自动从时间序列中提取相关特征。
4.R语言包tsfeatures,从时间序列数据中提取各种特征。
5.xarray的教程。提供样例的jupyter notebook。
6.用React组件渲染markdown。
7.一个用React.js和Typescript实现markdown的预览和实现的编辑器。
8.QGIS MapTiler插件:矢量瓦片,底图,地理编码,OSM,QuickMapServices。
9.Python库geedatasets,Google Earth Engine可用数据集的硬编码信息,例如Landsat和Sentinel,以及用于处理这些数据集的方法,例如云屏蔽和索引计算。
10.用于在医院微生物组项目中重现分析的数据和脚本。
11.命令行数据科学。
data science at the command line
12.EuroSAT:Sentinel-2的土地利用和土地覆被分类。
13.可解释的模型分析。 探索,解释和检查预测模型。
14.一个Panel应用程序,用于演示非感知颜色图在地球物理数据上产生的失真。
Colormap distorsions Panel app
15.word2vec是word2vec库和工具的C++实现。word2vec是个非常知名的主题模型。
16.R语言包socialmixr,用于从调查数据中得出社交混合矩阵。
17.Penn000(https://github.com/Penn000)的学位论文的代码,该论文基于基于生成对抗网络的高分辨率遥感影像云去除。 在这项工作中,提出了一个新的模型,称为空间注意生成对抗网络或SpA GAN,它使用空间注意网络(SPANet)作为生成器。
18.示例Notebook展示了如何在Amazon SageMaker中应用机器学习,深度学习和强化学习。
19.R语言包PDFR,一个基于C ++的Rb包,可以从PDF文件中提取可用文本。
20.R语言包zen4R, Zenodo REST API的R接口。
21.Chrome的app,一个浏览器上的markdown编辑器。
22.R语言包RFLspc,适用于R的Royal Free Standard SPC Excel模板的改编。该软件包实际上将数据复制到excel模型中; 打开,更新并保存Excel; 然后返回一个ggplot对象。 那是低效而笨拙的,这不是您想要的方式。
23.用于大规模特征向量问题的标头C ++库。
24.CUDA驱动程序API的Rust包装器。
25.moveable是可拖动的,可调整大小的,可缩放的,可旋转的,可扭曲的,可捏的,可分组的,可捕捉的。
26.免费和开放的公平代码许可的基于节点的工作流自动化工具。 轻松实现跨不同服务的任务自动化。
27.Transform2020研讨会”Devito进行地球物理建模:从零到Devito”,6月11日,星期四(BST 09:00 – 12:00)。
28.一个用于构建文本编辑器的React框架。
29.机器学习算法交易书随附的笔记本,资源和参考资料。
30.Data Circles技术演讲随附的代码和链接。
31.一个简单的CLI,可在您的存储库中搜索对iris数据集的引用,并在每个存储库中打开一个引用出现的问题,以提醒您用另一个数据集替换iris。
32.C ++和Python查看器,用于3D数据,例如网格和点云
33.R语言包Rlda,可以通过贝叶斯范例将这些类型的数据用于混合聚类。
34.Python库scikit learn,非常出名的机器学习库。
35.Python for Data Analysis书的材料以及ipython notebook。
36.R语言包ggh4x,ggh4x软件包提供了一些实用工具功能,这些功能并不完全符合“图形语法”的概念-它们可能有点笨拙-但在调整ggplots时仍然有用。 例如,调整小平面的大小,将多种美感映射到颜色以及指定小平面的各个比例。
37.R语言包ggnewscale,ggplot2中使用多个标度变得轻松。 尽管最初打算使用颜色和填充,但它应适用于任何aes,例如形状,线型和其他。
38.R语言包cpp11,可帮助R包开发人员使用C ++代码处理R对象。
39.Pangeo JupyterHubs和BinderHubs的Docker镜像。
40.Rasterio插件riotiler,可从Cloud Optimized GeoTIFF数据集中读取墨卡托瓦片。
41.R语言包topo.ridges,用于根据高程数据创建地形脊线图。
42.一个shiny项目,用于可视化弗吉尼亚海岸保护区的研究数据。
43.R语言包ggtreeExtra,在“ ggtree”的圆形或其他布局树上添加几何图层。余光创老师团队的可视化大杀器。
44.Github官方的命令行工具。
45.“Applied Hierarchical Modeling in Ecology”的函数。
46.transform 2020的教程。
47.ROC_animations包含具有ROC和精确调用曲线的动画,如下所示。 此项目还包含用于生成这些动画的脚本。
48.使用强化学习模型创建井字游戏代理。
49.一种检测复杂数据集中的一维序列的算法。
50.BFAST的的GPU实现。
51.WRF-CMake的Homebrew方法(包括WPS和WRF)。
52.寻找特征值的Davidson方法。
53.Zarr + Redis + TileServer =快速自定义地理空间地图。
54.各种开源GBM实施的性能。
55.Transform 2020会议Python里的空间分析教程。
tranform 2020 spatial in python
56.从地质图提取信息以提供3D建模包的软件包map2loop。
57.R语言包blake3,BLAKE3加密哈希函数。
58.从钻孔中提取信息以提供3D建模软件包的软件包dh2loop。
59.通过模拟退火分配员工位置。
60.EFDC模型的Docker镜像和并行处理实现。
61.仅用一行代码即可调整任何DOM元素的大小。
62.Julia中具有静态和动态尺寸轴的数组。
63.Transform 2020会议Ray的教程。
64.CORS Anywhere是一个NodeJS反向代理,可将CORS标头添加到代理请求中。
65.更新到原始的SPC Shiny App。
66.没有微软品牌/遥测/许可的VS Code二进制版本。
67.主要用于Aruco的OpenCV生成PDF模式的工具。
68.R语言包daRkStudio,RStudio默认深色主题的深灰色替代品。
69.在Web浏览器中反应组件预览Markdown文本。 复制GitHub Markdown样式的最少CSS。
70.用于安装WRF和WPS的脚本。
71.R语言包sketcher,可以将照片转换为线条图图像。
72.Emacs的社区版本。
73.Pandas和GeoPandas中使用Bokeh绘制后端。
74.用R做商业智能。
75.用R和Stan实现的动态多层贝叶斯模型,用于预测美国总统选举。
76.Transform 2020会议地质图像处理教程。
77.Transform 2020会议中Verde教程的材料,使用Verde从分散的数据到网格化产品。
78.使用Selenium在YouTube上上传视频的Python脚本。
79.获取并运行AWS批处理脚本。
80.用于API批量重命名GitHub存储库的默认分支的Python脚本。
81.识别并解析R中的Web安全策略文件。
82.R语言包spccharter,对多个统计过程控制图进行快速分析。
83.Hugo的主题jane。
84.机器学习研究取决于客观可解释,可比较和可再现的算法基准。 因此,我们提倡使用精选,全面的机器学习数据集套件来标准化基准的设置,执行和报告。 我们通过独立于平台的软件工具来实现此目的,这些工具可帮助创建和利用这些基准测试套件。 它们无缝集成到OpenML平台中,并且可以通过Python,Java和R中的接口进行访问。
85.MOOC笔记。
86.免费的通用数据库工具和SQL客户端。
87.ML Model CI是一个完整的平台,用于管理,转换,分析和将模型作为云服务(MLaaS)进行部署。
88.使用QuantEcon Python编程源材料的Jupyter Book功能演示。
89.R语言包textnets,使用网络技术执行自动文本分析。
90.CatBoost教程。
91.Pandoc-ModernCV是用于设置现代课程类型的Pandoc的工具。 它受到著名的Latex ModernCV的启发,非常易于定制,允许您使用预定义的主题并通过更改颜色,字体等来定义自己的样式。
92.埃塞俄比亚的咖啡叶锈病调查数据分析。
93.py2 / py3脚本可以直接从Apple下载macOS组件。
94.AutoGluon自动执行机器学习任务,使您可以轻松地在应用程序中实现强大的预测性能。 仅需几行代码,您就可以在表格,图像和文本数据上训练和部署高精度的深度学习模型。
95.R语言包ProfoundData,动态植被模型的检查和基准测试数据。
96.Apache Submarine(简称Submarine)是一个平台,可让数据科学家创建端到端的机器学习工作流程。 ONE PLATFORM意味着它支持数据科学家在同一平台上完成工作,而无需频繁切换工具集。 从数据集探索数据管道创建,模型训练(实验)以及将模型推入生产(模型服务和监视)。 所有这些步骤都可以在一个平台内完成。
97.ArcGIS使用Compact Cache V2来存储栅格图块。 捆绑软件文件结构非常简单,并针对快速访问进行了优化,与其他格式相比,可以提高性能。
98.Tile包是一个压缩文件,其中包含一组tile和一个切片方案,可以在ArcGIS应用程序中用作底图。
99.R语言包xxhashlite,xxhashlite提供了对xxHash中极其快速的哈希函数的简单访问。
100.材质点方法的2D实现。
101.R语言包deepdep,用于可视化R语言包所依赖的其他包。
102.读书以及其他有趣的东西的笔记。
103.mplstereonet为matplotlib提供了下半球的等面积和等角度的立体网。
104.DSSAT作物生长系统模型。
105.R语言包googlecalendar,googlecalendar使R可以轻松访问Google日历。该程序包提供了一组函数,可用于通过Google的Calendar API访问和修改日历,事件和UI设置。
106.用于处理异步可迭代对象的有用模块列表。
107.R语言包moveVis,提供了通过创建视频动画来可视化运动数据(例如,来自GPS跟踪)和环境数据的时间变化(例如,来自遥感)的工具。
108.数据科学完整的教程。涉及大量数据科学课程,视频等材料。
data science complete tutorial
109.R语言包shinyBody,使用HTML和CSS构建的自定义Shiny输入小部件,可让您选择身体部位并返回该身体部位的名称。您还可以通过指定高低颜色值,根据数据为肢体上色。
110.R语言包SoupX,用于估计和去除基于液滴的单细胞RNA-seq数据中的无细胞mRNA污染。
111.机器学习可读文件,用于了解植物病虫害和病原体的基本温度。
112.Apache Spark/Flink和Ray上的分布式Tensorflow,Keras和PyTorch。
113.MIDI文件I/O和可视化,据说作者是从钢琴演奏获得的经验。
114.一个用于从Apache Spark读取和写入Tensorflow TFRecord数据的库。 该实现基于Spark Tensorflow Connector,但使用Spark FileFormat特征重写以提供分区功能。
115.动手学深度学习:面向中文读者、能运行、可讨论。英文版即伯克利“深度学习导论”教材。
116.OSS-Fuzz:开源软件的连续模糊测试。
117.icepack是一个使用有限元方法对冰盖和冰川流动进行建模的库。
118.在圣保罗大学地球物理系研讨会上的受邀演讲。
119.Python绘图库ternary,可与matplotlib一起使用,以在投影到二维平面上的二维单纯形中生成三元图。
120.Transform 2020会议:地质与Python会议。
121.一系列Jupyter笔记本电脑,带您了解使用Scikit-Learn,Keras和TensorFlow 2进行Python机器学习和深度学习的基础知识。
122.具有多个R版本的Dockerfile,用于内存/线程调试。
123.R语言包rKenyaCensus,提供从肯尼亚人口和住房普查结果获得的整洁数据集。
124.R语言包s2,Google的S2Geometry库提供R绑定。 该程序包公开了类似于Google BigQuery Geography API的API,该API的功能还适用于球形几何图形。
125.R语言包stackgbm,xgboost,lightgbm,catboost堆叠的梯度增强树模型。
126.Visvalingam算法(也称为Visvalingam Whyatt算法)的C ++实现。
127.出色的介绍性数据集,可进行数据探索和可视化(iris代替品)。
128.R语言包NobBS,NobBS是一种贝叶斯方法,可以根据不完整的,带有时间戳的疾病暴发报告数据来估计已发生但尚未报告的病例数。 NobBS了解报告延迟分布和流行曲线的时间演变,以在稳定和时变的病例报告设置中生成平滑的临近预报。
129.通过JS或CLI使用操作系统特定的捆绑包(.app,.exe等)自定义和打包您的Electron应用程序。
130.Pkg.go.dev是一个用于发现和评估Go软件包和模块的网站。
131.将研究成果发布为同行评审需要很长时间,这可能会对早期职业研究人员(ECR)申请奖学金,补助金和工作产生负担。 该研讨会将调查各种工具和平台,使研究人员可以共享和发布临时产品,例如数据,代码,协议,海报等。 征求反馈意见,证明自己的成就并因不是同行评审的出版物而被引用。 (只要引用,NSF和NIH都会在赠款申请和报告中接受临时产品。
132.opentrees.org的前端,该数据可视化了澳大利亚成千上万棵由理事会维护的树木。
133.R语言包geofabrik,从Geofabrik下载并导入OpenStreetMap数据。
134.用于浏览和安排表格数据的终端界面。
135.R语言包lz4lite,提供对lz4中极其快速的压缩的访问,以执行内存中压缩。
136.用于描述多维数组(ndarray)数据文件的内容。
137.用于Python的分块,压缩N维数组的实现。
138.ETH的硕士学位论文”Instance Segmentation of Geometrical Shapes in Aerial Images”。即航拍影像中的几何图形的实例分割。
139.KappaNEURON将SpatialKappa模拟器与NEURON集成在一起,可以对神经元中嵌入的分子系统进行基于规则的模拟。
140.对Kappa进行空间语言扩展的实现。
141.适用于R的AWS Lambda运行环境。
142.用以支持临时自行车道的数据分析。
143.免费和开源3D Voxel编辑器。
144.KUTE.js是用于现代浏览器的JavaScript动画引擎。
145.p5.js是一个客户端JS平台,使艺术家,设计师,学生和任何人都可以学习编码并在网络上创造性地表达自己。
146.记录任何Linux进程访问哪些文件。
147.UCSB的R markdown模板。
148.自监督学习工具箱和基准。
149.具有Github Action CI的R svn服务器的镜像以测试补丁。
150.2019美国生态学会年会汇报,对500个湖泊流域的分析揭示了作物类型,肥料和肥料输入量与湖泊养分浓度之间的关系
151.该项目包含pytudes(Python程序),通常是简短的Python程序,用于完善特定的编程技能。
152.UCSB 176A 地理信息系统导论测试仓库。
153.R语言包jose,R的Javascript对象签名和加密。
154.R语言包rwalkable,查找并总结一些有关邻里社区可步行性的信息。 通过osmdata包将来自OpenStreetMap的数据用于这两个组件:它既提供了道路网络,又提供了人们认为值得添加到地图上的位置(“便利设施”)列表。
155.peartree是用于将GTFS提要时间表转换为代表性的有向网络图的库。 该工具使用Partridge将目标操作员计划数据转换为Pandas数据框,然后使用NetworkX将操纵的计划数据保存为有向多图。
156.带有可重现示例的教程,使用OpenTripPlanner和Python估算旅行时间矩阵。
157.使用sortable R包创建拖放式shiny程序和学习教程。
158.使用pyproject.toml Python配置文件的项目的资源集合。
159.挪威研究委员会资助的与MetaComNet项目相关的代码存储库。
160.关于Stan的6小时课程。
161.R语言包parameters,模型参数的计算与处理。
162.最好的免费开放源代码自动时间跟踪器。
163.R语言包phenofit,最新的植物物候提取套件phenofit。
164.使研究软件工程师能够轻松地在开源软件中增加引用性。
165.大岛上预测野猫消灭的随机模型和成本。
166.Apache Hive(TM)数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。
167.Python库ipymaps,实现具有自定义功能的在线/笔记本电脑地图应用程序。
168.用于语义分割和领域自适应的合成卫星影像数据集。
tgav sattellite imagery dataset
169.与Firebase合作,近实时地提供公共的Hacker News数据。
170.Hacker News的非官方Python API。
171.JTS拓扑套件是一个用于创建和处理矢量几何的Java库。
172.Mapnik是用于开发地图应用程序的开源工具包。
173.Alluxio(以前称为Tachyon)是一个虚拟的分布式存储系统。 它弥合了计算框架和存储系统之间的鸿沟,使计算应用程序可以通过公共接口连接到众多存储系统。
174.Scrapy + Splash用于JavaScript集成。
175.Recoil是一个针对React应用的实验性状态管理库。 它提供了仅使用React难以实现的几种功能,同时与React的最新功能兼容。
176.Ludwig是在TensorFlow之上构建的工具箱,无需编写代码就可以训练和测试深度学习模型。
177.Python库pdfcomments,从PDF提取评论。
178.Knowledge Distillation Meets Self-Supervision论文的代码实现。
179.推荐系统的深度学习。
Deep Learning for Recommendation Systems
180.基于markdown的CV模板。
181.R语言包uFTIR,用于读取和处理Agilent Cary 620 FTIR显微镜图像。
182.一个结合了Flask和JavaScript的网络应用,可下载和可视化Strava和Garmin设备的运行数据。 编写以学习如何编写Web应用程序。
183.Google Earth Engine的资源。
184.交给#tidytuesday挑战的代码和可视化。
185.带有屏幕截图的无类CSS主题/框架列表。
186.一个无类CSS框架,仅使用HTML即可编写现代网站。
187.p2phttp允许使用Go的标准“ http”和“ net”堆栈通过libp2p服务HTTP端点并发出HTTP请求。
188.R语言包rstatix,提供简单直观的管道友好框架,与“ tidyverse”设计理念相一致,用于执行基本的统计检验,包括t检验,Wilcoxon检验,ANOVA,Kruskal-Wallis和相关分析。每个测试的输出会自动转换为整洁的数据框,以方便可视化。
189.该库解析HTTP协议以获取请求和响应。
190.基于云的CMIP6数据提取的管道。
191.来自NodeJS正确的R方法。
192.Raysect项目的主要资源库。
193.使用sklearn和Tensorflow进行分类任务的数据科学笔记本。人口普查收入数据集分类。
194.数据科学的书籍。
195.Python库PMLB:大型的基准数据集的精选存储库,用于评估监督的机器学习算法。
196.威斯康星大学麦迪逊分校STAT 479:深度学习(SS 2019)的课程材料。
197.全面的10页概率速查表,涵盖一学期概率入门的价值。
198.一个灵活的两列Jekyll主题,非常适合建立个人网站,博客。
199.包含到目前为止尚不完整的代码开发,无法使用Google Cloud Dataflow来获取MODIS变量的全局地理位置。
200.R语言包robservable,目标是允许将Observable笔记本(或其中的一部分)用作R中的htmlwidgets。
201.R语言包VAST,单变量或多变量数据的时空分析,用于在标准化调查或渔业相关数据时为多个类别(物种,大小或年龄类别)实现空间增量广义线性混合模型(delta-GLMM)。
202.高维图网络嵌入及其布局。
203.R语言包RxODE,用于从基于ode的模型求解和仿真。
204.h5py是围绕HDF5的轻量级Python包,可在Python 3(3.6+)上运行。
205.很有趣的Papers。主要与分布式系统有关。
206.使用来自NodeJS的R的正确方法。
207.MPNet:用于语言理解的屏蔽和置换预训练,是一种用于语言理解任务的新颖预训练方法。 它解决了BERT中的MLM(隐蔽语言建模)和XLNet中的PLM(置换语言建模)的问题,并获得了更高的准确性。
208.Snape是一种方便的人工数据集生成器,它包装sklearn的make_classification和make_regression,然后添加“现实主义”功能,例如复杂的格式,变化的比例,分类变量和缺失值。
1.The Sprawling Planet: Simplifying the Measurement of Global Urbanization Trends/蔓延的星球:简化对全球城市化趋势的衡量
最近几十年的特点是全球人口迅速稳定地城市化。预计未来这种趋势将保持稳定,并以多种方式影响土地使用方式。城市化进程的监测和测量概念因多种驱动力和城市形式的变化以及对经济,社会和环境政策有时相互矛盾的目标的结果评估而带来困难。旨在评估与城市化有关的土地利用变化的监测框架将这种复杂性分解为可以用单个指标测量的单一维度。这种监测使规划人员和政策分析人员可以根据可持续发展标准评估新的城市增长。例如,紧凑的城市政策允许城市化在适当的位置发生,而不是自由放任的城市化,而不论环境影响和资源效率如何。在这种情况下,我们注意到,监测方法通常是为欧洲或北美的案例研究而设计的,这些案例研究的城市结构相当成熟和巩固。但是,这样的监视可以在结构正在发展且可能仍会修改的阶段提供有关城市发展的重要信息。在发展中国家经常是这种情况。在这种背景下,本文提出了一种使用新方法简化与城市化相关的土地利用变化的度量的方法。本文将所需的度量要素浓缩为两个维度:土地利用效率低下和土地分散。该方法可基于新的可用的全球人类住区(GHS)层在全球范围内使用,该层可从欧洲委员会免费获得。在该方法在全球600多个城市的初始应用中,我们按大陆和城市规模显示了与城市化相关的土地使用趋势。总而言之,我们观察到全球城市中心的整合,并且继续在郊区蔓延。在欧洲城市中,城市结构的整合阶段较早开始,并且与世界其他地区的城市相比,城市更成熟,发展速度更慢。案例研究的更深入分析提供了法国巴黎和美国芝加哥的结果。以巴黎为例,该方法有助于说明增长压力,这些增长压力导致郊区大规模城市扩张以及内城区的持续致密化。以芝加哥为例,我们观察到一种城市蔓延,伴随着郊区化浪潮,内城区人口减少,郊区持续的城市蔓延随着时间的推移而得到巩固。关于城市蔓延的一个研究,引出了一个地理学研究问题的空间异质性,目前城市化监测方法都是以西方案例设计到的。对于发展中国家不一定适用。
2.Space-based quantification of per capita CO2 emissions from cities/基于空间的城市人均二氧化碳排放量量化
当前,城市地区约占全球与能源有关的二氧化碳(CO2)排放量的70%,而持续快速的全球城市化正在增加城市的数量和规模。因此,了解城市规模的CO2排放及其在城市密度不同的城市之间的变化是一项至关重要的任务。尽管在先前的研究中已经广泛研究了CO2排放量与人口密度之间的关系,但他们的结论对城市边界的定义不一致以及对CO2排放量清单的依赖(隐含假设的人口关系)很敏感。在这里,我们提供了来自横跨多大洲的总共20个城市的轨道碳观测站2(OCO-2)的星载大气CO2测量值的人均直接CO2排放量(E pc)的第一个独立估计。该分析说明了气象对大气模型对卫星观测的影响。卫星采样所得的逆风源区域可作为客观的城市范围,以汇总排放量和人口密度。因此,我们可以从一些城市中按人均检测排放“热点”,但要遵守OCO-2的采样限制。我们的结果表明,E pc随人口密度的增加而下降,尽管E pc的下降部分受到E pc与人均国内生产总值之间正相关的限制。随着未来几年将发射更多的二氧化碳观测卫星,基于太空的方法来了解城市的二氧化碳排放量,在跟踪和评估城市增长的未来轨迹以及告知减碳计划的效果方面具有巨大的潜力。基于卫星的碳排放监测分析,使用了OCO-2卫星数据,分析了城市的碳排放量,在估算CO2排放上汇总了多个数据估算的碳足迹。
3.Using gross ecosystem product (GEP) to value nature in decision making/使用生态系统总产值(GEP)评估决策中的自然
国内生产总值(GDP)以一种货币度量标准汇总了大量经济信息,该度量标准被全世界的决策者广泛使用。但是,国内生产总值未能充分体现自然对经济活动和人类福祉的贡献。为了解决这一关键遗漏,我们开发了一种生态系统总产值(GEP)的度量标准,该度量标准以单个货币度量标准总结了生态系统服务的价值。我们通过在中国青海省的一项应用说明了对GEP的测量,表明使用现有数据可以简化该方法。青海素有“亚洲水塔”之称,是湄公河,长江和黄河的源头,事实上,我们发现与水有关的生态系统服务占青海GEP价值的近三分之二。重要的是,这些好处大部分都在下游产生。在青海,随着市场经济的发展,GEP超过GDP的2000年,是2015年GDP的四分之三。在此期间,对恢复的大规模投资导致以GEP衡量的生态系统服务流量(127.5%)得到改善。展望未来,中国正在以多种方式在决策中使用GEP,这是向包容性绿色增长转型的一部分。这包括投资于保护生态系统资产,以确保通过跨地区补偿金提供生态系统服务。欧阳志云老师团队关于生态系统服务方面的成果,发表于PNAS上。转移支付或者生态补偿政策的一个实证研究。
河流是地球生态系统必不可少的,但是由于测量站的稀疏分布,目前对河流宽度变化性的理解是有限的。遥感数据通过以精细的时空分辨率提供来自卫星的多时相地球观测数据,从而能够对河流地貌进行调查和分析。我们提出了一种优化的RivWidth方法,可自动计算水图中所有通道的宽度,并将其并行化以生成多时中国河宽(MCRW)数据集,这是中国在30年前的第一个30米多时河宽度数据集1990-2015年,包括季节性波动和动态淹没频率下的估计。 MCRW数据集由1.3亿条河流宽度的季节性估算值组成,覆盖了中国14万公里的河流。我们针对现场测量结果验证了MCRW数据集。在最大水域下,MCRW估算值的平均绝对百分比误差(MAPE)和相对均方根误差(RRMSE)分别达到15.0%和15.2%的令人满意的精度。将MCRW数据集与当前最新的全球产品,即Landsat的全球河流宽度(GRWL)数据集进行了比较,这证明了MCRW在描述中国盆地方面的优势。我们的分析表明,过去25年,中国夏季和冬季的平均河宽有所增加,而下游流域的长江干流的河宽呈下降趋势,而中游和支流(上游)则呈下降趋势。三峡大坝)的数量呈上升趋势。我们还开发了一种本地自适应搜索方法来量化季节性(夏季和冬季)河宽变化。结果表明,研究期内夏季大部分河流较宽,中下游地区长江干流的季节变化性小于其支流。由于冰冻洪水,冬天在黄河中游和黑河上游观测到更大的宽度。总体而言,生成的MCRW数据集有潜力作为地球系统科学的基础资源,并可以为地表水资源和河流管理提供有价值的支持。1995-2015中国卫星反演的时空河流宽度制图。30 m 分辨率。可以说是一个非常大工作量的研究。从精度来看也非常不错,尤其是在中国盆地区域的变化。
邻里平均效应(NEAP)可能是一个严重的方法论问题,在研究与流动性相关的暴露(例如,空气或噪音污染)时,会导致错误的评估,因为人们的日常流动性可能会放大或减弱他们在住宅区所经历的暴露。 NEAP尤其建议,与基于居住地的暴露相比,基于个人流动性的暴露倾向于达到参与者或研究区域人口的平均水平。这项研究使用洛杉矶都会统计区域内收集的2737个人的活动旅行日记数据,通过评估个人对地面臭氧的暴露程度,对NEAP以及NEAP与人们的日常活动之间的关系进行了深入研究。通过探索性分析(例如散点图和直方图)和空间回归模型获得的结果表明,在评估研究区域中个人对臭氧的暴露时,NEAP存在。此外,高收入,受雇的,年轻的和男性的参与者(与低收入,不工作,年长的和女性的参与者相比)由于其较高的日常活动水平而与较高的邻里效应平均水平相关。最后,居住在同一社区的71名选定参与者的时空路径和每小时臭氧暴露的三维交互式地理可视化证实了从空间回归分析获得的结果。关美宝老师团队的成果,结合时空路径,三维GIS等技术手段,分析邻里平均效应,一个地理学上的经典问题,探究人群时空流动造成的环境暴露研究,非常不错的一个时空行为地理学研究实例,已发表在AAG上。
背景
评估城市的排放清单(EI)是评估《巴黎气候协定》下的地区性减缓气候变化工作的一项全新挑战。一些城市通常根据全球社区协议开始编制EI。但是,由于EI的编制方式(数据收集和排放计算)和报告方式(行业定义以及直接与消费),通常难以对其进行系统地检查。此外,由于缺乏空间排放程度,此类EI估计不容易应用于使用建模和观察进行客观评估。科学界使用的城市排放量估算通常基于降尺度的网格化EI,而未完全评估城市级别的降尺度排放量的准确性。
结果:这项研究试图评估降低排放水平在城市一级的效用。我们收集了来自全球14个主要城市的EI,并将其与科学研究领域中常用的全球高分辨率化石燃料CO2排放数据产品(ODIAC)的估算值进行了比较。我们对估计进行了必要的调整,以使我们的比较尽可能合理。我们发现,这两种方法对上海和德里的排放估计非常接近(差异小于10%),并且在一半的被调查城市中具有良好的一致性(差异小于30%)。与开普敦(+ 148%),圣保罗(+ 43%)和北京(+ 40%)的库存估算相比,ODIAC数据集的排放量要高得多,这可能与夜光强度与人类活动之间的相关性较差有关,例如发展中国家的高排放低照度工业园区。另一方面,ODIAC在曼哈顿(−62%),纽约市(−45%),华盛顿特区(−42%)和多伦多(−33%)均显示较低的估计值,这些估计值都位于北美归因于ODIAC基于夜间灯光的方法低估了住宅取暖产生的排放,以及库存估计数中注册车辆统计数字中高估了地面运输产生的排放。
结论:相对较好的协议表明,ODIAC数据产品有可能被用作事先估算城市水平CO2排放量的第一来源,这对于大气CO2反演建模以及与卫星CO2观测结果进行比较是有价值的。我们汇总了14个城市的边界排放估算,有助于建立准确的全球全球城市碳排放清单,这对于将来制定负责任的地方减缓气候变化政策十分必要。评估城市网格化碳排放清单全球清单与本地清单的比较研究。非常有意思的一个研究。
城市边界是城市的基本属性,在许多城市研究中被广泛使用。然而,从卫星图像中提取城市边界仍然是一个巨大的挑战,特别是在全球范围内和高分辨率下。在这项研究中,我们开发了一个自动划定框架,以使用30m全球人工不透水区域(GAIA)数据生成全球城市边界(GUB)的多时间数据集。首先,我们通过填充每个城市的内部非城市区域来划定初始城市边界。此步骤中联合使用了核密度估计方法和基于元胞自动机的城市增长模型。其次,我们通过扩展和侵蚀得出的城市范围,采用一种形态学方法,改善了城市边缘地区周围的初始城市边界。我们在Google Earth Engine平台上实现了这一划分,并在七个代表年(即1990、1995、2000、2005、2010、2015和2018)中生成了30m分辨率的全球城市边界数据集。我们提取的城市边界与夜间光数据和人类解释得出的结果显示出很好的一致性,并且与高分辨率的Google Earth图像相比,它们可以很好地描绘城市的城市范围。 2018年的总面积为65,582个GUB,每个面积都超过1 km2,为798,101 km2。不可渗透的表面积约占总数的60%。从1990年到2018年,划定边界中的不渗透区域的比例从53%增加到60%,这表明过去几十年中城市的紧凑增长。我们发现,在2018年城市化程度最高的10个国家中,美国的人均城市面积最高(即超过900平方米)。此数据集提供了可用于研究城市化影响的城市区域的物理边界关于粮食安全,生物多样性和城市健康的问题。可以从http://data.ess.tsinghua.edu.cn访问GUB数据集。清华大学宫鹏老师团队的成果,最近也比较火。基于Google Earth Engine提取了城市边界,这是一个在城市研究里非常重要的研究要素。
人工林是可持续森林管理的重要组成部分,因为其快速增长的生物量可提供许多对人类福祉至关重要的重要生态系统产品和服务。准确估算森林生物量对于全球碳核算和造林政策制定至关重要,但是植被上的饱和反射信号和生长期缺乏无云图像大大限制了光学遥感在亚热带人工林生物量估算中的应用和热带地区。林分年龄是决定森林生长和林分发育的关键因素,但尚未广泛用于基于遥感的生物量估算方法中。这项研究的主要目的是研究异速生长分析方法与Landsat衍生的林木年龄结构相结合的适用性,以估算中国亚热带景观中速生林的林分生物量。我们使用了1986年至2016年的植被变化追踪器(VCT)方法和Landsat时间序列数据来检测年度林分替代干扰并估算林分年龄。结合异速生长方程和相对生长速率函数,建立树木生物量与林分年龄之间的联系。我们还使用仅利用光谱和纹理变量的常规遥感(CRS)方法以及结合了林分年龄(CRS_EX)的扩展CRS方法对树木生物量的空间分布进行建模。然后,我们将CRS和CRS_EX方法与异速分析法进行了比较,以突出林分年龄和扰动后森林再生长对生物量估算的重要性。 Landsat引起的扰动历史与林分年龄显着相关(R2 = 0.82,RMSE = 3.7年,p <0.01)。与CRS方法相比(R2 CRS = 0.53,RMSE CRS == 54.38 t /哈)。通过异速生长分析方法估算的树木生物量与异速生长曲线更吻合,而CRS_EX和CRS方法均显示出对中青年森林的明显高估。这项研究表明,通过使用现有林分开发知识和日益开放的遥感数据,异速生长模型有可能被应用于亚热带森林人工林。基于异速生长模型和Landsat估算亚热带森林人工林的树木生物量,这个研究有趣的点在于结合林分数据与Landsat扰动评估了影响。用于改进生物量的精确估计。
城市树木和草具有不同的生态功能和服务。遥感为量化城市植被的覆盖和分布提供了一种可行的方法。以前的大多数研究都使用基于高分辨率图像的监督分类来绘制城市树木和草皮。但是,由于缺乏区分粗,细植被的专门功能,城市树木和草的分类精度始终较低。尽管添加3D地形信息可以提高准确性,但此类数据的可用性有限。本文开发了一种草木分化指数(TGDI),以促进快速有效地对城市树木和草类进行分类。我们通过将新索引应用于不同的分类方法来检查其性能。我们比较了方法1的分类:没有TGDI的监督分类;方法2:用TGDI监督分类;方法3:使用TGDI进行基于规则的分类。结果表明,方法1,方法2和方法3的总体准确度分别为84%,88%和90.5%。无论将TGDI单独用于基于规则的分类还是作为监督分类的功能添加,使用新索引都可以改善城市树木和草的分类。使用TGDI的主要优点是可以减少树木的阳光照射部分到草丛中的错误分类。将TGDI应用于监督分类时,树木的生产者准确性和草的用户准确性可以提高10%以上。这项研究综合了纹理和光谱特征,从而增强了仅基于光谱特征而无需详细的3D表面数据的传统索引构建方法。研究结果提出了一种发展指数的新方法,该指数可以提高准确性,并扩大遥感技术在城市环境中生态结构和功能的模式的高光表现。生态中心周伟奇老师团队的成果,提了一种基于高分辨率影像和面向对象的方法性指标,可以通过遥感技术区分城市树木与草地。
夜间光遥感由于其在估计社会经济指标和量化人类活动以应对不断变化的世界方面的优势而引起了极大的欢迎。尽管在过去的几十年中,在夜间灯光遥感的方法开发和实现方面已取得了许多进步,但有限的研究已投入到回答以下问题:夜间灯光从何而来?这阻碍了我们识别城市化地区夜间特定光源的能力。针对此缺点,我们提出了一种面向包裹的时间线性分解方法(POTLUM),以结合土地利用数据来识别特定的夜间光源。均方根误差的比值被用来评估解开精度,并提出了包裹纯度指数和货源充足性指数来归因于解开误差。我们使用Suomi国家极地轨道合作伙伴(NPP)卫星的可见红外成像辐射计套件(VIIRS)夜间光数据集和新发布的《中国基本城市土地利用类别》(EULUC-China)产品,应用了建议的方法并进行了在Shanghai和Quzhou这两个不同规模的中国城市进行了实验。 POTLUM的结果表明,它在检测特定夜间光源方面具有相对强大的适用性,在Shanghai和Quzhou的rRMSE分别达到3.38%和1.04%。主要的混合误差是由不纯净的地块作为最终成员造成的(例如,Shanghai和Quzhou的包裹纯度指数分别为54.48%,64.09%),但是这也表明预定义光源是足够的(例如,Shanghai的光源充足指数)和Quzhou:分别为96.53%和99.55%)。本研究中提出的方法使识别夜间照明的特定来源成为可能,并有望丰富结构社会经济指标的估计,并更好地支持城市规划和管理中的各种应用。清华大学徐冰老师团队的研究,一种时间线性分解方法用于识别特定的夜间灯光源,这对后续研究很有益处,比如识别矿井火点,监测工业偷排活动等。
目的
手足口病(HFMD)是中国重要的公共卫生问题。尽管随机对照试验已证明了疗效,但单价肠病毒71(EV71)疫苗对HFMD有效性的证据仍然未知。这项研究旨在评估中国广州手足口病的疫苗有效性。
方法
常规收集的疫苗接种和手足口病监测数据均来自中国疾病预防控制信息系统。我们使用空间生态学和时间序列分析方法评估了EV71疫苗的有效性。
结果
从2016年1月至2018年12月,共向广州市监测系统报告了174002例5岁以下的手足口病病例。共有408,664名儿童完成了两剂EV71疫苗接种。在生态学分析中,相对于低于中位数的疫苗接种率,高于中位数的两剂EV71疫苗接种率赋予较低的手足口病风险(比率= 0.955,95%置信区间(CI):0.949,0.962; P <.001) 。在时间序列方法中,手足口病病例减少0.9%,而两剂EV71疫苗接种率增加1%,但无统计学意义(P = .094)。但是,我们在3岁以下儿童中发现了对手足口病的统计学显着保护性关联(疫苗接种率增加1%的手足口病病例减少了0.9%; P = .046);对于EV71(1.4%; P = .012),“其他病毒”(1.3%; P = 0.002),但不是柯萨奇病毒A16(CVA16)。
结论
基于实际数据,我们的发现提供了EV71疫苗预防EV71和与HFMD相关的“其他”病毒的有效性的证据。迫切需要扩展的EV71疫苗接种计划。
手足口病疫苗有效性的时空分析,公共卫生研究的一个范例。
最近hexo博客的评论系统valine遇上一点问题,本篇就来记录下我的解决方法。
如果用valine评论系统的同学最近打开valine部署的日志可能会发现诸如此类的信息。
事实上我在valine的用户群里有看到相关的官方消息。
其实就是大家都用这套系统,导致有点负载不了。因此官方做了控制。所以解决方式无非就是交钱(付费版不限制)或者用其他方式唤醒LeanCloud。这个的方案目前我看到的有几种,有一位大佬写了博客记录。下面是该大佬相关的博客解决方案记录。具体内容大家可以移步他的博客看相关解决方案。
因为我自己有阿里云的服务器,所以我的解决方法就是在服务器上设置定时任务唤醒即可。如果没有服务器的同学欢迎看上面的博客寻求其他解决方案。这个方法其实在最早的邮件通知里就有提到。
Hexo 优化 — 支持邮件通知的评论 Valine 增强版
唤醒LeanCloud的软件是crontab,这个是Linux的定时执行工具,而且是内置服务。只需要做一下配置即可。我的系统是Ubuntu。首先改下cron的默认配置。
|
|
用vim打开以后可以发现这个问题,这个时候只需要把前面的#去掉再保存。然后重启服务。
|
|
接下来只需写定时任务即可。
|
|
由于我没有设置默认的编辑器。因此会跳出这个界面。
如果想设置默认的,可以用这个语句。
|
|
然后输入如下的定时器代码。
|
|
接下来只需保存退出,按Ctrl键和O键保存,然后回车确定。
出现这个意为成功。
这里还参考了几篇相关文章,链接会在最后一并给出。
由于前几天不小心关闭了163的SMTP服务,又有点小差错,没法立即修复valine评论。我考虑了下,增加了DaoVoice的在线聊天功能。这个功能在上一次的优化中有提到,但是没有设置。这次补上。
首先需要注册这个网页。然后在自己的登陆界面点击应用设置,然后点击安装到网站。这里打码的是你的id。接下来只需要把你的id放到主题里。
首先是在Next主题的配置文件博客/themes/next/_config.yml末尾中添加用户ID。
|
|
接着打开/themes/next/layout/_partials/head.swig文件添加如下代码:
|
|
这样子就可以集成DaoVoice的在线聊天功能了。当然也可以在DaoVoice的官网调整聊天窗口。
最终效果。
参考文章:
]]>新一期资源整理博客。
Coding and Paper Letter这个系列的博客第一篇起源于2018年,做这个系列的初衷可以用下面这张图来代表,我手机上关注的公众号在一天时间内可以推送给我193条推送,信息量之大可见一斑。当前是一个快速阅读或者叫快餐式阅读的时代,大量的信息堆砌。因此我发觉资源整理是非常关键的。于是在当年的7月7日我正式开始在博客上更新这个系列,在此期间也收到了不少读者的评论。当然我自己也受益良多。
这个系列其实就是针对我看到的一些coding资源以及泛读论文(读题目和摘要)的一些感悟。然后用处就在于是把这个系列作为研究资源的查询手册。由于我在hexo的个人博客里有集成搜索功能,因此只需要点击这个地方,就可以跳出搜索框,根据自己的需求进行搜索。
比如前一段关于voronoi treemap可视化的博客,我是在搜索框里搜索我曾经看到过相关的代码资料基础上加以实现。
因此这也是我做这个系列接近2年来的感受,资源整理可以给自己提供很多便利之处。也希望这次分享能让更多人了解到这个系列。
1.阿尔托大学“空间分析入门”课程的演示站点。
2.在Docker容器中使用R,Rstudio,Shiny,Radiant,Python和Jupyter。
3.IBM可信AI研讨会。
4.Pastas,用于水文时间序列分析的开源框架。
5.R语言包geohashTools,用于快速,准确的geohash编码。
6.R语言包sfnetworks,sfnetworks的目标是填补R在空间网络分析方面的空白。
7.RasterFrames®汇集了地球观测(EO)数据访问,云计算和基于DataFrame的数据科学。地理空间栅格对Spark DataFrames的支持。
8.手写实现李航《统计学习方法》书中全部算法。
Statistical Learning Method Code
9.geonumpy 是一个 GIS,遥感影像处理库,实现了矢量,遥感影像读取,存储,预处理,拼接,重采样,常规指标计算,地图绘制等功能。
10.R Shiny项目,《名侦探柯南》B站弹幕浏览器。这个项目在上一篇点评里提到过了。
11.具有R Markdown,Git,Make和Docker的可重复性数据分析工作流。
12.强化学习纲要。
13.R语言包datadrivencv,用于从电子表格构建可定制的简历
14.R语言包oceanmap,用于绘制2D海洋数据的R包。
15.精选的合成孔径雷达(SAR)软件,库和资源的精选列表。
16.MoCo:用于无监督视觉表示学习的动量对比。
17.R语言包writeMDX,writeMDX将Rmarkdown(.Rmd)文件写入MDX。漂亮又简单。
18.地球系统建模框架(ESMF)是一套软件工具,用于开发高性能,多组件的地球科学建模应用程序。
19.基于R语言包生成海报的脚本。Flexdashboard海报的最小模板。
20.2016年公交投资图。
21.有关R中数据可视化,绘图和发布的精选资源。
22.用Python绘制岭脊图。
23.Python库shap,一种博弈论方法,用于解释任何机器学习模型的输出。
24.用Selenium scraper从Medium.com收集了一百万个故事
25.R语言包LTN,低交通流量邻里社区的规划工具。
26.在IPython Notebook中使用Bokeh进行交互式Web绘图。
27.用于不同深度学习框架/软件的深度学习模型的转换器/转换。
28.ONNXMLTools支持将模型转换为ONNX。
29.R语言包rcropmod,用于作物模型仿真,主要提供包装功能,用于运行和分析DSSAT CSM的输出,包括网格结果的产生。DSSAT模型是最有名的作物生长模型之一。提供R语言包,并且提供网格化模型的输出结果可以有效扩展它在地学与生态学里的应用。
30.加州大学戴维斯分校策划的课程,植物病原性Ralstonia菌株的全球多样性。
31.精选的营销文章和工具集,可用来开发您的产品。
32.大转移(BiT):通用的视觉表示学习。
33.Julien Ponge在2008年在布莱斯·帕斯卡大学(法国克莱蒙费朗)和新南威尔士大学(澳大利亚悉尼)的博士学位论文。
34.通过转移学习进行高质量单眼深度估计。
35.Julia的非等距快速傅立叶变换(NFFT)实现。
36.人们如何描述自然灾害期间的位置:来自哈维飓风的推文分析。
37.R语言包rgrassdoc,在RStudio Viewer窗格或浏览器中查阅GRASS GIS文档。
38.用于教学/学习Python 3的Jupyter笔记本。
39.数据科学Python笔记本:深度学习(TensorFlow,Theano,Caffe,Keras),scikit-learn,Kaggle,大数据(Spark,Hadoop MapReduce,HDFS),matplotlib,pandas,NumPy,SciPy,Python必需品,AWS和各种命令行。
data science ipython notebooks
40.LaTeX.css是一个CSS库,可使您的网站看起来像LaTeX文档。
41.R语言包ukpolice,下载有关英国警察和犯罪的数据。
42.Julia包用于快速正交多项式变换。
43.在Binder上将R与Jupyter / RStudio结合使用。
44.R语言包worktime,导入和可视化运行时间。
45.用于构建命令行应用程序的简单但功能强大的框架。
46.基于rust的官方mongodb库软件包为deno开发的MongoDB数据库驱动程序。
47.与Deno相关的精彩事物的精选清单。
48.R语言包dddr,R中的三维矢量运算。
49.零拷贝读取和写入地理空间数据。GeoZero定义了一种无需中间表示即可读取地理空间数据格式的API。 它定义了可实现以读取和转换为任意格式或直接渲染几何图形的特征。
50.R语言包s2plot,为libs2地理区域提供快速绘图功能。
51.用于重现我们对Nike Vaporfly对马拉松性能影响的研究的代码和数据。
52.dask-ml是使用dask进行分布式和并行机器学习的库。
53.sklearn-xarray是一个开源python程序包,它将xarray的n维标记数组与scikit-learn的机器学习和模型选择工具结合在一起。
54.将Github仓库转换为支持Jupyter的Docker镜像。
55.使用Stan进行传染病模型的现代统计推断。
56.Dask中的广义线性模型。
57.从卫星图像中提取路网,并估算速度和行驶时间。
58.Hugo入门和部署到Netlify。
59.异构计算博客
60.GDAL集成上的实验性尝试。
61.使用Hugo和paged.js将漂亮的书封装为html和PDF。
62.PyTorch中的C ++扩展。
63.30个迷你Swift应用程序供自学。
64.时空数据目录(STAC)规范的网页。
65.时空数据目录API规范-OGC功能API,使地理空间资产可公开搜索和爬取。
66.云原生机器学习自动化平台。
67.使用Python的图像多边形标注(多边形,矩形,圆形,直线,点和图像级标注)。
68.R语言包i2dash,交互式和迭代式仪表板。
69.贝尔卡卡迪米尔弗莱贝格工业大学地球物理与地球信息学研究所的受邀汇报。
70.有使用内核图注意网络进行细粒度事实验证的源代码。
71.R语言包allcontributor,所有贡献者写入R包。
72.pytorch框架中卷积网络的触发器计数器。
73.包含与神经网络和深度学习相关的小型项目。主题与我在Medium上发表的文章紧密相关。我鼓励大家阅读并检查代码在操作中的工作方式。
74.R会议和用户组列表。
75.BERT模型在Attention分析中的应用。
76.Packt Publishing撰写的《 Python机器学习指南》代码。
Python Machine Learning Cookbook
77.来自R中数据实时探索性分析的代码。
78.Nichols等人用于分析的Agricultural & Environmental Letters论文中数据的R代码。
79.讨论区文本存储库,探讨巴西的城市机动性和机会。
80.R语言包pollingBR,包含Poder360网站汇编的选举调查数据。
81.用publisher APIs以编程方式检索科学期刊文章以进行文本挖掘。
82.C ++中的conda命令行实用程序的快速替代品。
83.R语言包LAGOSNE,与LAke多尺度时空数据库的接口。
84.R语言包ecodata,ecodata是由东北渔业科学中心的生态系统动力学和评估处开发的R数据包,用于生态系统状态(SOE)报告。
85.数据科学实例。
86.现代,直观的基于终端的文本编辑器。
87.”Assessing Population Viability of Black Bears using Spatial Capture‐Recapture Models”论文的代码。
88.R语言包HASP,水文分析软件包。
89.R语言包exactextract,快速进行栅格分区统计的R包。
90.在运行模型之前测试更平滑的边界是否有意义。
91.GeoNode是一个开放源代码平台,可促进地理空间数据的创建,共享和协作使用。
92.Pixellib是用于执行图像分割的Python库。
93.R语言包phencamrCS,方便PhenoCam时间序列的检索和后处理。PhenoCam数据的后处理包括异常值去除和数据产品的生成,例如物候转换日期。
94.R语言包PWCfilegenerator,水农药模型的天气输入数据文件生成工具。
95.WebGL指南的样例和资源。
96.C++20范围里的算法实现。
97.R代码生态学中隐藏变量的统计方法。
98.LaTeX的测试和构建系统。
99.Pangeo AWS Binder的自定义JupyterHub模板。
100.传感器不变大气校正(SIAC)版的GEE。
101.加快PyTorch的研发补充主分。
102.JupyterLab Dask扩展。
103.虾神的Python Demo代码库。
104.创建仅向海延伸的集水区多边形的沿海缓冲区。
105.R语言包geometries,用于创建和处理空间几何数据结构。
106.R语言包litsearchr,可使用关键字共现网络部分自动化搜索词的选择,以进行系统的评论。
107.R语言包hugodown,使用hugo和RMarkdown制作网站。
108.R包details,以创建用于Markdown和包文档的详细信息HTML标签。
109.R语言包ggalluvial,ggplot2扩展用于绘制平行坐标图。
110.R语言包mapboxapi,mapbox Web服务的R语言接口。
111.R语言包captions,为TeX文档以简单的方式创建图和表的插入latex代码。
112.使用深度学习,MegaDetector和RetinaNet进行检测/分类,可以对相机陷阱像素进行物种识别。
113.R语言包basemaps,一个轻量级的R包,用于从OpenStreetMap,Carto和Mapbox等开放源下载和缓存空间底图。
114.R语言包downlit,语法高亮和自动链接。
115.Manubot的Python实用程序:开放式和自动化的手稿。
116.R语言包CCAMLRGIS,为了简化CCAMLR公约区中的地图制作。它提供了两类功能:加载功能和创建功能。加载功能用于从在线CCAMLR GIS(http://gis.ccamlr.org/)导入空间图层,例如ASD边界。创建函数用于根据用户数据(例如多边形和网格)创建图层。
117.这是一本使用ggplot2构建图的活动书籍。
118.SLAM资料:
带有BoPLW对的实时SLAM,用于立体声摄像机,具有环路检测和重新定位功能
一种通过使用点和线段特征来计算立体视觉SLAM的算法。
119.基于Reveal.js的汇报幻灯片模板。
120.简单,干净的纯Python 3 Zenodo API(上传,下载)。
121.R语言包epca,探索性主成分分析。
122.R语言包mazealls,用于生成迷宫。
123.Julia语言的资源。
124.视角n点和线,用于相机姿势估计。
125.EPnP:高效的透视n点相机姿势估计。
红树林森林生态系统分布在热带和亚热带地区的陆海界面,在碳循环和生物多样性中发挥重要作用。准确绘制全球红树林地上生物量(AGB)的地图将有助于我们了解气候变化和人类活动的影响如何影响红树林生态系统。事实证明,LiDAR技术可以准确捕获红树林的三维结构,并且LiDAR可以高精度估算森林AGB。在这项研究中,我们通过将地面清单数据,星载LiDAR,光学影像,气候场和地形数据与随机森林(一种机器学习方法)相结合,以250米的分辨率制作了2004年的全球红树林AGB地图。从已发表的文献和红树林生物量的免费数据集中,我们选择了342个地面观测数据来训练和验证红树林AGB估算模型。我们的全球红树林AGB地图显示,全球平均红树林AGB密度为115.23 Mg / ha,标准偏差为48.89 Mg / ha。红树林中的全球AGB总存储量为1.52 Pg。与观测数据的交叉验证表明,我们对红树林AGB的估计是可靠的。调整后的测定系数(R2)和均方根误差(RMSE)分别为0.48和75.85 Mg / ha。我们估计的全球红树林AGB存储量与以前的遥感方法所预测的相似,并且遥感方法可以克服基于气候的模型的高估。这个新的生物量图提供的信息可以帮助我们了解全球红树林的分布,同时还可以作为监测全球红树林生物量趋势的基准。郭庆华老师团队的成果,关于全球红树林AGB估算。红树林是一个很重要的碳汇来源,尤其是“蓝碳”的重要组分之一。结合多源数据和机器学习的方法提供红树林的AGB制图,还是很不错的研究,精度也显示较高。另外这也是近期看到少见的非GEE的全球遥感制图研究。当然后续如果结合GEE拓展会有更多扩展研究。
在过去的几十年中,水文气象现象的强度和频率不断增加,欧洲是受影响最严重的地区之一。这造成了该地区的巨大经济损失。为了使成本最小化的区域适应策略,需要在多个区域范围内全面评估灾难的经济影响。本文将洪水足迹方法应用于总经济影响的多区域评估,并将其应用于2009年中欧洪水事件。洪水足迹是一种基于投入产出方法的影响力核算框架,用于从经济角度评估气候灾害造成的区域和更广泛的经济网络内的自然破坏(直接)和生产不足(间接)。在此,该模型通过资本矩阵扩展,以启用多种恢复策略。根据结果,间接损失占自然灾害总成本的很大一部分,其中大多数发生在非高度直接影响的行业中。对于2009年中欧洪灾,间接损失占总损失的65%,其中70%来自四个行业:商业服务,一般制造业,建筑业和商业。此外,结果表明,尽管工业化经济体较少受到直接冲击,但与工业化程度较低的经济体相比,遭受的间接损失要更多。这可能与其高资本密集度和行业间紧密联系的特定经济结构有关。结合经济学的投入产出方法估算灾害的洪水足迹评估。将自然灾害与经济连接起来的一个案例研究。
在降雨后的土壤干燥过程中,从高时间分辨率遥感数据(例如MODIS)捕获的土壤光谱动态反馈可以帮助进行数字土壤制图。但是,该方法在利用具有相对高的空间分辨率的影响方面是无效的。在土壤干燥过程中,图像数量不足,因为那些高空间分辨率的图像往往具有较低的时间分辨率。这项研究旨在通过整合在不同降雨事件后多次干燥过程中从图像中捕获的具有高空间分辨率的反馈来生成土壤光谱动态反馈。以时间分辨率为16天的Landsat 8数据为例。首先调整从Landsat 8获得的每个光谱反馈,以消除不同降雨幅度的影响。然后,根据调整后的反馈对土壤光谱动态反馈进行重组和生成。最后,基于Landsat 8生成的土壤光谱动态反馈被用于绘制表层土壤的纹理,并与基于MODIS数据以及MODIS和Landsat 8的融合数据的制图结果进行比较。基于Landsat 8数据的土壤光谱动态反馈改善了土壤质地空间分布的细节,但也提高了制图的准确性。基于Landsat 8数据的制图精度高于基于MODIS数据和融合数据的制图精度。在地表条件更为复杂的区域,精度的提高更为明显。这项研究拓宽了土壤光谱动态反馈的应用范围,并为大规模,高精度数字土壤测绘提供了支持。朱阿兴老师团队的成果,实现Landast8和MODIS影像的时空融合从而实现高精度的土壤空间制图。核心思想是基于土壤光谱的动态变化。
背景:抑郁和焦虑症的病因复杂,并伴有严重的疾病负担。尽管人们认为空气污染是造成这些疾病的可能危险因素,但对这些关联的研究仍不足。我们旨在分析长期暴露于环境臭氧和直径小于10μm(PM10)的颗粒物与一般人群的抑郁症和焦虑症之间的关联。方法:我们利用了来自德国萨克森州的一家大型法定健康保险公司的数据。 2005-2014年可获得有关抑郁症和焦虑症的门诊临床诊断信息。我们将居住环境中的臭氧和PM10估算值分配给了113万个16岁及16岁以上居民的居住区。抑郁和焦虑被定义为诊断计数。使用调整后的广义估计方程模型评估与抑郁和焦虑的关联。结果:在十年研究期间,观察到的抑郁症和焦虑症患病率分别为7.40%和3.82%。在两种污染物的模型中,连续10天的最大8小时平均臭氧浓度超过120μg/m³时,相对风险(RR)为1.010,抑郁和抑郁的置信区间(CI)为95%(1.005,1.014)。焦虑的RR为1.007(95%CI(1.000,1.014))。 PM10浓度每升高10μg/m³,对抑郁和焦虑症的PM10效果估计分别为1.180(95%CI(1.160,1.201))和1.176(95%CI(1.148,1.205))。年龄,性别和个人获得医疗保健的机会也与疾病的诊断有关。在一种和两种污染物模型之间的关联是一致的。
结论:们的发现表明,普通人群中环境臭氧和PM10含量的升高可能会增加患抑郁症或焦虑症的风险。但是,由于缺乏有关单个空气污染物暴露和社会经济状况的数据,因此我们的结果应谨慎解释。进一步设计良好的流行病学研究应复制我们的发现。分析臭氧,PM10空气污染与抑郁症焦虑症的关联的一项研究,阐述了空气污染暴露对精神健康的潜在影响途径。
在这项研究中,我们将天气研究和预报模型应用于预测2050年的城乡温度。我们进行了时间分层分析,将其与2001年至2014年以及2011年至2014年之间的死亡率进行比较,以估算2050年高温事件的风险增加。我们将白天相对于夜间的变化以及城市相对于农村的温度变化作为预测死亡率的因素,以评估气候变化对死亡风险的潜在影响。在2050年的高温事件中,最高和最低气温预计分别升高2.9°C和2.6°C,白天和黑夜的温度分别比2001-2014年高9.8°C和4.9°C。不考虑温度变化的情况,预计2050年的死亡率风险将比2001-2014年(IRR 1.721 [1.650,1.796])和2011-2014年(IRR 1.622 [1.547,1.701])高得多。考虑到温度变化后,农村地区最高温度的变化将在2050年引发最高的死亡风险,这可能是由于整个城市的快速城市化所致,而第二高的死亡风险是由于城市化的最低温度的变化所致。因为在夏季,城市中的当地居民已经适应了最大的城市热应激水平。缓解气候变化迫切需要改进热量预警系统和可持续计划协议。评估气候变化——高温热浪事件的死亡率风险,基于WRF模拟的未来情景健康风险分析。是个蛮不错的研究。
6.On the measurement of bias in geographically weighted regression models/关于地理加权回归模型中偏差的度量
在认识到地理加权回归(GWR)是一种数据借阅技术的前提下,本文通过从过程可能与回归位置不同的位置借用数据来导出引入局部参数估计的偏差量的表达式。这对于GWR和多尺度GWR(MGWR)都是完成的。我们通过与基于已知局部参数值的模拟数据集的经验得出的估计值进行比较,证明了偏差表达的准确性。通过能够在两个模型中计算偏差,我们可以证明MGWR的优越性。然后,我们展示了校正的Akaike信息准则统计信息在寻找GWR和MGWR中的最佳带宽方面的效用,这是在最小化偏差和不确定性之间的权衡。我们进一步展示了一组局部参数估计中的偏差如何影响另一组局部估计中的偏差。从其他位置借用数据所产生的偏差似乎很小。Forthingham院士团队的研究,发表在空间统计领域的旗舰刊物spatial statistics上,分析的是GWR方法拟合时从领域获取数据造成的偏差影响。对于GWR的过拟合现象可能有些有意思的结论。
公共汽车在城市居民的日常旅行中起着至关重要的作用。先前对公交车微环境暴露及其对乘客健康和舒适度的不利影响的研究引起了广泛关注。但是,迄今为止,很少有研究探索公交车微环境暴露与乘客瞬时情绪之间的关系,研究了各种微环境因素的阈值,并分析了乘客的最佳微环境暴露水平。为此,在中国广州的6条路线上随机选择的公交车中,同时从543名乘客中同时收集了微环境暴露和问卷调查数据。然后,使用多元回归模型来探索现有文献中的一些研究空白。结果表明,公交车内的噪音和载客量与乘客的瞬时情绪呈负相关,而温度和相对湿度与乘客的瞬时情绪呈正相关。乘客的瞬时情绪受这四个微观环境指标的阈值影响。这项研究确定的公交车噪声,温度和相对湿度的阈值分别为65–79 dB,30–34°C和50–65%。就乘客量而言,8–18是一个阈值,在此阈值以下,瞬时情绪会变得更糟,而19–29是另一个阈值,在此阈值之上,瞬时情绪会严重恶化。此外,这些总线微环境指标的最佳暴露水平分别为0–65 dB,22–28°C,41–50%和18–19。这些阈值效应为交通规划人员和公交运营商基于对乘客瞬时情绪变化的更好理解,以实现理想且用户友好的公交车内微环境,具有重要的意义。关美宝老师团队的研究,基于公交微环境暴露(噪声)对于乘客瞬时情绪的影响。可以说是一个比较有意思的时空行为地理学研究,不过数据搜集难度相对大一些。
8.Random Forest Spatial Interpolation/随机森林空间插值
几十年来,克里金法和确定性插值技术(例如逆距离加权和最近邻插值)一直是最流行的空间插值技术。具有外部漂移的克里金法和回归克里金法已成为从空间自相关和协变量信息中受益的基本技术。最近,诸如随机森林和梯度增强之类的机器学习技术变得越来越流行,并且现在经常用于空间插值。为了在机器学习中明确考虑空间成分,已经进行了一些尝试,但是到目前为止,这些方法都没有采用将最近的观测值及其与预测位置的距离作为协变量的自然路线。在这项研究中,我们通过引入随机森林空间插值(RFSI)来探索包括最近位置的观测值及其与预测位置的距离的价值。在三个案例研究中,我们将RFSI与确定性插值方法,普通克里格法,回归克里格法,随机森林和随机森林用于空间预测(RFsp)进行了比较。第一个案例研究利用了合成数据,即使用已知的半变异函数对正态分布的平稳随机域进行的模拟,对于这种情况,普通克里金法被认为是最佳的。第二个和第三个案例研究使用西班牙加泰罗尼亚2016-2018年期间的每日降水数据和克罗地亚2008年的平均日温度评估了各种插值方法的性能。综合案例研究的结果表明,RFSI优于大多数简单的确定性插值技术,并且具有与反距离权重和RFsp相似的性能。不出所料,在综合案例研究中,克里金法是最准确的技术。在降水和温度案例研究中,RFSI的性能优于回归克里格法,反距离权重,随机森林和RFsp。此外,RFSI比RFsp快得多,特别是在训练数据集很大且已制作高分辨率预测图的情况下。将随机森林的机器学习算法引入到空间插值算法做了扩展,提出了随机森林空间插值算法。以降水数据为案例研究,发现RFSI的算法优于大部分空间插值算法,且性能卓越。
邻里的建成环境可能会影响居民的体力活动,但缺乏非中国主要城市的证据。我们调查了五个社会人口统计学特征,十个客观评估的环境特征,八个感知的邻里属性以及社会环境对体力活动和健康结果(社区的感觉,体重指数以及自我报告的健康状况)的影响。我们还研究了(1)在概念上可比较的五个邻域属性,它们是客观环境属性和体育活动之间关系的中介; (2)使用中介分析进行回归,以其他感知指标和社会环境作为这些关系的调节者。客观评估的住宅密度,土地使用结构,街道连通性和可及性与身体活动呈曲线和/或线性相关。地形的坡度与体重指数(BMI)成反比。没有发现任何可感知的属性作为调解人,这可能是由于主观和客观环境之间的关联性较弱。高密度有助于体力活动,但阻碍了社区意识。此外,感知的美学和安全性与体力活动有关。此外,社会环境调节了所有感知环境(坡度除外)和社区意识的积极联系。本研究表明,大连的体育和社会环境属性均与体力活动显着相关。建成环境对体力活动的影响分析,提出了一些潜在路径,但是是基于截面数据的分析,具体的关系推断还需要更多的纵向研究。
]]>本文想法和初步动笔起源于10号,但是最近事情比较多,一直到现在才完稿。其实起源是从5月初本科学弟学妹的毕业答辩开始的,主要谈一谈听完答辩的感悟以及对于GIS学科的一些引申思考。
由于疫情的原因,今年本科学院的学弟学妹毕业论文答辩采用了腾讯会议网上形式。不过由于各种原因,听得比较完整的还是直系基地GIS方向的答辩,因此也就针对这几个内容稍微提点东西。先Po一下大家的题目。
一共是9位参与答辩。
第一位是基于新浪微博对洪水灾害时间主题挖掘与淹没信息做提取。从选题来说,是近些年GIS一个比较热门的方向,内容涉及的大致关键词应该包括位置语义,地理语义,文本挖掘,社交媒体地理学。而这个在灾害方面的响应也是一个比较火的方向。大概思路就是基于微博数据,利用比较流行的文本挖掘模型LDA做洪水灾害事件信息提取,这里是淹没深度信息,以及相关的主题分析。主题分析或者主题挖掘是属于NLP方面比较专业的一类模型,这里不细阐述,感兴趣的同学建议自行搜索关键词。当前的研究基本上就是从微博文本来进行文本处理,如果是不含位置信息的微博(即无法直接获取经纬度),通常必须先从微博内容获取相关的地名,这应该可以算是位置语义或者叫地理语义。然后做geocoding,而其余的微博内容可以扩充其他文本挖掘的信息,在这个研究里就是淹没深度。这类研究的意义就在于灾害的应急响应以及预警。在目前的大数据时代,微博能非常快速地传递相关信息。因此就像系里老师点评的,这类研究最好能做成实时的app,会更有意义。国内微博数据分析比较多的相关团队还是不少的,北京大学袁晓如老师团队,地理所王江浩老师也做了一些研究,此外最近GeoAI讲座里的胡英杰老师也是这块研究非常优秀的老师。感兴趣的可以多去了解,至于模型的话,类似word2vec,甚至于去年大火的BERT是否可以用到里面做结合也是很有意思的。最后的最后,其实我想说另一点,研究的技术性和新颖程度很高,但是我重新回顾的时候在考虑一个问题,题目里的洪水灾害事件,由于我没有听到这个汇报的全部内容,所以我不确定究竟是洪水灾害事件或者是城市内涝事件。作为一个GIS的研究,我认为本质上还是基于地理学去分析问题,因此基础的地学现象和定义要明确。这个研究也让我想起我本科期间做的一个工作,基于城市蓝绿景观的空间变化与内涝区域的联系研究,其中我为了检验内涝区模拟准确性,当时也是采用了一个微博数据,有人在微博上分享了他整理的福州某次内涝事件的60个积水点的地点信息,我根据那个数据做了一个简单的geocoding,形成空间文件。
相关资源:
第二位是用地理加权回归模型用高光谱遥感数据估算土壤有机质。由于我对高光谱这块不是很了解,所以意见更多集中在地理加权回归和土壤有机质方面的。地理加权回归(Geographically Weighted Regression, GWR)是Forthingham教授提出空间统计回归模型。本质上这个模型是基于地理学第二定律——空间异质性提出的,目前GWR有大量的模型发展和应用研究,最近Forthingham教授团队正在拓展GWR相关的模型,最新成果是MGWR(Multi-scale Geographically Weighted Regression)。之前在某个会议见过他的弟子Ziqi Li,他也是MGWR模型的作者之一。当时他在会议上做了一个很有意思的研究,就是比较了R里面不同R包(R语言中至少有3个GWR相关的包),ArcGIS,GWR4(Forthingham教授团队开发软件)以及Python的pysal包的GWR结果,即用同一套数据,不同语言,软件执行GWR,结果表明,除了ArcGIS以外,其他结果是一样的,可以复现。事实上由于ArcGIS是一个商业软件,有些时候是会一定程度上忽略模型理论假设的限制以及针对参数做优化计算的,由此造成了结果差异。因此使用GWR要慎重。GWR这个模型,从模型求解角度,一定程度会有过拟合现象。这也让我想到前一段,我与我的大导师讨论研究计划,我提到会用一个用GWR做校正的数据,我的大导师很明确跟我说GWR有过拟合现象,让我不要用这个模型。因此这个模型在各种使用上仍需要慎重。当然我个人角度还算蛮推崇这个方法,我也在我的几篇论文里都有用到这个方法。GWR用于估算土壤有机质,从应用角度,可能稍微比重金属更新一点。但是这个角度创新点我觉得不是特别高,另外做这类回归和估算,我们要考虑的不仅仅是精度,还要考虑到研究模型的普适性和可推广性。土壤有机质是比较难测量的变量(有做过土壤地理实验的都知道测起来很麻烦),所以我们用GWR和高光谱就是想快速获取大范围的土壤有机质,因此我们选用的一些参数就要尽可能泛用以及便于测量。此外尺度效应也是一个很重要的点。另外GWR的变式还包括类似GAWR(地理海拔加权回归),GTWR(地理时间加权回归),这些都是后续可以拓展的模型。土壤有机质其实是生态学方面尤其是植被碳循环的重要变量之一,如果做好了,可以为后续的研究提供很多帮助。另外关于题目,我重新读的时候觉得有些别扭,事实上应该是用高光谱遥感数据作为输入,然后用GWR来估算土壤有机质。其实我觉得可以把输入数据和方法都放在基于的后面,似乎更舒服一些,如基于高光谱与地理加权回归的土壤有机质估算。不过也仅是个人意见。
相关资源:
第三位也是研究土壤相关的,基于INLA-SPDE做平潭土壤铅含量预测的不确定性研究。INLA-SPDE是一个空间贝叶斯模型。空间贝叶斯的关键就是可以推断后验概率,因此不仅可以得到模型估计值,也能得到模型估计的不确定性。事实上空间精度和空间不确定性分析也算是GIS近些年逐渐兴起的一个重要分支领域。我在18年参加了Spatial Accuracy的国际会议,对此有颇多感悟,我也做了一些相关的研究。简单来说就像量子力学里有一个知名的测不准定律,空间数据也是如此,各类误差和不确定性是广泛存在矢量与栅格数据的,而这些误差和不确定性随着数据处理会传播到最后的结果中,但是很多时候我们无法判断,这些误差和不确定性是增大或者减小,同时对一个数据而言,如果不评价它的精度,在应用上就会充满很多疑虑。个人的看法在于过去本身空间数据获取手段相对匮乏,难度高(如测绘级数据),需要花大量时间收集数据,当然这样子收集数据一般而言质量也较高,精度也高,但是数据不够丰富,不够多的前提下,想再去关注精度问题还是比较难的。而近些年井喷式的多源地理大数据以及对地观测数据,算是比较完美解决了这个问题,但是随之而来的就是大量的数据质量问题,这也是空间精度和空间不确定性分析近些年兴起的一大原因。回到贝叶斯模型这块,空间贝叶斯模型很重要的点就是推断不确定性,某些研究里可以视为风险值,为决策提供辅助。时空贝叶斯统计与模型也是我未来可能涉及的研究重点,这一块,我个人推荐英国格拉斯哥大学的Duncan Lee教授,今年早些时候听过他的报告。他是时空贝叶斯统计的专家,也开发了相关的R包。另外再来讲讲土壤重金属元素的预测,这一块其实有各类空间插值方法等研究,因此从领域而言不算太新,如何挖掘新因子以及找到相关的泛用预测自变量,应该是比较有意思的延伸研究。另外答辩过程里,老师提到了选空间插值的问题,这个让我想到一个对于空间统计分析的思维培养。我个人认为的空间统计研究流程应该如下。事实上空间插值方法都有一个前提假设,就是插值的这个对象应该是符合地理学第一定律——具备空间自相关性的。此外这个研究还涉及到做模型的交叉验证问题,模型的验证也是具有一定的技巧的。
相关资源:
第四位是分析学校所在的大学城城中村的暴雨洪涝灾害脆弱性研究。可以说比较贴近校园。当时我本科毕业选题也是基于校园的三维模型相关研究。从选题来说,脆弱性(vulnerable)或者恢复力/韧性(resillence)也算是近些年灾害与气候变化领域很火的主题。尤其与联合国的SDGs结合,今天刚好看到了一篇华东师大相关的研究,也可以参考。这位的研究可以说是比较传统的GIS空间分析研究,建立评估指标体系,赋权重,收集数据与空间叠加,可以说是比较典型的小数据地理传统研究。整体来说,数据搜集工作很扎实,分析比较清晰。当时答辩老师提了几个问题,如指标体系需求,指标体系权重确立,尺度效应的作用,针对这几个点我也有些看法提了一下,指标体系,其实他定义的指标体系我感觉比较像个人确立的,当然对于小尺度区域性研究我觉得是可以的,但是我更推荐可以基于一个大的理论框架做指标体系的本地化和区域化,这类研究会让我想到比较流行的P-S-R(压力-状态-响应)框架。指标体系权重确立方法有很多,我本科创新项目答辩时也用到这个权重确立,当时我觉得避免主观打分,采用了熵值法,但是老师提的建议是,其实这类研究(我的项目也是基于校园的空间分析)熵值法可能不如AHP准确,因此权重方法确立也是根据具体情况而言。最后是尺度效应,老师们当时提的是经济指标在这类小尺度研究是否与脆弱性/恢复力相关,普遍认知里面社会经济因子对大尺度区域的恢复力有显著贡献,这一点会让我想到最近参与的一个小研究,关于新冠肺炎粗病死率的一张图。我当时把概括,能保持粗病死率为0的除了有物理屏障优势的几个省份以外,江苏就是社会经济屏障的典型(经济实力雄厚)。可以看到在应对这类公共卫生突发事件(突发灾害也是相同)的时候,社会经济示例雄厚的区域往往具有更强的恢复力/韧性。这个基本现象在大尺度研究下大概率是没问题的,但是当区域放到小尺度研究呢?我思考了下在类似城中村以及小区域研究的普适性。以灾害发生以后的资源调配和政府救助为例,假如存在两个受灾村子。一个村子的财政实力较为一般,另一个村子的财政实力稍微雄厚一些。财政实力略微雄厚的村子选择自行救助。财政实力一般的村子由于自身经济实力受限,上报上一级政府请求援助,但是上一级政府经济实力非常雄厚。由于这个原因,反而财政实力一般的村子可能在灾后恢复要比另一个村子快。当然这也是个比较极端的例子,但我个人认为小尺度区域受灾害影响的时候,很多情况都是上报上级政府求助(假定是救助是均质的,受灾程度相同,救助款也相同),那么本身村子的经济实力对于恢复力的影响是如何就比较难以判定了。
此外,我记忆比较深的是做了大量的实地考察和调研。对于小尺度研究,这样子的研究精神和收集数据方式,我是非常赞赏的。当时我也在QQ群里点评了一下,事实上GIS学科通常被认为没有野外,这是不对的。野外实地考察,调研对于GIS数据精度和准确度尤为重要,RS就更不必说了,无论是做定性遥感的土地利用分类或者是定量遥感的地表参量反演,都需要有地面实测数据的验证。GIS并不是完完全全坐在计算机面前就可以完成的工作。往往GIS出身的同学会产生这类认知差异,我认为有必要提出作为点评的点。这也让我想起前几天在微博上看到的一个很有意思的研究。由于疫情期间封城措施,盒马生鲜在这个特殊时期开始红火起来,但是GeoHey的官微推了一个有意思的问题(如下图)。几乎全国各地盒马都在这次疫情爆红,但是在福州失败了。首先我觉得原因有很多,但是当时我看到微博的第一反应是因为福州有永辉超市。永辉是发家于福州的连锁超市,是当地“农改超”的典型案例,在福州本地有较为深厚的消费群体根基,而且本身就是以生鲜蔬菜的售卖为特色,因此可能对盒马生鲜产生了一定的压制。当然这只是可能的原因之一,具体的原因肯定很复杂,感兴趣的同学完全可以就此研究,而这也说明了,对一个区域不实地考察了解的话,是很难对一些地学现象作出解释的。当然我的认知还得益于某位学长的创新项目。最后一点,这位同学可以和第一位同学合作,这就是实现大数据与小数据的结合了。
相关资源:
第五位是基于当下流行的深度学习和图片识别技术对交通标志进行检测。首先从计算机技术角度出发,这位同学对计算机视觉算法方面的研究非常深入,并且在计算视觉处理的基础上,集成开发了一个Android App,可以说在GIS开发上有着非常不错的造诣。这类研究是当下非常火的无人驾驶热点之一,在当下的时代,GIS不仅在传统应用行业中发展,现在已经扩展到了各个相关领域,无人驾驶就是其中一块。当然这个部分对于算法和计算机技术要求颇高,感兴趣的同学可以继续深入了解。从研究来看,思路使用了计算机视觉里的图像处理增强和变换相关算法,对图片做了一定的处理,增强特征。然后结合深度学习来实现图像检测。这里要科普一个概念差异(如下图)。目前来说,就我的认知,这位同学的研究应该还是在image classification的那一步,检测图片里面有没有交通标志,有的话,自动采集收集数据。从本科毕业论文而言,做到这样子是非常不错的,我个人很佩服。另外这类app的目的也很好,就像看到蒋波涛老师说的话(如图),目前深度学习入门教程现在太多了,大家的工作都集中在深度学习各种各样的Hello World上,但是缺少具体应用的各类数据集。因此像这样子的一个用于采集相关数据的app可以说在制作用于深度学习的数据集上提供了基础和极大的方便。当然后续研究可以从目标检测,和语义分割相关的进行深入研究。最后,我认为这个研究有一个算不上问题的小问题,就是这个研究的“地理味”不够浓。这一点我后面也会简单聊一聊。
相关资源:
第六位是偏向遥感的研究。利用了Landsat卫星影像监测龙岩市上杭县矿区的生态环境状况。基于多个遥感指数提取包括地表温度,湿度,NDVI等比较全面的生态环境遥感监测常用产品。生态环境遥感监测算是近些年来比较火的一个概念。这个研究虽然题目上说的是针对矿区的研究,不过在听报告后发现,是做整个上杭县的研究。上杭县的矿区是上杭重点的生态修复区。我硕士所在的研究组刚好也有参与过相关的生态修复项目,不过我并没有参与这个项目,只是简单听过这个项目。接下来谈几个点,就像答辩老师提的,这个研究的另一个问题是这个研究里使用的遥感监测产品很多都是基于NDVI或者是相关的其他指数衍生出的各类数据,印象中湿度是基于NDVI和一个简单的线性公式简单计算得到,因此从这个角度而言,其实这些产品的同质性极强。给我的感觉就是这个研究或者说这类研究,尤其是遥感领域的同学在做这方面研究时,通常更多的都是堆砌大量遥感数据产品。但是缺乏足够的生态学含义和框架将这些数据更好地整合在一起,这样子感觉有点像记流水账,就是把能算的遥感数据全部列上去。这个部分,最近比较火的国土空间规划可能可以提供一个参考,就是基于这些数据来计算生态环境承载力之类的综合指标,这样是兼顾生态学意义与遥感数据的方法,相比于比较单个产品更有意义。最后也提一句另外一个相关的内容。去年听到学弟学妹参加Esri竞赛时用的一个遥感指数,基于遥感的生态指数,Remote Sensing Based Ecological Index,RSEI。这个指数是福州大学徐涵秋老师团队提出的,简单说就是基于NDVI,MNDWI,LST和遥感计算的湿度指标做主成分分析然后叠加生成的一个指数。按照论文里的说法,指标越接近1,生态环境质量越好。但是这样子一个指标是否就具备普适性,同时这个指标完全能表征生态环境质量吗?我个人还是有些保留意见的。不过后续扩展研究如果可以基于这个指标做些研究,也还是不错的。
相关资源:
第七位是基于WRF数据改进数值模式输出结果的不确定性。WRF是美国NCEP和NCAR开发的天气数值模拟模式。这里不详细赘述了。我博客里有介绍过安装相关内容,感兴趣的可以去查找一下。简单说,这是一个可以模拟真实气象状况的数值模拟模型,从输出来说,可以为地学研究提供多维度的气象变量。但是要注意的点在于,气象学与地理学的尺度概念有差异,气象学,尤其是数值模式的高分辨率与地理学的高分辨率差异较大。在气象学里,全球1°就可以算是高分辨率,而地理学,尤其遥感领域的高分辨率通常是亚米级数据。因此WRF通常输出最细也是在3KM左右,这是地学应用上一定的限制。这个研究其实无关WRF,就是讨论WRF输出与实测数据如何结合改进预测,降低不确定性。从概念上讲,是类似data assimilation(数据同化)的研究,不过我觉得从实际操作角度更接近data fusion(数据融合)。同样是采用了当前流行的深度学习神经网络模型。当然老师们提了个问题,单点数据与网格如何实现结合。这也是一个比较普遍的地学问题。但是事实上WRF,包括WRFDA模块,在进行数据同化的过程中,他们对于稀疏观测站点的真实数据与模型输出的同化流程操作与地理学的处理思路是有差异的。地理学往往需要遥感作为尺度扩展的中介。而WRF是需要对观测站点做一个所谓的局地化方案(印象中是有点类似空间插值的思路),感兴趣的同学可以自己去深入了解。但是目前WRF模型输出的降尺度,数据融合,数据同化已应用到更细尺度的数据产品。这也是地理学重要的数据来源与补充。尤其深度学习的出现,为AI和地球系统科学提供了另一个契机。说到这,计算机的国际会议,ICLR 2020会议开始组织一个AI与Earth Science的workshop,包括近年来数据科学竞赛有大量的相关题目。无一不显示了深度学习技术与地球系统科学结合的潜力。这方面的研究还有很多值得深入的地方,地理学如何为这类研究提供更好的支撑也是值得考虑的。
相关资源:
第八位是以平潭岛为案例,结合土地利用数据分析海岛的生态安全格局。生态安全也算是这几年兴起的生态学领域热点研究。我硕士导师是国家重点研发专项“长三角城市群生态安全保障关键技术研究与集成示范”子课题负责人,其实同期的国家重点研发专项一共有四个关于城市群生态安全相关的,分别为京津冀,长三角,珠三角以及闽三角。事实上学院的多位老师也参与了闽三角的子课题。当前生态安全的几个关键问题主要包括水生态安全,粮食生态安全,大气污染,生物多样性等等。这个研究其实是基于土地利用数据集合景观生态指数评价生态安全格局,研究里采用了水文分析中的“源-汇”理论进行分析,事实上可以理解为对生态胁迫效应的研究,从而分析生态用地扩张的格局。这里推荐一篇认识的一个师姐最新发表的文章(链接在后面)。说到这个也提一下研究题目的问题,在题目里出现了两个格局,因此确实读起来比较拗口,这一点老师们也提到了。如果以“源-汇”理论作为关键创新点,题目可以改为基于“源-汇”理论的生态安全评估格局研究,当然这仅仅是个人意见。从主题而言应该是城市化扩张的生态安全影响。另外海岛生态安全分析也是一个当前比较特殊的研究领域,也是值得注意的一个点。另外还可以考虑结合土地利用模拟模型,对未来的生态安全情景进行模拟分析。
相关资源:
最后一位是分析师大区域的溪源江流域的洪涝灾害风险地图设计,不过我因为当时在饭点,听得断断续续,不是很完整。具体内容,我就不具体点评了。整体内容是偏向地图设计的研究,个人看法是可以和前面第一位和第四位同学交流。地图设计的研究,应该不仅限于制图。在制图的基础上,可以联系陈述彭院士提出的地学信息图谱概念,将多年灾害的洪涝灾害地图集成到一起,形成地学信息图谱,从而推断相关规律。这应该也是个蛮有意思的研究。
相关资源:
总的来说,这九个研究里面(包括我也围观了其他GIS系的部分答辩)有很多选题比我们当年要新颖有趣得多,学弟学妹们比我们当年做毕设的时候敢尝试的多,当年我们年级GIS系的选题大量集中在面向对象的遥感分类。有很多题目都是不仅局限于GIS的传统领域了,如计算机视觉,深度学习,WRF,文本挖掘。
地理学本身是一门很综合的学科,因此涉及到的地学现象十分复杂。而GIS作为分析地理学的关键定量工具,势必要求在建模的过程里必须对地理学,地学现象有深入了解。但是GIS学科当前的教育似乎比较多集中在GIS软件使用,分析,开发,遥感,偏向计算机科学方面的课程,在地理学基础理论知识方面的课程相对少一些(可能我的了解比较片面,也不完全对)。当然这也是因为时间缘故,同等时间想兼顾多个内容确实很难。
当然本科期间强调学习的广度,而硕士生以及博士生的学习会更强调学习研究的深度。因此先把计算机基础打好也并不是坏事。如果感兴趣继续做这方面深入研究的同学,本科期间应该先把计算机基础打好。在硕博期间挑选一个适合自己的主题,深入研究挖掘。
这样的研究就要求我们要走出GIS的限制(指去关注感兴趣主题的核心),把研究放在自己关注的感兴趣区域,深化这部分的专业知识了解,而随着对关键领域的深入研究挖掘,往往会出现一些情况,就如上面有几位同学做的研究,我提到的地理味不够浓。当这情况出现时,应该回归本心——重新回顾GIS学科,去思考如何再和地理学,GIS结合?
举几个我个人认为比较有意思的,GIS分析可以运用的特定研究。
篮球场的投篮分析(见如下虾神的博客,此外Esri也有个汇报是基于ArcGIS Model Builder分析的)。
B站弹幕分析,可以基于地形分析的思想进行研究。可以看到弹幕数量有这个波形的存在(如图)。也有大神基于这个用Python实现全自动制作视频。
这与下面Science论文里的这个高程截面图是类似的。
还有一个与上面的类似研究。
不过GIS的基本理论还是要在本科期间就建立起来并重视的,就比如目前公认的地理学第一定律和第二定律,因为这是一切空间分析和空间统计的基础。
另外关于研究题目的起草,这次答辩有不少老师提到,我前一段刚好看到一名知名的学术博主的评论。觉得甚有益处,也分享给大家(下图)。
记录了一些自己的感悟和感受,可能比较随意,主要用于与大家交流。大部分观点为个人意见,仅供参考。
最后还是祝大家毕业快乐呀!!!
]]>My Ph.D. project will focus on the application of spatial technology in Spatial Lifecourse Epidemiology. With the pandemic of COVID-19, I built up a website, “Awesome of COVID-19”, which collected the related resources of COVID-19 researches. This article is the tutorial of this website.
Snap spot of the website.
I developed this website by docsite. The website consists of four pages including Home, Resources, Work, and Community. Besides, there are two buttons including language and search.
Once you click the ‘language’ button, the language of this website will convert to another language (Chinese/English).
The search button could be used for searching the correlated information in the Google search engine.
As for another four buttons, we could explore the website of home, resources, work, and community according to clicking the corresponding button. We will introduce the four detailed pages in the next section.
The page of Home includes six parts. The first part is the title, and introduction of this website. Besides, it also include the two buttons, ‘Quick Start’, and ‘View on Github’.
Once you click the ‘Quick Start’ button, you will jump to the ‘ISLE’ page of this website.
On the other hand, the source code of this website is stored by the Github repository, Awesome COVID-19. If you click the ‘View on Github’ button, you will see all the source code of this website.
The second part is the overview of the COVID-19 time series data. You could explore the time series plot of COVID-19 confirmed and death cases. The plot was generated by Python language and Matplotlib. Besides, I also list all the sources of COVID-19 data that were used for generating the plot.
The third part list all the possible research topics of our modeling analysis of COVID-19 including Spatial Lifecourse Epidemiology, GIS, Satellite and Remote Sensing, GPS and Sensors, Statistics, and Machine Learning.
The fourth part shows the snap spot of a COVID-19 shiny app that was developed by me. You could explore the dashboard shiny app of COVID-19 by clicking the ‘READ MORE’ button. The detailed information about this Shiny app will be introduced in the next sections.
The fifth part is the list of contributors. If you want to become the contributors to the website, please contact me via E-mails and fork my Github repository.
The last part lists the quick links of correlated websites and resources. Besides, I also provide a globe which could show the location of the visitors of the website.
The resources page consists of various research resources that I collected. I divided the resources into different types including ISLE, Resources hub, Academic paper letter and news, Clinic Medicine Resources, Virology and Biology Resources, Epidemiology Resources, Comprehensive Research, Economic, Urban planning and Governance correlated Resources, Data, Visualization, Platform, Tools, Organizations, Journal special issues, Competitions, Lecture, Funding application, and Sustainable cities & mobility. I will introduce the detailed information about these resources by a short sentence. Besides, the resources include both Chinese and English resources.
ISLE means the International Initiative on Spatial Lifecourse Epidemiology (ISLE), which was built up by my supervisor Prof.Jia Peng.
Resources hub includes the resources provided by the Journal, University, Institute, Company, WHO, CDC, and other correlated department.
Virology and Biology Resources include the studies about the virology and biology that developed from the laboratory.
Epidemiology Resources include the studies about the modeling spreading analysis, epidemiological analysis, risk assessment, and evaluation intervention of COVID-19.
Comprehensive Research includes the studies about cross-disciplinary research or different aspects of COVID-19.
Economic, Urban planning and Governance correlated Resources include the studies about economic, urban planning, and governance for the pandemic of COVID-19.
Data, Visualization, Platform, Tools include the data, visualization, platform and tools of COVID-19.
Organizations include the new organization of COVID-19 which is built up during the pandemic.
Journal special issues include the related specials of COVID-19 in different journals.
Competition includes the competitions about the COVID-19.
Lecture includes the lecture, speech, and course of COVID-19.
Funding application includes the application of funding which is related to COVID-19.
Sustainable cities & mobility is an open volunteer organization for the sustainable development of China which was built up by Daizong Liu. It includes all the WeChat articles about COVID-19.
This page will deploy all the post articles about the short introduction to our work of COVID-19 related studies. All the recent COVID-19 related studies of our team will be introduced in these articles.
The community display all the articles of our work according to events or news.
The spatial lifecourse epidemiology is the main theory of our team for supporting the analysis of COVID-19. I list the two main directions of our study for this pandemic of COVID-19 including the map of COVID-19, and modeling analysis of COVID-19. I also list the possible keywords for our study.
Finally, there are some ways to contact me and the guide for contributors.
I used R and Shiny correlated packages to develop a COVID-19 Shiny app to display the pandemic of COVID-19. I used the data which is collected by the Johns Hopkins University to construct a real-time dashboard of COVID-19 including the map of the distribution of COVID-19 confirmed and death cases (developed by mapbox), the interactive scatter plot of COVID-19 confirmed and death cases time-series data (developed by plotly), and the rank of the top 10 serious countries during the pandemic of COVID-19.
Besides, I developed a single dashboard for the COVID-19 confirmed and death cases in China including the map of the distribution of COVID-19 confirmed and death cases (developed by mapbox), and the interactive Voronoi Treemap of COVID-19 confirmed and death cases (developed by D3).
Finally, I design the interactive rank list of COVID-19 confirmed and death cases. You could type the random number n (n is from 0 to 187) in the box and show the detailed information of the top serious n countries during the pandemic of COVID-19.
The further work of COVID-19 is still working on.
]]>1.负责任的可重复性计算机研究指南。
reproducible research guidelines
2.模拟数据并拟合2种物种的居住模型的代码。论文”A multispecies occupancy model for two or more interacting species”的代码实现。
3.R语言包flametree,可以生成看起来像树木的艺术品。
4.R语言包cft,未来气候变化工具:轻松访问和下载MACAv2气候数据。
5.Esri公司的故事地图系列相关开源库介绍。有兴趣的可以参加今年Esri杯大学生GIS开发竞赛的A组,即故事地图组。
6.FastAPI支持的云优化GeoTIFF切片服务器。
7.新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。
8.R语言包revdepcheck,R包反向依赖检查。
9.Python库adjusttext,用于Python里matploblit自动调整标签字体位置。
10.Python库modin,通过更改一行代码来加快Pandas工作流程。
11.具有自动补全功能的交互式kubernetes客户端。
12.对角矩阵方程在CUDA-C中实现并行循环简化。
13.结合卫星影像与机器学习预测贫困。
14.R语言包sjSDM,快速准确的联合物种分布建模。
15.REL:Radboud实体链接器。
16.R语言包repr,各种R对象的字符串和字节表示。
17.将GIF的bling-bling添加到图像的API。
18.CRS的一些记录。
19.现在只是一个粗略的mapview例子。
20.VisPy:Python中的交互式科学可视化。
21.mungbean的R报告,这将检查3种不同温度条件下绿豆芽的生长数据。
22.开发了Rest API,以使用图像处理来检测绿豆叶病。
23.NWM模型产品评估。
24.R语言包topicmodels,主题模型。
25.创建具有手绘,粗略外观的图形的rough的javascript库。
26.d3,数据驱动文件的可视化javascript库。
27.R语言包roughviz,rough的javascript库的R接口。
28.用于Web应用程序和Node.js的Monkey测试库。
29.编写可重复研究的Dockerfile的十条简单规则。
30.气象,海洋和环境科学的人工智能论文或教程以及相关源代码。
31.伊利诺伊大学开源入门系统编程教科书。
32.微软可视化项目SandDance,直观地探索,理解和呈现您的数据。
33.”An efficient and robust line segment matching approach based on LBD descriptor and pairwise geometric consistency”论文代码。
34.通过EDlines算法提取图像的线段特征,再用LBD构建线段的描述子信息,并用图匹配的方法进行两张图之间的特征线段的匹配,其中test.hpp用于记录matching的结果和线段提取的结果。
35.R语言包MicrobiotaProcess,用于微生物组分析,可视化和生物标记发现的R包。
36.处理和可视化来自加拿大BC和AB的山松甲虫大规模攻击数据
37.Holepunch将在GitHub上读取您的R项目的内容,创建具有所有依赖项的Description文件,编写Dockerfile,在README文件中添加徽章,并构建Docker镜像。
38.ggplot2的各类拓展库。
39.一个数据诊所项目,在区域级别汇总NYC开放数据,并使用机器学习技术重新构想邻里边界。
40.R包posterior,旨在为包的用户和开发人员提供有用的工具,以适合贝叶斯模型或使用贝叶斯模型的输出。
41.手把手撕LeetCode题目,扒各种算法套路的裤子。
42.RStudio工程师Julia Silge的博客。
43.R语言包geosparklines,可将SparkLines放置在地图上。
44.2018-2019描述性分析。
45.Python的公共交通网络分析。
46.R语言包,深度成分空间模型。
47.用于在点云上进行深度学习的Pytorch框架。
48.教科书“Image Analysis, Classification and Change Detection in Remote Sensing, Fourth Revised Edition”(遥感图像分析,分类和变化检测,第四修订版)的Python脚本。
49.R语言包geobuffer,使用公制半径的测地线缓冲区。
50.R语言包dggridR,R的离散全局网格:正确执行空间分析。
51.易于使用的Mac osx图像编辑应用程序。
52.CS228的课程笔记:概率图形模型。
53.R语言包rocc,从R下载相关的物种事件数据。
54.ESPHome是一个通过简单但功能强大的配置文件控制ESP8266 / ESP32的系统,并通过家庭自动化系统对其进行远程控制。
55.Longformer是用于长文档的类似BERT的模型。
56.对地观测代码资源,精选的工具,教程,代码,有用的项目,链接,有关地球观测和地理空间的内容清单。
57.R语言包mputr,用于以整齐的格式处理多个插补的软件包。
58.”Combining data assimilation and machine learning to emulate a dynamical model from sparse and noisy observations”论文的代码。
59.基于React和D3的步长可视化。
60.R语言包dlookr,数据诊断,探索,转换工具。
61.开源RAW开发人员软件Darktable的电影仿真预设的集合。
62.为加拿大西部北方森林开发一种山松甲虫传播模型。
63.R语言包elevatr,可以获取高程数据的R包。
64.Greg Snow的’RStudio更高效的R编码技巧’报告的代码与笔记。
65.开放的语义识别数据集,评估协议,方法。
66.开源GIS软件GRASS GIS。
67.R语言包minidrawio,从R创建简单的draw.io文件。
68.使用Web技术构建的开源屏幕录像机。
69.该R代码用于通过R-INLA(http://www.r-inla.org)运行物种分布模型(SDM)。
70.新闻网页正文通用抽取器 Beta 版。
71.在书本上添加Open Review Toolkit元素的实验。
72.数据多维数据集OGC Web服务。
73.themer采用一组颜色并为您的应用生成主题(编辑器,终端,墙纸等)。
74.ML.NET是.NET的开源和跨平台机器学习框架。
75.把因果思维融入机器学习中。
76.看板风格的应用程序,用于跟踪需要完成的事情。
77.R语言包cransays,创建CRAN收件总览。
78.实时密集视觉SLAM系统。
79.R语言包rasterly,从R&Plotly中的大型数据集快速生成栅格图像。
80.开箱即用的微信公众平台API模拟服务器,帮助你开发与调试微信公众平台应用。
81.基于R和stan的不同算法模拟。
82.Google Earth Engine的deck.gl图层。
83.tidymodels.org网站的源码。
84.量化威斯康星州湖泊海岸线上的建筑密度。
85.”Overlap Local-SGD: An Algorithmic Approach to Hide Communication Delays in Distributed SGD”论文的代码实现。
86.R语言包geobr,使用R和Python轻松访问巴西的官方空间数据集。
87.常用的录制gif软件。
88.R语言包bibliometrix,用于全面科学制图分析的R工具。用于科学计量学和文献计量学的定量研究的软件包。
89.Universal Data Tool是一个Web /桌面应用程序,用于编辑和注释图像,文本,音频,文档,以及查看和编辑在可扩展的.udt.json和.udt.csv标准中定义的任何数据。
90.Packt发布的用于学习FOSS4g堆栈的代码存储库:带有Postgres / PostGIS的空间SQL。
Learning the FOSS4g Stack Spatial SQL with Postgres PostGIS
91.Grid-GCN用于快速和可扩展的点云学习。
92.TREC深度学习追踪2019的网站。
93.R语言包sen2r,查找,下载和处理Sentinel-2数据。
94.该应用程序允许从给定的ArcGIS REST服务中提取完整数据集,从而克服了服务维护者设置的服务限制。
95.Python库pyeo,Python对地观测数据处理链。
96.用纯Python编写的计算机代数系统。
97.适用于Chrome的Pomodoro®时间管理助手。
98.用于单视图或多视图数据的密度自适应频谱聚类。
99.在多个conda环境中进行实验。
100.将Facebook的先知应用于Google Analytics(分析)数据。
101.使用dplyr在命令行上处理CSV文件。
102.Python库pipwin,为Christoph Gohlke提供的Windows安装已编译的python库。
103.VokoscreenNG是针对Linux和Windows的用户友好型开源截屏视频软件。
104.R语言包geovctrs,几何矢量的通用类和数据结构
105.阿尔托的贝叶斯数据分析课程
106.与COIN-OR CBC,CPLEX,GLPK和GUROBI的简单C / C ++接口,具有一些有趣的功能。
107.Python写的GameBoy模拟器。
108.用纯JavaScript编写的设备信息和数字指纹。
109.协议规范,白皮书,高级文档等。
110.简单的C ++几何处理库。
111.用于数据分析的Django。
django for data analysis nicar 2016
112.CARTO VL:一个Javascript库,用于创建基于矢量的可视化。
113.在Docker中使用R进行地理计算。
114.Academic Kickstart:学术网站建设者的模板
115.Python库kedro,可为数据和ML管道实现软件工程的最佳实践。
116.Python库rchitect,R与Python实现互操作。
117.R语言包sentimentr,基于字典的情感分析。
118.R语言包anglr,为空间数据(而不仅是地理数据)创建网格和拓扑。
119.在Apache Arrow和Apache Parquet中存储地理空间数据的规范。
120.ProcGen美国城市地图。
121.R语言包meta,用于分析meta分析的R包。
122.pynoddy是一个Python软件包,用于编写,更改和分析使用Noddy执行的运动地质建模仿真。
123.R语言包pixelart,R封装以制作Pixel Art模型。
124.Python库geopy,Python的地理编码库。
125.人行道宽度NYC使用纽约市的人行道数据集生成5个行政区的人行道宽度地图。此存储库包含用于重现此工作的笔记本,以及完成的GeoJSON格式的Sidewalk Width数据集
126.AZ-Touch Pi零气象站。
127.QGIS的地质编辑器。
128.R语言包absmaps,可以从澳大利亚统计局下载地图数据的包。
129.因果推理与深度学习,MIT IAP 2018课程
Deep Learning and Causal Inference
130.Tigramite是用于因果发现的时间序列分析python模块。
131.针对没有编程经验的人的Python数据科学简介。
132.极简的,开源的在线粘贴框,其中服务器对粘贴的数据了解为零。数据在浏览器中使用256位AES进行加密/解密。
133.在我的GSR分配中包含我的数据和工作流程的存储库。
134.上海交通大学学位论文模板。
135.Python库geocoder,地理编码库。
136.UCSB的地理课程geog176A,地理信息系统导论。
137.社会科学计算课程站点(MACS-30500)。
138.数据可视化原理与实践,CS631春季2018课程。
139.区域不平等数据的portal门户。
140.在2020年2月25日的PHI useR Group会议上,有关使用flexdashboard R软件包创建管理报告的讨论幻灯片。可以在RPubs上查看幻灯片。
141.R语言包RTutor,创建交互式R问题集。自动提示和解决方案检查。(发光或RStudio)。
142.容器指标的类Top界面。
143.R语言包plspm,专用于度量和非度量数据的偏最小二乘路径建模(PLS-PM)分析。
144.R语言包workflowr,可帮助研究人员以促进有效的项目管理,可重复性,协作和结果共享的方式组织分析。
145.R语言包,开发有关古生物地理学的项目。
146.使用在线资源中的信息更新BibTeX文件。
147.Web开发方面的资源列表。
148.GeoLifeCLEF 2020数据。
149.Pandas中文教程
150.将Jupyter Notebook存成pdf。
151.该存储库包含PaulBürkner撰写的论文“Bayesian Item Response Modelling in R Using brms and Stan”的所有材料。
152.基于Markdown的简历。
地理大数据的快速发展极大地受益于城市地理学的定量研究。空间组装是从个人行为总结和感知地理环境的基本分析步骤。大多数研究都集中在如何利用大数据的方法论上,而采用的空间单位进行数据聚合本质上仍然是区域性的。本文从概念上提出了从街道角度感知城市的想法,强调了街道单位在定量城市研究中的重要性。利用一个为期三个月的出租车轨迹数据集和北京主要街道,我们探索了街道上城市流动性的时空格局,并根据街道的动态功能和容量将其分为九种类型。此外,我们讨论了线性街道单位与传统区域单位之间的区别和联系,调查了使用街道发现城市社区的可能性,并指出了街道的复杂性。我们得出的结论是,街道单位作为区域单位的补充,能够有效地减少可变面元问题(MAUP),感知城市动态,描绘城市功能以及理解城市结构。北大刘瑜老师团队的成果,分析街道尺度在城市研究中的重要性。结合了地理大数据与空间尺度问题,探究MAUP效应,兼顾当前热点的地理大数据与传统地理学问题,非常有意思的研究。
遥感数据的可用性不断提高,最近对执行森林清单的传统方式提出了挑战,并引起了对基于模型的推理的兴趣。像传统的基于设计的推理一样,基于模型的推理允许对总量和均值进行区域估计,但此外还可以进行森林特征的逐壁映射。最近,在许多国家已经开发了基于光检测和测距(LiDAR)的森林属性地图,由于其精确的森林资源空间表示,受到了用户的好评。但是,这种制图和基于模型的推理之间的对应关系很少被理解。在这项研究中,我们应用了基于层次模型的推理,以生成地上生物量图以及具有相同空间分辨率的相应预测不确定性图。此外,开发了区域水平的平均生物量估计值及其不确定性,以说明如何在基于模型的推断框架内将测绘和区域水平评估结合起来。通过基于模型的基于层次模型的估计的新版本(允许模型为非线性),我们考虑了单个树级生物量模型以及将样地级生物量预测与LiDAR指标链接的模型中的不确定性。在瑞典中南部一个5005 平方公里的大研究区中,预测的地上生物量在18 m x 18 m地图单位的水平上介于9到447 Mg ha-1之间。相应的均方根误差在10到162 Mg ha-1之间。对于整个研究区域,地上平均生物量为55 Mg ha-1 d,对应的相对均方根误差为8%。在此级别,均方误差的75%是由于与树级模型相关的不确定性所致。通过提出的方法,可以在基于模型的推理框架内链接制图和估计。无论是不确定性图还是总体估计值,都考虑了树级生物量模型以及将样地级生物量与LiDAR数据关联的模型中的不确定性。开发基于层次模型的推理以处理非线性模型是该研究的重要前提。一个LiDAR预测森林地上生物量,制图与不确定性研究的的研究,分析单木尺度以及LiDAR模型的误差以及讨论基于模型的推断研究,从摘要看感觉是个比较前沿的研究,不过目前没看到全文。
3.Real-time Route Recommendations for E-Taxies Leveraging GPS Trajectories/利用GPS轨迹的电动出租车实时路线建议
当前,电动汽车在推广中面临着巨大的挑战,即行驶距离短,充电时间长,充电站少,从而限制了其对出租车司机的接受度。利用大规模的出租车GPS轨迹数据,我们为电动出租车(ET)驾驶员提供了一种新颖的实时路线推荐系统。可以从原始GPS轨迹中了解出租车旅行知识,包括接客的可能性和目的地的分布。考虑到路由决策的级联效应,使用动作树对连续的ET动作进行建模。根据所学知识估计相应的预期净收入。开发了原型在线系统,用于提供路线建议,例如何时去充电站或在某些道路上航行。在深圳进行的一项实验表明,ET司机的平均每日净收入要好于汽油出租车司机的76.2%。提出的方法不仅在短期内增加了电动汽车司机的收入,而且从长远来看提高了电动汽车的生存能力。深圳大学李清泉老师和涂伟团队的成果,基于GPS轨迹分析电动出租车的时空轨迹从而协助规划出租车行驶路线,以增强电动汽车的高效行驶,可以说是一个非常具有实践意义的研究。
越来越多的研究发现,在人们的日常生活中忽视个人在非住宅环境中的暴露可能会导致对环境暴露的研究产生误导性的发现。此问题被认为是邻里平均影响问题(NEAP)。这项研究从NEAP的角度研究了种族隔离和暴露。以中国西宁为重点,比较了回族和汉族。使用2010年的人口普查数据和2013年收集的活动日志数据,研究发现,在检查种族暴露时存在NEAP。生活在高度混合的社区中(与其他族裔有较高接触)的受访者活动空间暴露较低,因为他们倾向于在自己居住的社区以外(种族隔离程度较高)以外的种族较少的地区进行日常活动。相比之下,居住在高度隔离的社区中(与其他族裔的接触率较低)的受访者往往在其家庭社区以外(隔离程度较低)的活动场所具有较高的接触率。因此,在评估环境暴露时,考虑到个人在非居住环境中的日常活动,很可能会导致总体趋向于平均暴露。使用Tobit模型,我们进一步发现特定类型的活动场所,尤其是工作场所和公园,对NEAP有所贡献。忽略人们活动场所中的个人暴露很可能会导致对环境暴露(包括种族暴露)的测量产生误导性的发现。关美宝老师团队的研究,分析邻里平均影响问题对于分析结果的影响,尽管在邻里单元中,人们的行为多少会有些趋同性,但是整体而言,由于人的时空行为复杂性,这种假设容易造成数据的误差,影响最后的分析结果。这是一个从时空行为角度出发,针对问题影响环境暴露的分析研究。
5.Spring Festival points the way to cleaner air in China/春节为中国提供更清洁的空气
中国春节期间的人口迁移是现代同类活动中规模最大的集体活动,涉及世界人口的十分之一和地球陆地面积的6%以上。节日导致空气污染物排放量下降,导致中国污染最严重地区的大气成分发生巨大变化。根据2005-2019年中国东部50个城市的卫星和现场测量结果,我们发现在SF周期间大气中的NO2污染下降了约40%,细颗粒物(PM2.5)下降了约30%,反映了前体排放控制对缓解二次PM2.5形成的有效性。但是,尽管在SF期间,中国东部地区的空气污染处于冬季最低水平,但无论从强度上还是规模上,它都远远超过了其他全球污染热点。这表明仅基于管道末端控制和行业升级的措施可能不足以满足空气质量目标。中国空气的进一步净化从根本上取决于行业升级和清洁能源转型的可持续发展。分析春节人口迁徙对中国空气污染的影响,如果结合到今年疫情影响下的数据比较,可能会有更多有意思的结论。
森林冠层截留降雨(RI)是森林生态系统中水文循环的重要过程。但是,准确预测RI是一个具有挑战性的话题。在这项研究中,定义了用于预测RI的无量纲描述符,树冠截留指数(CII)。陆地激光扫描用于估算四种温带森林类型的CII,包括红松(Pinus koraiensis)人工林(KPF)林分,落叶松(Larix spp。)人工林(LPF)林分,阔叶混交林(MBF)林分和蒙古栎(Quercus mongolica)森林(MOF)stands立。使用2017年和2018年雨季的测得RI值,对CII预测RI的性能进行了测试,并将其与其他几个指标(LAI:叶面积指数,PAI:植物面积指数和ACH:平均冠层高度)进行了比较。结果表明,四种森林类型(R2 = 0.79)以及单个森林类型(R2 = 0.55〜0.63)的CII与RI显着且强烈相关。更重要的是,其性能优于LAI(R2 = 0.33〜0.43),PAI(R2 = 0.40〜0.53)和ACH(R2 = 0.35)。所有这些结果表明,CII是准确预测RI的有效指标。还讨论了CII的潜在应用。LiDAR在森林水文和生态水文里的应用。
7.Fire decline in dry tropical ecosystems enhances decadal land carbon sink/干旱的热带生态系统的火灾减少增加了十年陆地碳汇
在过去的几十年中,陆地碳汇已经显着增加,但是其潜在机制仍不清楚。当前基于过程的陆地和海洋汇估计值的综合要求在过去十年中额外增加0.6 PgC yr-1的汇,以解释观测到的空气传播比例。与热带农业扩张和景观破碎化相关的全球火灾同时下降。在这里,我们表明,相对于2001-2007年,2008-2014年期间火灾排放量下降了0.2±0.1 PgC yr-1,这还归因于碳循环反馈,又使碳汇增加了0.4±0.2 PgC yr-1,相当于合并的汇增加额相当于0.6 PgC yr-1预算失衡。我们的结果表明,除直接排放外,火灾的间接影响是解释土地碳汇年代际规模变化的一种被忽视的机制,并强调了火灾管理在缓解气候变化中的重要性。在最近的历史中,陆地系统捕获的碳量增加了,但是驱动该过程的过程仍然受到严格的限制。在这里,作者使用全球碳模型来证明野火的减少导致过去几十年来陆地碳汇增加。NC上的一篇论文。全球碳模型分析证明了野火减少是过去几十年陆地碳增汇的重要因素。
8.Earth system data cubes unravel global multivariate dynamics/地球系统数据多维数据集揭示了全局多元动力学
根据持续的人类干预和依赖性来了解地球系统动力学仍然是一项重大的科学挑战。现在,描述地球不同方面的数据流空前的可用性从根本上为解决这一问题提供了新途径。但是,一些实际障碍,尤其是缺乏数据互操作性,限制了这些数据流的联合潜力。如今,地球系统科学内外的许多举措都在探索克服这些障碍并满足数据密集型研究不断增长的跨学科需求的新方法。使用数据立方体是一种有前途的途径。在这里,我们介绍了地球系统数据立方体的概念以及如何以正式方式对其进行操作。这个想法是,处理多个数据维度,例如空间,时间,变量,频率和其他网格,可以有效地应用用户定义的函数来共同解释地球观测和/或模型-数据集成。此概念的实现将具有分析功能的数据多维数据集与适当的分析接口结合在一起。在三个案例研究中,我们演示了该概念及其实现如何促进跨多个变量以及时空尺度进行研究的复杂工作流的执行:(1)生态系统和气候动力学的摘要统计; (2)在多个时间尺度上进行内在维数分析; (3)模型数据集成。我们讨论了用于研究观测或模拟数据中的全局相互作用和耦合现象的新兴观点。尤其是,我们看到了这种用于解释大规模模型集成的方法的新兴观点。可以在建议的框架中无缝实施机器学习,因果推理和模型-数据集成的最新发展,从而支持跨学科边界的数据密集型研究的快速进展。这篇论文提出了一个地球系统多维数据的一种理想结构,可以在当前复杂的时空大数据背景下进行复杂工作流计算。这个东西跟之前闾国年老师在做的地图代数整合矢量栅格数据从而重新提出一个新的数据结构的思路有相似之处。包括目前R和Python都见过类似的data cubes的数据结构,这将是未来coding和研究的重点。
背景:手足口病(HFMD)是一种常见的传染病,其传播机制仍然是研究人员的难题。可以将手足口病发病率的测量和预测结合起来以提高估计的准确性,并为探索手足口病流行的时空格局和决定因素提供新的视角。方法:在本研究中,我们收集了2008年5月至2009年3月山东省138个地区的每周HFMD发病率报告。将Kalman过滤器与地理加权回归(GWR)集成在一起以估计HFMD发病率。探索了时空变化特征并确定了潜在的风险区域,并定量评估了气象和社会经济因素对手足口病发病率的影响。结果:结果表明,与测得的发病率相比,按地区估计的HFMD发生率的平均误差协方差从0.3841降低到0.1846,表明总体而言,误差减少率提高了50%以上。此外,通过筛选处理确定了山东HFMD流行病的三个特定类别的潜在风险区域,分别在初始,局部和长期内出现明显的滤波振荡。在气象和社会经济因素中,人均医院病床数和温度分别被认为是影响手足口病发病率变化的主要决定因素。结论:通过将卡尔曼滤波器与GWR集成,可以大大提高HFMD发病率的估计准确性,并且该积分对于探索HFMD流行的时空模式和决定因素是有效的。我们的发现可能有助于在山东建立更准确的手足口病预防和控制策略。本研究表明了一种探索手足口病流行的时空模式和决定因素的新方法,它可以很容易地扩展到其他地区和其他类似手足口病的传染病。王劲峰老师团队的成果,利用卡尔曼滤波结合GWR对手足口病发病率进行估计。增改进了估计模型的准确性。卡尔曼滤波在空间流行病学的应用,这个与前一段时间Science上一篇对COVID19的建模研究有类似的思路,都采用了卡尔曼滤波。
背景技术大多数先前的研究在评估噪声暴露时都采用基于静态居所的方法,这可能会导致噪声与健康关系的估计暴露偏差和误导性发现。关于基于个人的时空行为及其对心理健康的影响的个人噪声暴露知之甚少。目的这项研究旨在基于个人的时空轨迹以非常精细的分辨率来分析和可视化个人在各种微环境中的噪声暴露,并进一步研究活动/旅行中心理健康与个人噪声暴露之间的关系。水平和全天水平。方法从2017年12月至2018年2月在中国北京的117位18-60岁的居民中,使用便携式噪声传感器和GPS追踪器收集个人水平的实时数据。描述性统计数据和地理可视化方法用于根据个人的时空行为,检查个人噪声暴露在不同活动类型,旅行方式下以及工作日和周末居住在同一住宅区中的居民之间的差异。应用逻辑回归模型检查个人噪音暴露与自我报告的心理健康之间的关系。结果我们观察到不同活动类型的个人噪音暴露存在显着差异。在室内,睡眠时的等效声级(Leq,dB(A))最低,而与工作有关的活动的平均Leq最高。在户外环境中进行活动的噪音暴露水平高于室内噪音水平,但在工作日和周末之间有所不同。与不同出行方式相关的噪声暴露也很明显,公共交通的平均Leq远远高于其他出行方式。在同一居民区中居住的每个居民在24小时内测得的A加权等效声压级(Leq,24h,dB(A))差异很大,范围从36到97 dB(A),大多数受访者在工作日和周末都暴露于55 dB(A)以上的噪声水平。关于噪声与健康的关系,建模结果表明,基于在24小时内(Leq,24h)测得的时空行为的个人水平的客观噪声暴露与居民自我报告的心理健康密切相关。较高的噪音暴露与精神健康恶化显着相关。然而,在工作日/活动情节水平(Leq)下的个人噪音暴露与工作日的心理健康没有显着相关,但是在周末模型中,这一联系被证明是重要的。结论与不同活动类型和出行方式相关的个人噪声暴露差异很大,并且一天中不同时段以及同一居住区居民之间的个人噪声暴露差异很大。个人暴露的变化在很大程度上取决于不同的时空行为和日常生活中所经历的个体特定的微环境,并且它们与心理健康显着相关。关美宝老师与柴彦威老师团队的联合研究,结合时空行为地理学分析个人的噪声暴露情况以及对心理健康的影响。大体结论算是可想而知,但是周末与工作日的差异还是一个比较有趣的结论。
在空间分布的连续顺序快照基础上的空间交互(例如在时间种群快照基础上的迁移流)可以反映空间演化过程的细节。在大数据时代,我们可以访问个人级别的数据,但是获取高质量的空间交互数据仍然是一个具有挑战性的问题。大多数研究都集中在可移动对象的分布或空间交互模式的建模上,很少尝试从空间分布的时间转换中识别隐藏的空间交互模式。在本文中,我们引入了一种方法,该方法通过结合线性规划和人类运动的空间约束,从空间人口分布的连续快照中推断空间相互作用模式。使用合成数据进行的实验在四个简单的场景下进行,以探索我们方法的特征。该方法被用于提取2016年春节期间的城市间移民流动。我们的研究证明了使用离散的多时空人口分布快照推断空间相互作用模式的可行性,并从快照数据中提供了一个通用的分析框架。空间交互模式。还是刘瑜老师团队的研究,发表在IJGIS上,利用快照来提取或者推断时空交互模式——城市间的人群流动。
本研究通过考虑人们的日常运动方式,研究了种族群体的时空分布对交通相关空气污染暴露差异的影响。由于人类的流动性,一个居民区不能完全代表人们经历种族隔离和不平等的空气污染暴露的真实地理环境。本研究使用包含个人活动地点和在每个地点花费的时间的旅行活动调查数据,测量个人在白天和晚上可能经历的隔离水平,通过整合每小时污染图和调查数据来估计个人暴露程度,并检查日间/夜间隔离与暴露水平之间的关联。还评估了每个活动地点与主要道路的接近程度,以进一步检查不平等的暴露程度。结果表明,人们在高交通区域的工作更加融合,这导致白天所有种族群体的暴露水平相似。但是,白人受益于居住在远离繁忙道路的郊区/郊区。调查结果表明,应建立有关建立广泛和公平的公共交通系统的政策,并与种族群体之间的居民混合政策一起执行,以减少所有人受到交通相关空气污染的影响并实现环境正义。关美宝老师团队的成果,分析种族群体对于个体环境暴露的差异,也是比较热的环境正义或者空间正义主题。
13.FaceLift: a transparent deep learning framework to beautify urban scenes/FaceLift:透明的深度学习框架,可美化城市场景
在计算机视觉领域,深度学习技术最近已用于预测城市场景是否可能被认为是美丽的:事实证明,这些技术能够做出准确的预测。但是,在生成可付诸实践的城市设计见解方面,它们却不足。为了支持城市干预,人们不仅需要预测美丽,还必须应对重建美丽的挑战。不幸的是,深度学习技术的设计并未考虑到这一挑战。考虑到它们的“黑盒子性质”,这些模型不能直接用来解释为什么特定的城市场景被认为是美丽的。为了部分解决此问题,我们提出了一个深度学习框架(我们将其命名为FaceLift1),该框架既可以美化现有的城市场景(Google街景地图),又可以解释哪些城市元素使这些转换后的场景变得美丽。要定量评估我们的框架,我们不能求助于任何现有指标(因为手头的研究问题从未得到解决),需要制定新的指标。理想情况下,这些新指标应反映出使城市空间变大的元素的存在(或不存在)。通过回顾城市规划文献,我们确定了五个主要指标:步行性,绿色空间,开放性,地标性和视觉复杂性。我们发现,在所有五个指标中,美化的场景都符合文献中关于如何构成巨大空间的期望。这项由20名参与者组成的专家调查进一步证实了这一结果,在该调查中,发现FaceLift可有效促进公民参与。所有这些都表明,在将来,随着我们对框架组件的进一步研究并变得更好和更复杂,不难想象能够在我们直观的空间设计中能够准确有效地支持建筑师和规划师的技术。爱。一个针对城市场景美化(城市规划角度)的街景地图深度学习框架。
14.L-function of geographical flows/地理流的L函数
地理流(以下称流)可以建模为由起点(O)和终点(D)组成的有序连接的点对。聚集是流的空间异质性的最常见形式,我们将其定义为流与完全空间随机性(CSR)的偏差,并且聚集规模是对其进行感知的重要指标。然而,量化流量的聚合规模仍然是一个未解决的问题。在本文中,我们提出了流动的L函数作为解决方案,推导了流动空间中K函数和L函数的理论空模型。我们进行模拟实验以验证L函数及其检测聚合规模的能力。最后,我们将该解决方案应用于北京出租车数据的案例研究,并确定了9种出租车OD流量的汇总规模,范围从170 m到22.1 km。这些比例尺分为三类:小于300 m,从600 m至700 m和大于1500 m。这些类别与发生主要流量簇的城市设施的大小有关,表明流量空间中的L函数可以检测建筑物规模,街区规模和区域规模的流量聚集规模。周成虎院士的团队,发表于IJGIS,提出了一个关于地理刘数据建模的L函数。空间分析的新理论。
15.Spatiotemporal evolution of global population aging from 1960 to 2017/1960年至2017年全球人口老龄化的时空演变
背景技术人口老龄化是一个日益严重的全球性问题。这一直对公共卫生政策和医疗资源分配构成挑战。全球不同地区的人口老龄化具有多种特征。方法所有数据均来自世界银行开放数据的健康数据。用分位数线性回归法巧妙地测量了全球老龄化率和老龄化人口的共同变化趋势和强度。利用贝叶斯时空层次模型(BSTHM)评估了全球195个国家和地区的老龄化率和人口老龄化的详细时空演变。结果六大洲的老龄化(65岁及以上)率的年增长率出现在欧洲(0.1532%),大洋洲(0.0873%),亚洲(0.0834%),南美(0.0723%),北美(0.0673%)和非洲(0.0069%)。全球老龄化率的变异系数从1960年的0.54增加到2017年的0.69。在此期间,全球老龄化率和老龄化人口增加,与他们的分位数呈正相关。欧洲的大多数国家(37/39)在老龄化率上都处于最高水平,其中包括老龄化程度最高的国家(瑞典,德国,奥地利,比利时和英国),其老龄化的空间相对风险为3.180 (3.113-3.214),3.071(3.018-3.122),2.951(2.903-3.001),2.932(2.880-2.984)和2.917(2.869-2.967)。在世界范围内,主要分布在非洲(26个地区)和亚洲(15个地区)的44个低衰老地区经历了衰老率下降的趋势。 195个地区的当地人口老龄化趋势有所增加。结论全球人口老龄化的差异日益严重。在全球范围内,所有195个地区的绝对老龄化趋势绝对值都在增加,尽管有44个低龄地区的当地老龄化率有所降低。统计结果可能为各国或地区尤其是欠发达地区制定公共卫生政策提供一些基准。结合贝叶斯时空层次模型的老龄化人口时空演变模型,老龄化社会的情景下,需要这样子的地图研究,不过这个研究目前是国家尺度,如果能做到栅格尺度,会更有意义。
16.Re-evaluating polycentric urban structure: A functional linkage perspective/重新评估多中心城市结构:功能联系的视角
多中心城市发展已成为全球城市学者,决策者和规划者的流行语。从现有的多中心城市研究来看,除了形态学术语外,功能性方法越来越受到学者的关注。研究了多中心城市系统(PUS)的(子)中心之间的功能联系。但是,(子)中心通常是由城市总体规划预先定义的,或者由密度划分方法确定的。但是,(子)中心的定义仍然取决于形态维度而不是功能链接。为了填补这些空白,我们提出了一种基于流量的解决方案来描绘功能性城市区域(FUR)。我们首先在广泛的旅行流程中建立了整个城市的空间嵌入网络,然后使用社区检测方法来揭示FUR。使用复杂的网络分析可以进一步评估整个PUS的特性和每个FUR的特性。根据上海的出租车轨迹,该研究表明,FUR的细分不一定与行政区划一致。在主要中心周围的(子)中心之间的功能链接很强,而在周边新建立的(子)中心之间的功能联系相对较弱。这些发现要求采取政策干预措施,以增强(子)中心的功能联系。叶信岳老师团队成果,发表于cities,多中心城市的结构分析,也是从流的角度来做的。
为了研究马里兰州华盛顿特区巴尔的摩市(巴尔什市)地区的CO2排放,作为FLAGG‐MD(马里兰州大气温室气体通量)项目的一部分,于2015年2月开展了一次飞机运动。在竞选期间,在市中心和当地发电厂的顺风处观察到了较高的二氧化碳摩尔分数。迎风飞行数据和HYSPLIT(混合单粒子拉格朗日综合轨迹)模型分析有助于说明Balt-Wash区域以外的排放影响。在电厂和城市中,都基于质量平衡法评估了二氧化碳排放量估算的准确性,准确性和敏感性。我们对两家当地发电厂的CO2排放量的估算与他们的CEMS(连续排放监测系统)记录非常吻合。对于飞机捕获的16个电厂烟柱,CO2排放的平均百分比差为-0.3%。对于整个Balt-Wash地区,任何基于飞机的质量平衡方法实验的1𝜎 CO2排放率不确定度均为±38%。处理质量平衡实验(在9天内重复进行7次)作为Balt-Wash CO2排放量的单独量化,估计不确定度为±16%(95%CL时平均值的标准误)。我们将基于飞机的估计值与各种自下而上的化石燃料二氧化碳(FFCO2)排放清单进行了比较。根据FLAGG-MD飞机的观测,我们估计2015年2月来自Balt-Wash地区的FFCO2为1.9±0.3 MtC。四个自下而上模型的FFCO2的平均估计值为2.2±0.3 MtC。Gurney团队的研究,利用飞机的二氧化碳监测数据与他们团队本身构建的FFCO2清单数据做对比,发表于JGR:Atmosphere。
18.Anthropogenic emission inventories in China: a review/中国人为排放清单:回顾
建立可靠的人为排放清单对于了解中国的空气污染源和设计有效的空气污染控制措施至关重要。但是,鉴于造成排放源的种类繁多,技术组合的复杂性以及缺乏可靠的测量方法,准确地量化中国的排放量具有挑战性。在过去的二十年中,为提高排放清单的准确性做出了巨大的努力,并且已经实现了重大改进。已使用更可靠的统计数据和基于调查的数据来减少活动率和技术分布的不确定性。已测量并报告了涵盖各种来源的当地排放因子和来源概况。基于这些本地数据库,已经为发电厂,大型工业工厂以及住宅,运输和农业部门开发了改进的排放清单模型。在本文中,我们回顾了中国在编制人为排放量清单方面所取得的进展。我们首先按源类别突出显示对排放清单模型和基础数据进行的主要更新。然后,我们总结了当前清单中包含的基于部门的不同物种排放量的估算。还介绍了在模型就绪型排放物的开发方面所取得的进展。最后,我们提出了进一步改善中国排放清单准确性的未来方向。清华贺克斌院士与张强老师团队的成果。一篇关于中国编制人为排放清单的综述。可以快速了解前沿领域。
为了控制2019年新型冠状病毒(COVID-19)的传播,中国在2020年1月春节后对其人口流动(封城)实施了全国性限制,导致经济活动和相关排放量大幅减少。然而,尽管一次污染的减少程度如此之大,但在COVID-19封城期间,华东地区还是有数次严重的霾霾污染时期,这引发了人们对人类活动与空气质量之间良好关系的质疑。在这里,使用综合的原位测量和化学迁移模型,我们显示了COVID封城期间的霾事件是由二次污染的增强驱动的。特别是,运输过程中NOx排放量的大量减少增加了臭氧和夜间NO3自由基的形成,而大气氧化能力的增加反过来又促进了无机和有机次级颗粒物的形成。我们通过COVID-19大流行的悲剧性自然实验提供的结果表明,减轻中国霾的污染可能取决于控制多种污染物的协调和平衡策略。关于之前污染事件新闻报道的一个研究证据,二次污染应该是疫情期间空气污染的主要源头。
20.SportsXR – Immersive Analytics in Sports/SportsXR-体育中的沉浸式分析
我们提出了对体育中沉浸式分析(IA)的主要挑战和潜力的初步调查,我们称之为SportsXR。 体育通常具有很高的动态性和协作性,这使得实时决策无处不在。 但是,对于运动员和教练实时做出知情且有远见的决定的支持有限。 SportsXR旨在支持态势感知,以便在运动中做出更好,更敏捷的决策。 在本文中,我们确定了SportsXR的主要挑战,包括数据收集,游戏内决策,特定于运动的可视化设计以及与领域专家的协作。 然后,我们在培训,教练和支持者体验中介绍潜在的用户场景。 本立场文件旨在为SportsXR的未来研究提供信息和启发。体育数据可视化分析,从配图来看主要是NBA的数据分析。
在美国COVID-19疫情爆发的前90天里,已报告了675,000多例确诊的疾病病例,给该国带来了空前的社会经济负担。由于对COVID-19的地理建模的研究不足,我们调查了整个美国大陆的县级疾病发病率变化。我们编辑了一个包含35个环境,社会经济,地形和人口统计学变量的地理数据库,这些变量可以解释疾病发病率的空间变异性。此外,我们采用了空间滞后和空间误差模型来研究空间依赖性,并使用地理加权回归(GWR)和多尺度GWR(MGWR)模型来局部检查空间非平稳性。结果表明,即使合并空间自相关可以显着改善全局普通最小二乘模型的性能,但与局部模型相比,这些模型的性能仍然很差。此外,相比其他方法,MGWR可以解释最高的变化(调整R2:68.1%)和最低的AICc。使用MGWR绘制重要的解释变量(即收入不平等,家庭收入中位数,黑人女性比例和护士执业比例)的影响对COVID-19发生率空间变异性的影响,可为决策者针对性干预提供有用的见解。一篇关于COVID-19的发病率空间分析,使用了GWR和MWGR两个模型进行分析,可以发现几个比较意外的影响因子(黑人女性比例)。
22.SpaceNet 6: Multi-Sensor All Weather Mapping Dataset/SpaceNet 6:多传感器所有天气映射数据集
在遥感领域内,存在着各种各样的获取方式,每种方式都有其独特的优点和缺点。然而,当前大多数文献和开放数据集仅以高空间分辨率处理用于不同检测和分割任务的电光(光学)数据。光学数据通常是地理空间应用程序的首选,但需要晴朗的天空和很少的云层才能正常工作。相反,合成孔径雷达(SAR)传感器具有在所有天气,白天和夜晚条件下都能穿透云层并进行收集的独特功能。因此,当天气和云层会阻碍传统的光学传感器时,SAR数据对于寻求灾难响应特别有用。尽管具有所有这些优点,但研究人员几乎没有公开数据来探索SAR在此类应用中的有效性,特别是在非常高的空间分辨率(即<1m地面采样距离(GSD))下。为了解决这个问题,我们提出了一个开放的多传感器全天候地图(MSAW)数据集和质询,它具有两种收集模式(SAR和光学两种)。数据集和挑战集中于使用这些数据源的组合进行地图绘制和建筑足迹提取。 MSAW在多个重叠的集合上覆盖了120 km ^ 2,并标注了超过48,000个独特的建筑足迹标签,从而能够创建和评估多模式数据的映射算法。我们提供了使用SAR数据进行建筑足迹提取的基准和基准,发现在光学数据上进行了预训练的最新分割模型,然后在SAR上进行了训练(F1分数为0.21)优于仅在SAR数据上进行训练的模型(F1分数为0.135)。一个不错的遥感数据集。
]]>之前在笔记本和阿里云上搭载了WSL数据科学环境,关于环境搭建的博文日志如下。本文记录一下使用过程中遇到的几个小问题。
用Ubuntu和RStudio Server搭建一个R语言的云平台
最近在处理全国公里级别的栅格数据,这类数据量比较大,我准备直接从移动硬盘里进行读取处理,然后就发现了一个小问题,WSL无法直接读取硬盘的地址。WSL可以直接读取电脑的本地磁盘,路径为/mnt/下面的各个盘符对应的文件夹。本身Linux系统操作移动硬盘也需要先进行挂载。这里就来讲解下如何在WSL下进行挂载。
首先我们先确定移动硬盘在电脑里显示为什么盘符,我这里是M盘。首先定位到/mnt文件夹新建一个对应的m文件夹。
|
|
下一步直接挂载硬盘,输入如下的命令。
|
|
这就大功搞成了,输入ls -l即可显示出硬盘文件夹内容。
不过后面如果要退出硬盘还需要执行如下命令,否则硬盘会一直被占用。
|
|
第二个问题是关于在RStudio Server上绘图是数字无法显示。
查询谷歌结果,发现是字体以及账户权限的问题。按照如下命令操作问题解决。打开一个终端。
|
|
运行完毕,完美解决。
注,最好重启RStudio Server。
最近刚好有一个云平台多人协作的需求,因此在阿里云的Rstudio Server上进行设置。只需要按照如下命令设置即可。groupname和username自行设计。
|
|
如果后续想删除用户组和用户,按照如下命令设置即可。
|
|
参考链接:
Windows Subsystem for Linux (WSL)挂载移动硬盘U盘
HowTo: Fix Pango-WARNING: failed to create cairo scaled font
]]>今天带来一篇承诺虾神的R语言可视化博客。关于voronoi treemap的可视化。
感谢虾神,刀爷和魄爷实名出镜。
事实上这是刀爷看到澎湃美数课发的一篇推送文章其中一张图产生的疑问,感兴趣的可以点击原文。
刀爷问的是如何实现上图的可视化,这就是任务布置的由来。
事实上这个可视化方式我曾经在我博客的资源整理系列介绍过,分别是该系列的第二十篇和第二十一篇,因此我很迅速找到了可以实现的开源代码库,链接在下面。
这个可视化方式英文为voronoi treemap。事实上是voronoi图与矩形树图两种可视化方式的结合。GIS的同学比较熟悉voronoi图,这个图就是泰森多边形。矩形树图即为下图的形式,可以说是一种复合可视化。
我博客里介绍的实现方式有两种,但是这两种方式事实上都是基于d3这个javascript可视化大杀器做的。一个直接用javascript编程实现,另一个则是有人封装成了R包可以直接调用。由于我比较熟悉R语言,所以这里就以R语言实现可视化进行介绍。当然除此之外github上也有不少其他方式实现的,感兴趣的同学可以直接在github上搜索voronoi treemap。
所有R语言可视化的第一步,装包。
如果不想用最新版,可以直接在cran上装,使用如下的命令。
|
|
如果想用最新版,则需要使用devtools安装。
|
|
接下来第二步,跑hello world。这个R包提供了两个样例数据,一个是ExampleGDP,另一个是canada。然后这个R包开发是为了开发R语言的Shiny应用做准备。Shiny是R语言中的web开发包,可以通过R语言实现一个web应用。这因此这个包内置了一个简单的Shiny app。所以首先先用这个来跑hello world。
|
|
当然执行如上的命令以后,浏览器会自动打开页面。
接下来只要在下拉框里选择对应的下拉框选项,即可显示可视化结果。
可以在本地浏览器简单进行交互了。当然这是简单的hello world探索,下一步我们讨论如何使用自己的数据来实现可视化。首先来查看数据结构以及相关函数。这里的数据结构以ExampleGDP为例。
这个包的主要函数包括以下几个。
|
|
第一个函数是将数据框转换作为Voronoitreemap的输入,第二个函数是将输入函数输出为json文件,也就是d3库可以读取与可视化的数据。第三个函数是创建html的widget。第四个函数就是创建一个shiny app。这个包对输入的数据框有具体的要求,必须是特定格式的数据框(也就是与ExampleGDP的数据组织必须完全一样)。满足以下要求:
我们以中国大陆区域的疫情数据做测试。h1就是China,h2为东中西部省份,h3为大陆地区31个省级行政区,weight为确诊病例数据的全国占比。这里以约翰霍普金斯大学的数据做示例进行处理。
首先是读取约翰霍普金斯大学的相关数据,可以直接读取github上的csv文件。然后提取出大陆地区31个省级行政区,然后做数据类型转换等前期处理,最后得到一个这样子的数据框。
最后将数据转换为json并可视化即可。
|
|
由于湖北省数据较多,其他省份数据不够显著。单纯按照东中西的分类不是很准确,这里选择排除疫情暴发源地省份的湖北省再进行可视化,结果如图。
可以发现东部和中部省份相比于西部有更多的确诊病例。这个结果也比较好解释,中部与武汉的联系较为紧密,主要是空间距离上相近。而东部则是中国经济发达区域,可以描述为经济距离近。
这部分的代码,这里就放一个截图,如果想要代码文件的,可以与我邮件联系。或者关注我的github,我后续会将代码放到上面。
]]>昨天刚好有位同学来咨询R语言里计算相关系数的一些问题,所以来谈谈关于缺失值的相关系数分析问题,主要是在R语言中如何处理含缺失值数据的相关系数分析。
相关分析可以说是数据分析以及探索性分析的基础。一般拿到手的数据,起手先来一波相关分析。同学遇上的问题如下:类似如下的数据。这里的数据是我利用随机分布随机造出来的,跟我同学的数据的一些基础分布特征是相似的。其实关键就是第四列数据有缺失数据。
然后在计算具体的相关系数时发现了一些问题。
可以清楚地看到在只计算b和c的相关系数的情况下,相关系数与p值分别为0.24和0.13,但当b,c和d都参与运算的情况下,相关系数和p值就变成了0.19和0.24。造成差别的原因是什么呢?
经过检查,关键在于use的参数的选择。use可以设置的参数主要包括pairwise,complete,complete.obs,pairwise.complete.obs,everything等。这里分别来看具体的含义。事实上这些都是针对相关系数公式里的协方差计算的设置。
由于前面提到这是针对协方差的计算,所以可以再查看R里面计算协方差的函数——cov的帮助文档协助理解。这是原文。
If use is “everything”, NAs will propagate conceptually, i.e., a resulting value will be NA whenever one of its contributing observations is NA. If use is “all.obs”, then the presence of missing observations will produce an error. If use is “complete.obs” then missing values are handled by casewise deletion (and if there are no complete cases, that gives an error). “na.or.complete” is the same unless there are no complete cases, that gives NA. Finally, if use has the value “pairwise.complete.obs” then the correlation or covariance between each pair of variables is computed using all complete pairs of observations on those variables. This can result in covariance or correlation matrices which are not positive semi-definite, as well as NA entries if there are no complete pairs for that pair of variables. For cov and var, “pairwise.complete.obs” only works with the “pearson” method. Note that (the equivalent of) var(double(0), use = *) gives NA for use = “everything” and “na.or.complete”, and gives an error in the other cases.
整体说起来还是比较抽象。往下我们可以通过一些简单的R语言计算来进行协助理解。当然这个案例并非我独创,我在谷歌上做了相关搜索,发现了一个关于描述这个相关系数计算处理缺失值非常不错的网页。我相当于是翻译+搬运工。
网页标题为“Pairwise-complete correlation considered dangerous”,翻译过来就是成对完全相关分析可能造成一些错误结果,作者为B. W. Lewis。
这个案例首先构造了一个数据。3列 x 5行的矩阵,其中第三列的第一行和第二行矩阵元素是缺失值NA。
|
|
接下来我们分别用不同use的参数设置来查看结果。这里作者原文使用cor函数,但是我们前面的案例是使用pysch的corr.test函数,这里就还是采用这个函数进行对应计算。而由于corr.test()对矩阵的计算似乎不是很友好,我们做个类型转换,将矩阵转为数据框,也就是R语言的data.frame。
|
|
use等于everything时候的输出结果。所谓的传播就是,含有NA的第三列与第一列和第二列的相关系数只能为NA,只要数据有NA就无法计算像相关系数。
use等于pairwise时候的输出结果,可以发现a和b的相关系数为0,a,b和c的相关系数为1。那么我们来解析下具体的计算。
相关系数的公式如下,然后可以计算下5个样本下的协方差和并且绘制散点图。
$$r=\frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}}$$
|
|
协方差为0,所以相关系数为0。这就得到结果了。
pairwise计算的方式如下:由于a和b是没有任何缺失值,5个值可以完全配对,所以在计算的时候a和b的相关系数是基于这5对数据计算,而对于a和c以及b和c的相关系数计算,由于c有缺失数据,可以完全配对的数据仅有三对,仅仅基于这三对配对样本计算相关系数。这样子对应计算出来的相关系数就是1了,因为这些数据完全一致。因此就像Lewis先生说的一样,由于在计算相关系数的时候,样本不统一(在本案例中a和b的相关系数计算是5对配对样本,a和c以及b和c的相关系数计算是3对配对样本),事实上这样计算的相关系数不具备可比性,也可能混淆原来数据的关系。
现在我们再来看complete.obs,可以发现这是a,b,c的相关系数全为1。这是怎么计算出来的呢?根据对数据的观察可以发现,矩阵数据的第三到第五行的每一列数据都是相同的。
complete.obs的计算方式:由于c有缺失数据,在计算前必须去除掉所有NA的行,也就是去除掉第一行和第二行的所有数据再进行相关系数的计算。这样子所有a,b,c三个变量都仅有3个数据。而且是全部一致的变量。因此这就是完美的完全相关(r=1)。
至于pairwise.complete.obs结果与pairwise是一样的结果,我目前没有发现太大的差别。
因此正如Lewis先生说的,有时候完全匹配样本的分析反而容易造成对数据的曲解。当然最好的方式是获取更多的观测样本。
最后回到同学的数据,为什么只针对b和c做相关分析的结果与针对b,c,d做相关分析的时候,b和c的相关系数有差异呢?
我们可以看到存在差异的语句是由于使用了complete.obs,因为complete.obs会删除NA数据,当仅针对b和c做相关分析的时候,不存在NA数据,所有是针对所有41个数据计算得到的相关系数。而由于d存在NA数据,在对b,c和d做相关分析的时候,必须删除那一列,所以b,c和d都是仅剩下40个数据计算得到的相关系数。所有有差异是可以理解的。而当采用pairwise的时候,即使有NA数据存在,b和c的相关系数计算也不会因为有NA而去除掉b和c对应的那行数据,所有前后样本数据量一致,相关系数自然不会有变化。
另一个角度反应出来,d那一行的数据对这三个变量的数学关系影响还是比较大的,因为有些情况随机模拟出来的数据,也不一定会有明显的相关系数差异。因此针对缺失值如何处理还是要根据数据具体情况而言。由于我之前通常在相关分析前就去除了NA值,所以我也没遇到过这个情况。这其实是非常有意思的统计分析诊断。
相同数据,不同use方法的相关系数矩阵可视化。
本文使用的代码,我会放到我应用统计学与R语言实现笔记的开源github仓库上,有兴趣的同学欢迎自行下载。
Note-of-Applied-Statistics-with-R
参考链接:
]]>今天来介绍葵花8号卫星数据以及下载流程。
JMA于2015年7月7日开始运营Himawari-8,以取代MTSAT-2(也称为Himawari-7)。 Himawari-9号卫星于2017年3月10日开始后备运行。两颗卫星都位于向东约140.7度的轨道上,并将观测东亚和西太平洋区域15年。 源自Himawari-8 / 9的所有图像均通过Internet云服务分发到NMHS。 JMA进一步启动了HimawariCast服务,该服务通过通信卫星将主要图像集分发给NMHS(谷歌翻译真好用)。——摘自葵花8号卫星官网
下面是几个相关网站。
JAXA Himawari Monitor User gudie
JAXA Himawari Monitor P-Tree System
下面开始介绍数据下载过程。首先点击上面部分的P-Tree System网站,即下面的网站。
JAXA Himawari Monitor P-Tree System
首先第一步,注册用户,点击右上角按钮即可。
点击完以后调转页面如下。
该页面就是关于如何申请账户,数据的使用要求以及账户申请流程的说明。
第一部分是账户申请要求。
简单概括就是这个页面是JMA提供向日葵标准数据以及多卫星产品的的网站。可以使用的数据可以见如下网址。
有什么问题可以联系官方邮箱Z-PTREE@ml.jaxa.jp。
第二部分是数据使用要求。
第一,本网站提供数据必须是非盈利目的,比如研究和教育,如果有商业级运用请联系Japan Meteorological Business Support Center。第二,你不能把数据分发给第三方,如果研究成果要公开,请先联系P-Tree Secretariat(就是上面的官方邮箱)。第三,自2015年3月20日起提供存储的卫星观测数据,并且在观测后5至20分钟即可获取Himawari标准数据的实时数据。 但是JMA无法保证2015年7月7日02UTC之前Himawari-8数据的质量。第四,您可以近实时下载Himawari标准数据和JAXA的Himawari地球物理参数数据,并由同一用户帐户存储。第五,在使用数据之前,请阅读并同意“使用条款”,包括对个人信息的保护和对个人信息的处理。
其实往下就是数据说明文档以及各类注册网站常见的我同意什么条款里,在看完条款以后,直接打钩,然后在下面的方框里填入你的邮箱地址。然后点击Request即可。
第三部分是账户申请流程。
第一,在下面的表格中输入您的邮箱。第二,暂时接受的电子邮件将从P-Tree秘书处发到你的邮箱。第三,根据邮件中写的内容,转到用户信息输入表。第四,请求完成后,将从P-Tree秘书处发送申请人完成邮件。第五,在检查完你描述的应用之后,JMA将设置你对Himawari数据的访问权限。 可以下载Himawari数据时,JMA会发邮件通知。 可能需要几天的时间。第六,如果你没有收到任何回复,请联系P-Tree秘书处。
所以其实填完邮箱之后,邮箱里会收到一封邮件(内容如下)。里面有个链接。
点开链接以后,就是如下页面。
从上往下依次是姓名,邮箱,单位类型,单位名字(不需用简称),国家,数据使用类别,感兴趣的领域。填完点Confrim即可。接下来就是等JMA审核了。我大约是18年申请的账户。当时几乎是瞬间就通过了申请。收到的完成邮件如下。
这里也说明了你如何登陆账户下载数据。一种使用免费的FTP软件(如FileZilla),另一种方式是通过浏览器访问。具体的登录方式就是邮件里说明了。第一种需要根据站点网址,填入账户和密码登陆FTP服务器下载数据,另一种则直接在网址上下载数据。这里均展示下。
我这里用的是FileZilla软件。需要的同学可以在官网下载,开源软件。另外之前介绍MODIS数据下载时,我也有FlashFXP软件。如果你懒得下载,也可以留邮箱在评论区,我会发送给你。打开软件以后,点击“文件”→“站点管理器”。
然后点击新站点。
接着根据邮件填配置。
主要填主机名,用户和密码(邮件里有)。最后点连接就行。
右侧即显示葵花8号卫星存档数据。
两个txt是数据说明。以JMA文件夹数据为例,具体含义我就不说了,请各位自行查阅,双击进去以后,内容如下。根据你的需求下载两种格式数据(netcdf和hsd)。我主要是用netcdf格式数据。再双击进去以后,就可以看到从2015年7月开始每月的数据集了。根据你需要的时间节点选取数据。假定我们选定今年1月31日的数据。就最后几人入到最后那张图的文件路径下既可看到当天所有数据。具体命名规则可以见jma文件夹下的txt。再往下只需要拖拽数据到FTP软件左侧的本地路径既可。
如果你在浏览器打开网址的话,应该是这样子的。接下去的操作跟上面差不多,不再赘述。
后续的数据处理等有机会再来介绍,先放一张图展示。
]]>1.城市模拟综合。
2.基于 bookdown 的 ElegantBook。
3.R语言包lifecycle,生命周期提供了一组工具和约定来管理导出功能的生命周期。
4.学习GitHub注册的基础知识,进行首次回购,上传文档/文件,分支,合并和拉取请求均在.ppt文档中进行了讨论
lunch and learn GitHub Basics ppt
5.这是MSU的PLP 847小组项目,由Greg Bonito教授。团队成员包括:Melini Jayawardana Austin McCoy Mitch Roth丽贝卡·谢伊。
6.弯嘴滨鹬和红颈滨鹬的迁徙方式和后果。
7.R语言包varstan,Varstan是一个使用哈密顿蒙特卡洛方法对结构化时间序列模型进行贝叶斯估计的软件包,该方法由Stan(一种C ++的概率语言模型)实现。
8.这是一个客户端库,可用于检测Python应用程序的分布式跟踪收集,并将这些跟踪发送到Jaeger。有关更多详细信息,请参见OpenTracing Python API。
9.用于基于Envoy Prox的微服务的开源Kubernetes原生API网关。
10.适用于macOS,Windows,Linux和(即将推出)Android的下一代Brave浏览器。
11.命令行的笔记工具包。
12.Joplin-具有Windows,macOS,Linux,Android和iOS同步功能的开源笔记记录和待办事项应用程序与论坛。
13.R语言包openlayers,Openlayers的R接口。
14.Jitsi Meet-安全,简单和可扩展的视频会议,您可以将其用作独立应用程序或嵌入到Web应用程序中。
15.简单,安全的bash DSL框架,用于编写shell脚本。
16.Javascript的Mongodb查询语言实现。
17.动物追踪(以前称为AATAMS)。
18.跨多个R进程共享R对象,而无需内存重复。
19.使用xarray和dask在Amazon S3(us-west-2区域)上公开可用的CESM LENS数据的分析示例。
20.R语言包rdeck,R的Deck.gl微件。
21.迈克尔·萨姆纳(Michael Sumner)给R multiverse的情书。
22.使用Sentinel-2时间序列数据的旧金山湾地区的物候指标。
23.Bash自动测试系统。
24.Binder上的VS code。
25.挖掘整个北美地区的潜在建模工作。
North America tillage potential
26.R语言包sdm,在R里面拟合简单的最大熵模型。
27.普查GIS。
28.用于分析全球环境数据的时空多分辨率近似。
29.R语言包officedown,officedown正在将某些office的功能加入R markdown文档中。
30.几篇梯度反演论文的代码。
31.轻型协方差矩阵适应进化策略(CMA-ES)的实现。
32.分布式高性能监控系统。
33.使用caret包进行分类的R研讨会。
34.d3的模块d3 interpolate,提供了多种插值方法,用于在两个值之间进行混合。值可以是数字,颜色,字符串,数组,甚至是深度嵌套的对象。
35.基于克里金插值算法,根据离散点位置及其权重,生成等值面矢量数据(GeoJSON格式)和栅格数据(Canvas绘制图片),这些数据在任何WebGIS客户端上都可通用展示。
36.使用Firebase对shiny的用户进行身份验证。
37.源代码改编自:How to Make a Twitter Bot in Python With Tweepy。
38.通过Python而非默认的Matlab接口运行Ice Sheet System Model(ISSM)的实验代码。
39.Python库tweepy,Twitter的Python API包。
40.R语言包leaflet.extras2,leaflet.extras2软件包的目标是使用各种Leaflet插件为Leaflet和leaflet.extras R软件包提供额外的功能。
41.R语言包unmarked,用于生态研究的多层次/多水平模型的R包。
42.使用Google Earth Engine映射淹没动态的Python软件包。
43.基于LiDAR的数字高程模型(DEM)的地形和水文分析。
44.使用Svelte构建的Markdown编辑器组件。
45.适用于Python的具体语法树解析器和序列化程序库。
46.缅甸Tanintharyi的Google Earth Engine土地分类代码。
47.一个新的系统,用于同行评审统计软件。
48.R语言包eixport,将排放输出到大气化学模型。
49.R语言包icon,使添加Web图标到报告,演示文稿和应用程序变得容易。
50.SwarmPackagePy是一个群体优化算法库。它包含14种优化算法,每种算法都可用于解决特定的优化问题。您可以在下面找到它们操作的原理和伪代码。
51.使用Google Earth Engine和ipyleaflet实现交互式地图的Python包。
用于与Google Earth Engine,ipyleaflet和ipywidgets实现交互式地图的Python程序包
52.MapSCII是适用于您的控制台的盲文和ASCII世界地图渲染器-在Mac和Linux上输入=> telnet mapscii.me <=,在Windows上连接PuTTY。
53.Excalidraw是一种白板工具,可让您轻松地绘制带有手绘感觉的图表。
54.Plots.jl的文档。
55.R语言包Learndrake,有关Drake R软件包的免费在线短期课程。通过基于Web的指导动手练习,您将逐步建立一个由Drake驱动的机器学习项目,并练习Drake的基础知识。如果您在过程中遇到麻烦或有疑问,请在https://github.com/wlandau/learndrake上发布问题以寻求帮助。
56.该仓库收集了大约4个小时的研讨会的资料,该研讨会最初在哥本哈根celebRation2020上讲授。
57.CSV到数据库命令行加载器。
58.最后推荐一个自己整理的COVID-19资源列表的仓库,最近有涉及到COVID-19的相关内容我都会放到这个github仓库上。
了解出租车司机的停留活动对于规划和管理某些城市设施至关重要。本研究使用在中国武汉收集的出租车GPS轨迹数据集来分析出租车司机的停留行为。通过从数据集中提取出租车司机的停留活动,我们可以在交通分析小区(TAZ)的水平上测量活动频率,并检查其时空动态。然后,我们导出几个构建的环境指标,并使用普通最小二乘回归(OLS)和地理加权回归(GWR)模型评估它们与这些活动的关联。根据结果,在TAZ上的停留频率急剧下降,这表明这些活动倾向于集中在城市的特定区域。等级大小和幂律分布所反映的衰减速率在工作日和周末相似。在平日和周末的同一时期,出租车司机的住宿活动表现出相似的空间格局。 OLS的调整后R平方在工作日为0.742,周末为0.676,这表明住宿活动与室内环境特征之间存在密切关系。 GWR模型进一步揭示了整个研究区域内活动与环境之间联系的空间变化。该研究提供了有用的见解,可为将来的城市设计和交通规划提供支持。关美宝老师团队的成果,在TAZ上利用出租车GPS轨迹分析出租车司机的停留活动,基于OLS和GWR分析了时空行为与建成环境的关系。非常不错的时空行为研究。
农业用地的一氧化二氮(N2O)排放是年度温室气体(GHG)年度总预算的重要组成部分。此外,与农业N2O排放相关的不确定性很大。这项工作的目标是(i)量化由点和景观尺度上的模型输入不确定性(即分辨率)引起的模拟N2O排放的不确定性,以及(ii)识别这两个尺度上输入不确定性的主要来源。对于荷兰西部芬草甸草地景观,我们使用INITIATOR模型进行了蒙特卡洛不确定性传播分析。蒙特卡洛分析使用了新颖而先进的方法来估计和模拟连续数值和分类输入变量,处理空间和互相关以及分析空间聚集效应。不确定数字输入的空间自相关和互相关在空间上是可变的,由共分区线性模型表示。贝叶斯最大熵被用来量化空间变量分类模型输入的不确定性。随机敏感性分析用于分析点和景观尺度上不确定输入组对N2O排放不确定性的贡献。相对不确定度为52%。在点规模上,相对误差平均为78%,这表明放大可降低不确定性。在点规模上,土壤投入以及反硝化和硝化投入是N2O排放不确定性的主要来源。在景观尺度上,土壤输入的不确定性平均,而反硝化和硝化输入的不确定性是不确定性的主要来源。部分原因是假定这些投入在土壤类型和土地使用相同的地区之间是恒定的,这可能不太现实。需要在景观尺度上进行实验,以评估这些部分的空间变异性,并分析更真实的表示方式如何影响景观尺度上的不确定性预算。这项研究证实,不确定性分析的结果通常与标度有关,并且一个标度的结果不能直接外推至其他标度。针对农田的N2O排放的不确定性传播分析,利用蒙特卡洛方法,分析从样地尺度和景观尺度上的不确定性。尺度效应的不确定性分析研究,很有价值的研究。
长期以来,估计空气污染暴露一直是环境健康研究人员的挑战。技术的进步和新颖的机器学习方法使我们能够扩大暴露模型的地理范围和准确性,使其成为进行健康研究和确定污染热点的宝贵工具。在这里,我们使用集成的机器学习方法(结合了卫星气溶胶光学深度(AOD),土地利用和气象数据)创建了大伦敦地区2005年1月1日尺度PM2.5的预测模型。在3960个网格单元上以1 km×1 km的比例进行了预测。该集合包括来自三个不同机器方法的预测:随机森林(RF),梯度提升机器(GBM)和k最近邻(KNN)方法。我们的集成模型表现很好,十倍交叉验证的R2为0.828。在这三个机器学习器中,随机森林的性能优于GBM和KNN。我们的模型特别擅长于预测PM2.5水平的每日变化,而样本外时间R2为0.882。但是,其预测空间变异性的能力较弱,R2为0.396。我们认为这是由于该地区污染物水平的空间变化较小。几种集成的机器学习方法用于PM2.5的研究,分析了时空分异性预测能力,时间分异性预测能力较好,而空间分异性预测能力弱。在机器学习的基础上,分析出了可能的误差来源。
自1979年引入中国以来,入侵墨西哥互花米草(S. alterniflora)是美国墨西哥湾的一种原生河岸物种,已导致生态系统和生物多样性的严重退化以及经济损失。提供了在大范围和长时间内监测互花米草的独特功能,存在三个主要障碍:(1)在互花米草所占的沿海地区,频繁的云层覆盖减少了可用图像的数量; (2)由于语义变化,互花米草中存在明显的光谱变化; (3)互花米草及其共生原生种之间的光谱可分离性很差,经常出现在互花米草入侵的地区。为阐明这些问题,我们提出了一种新的基于Google Earth Engine数据实现基于像素的物候特征复合方法(Ppf-CM )。 Ppf-CM方法被集思广益,以克服上述三个障碍,因为提取语义特征的基本单位是用单个像素代替整个图像场景。以Ppf-CM衍生的物候特征作为输入,我们进一步研究了最新的深度学习方法与常规支持向量机(SVM)的性能;最后,我们努力了解1995年至2017年间互花米草如何改变其在中国北部湾的空间分布。结果,我们发现(1)发达的Ppf-CM方法可以减轻语音变化并增强频谱互花米草和背景物种之间的可分离性,无论研究区域中的云量是否很大; (2)与SVM相比,深度学习在整合Ppf-CM方法产生的新物候特征方面显示出更好的潜力; (3)我们首次发现1996-2001年间发生了互花米草侵袭暴发。来自葛咏老师团队的研究,发表在遥感领域Top期刊Remote Sensing of Environment上,结合GEE数据和深度学习方法做互花米草的光谱物候监测,算是很新颖的研究思路,物候遥感上很不错的应用研究。
]]>1.图灵方式的主机存储库:如何引导一个可重复的数据科学项目。
2.COVID-19新型冠状病毒的样本数据处理(R语言)。
3.野火极端事件的时空模拟。
4.sqlite3的egg插件。
5.我们为自然语言理解(NLU)和生成(NLG)任务开发预先训练的模型。
6.LaTeX 编译环境配置:Visual Studio Code 配置简介。
7.谷歌大脑自动机器学习。
8.下一代无服务器计算。
9.Manim是一个解释数学视频的动画引擎。它被用来以编程方式创建精确的动画,就像在3Blue1Brown的视频中看到的那样。
10.正式提交的“Joint 3D Tracking and Forecasting with Graph Neural Network and Diversity Sampling”PyTorch实现。
11.CVPR会议2020论文”Rotate-and-Render: Unsupervised Photorealistic Face Rotation from Single-View Images”的代码。
12.瑞士COVID19案例数据。
13.R语言包phyloregion,生物地理区划和空间保护的R包。
14.哔哩哔哩用户爬虫。
15.在任天堂Switch的iOS应用程序中使用的反向工程的REST API。
16.“reviewdog”通过与任何linter工具轻松集成,提供了一种自动向代码托管服务(如GitHub)发布评论的方法。
17.R语言包spotifyr,Spotify网络API的封装。
18.这是使用WASM在浏览器中执行复杂空间操作(多边形聚合中的点)的概念证明。在我的笔记本电脑上,我可以在21秒内将1300万个点聚合成大约38,000个多边形(结果可能会有所不同,或者快或者慢,取决于您使用的硬件)。
19.:仿生生物的生物多样性管理系统。
20.Google Earth Engine的开放清单库。
21.约翰霍普金斯大学时间序列数据的分析。
22.韩国首尔分析COVID-19的其他代码。
23.使用blender进行地理设计。
24.2020-02-26 Git协作培训。
25.用于环境监测的操作辐射校正框架。
26.BrowserFS是一个浏览器内文件系统,它模拟节点JS文件系统应用编程接口,并支持从各种后端存储和检索文件。
27.R语言包rmdtemplates,将附加模板安装到RStudio。
28.git命令的简单终端用户界面。
29.学习数据驱动的偏微分方程离散化。
30.Claus Wilke’s数据可视化书的附录材料。
31.gRPC是可以在任何地方运行的现代,开源,高性能的远程过程调用(RPC)框架。
32.“即时分享:如何通过R Markdown在线获取您的教学材料”网络会议材料。
33.迈阿密InSAR时间序列软件。
34.Lovefield是一个网络应用的关系数据库。用JavaScript编写,跨浏览器工作。提供快速、安全且易于使用的类似于SQL的API。
35.R语言包waffle,方形饼图(又名华夫饼干图)可用于传达分类数量的整体部分。
36.哔哩哔哩-API收集整理。
37.培训材料:如何以及为什么要制作研究概要。
38.R语言包rGEDI,NASA的全球生态系统动力学研究(GEDI)数据可视化和处理。
39.Godot,多平台2D和3D游戏引擎。
40.易于使用的博客平台,增强了对Jupyter笔记本的支持。
41.孟加拉国研讨会CTCN 2020培训材料。
42.深度学习模型中预测不确定性估计基线方法的文献调查、论文综述、实验和实现。
43.R语言包gtfs2gps,将GTFS数据转换成类似GPS的记录。
44.用于’Deforestation spillovers from oil palm sustainability certification’论文分析的项目。
地统计插值方法已在各种学科中使用,例如环境科学,生态学和水文学。 随着区域空间数据可用性的提高,区域间和区域间插值具有巨大的应用潜力。 在这项研究中,基于Goovaerts(2008)提出的变异函数去卷积算法,在R环境中开发了一个开源的区域到区域克里金软件包atakrig。 在atakrig中,可以自动从空间区域样本中对点标度变异函数和交叉变异函数进行反卷积。 它为区域到区域和区域到点的普通克里金法和共同克里金法提供了一个通用框架。 两个应用表明,该软件包在河流径流预测和遥感气溶胶光学深度缺失数据插值中效果很好。 该软件包可以部署在不同的操作系统和计算机硬件平台上。面到点克里金插值算法是地统计与空间统计上非常重要的一个研究分支,这里提供了一个R包实现,非常不错的方法研究。
经过统计缩减和偏差校正的四个全球气候模型(GFDL-ESM2M,HadGEM2-ES,IPSL-CM5A-LR和MIROC5)的输出用于驱动四个水文模型(HydrologiskaByråns,HBV,土壤和水评估)工具,SWAT;土壤和水综合模型,SWIM;可变渗透能力,VIC)来模拟1861年至2299年长江上游寸潭水文站的日排放量。因为水文模型在各种气候条件下的性能不同的是,首先在1979年至1990年期间对模型进行了校准。然后,在1967年至1978年相对潮湿的时期以及1991年至2002年相对干旱的时期对模型进行了验证。应用了单变量搜索技术的多目标自动校准程序,以找到四个水文模型中每个模型的最佳参数集。参数化过程的目标函数包括日排放量的纳什-苏特克利夫效率(NSE)和极端排放事件的加权最小二乘函数(WLS),以高流量(Q10)和低流量(Q90)表示。此外,将模拟的蒸散量结果与长江上游流域的GLEAM蒸散量数据进行了比较。为了评估水文模型的性能,使用了NSE,改进的Kling-Gupta效率(KGE),均方根误差与测量数据的标准偏差之比(RSR)和Pearson相关系数(r) 。四种水文模型在校准和验证期间均达到令人满意的模拟结果。在这项研究中,模拟了长江上游地区在工业化前控制(piControl)情景下的日排放量,该情景在1861年至2299年之间没有人为气候变化,并且在RCP2.6,RCP4下的历史时期1861-2005年以及2006年至2299年之间.5,RCP6.0和RCP8.5方案。长期日排放数据集可在国际环境和水资源管理中使用,例如,在跨部门影响模型比对项目(ISIMIP)的框架内,通过提供线索,说明人为引起的气候变化可能在多大程度上影响水流和水流趋势将来。长时间尺度的气象水文模拟数据,非常不错的一个数据集。
]]>