# 中国PM2.5浓度空间分布估算  

## 1 项目介绍

### 1.1 项目背景



中国作为世界上最大的发展中国家，伴随着工业化和城市化的不断推进，空气质量问题日益严重。生态环境部发布的《2017 中国生态环境状况公报》指出，全国 338 个地级及以上城市中 239 个城市的环境空气质量超标，占比超过 70%。空气质量问题已严重影响人们的日常出行与身体健康，制约着经济的可持续发展，成为了公众及政府部门的关注热点。  

PM2.5是指在空气动力学领域中直径不大于2.5微米的可吸入颗粒物，是空气质量评价的主要指标之一。全面掌握PM2.5浓度的空间分布规律，表征大气污染的空间过程和环境行为，对于支撑大气污染监测预警与综合治理、保护人类健康与社会可持续发展，具有重大的现实意义和指导价值。截至2017 年底，中国环境监测总站已建成超过 400 个地面空气质量监测站点，并对外发布包括PM2.5在内的每小时空气质量监测数据，提供了高精度、高可靠的实时监测结果。然而，由于地面监测站点空间分布不均、覆盖程度不高，现有研究难以对其监测数据进行有效地时空分析与深度挖掘。与地面监测不同，基于卫星的遥感观测可获取高覆盖的大气环境空间数据集，例如大气气溶胶光学厚度（Aerosol Optical Depth，AOD）数据。大量研究表明，AOD 与 PM2.5浓度具有较强的相关性。研究PM2.5浓度与基于遥感反演的AOD等相关因子之间的空间回归关系，能为获得整个研究区域的PM2.5浓度分布提供有效解决方案。  

![总体内容图](https://pub.mdpi-res.com/remotesensing/remotesensing-13-01979/article_deploy/html/images/remotesensing-13-01979-ag.png?1621475926)  

### 1.2 数据说明  

许多研究表明融合气象条件、地表高程等因子能进一步提高 PM2.5 空间估算精度。本案例在选取AOD数据作为辅助因子的基础上，进一步增加了温度（TEMP）、降水量（TP）、风速（WS）、风向（WD）等气象因子以及地表高程（DEM）因子作为模型的自变量输入，研究时间尺度为 2017 年平均，具体内容如下：  

（1）PM2.5 监测站点数据。2017 年 1 月 1 日至2017 年 12 月 31 日的每小时 PM2.5浓度观测值来自中国环境监测总站。PM2.5浓度采用锥形元件振荡微量天平或β衰减法测量，校准和质量控制符合国家标准 GB3095-2012。PM2.5数据按照年尺度进行平均。  

![图片](https://www.mdpi.com/remotesensing/remotesensing-13-01979/article_deploy/html/images/remotesensing-13-01979-g001.png)  

（2）气溶胶数据。气溶胶（AOD）数据来自LAADS网站，包括Terra 和 Aqua 两种采用暗像元法反演的 3 km 分辨率气溶胶数据产品（MOD04_3K 和 MYD04_3k），以及采用深蓝算法反演的 10 km 分 辨 率 气 溶 胶 数 据 产 品（MOD04_L2 和MYD04_L2）。在文章中，3 km分辨率AOD产品是PM2.5估算的主要数据来源。当3 km分辨率数据缺失时，则尽可能采用 10 km分辨率数据进行重采样替代。为保证 AOD 数据的可靠性，本文将一年中AOD数值缺失天数超过20%的区域进行剔除，即采用无值表示。  


 
（3）DEM数据。DEM数据来自NOAA的ETO-PO1全球地表高程模型，分辨率为1弧分。  

（4）温度、降水量、风速、风向数据。来自于EC-MWF全球气候再分析模式ERA5的数据产品，提供0.5度分辨率的小时级格网数据。  



### 1.3 模型介绍

基于GWR的地理加权思想，吴森森将OLR 和神经网络模型结合提出了一种地理神经网络加权回归（Geographically Neural Network Weight-ed Regression，GNNWR）模型。该模型通过利用神经网络的学习能力，能够处理回归关系的空间异质性和复杂非线性特征，比OLR、GWR等模型具有更好的拟合精度和更优的预测性能。本案例旨在建立一种基于GNNWR的PM2.5浓度空间估算模型，实现PM2.5回归关系中空间异质与非线性特征的精准拟合，进而获得中国高精度、高合理性的 PM2.5浓度空间分布。  

基于类似于 GWR 的地理加权思想，GNNWR模型认为回归关系的空间差异性可视为空间非平稳性在不同位置对“OLR 回归关系”的波动水平变化。因此，在本案例PM2.5浓度空间估算实验中，GNNWR模型结构定义如下：  
 
![GNNWR模型结构定义](https://mydde.deep-time.org/s3/static-files/upload/upload/1694059648746_1.png)  

式中：$(u_i，v_i)$是第i个样本点的空间坐标，$β =(β_0，β_1，\cdots ，β_6)$是OLR模型的回归系数，反映了整个区域PM2.5回归关系的平均水平。OLR系数的估计矩阵表示如下：  

![OLR系数的估计矩阵表](https://mydde.deep-time.org/s3/static-files/upload/upload/1694059665465_2.png)  

其中：  

![OLR系数的估计矩阵表](https://mydde.deep-time.org/s3/static-files/upload/upload/1694059673642_3.png)  

![基于GNNWR的PM2.5浓度空间估算模型定义](https://mydde.deep-time.org/s3/static-files/upload/upload/1694003342595_1.png)  

### 1.4 参考文献

杜震洪,吴森森,王中一,等.基于地理神经网络加权回归的中国PM2.5浓度空间分布估算方法[J].地球信息科学学报,2020,22(1):122-135. [ Du Z H, Wu S S, Wang Z Y, et al. Estimating ground-level PM2.5 concentrations across China using geographically neural network weighted regression[J]. Journal of Geo-information Science,2020,22(1):122-135. ] 

[DOI:10.12082/dqxxkx.2020.190533](https://www.researching.cn/ArticlePdf/m40005/2020/22/1/01000122.pdf)  

### 1.5 主要内容


1. 模型训练  
2. 模型保存、加载与可视化  
3. 模型预测  

![模型示意图](https://www.mdpi.com/remotesensing/remotesensing-13-01979/article_deploy/html/images/remotesensing-13-01979-g002.png)  


## 2 准备工作

安装与导入必要的库

In [1]:
from gnnwr import models, datasets, utils
import pandas as pd
import numpy as np
import folium
import torch.nn as nn
from sklearn.metrics import r2_score as r2
import matplotlib.pyplot as plt

## 3 模型训练

### 3.1 导入训练数据

In [2]:
data = pd.read_csv('../data/pm25_data.csv')
data.head(5)

Unnamed: 0,station_id,lng,lat,date,PM2_5,row_index,col_index,proj_x,proj_y,dem,...,t2m,sp,tp,blh,e,r,u10,v10,aod_sat,ndvi
0,1001A,116.366,39.8673,20170601,54.733894,2201,6867,1650847.552,1370268.366,46,...,284.561066,100809.2734,0.001006,134.995636,-7e-06,46.315975,0.425366,0.170262,0.870967,2401
1,1002A,116.17,40.2865,20170601,48.080737,2134,6835,1625003.973,1416959.964,420,...,282.907684,97125.08594,0.001044,157.77597,-6e-06,53.605503,0.211734,-0.676848,0.71208,5255
2,1003A,116.434,39.9522,20170601,54.898592,2188,6877,1653776.71,1381524.305,48,...,284.492249,100830.9688,0.001002,129.971298,-7e-06,45.537464,0.266666,0.069172,0.875811,2609
3,1004A,116.434,39.8745,20170601,52.266382,2200,6877,1655828.045,1372270.098,45,...,284.6362,100936.8047,0.00101,138.793961,-7e-06,45.387913,0.299403,0.22795,0.869679,2420
4,1005A,116.473,39.9716,20170601,53.189076,2185,6884,1656224.681,1384491.842,40,...,284.506561,100880.1797,0.001019,130.520599,-7e-06,44.790119,0.169121,0.079546,0.873232,3296


### 3.2 划分数据集

In [3]:
train_dataset, val_dataset, test_dataset = datasets.init_dataset(data=data,
                                                                 test_ratio=0.15,
                                                                 valid_ratio=0.15,
                                                                 x_column=[
                                                                     'dem', 'w10', 'd10', 't2m', 'aod_sat', 'tp'],
                                                                 y_column=[
                                                                     'PM2_5'],
                                                                 spatial_column=[
                                                                     'proj_x', 'proj_y'],
                                                                 sample_seed=23,
                                                                 batch_size=64)

### 3.3 初始化GNNWR模型

In [4]:
gnnwr = models.GNNWR(train_dataset=train_dataset,
                     valid_dataset=val_dataset,
                     test_dataset=test_dataset,
                     dense_layers=[512, 256, 128],
                     start_lr=0.2,
                     optimizer="Adadelta",
                     activate_func=nn.PReLU(init=0.1),
                     model_name="GNNWR_PM25",
                     write_path="../demo_result/gnnwr/runs/",
                     model_save_path="../demo_result/gnnwr/models/",
                     log_path="../demo_result/gnnwr/logs/",
                     )
gnnwr.add_graph()

Add Graph Successfully


### 3.4 模型训练

In [5]:
gnnwr.run(max_epoch=200, early_stop=50)

 75%|███████▌  | 150/200 [01:26<00:28,  1.73it/s, Train Loss=56.408717, Train R2=0.719916, Train AIC=tensor(6985.4326, device='cuda:0', grad_fn=<AddBackward0>), Valid Loss=77.6, Valid R2=0.59, Best Valid R2=0.75, Learning Rate=0.2]    


Training stop! Model has not been improved for over 50 epochs.


### 3.5 模型评价与结果分析

输出模型训练结果

In [6]:
gnnwr.result()


--------------------Result Information----------------
Test Loss: |                  56.67107
Test R2  : |                   0.73791
Train R2 : |                   0.79954
Valid R2 : |                   0.75033
RMSE: |                        7.52802
MAE:  |                        5.22186
AICc: |                     1458.88416


保存模型训练结果

In [7]:
gnnwr.reg_result('../demo_result/gnnwr/gnnwr_result.csv').sort_values(by='id')

Unnamed: 0,coef_dem,coef_w10,coef_d10,coef_t2m,coef_aod_sat,coef_tp,bias,Pred_PM2_5,id,dataset_belong,denormalized_pred_result
895,-8.736226,3.302924,0.002794,5.985681,48.046055,0.211449,9.065893,51.098129,0,train,51.098129
614,-7.977727,3.698064,0.016331,4.235970,52.408142,-0.420715,6.138952,41.836739,1,train,41.836739
1095,-8.475040,3.801584,0.005803,4.824448,50.631947,0.364605,7.478953,51.110115,2,valid,51.110115
40,-8.645733,3.597586,0.003241,5.414327,49.282722,0.366751,8.318945,50.995056,3,train,50.995056
1250,-8.388801,4.009830,0.006594,4.386716,51.615425,0.439867,6.880680,50.895470,4,test,50.895470
...,...,...,...,...,...,...,...,...,...,...,...
1278,-11.719895,7.424761,-0.072193,9.771817,41.130665,-0.536504,17.388716,52.315407,1403,test,52.315407
622,10.716731,-25.928265,0.048866,26.400902,80.499275,-34.478287,15.842731,13.037857,1404,train,13.037857
303,-11.776519,7.339533,-0.072330,9.933331,40.674870,-0.581371,17.709627,52.398373,1405,train,52.398373
1134,-3.905393,2.764145,-0.245339,19.613562,38.783161,1.985517,5.548222,12.248081,1406,valid,12.248081


## 4 保存与加载

### 4.1 保存数据集

In [8]:
# 保存数据集到指定路径
train_dataset.save('../demo_result/gnnwr/dataset/train_dataset/', exist_ok=True)
val_dataset.save('../demo_result/gnnwr/dataset/val_dataset/', exist_ok=True)
test_dataset.save('../demo_result/gnnwr/dataset/test_dataset/', exist_ok=True)

### 4.2 加载数据集

In [9]:
train_dataset_load = datasets.load_dataset(
    '../demo_result/gnnwr/dataset/train_dataset/')


val_dataset_load = datasets.load_dataset(
    '../demo_result/gnnwr/dataset/val_dataset/')


test_dataset_load = datasets.load_dataset(
    '../demo_result/gnnwr/dataset/test_dataset/')

### 4.3 加载模型

初始化模型

In [10]:
gnnwr_load = models.GNNWR(train_dataset=train_dataset_load,
                          valid_dataset=val_dataset_load,
                          test_dataset=test_dataset_load,
                          dense_layers=[512, 256, 128],
                          start_lr=0.2,
                          optimizer="Adadelta",
                          activate_func=nn.PReLU(init=0.1),
                          model_name="GNNWR_PM25",
                          model_save_path="../demo_result/gnnwr/models/",
                          log_path="../demo_result/gnnwr/logs/",
                          write_path="../demo_result/gnnwr/writes/"
                          )

加载参数

In [11]:
gnnwr_load.load_model('../demo_result/gnnwr/models/GNNWR_PM25.pkl')
gnnwr_load.result()


--------------------Result Information----------------
Test Loss: |                  56.67107
Test R2  : |                   0.73791
Train R2 : |                   0.79954
Valid R2 : |                   0.75033
RMSE: |                        7.52802
MAE:  |                        5.22186
AICc: |                     1458.88416


## 5 模型预测

### 5.1 导入预测数据

In [12]:
pred_data = pd.read_csv('../data/pm25_predict_data.csv')

### 5.2 初始化预测数据集

In [13]:
pred_dataset = datasets.init_predict_dataset(data=pred_data, train_dataset=train_dataset, x_column=[
                                             'dem', 'w10', 'd10', 't2m', 'aod_sat', 'tp'],
                                             spatial_column=['proj_x', 'proj_y'])

### 5.3 模型预测

In [14]:
pred_res = gnnwr_load.predict(pred_dataset)
pred_res.head(5)

Unnamed: 0,station_id,lng,lat,date,PM2.5,row_index,col_index,proj_x,proj_y,dem,...,tp,blh,e,r,u10,v10,aod_sat,ndvi,pred_result,denormalized_pred_result
0,1001A,116.366,39.8673,20170930,56.357143,2201.0,6867.0,1650848.0,1370268.0,46,...,5.1e-05,64.583054,-7e-06,52.682091,0.384257,0.784808,0.762762,3443,48.609615,48.609615
1,1002A,116.17,40.2865,20170930,47.148148,2134.0,6835.0,1625004.0,1416960.0,420,...,0.000304,40.62114,-7e-06,62.529091,-0.156175,-0.537717,0.574785,7810,36.20528,36.20528
2,1003A,116.434,39.9522,20170930,53.857143,2188.0,6877.0,1653777.0,1381524.0,48,...,5.8e-05,60.242908,-7e-06,52.12664,0.093867,0.617515,0.796827,3328,49.287075,49.287075
3,1004A,116.434,39.8745,20170930,46.333333,2200.0,6877.0,1655828.0,1372270.0,45,...,4.7e-05,69.535637,-8e-06,51.301529,0.197439,0.893495,0.758839,4535,48.170078,48.170078
4,1005A,116.473,39.9716,20170930,52.203704,2185.0,6884.0,1656225.0,1384492.0,40,...,5.9e-05,62.281456,-7e-06,51.071964,-0.060543,0.634863,0.760148,3901,47.22113,47.22113


## 6 数据可视化

### 6.1 可视化模块介绍

**初始化（utils.Visualize）**

params：  
- data：GNNWR或其派生模型的实例（必需）  
- lon_lat_columns：数据集中经纬度字段，缺省则将spatial_columns的前两个作为经纬度  

```python
visualizer = utils.Visualize(data = gnnwr, lon_lat_columns = ['lon','lat'])  
```

**数据集可视化（display_dataset）**

params：  
- name：选择展示的数据集，可选值为'all'，'train'，'valid'，'test'，分别代表全集、训练集、验证集、测试集，默认为'all'  
- y_column：选择度量的字段，默认为数据集y_colums的第一个  
- colors：传入颜色数组以自定义色带，默认为黄->红色带  
- steps：传入一个正整数，设置色带分级数量，默认为20  
- vmin：设置色带的最小值，默认为度量数据的最小值  
- vmax：设置色带的最大值，默认为度量数据的最大值  

```python
visualizer.display_dataset(name='train',y_columns='PM2_5',colors=['blue','green','yellow','red'],steps=50,vmin=0,vmax=100)  
```

**权重可视化（weights_heatmap）**

params：  
- data_column：选择权重字段（必需）  
- colors：传入颜色数组以自定义色带，默认为黄->红色带  
- steps：传入一个正整数，设置色带分级数量，默认为20  
- vmin：设置色带的最小值，默认为度量数据的最小值  
- vmax：设置色带的最大值，默认为度量数据的最大值 

```python
visualizer.weights_heatmap(data_column='weight_dem',colors=['blue','green','yellow','red'],steps=50,vmin=0,vmax=100)  
```

**自定点数据可视化（dot_map）**

params:  
data：传入用于可视化的DataFrame（必需）  
lon_column：经度字段（必需）  
lat_column：纬度字段（必需)  
y_column：度量值字段（必需）  
zoom：地图初始缩放等级，默认为4  
colors：传入颜色数组以自定义色带，默认为黄->红色带  
steps：传入一个正整数，设置色带分级数量，默认为20  
vmin：设置色带的最小值，默认为度量数据的最小值  
vmax：设置色带的最大值，默认为度量数据的最大值  

```python
visualizer.dot_map(data=df, lon_column='lon', lat_column='lat', y_column='res', zoom=1, colors=['blue','green','yellow','red'], steps=50, vmin=0, vmax=100)  
```

In [15]:
visualizer = utils.Visualize(data=gnnwr, lon_lat_columns=['lng', 'lat'])

### 6.2 绘制数据集分布  

全集

In [16]:
visualizer.display_dataset(name='all', y_column='PM2_5', colors=[
                           'blue', 'green', 'yellow', 'red'])

训练集

In [17]:
visualizer.display_dataset(name='train', y_column='PM2_5', colors=[
                           'blue', 'green', 'yellow', 'red'])

验证集

In [18]:
visualizer.display_dataset(name='valid', y_column='PM2_5', colors=[
                           'blue', 'green', 'yellow', 'red'])

测试集

In [19]:
visualizer.display_dataset(name='test', y_column='PM2_5', colors=[
                           'blue', 'green', 'yellow', 'red'])

预测集

In [20]:
visualizer.dot_map(data=pred_res, lon_column='lng', lat_column='lat',
                   y_column='pred_result', colors=['blue', 'green', 'yellow', 'red'])

### 6.3 绘制权重分布热力图  

DEM

In [21]:
visualizer.coefs_heatmap('coef_dem', colors=['blue', 'green', 'yellow', 'red'])

AOD

In [22]:
visualizer.coefs_heatmap('coef_aod_sat', colors=[
                         'blue', 'green', 'yellow', 'red'])

降水

In [23]:
visualizer.coefs_heatmap('coef_tp', colors=['blue', 'green', 'yellow', 'red'])

气温

In [24]:
visualizer.coefs_heatmap('coef_t2m', colors=['blue', 'green', 'yellow', 'red'])

风速

In [25]:
visualizer.coefs_heatmap('coef_w10', colors=['blue', 'green', 'yellow', 'red'])

风向

In [26]:
visualizer.coefs_heatmap('coef_d10', colors=['blue', 'green', 'yellow', 'red'])

偏置项

In [27]:
visualizer.coefs_heatmap('bias', colors=['blue', 'green', 'yellow', 'red'])

## 7 结果对比

实测数据

In [28]:
# 验证集
visualizer.display_dataset(name='valid', y_column='PM2_5', colors=[
                           'blue', 'green', 'yellow', 'red'])

预测数据

In [29]:
# 验证集预测
valid_pred_dst = datasets.init_predict_dataset(data=val_dataset.dataframe,
                                               train_dataset=train_dataset,
                                               x_column=[
                                                   'dem', 'w10', 'd10', 't2m', 'aod_sat', 'tp'],
                                               spatial_column=['lng', 'lat'])
valid_pred_res = gnnwr.predict(valid_pred_dst)
visualizer.dot_map(data=valid_pred_res, lon_column='lng', lat_column='lat',
                   y_column='pred_result', colors=['blue', 'green', 'yellow', 'red'], vmin=4, vmax=81)