# 基于CART树的北京市空气质量预测

## 模块安装

In [15]:
!pip install scikit-learn
!pip install xlrd==1.2.0 # linux读取xlsx

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple


ERROR: Invalid requirement: '#'


## 模块导入


为完成了绘图环境的配置以及必要的数据处理和可视化库的导入，以支持后续的数据分析和可视化任务。导入以下库和模块；

In [4]:
%matplotlib inline

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif']=['SimHei']  #解决中文显示乱码问题
plt.rcParams['axes.unicode_minus']=False

from sklearn import tree
from sklearn.model_selection import train_test_split

1. 首先，通过`%matplotlib inline`指令（该指令通常用于Jupyter Notebook环境），确保绘图结果能够直接嵌入到代码单元格的输出中，从而方便进行交互式的数据分析。  
2. 随后，通过`plt.rcParams`字典，对Matplotlib绘图库的默认参数进行了自定义设置。其中，`'font.sans-serif'=['SimHei']`设置了默认的无衬线字体为“SimHei”，这是为了解决在绘制图形时可能出现的中文乱码问题，确保中文能够正确显示。`'axes.unicode_minus'=False`则用于确保在绘图时负号能够正确显示，避免出现由于字体问题导致的负号乱码。  
3. 接着，导入了三个常用的Python数据处理和可视化库：
- `numpy`（通常缩写为`np`）是一个用于处理大型多维数组和矩阵的库，提供了大量的数学函数来操作这些数组。
- `pandas`（通常缩写为`pd`）是一个用于数据处理和分析的库，提供了数据框（DataFrame）和序列（Series）等数据结构，以及丰富的数据处理和分析功能。
- `matplotlib.pyplot`（通常缩写为`plt`）是Matplotlib库中的一个子库，提供了MATLAB风格的绘图接口，用于绘制各种静态、动态、交互式的图表。  
4. 最后，代码从`sklearn`库中导入了`tree`模块，该模块提供了决策树算法的实现，包括分类树和回归树，是机器学习领域常用的一个算法。

## 数据集下载

```bash
wget https://www.studybigdata.cn/file/machine-learning/beijing-aqi.xlsx
```

## 数据读取

In [8]:
data=pd.read_excel('data/北京市空气质量数据.xlsx')
data

Unnamed: 0,日期,AQI,质量等级,PM2.5,PM10,SO2,CO,NO2,O3
0,2014-01-01,81,良,45,111,28,1.5,62,52
1,2014-01-02,145,轻度污染,111,168,69,3.4,93,14
2,2014-01-03,74,良,47,98,29,1.3,52,56
3,2014-01-04,149,轻度污染,114,147,40,2.8,75,14
4,2014-01-05,119,轻度污染,91,117,36,2.3,67,44
...,...,...,...,...,...,...,...,...,...
2150,2019-11-22,183,中度污染,138,181,9,2.4,94,5
2151,2019-11-23,175,中度污染,132,137,6,1.6,69,34
2152,2019-11-24,30,优,7,30,3,0.2,11,58
2153,2019-11-25,40,优,13,30,3,0.4,32,29


In [9]:
data.describe()

Unnamed: 0,日期,AQI,PM2.5,PM10,SO2,CO,NO2,O3
count,2155,2155.0,2155.0,2155.0,2155.0,2155.0,2155.0,2155.0
mean,2016-12-13 14:41:22.412992768,106.438515,64.343852,90.251972,10.246404,1.038794,45.509977,98.263573
min,2014-01-01 00:00:00,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,2015-06-23 12:00:00,58.0,24.0,44.0,3.0,0.6,30.0,52.0
50%,2016-12-14 00:00:00,89.0,47.0,75.0,5.0,0.8,40.0,83.0
75%,2018-06-05 12:00:00,138.0,84.0,117.0,11.0,1.2,56.0,141.0
max,2019-11-26 00:00:00,500.0,477.0,550.0,133.0,8.0,155.0,311.0
std,,67.168252,59.65299,67.484625,13.679346,0.842801,22.598865,63.196868


使用pandas库的read_excel函数从Excel文件'data/北京市空气质量数据.xlsx'中读取空气质量数据，并将其存储在DataFrame对象data中。接着，通过调用data.describe()方法，对读取到的数据进行描述性统计分析，包括均值、标准差、最小值和最大值等统计指标，以初步了解数据集的特征。

## 数据预处理

### 去除空值

In [10]:
data=data.replace(0,np.NaN)
data=data.dropna(axis=0)
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2096 entries, 0 to 2154
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   日期      2096 non-null   datetime64[ns]
 1   AQI     2096 non-null   float64       
 2   质量等级    2096 non-null   object        
 3   PM2.5   2096 non-null   float64       
 4   PM10    2096 non-null   float64       
 5   SO2     2096 non-null   float64       
 6   CO      2096 non-null   float64       
 7   NO2     2096 non-null   float64       
 8   O3      2096 non-null   float64       
dtypes: datetime64[ns](1), float64(7), object(1)
memory usage: 163.8+ KB


使用`pandas`库中的`replace`方法将`DataFrame`对象`data`中所有值为0的项替换为`NaN`（即表示缺失值的浮点数）。然后，通过`dropna`方法删除包含至少一个`NaN`值的行（`axis=0`指定沿行进行操作）。最后，调用`info`方法展示处理后的数据集的简要信息，包括每列的非空值数量、数据类型等。这一系列操作旨在清理数据，移除无效或缺失的观测值，为后续的数据分析或建模准备更为完整和准确的数据集。

### 标签数值化

In [11]:
print(data['质量等级'].value_counts())
print("输入变量:\n",data.columns)
data['质量等级']=data['质量等级'].map({'优':'1','良':'2','轻度污染':'3','中度污染':'4','重度污染':'5','严重污染':'6'})

质量等级
良       827
轻度污染    470
优       377
中度污染    252
重度污染    127
严重污染     43
Name: count, dtype: int64
输入变量:
 Index(['日期', 'AQI', '质量等级', 'PM2.5', 'PM10', 'SO2', 'CO', 'NO2', 'O3'], dtype='object')


### 数据集拆分

In [12]:
data_X=data.iloc[:,3:]
data_Y=data['质量等级']
X_train, X_test, y_train, y_test = train_test_split(data_X, data_Y, test_size=0.1,random_state=2)

从已加载和预处理过的`DataFrame`对象`data`中提取了特征和目标变量，用于后续的机器学习训练。

使用了`pandas`的`iloc`方法，通过切片操作选择了`data`中从第4列开始到最后一列作为特征集`X_train`。这里，`3`是列索引的起始位置（Python中的索引从0开始）。

选择了`data`中的'质量等级'列作为目标变量或标签`y_train`。这列通常包含了我们想要模型预测的值。

为后续的机器学习模型训练准备了输入特征`X_train`和目标标签`y_train`，是机器学习任务中常见的数据准备步骤。

## 模型训练与预测

#### 树深度设置为2

In [13]:
modelDTC = tree.DecisionTreeClassifier(max_depth=2,random_state=123)
modelDTC.fit(X_train, y_train)
print(tree.export_text(modelDTC))
#print(tree.plot_tree(modelDTC))
print("训练精度:%f"%(modelDTC.score(X_train,y_train)))

with open(r"D:\weather-2.dot", 'w') as f:
    f = tree.export_graphviz(modelDTC, out_file = f,filled=True,class_names=True,proportion=True,rounded=True)


|--- feature_0 <= 75.50
|   |--- feature_5 <= 160.50
|   |   |--- class: 2
|   |--- feature_5 >  160.50
|   |   |--- class: 3
|--- feature_0 >  75.50
|   |--- feature_0 <= 115.50
|   |   |--- class: 3
|   |--- feature_0 >  115.50
|   |   |--- class: 4

训练精度:0.665429


说明：  
建立树深度等于2的分类树模型，并拟合数据。    
输出分类树的文本化表达结果。    文本化表达是以字符形式展示分类树的构成，树根在左，树叶在右。规则集包含4推理规则。  
计算分类树的训练精度。因树深度较浅，预测效果不理想。  
将分类树的图形结果保存到指定文件中。  

#### 树深度设置为6

In [14]:
modelDTC = tree.DecisionTreeClassifier(max_depth=6,random_state=123)
modelDTC.fit(X_train, y_train)
print(tree.export_text(modelDTC))

print("测试精度:%f"%(modelDTC.score(X_test,y_test)))

with open(r"D:\weather-6.dot", 'w') as f:
    f = tree.export_graphviz(modelDTC, out_file = f,filled=True,class_names=True,proportion=True,rounded=True)

|--- feature_0 <= 75.50
|   |--- feature_5 <= 160.50
|   |   |--- feature_1 <= 49.50
|   |   |   |--- feature_5 <= 100.50
|   |   |   |   |--- feature_0 <= 36.50
|   |   |   |   |   |--- feature_4 <= 40.50
|   |   |   |   |   |   |--- class: 1
|   |   |   |   |   |--- feature_4 >  40.50
|   |   |   |   |   |   |--- class: 2
|   |   |   |   |--- feature_0 >  36.50
|   |   |   |   |   |--- class: 2
|   |   |   |--- feature_5 >  100.50
|   |   |   |   |--- feature_5 <= 101.50
|   |   |   |   |   |--- feature_0 <= 31.50
|   |   |   |   |   |   |--- class: 2
|   |   |   |   |   |--- feature_0 >  31.50
|   |   |   |   |   |   |--- class: 1
|   |   |   |   |--- feature_5 >  101.50
|   |   |   |   |   |--- class: 2
|   |   |--- feature_1 >  49.50
|   |   |   |--- feature_1 <= 148.50
|   |   |   |   |--- feature_1 <= 50.50
|   |   |   |   |   |--- feature_5 <= 99.50
|   |   |   |   |   |   |--- class: 1
|   |   |   |   |   |--- feature_5 >  99.50
|   |   |   |   |   |   |--- class: 2
|   |   | 

## 使用graphviz工具可视化决策树

### graphviz安装  

#### Windows
```http
    https://graphviz.org/download/
```
安装完成后，将bin目录加入到PATH环境变量中。
#### Ubuntu操作系统

```bash
    sudo apt-get update
    sudo apt-get install graphviz
```

### pip安装graphviz

```bash
    pip install graphviz
```
    
### 转PDF
利用dot命令将指定的dot文件转换成PDF格式的文件，如文件名 weather.pdf
```
    $ dot -Tpdf .\weather.dot -o weather.pdf
```

### 转png图片
```
    $ dot -Tpng weather.dot -o weather.png
```

![w.png](attachment:fb0cfee2-2db0-4093-9ff3-4d0f3faad4fe.png)