# 决策树练习

这次练习中，我们将使用葡萄酒质量数据集。该数据集包含葡萄酒的各种化学性质，如酸度、糖分、PH值和酒精含量等，还包括两列分别表示葡萄酒的质量（3-9，越高越好）和酒的颜色（红或者白）。数据保存在`Wine_Quality_Data.csv`文件中。

### 绘制决策树的软件要求

* 需要预先安装Graphviz,并把Graphviz安装目录下的bin目录加入到系统变量PATH中；
* 用Anaconda安装pydotplus：在Anaconda Prompt中，运行conda install pydotplus

## 第一步：

* 导入数据并检查特征的类型
* 使用所有特征预测 `color` (white 或者 red)，但是颜色特征需要编码成整数

In [1]:
# 读入数据
import pandas as pd
url = 'Wine_Quality_Data.csv'
wine = pd.read_csv(url)

In [2]:
wine.shape

(6497, 13)

In [3]:
# 检查特征的数据类型
type(wine)

pandas.core.frame.DataFrame

In [4]:
# 把color特征值转换成整数（如'white'是0, 'red'是1）
wine.color = wine.color.map({'white':0,'red':1})

## 第二步：

* 生成X和y（使用除'color'外的全部特征列做X，‘color'列做y）
* 划分训练集和测试集，使得测试集中包含1000条数据
* 分别检查测试集和训练集中不同类别的样例的个数

In [5]:
# 生成X和y
X = wine[wine.columns[:-1]]
y = wine.color

In [6]:
# 划分训练集和测试集，使得测试集中包含1000条数据
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.1539)

In [7]:
# 分别检查测试集和训练集中不同类别的样例的个数
X_train.shape

(5497, 12)

In [8]:
X_test.shape

(1000, 12)

## 第三步：

* 在训练集上训练一个没有对树的最大深度、特征及叶子节点等方面有任何限制的决策树分类器
* 绘制并显示决策树
* 评价这棵树分别在训练数据和测试数据上的预测效果（精度、查全率、查准率、F1），并思考其现象

In [9]:
from sklearn.tree import DecisionTreeClassifier
import graphviz
from sklearn import tree

In [13]:
# 在训练集上训练一个没有对树的最大深度、特征及叶子节点等方面有任何限制的决策树分类器
treeclf = DecisionTreeClassifier(criterion='gini’,splitter = 'best')
treeclf.fit(X,y)




SyntaxError: invalid syntax (<ipython-input-13-6122ec410a7a>, line 2)

In [14]:
# 绘制并显示决策树
import matplotlib.pyplot as plt
y_predict = treeclf.predict(X_test)
plt.plot(X_test,y_predict)

NameError: name 'treeclf' is not defined

In [63]:
# 评价这棵树分别在训练数据和测试数据上的预测效果


## 第四步：

* 使用带交叉验证的网格搜索（调节'max_depth'和‘max_feature'两个参数，并使用'accuracy’为评价指标），得到一个更好的决策树分类器。
* 绘制并显示新的决策树
* 评价这棵树分别在训练数据和测试数据上的预测效果（精度、查全率、查准率、F1），并和第三步的结果比较

In [None]:
# 使用带交叉验证的网格搜索，得到一个更好的决策树分类器。


In [None]:
# 绘制并显示新的决策树


In [None]:
# 评价这棵树分别在训练数据和测试数据上的预测效果


## 第五步：

* 重新生成X和y，使用`residual_sugar`列做y，用其他列做X
* 划分训练集和测试集
* 使用带交叉验证的网格搜索，找到一个最优的决策回归树模型
* 评价其在训练和测试数据上的预测效果（均方误差）
* 将测试数据上的真实residual_sugar值和预测的值绘制成一个线图

In [None]:
# 重新生成X和y，使用residual_sugar列做y，用其他列做X


In [None]:
#  划分训练集和测试集


In [None]:
#  使用带交叉验证的网格搜索，找到一个最优的决策回归树模型


In [None]:
# 评价其在训练和测试数据上的预测效果（均方误差）


In [None]:
#  将测试数据上的真实residual_sugar值和预测的值绘制成一个线图
