**1.**导入需要的包

In [1]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt

**2.**导入数据集，搜索数据

In [2]:
#index
data = pd.read_csv(r"E:\jupyter\sklearn\1 DecisionTree\DT\data.csv",index_col= 0)
#显示前n个（默认5）数据
data.head()

FileNotFoundError: [Errno 2] No such file or directory: 'E:\\jupyter\\sklearn\\1 DecisionTree\\DT\\data.csv'

In [None]:
#决策树只支持数字型的特征输入，所以下面所有object类的数据要用的话全都要转成数字形式
#年龄和Cabin有缺失值，需要处理
data.info()

**3.**对数据集进行预处理

In [None]:
#筛选特征，去掉一些不用/缺失太多（python不会进行填充）的参数
#drop函数就可以删除指定列名的列；inplace表示用删除完毕的表来覆盖原表（默认false）；axis表示对行/列进行删除（1是列，0是行）
data.drop(["Cabin","Name","Ticket"],inplace=True,axis=1)

In [None]:
#处理缺失值
#fillna()表示对缺失值用括号里的值进行填充(这里用的是均值）；
data["Age"] = data["Age"].fillna(data["Age"].mean())



In [None]:
data.info()

In [None]:
#对于Embarked这种只少了2行的，直接删了就好
#dropna()删掉所有有缺失值的行（可以用axis改成列，没必要，默认是0）
data = data.dropna()

In [None]:
data.info()

In [None]:
#将分类变量转化为数值型变量

#三分类变量
#找到Embarked类有多少种取值，并转为列表
labels = data["Embarked"].unique().tolist()
#apply表示在指定的列上执行括号中的操作,这里的操作就是把每一个字符串数据转换成数值数据
#这里要求不同的取值之间没有联系才能这么做
data["Embarked"] = data["Embarked"].apply(lambda x:labels.index(x))

In [None]:
#二分类变量
#根据判断的结果（Boolean值)来进行赋值
data["Sex"] = (data["Sex"]== "male").astype("int")

#报红是因为没改用loc/iloc（其实无所谓）
#上面的语句可以转为data.loc[:,"Sex"]/iloc[:,3]
#loc后面的列只能输入列名，而iloc后面只能输入第几列

In [None]:
data

**4.** 提取标签和特征矩阵，分测试集和训练集

In [None]:
#x取出除了Survived的其他列，这里相当于Ture的全都取出来
X = data.iloc[:,data.columns != "Survived"]
#y就取Survived这一列
y = data.iloc[:,data.columns == "Survived"]

In [None]:
#训练/测试集划分
Xtrain, Xtest, Ytrain, Ytest = train_test_split(X,y,test_size=0.3)

#修正测试集和训练集的索引，可以避免在之后的代码中出现混乱
for i in [Xtrain, Xtest, Ytrain, Ytest]:
        i.index = range(i.shape[0])
    
Xtrain.head()

**5.**导入模型，粗略跑一下查看结果

In [None]:
#实例化模型
clf = DecisionTreeClassifier(random_state=25)
clf = clf.fit(Xtrain, Ytrain)
score = clf.score(Xtest, Ytest)
score

In [3]:
#用交叉验证来看看
clf = DecisionTreeClassifier(random_state=25)
score = cross_val_score(clf, x, y, cv=10).mean()

score

NameError: name 'x' is not defined

**6.**在不同max_depth下观察模型的拟合状况

In [4]:
#用两个空列表来存储对应的分数
tr = []
te = []

#画个学习曲线
for i in range(10):
    clf = DecisionTreeClassifier(random_state=25
                                ,max_depth=i+1
                                ,criterion="entropy" 
                                )
    clf = clf.fit(Xtrain, Ytrain)
    score_tr = clf.score(Xtrain, Ytrain)
    score_te = cross_val_score(clf,x,y,cv=10).mean()
    tr.append(score_tr)
    te.append(score_te)
    
#输出测试集的最大值
print(max(te))
#开始画图,画两条曲线是为了观察不同最大深度下对于训练/测试集不同的拟合结果
plt.plot(range(1,11),tr,color="red",label="train")
plt.plot(range(1,11),te,color="blue",label="test")
#修改横坐标标尺，不写的话不一定会显示1到10的整数
plt.xticks(range(1,11))
plt.legend()
plt.show()

#这里为什么使用“entropy”？因为我们注意到，在最大深度=3的时候，模型拟合不足，在训练集和测试集上的表现接近，但却都不是非常理想，只能够达到83%左右，所以我们要使用entropy。

NameError: name 'Xtrain' is not defined

**7.** 用网格搜索调整参数

In [5]:
#网格搜索：能够同时调整多个参数，枚举技术；我们需要先确定好搜索范围，不然会导致很长的运行时间

In [6]:
import numpy as np
#linspace是从x（第一个参数）到y（第二个参数）取z（第三个参数）个随机数并且有序排列
gini_thresholds = np.linspace(0,0.5,20)

#一串参数和其对应的，希望网格搜索来搜索的参数的取值范围
parameters = {"criterion":("gini","entropy")
             ,"splitter":("best","random")
             ,"max_depth":[*range(1,10)]
             ,"min_samples_leaf":[*range(1,50,5)]
             ,"min_impurity_decrease":[*np.linspace(0,0.5,20)] #信息增益最小值，但是对于树来说比较难确定
}

#实例化模型
clf = DecisionTreeClassifier(random_state=25)
#第一个是分类器；第二个是参数取值范围的列表；第三个是交叉验证次数
GS = GridSearchCV(clf, parameters,cv=10 )
GS = GS.fit(Xtrain,Ytrain)

NameError: name 'Xtrain' is not defined

In [7]:
#网格搜索的两个重要接口：
GS.best_params_ #从输入的参数和参数取值列表中返回最佳组合

AttributeError: 'GridSearchCV' object has no attribute 'best_params_'

In [8]:
GS.best_score_ #网格搜索后的模型的评价标准

AttributeError: 'GridSearchCV' object has no attribute 'best_score_'