## 调包实现决策树模型
> 问题描述： 尝试调用sklearn.tree.DecisionTreeClassifier模块，训练数据集采用课本例题5.1的数据，判断是否应该批准下列人员的贷款申请
>> A={青年，否，是，一般}<br>B={中年，是，否，好}<br>C={老年，否，是，一般}

> 学习sklearn包里面的决策树模块以及一些数据预处理的知识

## 1. 导入要用到的包

In [16]:
import numpy as np
import pandas as pd
import time
import os

from sklearn.tree import DecisionTreeClassifier
from sklearn import preprocessing
from IPython.display import Image
from sklearn import tree
from PIL import Image
import pydotplus

os.environ["PATH"] += os.pathsep + 'D:\Software Installer\graphviz-2.38\release\bin'       #注意修改你的路径

## 2. 定义决策树可视化函数

In [19]:
def show(clf, features, y_types):
    """决策树的可视化"""
    
    dot_data = tree.export_graphviz(clf, out_file=dot_data, feature_names=features, class_names=y_types, filled=True, rounded=True, special_characters=True)
    """上面这个函数，这个函数生成决策树的GraphViz表示，然后将其写入out_file
        clf:  指的决策树模型
        out_file: 输出文件的名称
        feature_names:  特征标签名称
        class_names: 类别标签
        filled: 当设置为True时，绘制节点来表示用于分类的多数类、用于回归的极值或用于多输出的节点纯度。
        rounded: 当设置为True时，绘制圆角节点框，并使用Helvetica字体而不是Times-Roman字体。
        special_character: 当设置为False时，忽略用于PostScript兼容性的特殊字符。
    
    """
    graph = pydotplus.graph_from_dot_data(dot_data)
    Image(graph.create_png())
    graph.write_png('Dt_show.png')
#     im = Image.open('Dt_show.png')
#     im.show()

## 3. 主函数
>理一下思路： 
>> 1. 根据表构造数据集<br>
2. 由于训练集中的特征都是字符串，所以这里需要一个数据预处理，转成数字表示<br>
3. 调用sklearn包建立决策树模型<br>
4. 用得到的模型在测试集上进行预测，输出结果<br>
5. 可视化决策树模型

In [40]:
def main():
    start = time.time()
    
    # 原始数据样本
    features = ["age", "work", "house", "credit"]
    X_train=pd.DataFrame([
                      ["青年", "否", "否", "一般"],
                      ["青年", "否", "否", "好"],
                      ["青年", "是", "否", "好"],
                      ["青年", "是", "是", "一般"],
                      ["青年", "否", "否", "一般"],
                      ["中年", "否", "否", "一般"],
                      ["中年", "否", "否", "好"],
                      ["中年", "是", "是", "好"],
                      ["中年", "否", "是", "非常好"],
                      ["中年", "否", "是", "非常好"],
                      ["老年", "否", "是", "非常好"],
                      ["老年", "否", "是", "好"],
                      ["老年", "是", "否", "好"],
                      ["老年", "是", "否", "非常好"],
                      ["老年", "否", "否", "一般"]
                      ], columns = features)
    y_train = pd.DataFrame(["否", "否", "是", "是", "否", "否", "否", "是", "是", "是", "是", "是", "是", "是", "否"])
    X_test = pd.DataFrame([
                      ["青年", "否", "是", "一般"],
                      ["中年", "是", "否", "好"],
                      ["老年", "否", "否", "一般"]     
                      ], columns=features)
    X_test1 = X_test.copy()
     # 数据预处理
    for k in X_train.columns: 
        le = preprocessing.LabelEncoder()
        le.fit(np.unique(X_train[k]))
        X_train[k] = le.transform(X_train[k])
        X_test[k] = le.transform(X_test[k])
   # print(data)
    
    le_y = preprocessing.LabelEncoder()
    le_y.fit(y_train)
    Y_train = le_y.transform(y_train)
    
#     print(X_train)
#     print(Y_train)
#     print(X_test)

   # 调用sklearn.DT建立训练模型
    clf=DecisionTreeClassifier()
    clf.fit(X_train,y_train)
    
    # 测试集预测
    y_predict=clf.predict(X_test.values)
    
    # 输出结果
    for i in range(len(y_predict)):
        print(X_test1.iloc[i], "被分类为：", y_predict[i], '\n')
    print("time:{:.4f}s".format(time.time()-start))
    
    # 可视化决策树
    show(clf,features,[str(k) for k in np.unique(y_train)])

In [42]:
if __name__ == "__main__":
    main()

  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)


age       青年
work       否
house      是
credit    一般
Name: 0, dtype: object 被分类为： 是 

age       中年
work       是
house      否
credit     好
Name: 1, dtype: object 被分类为： 是 

age       老年
work       否
house      否
credit    一般
Name: 2, dtype: object 被分类为： 否 

time:0.0117s


## 4. 总结与回顾
> (1)决策树模型的调包建立： clf = DecisionClassifier()<br>
>(2)决策树模型的可视化和保存需要用到tree这个模块，用到了Graphviz这个可视化软件,可以查看官方文档https://scikit-learn.org/stable/modules/generated/sklearn.tree.export_graphviz.html<br>
>(3)关于决策树模型的相关参数：  https://www.cnblogs.com/baby-lily/p/10646226.html<br>
> (4)关于数据预处理： 
>> * 我上面用的方式，针对每一个特征进行的labelEncoder编码。 这样的写法需要写到一个for循环里面进行编码。 并且测试集要用训练集的LabelEncoder对象<br>
* 当然还有种简单的方式，就是我下面列出来的这个编码方式。 是直接针对于X的所有特征进行一个编码， 不过我觉得理解起来可能比较麻烦，所以才单个特征进行编码的， 当然，最后结果都是一样的。

In [None]:
X_train=pd.DataFrame([
                      ["青年", "否", "否", "一般"],
                      ["青年", "否", "否", "好"],
                      ["青年", "是", "否", "好"],
                      ["青年", "是", "是", "一般"],
                      ["青年", "否", "否", "一般"],
                      ["中年", "否", "否", "一般"],
                      ["中年", "否", "否", "好"],
                      ["中年", "是", "是", "好"],
                      ["中年", "否", "是", "非常好"],
                      ["中年", "否", "是", "非常好"],
                      ["老年", "否", "是", "非常好"],
                      ["老年", "否", "是", "好"],
                      ["老年", "是", "否", "好"],
                      ["老年", "是", "否", "非常好"],
                      ["老年", "否", "否", "一般"]
                      ])
y_train = pd.DataFrame(["否", "否", "是", "是", "否", "否", "否", "是", "是", "是", "是", "是", "是", "是", "否"])
# 数据预处理
le_x=preprocessing.LabelEncoder()
le_x.fit(np.unique(X_train))
X_train=X_train.apply(le_x.transform)

le_y=preprocessing.LabelEncoder()
le_y.fit(np.unique(y_train))
y_train=y_train.apply(le_y.transform)
    
# 调用sklearn.DT建立训练模型
clf=DecisionTreeClassifier()
clf.fit(X_train,y_train)

# 用训练得到模型进行预测
X_new=pd.DataFrame([["青年", "否", "是", "一般"],["老年", "是", "否", "非常好"], ["老年", "否", "否", "一般"] ])
X=X_new.apply(le_x.transform)
   
y_predict=clf.predict(X)
    
# 结果输出
X_show=[{features[i]:X_new.values[0][i]} for i in range(len(features))]
print("{0}被分类为:{1}".format(X_show,le_y.inverse_transform(y_predict)))