In [48]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier

In [49]:
# 定义一些常量
iris_feature_E = 'sepal length', 'sepal width', 'petal length', 'petal width'
iris_feature_C = '花萼长度', '花萼宽度', '花瓣长度', '花瓣宽度'
iris_class = 'Iris-setosa', 'Iris-versicolor', 'Iris-virginica'

In [50]:
# 1. 加载数据
path = "./datas/iris.data"
name = ['sepal length', 'sepal width', 'petal length', 'petal width', 'class']
df = pd.read_csv(path, sep=',', header=None, names=name)

In [51]:
# 2. 看一些数据的相关特性
df.head(5) # 查看前5条数据
df.info() # 查看各个列的相关信息
df.describe() # 查看所有数值型列的均值、标准差、数据的分布情况等信息

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
sepal length    150 non-null float64
sepal width     150 non-null float64
petal length    150 non-null float64
petal width     150 non-null float64
class           150 non-null object
dtypes: float64(4), object(1)
memory usage: 5.9+ KB


Unnamed: 0,sepal length,sepal width,petal length,petal width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [52]:
# 3. 从原始数据中获取X和Y
X = df[name[:-1]] # 获取前4列的数据, 根据列名称获取
Y = df[name[-1]] # 获取最后一列的数据，根据列名称获取
Y = pd.Categorical(Y).codes # 将类别转换为数字
Y

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2], dtype=int8)

In [53]:
# 4. 数据的划分
x_train, x_test, y_train, y_test = train_test_split(X, Y, train_size=0.7, random_state=28)
print("训练集样本数量:%d" % x_train.shape[0])
print("测试集样本数量:%d" % x_test.shape[0])

训练集样本数量:105
测试集样本数量:45


In [58]:
# 5. 模型的训练 ==> 使用决策树相关模型进行分类
## scikit-learn中的决策树默认都是CART模型
# criterion='gini' ==> 给定树构建过程中需要考虑的指标，默认为gini系数也就是CART；可选entropy，表示使用信息熵
# splitter='best' ==> 给定选择划分属性的时候，采用什么方式，默认为best；表示选择最优的方式划分；可选random，表示随机
# max_depth=None ==> 树的最大允许深度，默认不限制
# min_samples_split=2 ===> 当节点中的样本数量小于等于该值的时候，停止树的构建
tree = DecisionTreeClassifier(criterion='entropy', max_depth=2)
tree.fit(x_train, y_train) # fit模型训练

DecisionTreeClassifier(class_weight=None, criterion='entropy', max_depth=2,
            max_features=None, max_leaf_nodes=None,
            min_impurity_split=1e-07, min_samples_leaf=1,
            min_samples_split=2, min_weight_fraction_leaf=0.0,
            presort=False, random_state=None, splitter='best')

In [59]:
# 模型相关的指标输出
print("训练集上的准确率:%.3f" % tree.score(x_train, y_train))
print("测试集上的准确率:%.3f" % tree.score(x_test, y_test))

y_hat = tree.predict(x_test) # 获取预测值
print("测试集上的准确率:%.3f" % (np.mean(y_hat == y_test)))

训练集上的准确率:0.971
测试集上的准确率:0.933
测试集上的准确率:0.933


In [61]:
# 6. 模型的预测
print("直接预测所属类别")
print(tree.predict(x_test))
print("每个样本的预测概率信息:")
print(tree.predict_proba(x_test))

直接预测所属类别
[0 1 1 0 2 1 2 1 1 0 2 0 1 1 2 0 2 2 2 1 0 0 1 2 1 0 2 2 0 1 0 2 1 0 2 1 2
 1 1 2 1 1 2 1 0]
每个样本的预测概率信息:
[[1.         0.         0.        ]
 [0.         0.91176471 0.08823529]
 [0.         0.91176471 0.08823529]
 [1.         0.         0.        ]
 [0.         0.         1.        ]
 [0.         0.91176471 0.08823529]
 [0.         0.         1.        ]
 [0.         0.91176471 0.08823529]
 [0.         0.91176471 0.08823529]
 [1.         0.         0.        ]
 [0.         0.         1.        ]
 [1.         0.         0.        ]
 [0.         0.91176471 0.08823529]
 [0.         0.91176471 0.08823529]
 [0.         0.         1.        ]
 [1.         0.         0.        ]
 [0.         0.         1.        ]
 [0.         0.         1.        ]
 [0.         0.         1.        ]
 [0.         0.91176471 0.08823529]
 [1.         0.         0.        ]
 [1.         0.         0.        ]
 [0.         0.91176471 0.08823529]
 [0.         0.         1.        ]
 [0.         0.911764

In [62]:
# 在决策树构建的时候，将影响信息增益更大的属性是放在树的上面的节点中进行判断的；也就是说
# 可以认为决策树构建的树中，越往上的节点，作用越强 ==> 所以可以基于决策树做特征选择
## 实际代码中，其实就是feature_importances_参数输出值中最大的k个指标
print("各个特征的重要性指标:", end="")
print(tree.feature_importances_)

各个特征的重要性指标:[0. 0. 0. 1.]


In [64]:
## 支持通过joblib来保存和加载模型
from sklearn.externals import joblib
joblib.dump(tree, "tree.model")
tree2 = joblib.load("tree.model") # 直接加载模型就表示可以用了，不需要重新训练了
print(tree2.predict(x_test))

[0 1 1 0 2 1 2 1 1 0 2 0 1 1 2 0 2 2 2 1 0 0 1 2 1 0 2 2 0 1 0 2 1 0 2 1 2
 1 1 2 1 1 2 1 0]
