# 以隐形眼镜数据集为例实现决策树

#### 导入数据

In [1]:
import numpy as np
import pandas as pd

file_name = 'lenses.txt'
data = pd.read_table(file_name, header=None, names=['age', 'prescript', 'astigmatic', 'tearRate', 'result'])
data.head(5)

Unnamed: 0,age,prescript,astigmatic,tearRate,result
0,young,myope,no,reduced,no lenses
1,young,myope,no,normal,soft
2,young,myope,yes,reduced,no lenses
3,young,myope,yes,normal,hard
4,young,hyper,no,reduced,no lenses


#### 向量化特征

In [2]:
feature = data[['age', 'prescript', 'astigmatic', 'tearRate']]
result = data['result']

from sklearn.feature_extraction import DictVectorizer
vec = DictVectorizer(sparse=False)
X_train = vec.fit_transform(feature.to_dict(orient='records'))
X_train[:5]

array([[0., 0., 1., 1., 0., 0., 1., 0., 1.],
       [0., 0., 1., 1., 0., 0., 1., 1., 0.],
       [0., 0., 1., 0., 1., 0., 1., 0., 1.],
       [0., 0., 1., 0., 1., 0., 1., 1., 0.],
       [0., 0., 1., 1., 0., 1., 0., 0., 1.]])

#### 输出特征值对应的特征名称及取值

In [4]:
vec.get_feature_names()

['age=pre',
 'age=presbyopic',
 'age=young',
 'astigmatic=no',
 'astigmatic=yes',
 'prescript=hyper',
 'prescript=myope',
 'tearRate=normal',
 'tearRate=reduced']

#### 利用sklearn生成决策树

决策树参数说明:
- criterion: 分裂节点的评价标准
   - gini: 基尼指数
   - entropy: 信息增益
- splitter: 划分结点的策略
   - best: 最优划分
   - random: 随机划分
- max_depth: 树最大深度，若不指定则划分到全部为叶子节点为止
- min_sample_split: 划分一个结点至少需要多少个样本
- min_sample_leaf: 每个叶子结点至少需要多少个样本
- min_weight_fraction_leaf: 叶子结点中样本的最小权重
- max_features: 划分特征时最多需要考虑多少个特征
   - int型参数: 指定个数
   - float型参数: 向下取整个数
   - sqrt或auto: sqrt个
   - log2: log2()个
   - None: 每次切分考虑n_feature个(即所有特征)
   - 若达到max_features个划分还未找到一个有效划分，那么会继续向下寻找
- random_state: 随机数生成器, 可指定int型种子、RandomState实例或使用None应用默认种子生成器
- max_leaf_nodes: 最大叶结点个数
- min_impurity_decrease: 如果节点的分裂导致不纯度的减少(分裂后样本比分裂前更加纯净)大于或等于min_impurity_decrease，则分裂该节点.
- min_impurity_split: 已弃用, 使用min_impurity_decrease
- class_weight: 各类别的权重
   - None: 默认各类别权重均为1
   - balance: 与出现频率成反比
- presort: 指示是否需要提前排序，对于大数据集可能会减缓运行速度，对于小数据集可能会加快运行速度, 已弃用

In [8]:
from sklearn import tree

clf = tree.DecisionTreeClassifier(criterion="gini",
                 splitter="best",
                 max_depth=None,
                 min_samples_split=2,
                 min_samples_leaf=1,
                 min_weight_fraction_leaf=0.,
                 max_features=None,
                 random_state=None,
                 max_leaf_nodes=None,
                 min_impurity_decrease=0.,
                 class_weight=None)
y_train = result
clf.fit(X_train, y_train)

DecisionTreeClassifier()

#### 将树输出到文件中