# 决策树

In [2]:
from sklearn.feature_extraction import DictVectorizer
import csv
from sklearn import preprocessing
from sklearn import tree
from sklearn.externals.six import StringIO

In [70]:
# 读取 CSV 文件
data = open(r'data\\1.csv')
reader = csv.reader(data)

In [71]:
# 数据预处理
# scikit-learn 已经提供了决策树的实现，但是对于输入数据的格式有要求，所以要进行预处理

# 特征列表
feature_list = []
# 结果（这里是“是否购买”，结果有两种，“买”与“没买”）列表
result_list = []

# CSV 文件中的标签
headers = next(reader)

# 遍历每一行
for row in reader:
    # 将结果存放在 result_list 中
    result_list.append(row[len(row) - 1])
    # 将每一行的特征以字典的形式存储，{特征: 特征值}
    row_dict = {}
    for i in range(1, len(row) - 1):
        row_dict[headers[i]] = row[i]
    feature_list.append(row_dict)

In [72]:
result_list

['no',
 'no',
 'yes',
 'yes',
 'yes',
 'no',
 'yes',
 'no',
 'yes',
 'yes',
 'yes',
 'yes',
 'yes',
 'no']

In [73]:
feature_list

[{'age': 'youth', 'income': 'high', 'student': 'no', 'credit_rating': 'fair'},
 {'age': 'youth',
  'income': 'high',
  'student': 'no',
  'credit_rating': 'excellent'},
 {'age': 'middle_aged',
  'income': 'high',
  'student': 'no',
  'credit_rating': 'fair'},
 {'age': 'senior',
  'income': 'medium',
  'student': 'no',
  'credit_rating': 'fair'},
 {'age': 'senior', 'income': 'low', 'student': 'yes', 'credit_rating': 'fair'},
 {'age': 'senior',
  'income': 'low',
  'student': 'yes',
  'credit_rating': 'excellent'},
 {'age': 'middle_aged',
  'income': 'low',
  'student': 'yes',
  'credit_rating': 'excellent'},
 {'age': 'youth',
  'income': 'medium',
  'student': 'no',
  'credit_rating': 'fair'},
 {'age': 'youth', 'income': 'low', 'student': 'yes', 'credit_rating': 'fair'},
 {'age': 'senior',
  'income': 'medium',
  'student': 'yes',
  'credit_rating': 'fair'},
 {'age': 'youth',
  'income': 'medium',
  'student': 'yes',
  'credit_rating': 'excellent'},
 {'age': 'middle_aged',
  'income': '

In [74]:
# 利用已有的库进行数据预处理

# 转化特征
vec = DictVectorizer()
dummy_x = vec.fit_transform(feature_list).toarray()

In [75]:
dummy_x

array([[0., 0., 1., 0., 1., 1., 0., 0., 1., 0.],
       [0., 0., 1., 1., 0., 1., 0., 0., 1., 0.],
       [1., 0., 0., 0., 1., 1., 0., 0., 1., 0.],
       [0., 1., 0., 0., 1., 0., 0., 1., 1., 0.],
       [0., 1., 0., 0., 1., 0., 1., 0., 0., 1.],
       [0., 1., 0., 1., 0., 0., 1., 0., 0., 1.],
       [1., 0., 0., 1., 0., 0., 1., 0., 0., 1.],
       [0., 0., 1., 0., 1., 0., 0., 1., 1., 0.],
       [0., 0., 1., 0., 1., 0., 1., 0., 0., 1.],
       [0., 1., 0., 0., 1., 0., 0., 1., 0., 1.],
       [0., 0., 1., 1., 0., 0., 0., 1., 0., 1.],
       [1., 0., 0., 1., 0., 0., 0., 1., 1., 0.],
       [1., 0., 0., 0., 1., 1., 0., 0., 0., 1.],
       [0., 1., 0., 1., 0., 0., 0., 1., 1., 0.]])

In [76]:
# 转化结果

lb = preprocessing.LabelBinarizer()
dummy_y = lb.fit_transform(result_list)

In [77]:
dummy_y

array([[0],
       [0],
       [1],
       [1],
       [1],
       [0],
       [1],
       [0],
       [1],
       [1],
       [1],
       [1],
       [1],
       [0]])

In [78]:
# 数据预处理后满足要求了，创建决策树

# criterion='entropy' 指明 ID3
clf = tree.DecisionTreeClassifier(criterion='entropy')
clf = clf.fit(dummy_x, dummy_y)

In [79]:
# 将生成的决策树输出成 DOT 文件，方便后续可视化
with open('data\\1.dot', 'w') as f:
    f = tree.export_graphviz(clf, feature_names=vec.get_feature_names(), out_file=f)

In [87]:
# 预测

x1 = dummy_x[0, :]
x1

array([0., 0., 1., 0., 1., 1., 0., 0., 1., 0.])

In [88]:
# 将数据集中的第一个数据改一下，下面的操作是相当于将 age 由 youth 改为 middle_aged

x2 = x1.copy()
x2[0] = 1
x2[2] = 0
x2

array([1., 0., 0., 0., 1., 1., 0., 0., 1., 0.])

In [89]:
y2 = clf.predict([x2])

In [90]:
y2

array([1])

In [91]:
vec.get_feature_names()

['age=middle_aged',
 'age=senior',
 'age=youth',
 'credit_rating=excellent',
 'credit_rating=fair',
 'income=high',
 'income=low',
 'income=medium',
 'student=no',
 'student=yes']

In [92]:
lb.get_params()

{'neg_label': 0, 'pos_label': 1, 'sparse_output': False}