In [35]:
%matplotlib inline

import matplotlib.pyplot as plt
import seaborn as sns
sns.set(color_codes=True)
sns.set(font='SimHei')
#plt.rcParams['axes.grid'] = False

import numpy as np

import pandas as pd
pd.options.display.max_rows = 10

from IPython.display import Image

决策树原理与实现简介
=================

### 前言

为什么讲决策树?

1. 原理简单，直白易懂。
2. 可解释性好。
3. 变种在工业上应用多：随机森林、GBDT。

深化拓展

1. 理论，考古：ID3, C4.5, CART
2. 工程，实现细节：
   + demo
   + scikit-learn
   + spark
   + xgboost
3. 应用，调参分析
4. 演示

### 理论

算法：

1. ID3
2. C4.5
3. C5.0
4. **CART**
5. CHAID
6. MARS

#### 行业黑话

+ 分类问题 vs 回归问题

+ 样本 = （特征$x$，真实值$y$）

+ 目的：找到模型$h(\cdot)$，使得预测值$\hat{y} = h(x)$ $\to$ 真实值$y$

In [25]:
from sklearn.datasets import load_iris
data = load_iris()

# 准备特征数据
X = pd.DataFrame(data.data, 
                 columns=["sepal_length", "sepal_width", "petal_length", "petal_width"])

# 准备标签数据
y = pd.DataFrame(data.target, columns=['target'])
y.replace(to_replace=range(3), value=data.target_names, inplace=True)

# 组建样本 [特征，标签]
samples = pd.concat([X, y], axis=1, keys=["x", "y"])
samples.head(5)

Unnamed: 0_level_0,x,x,x,x,y
Unnamed: 0_level_1,sepal_length,sepal_width,petal_length,petal_width,target
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


#### 三分钟明白决策树

In [32]:
samples["y", "target"].value_counts()

virginica     50
setosa        50
versicolor    50
Name: (y, target), dtype: int64

In [27]:
samples["x"].describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [36]:
Image(url="http://scikit-learn.org/stable/_images/iris.svg")

In [37]:
Image(url="http://scikit-learn.org/stable/_images/sphx_glr_plot_iris_0011.png")

In [33]:
samples = pd.concat([X, y], axis=1)
samples.head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,target
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa


### 工程

#### Demo实现

其主要问题是在每次决策时找到一个分割点，让生成的子集尽可能地纯净。这里涉及到四个问题:

1. 如何分割样本？
2. 如何评价子集的纯净度？
3. 如何找到单个最佳的分割点，其子集最为纯净？
4. 如何找到最佳的分割点序列，其最终分割子集总体最为纯净？

#### scikit-learn实现简介

### 应用

评价：过拟合

如何模型解释

参数的含义

### 演示

使用sklearn的决策树，进行一个小样本的分析