### 大纲

* 树模型基础-决策树
    * 熵
    * 决策树生成算法
    * 树模型过拟合处理方式
        * 剪枝
        * 增益率
    * 树的应用场景： 连续函数，多分类，回归
* 决策树的进化-Ensemble
    * Bagging(投票)
    * Random Forest:随机森林
    * boosting:
        * GBDT
        * XGBoost

### 决策树

* 分制思想

##### 熵

* 熵：衡量纯洁度的标准
* 公式：$H = -\sum P(x)log(P(x))$
* 信息增益 $ Gain(S,A) = 分割前的熵 - 分割后的熵 $
* 信息增益比： $ GainR(S,A) = { Gain(S,A) \over Gain_{splited}(S,A)} $

* Gini = $ \sum P_k(1-P_k) $

##### 决策树生成算法

* ID3 算法：
    * 1. 计算当前样本所有属性的信息增益
    * 2. 使用信息增益较大的属性作为分割属性
    * 3. 若分割后的样本的标签全部唯一，则终止分割。否则重复第一步
* ID3算法存在的问题：
    * 可以把N个数据分成N组，这种分割没有意义
    * 如果按照日期分割，也是没有意义
    
* C4.5算法：
    * ID3算法的不同：使用信息增益比 作为分割的标准
  
* CART 算法：
    * 使用基尼来判断分割的标准
    

    
##### 树模型过拟合避免手段

* 没有必要的分割就不分割
* 剪枝
* 信息增益存在缺陷，可以使用信息增益率


##### 树的应用场景： 连续函数，多分类，回归

* 多分类
* 回归 
* 特征连续

### 决策树的模型融合-Ensemble

####  Bagging : 投票

* 不同的树 看到不同的特征，然后再进行投票

#### Random Forerst  随机森林

* 在Bagging的基础上，不仅是看到不同的特征，而且看到不同的数据。

#### Boosting 提升树 

* 步骤
    * 1.在原始样本中长出一个树
    * 2.在上一课树没有完美分类的数据重新 加权
    * 3.用新的加权的数据 重新训练一颗新的树
    * 4.最终的结果有加权决定

* 例子：
    * AdaBoost:
        * 1. 使用具有权重分布的训练数据，得到基本的分类器
        * 2. 计算分类器在训练数据中的分类误差率
            * $ e_m = \sum w_{m-1}I(G_m(x_i) != y_i)$
        * 3. 计算 分类器的系数，目的是：得到基本分类器的权重
            * $ a_m = {1 \over 2} log({ 1-e_m \over e_m }) $ 
        * 4. 更新数据的权重
        
        * 总分类器：G(x) = sign(\sum a_mG_m(x))
        
    * GBDT :
        * 1.AdaBoost的Regressio版本 计算样本的误差值公式不一样
            * $ e_m = \sum w_{m-1}err(G_m(x_i), y_i)$
        * 2.把残差作为下一轮的学习目标
        * 3.最终的结果是加权值，不再是简单的投票
            * $ G(x) = \sum a_mG_m(x) $
            
    * XGBoost
        * 本质是GBDT, 但是速度和效率做到极致
        * 1. 使用L1,L2正则化 防止过拟合
        * 2. 对代价函数一阶二阶函数求导
        * 3. 对树进行减值，防止算法贪婪

### 实战-1 糖尿病预测

美国亚利桑那州的⽐马印第安⼈患糖尿病概率极⾼。WHO为此调查了21岁以上
的⼥性患者，并记录了以下信息：
1. 怀孕了⼏次
2. ⾎糖
3. ⾎压
4. ⽪脂厚度
5. 胰岛素
6. 体质指数
7. 糖尿病⾎统
8. 年龄
9. label：是否患病

In [None]:
import numpy as np
import xgboost
from sklearn import cross_validation
from sklearn.metrics import accuracy_score

import warnings
warnings.filterwarnings("ignore")

In [None]:
#加载数据
dataset = np.loadtxt('./pima-indians-diabetes.data', delimiter=",")
x = dataset[:,0:8]
y = dataset[:,8]

In [None]:
#切分训练集和测试集
seed = 7
test_size = 0.3
x_train,x_test,y_train,y_test = cross_validation.train_test_split(x,y,test_size=test_size,random_state=seed)

In [None]:
#训练模型
model = xgboost.XGBClassifier()

model.fit(x_train,y_train)

In [None]:
#测试
predict = model.predict(x_test)

In [None]:
predictions = [round(value) for value in predict]

In [None]:
#的分
accuracy = accuracy_score(y_test, predictions)
print("Accuracy: %.2f%%" % (accuracy * 100.0))

### 实战-2 房价预测