sklearn 中的决策树模型
====
首先，我们需要掌握 sklearn 中自带的决策树分类器 DecisionTreeClassifier，方法如下：
```python
clf = DecisionTreeClassifier(criterion='entropy')
```
### DecisionTreeClassifier類，其中要帶入參數criterion(標準)。
決定分類樹是採用ID3分類樹，或是Cart分類樹，對應取值分別是**entropy或gini**：
* entropy: 信息熵，也就是ID3與C4.5兩者差異不大。
* gini: 默認參數。Cart算法是基於基尼係數做**屬性劃分**，當criterion=gini時，實際上執行的是cart算法。

#### 通過設置criterion='entropy'創建ID3決策樹分類器，然後打印clf
```python
DecisionTreeClassifier(class_weight=None, criterion='entropy', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')
```
|參數表|作用|
|:----:|:----|
|criterion|在基於特徵劃分數據集合時，選擇特徵的標準。默認是gini，也可以是entropy。|
|splitter|在構造樹時，選擇屬性特徵的原則，可以是best或者random。默認是best，best代表在所有的特徵中選擇最好的，random代表在部分特徵中選擇最好的。|
|max_depth|決策樹的最大深度，我們可以控制決策樹的深度來防止決策樹過擬合|
|max_features|在畫分數據集時考慮的最多的特徵值數量。為int或float類型，其中int值每次split時最大特徵數；float值是百分數，即**特徵值=max_features\*_features**。|
|min_samples_split|當節點的樣本數少於min_samples_split時，不再繼續分裂。默認為2。|
|min_samples_leaf|葉子節點需要的最少樣本數。如果某葉子節點樹木小於這個閾值，則會和兄弟節點一起被剪枝。該取值可以是int或float。int: 代表最小樣本數；float: 表示一個百分比，這是最小養本數=min_samples_leaf乘以樣本數量，並向上取整。|
|max_leaf_nodes|最大葉子節點數。int類型，默認為None。默認情況下是不設置最大葉子節點數，特徵不多時，不用設置。特徵多時，可以通過設置最大葉子節點數，防止過擬合。|
|min_impurity_decrease|節點劃分最小不純度。float類型，默認值為0。節點的不純度必須大於這個閾值，否則該節點不再生成子節點。通過設置，可以限制決策樹的增長。|
|min_impurity_split|信息增益的閾值。信息增益必須大於這個閾值，否則不分裂。|
|class_weight|類別權重。默認為None，也可以是dict或balanced。dict: 指定樣本各類別的權重，樣本量少的類別所對應的樣本權重更高。|
|presort|bool類型，默認為false。表示在擬合前，是否對數據進行排序加快樹的建構。當數據集較小時，使用presort=true加快分類器構造速度。當數據集龐大時，presort=true會早至整個分類非常緩慢。|

#### 構造決策樹分類器後，可以使用fit方法讓分類器進行擬合，使用predict方法對新數據進行預測，也可用scorce方法得到分類器準確率。

|方法表|作用|
|:----|:----|
|fit(features, labels)|通過特徵矩陣，分類標示，讓分類器進行擬合|
|predict(features)|返回預測結果|
|score(features, labels)|返回準確率|

## Titanic乘客生存預測
### 1. 問題描述
1. 從GitHub下載部分數據: https://github.com/cystanford/Titanic_Data
2. 其中完整代碼為 titanic_analysis.py。
3. 數據集格式為csv:
    * train.csv是訓練數據集，包含特徵集和存活與否的標籤。
    * test.csv測試數據集，只包含特徵訊息。

### 2. 用決策樹分類，對「訓練集」進行訓練，針對「測試集」中的乘客進行「生存預測」，並告知「分類器的準確率」。
訓練集中包含以下字段:

|字段|描述|
|:----:|:----:|
|PassengerId|乘客編號|
|Survived|是否倖存|
|Pclass|船票等級|
|Name|乘客姓名|
|Sex|乘客性別|
|SibSp|親戚數量(兄妹、配偶數)|
|Parch|親戚數量(父母、子女數)|
|Ticket|船票號碼|
|Fare|船票價格|
|Cabin|船艙|
|Embarked|登陸港口|

### 3. 生存預測的關鍵流程
<img src="./images/19-01.jpg">
1. 準備階段: 數據探索> 分析數據質量> 清洗> 特徵選擇，降維，以便於分類運算。
2. 分類階段: 透過**訓練集的特徵矩陣、分類結果**得到決策樹分類器，然後將分類器應用於測試集。然後我們對決策樹分類器的**準確性**進行分析，並對決策樹模型進行**可視化**。

## 模塊介紹
### 模塊1: 數據探索
* 使用info()了解數據表的基本情況: 行數、列數、每列的數據類型、數據完整度。
* 使用describe()了解數據表的統計情況: 總數、平均值、標準差、最小值、最大值等。
* 使用describe(include=['O'])查看字符串類型(非數字)的整體情況。
* 使用head查看前幾行數據(默認是前5行)
* 使用tail查看後幾行數據(默認是最後5行)
```python
import pandas as pd
# 数据加载
train_data = pd.read_csv('./Titanic_Data/train.csv')
test_data = pd.read_csv('./Titanic_Data/test.csv')
# 数据探索
print(train_data.info())
print('-'*30)
print(train_data.describe())
print('-'*30)
print(train_data.describe(include=['O']))
print('-'*30)
print(train_data.head())
print('-'*30)
print(train_data.tail())
```
運行結果:

In [4]:
import pandas as pd
# 数据加载
train_data = pd.read_csv('./Titanic_Data/train.csv')
test_data = pd.read_csv('./Titanic_Data/test.csv')
# 数据探索
print(train_data.info())
print('-'*30)
print(train_data.describe())
print('-'*30)
print(train_data.describe(include=['O']))
print('-'*30)
print(train_data.head())
print('-'*30)
print(train_data.tail())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None
------------------------------
       PassengerId    Survived      Pclass         Age       SibSp  \
count   891.000000  891.000000  891.000000  714.000000  891.000000   
mean    446.000000    0.383838    2.308642   29.699118    0.523008  

### 模塊2: 數據清洗
數據探索發現Age, Fare, Cabin三個字段有數據缺失。
1. Age為年齡字段，是int類型，可以通過**平均值**補齊。
2. Fare為船票價格，是int類型，可以通過其他人購買船票的**平均值**補齊。
```python
# 使用平均年龄来填充年龄中的nan值
train_data['Age'].fillna(train_data['Age'].mean(), inplace=True)
test_data['Age'].fillna(test_data['Age'].mean(),inplace=True)
# 使用票价的均值填充票价中的nan值
train_data['Fare'].fillna(train_data['Fare'].mean(), inplace=True)
test_data['Fare'].fillna(test_data['Fare'].mean(),inplace=True)
```
3. Cabin為船艙，有大量的缺失值，訓練集和測試集缺失率分別為77%和78%，無法補齊；
4. Embarked字段取值如下:
```python
print(train_data['Embarked'].value_counts())
```
結果如下:
```python
S    644
C    168
Q     77
```
一共只有3個港口，其中S港口人數最多，佔72%，因此將其餘缺失的Embarked數值均設置為S:
```python
# 使用登录最多的港口来填充登录港口的nan值
train_data['Embarked'].fillna('S', inplace=True)
test_data['Embarked'].fillna('S',inplace=True)
```

### 模塊3: 特徵選擇
**特徵選擇是分類器的關鍵**
1. PassengerId為乘客編號，對分類沒有作用可以放器
2. Name為乘客姓名，對分類沒有作用，可以放棄。(但也不一定，例如: 印度人的階級差異可以從姓名上看出來)
3. Cabin字段缺失值太多，可以放器；
4. Ticket為船票號碼，無規律，可以放器。(但也不一定，若是要看"數字迷信"是否存在，可以加進去看看)
5. 其餘: Pclass(船票等級)、Sex(性別)、Age(年齡)、SibSp and Parch(親戚數量)、Fare(船票價格)可能與生存預測有關，可以交給分類器處理。

#### 將特徵向量放到features
```python
# 特征选择
features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']
train_features = train_data[features]
train_labels = train_data['Survived']
test_features = test_data[features]
```
* 特徵值有些字符串，不方便後續計算，需轉乘數值類型，
    1. Sex male和female可以改為0與1。
    2. Embarked有S, C, Q三種可能，可以改成三個欄位分別為Embarked=S, Embarked=C, Embarked=Q，放入boolean值0或1來表示
* 使用sklearn特徵選擇中的DictVectorizer類，處理符號化的對象，將**符號轉成數字0/1**進行表示:
```python
from sklearn.feature_extraction import DictVectorizer
dvec=DictVectorizer(sparse=False)
train_features=dvec.fit_transform(train_features.to_dict(orient='record'))
```

* fit_transform可將特徵向量轉化為特徵值矩陣。查看dvec轉化後的**特徵屬性**，查看dvec的feature_names_屬性值: 

```python
print(dvec.feature_names_)

# 運行結果
# ['Age', 'Embarked=C', 'Embarked=Q', 'Embarked=S', 'Fare', 'Parch', 'Pclass', 'Sex=female', 'Sex=male', 'SibSp']
```

* 原本一欄的Embarked變成'Embarked=C', 'Embarked=Q', 'Embarked=S'三欄；Sex變成'Sex=female', 'Sex=male'兩欄。
* 這樣train_features這爭矩陣就包括10個特徵值(欄)，以及891個樣本(列)，891 x 10的特徵矩陣。

### 模塊4: 決策樹模型
1. 使用ID3算法，即創建DecisionTreeClassifier時設置criterion='entropy'
2. 使用fit進行訓練，將**特徵值矩陣**和**分類標識結果**作為參數傳入，得到決策樹分類器。
```python
from sklearn.tree import DecisionTreeClassifier
# 构造ID3决策树
clf = DecisionTreeClassifier(criterion='entropy')
# 决策树训练
clf.fit(train_features, train_labels)
```

### 模塊5: 模型預測&評估
1. 在預測中，需要先得到**測試集的特徵值**矩陣，然後使用**訓練好的決策樹clf**進行預測，得到預測結果pred_labels:
```python
test_features=dvec.transform(test_features.to_dict(orient='record'))
# 决策树预测
pred_labels = clf.predict(test_features)
```
2. 決策樹提供**score函數**可以直接得到準確率，但並不知道真實結果，故無法用**預測值**和**真實的預測結果**做比較。只能使用訓練集中的數據進行模型評估，可以使用決策樹自帶的**score函數**計算下得到結果:
```python
# 得到决策树准确率
acc_decision_tree = round(clf.score(train_features, train_labels), 6)
print(u'score准确率为 %.4lf' % acc_decision_tree)
```
運行結果:
```python
# score准确率为 0.9820
```
3. 使用**訓練集**做訓練，再用**訓練集**自身做準確率評估自然會很高，不能代表決策樹分類器的準確率。因為**沒有測試集的實際結果**，無法做**測試的預測結果**和**實際結果比較**，用score函數得到的準確率會接近100%。
4. 對於**不知道測試集實際結果**，要改用**K折交叉驗證**。原理是拿出大量樣本進行訓練，少量用於分類器的驗證。K折交叉驗證，就是做K次交叉驗證，每次選取K分之一的數據做為驗證，其餘做為訓練。輪流K次，取平均值。
    1. 將數據集平均分割成K等分
    2. 使用1分數據做為測試數據，其餘作為訓練數據。
    3. 計算測試準確率
    4. 使用不同的測試集，重複2, 3步驟
5. 在sklearn裡model_selection的**cross_val_score函數**。其中參數cv代表對原始數據劃分成多少份，即**K值**。一般建議K值取10，故設CV=10，可以對比score和cross_val_score兩種函數的正確率評估結果:
```python
import numpy as np
from sklearn.model_selection import cross_val_score
# 使用K折交叉验证 统计决策树准确率
print(u'cross_val_score准确率为 %.4lf' % np.mean(cross_val_score(clf, train_features, train_labels, cv=10)))
```
運行結果:
```python
cross_val_score准确率为 0.7835
```

### 模塊6: 決策樹可視化
使用Graphviz可視化工具: 
<img src="./images/18-12.png">
1. 安裝graphviz工具， http://www.graphviz.org/download/
2. 將graphviz添加到環境變亮PATH中
3. 需要Graphviz庫，pip install graphviz
在程序中使用Graphviz，最後得到pdf檔，Source.gv.pdf。

## 決策樹模型使用技巧總結
1. 特徵選擇是分類模型好壞的關鍵，一般情況下，特徵值不是數值類型，可以使用DictVectorizer類進行轉化。
2. 模型準確率需考慮**是否有測試集的實際結果可對比**，沒有真實結果可對比，需使用**K折交叉驗證*cross_val_score**。
3. Graphviz可視化工具可方便地將決策模型呈現出來，幫助理解決策樹的構建。

## 思考題
DictVectorizer類的fit_transform函數將特徵向量轉化為**特徵值矩陣**。DictVectorizer同時也包含transform函數，兩個函數有甚麼區別?

In [2]:
import pandas as pd
# 数据加载
train_data = pd.read_csv('./Titanic_Data/train.csv')
test_data = pd.read_csv('./Titanic_Data/test.csv')
# 数据探索
print(train_data.info())
print('-'*30)
print(train_data.describe())
print('-'*30)
print(train_data.describe(include=['O']))
print('-'*30)
print(train_data.head())
print('-'*30)
print(train_data.tail())

# 使用平均年龄来填充年龄中的nan值
train_data['Age'].fillna(train_data['Age'].mean(), inplace=True)
test_data['Age'].fillna(test_data['Age'].mean(),inplace=True)
# 使用票价的均值填充票价中的nan值
train_data['Fare'].fillna(train_data['Fare'].mean(), inplace=True)
test_data['Fare'].fillna(test_data['Fare'].mean(),inplace=True)
# 使用登录最多的港口来填充登录港口的nan值
train_data['Embarked'].fillna('S', inplace=True)
test_data['Embarked'].fillna('S',inplace=True)

# 特征选择
features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']
train_features = train_data[features]
train_labels = train_data['Survived']
test_features = test_data[features]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None
------------------------------
       PassengerId    Survived      Pclass         Age       SibSp  \
count   891.000000  891.000000  891.000000  714.000000  891.000000   
mean    446.000000    0.383838    2.308642   29.699118    0.523008  

In [16]:
help(train_features.to_dict)

Help on method to_dict in module pandas.core.frame:

to_dict(orient='dict', into=<class 'dict'>) method of pandas.core.frame.DataFrame instance
    Convert the DataFrame to a dictionary.
    
    The type of the key-value pairs can be customized with the parameters
    (see below).
    
    Parameters
    ----------
    orient : str {'dict', 'list', 'series', 'split', 'records', 'index'}
        Determines the type of the values of the dictionary.
    
        - 'dict' (default) : dict like {column -> {index -> value}}
        - 'list' : dict like {column -> [values]}
        - 'series' : dict like {column -> Series(values)}
        - 'split' : dict like
          {'index' -> [index], 'columns' -> [columns], 'data' -> [values]}
        - 'records' : list like
          [{column -> value}, ... , {column -> value}]
        - 'index' : dict like {index -> {column -> value}}
    
        Abbreviations are allowed. `s` indicates `series` and `sp`
        indicates `split`.
    
    into : c

In [25]:
# train_features.to_dict('list') #key為欄位名稱，values為各筆資料。
# train_features.to_dict('dict')   #key為欄位名稱，values為dict，{index:value, index: value....}
# train_features.to_dict('series')['Pclass'] 
#numpy的series格式，例如: train_labels將訓練結果欄位取出。
type(train_labels)
train_features.to_dict('records')

[{'Pclass': 3,
  'Sex': 'male',
  'Age': 22.0,
  'SibSp': 1,
  'Parch': 0,
  'Fare': 7.25,
  'Embarked': 'S'},
 {'Pclass': 1,
  'Sex': 'female',
  'Age': 38.0,
  'SibSp': 1,
  'Parch': 0,
  'Fare': 71.2833,
  'Embarked': 'C'},
 {'Pclass': 3,
  'Sex': 'female',
  'Age': 26.0,
  'SibSp': 0,
  'Parch': 0,
  'Fare': 7.925,
  'Embarked': 'S'},
 {'Pclass': 1,
  'Sex': 'female',
  'Age': 35.0,
  'SibSp': 1,
  'Parch': 0,
  'Fare': 53.1,
  'Embarked': 'S'},
 {'Pclass': 3,
  'Sex': 'male',
  'Age': 35.0,
  'SibSp': 0,
  'Parch': 0,
  'Fare': 8.05,
  'Embarked': 'S'},
 {'Pclass': 3,
  'Sex': 'male',
  'Age': 29.69911764705882,
  'SibSp': 0,
  'Parch': 0,
  'Fare': 8.4583,
  'Embarked': 'Q'},
 {'Pclass': 1,
  'Sex': 'male',
  'Age': 54.0,
  'SibSp': 0,
  'Parch': 0,
  'Fare': 51.8625,
  'Embarked': 'S'},
 {'Pclass': 3,
  'Sex': 'male',
  'Age': 2.0,
  'SibSp': 3,
  'Parch': 1,
  'Fare': 21.075,
  'Embarked': 'S'},
 {'Pclass': 3,
  'Sex': 'female',
  'Age': 27.0,
  'SibSp': 0,
  'Parch': 2,
  'Far

In [6]:
from sklearn.feature_extraction import DictVectorizer
dvec=DictVectorizer(sparse=False)
train_features=dvec.fit_transform(train_features.to_dict(orient='record'))
# train_features轉為numpy.ndarray資料格式




In [27]:
print(dvec.feature_names_)

['Age', 'Embarked=C', 'Embarked=Q', 'Embarked=S', 'Fare', 'Parch', 'Pclass', 'Sex=female', 'Sex=male', 'SibSp']


In [7]:
from sklearn.tree import DecisionTreeClassifier
# 构造ID3决策树
clf = DecisionTreeClassifier(criterion='entropy')
# 决策树训练
clf.fit(train_features, train_labels)

DecisionTreeClassifier(criterion='entropy')

In [8]:
test_features=dvec.transform(test_features.to_dict('records'))
# 决策树预测
pred_labels = clf.predict(test_features)

In [9]:
# 得到决策树准确率
acc_decision_tree = round(clf.score(train_features, train_labels), 6)
print(u'score准确率为 %.4lf' % acc_decision_tree)

score准确率为 0.9820


In [10]:
import numpy as np
from sklearn.model_selection import cross_val_score
# 使用K折交叉验证 统计决策树准确率
print(u'cross_val_score准确率为 %.4lf' % np.mean(cross_val_score(clf, train_features, train_labels, cv=10)))

cross_val_score准确率为 0.7756
