# 機器學習 - 決策樹模型 (Decision Tree Model) (1)
- 學期: 111 機器學習 Summer Session 教材 (師培中心)
- 杜主民

## 什麼是決策樹模型
- 決策樹是條件式的多元分類器。
- 決策樹透過訓練資料的特徵值 (feartures)，學習出問題，然後來推斷其分類。
- 決策樹根節點 (父節點)開始，依據各個features 將資料作分割到左右兩邊。
- 分割的方式參考**熵 (Entropy)**與**信息增益 (Information Gain)**來判斷具意義特徵的分割。

## 決策樹用藥案例
- 使用投影片案例的數據
### $$熵 (Entropy) \Rightarrow \boxed{H(S)=\sum^c_{i=1}-p_i\cdot log_2\cdot p_i}$$
### $$資訊獲利\Rightarrow \boxed{Gain(S, A) = H(S) - \sum^v_{i=1}\frac{|S_i|}{|S|}\cdot H(S_i)}$$

In [1]:
import pandas as pd
import numpy as np

In [3]:
性別 = ['男','女','男','男','女','男','女','男','男','女','女','男']
年齡 = [20,73,37,33,48,29,52,42,61,30,26,54]
血壓 = ['正常','正常','高','低','高','正常','正常','低','正常','正常','低','高']
藥物 = ['A','B','A','B','A','A','B','B','B','A','B','A']

In [5]:
df = pd.DataFrame([性別,年齡,血壓,藥物])
df = df.T
df.columns=['性別','年齡','血壓','藥物']
data = df.copy()

In [6]:
df.head(3)

Unnamed: 0,性別,年齡,血壓,藥物
0,男,20,正常,A
1,女,73,正常,B
2,男,37,高,A


### 資料集合 𝑆 整體的亂度 - 使用藥物 A 或 B 

In [7]:
H_藥物 = -0.5*np.log2(0.5) - 0.5*np.log2(0.5)
print(H_藥物)

1.0


### 子集合 「性別」 屬性亂度以及資訊獲利
```python
- 性別欄位有 7 個男性，5 個女性。
- 7 個男性中，有 4 個的使用藥物是 'A'; 3 個的使用藥物是 'B'。
- 5 個女性中，有 2 個的使用藥物是 'A'; 3 個的使用藥物是 'B'。
- 因此，性別欄位是男性的 Entropy = (7/12) * ((-4/7)*np.log2(4/7) + (-4/3)*np.log2(3/7))
- 因此，性別欄位是女性的 Entropy = (5/12) * ((-2/5)*np.log2(2/5) + (-3/5)*np.log2(3/5))
```

In [8]:
# 性別資料子集合屬性亂度
H_性別_男 = (7/12) * ((-4/7)*np.log2(4/7) + (-3/7)*np.log2(3/7))
H_性別_女 = (5/12) * ((-2/5)*np.log2(2/5) + (-3/5)*np.log2(3/5))
print(H_性別_男)
print(H_性別_女)

0.5747164126866467
0.4045627476894453


In [9]:
H_性別 = H_性別_男 + H_性別_女
print(H_性別)

0.979279160376092


In [10]:
print('性別屬性資訊獲利:', H_藥物 - H_性別)

性別屬性資訊獲利: 0.020720839623908027


### 子集合「血壓」屬性亂度以及資訊獲利
- 血壓欄位有 3 個血壓低，6 個血壓正常，3 個血壓高。
- 3 個血壓低，都是使用藥物 'B'。
- 6 個血壓正常，有3 個使用藥物 'A'; 3 個使用藥物 'B'。
- 3 個血壓高，都是使用藥物 'A'。
- 因此，血壓是低的 Entropy = (3/12) * ((-3/3)*np.log2(3/3) + 0 * np.log2(0))
- 因此，血壓是正常的 Entropy = (6/12) * ((-3/6)*np.log2(3/6) + (-3/6)*np.log2(3/6))
- 因此，血壓是高的 Entropy = (3/12) * ((-3/3)*np.log2(3/3) + 0 * np.log2(0))

In [11]:
H_血壓_低   = (3/12) * (-3/3)*np.log2(3/3) + 0
H_血壓_正常 = (6/12) * ((-3/6)*np.log2(3/6) + (-3/6)*np.log2(3/6))
H_血壓_高   = (3/12) * (-3/3)*np.log2(3/3) + 0

In [12]:
H_血壓 = H_血壓_低 + H_血壓_正常 + H_血壓_高
print(H_血壓)

0.5


In [13]:
print('血壓屬性資訊獲利:', H_藥物 - H_血壓)

血壓屬性資訊獲利: 0.5


### 在「年紀」特徵值下，計算目標藥物A或B的熵

<hr style='border-color:brown; border-width:3px'>

## 決策樹模型 - 天氣評估案例

### 資料集合S 有14筆資料，其中有 9 個打網球正例，5 個不打網球的反例

In [14]:
# 天氣評估案例 - 資料集合 S 的整體亂度 (打網球) 
H_S = -9/14*np.log2(9/14) - 5/14*np.log2(5/14)
print(H_S)

0.9402859586706311


### 子集合 wind 屬性亂度以及資訊獲利
- wind 屬性， weak   風力有 8 筆，其中 6 筆打網球，2 筆不打網球
- wind 屬性， strong 風力有 6 筆，其中 3 筆打網球，3 筆不打網球

In [15]:
# wind 資料子集合屬性亂度
H_S_wind_weak   = 8/14 * ((-6/8)*np.log2(6/8)-(2/8)*np.log2(2/8))
H_S_wind_strong = 6/14 * ((-3/6)*np.log2(3/6)-(3/6)*np.log2(3/6))
print(H_S_wind_weak)
print(H_S_wind_strong)

0.46358749969093305
0.42857142857142855


In [16]:
H_S_wind = H_S_wind_weak + H_S_wind_strong
print('wind 屬性資訊獲利:', H_S - H_S_wind)

wind 屬性資訊獲利: 0.04812703040826949


### 子集合 humidity 屬性亂度以及資訊獲利
- humidity 屬性，hight 有 7 筆，其中 3 筆打網球，4 筆不打網球
- humidity 屬性，noral 有 7 筆，其中 6 筆打網球，1 筆不打網球

In [17]:
# humidity 資料子集合屬性亂度
H_S_humi_high   = 7/14 * ((-3/7)*np.log2(3/7)-(4/7)*np.log2(4/7))
H_S_humi_norm = 7/14 * ((-6/7)*np.log2(6/7)-(1/7)*np.log2(1/7))
print(H_S_humi_high)
print(H_S_humi_norm)

0.49261406801712576
0.29583638929116374


In [18]:
H_S_humidity = H_S_humi_high + H_S_humi_norm
print('humidity 屬性資訊獲利:', H_S - H_S_humidity)

humidity 屬性資訊獲利: 0.15183550136234159


### 子集合 outlook 屬性亂度以及資訊獲利
- outlook 屬性，sunny 有 5 筆，其中 2 筆打網球，3 筆不打網球
- outlook 屬性，overcase 有 4 筆，其中 4 筆打網球，0 筆不打網球
- outlook 屬性，rain 有 5 筆，其中 3 筆打網球，2 筆不打網球

In [22]:
H_S_outk_sunny = 5/14 * ((-2/5)*np.log2(2/5)-(3/5)*np.log2(3/5))
#H_S_outk_ocast = 4/14 * ((-4/4)*np.log2(4/4)-(0/4)*np.log2(0/4))
H_S_outk_ocast = 0 
H_S_outk_rain  = 5/14 * ((-3/5)*np.log2(3/5)-(2/5)*np.log2(2/5))
print(H_S_outk_sunny)
print(H_S_outk_ocast)
print(H_S_outk_rain)

0.3467680694480959
0
0.3467680694480959


In [20]:
H_S_outlook = H_S_outk_sunny + H_S_outk_ocast + H_S_outk_rain
print('humidity 屬性資訊獲利:', H_S - H_S_outlook)

humidity 屬性資訊獲利: 0.24674981977443933


<hr style='border-color:brown; border-width:3px'>

## 決策樹模型 - 購買筆電案例

年紀 | 收入 | 學生 | 購買筆電
:--: | :--: | :--: | :--: |
<=30 | 高 | 否 | 否 |
31..40 | 高 | 否 | 是 |
>40 | 中 | 否 | 是 |
>40 | 低 | 是 | 否 |
31..40 | 低 | 是 | 是 |
<=30 | 中 | 否 | 否 |
<=30 | 低 | 是 | 是 |
<=30 | 中 | 是 | 是 |
31..40 | 中 | 否 | 是 |
31..40 | 高 | 是| 是 |
>40 | 中 | 是 | 否 |

### 資料集合S 有11筆資料，其中有 7 筆購買筆電正例，4 個不購買筆電反例

In [39]:
# 購買筆電案例 - 資料集合 S 的整體亂度 (購買筆電) 
H_S = -7/11*np.log2(7/11) - 4/11*np.log2(4/11)
print('購買筆電的整體 entropy:', H_S)

購買筆電的整體 entropy: 0.9456603046006401


### 子集合 student 屬性亂度以及資訊獲利
- student 屬性， 是學生有 6 筆，其中 4 筆打購買筆電，2 筆不購買筆電
- student 屬性， 不是學生有 5 筆，其中 3 筆購買筆電，2 筆不購買筆電

In [27]:
# student 資料子集合屬性亂度
H_S_student_Y   = 6/11 * ((-4/6)*np.log2(4/6)-(2/6)*np.log2(2/6))
H_S_student_N   = 5/11 * ((-3/5)*np.log2(3/5)-(2/5)*np.log2(2/5))
print(H_S_student_Y)
print(H_S_student_N)

0.5008886367569942
0.4413411792975766


In [35]:
H_S_student = H_S_student_Y + H_S_student_N
print('student 的 entropy:', H_S_student)
print('student 屬性資訊獲利:', H_S - H_S_student)

student 的 entropy: 0.9422298160545708
student 屬性資訊獲利: 0.00343048854606931


### 子集合 income 屬性亂度以及資訊獲利
- income 屬性，高的筆數有 3 筆，其中 2 筆購買筆電，1 筆不購買
- income 屬性，中的筆數有 5 筆，其中 3 筆購買筆電，2 筆不購買
- income 屬性，低的筆數有 3 筆，其中 2 筆購買筆電，1 筆不購買

In [29]:
# income 資料子集合屬性亂度
H_S_income_H   = 3/11 * ((-2/3)*np.log2(2/3)-(1/3)*np.log2(1/3)) # 高收入
H_S_income_M   = 5/11 * ((-3/5)*np.log2(3/5)-(2/5)*np.log2(2/5)) # 中收入
H_S_income_L   = 3/11 * ((-2/3)*np.log2(2/3)-(1/3)*np.log2(1/3)) # 低收入
print(H_S_income_H)
print(H_S_income_M)
print(H_S_income_L)

0.2504443183784971
0.4413411792975766
0.2504443183784971


In [37]:
H_S_income = H_S_income_H + H_S_income_M + H_S_income_L
print('income 的 entropy:', H_S_income)
print('income 屬性資訊獲利:', H_S - H_S_income)

income 的 entropy: 0.9422298160545709
income 屬性資訊獲利: 0.003430488546069199


### 子集合 age 屬性亂度以及資訊獲利
- age 屬性，<=30 的筆數有 4 筆，其中 2 筆購買筆電，2 筆不購買
- age 屬性，31..40 的筆數有 4 筆，其中 4 筆購買筆電，0 筆不購買
- age 屬性，>40 的筆數有 3 筆，其中 1 筆購買筆電，2 筆不購買

In [31]:
# age 資料子集合屬性亂度
H_S_age_L = 4/11 * ((-2/4)*np.log2(2/4)-(2/4)*np.log2(2/4)) #  年紀 <= 30
#H_S_age_M = 4/11 * ((-4/4)*np.log2(4/4)-(0/4)*np.log2(0/4)) # 年紀 31..40
H_S_age_M = 0
H_S_age_H = 3/11 * ((-1/3)*np.log2(1/3)-(2/3)*np.log2(2/3)) # 年紀 > 40
print(H_S_age_L)
print(H_S_age_M)
print(H_S_age_H)

0.36363636363636365
0
0.2504443183784971


In [36]:
H_S_age = H_S_age_L + H_S_age_M + H_S_age_H
print('age 的 entropy:', H_S_age)
print('age 屬性資訊獲利:', H_S - H_S_age)

age 的 entropy: 0.6140806820148608
age 屬性資訊獲利: 0.33157962258577933


### 由上述的計算可得知個特徵值的資訊獲利如下:
- 特徵值 student 的資訊獲利= 
- 特徵值 income 的資訊獲利= 0.003430488546069199
- 特徵值 age 的資訊獲利= 0.33157962258577933
### 從以上的計算結果，若欲決策數的方式呈現，則根節點應該優先選擇 age 特徵，因為可以帶來最佳的分類結果。