# 決定木のアルゴリズム

Reference : Induction of Decision Trees , J.R. QUINLAN  
https://hunch.net/~coms-4771/quinlan.pdf

In [1]:
import numpy as np
import pandas as pd
import matplotlib as plt

## ID3のアルゴリズム
このプログラムでは, ID3のアルゴリズムにおいてrootノードから, 1つ目の枝を作成する特徴量の決定を行う. 

In [200]:
from sklearn.preprocessing import LabelEncoder

# load and preprocess data
df = pd.read_csv("data5.csv")
print(df)

for col in df.columns:
    le=LabelEncoder()
    df[col] = le.fit_transform(df[col].to_numpy())

X = df.drop(columns=["Class"])
y = df["Class"] # ラベルが0のときN, ラベルが1のときP

     Outlook Temperature Humidity  Windy Class
0      sunny         hot     high  False     N
1      sunny         hot     high   True     N
2   overcast         hot     high  False     P
3       rain        mild     high  False     P
4       rain        cool   normal  False     P
5       rain        cool   normal   True     N
6   overcast        cool   normal   True     P
7      sunny        mild     high  False     N
8      sunny        cool   normal  False     P
9       rain        mild   normal  False     P
10     sunny        mild   normal   True     P
11  overcast        mild     high   True     P
12  overcast         hot   normal  False     P
13      rain        mild     high   True     N


In [201]:
# entropyの計算
def entropy(l):
    I=0
    sum_l = sum(l)
    for x in l:
        I=I-x/sum_l*np.log2(x/sum_l)
    
    return I

def id3(X,y,targetname):
    n = len(X)
    classlen = len(y.unique())
    ycounts = []
    dataset = pd.concat([X,y],axis=1)
    # クラス別のカウントをリストに格納
    for y in y.value_counts():
        ycounts.append(y)
        
    Iall = entropy(ycounts) # 全体のentropyを計算
    
    print("result gain")
    # 各属性について反復
    for a in X.columns:
        clist = X[a].unique()
        E = 0
        # 各ラベルの数をカウントしてリストに格納する.
        for c in clist:
            counts = []
            for v in dataset.loc[dataset[a]==c,"Class"].value_counts():
                counts.append(v)
            
            E += sum(counts)*entropy(counts)/len(X)
            
        print(a+" : {}".format(round(Iall-E,3)))

In [202]:
# 1回目の分岐
id3(X,y,"Class")

result gain
Outlook : 0.247
Temperature : 0.029
Humidity : 0.152
Windy : 0.048


gainはOutlookが最も高いから最初の分岐はoutlookで行われることがわかる.

In [207]:
# 2回目の分岐
for i in df["Outlook"].unique():
    df_2 = df[df["Outlook"]==i]
    print(df_2)
    X = df_2.drop(columns=["Outlook","Class"])
    y = df_2["Class"]
    
    print("Outlook = ",i)
    id3(X,y,"Class")
    print()

    Outlook  Temperature  Humidity  Windy  Class
0         2            1         0      0      0
1         2            1         0      1      0
7         2            2         0      0      0
8         2            0         1      0      1
10        2            2         1      1      1
Outlook =  2
result gain
Temperature : 0.571
Humidity : 0.971
Windy : 0.02

    Outlook  Temperature  Humidity  Windy  Class
2         0            1         0      0      1
6         0            0         1      1      1
11        0            2         0      1      1
12        0            1         1      0      1
Outlook =  0
result gain
Temperature : 0.0
Humidity : 0.0
Windy : 0.0

    Outlook  Temperature  Humidity  Windy  Class
3         1            2         0      0      1
4         1            0         1      0      1
5         1            0         1      1      0
9         1            2         1      0      1
13        1            2         0      1      0
Outlook =  1
result 

Outlook=0(forecast)のとき, Outlookのみで完全に分類できているから, gainが0であることが読み取れる. Outlook=1(rain)のとき, gain=0.971で最も大きいHumidityで2回目の分岐を行うのがよいことがわかる. Outlook=2(sunny)のとき, gain=0.971で最も大きいWindyで2回目の分岐を行うのが良いことがわかる. さらに, 2階の分類によって, 完全にクラス分類が完了していることが表から読み取れる. 1回目と2回目の分岐をまとめると, 論文と同様の決定木を構成することができる.

<img src="img/decisiontree_fig2.png">

## noiseが混ざっている場合
noiseが混ざっているケースとして, index0のOutlookをforecastに変更して実行してみる. このとき, index0とindex2は同じ特徴量になるが, 分類が異なるため矛盾したインスタンスになる.

In [195]:
# インスタンスにノイズを混ぜる
df.loc[0,"Outlook"] = 0

X = df.drop(columns=["Class"])
y = df["Class"]
df

Unnamed: 0,Outlook,Temperature,Humidity,Windy,Class
0,0,1,0,0,0
1,2,1,0,1,0
2,0,1,0,0,1
3,1,2,0,0,1
4,1,0,1,0,1
5,1,0,1,1,0
6,0,0,1,1,1
7,2,2,0,0,0
8,2,0,1,0,1
9,1,2,1,0,1


In [196]:
# 1回目の分岐
id3(X,y,"Class")

result gain
Outlook : 0.05
Temperature : 0.029
Humidity : 0.152
Windy : 0.048


ノイズが混ざっているため, outlookのgainは0.247から0.05に減少していることがわかる. さらにOutlookよりもHumidityのgainのほうが高いことがわかる.

In [198]:
# 2回目の分岐
for i in df["Humidity"].unique():
    df_2 = df[df["Humidity"]==i]
    print(df_2)
    X = df_2.drop(columns=["Humidity","Class"])
    y = df_2["Class"]
    
    print("Humidity = ",i)
    id3(X,y,"Class")
    print()

    Outlook  Temperature  Humidity  Windy  Class
0         0            1         0      0      0
1         2            1         0      1      0
2         0            1         0      0      1
3         1            2         0      0      1
7         2            2         0      0      0
11        0            2         0      1      1
13        1            2         0      1      0
Humidity =  0
result gain
Outlook : 0.306
Temperature : 0.02
Windy : 0.02

    Outlook  Temperature  Humidity  Windy  Class
4         1            0         1      0      1
5         1            0         1      1      0
6         0            0         1      1      1
8         2            0         1      0      1
9         1            2         1      0      1
10        2            2         1      1      1
12        0            1         1      0      1
Humidity =  1
result gain
Outlook : 0.198
Temperature : 0.128
Windy : 0.198

