In [7]:
import pandas as pd
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score
import numpy as np
from sklearn.metrics import confusion_matrix
from pandas.plotting import scatter_matrix
import itertools
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import mean_squared_error
from sklearn import metrics
%matplotlib inline
import scipy.stats as stats


class ScratchDecesionTreeClassifierDepth1():
    """
    深さ1の決定木分類器のスクラッチ実装
    Parameters
    ----------
    verbose : bool
      学習過程を出力する場合はTrue
    """
    def __init__(self, verbose=False):
        # ハイパーパラメータを属性として記録
        self.gini = None
        self.verbose = verbose
        self.best_ig = None
        self.best_feature = None
        self.best_threshold = None
        self.label_left = None
        self.label_right = None
        
    def gini_score(self, target):
        classes = np.unique(target)
        total_num = target.shape[0]
    
        gini = 1.0
        for c in classes:
#             print(c)
            gini -= (len(target[target==c])/total_num) ** 2.0 #ジニ不純度の計算
#             print(gini)
        
        return gini
    
    
#     def build(data, target):
#         #対象とするサンプルの個数
#         total_num = data.shape[0] #シェイプの行の個数を取得
#         feature_num = data.shape[1] #シェイプで特徴量の個数を取得
    
#         #ベストな分割を記憶しておくための変数の用意(これを更新していく)
#         best_ig = 0 #情報利用初期値
#         best_feature = None #最高の特徴量の初期値
#         best_threshold = None #最高の特徴量の初期値
    
# #         self.gini = gini_score(target) #ジニ不純を求める
    
#         for f in range(feature_num): #特徴量の数だけfor文を回す
        
#             #分割候補の計算
#             data_f = np.unique(data[:, f]) #f番目の特徴量(重複削除)
        
#             for threshold in data_f:
            
#                 #閾値で２グループに分割
#                 target_left = target[data[:,f] < threshold] #dataのインデックスからターゲットのインデックスを参照して取得する。
#                 target_right = target[data[:,f] >= threshold] #dataのインデックスからターゲットのインデックスを参照して取得する。
            
#                 #分割後の不純度から情報利得(information gain)を計算
#                 gini_left = gini_score(target_left) #左側のGINIスコアを計算
#                 gini_right = gini_score(target_right) #右側のGINIスコアを計算
#                 p_left = float(target_left.shape[0]) / total_num #左側に分類されたサンプル数と全体のサンプル数
#                 p_right = float(target_right.shape[0]) / total_num #右側に分類されたサンプル数と全体のサンプル数
#                 ig = gini - (p_left * gini_left + p_right * gini_right) #情報利得IGを求める(両側のサンプル数とジニ不純度の掛け合わせ)
            
#                 #最も良い分割であれば更新して保持
#                 if ig > best_ig: #出てきたGINI不純度を更新
#                     self.best_ig = ig
#                     self.best_feature = f #一番よかったときの特徴量を記録 
#                     self.best_threshold = threshold #一番よかったときの閾値を保存
                
#             #情報利得が増えなければ終了(現在のノードを葉ノードにする)
#             if best_ig == 0:
#                 return
        
        
    def fit(self, data, target):
        #対象とするサンプルの個数
        total_num = data.shape[0] #シェイプの行の個数を取得
        feature_num = data.shape[1] #シェイプで特徴量の個数を取得
    
        #ベストな分割を記憶しておくための変数の用意(これを更新していく)
        self.best_ig = 0 #情報利用初期値
        self.best_feature = None #最高の特徴量の初期値
        self.best_threshold = None #最高の特徴量の初期値
    
        self.gini = self.gini_score(target) #ジニ不純を求める
    
        for f in range(feature_num): #特徴量の数だけfor文を回す
        
            #分割候補の計算
            data_f = np.unique(data[:, f]) #f番目の特徴量(重複削除)
        
            for threshold in data_f:
            
                #閾値で２グループに分割
                target_left = target[data[:,f] < threshold] #dataのインデックスからターゲットのインデックスを参照して取得する。
                target_right = target[data[:,f] >= threshold] #dataのインデックスからターゲットのインデックスを参照して取得する。
            
                #分割後の不純度から情報利得(information gain)を計算
                gini_left = self.gini_score(target_left) #左側のGINIスコアを計算
                gini_right = self.gini_score(target_right) #右側のGINIスコアを計算
                p_left = float(target_left.shape[0]) / total_num #左側に分類されたサンプル数と全体のサンプル数
                p_right = float(target_right.shape[0]) / total_num #右側に分類されたサンプル数と全体のサンプル数
                ig = self.gini - (p_left * gini_left + p_right * gini_right) #情報利得IGを求める(両側のサンプル数とジニ不純度の掛け合わせ)
            
                #最も良い分割であれば更新して保持
                if ig > self.best_ig: #出てきたGINI不純度を更新
                    self.best_ig = ig
                    self.best_feature = f #一番よかったときの特徴量を記録 
                    self.best_threshold = threshold #一番よかったときの閾値を保存
                
            #情報利得が増えなければ終了(現在のノードを葉ノードにする)
#             if best_ig == 0:
#                 return
        print('Best_threshold:{}'.format(self.best_threshold))
        print('Best_feature:{}'.format(self.best_feature))
        
        terget_left = target[data[:, self.best_feature] < self.best_threshold]
        print ('terget_left{}'.format(terget_left))
        
        terget_right = target[data[:, self.best_feature] >= self.best_threshold]
        print ('terget_right{}'.format(terget_right))
        print('-----------------------------------')
        
        self.label_left = stats.mode(terget_left)[0][0]
        self.label_right = stats.mode(terget_right)[0][0]
        """
        決定木分類器を学習する
        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            訓練データの特徴量
        y : 次の形のndarray, shape (n_samples, )
            訓練データの正解値
        """
#         if self.verbose:
#             #verboseをTrueにした際は学習過程を出力
# #             print()
#         pass
    
    
    def predict_tree(self, d):
        if d[self.best_feature] < self.best_threshold:
            return self.label_left
        else:
            return self.label_right
    
    
    def predict(self, data):
        """
        決定木分類器を使いラベルを推定する
        """
        
        ans = []
        
        for d in data:
            label = self.predict_tree(d)# ルートノードでクラス予測したラベルが返ってくる
#             print(label)
            ans.append(label)
        return np.array(ans)
    
    def print_tree(self, depth, TF):
        """分類条件を出力する"""

        head = "    " * depth + TF + " -> "

        # 節の場合
        if self.feature != None:
            print(head + str(self.best_feature) + " < " + str(self.best_threshold) + "?")
            self.left.print_tree(depth + 1, "T")
            self.right.print_tree(depth + 1, "F")

        # 葉の場合
        else:
            print(head + "{" + str(self.label) + ": " + str(self.total_num) + "}")

In [8]:
X_simple = np.array([[-0.44699 , -2.8073  ],[-1.4621  , -2.4586  ],
       [ 0.10645 ,  1.9242  ],[-3.5944  , -4.0112  ],
       [-0.9888  ,  4.5718  ],[-3.1625  , -3.9606  ],
       [ 0.56421 ,  0.72888 ],[-0.60216 ,  8.4636  ],
       [-0.61251 , -0.75345 ],[-0.73535 , -2.2718  ],
       [-0.80647 , -2.2135  ],[ 0.86291 ,  2.3946  ],
       [-3.1108  ,  0.15394 ],[-2.9362  ,  2.5462  ],
       [-0.57242 , -2.9915  ],[ 1.4771  ,  3.4896  ],
       [ 0.58619 ,  0.37158 ],[ 0.6017  ,  4.3439  ],
       [-2.1086  ,  8.3428  ],[-4.1013  , -4.353   ],
       [-1.9948  , -1.3927  ],[ 0.35084 , -0.031994],
       [ 0.96765 ,  7.8929  ],[-1.281   , 15.6824  ],
       [ 0.96765 , 10.083   ],[ 1.3763  ,  1.3347  ],
       [-2.234   , -2.5323  ],[-2.9452  , -1.8219  ],
       [ 0.14654 , -0.28733 ],[ 0.5461  ,  5.8245  ],
       [-0.65259 ,  9.3444  ],[ 0.59912 ,  5.3524  ],
       [ 0.50214 , -0.31818 ],[-3.0603  , -3.6461  ],
       [-6.6797  ,  0.67661 ],[-2.353   , -0.72261 ],
       [ 1.1319  ,  2.4023  ],[-0.12243 ,  9.0162  ],
       [-2.5677  , 13.1779  ],[ 0.057313,  5.4681  ]])
y_simple = np.array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [9]:
tree_scrach_simple = ScratchDecesionTreeClassifierDepth1()
tree_scrach_simple.fit(X_simple, y_simple)

Best_threshold:5.3524
Best_feature:1
terget_left[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1]
terget_right[0 0 1 1 1 1 1 1 1 1 1]
-----------------------------------


In [10]:
y_simple_predict = tree_scrach_simple.predict(X_simple)

In [11]:
print('confusion matrix = \n', confusion_matrix(y_true=y_simple, y_pred=y_simple_predict))
print('accuracy = ', accuracy_score(y_true=y_simple, y_pred=y_simple_predict))
print('precision = ', precision_score(y_true=y_simple, y_pred=y_simple_predict))
print('recall = ', recall_score(y_true=y_simple, y_pred=y_simple_predict))
print('f1 score = ', f1_score(y_true=y_simple, y_pred=y_simple_predict))

confusion matrix = 
 [[18  2]
 [11  9]]
accuracy =  0.675
precision =  0.8181818181818182
recall =  0.45
f1 score =  0.5806451612903226
