# Sprint 機械学習スクラッチ 決定木

## 【考察】

* どう決定木は作られていくか。
* 以下の条件次第で、木の構成は変わる。
    * 学習方法
    * ハイパーパラメータ
    * 訓練データ

* 今回の決定木は量的変数のみに特化する。
    * カテゴリ変数には「0と1」で代用する。
    


In [1]:
import numpy as np

In [2]:
class ScratchDecesionTreeClassifierDepth1():
    """
    深さ1の決定木分類器のスクラッチ実装

    Parameters
    ----------
    verbose : bool
      学習過程を出力する場合はTrue
    """
    def __init__(self, verbose=False):
        # ハイパーパラメータを属性として記録
        self.verbose = verbose
    def fit(self, X, y):
        """
        決定木分類器を学習する
        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            訓練データの特徴量
        y : 次の形のndarray, shape (n_samples, )
            訓練データの正解値
        """
        if self.verbose:
            #verboseをTrueにした際は学習過程を出力
            print()
        pass
    def predict(self, X):
        """
        決定木分類器を使いラベルを推定する
        """
        pass
        return

## 【問題1】不純度を求める関数（CART式）

### ノードのジニ不純度を計算する関数を作成してください

* ジニ不純度とは、そのノードでのサンプルのクラスの異なりが同程度存在する確率。
    * 確率が高いとノード内のサンプルが全て、異なるクラスに属している。
        * データが半々なのは悪い分類
    * 確率が低いとノード内のサンプルが全て、同じクラスに属している。
    * ベルヌーイ分布における、全てのクラスの分散の和に相当する。
* ノード内の不純度を最大限減らす（ジニ不純度が低い）素性と閾値の組を選ぶために、ジニ不純度を用いる。
* 不純度が最も低ければジニ不純度の値は0、不純度が高くなればなるほどジニ不純度の値が1に漸近する。（[参照先url](https://qiita.com/3000manJPY/items/ef7495960f472ec14377)）
* 最終的に情報利得Δgainで算出する。
    * 利得が高い特徴と閾値ほど、不純度を最大限減らせる。
    


1. ジニ係数を算出する関数を構築する。
2. ジニ係数を用い、情報利得を算出する関数を構築する。


In [3]:
def gini_coef(*args):
    """""
    ジニ係数を算出する。
    
    Parameters
    ----------
    *args : int
        根ノード内の各特徴量毎のサンプル数（値）を渡す。
        
    return
    ----------
    ジニ係数
    """""
    sample_all = sum(args)
    gini_coef_answer = 0
    for i in range(len(args)):
        gini_coef_answer += np.power(args[i]/sample_all, 2)
    return 1 - gini_coef_answer

In [4]:
# クラス1:サンプル数15, クラス2:サンプル数15 → ジニ不純度0.500
print(f'例題1のジニ不純度: {gini_coef(15, 15)}')
print()
# クラス1:サンプル数15, クラス2:サンプル数15, クラス3:サンプル数15 → ジニ不純度0.667
print(f'例題2のジニ不純度: {gini_coef(15, 15, 15) :.2f}')
print()
# クラス1:サンプル数18, クラス2:サンプル数12 → ジニ不純度0.480
print(f'例題3のジニ不純度: {gini_coef(18, 12)}')
print()
# クラス1:サンプル数30, クラス2:サンプル数0 → ジニ不純度0.000
print(f'例題4のジニ不純度: {gini_coef(30, 0)}')

例題1のジニ不純度: 0.5

例題2のジニ不純度: 0.67

例題3のジニ不純度: 0.48

例題4のジニ不純度: 0.0


## 【問題2】情報利得を求める関数

* 問題1で算出した確率はジニ不純度（ジニ係数）$I(t)$をroot_node $I(p)$として用いる。
* 左右各ノードのサンプル数を引数として情報利得を算出する。

In [5]:
def info_gain(left_node_1, left_node_2, right_node_1, right_node_2):
    """""
    情報利得を算出する。
    
    Parameters
    ----------
    left_node_1 : int
        左ノード内の第1特徴量のサンプル数（値）を渡す。
    left_node_2 : int
        左ノード内の第2特徴量のサンプル数（値）を渡す。
    right_node_1 : int
        右ノード内の第1特徴量のサンプル数（値）を渡す。
    right_node_2 : int
        右ノード内の第2特徴量のサンプル数（値）を渡す。
        
    return
    ----------
    gain : float
        情報利得
    """""    
    sample_all_list = [left_node_1, left_node_2, right_node_1, right_node_2] # パラメータのリスト化
    sample_all = sum(sample_all_list) # 全サンプルの総和
    
    left_all = np.add(left_node_1, left_node_2) # 左分岐の総和
    # print(f'left_all: {left_all}')
    right_all = np.add(right_node_1, right_node_2) # 右分岐の総和
    # print(f'right_all: {right_all}')
    root_node = [left_node_1 + right_node_1, left_node_2 + right_node_2] # 根ノードの左右総和数をリスト化
    # print(f'root_node: {root_node}')
    
    gini_coef_answer = 0 
    for i in range(len(root_node)):
        gini_coef_answer += np.power(root_node[i]/sample_all, 2)
    gini_coef = 1 - gini_coef_answer # ジニ係数
    # print(f'gini_coef: {gini_coef}')
    
    left_node_coef = 1 - (np.power(left_node_1/left_all, 2) + np.power(left_node_2/left_all, 2)) # 左ノードのジニ係数
    # print(f'left_node_coef: {left_node_coef}')
    right_node_coef = 1 - (np.power(right_node_1/right_all, 2) + np.power(right_node_2/right_all, 2)) # 右ノードのジニ係数
    # print(f'right_node_coef: {right_node_coef}')
    gain = gini_coef - ((left_all/sample_all) * left_node_coef) - ((right_all/sample_all) * right_node_coef) # 情報利得の算出
    
    # print(f'左辺: {(left_all/sample_all) * left_node_coef}')
    # print(f'右辺: {(right_all/sample_all) * right_node_coef}')
    return gain

In [6]:
# test
# 左ノードクラス1:サンプル数10, 左ノードクラス2:サンプル数30, 右ノードクラス1:サンプル数20, 右ノードクラス2:サンプル数5 → 情報利得0.143
answer = info_gain(10, 30, 20, 5)
print('例題の情報利得：0.143')
print(f'スクラッチ関数の利得：{answer:.3f}')

例題の情報利得：0.143
スクラッチ関数の利得：0.143


## 【問題3】学習

1. 全サンプルの情報利得を算出する。

    1. 説明変数Xから、行列内の要素を一つ抽出する。
    2. 抽出した要素を閾値として、全ての説明変数を葉ノードに振り分ける。
        * 閾値以下：左
        * 閾値以上：右
    3. 左右の葉ノード内も目的変数yの0, 1の個数を返す。
        * 情報利得算出に必要なのはラベル別の個数！
            * 葉ノードのラベル別個数
                * left_node_1
                * left_node_2
                * right_node_1
                * right_node_2
    4. 問題2の関数を用いて、情報利得を算出する。
    5. 算出した情報利得を新しい行列内に追記する。
    6. 最初に戻り、次のインデックスを抽出する。（繰り返す）
    7. 全てのインデックスを基に算出した情報利得を代入した行列を完成させる。
2. 最大値の情報利得を抽出する。
    1. numpyの特性上、情報利得を代入した行列内の各列毎の最大値を抽出する。
    2. 各列毎の最大値の中で、最も高い数値の要素とインデックスを抽出する。
    3. 抽出した要素とインデックスをインスタンス化させて、次の推定に活用する。
    
    
    
    閾値をとりあえず設定する。
    データを2領域に分割する（閾値を基に）
    分割した領域の中でラベル事の個数を求める。
    利得を求める。
    以降、繰り返す。

In [93]:
# Sample data
X = np.array([[1, 2],[3, 4], [5, 6], [7, 8], [9, 10]])
y = np.array([0, 1, 1, 0, 1]).reshape(5, 1)
X

array([[ 1,  2],
       [ 3,  4],
       [ 5,  6],
       [ 7,  8],
       [ 9, 10]])

In [59]:
# 目的変数yの1次元行列の内、0のインデックス、1のインデックスを返す。
y_count_0 = np.where(y == 0)[0].tolist()
y_count_1 = np.where(y == 1)[0].tolist()
print(f'インデックス0の位置：{y_count_0} \nインデックス1の位置：{y_count_1}')

# 返されたインデックスが、説明変数Xの行数になる。
# 0と1の個数も同時に算出する。（np.uniqueのreturn_countsを使う。）
counts_0_1 = np.unique(y, return_counts=True)[1]
print(f'インデックス0の個数：{counts_0_1[0]}\nインデックス1の個数：{counts_0_1[1]}')

インデックス0の位置：[0, 3] 
インデックス1の位置：[1, 2, 4]
インデックス0の個数：2
インデックス1の個数：3


In [103]:
# 閾値から葉ノードへの分別
# 0列目が4の場合とする。
# 0列目が4以下の場合はleft、4以上の場合はright

threshold = X[1, 1]
terminal_node_left_index = list(zip(*np.where(X < threshold)))
terminal_node_right_index = list(zip(*np.where(X > threshold)))
# terminal_node_left_array = X[]
# print(f'左の葉ノード（0列目が3以下）に分別された行列：')

In [104]:
# 0列目の要素
print(X[:, 0])

[1 3 5 7 9]


In [117]:
# 0列目が閾値以下に該当する行数
threshold = 4

terminal_node_left_row_0 = list(zip(*np.where(X[:, 0] < threshold)))
print(f'0列目が閾値以下（左葉ノード）に該当する行数：{terminal_node_left_row_0}')

# 1列目が閾値以下に該当する行数
terminal_node_left_row_1 = list(zip(*np.where(X[:, 1] < threshold)))
print(f'1列目が閾値以下（左葉ノード）に該当する行数：{terminal_node_left_row_1}')

# 0列目が閾値以上に該当する行数
terminal_node_right_row_0 = list(zip(*np.where(X[:, 0] > threshold)))
print(f'0列目が閾値以上（右葉ノード）に該当する行数：{terminal_node_right_row_0}')

# 1列目が閾値以上に該当する行数
terminal_node_right_row_1 = list(zip(*np.where(X[:, 1] > threshold)))
print(f'1列目が閾値以上（右葉ノード）に該当する行数：{terminal_node_right_row_0}')


0列目が閾値以下（左葉ノード）に該当する行数：[(0,), (1,)]
1列目が閾値以下（左葉ノード）に該当する行数：[(0,)]
0列目が閾値以上（右葉ノード）に該当する行数：[(2,), (3,), (4,)]
1列目が閾値以上（右葉ノード）に該当する行数：[(2,), (3,), (4,)]


In [112]:
# 0列目が閾値3の場合
# 葉ノードのラベル別個数
# terminal_node_left_row_0の返り値は行数
# インデックス0と1の位置が代入されたリストと照合して、left_node_1とleft_node_2に分別する。


left_node_1 = len(terminal_node_left_row_0)


#left_node_2 = len()
#right_node_1 =
#right_node_2 =

2

In [None]:
def fit(self, X, y):
    """
    決定木分類器を学習する
    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
        訓練データの特徴量
    y : 次の形のndarray, shape (n_samples, )
        訓練データの正解値
    """
  
    # 1_A
    threshold = X[0, 0]
    terminal_node_left = np.where(X < threshold)
    terminal_node_right = 
    root_node_0 = left_node_1 + right_node_1
    root_node_1 = left_node_2 + right_node_2
    
    root_node = [root_node_0, root_node_1] # 根ノードの左右総和数をリスト化
    # print(f'root_node: {root_node}')
    
    
    if self.verbose:
        #verboseをTrueにした際は学習過程を出力
        print()
    
    
    
    
    pass

In [7]:
root_node = [40, 25]
sample_all = sum(root_node)
gini_coef_answer = 0 

for i in range(len(root_node)):
    gini_coef_answer += np.power(root_node[i]/sample_all, 2)
gini_coef = 1 - gini_coef_answer # ジニ係数

gini_coef

0.47337278106508873

In [8]:
# Sample data
X = np.array([[1, 2],[3, 4], [5, 6], [7, 8], [9, 10]])
y = np.array([0, 1, 1, 0, 1]).reshape(5, 1)
y.shape

(5, 1)

In [9]:
root_node_array = np.append(X, y, axis=1)
root_node_array

array([[ 1,  2,  0],
       [ 3,  4,  1],
       [ 5,  6,  1],
       [ 7,  8,  0],
       [ 9, 10,  1]])

In [10]:
root_node_0 = np.any(root_node_array[:, 2:3] == 0, axis=1)
root_node_0

array([ True, False, False,  True, False])

In [108]:
root_node_array

array([[ 1,  2,  0],
       [ 3,  4,  1],
       [ 5,  6,  1],
       [ 7,  8,  0],
       [ 9, 10,  1]])