# Sprint 機械学習スクラッチ 決定木

## 【考察】

* どう決定木は作られていくか。
* 以下の条件次第で、木の構成は変わる。
    * 学習方法
    * ハイパーパラメータ
    * 訓練データ

* 今回の決定木は量的変数のみに特化する。
    * カテゴリ変数には「0と1」で代用する。
    


In [2]:
import numpy as np


In [1]:
class ScratchDecesionTreeClassifierDepth1():
    """
    深さ1の決定木分類器のスクラッチ実装

    Parameters
    ----------
    verbose : bool
      学習過程を出力する場合はTrue
    """
    def __init__(self, verbose=False):
        # ハイパーパラメータを属性として記録
        self.verbose = verbose
    def fit(self, X, y):
        """
        決定木分類器を学習する
        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            訓練データの特徴量
        y : 次の形のndarray, shape (n_samples, )
            訓練データの正解値
        """
        if self.verbose:
            #verboseをTrueにした際は学習過程を出力
            print()
        pass
    def predict(self, X):
        """
        決定木分類器を使いラベルを推定する
        """
        pass
        return

## 【問題1】不純度を求める関数（CART式）

### ノードのジニ不純度を計算する関数を作成してください

* ジニ不純度とは、そのノードでのサンプルのクラスの異なりが同程度存在する確率。
    * 確率が高いとノード内のサンプルが全て、異なるクラスに属している。
        * データが半々なのは悪い分類
    * 確率が低いとノード内のサンプルが全て、同じクラスに属している。
    * ベルヌーイ分布における、全てのクラスの分散の和に相当する。
* ノード内の不純度を最大限減らす（ジニ不純度が低い）素性と閾値の組を選ぶために、ジニ不純度を用いる。
* 不純度が最も低ければジニ不純度の値は0、不純度が高くなればなるほどジニ不純度の値が1に漸近する。（[参照先url](https://qiita.com/3000manJPY/items/ef7495960f472ec14377)）
* 最終的に情報利得Δgainで算出する。
    * 利得が高い特徴と閾値ほど、不純度を最大限減らせる。
    


1. ジニ係数を算出する関数を構築する。
2. ジニ係数を用い、情報利得を算出する関数を構築する。


In [86]:
def gini_coef(*args):
    """""
    
    """""
    sample_all = sum(args)
    gini_coef_answer = 0
    for i in range(len(args)):
        gini_coef_answer += np.power(args[i]/sample_all, 2)
    return 1 - gini_coef_answer

In [88]:
# クラス1:サンプル数15, クラス2:サンプル数15 → ジニ不純度0.500
print(f'例題1のジニ不純度: {gini_coef(15, 15)}')
print()
# クラス1:サンプル数15, クラス2:サンプル数15, クラス3:サンプル数15 → ジニ不純度0.667
print(f'例題2のジニ不純度: {gini_coef(15, 15, 15) :.2f}')
print()
# クラス1:サンプル数18, クラス2:サンプル数12 → ジニ不純度0.480
print(f'例題3のジニ不純度: {gini_coef(18, 12)}')
print()
# クラス1:サンプル数30, クラス2:サンプル数0 → ジニ不純度0.000
print(f'例題4のジニ不純度: {gini_coef(30, 0)}')

例題1のジニ不純度: 0.5

例題2のジニ不純度: 0.67

例題3のジニ不純度: 0.48

例題4のジニ不純度: 0.0


## 【問題2】情報利得を求める関数

* 問題1で算出した確率はジニ不純度（ジニ係数）$I(t)$をroot_node $I(p)$として用いる。
* 左右各ノードのサンプル数を引数として情報利得を算出する。

In [109]:
def info_gain(left_node_1, left_node_2, right_node_1, right_node_2):
    sample_all_list = [left_node_1, left_node_2, right_node_1, right_node_2]
    sample_all = sum(sample_all_list)
    left_all = np.add(left_node_1, left_node_2)
    right_all = np.add(right_node_1, right_node_2)
    root_node = [left_all, right_all]
    
    gini_coef_answer = 0
    for i in range(1):
        gini_coef_answer += np.power(root_node[i]/sample_all, 2)
    gini_coef = 1 - gini_coef_answer
    
    left_node = 1 - ((np.power(left_node_1/left_all), 2) + (np.power(left_node_2/left_all), 2))
    right_node = 1 - ((np.power(right_node_1/left_all), 2) + (np.power(right_node_2/left_all), 2))
    gain = gini_coef - left_node - right_node
    return gain

In [110]:
info_gain(10, 30, 20, 5)

ValueError: invalid number of arguments

In [None]:
left_node_1 = 
left_all = 

np.power(left_node_1/left_all), 2
