<a href="https://colab.research.google.com/github/ituki0426/decision-tree/blob/main/ml_scratch_decision_tree.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

This notebook is based on https://github.com/yuuhi-s/diveintocode-ml/blob/master/diveintocode-term1/sprint6/sprint6-ml-scratch-decision-tree.ipynb

# 問題1 ジニ不純度を求める関数

In [7]:
import numpy as np

ジニ不純度I(t)

$I(t) = 1 - \sum_{1\le i\le K}P^2(C_i | t)  = 1 - \sum_{1\le i\le K}(N_i / N_a)^2 $

$P(C_i | t ) $：t番目のノードにおける$C_i$の割合

$N_i$：t番目のノードのi番目のクラスに属するサンプル数

$N_a$：t番目のノードのサンプルの総数

In [8]:
y = np.array([[0],[0],[0], [1], [1]])

In [9]:
def _gini_impure(y):
  # yのクラスのユニーク値を取得
  y_unique = np.unique(y)
  labels = len(y)
  print("y_unique : {}, labels : {}".format(y_unique,labels))
  #ラベルの総数が０のときはジニ不純度を０とする
  if labels == 0:
    gini = 0
    return gini
  #初期値
  gini = 1
  for i in y_unique:
    #あるクラスに属するサンプル数とノードのサンプルの総数を割る
    val = len(y[y==i])/labels
    gini = gini - val**2.0
  return gini

In [10]:
gini = _gini_impure(y)
print(gini)

y_unique : [0 1], labels : 5
0.48


# 問題２ 情報利得（Information gain）を求める

情報利得(Infomation Grain)IGは以下の数式で求まります。

$IG(p) = I(p) - N_l/N_p*I(left) - N_r/N_p*I(right)$

$p$：親ノードを示すインデックス

$left$：左側のノードを示すインデックス

$right$：右側のノードを示すインデックス

例

左ノードクラス1:サンプル数10, 左ノードクラス2:サンプル数30, 右ノードクラス1:サンプル数20, 右ノードクラス2:サンプル数5

In [11]:
# 親ノード
p = 1 - ((30/65)**2 + (35/65)**2)
p

0.4970414201183432

In [12]:
left = (40/65) * (1 - ((10/40)**2 + (30/40)**2))
left

0.23076923076923078

In [13]:
right = (25/65) * (1 - ((20/25)**2 + (5/25)**2))
right

0.12307692307692303

In [14]:
#Infomation Grain
p-left-right

0.14319526627218937

In [18]:
#親ノード
p1 = np.zeros(30)
p2 = np.ones(35)
p = np.concatenate([p1,p2])[:,np.newaxis]

left1 = np.zeros(10)
left2 = np.ones(30)
left = np.concatenate([left1,left2])[:,np.newaxis]

right1 = np.zeros(20)
right2 = np.ones(5)
right = np.concatenate([right1,right2])[:,np.newaxis]

In [19]:
def _information_gain(y_p,y_left,y_right):
  p = _gini_impure(y_p)
  left = _gini_impure(y_left)
  right = _gini_impure(y_right)
  return p - (len(y_left)/len(y_p))*left - (len(y_right)/len(y_p))*right

In [20]:
print(_information_gain(p,left,right))

y_unique : [0. 1.], labels : 65
y_unique : [0. 1.], labels : 40
y_unique : [0. 1.], labels : 25
0.14319526627218943
