## 不純度の実験
ここでは交差エントロピーとジニ係数の試験をする   

In [1]:
import numpy as np

### 状況設定
識別規則により親ノードが以下のように分割されたと仮定   

    親ノード → positive:negative = 50:50  (データ数：100）   
    子ノード（右） → positive:negative = 20:80  (データ数：40）   
    子ノード（左） → positive:negative = 90:10  (データ数：60）   

In [2]:
parent_node = np.concatenate([np.zeros([50,1]), np.ones([50,1])], axis=0)
child_node_r = np.concatenate([np.zeros([8,1]), np.ones([32,1])], axis=0)
child_node_l = np.concatenate([np.zeros([54,1]), np.ones([9,1])], axis=0)

### エントロピー

In [3]:
def entropy(target):
    classes = np.unique(target)
    num_data = len(target)

    val = 0
    for c in classes:
        p = float(len(target[target == c])) / num_data
    if p!=0.0:
        val -= p * np.log(p)

    return val

In [4]:
# 親ノードのエントロピー
entropy_p = entropy(parent_node)

# 分割後のノードのエントロピー
entropy_cr = entropy(child_node_r)
p_cr = len(child_node_r) / len(parent_node)
entropy_cl = entropy(child_node_l)
p_cl = len(child_node_l) / len(parent_node)

# 子ノードのエントロピー
entropy_c = (p_cr * entropy_cr) + (p_cl * entropy_cl)

In [5]:
# エントロピーでの不純度の減り方
impurity_e1 = entropy_p - entropy_c

In [6]:
impurity_e1

0.10003574044444735

### ジニ係数

In [7]:
def gini_func(target):
    val = 1.0
    classes = np.unique(target)
    num_data = len(target)
    for c in classes:
        p = float(len(target[target == c])) / num_data
        val -= p ** 2.0

    return val

In [8]:
# 親ノードのジニ係数
gini_p = gini_func(parent_node)

# 子ノードのジニ係数
gini_cr = gini_func(child_node_r)
p_cr = len(child_node_r) / len(parent_node)
gini_cl = gini_func(child_node_l)
p_cl = len(child_node_l) / len(parent_node)
gini_c = (p_cr * gini_cr) + (p_cl * gini_cl)

In [9]:
# ジニ係数での不純度の減り方
impurity_g1 = gini_p - gini_c

In [10]:
impurity_g1

0.21771428571428575

## 別の分割方法と結果を比べる

In [11]:
# 親ノードは同じで子ノード内の割合を変える
parent_node = np.concatenate([np.zeros([50,1]), np.ones([50,1])], axis=0)
child_node_r = np.concatenate([np.zeros([16,1]), np.ones([24,1])], axis=0)
child_node_l = np.concatenate([np.zeros([34,1]), np.ones([26,1])], axis=0)

In [12]:
# 親ノードのエントロピー
entropy_p = entropy(parent_node)

# 分割後のノードのエントロピー
entropy_cr = entropy(child_node_r)
p_cr = len(child_node_r) / len(parent_node)
entropy_cl = entropy(child_node_l)
p_cl = len(child_node_l) / len(parent_node)

# 子ノードのエントロピー
entropy_c = (p_cr * entropy_cr) + (p_cl * entropy_cl)

In [13]:
# エントロピーでの不純度の減り方
impurity_e2 = entropy_p - entropy_c

In [14]:
impurity_e2

0.006550954283974064

In [15]:
# 親ノードのジニ係数
gini_p = gini_func(parent_node)

# 子ノードのジニ係数
gini_cr = gini_func(child_node_r)
p_cr = len(child_node_r) / len(parent_node)
gini_cl = gini_func(child_node_l)
p_cl = len(child_node_l) / len(parent_node)
gini_c = (p_cr * gini_cr) + (p_cl * gini_cl)

In [16]:
# ジニ係数での不純度の減り方
impurity_g2 = gini_p - gini_c

In [17]:
impurity_g2

0.013333333333333364

### 結果の比較

In [18]:
# エントロピー
print('Entropy\nGood Fit Model: {}\nBad Fit Model: {}'.format(impurity_e1, impurity_e2))

Entropy
Good Fit Model: 0.10003574044444735
Bad Fit Model: 0.006550954283974064


In [19]:
# ジニ係数
print('Gini Index\nGood Fit Model: {}\nBad Fit Model: {}'.format(impurity_g1, impurity_g2))

Gini Index
Good Fit Model: 0.21771428571428575
Bad Fit Model: 0.013333333333333364


いずれの不純度の出し方においてもよりよく分割できているデータセットの方が不純度を大きく減らしているとわかる