# 決定木スクラッチ
ジニ係数とは？
2つの累積相対度数を用いて描かれたローレンツ曲線を使うと、「偏り＝不均等さ」を確認できます。

例えば、次の各都道府県内にある映画館のスクリーン数のデータから作成したローレンツ曲線の赤い矢印をたどると、約80％の都道府県内で全国のすべてのスクリーン数の40％強があるということが分かります。逆に、残りの約20％の都道府県内には60％弱ものスクリーン数があるということなので、スクリーンの分布は不均等であることが分かります。

ジニ係数1
この「偏り」や「不均等さ」を数値で表したものが「ジニ係数」です。ジニ係数は完全平等線（(0,0)と(1,1)を結ぶ線：図中の黒破線）とローレンツ曲線との間の面積（次の図の橙色部分）を2倍した値になります。ジニ係数は0から1までの値をとり、1に近いほど偏りが大きく、0に近いほど偏りが小さいことを表します。

In [117]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import pandas as pd
from collections import Counter
import warnings
warnings.filterwarnings('ignore')

In [118]:
dataset =np.array([[2.771244718,1.784783929,0],
    [1.728571309,1.169761413,0],
    [3.678319846,2.81281357,0],
    [3.961043357,2.61995032,0],
    [2.999208922,2.209014212,0],
    [7.497545867,3.162953546,1],
    [9.00220326,3.339047188,1],
    [7.444542326,0.476683375,1],
    [10.12493903,3.234550982,1],
    [6.642287351,3.319983761,1]])

[True, True, False]

In [119]:
dataset = pd.DataFrame(dataset)

In [120]:
target = dataset[2]
train = dataset[[0,1]]

In [121]:
def sign(x,b):
    x2 = x.copy()
    for xi,bi in zip(list(x2.columns),b):
        x2[xi] = (x2.loc[:,xi] >= bi) * 1
        
    return x2

In [122]:
def gini(x,y,b):
    gini_list2 = []
    gini_list = []
    x2 = sign(x,b)
    m = x2.shape[0]
    count_y = Counter(y)
    for col in list(x.columns):
        count = Counter(x2[col])
        for c,n in count.items():
            l = (sum((x2[col] == c) &(y == c)))
            pre1 = (l/n)**2
            r = (sum((x2[col] == c)&(y != c)))
            pre2 = (r/n)**2
            C = (n/m)*(1-pre1+pre2)
            gini_list2.append(C)
        gini_list.append(sum(gini_list2))
        
        gini_list2 = []
        
    return gini_list

In [123]:
def gini_grad(x,y):
    best_gini = [10.0 for i in range(x.shape[1])]
    best_gini = np.array(best_gini)
    test_list = [0 for i in range(x.shape[1])]
    best_b = []
    for i in range(train.shape[0]):
        b = list(train.iloc[i])
        gini_list = np.array(gini(x,y,b))
        if np.any(best_gini > gini_list):
            gini_index = np.where(best_gini > gini_list)
            for index in gini_index[0]:                   
                test_list[index] = i
            
        best_gini[best_gini > gini_list] = gini_list[gini_list < best_gini]

    for i,x_g in enumerate(test_list):
        best_b.append(x[i][x_g])
    return best_gini,best_b

In [124]:
def tree(x,y):
    best_gini,best_b = gini_grad(x,y)
    best_index = list(best_gini).index(min(best_gini))
    best_b2 = [best_b[best_index]]
    main = pd.DataFrame(x[best_index])
    main_pred = sign(main,best_b2)
    
    #正解と判断
    left = main_pred[main_pred == 1]
    left = pd.fillna
    

    return left

In [125]:
def sign(x,b):
    x2 = x.copy()
    for xi,bi in zip(list(x2.columns),b):
        x2[xi] = (x2.loc[:,xi] >= bi) * 1
        
    return x2

In [151]:
gini_grad(train,target)

(array([0. , 0.2]), [6.642287351, 3.162953546])

In [126]:
tree(train,target)

Unnamed: 0,0
0,
1,
2,
3,
4,
5,1.0
6,1.0
7,1.0
8,1.0
9,1.0


In [127]:
sign(pd.DataFrame(train[0]),[5])

Unnamed: 0,0
0,0
1,0
2,0
3,0
4,0
5,1
6,1
7,1
8,1
9,1


In [128]:
a = np.array([10,11])
b = np.array([12.5,2.8])

a[a > b] = b[b < a]

a[0:2]


array([10,  2])

In [129]:
gini_grad(train,target)

(array([0. , 0.2]), [6.642287351, 3.162953546])

In [130]:
sign(train,[6.642287351, 3.162953546])

Unnamed: 0,0,1
0,0,0
1,0,0
2,0,0
3,0,0
4,0,0
5,1,1
6,1,1
7,1,0
8,1,1
9,1,1


In [131]:
train.shape

(10, 2)

In [132]:
test = pd.DataFrame(np.random.randint(0,10,(10,2)))

In [142]:
test

Unnamed: 0,0,1
0,6,9
1,9,8
2,7,9
3,2,8
4,3,5
5,8,4
6,7,8
7,9,7
8,3,1
9,0,1


In [143]:
y_test = np.array([0,1,1,0,0,1,1,0,1,0])

In [144]:
pd.Series(y_test)

0    0
1    1
2    1
3    0
4    0
5    1
6    1
7    0
8    1
9    0
dtype: int64

In [145]:
pred = sign(test, [6.642287351, 3.162953546])

In [146]:
pred[0]

0    0
1    1
2    1
3    0
4    0
5    1
6    1
7    1
8    0
9    0
Name: 0, dtype: int64

In [147]:
import sklearn.metrics 

In [148]:
sklearn.metrics.accuracy_score(y_test,pred[0])

0.8