In [1]:
import numpy as np

In [2]:
def gini(labels):
    n = len(labels)
    probs = [sum(labels==i)/n for i in set(labels)]
    return sum([p*(1-p) for p in probs])

labels = np.array([0,0,1,1,1,2,2])
print(f"Function:            {gini(labels):.4f}")
print(f"Analytical solution: {32/49:.4f}")

Function:            0.6531
Analytical solution: 0.6531


In [3]:
gini(np.array([1,1,-1,-1]))

0.5

In [4]:
labels==1

array([False, False,  True,  True,  True, False, False])

In [5]:
def optimal_split(data, labels):
    """From class"""
    m = len(data)
    xs = data[:,0]
    ys = data[:,1]
    
    mids = [(data[i, 0] + data[j,0])/2
            for i in range(m)
            for j in range(i+1, m)],\
           [(data[i, 1] + data[j,1])/2
            for i in range(m)
            for j in range(i+1, m)]
    non_mids = [x for x in mids[0] if x not in xs],\
               [y for y in mids[1] if y not in ys]
    
    splits = [(0, non_mids[0][i]) for i in range(len(non_mids[0]))] + \
             [(1, non_mids[1][i]) for i in range(len(non_mids[1]))]
    
    split_inds = []
    
    for s in splits:
        L = [labels[i] for i in range(m) if data[i][s[0]] <= s[1]]
        R = [labels[i] for i in range(m) if data[i][s[0]]  > s[1]]
        
        g = 0
        if (len(L) > 0) and (len(R) > 0):
            g = len(L) * gini(L) + len(R) * gini(R)
        
        split_inds.append([s, g/m])
    
    return sorted(split_inds, key=lambda x: x[1])

data = np.array([(1,2), (3,3), (-1,2), (6,1), (2,2), (3,-1), (3,4)])
s0 = optimal_split(data, labels)

s0

[[(1, 0.5), 0.5238095238095238],
 [(1, 3.5), 0.5238095238095238],
 [(1, 0.5), 0.5238095238095238],
 [(1, 0.0), 0.5238095238095238],
 [(1, 0.5), 0.5238095238095238],
 [(1, 2.5), 0.5428571428571429],
 [(1, 2.5), 0.5428571428571429],
 [(1, 2.5), 0.5428571428571429],
 [(1, 2.5), 0.5428571428571429],
 [(0, 2.5), 0.5476190476190477],
 [(0, 2.5), 0.5476190476190477],
 [(0, 2.5), 0.5476190476190477],
 [(0, 2.5), 0.5476190476190477],
 [(0, 0.0), 0.5714285714285714],
 [(0, 3.5), 0.5714285714285714],
 [(0, 4.5), 0.5714285714285714],
 [(0, 0.5), 0.5714285714285714],
 [(0, 4.0), 0.5714285714285714],
 [(0, 4.5), 0.5714285714285714],
 [(0, 4.5), 0.5714285714285714],
 [(0, 1.5), 0.6],
 [(1, 1.5), 0.6],
 [(1, 1.5), 0.6],
 [(1, 1.5), 0.6],
 [(1, 1.5), 0.6]]

In [6]:
labels = np.array([1,1,-1,-1])
data = np.array([(0,0),(1,1),(1,0),(0,1)])

sq = optimal_split(data, labels)

sq

[[(0, 0.5), 0.5],
 [(0, 0.5), 0.5],
 [(0, 0.5), 0.5],
 [(0, 0.5), 0.5],
 [(1, 0.5), 0.5],
 [(1, 0.5), 0.5],
 [(1, 0.5), 0.5],
 [(1, 0.5), 0.5]]

In [8]:
def compute_nodes(s, data, labels):
    L = [i for i in range(len(data)) if data[i][s[0]] <= s[1]]
    R = [i for i in range(len(data)) if data[i][s[0]]  > s[1]]
    
    L = np.array([data[i] for i in L]), [labels[i] for i in L]
    R = np.array([data[i] for i in R]), [labels[i] for i in R]
    return L, R

L0, R0 = compute_nodes(sq[0][0], data, labels)

L0

(array([[0, 0],
        [0, 1]]),
 [1, -1])

In [6]:
R0

(array([[ 1,  2],
        [ 3,  3],
        [-1,  2],
        [ 6,  1],
        [ 2,  2],
        [ 3,  4]]),
 [0, 0, 1, 1, 1, 2])

In [7]:
s1 = optimal_split(R0[0], R0[1])
s1

[[(1, 3.5), 0.39999999999999997],
 [(1, 2.5), 0.4166666666666667],
 [(1, 2.5), 0.4166666666666667],
 [(1, 2.5), 0.4166666666666667],
 [(1, 2.5), 0.4166666666666667],
 [(0, 0.0), 0.5333333333333333],
 [(0, 3.5), 0.5333333333333333],
 [(0, 4.5), 0.5333333333333333],
 [(0, 0.5), 0.5333333333333333],
 [(0, 4.0), 0.5333333333333333],
 [(0, 4.5), 0.5333333333333333],
 [(1, 1.5), 0.5333333333333333],
 [(1, 1.5), 0.5333333333333333],
 [(1, 1.5), 0.5333333333333333],
 [(0, 2.5), 0.5555555555555556],
 [(0, 2.5), 0.5555555555555556],
 [(0, 2.5), 0.5555555555555556],
 [(0, 1.5), 0.5833333333333334]]

In [8]:
L1, R1 = compute_nodes(s1[0][0], data, labels)

L1

(array([[ 1,  2],
        [ 3,  3],
        [-1,  2],
        [ 6,  1],
        [ 2,  2],
        [ 3, -1]]),
 [0, 0, 1, 1, 1, 2])

In [9]:
R1

(array([[3, 4]]), [2])

In [10]:
s2 = optimal_split(L1[0], L1[1])
s2

[[(1, 0.5), 0.39999999999999997],
 [(1, 0.5), 0.39999999999999997],
 [(1, 0.0), 0.39999999999999997],
 [(1, 0.5), 0.39999999999999997],
 [(1, 2.5), 0.46666666666666673],
 [(1, 2.5), 0.46666666666666673],
 [(1, 2.5), 0.46666666666666673],
 [(1, 1.5), 0.5],
 [(1, 1.5), 0.5],
 [(1, 1.5), 0.5],
 [(0, 0.0), 0.5333333333333333],
 [(0, 3.5), 0.5333333333333333],
 [(0, 4.5), 0.5333333333333333],
 [(0, 0.5), 0.5333333333333333],
 [(0, 4.0), 0.5333333333333333],
 [(0, 4.5), 0.5333333333333333],
 [(0, 2.5), 0.5555555555555556],
 [(0, 2.5), 0.5555555555555556],
 [(0, 2.5), 0.5555555555555556],
 [(0, 1.5), 0.5833333333333334]]

In [15]:
from sklearn.tree import DecisionTreeClassifier

T = DecisionTreeClassifier()

T.fit(data, labels)
T.predict([[0,1]])

array([1])