**Цель задания - с помощью игрушечных задач классификации разобраться в том, как работают деревья решений. Само по себе дерево решений - довольно слабый алгоритм, но основанные на нем алгоритмы случайного леса и градиентного бустинга - пожалуй, лучшее, что есть на сегодняшний день. Поэтому полезно разобраться в том, как работет дерево решений.**

In [1]:
from __future__ import division, print_function
# отключим всякие предупреждения Anaconda
import warnings
warnings.filterwarnings('ignore')
import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder
import collections

## Функции для расчета энтропии и прироста информации

In [2]:
# данные для тестирования: 9 синих шариков и 11 желтых
b = [1 for i in range(9)] + [0 for i in range(11)]
 
# два узла
b1 = [1 for i in range(8)] + [0 for i in range(5)] # 8 синих и 5 желтых
b2 = [1 for i in range(1)] + [0 for i in range(6)] # 1 синий и 6 желтых

In [3]:
b

[1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

In [4]:
b1

[1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0]

In [5]:
b2

[1, 0, 0, 0, 0, 0, 0]

## Задание 1

In [7]:
import math
from math import log
# расчет информационной энтропии для одного узла 
def entropy(a_list):
 
    if len(a_list) <= 1:
        return 0
 
    counts = np.bincount(a_list)
    probs = counts[np.nonzero(counts)] / len(a_list)
    n_classes = len(np.unique(a_list))
 
    if n_classes <= 1:
        return 0
    return - np.sum(probs * np.log(probs)) / np.log(n_classes)

In [8]:
entropy(b2)

0.5916727785823274

In [9]:
# расчет прироста информации
def information_gain(root, left, right):
    ''' root - изначальный набор данных, left и right два разбиения изначального набора'''
    root = np.asarray(root)
    left = np.asarray(left)
    right = np.asarray(right)
    igain = entropy(root)-(left.shape[0]/root.shape[0])*entropy(left)-(right.shape[0]/root.shape[0])*entropy(right)
    return igain

In [10]:
print(information_gain(b,b1,b2))

0.16088518841412427


In [11]:
#теперь поработаем с датасетом с 3 бинарными признаками
X=pd.DataFrame(np.array([[1,1,0,1,0,1],[1,1,1,0,0,1],[0,1,0,0,1,0]]).T)
y=[1,1,1,0,0,0]

In [12]:
X

Unnamed: 0,0,1,2
0,1,1,0
1,1,1,1
2,0,1,0
3,1,0,0
4,0,0,1
5,1,1,0


In [13]:
#функция для выбора одного из трех признаков с наилучшим разбиением (максимальный information gain)
def split(X,y):
    for feature in X:
        root = X[feature].to_numpy()
        left, right = [], []
        for i in range(len(root)):
            if y[i] == 0:
                left.append(root[i])
            else:
                right.append(root[i])
        print('Feature', feature)
        print(information_gain(root, left, right))

In [14]:
split(X, y)

Feature 0
0.0
Feature 1
0.4591479170272447
Feature 2
0.0


In [None]:
split(X,y)

признак № 0
1.1102230246251565e-16
признак № 1
0.4591479170272448
признак № 2
5.551115123125783e-17
