# Урок 4. Практическое задание к уроку деревья решений

### Подготовка к решению

In [119]:
!pip install graphviz



In [120]:
import matplotlib.pyplot as plt
import random

from matplotlib.colors import ListedColormap
from sklearn import datasets
from sklearn import model_selection
from graphviz import Digraph # если дерево ниже не отображается, требуется установить библиотеку python-graphviz

import numpy as np

### 1. В коде из методички реализуйте один или несколько из критериев останова (количество листьев, количество используемых признаков, глубина дерева и т.д.).

In [121]:
# dot = Digraph(node_attr={'shape': 'box'})
 
# dot.node('A', label='Клиент старше 18 лет?')
# dot.node('B', label='Превышает ли его заработок 50 тысяч рублей?')
# dot.node('C', label='Отказать')
# dot.node('D', label='Были ли у клиента просроченные кредиты ранее?')
# dot.node('E', label='Отказать')
# dot.node('F', label='Отказать')
# dot.node('G', label='Выдать')
 
# dot.edge('A', 'B', label='да')
# dot.edge('A', 'C', label='нет')
# dot.edge('B', 'D', label='да')
# dot.edge('B', 'E', label='нет')
# dot.edge('D', 'F', label='да')
# dot.edge('D', 'G', label='нет')
 
# # dot

In [122]:
# Класс узла
class Node:
    
    def __init__(self, index, t, true_branch, false_branch):
        self.index = index  # индекс признака, по которому ведется сравнение с порогом в этом узле
        self.t = t  # значение порога
        self.true_branch = true_branch  # поддерево, удовлетворяющее условию в узле
        self.false_branch = false_branch  # поддерево, не удовлетворяющее условию в узле

    def __str__(self):
        return f'Признак: {self.index}\nПорог: {self.t:.2f}'
        
# Класс терминального узла (листа)
class Leaf:
    
    def __init__(self, data, labels):
        self.data = data
        self.labels = labels  # y_true
        self.prediction = self.predict()  # y_pred
        
    def predict(self):
        # подсчет количества объектов разных классов
        classes = {}  # сформируем словарь "класс: количество объектов"
        for label in self.labels:
            if label not in classes:
                classes[label] = 0
            classes[label] += 1
        #  найдем класс, количество объектов которого будет максимальным в этом листе и вернем его    
        prediction = max(classes, key=classes.get)
        return prediction

In [123]:
# Расчет критерия Джини
def gini(labels):
    #  подсчет количества объектов разных классов
    classes = {}
    for label in labels:
        if label not in classes:
            classes[label] = 0
        classes[label] += 1
    
    #  расчет критерия
    impurity = 1     # "impurity" - "нечистота", степень неопределенности
    for label in classes:
        p = classes[label] / len(labels)
        impurity -= p ** 2
        
    return impurity

In [124]:
# Расчет качества
def quality(left_labels, right_labels, current_gini):

    # доля выборки, ушедшей в левое поддерево
    p = float(left_labels.shape[0]) / (left_labels.shape[0] + right_labels.shape[0]) # для правого (1-p)
    
    return current_gini - p * gini(left_labels) - (1 - p) * gini(right_labels)

In [125]:
# Разбиение датасета в узле
def split(data, labels, index, t):
    
    left = np.where(data[:, index] <= t)
    right = np.where(data[:, index] > t)
        
    true_data = data[left]
    false_data = data[right]
    true_labels = labels[left]
    false_labels = labels[right]
        
    return true_data, false_data, true_labels, false_labels

In [126]:
# Нахождение наилучшего разбиения
def find_best_split(data, labels):
    
    #  обозначим минимальное количество объектов в узле
    min_leaf = 5

    current_gini = gini(labels)

    best_quality = 0
    best_t = None
    best_index = None
    
    n_features = data.shape[1]
    
    for index in range(n_features):
        t_values = [row[index] for row in data]
        
        for t in t_values:
            true_data, false_data, true_labels, false_labels = split(data, labels, index, t)
            #  пропускаем разбиения, в которых в узле остается менее 5 объектов
            if len(true_data) < min_leaf or len(false_data) < min_leaf:
                continue
            
            current_quality = quality(true_labels, false_labels, current_gini)
            
            #  выбираем порог, на котором получается максимальный прирост качества
            if current_quality > best_quality:
                best_quality, best_t, best_index = current_quality, t, index

    return best_quality, best_t, best_index

#### Решение:

In [None]:
# #ограничение по глубине дерева
# def build_tree(data, labels, level_limit=2, leaf_limit=2, max_level=4):
#     if max_level < 0: raise Exception('Logic errror')
#     quality, t, index = find_best_split(data, labels)

#     if quality == 0 or level_limit or leaf_limit or all(l == labels[0] for l in labels):
#         return Leaf(data, labels)
    
#     true_data, false_data, true_labels, false_labels = split(data, labels, index, t)

#     true_branch  = build_tree(true_data,  true_labels,  max_level - 1)
#     false_branch = build_tree(false_data, false_labels, max_level - 1)

#     # Возвращаем класс узла со всеми поддеревьями, то есть целого дерева
#     return Node(index, t, true_branch, false_branch)

In [127]:
leaf_count = 0
level = 0

# Построение дерева с помощью рекурсивной функции
def build_tree(data, labels, leaf_limit=2 ** 32, level_limit=2 ** 32):
    global leaf_count, level
    
    quality, t, index = find_best_split(data, labels)    

    if quality == 0 or leaf_count + 1 == leaf_limit or level == level_limit or all(l == labels[0] for l in labels):        
        return Leaf(data, labels)
        
    true_data, false_data, true_labels, false_labels = split(data, labels, index, t)

    # Рекурсивно строим два поддерева
    level += 1    
    
    leaf_count += 1   
    true_branch = build_tree(true_data, true_labels, leaf_limit, level_limit)    
    leaf_count += 1 
    false_branch = build_tree(false_data, false_labels, leaf_limit, level_limit)
    
    # Возвращаем класс узла со всеми поддеревьями, то есть целого дерева
    return Node(index, t, true_branch, false_branch)

##### Тестирование:

In [128]:
# сгенерируем данные
classification_data, classification_labels = datasets.make_classification(n_features = 2, n_informative = 2, 
                                                      n_classes = 2, n_redundant=0, 
                                                      n_clusters_per_class=1, random_state=5)

train_data, test_data, train_labels, test_labels = model_selection.train_test_split(classification_data, 
                                                                                     classification_labels, 
                                                                                     test_size = 0.3,
                                                                                     random_state = 1)

# Построим дерево по обучающей выборке
leaf_count = 0
level = 0
my_tree = build_tree(train_data, train_labels, 
                     leaf_limit=4, 
                     level_limit=3)

##### Проверка:

In [129]:
leaf_count = 0

# Напечатаем структуру нашего дерева
def print_tree(node, prev_node):
    global leaf_count
    
    # Если лист, то выводим его прогноз
    if isinstance(node, Leaf):
#         dot.node(f'leaf {leaf_count}', label=f'leaf {leaf_count}\nПрогноз: {node.prediction}')        
        dot.edge(str(prev_node.t), f'leaf {leaf_count}')
        leaf_count += 1
        return

    # Рекурсионный вызов функции на положительном поддереве
    dot.node(str(node.t), label=str(node))
    if prev_node is not None:
        dot.edge(str(prev_node.t), str(node.t))
        
    print_tree(node.true_branch, node)

    # Рекурсионный вызов функции на отрицательном поддереве
    dot.node(str(node.t), label=str(node))
    print_tree(node.false_branch, node)

dot = Digraph(node_attr={'shape': 'box'})    
print_tree(my_tree, None)   
# dot

In [130]:
leaf_count = 0
level = 0
my_tree = build_tree(train_data, train_labels)

leaf_count = 0

dot = Digraph(node_attr={'shape': 'box'})    
print_tree(my_tree, None)

In [131]:
leaf_count = 0
level = 0
my_tree = build_tree(train_data, train_labels, leaf_limit=2,level_limit=3)

leaf_count = 0

dot = Digraph(node_attr={'shape': 'box'})    
print_tree(my_tree, None)   
# dot

In [132]:
leaf_count = 0
level = 0
my_tree = build_tree(train_data, train_labels, leaf_limit=4, level_limit=2)

leaf_count = 0

dot = Digraph(node_attr={'shape': 'box'})    
print_tree(my_tree, None)   
# dot

In [133]:
# Качество ответов на тестовой выборке лучше у дерева с ограничением глубины



#### 2. Для задачи классификации обучить дерево решений с использованием критериев разбиения Джини и Энтропия. Сравнить качество классификации, сделать выводы.

In [134]:
# Расчет критерия Энтропии

def entropy(labels):
    #  подсчет количества объектов разных классов
    classes = {}
    for label in labels:
        if label not in classes:
            classes[label] = 0
        classes[label] += 1
    
    #  расчет критерия
    impurity = 0
    for label in classes:
        p = classes[label] / len(labels)
        impurity -= p *np.log2(p)
        
    return impurity

In [135]:
# Расчет качества добавим аргумент, тип оценки

def quality(left_labels, right_labels, current_quality,type_qualitu = 'gini'):

    # доля выбоки, ушедшая в левое поддерево
    p = float(left_labels.shape[0]) / (left_labels.shape[0] + right_labels.shape[0])
    if type_qualitu == 'entropy':
        return current_quality - p * entropy(left_labels) - (1 - p) * entropy(right_labels)  
    return current_quality - p * gini(left_labels) - (1 - p) * gini(right_labels)