In [5]:
import pandas as pd
import seaborn as sns
import numpy as np

In [6]:
# Импорт набора данных для проверки качества работы алгоритмов классификации
from sklearn.datasets import load_iris

ModuleNotFoundError: No module named 'sklearn'

In [7]:
def round_to_3(x):
    """
    Принимает число и возвращает результат его округления
    до 2 знаков после запятой.
    
    Аргументы:
        x: Число.
        
    Возвращаемое значение:
        Результат округления числа до 3 знаков после запятой.
    """
    
    return round(x, 3)

In [8]:
def custom_compare(x, y):
    if str(x) != str(y):
        raise RuntimeError(f'Ожидаемое значение: {y}. Фактическое: {x}')

# Дерево принятяи решений

In [2]:
class Node:
    def __init__(self, 
                 factor_ind, 
                 threshold, 
                 left_node, 
                 right_node):
        """
        Конструктор объекта «вершина дерева».
        
        Аргументы:
            factor_ind: Индекс фактора, про который задаётся вопрос в вершине.
            threshold: Пороговое значение, с которым сравнивается значение фактора в вершине.
            left_node: Вершина, содержащая левое поддерево текущей вершины.
            right_node: Вершина, содержащая правое поддерево текущей вершины.
        """
        
        self.factor_ind = factor_ind
        self.threshold = threshold
        
        self.left_node = left_node
        self.right_node = right_node
        
    def is_leaf(self):
        """
        Возвращает значение False, которое соответствует тому, что объект не является листом.
        """
        
        return False
        
class Leaf:
    def __init__(self, 
                 predicted_value):
        """
        Конструктор объекта «лист дерева».
        
        Аргументы:
            predicted_value: Значение, которое является предсказанием в данной листе.
        """
        
        self.predicted_value = predicted_value
        
    def is_leaf(self):
        """
        Возвращает значение True, которое соответствует тому, что объект является листом.
        """
        
        return True

In [3]:
def print_tree(cur_node, s=''):
    """
    Производит печать на экран дерева, представленного в виде вершин и листьев.
    
    Аргументы:
        cur_node: Корневая вершина дерева, которое нужно напечатать.
        s: Опциональный параметр. Задаёт отступ при печати
        
    Возвращаемое значение:
        На экран будет выведено дерево в следующем формате:
        
        Вершина 0 (корневая вершина)
            Вершина 1 (левая вершина от вершины 0)
                ... и так далее до листьев
            Вершина 2 (правая вершина от вершины 0)
                ... и так далее до листьев
    """
    
    if cur_node.is_leaf():
        print(s + f'Лист(предсказание={cur_node.predicted_value})')
        return
    
    print(s + f'Вершина(фактор={cur_node.factor_ind}, порог={cur_node.threshold})')
    
    print_tree(cur_node.left_node, s + '    ')
    print_tree(cur_node.right_node, s + '    ')

In [4]:
def decision_tree_predict_solution(cur_node, x):
    """
    Производит предсказание значения для объекта x с помощью заданного дерева принятия решений.
    
    Аргументы:
        cur_node: Корневая вершина дерева, с помощью которого производится предсказание.
        x: Объект, для которого происходит предсказание.
        
    Возвращаемое значение:
        Предсказанное значение для объекта x.
        Если в листьях дерева записан класс, то возвращается класс,
        если в листьях дерева записано численное значение, то возвращается число.
    """
    while not cur_node.is_leaf():
        if x[cur_node.factor_ind] >= cur_node.threshold:
            cur_node = cur_node.right_node
        else:
            cur_node = cur_node.left_node
    return cur_node.predicted_value

In [9]:
def decision_tree_predict_test():
    tree_example_1 = \
        Node(0, 10,
             Node(1, -1, 
                  Leaf(1), 
                  Leaf(2)),
             Node(0, 15, 
                  Leaf(2), 
                  Leaf(3)))
    x_example_1 = np.array([12, 2])
    res_example_1 = 2
    
    custom_compare(decision_tree_predict_solution(tree_example_1, x_example_1), res_example_1)
    
    tree_example_2 = \
        Node(2, -1,
             Node(3, 7, 
                  Node(1, 2,
                       Leaf(1.1),
                       Node(3, 0, 
                            Leaf(-1.3), 
                            Leaf(1.7))), 
                  Node(2, -6, 
                       Leaf(2.2), 
                       Leaf(-7.3))),
             Node(0, 15, 
                  Leaf(2), 
                  Leaf(3)))
    x_example_2 = np.array([2, 3, -4, 0])
    res_example_2 = 1.7
    
    custom_compare(decision_tree_predict_solution(tree_example_2, x_example_2), res_example_2)

    print('Тест прошёл успешно!')

In [10]:
decision_tree_predict_test()

Тест прошёл успешно!


In [48]:

def gini_index_solution(X):
    d = dict()
    total = len(X) * len(X[0])
    
    for i in range(len(X)):
        for j in range(len(X[0])):
            clas = X[i][j]
            if d.get(clas) is None:
                d[clas] = 0
            d[clas] +=1
    m = 0
    print(d.items(),total)
    return round(sum([(v/total)*(1-v/total) for v in d.values()]),3)
    for k,v in d.items():
        t = v/total
        m += round(t*(1-t),4)
        print( round(t*(1-t),4))
    return round(m,3)

In [42]:
def gini_index_test():
    X_example_1 = np.array([
        [1, 2, -1],
        [2, 3, 1],
        [5, 4, 1],
        [2, 5, 1]
    ])
    res_example_1 = 0.375
    
    custom_compare(gini_index_solution(X_example_1), res_example_1)
    
    X_example_2 = np.array([
        [1, 1, 2, 3],
        [2, 2, 3, 1],
        [5, 5, 4, 2],
        [2, 2, 5, 1],
        [1, 1, 2, 3],
        [2, 2, 3, 2],
        [5, 5, 4, 2],
        [2, 2, 5, 1],
        [1, 1, 2, 3],
        [2, 2, 3, 1],
        [5, 5, 4, 1],
        [2, 2, 5, 1]
    ])
    res_example_2 = 0.625
    
    custom_compare(gini_index_solution(X_example_2), res_example_2)
    
    print('Тест прошёл успешно!')

In [49]:
gini_index_test()

dict_items([(1, 4), (2, 3), (-1, 1), (3, 1), (5, 2), (4, 1)]) 12


RuntimeError: Ожидаемое значение: 0.375. Фактическое: 0.778

In [None]:
def data_split_solution(X, factor_ind, factor_value):
    """
    Производит разбиение данных на две части в зависимости от значения конкретного фактора
    по следующему правилу: объекты в X, для которых значение фактора с индексом factor_ind больше или равно factor_value,
    идут в правую часть разбиения, остальные — в левую.
    
    Аргументы:
        X: Набор объектов, представленный в виде матрицы размера n x m.
           Каждая строка матрицы соответствует объекту.
           Каждый объект описывается (m - 1) фактором, а также классом, которому принадлежит.
           Класс представляется числом.
           Индекс класса в строке объекта — (m - 1), если считать, что индексация в векторе идёт от 0.
        factor_ind: Индекс фактора, по которому происходит разбиение.
        factor_value: Пороговое значение, по которому происходит разбиение.
        
    Возвращаемое значение:
        Пара из X_l и X_r, где X_l и X_r — левая и правая части разбиения, соответственно.
        Важно, что порядок объектов в X_l и X_r должен быть таким же, как в X.
        То есть если какие-то две строчки шли друг за другом в X, а после разбиения вместе оказались,
        например, в X_l, то идти друг за другом в X_l они должны в том же порядке, в котором шли в X.
    """
    
    pass

In [None]:
def data_split_test():
    X_example_1 = np.array([
        [1, 2, -1],
        [2, 3, 1],
        [5, 4, 1],
        [2, 5, 1]
    ])
    factor_ind_example_1 = 0
    factor_value_example_1 = 2
    
    X_l_example_1 = np.array([
        [1, 2, -1]
    ])
    X_r_example_1 = np.array([
        [2, 3, 1],
        [5, 4, 1],
        [2, 5, 1]
    ])
    
    res_example_1 = (X_l_example_1, X_r_example_1)
    
    custom_compare(data_split_solution(X_example_1, factor_ind_example_1, factor_value_example_1), 
                   res_example_1)
    
    X_example_2 = np.array([
        [1, 1, 2, 3],
        [2, 2, 3, 1],
        [5, 5, 4, 2],
        [2, 2, 5, 1],
        [1, 1, 2, 3],
        [2, 2, 3, 2],
        [5, 5, 4, 2],
        [2, 2, 5, 1],
        [1, 1, 2, 3],
        [2, 2, 3, 1],
        [5, 5, 4, 1],
        [2, 2, 5, 1]
    ])
    factor_ind_example_2 = 2
    factor_value_example_2 = 4
    
    X_l_example_2 = np.array([
        [1, 1, 2, 3],
        [2, 2, 3, 1],
        [1, 1, 2, 3],
        [2, 2, 3, 2],
        [1, 1, 2, 3],
        [2, 2, 3, 1]
    ])
    X_r_example_2 = np.array([
        [5, 5, 4, 2],
        [2, 2, 5, 1],
        [5, 5, 4, 2],
        [2, 2, 5, 1],
        [5, 5, 4, 1],
        [2, 2, 5, 1]
    ])
    
    res_example_2 = (X_l_example_2, X_r_example_2)
    
    custom_compare(data_split_solution(X_example_2, factor_ind_example_2, factor_value_example_2), 
                   res_example_2)
    
    print('Тест прошёл успешно!')

In [None]:
data_split_test()

In [None]:
def optimal_split_parameters_grid_search_solution(X):
    """
    Находит оптимальные параметры разбиения данных на левую и правую части.
    Оптимальность разбиения определяется с помощью критерия Джини.
    
    Аргументы:
        X: Набор объектов, представленный в виде матрицы размера n x m.
           Каждая строка матрицы соответствует объекту.
           Каждый объект описывается (m - 1) фактором, а также классом, которому принадлежит.
           Класс представляется числом.
           Индекс класса в строке объекта — (m - 1), если считать, что индексация в векторе идёт от 0.
        
    Возвращаемое значение:
        Пара из индекса фактора и порогового значения,
        при которых достигается оптимальное разбиение данных.
    """
    
    pass

In [None]:
def optimal_split_parameters_grid_search_test():
    X_example_1 = np.array([
        [1, 2, -1],
        [2, 3, 1],
        [5, 4, 1],
        [2, 5, 1]
    ])
    X_example_1 = X_example_1.astype('float')
    
    factor_ind_example_1 = 0
    factor_value_example_1 = 2.0
    
    res_example_1 = (factor_ind_example_1, factor_value_example_1)
    
    custom_compare(optimal_split_parameters_grid_search_solution(X_example_1), 
                   res_example_1)
    
    X_example_2 = np.array([
        [-7,  2,  8,  1],
        [ 6,  3, -3,  2],
        [ 3,  0,  4,  3],
        [ 8,  3,  0,  1],
        [-9,  4, -8,  2],
        [-4,  -2, -9,  3],
        [-2,  7,  6,  1],
        [-6,  -2,  5,  2],
        [-2,  -1,  3,  3],
        [-3,  3, -6,  1]
    ])
    X_example_2 = X_example_2.astype('float')
    
    factor_ind_example_2 = 1
    factor_value_example_2 = 2.0
    
    res_example_2 = (factor_ind_example_2, factor_value_example_2)
    
    custom_compare(optimal_split_parameters_grid_search_solution(X_example_2), 
                   res_example_2)
    
    print('Тест прошёл успешно!')

In [None]:
optimal_split_parameters_grid_search_test()

In [None]:
def build_node_solution(X, cur_depth=1, max_depth=None):
    """
    Строит дерево принятия решений.
    
    Аргументы:
        X: Набор объектов, представленный в виде матрицы размера n x m.
           Каждая строка матрицы соответствует объекту.
           Каждый объект описывается (m - 1) фактором, а также классом, которому принадлежит.
           Класс представляется числом.
           Индекс класса в строке объекта — (m - 1), если считать, что индексация в векторе идёт от 0.
        cur_depth: Опциональный параметр, по умолчанию равен 1.
                   Глубина, на которой строится текущая вершина.
        max_depth: Опциональный параметр, по умолчанию равен None.
                   Максимальная глубина дерева.
                   Если значение параметра равно None, то на глубину дерева
                   не накладывается ограничений в процессе построения дерева.
        
    Возвращаемое значение:
        Построенное на данных из X дерево принятия решений, которое либо состоит
        из вершины, к которой присоединены рекурсивно построенные поддеревья,
        либо состоит из одного листа с предсказанием.
    """
    
    pass

In [None]:
def compare_trees(tree_1, tree_2):
    """
    Проверяет два дерева на равенство.
    
    Аргументы:
        tree_1: Первое дерево.
        tree_2: Второе дерево.
        
    Возвращаемое значение:
        True, если деревья равны.
        False в противном случае.
    """
    
    if tree_1.is_leaf() != tree_2.is_leaf():
        return False
    
    if tree_1.is_leaf() and tree_2.is_leaf():
        return int(tree_1.predicted_value) == int(tree_2.predicted_value)
    
    return tree_1.factor_ind == tree_2.factor_ind and \
        tree_1.threshold == tree_2.threshold and \
        compare_trees(tree_1.left_node, tree_2.left_node) and \
        compare_trees(tree_1.right_node, tree_2.right_node)

def build_node_test():
    iris = load_iris()
    
    X = iris.data
    y = iris.target.reshape((len(X), 1))
    
    X_example_1 = np.hstack([X[:, :2], y])
    max_depth_example_1 = 2
    
    res_example_1 = \
        Node(0, 5.5,
             Node(1, 2.9,
                 Leaf(1.0),
                 Leaf(0.0)),
             Node(0, 6.3,
                 Leaf(1.0),
                 Leaf(2.0)))
    
    compare_trees(build_node_solution(X_example_1, max_depth=max_depth_example_1), res_example_1)
    
    X_example_2 = np.hstack([X, y])
    max_depth_example_2 = None
    
    res_example_2 = \
        Node(2, 3.0,
             Leaf(0.0),
             Node(3, 1.8,
                 Node(2, 5.0,
                     Node(3, 1.7,
                         Leaf(1.0),
                         Leaf(2.0)),
                     Node(3, 1.6,
                         Leaf(2.0),
                         Node(0, 7.2,
                             Leaf(1.0),
                             Leaf(2.0)))),
                 Node(2, 4.9,
                     Node(0, 6.0,
                         Leaf(1.0),
                         Leaf(2.0)),
                     Leaf(2.0))))
    
    compare_trees(build_node_solution(X_example_2, max_depth=max_depth_example_2), res_example_2)
    
    print('Тест прошёл успешно!')

In [None]:
build_node_test()