# Деревья решений решают проблемы
__Суммарное количество баллов: 10__

Вы уже знакомы с классификацией методом KNN. В этом задании предстоит реализовать другой метод классификации - дерево решений. 

Одной из его особенностей является возможность объяснить в человекочитаемой форме, почему мы отнесли объект к определенному классу. Эта особенность позволяет использовать деревья решений для создания систем, которые могут подсказывать специалистам, на что именно стоит обратить внимание при принятии решений.

In [1]:
import numpy as np
import pandas
import random
import matplotlib.pyplot as plt
import matplotlib

### Задание 1 (1 балл)
Во время построения дерева решений нам потребуется определить, какой из предикатов лучше всего разбивает обучающую выборку. Есть два критерия, которые позволяют это сделать: критерий Джини и энтропийный критерий. Первый для подсчета информативности разбиения использует коэффициент Джини, второй - энтропию. Реализуйте подсчет этих коэффициентов, а так же подсчет информативности разбиения. 

#### Описание функций
`gini(x)` считает коэффициент Джини для массива меток

`entropy(x)` считает энтропию для массива меток

`gain(left_y, right_y, criterion)` считает информативность разбиения массива меток на левую `left_y` и правую `right_y` части при помощи `criterion`, который задается функцией (не строкой).

In [2]:
def get_freq(x):
    count = np.bincount(x)
    ind = np.nonzero(count)
    return count[ind] / len(x)

def gini(x=None, freq=None):
    if freq is None and x is not None:
        freq = get_freq(x)
    return sum(freq * (1 - freq))
    
def entropy(x=None, freq=None):
    if freq is None and x is not None:
        freq = get_freq(x)
    return - sum(freq * np.log2(freq))

def gain(criterion=gini, left_y=None, right_y=None):
    return -1 * (len(left_y) * criterion(left_y) + len(right_y) * criterion(right_y))

# quick analog
def gain2(criterion, right_sum, left_sum, right_freq, left_freq):
    return  -1 * (left_sum * criterion(freq=left_freq) + right_sum * criterion(freq=right_freq))

### Задание 2 (1 балл)
Деревья решений имеют хорошую интерпретируемость, т.к. позволяют не только предсказать класс, но и объяснить, почему мы предсказали именно его. Например, мы можем его нарисовать. Чтобы сделать это, нам необходимо знать, как оно устроено внутри. Реализуйте классы, которые будут задавать структуру дерева. 

#### DecisionTreeLeaf
Поля:
1. `y` должно содержать класс, который встречается чаще всего среди элементов листа дерева

#### DecisionTreeNode
В данной домашней работе мы ограничемся порядковыми и количественными признаками, поэтому достаточно хранить измерение и значение признака, по которому разбиваем обучающую выборку.

Поля:
1. `split_dim` измерение, по которому разбиваем выборку
2. `split_value` значение, по которому разбираем выборку
3. `left` поддерево, отвечающее за случай `x[split_dim] < split_value`. Может быть `DecisionTreeNode` или `DecisionTreeLeaf`
4. `right` поддерево, отвечающее за случай `x[split_dim] >= split_value`. Может быть `DecisionTreeNode` или `DecisionTreeLeaf`

__Интерфейс классов можно и нужно менять при необходимости__ (например, для вычисления вероятности в следующем задании)

In [3]:
class DecisionTreeNode:
    def __init__(self, split_dim=None, split_value=None, left=None, right=None, ind=[0], depth=0):
        self.split_dim = None
        self.split_value = None
        self.left = None
        self.right = None
        self.ind = ind
        self.size = len(ind)
        self.depth = depth
        
    def define(self, split_dim, split_value, left, right):
        self.split_dim = split_dim
        self.split_value = split_value
        self.left = left
        self.right = right
    
    def isleaf(self):
        return (self.left is None) and (self.right is None)

### Задание 3 (6 баллов)
Теперь перейдем к самому дереву решений. Реализуйте класс `DecisionTreeClassifier`.

#### Описание методов
`fit(X, y)` строит дерево решений по обучающей выборке.

`predict_proba(X)` для каждого элемента из `X` возвращает словарь `dict`, состоящий из пар `(класс, вероятность)`. Вероятности классов в листе можно определить через количество объектов соответствующего класса в листе. 

#### Описание параметров конструктора
`criterion="gini"` - задает критерий, который будет использоваться при построении дерева. Возможные значения: `"gini"`, `"entropy"`.

`max_depth=None` - ограничение глубины дерева. Если `None` - глубина не ограничена

`min_samples_leaf=1` - минимальное количество элементов в каждом листе дерева.

#### Описание полей
`root` - корень дерева. Может быть `DecisionTreeNode` или `DecisionTreeLeaf`

In [4]:
# guessing, y in [0, ..., N-1]
class DecisionTreeClassifier:
    def __init__(self, criterion="gini", max_depth=20, 
                 min_samples_leaf=1, max_iters=100, feat_bag=False, freq_feat_bag=0.8):
        self.root = None
        self.criterion = gini
        self.min_samples_leaf = min_samples_leaf
        self.max_depth = max_depth if max_depth is not None else np.inf
        self.criterion = gini if criterion == "gini" else entropy
        self.max_iters = max_iters
    
    def fit(self, X, y):
        self.y = y
        self.root = DecisionTreeNode(ind = np.linspace(0, len(X) - 1, len(X)).astype(int))
        nodes = {self.root}

        while nodes:
            new_nodes = set()
            for node in nodes:
                if node.size > 2 * self.min_samples_leaf and node.depth < self.max_depth:
                    split_dim, split_value = self.find_split(X[node.ind], y[node.ind])
                    
                    # if all y at same class
                    if split_dim is None:
                        continue
                        
                    sep = X[node.ind, split_dim] < split_value
                    left_ind, right_ind = node.ind[sep], node.ind[~sep]
                    
                    # if all y at one side after separation
                    if len(left_ind) == 0 or len(right_ind) == 0:
                        continue
                    
                    left, right = self.make_nodes(split_dim, split_value, 
                                                  left_ind, right_ind, node)
                    
                    new_nodes.add(left)
                    new_nodes.add(right)
            nodes = new_nodes
                        
    def make_nodes(self, split_dim, split_value, left_ind, right_ind, node):
        left = DecisionTreeNode(ind = left_ind, depth=node.depth + 1)
        right = DecisionTreeNode(ind = right_ind, depth=node.depth + 1)
        node.define(split_dim, split_value, left,  right)
        return left, right
        
    def predict_proba(self, X):
        ind = np.linspace(0, len(X) - 1, len(X)).astype(int)
        return self.traversal(X, ind, self.root)
        
    def predict(self, X):
        proba = self.predict_proba(X)
        return [max(p.keys(), key=lambda k: p[k]) for p in proba]
    
    def find_split(self, X, y):
        quality = -np.inf
        split_dim, split_value = -1, -1 # feature positin, impurity
        con_fy = np.vstack([X[:, 0], y]).T # some feature, y
        all_y = np.unique(y, return_counts=True)
        
        # If all y are same, do nothing
        if len(all_y[0]) == 1:
            return None, None
            
        left_counter = np.zeros(len(np.unique(y)))
        right_counter =  np.zeros(len(np.unique(y)))
        right_counter[all_y[0]] += all_y[1]

        for feature in range(X.shape[1]):
            con_fy[:, 0] = X[:, feature]
            sort_fy = np.array(sorted(con_fy, key=lambda x: x[0])) # sort by feature

            values_X, uniq_undexes = np.unique(sort_fy[:, 0], return_index=True)

            # max interation is max_iters
            if len(values_X) > self.max_iters:
                indexes = sorted(np.random.choice(len(values_X), self.max_iters, replace=False))
            else:
                indexes = uniq_undexes

            # clear counters
            left_counter *= 0
            right_counter *= 0
            right_counter[all_y[0]] += all_y[1]
            left_sum = 0
            right_sum = len(y)

            for i in range(0, len(indexes)): # examine y
                if i == 0 and indexes[i - 1] != 0:
                    ind1, ind2 = 0, indexes[i]
                else:
                    ind1, ind2 = indexes[i - 1], indexes[i]
                y_values, counts = np.unique(sort_fy[ind1: ind2, 1], return_counts=True)

                # update info about left and right
                left_counter[y_values.astype(int)] += counts
                right_counter[y_values.astype(int)] -= counts
                left_sum += sum(counts)
                right_sum -= sum(counts)
                freq_left = left_counter / left_sum
                freq_right = right_counter / right_sum
                l, r = np.nonzero(freq_left), np.nonzero(freq_right)

                # calculate gain
                G = gain2(self.criterion, right_sum, left_sum, freq_right[r], freq_left[l])
                
                if G > quality:
                    split_dim, split_value = feature, sort_fy[ind2, 0]
                    quality = G
                    
        return split_dim, split_value
    
    def traversal(self, X, ind, node):
        if node.isleaf():
            values, counts = np.unique(self.y[node.ind], return_counts=True)
            freq = counts / sum(counts)
            y_pred = dict(zip(values, freq))
            y_for_all = [y_pred for _ in range(len(ind))]
            return y_for_all
        
        sep = X[ind, node.split_dim] < node.split_value
        left_ind, right_ind = ind[sep], ind[~sep]
        
        y_pred = np.zeros(len(ind), dtype=object)
        y_pred[sep] = self.traversal(X, left_ind, node.left)
        y_pred[~sep] = self.traversal(X, right_ind, node.right)
        return y_pred

Построенное дерево можно нарисовать. Метод `draw_tree` рисует дерево и сохраняет его в указанный файл.

In [5]:
def tree_depth(tree_root):
    if isinstance(tree_root, DecisionTreeNode):
        return max(tree_depth(tree_root.left), tree_depth(tree_root.right)) + 1
    else:
        return 1

def draw_tree_rec(tree, tree_root, x_left, x_right, y):
    x_center = (x_right - x_left) / 2 + x_left
    if not tree_root.isleaf():
        x_center = (x_right - x_left) / 2 + x_left
        x = draw_tree_rec(tree, tree_root.left, x_left, x_center, y - 1)
        plt.plot((x_center, x), (y - 0.1, y - 0.9), c=(0, 0, 0))
        x = draw_tree_rec(tree, tree_root.right, x_center, x_right, y - 1)
        plt.plot((x_center, x), (y - 0.1, y - 0.9), c=(0, 0, 0))
        plt.text(x_center, y, "x[%i] < %f" % (tree_root.split_dim, tree_root.split_value),
                horizontalalignment='center')
    else:
        y_pred = round(tree.y[tree_root.ind].mean())
        plt.text(x_center, y, str(y_pred),
                horizontalalignment='center')
    return x_center

def draw_tree(tree, save_path=None):
    td = tree_depth(tree.root)
    plt.figure(figsize=(0.33 * 2 ** td, 2 * td))
    plt.xlim(-1, 1)
    plt.ylim(0.95, td + 0.05)
    plt.axis('off')
    draw_tree_rec(tree, tree.root, -1, 1, td)
    plt.tight_layout()
    if save_path is not None:
        plt.savefig(save_path)
    plt.show()

Для двумерного набора данных дерево можно отобразить на плоскости с данными. Кроме того, как и для любого классификатора, для него можно построить roc-кривую

In [6]:
def plot_roc_curve(y_test, p_pred):
    positive_samples = sum(1 for y in y_test if y == 0)
    tpr = []
    fpr = []
    for w in np.arange(-0.01, 1.02, 0.01):
        y_pred = [(0 if p.get(0, 0) > w else 1) for p in p_pred]
        tpr.append(sum(1 for yp, yt in zip(y_pred, y_test) if yp == 0 and yt == 0) / positive_samples)
        fpr.append(sum(1 for yp, yt in zip(y_pred, y_test) if yp == 0 and yt != 0) / (len(y_test) - positive_samples))
    plt.figure(figsize = (7, 7))
    plt.plot(fpr, tpr)
    plt.plot([0, 1], [0, 1], linestyle="--")
    plt.xlabel("False positive rate")
    plt.ylabel("True positive rate")
    plt.xlim(-0.01, 1.01)
    plt.ylim(-0.01, 1.01)
    plt.tight_layout()
    plt.show()

def rectangle_bounds(bounds):
    return ((bounds[0][0], bounds[0][0], bounds[0][1], bounds[0][1]), 
            (bounds[1][0], bounds[1][1], bounds[1][1], bounds[1][0]))

def plot_2d_tree(tree_root, bounds, colors):
    if isinstance(tree_root, DecisionTreeNode):
        if tree_root.split_dim:
            plot_2d_tree(tree_root.left, [bounds[0], [bounds[1][0], tree_root.split_value]], colors)
            plot_2d_tree(tree_root.right, [bounds[0], [tree_root.split_value, bounds[1][1]]], colors)
            plt.plot(bounds[0], (tree_root.split_value, tree_root.split_value), c=(0, 0, 0))
        else:
            plot_2d_tree(tree_root.left, [[bounds[0][0], tree_root.split_value], bounds[1]], colors)
            plot_2d_tree(tree_root.right, [[tree_root.split_value, bounds[0][1]], bounds[1]], colors)
            plt.plot((tree_root.split_value, tree_root.split_value), bounds[1], c=(0, 0, 0))
    else:
        x, y = rectangle_bounds(bounds)
        plt.fill(x, y, c=colors[tree_root.y] + [0.2])

def plot_2d(tree, X, y):
    plt.figure(figsize=(9, 9))
    colors = dict((c, list(np.random.random(3))) for c in np.unique(y))
    bounds = list(zip(np.min(X, axis=0), np.max(X, axis=0)))
    plt.xlim(*bounds[0])
    plt.ylim(*bounds[1])
    plot_2d_tree(tree.root, list(zip(np.min(X, axis=0), np.max(X, axis=0))), colors)
    for c in np.unique(y):
        plt.scatter(X[y==c, 0], X[y==c, 1], c=[colors[c]], label=c)
    plt.legend()
    plt.tight_layout()
    plt.show()

## Задание 4 (2 балла)

Протестируйте решение на данных cancer и spam (датасеты из директории `hw2_data`).
Выполните загрузку и предобработку данных.


Если необходимо, попробуйте разные наборы параметров для получения лучшего результата.

Посчитайте метрики `precision`, `recall`, `accuracy` для модели дерева.
Сравните значения метрик с результатами модели kNN из предыдущего задания (можно использовать реализацию из библиотеки `sklearn`). 

Какой нужен препроцессинг данных для моделей?
Какая модель делает предсказания лучше?  Предположите, почему.

KNeighborsClassifier - сработал хорошо прямо из коробки(без подбора параметров). Для этого алгоритма нужно делать скейлинг. Для дерева, скейлинг не обязателен, так как условия больше или меньше не изменятся при нем. Предсказания +- одинаковые на 2ух моделях

In [10]:
from sklearn.metrics import accuracy_score, \
                            recall_score, precision_score

from sklearn.neighbors import KNeighborsClassifier
from sklearn.utils import shuffle
import pandas as pd

In [11]:
def read_cancer_dataset(path_to_csv):
    # Возвращает пару из X и y. X - массив векторов. y - соответствующие векторам метки
    df = shuffle(pd.read_csv(path_to_csv))
    y = (df['label'].values == "M").astype(int)
    X = df.drop('label', axis=1)
    return X, y

def read_spam_dataset(path_to_csv):
    # Возвращает пару из X и y. X - массив векторов. y - соответствующие векторам метки
    df = shuffle(pd.read_csv(path_to_csv))
    y = df['label'].values
    X = df.drop('label', axis=1)
    return X, y

In [18]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_auc_score as roc

scale = StandardScaler()

X, y = read_spam_dataset("hw2_data/spam.csv")
X_train, X_test, y_train, y_test = train_test_split(X, y)

scale.fit(X_train)
X_train, X_test = scale.transform(X_train), scale.transform(X_test)

knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
knn_pred = knn.predict(X_test)
knn_pred_proba = [proba[1] for proba in knn.predict_proba(X_test)]

tree = DecisionTreeClassifier(max_depth=6, min_samples_leaf=40, max_iters=600, criterion="entropy")
tree.fit(X_train, y_train)
tree_pred = tree.predict(X_test)
tree_pred_proba = np.zeros_like(y_test).astype("float")

for i, proba in enumerate(tree.predict_proba(X_test)):
    if 1 in proba.keys():
        tree_pred_proba[i] = proba[1]
    else:
        tree_pred_proba[i] = 0

  freq_left = left_counter / left_sum


In [19]:
print("Spam")
print("auc:", f"tree - {accuracy_score(tree_pred, y_test)},", 
              f"knn - {accuracy_score(knn_pred, y_test)}")

print("recall:", f"tree - {recall_score(tree_pred, y_test)},", 
              f"knn - {recall_score(knn_pred, y_test)}")

print("precision:", f"tree - {precision_score(tree_pred, y_test)},", 
              f"knn - {precision_score(knn_pred, y_test)}")

print("roc:", f"tree - {roc(y_test, tree_pred_proba)},",
              f"knn - {roc(y_test, knn_pred_proba)}")


Spam
auc: tree - 0.9052997393570807, knn - 0.894005212858384
recall: tree - 0.908695652173913, knn - 0.9006622516556292
precision: tree - 0.8618556701030928, knn - 0.8412371134020619
roc: tree - 0.9491037429181759, knn - 0.949839014272004


In [20]:
scale = StandardScaler()

X, y = read_cancer_dataset("hw2_data/cancer.csv")
X_train, X_test, y_train, y_test = train_test_split(X, y)

scale.fit(X_train)
X_train, X_test = scale.transform(X_train), scale.transform(X_test)

knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
knn_pred = knn.predict(X_test)
knn_pred_proba = [proba[1] for proba in knn.predict_proba(X_test)]

tree = DecisionTreeClassifier(max_depth=4, min_samples_leaf=20, max_iters=600, criterion="gini")
tree.fit(X_train, y_train)
tree_pred = tree.predict(X_test)
tree_pred_proba = np.zeros_like(y_test).astype("float")

for i, proba in enumerate(tree.predict_proba(X_test)):
    if 1 in proba.keys():
        tree_pred_proba[i] = proba[1]
    else:
        tree_pred_proba[i] = 0

  freq_left = left_counter / left_sum


In [21]:
print("Cancer")
print("auc:", f"tree - {accuracy_score(tree_pred, y_test)},", 
              f"knn - {accuracy_score(knn_pred, y_test)}")

print("recall:", f"tree - {recall_score(tree_pred, y_test)},", 
              f"knn - {recall_score(knn_pred, y_test)}")

print("precision:", f"tree - {precision_score(tree_pred, y_test)},", 
              f"knn - {precision_score(knn_pred, y_test)}")

print("roc:", f"tree - {roc(y_test, tree_pred_proba)},",
              f"knn - {roc(y_test, knn_pred_proba)}")

Cancer
auc: tree - 0.8951048951048951, knn - 0.986013986013986
recall: tree - 0.9777777777777777, knn - 1.0
precision: tree - 0.7586206896551724, knn - 0.9655172413793104
roc: tree - 0.9842799188640974, knn - 0.9892494929006086
