# Случайные леса
__Суммарное количество баллов: 10__

__Решение отправлять на `ml.course.practice@gmail.com`__

__Тема письма: `[HSE][ML][HW09] <ФИ>`, где вместо `<ФИ>` указаны фамилия и имя__

В этом задании вам предстоит реализовать ансамбль деревьев решений, известный как случайный лес, применить его к публичным данным пользователей социальной сети Вконтакте, и сравнить его эффективность с ансамблем, предоставляемым библиотекой CatBoost.

В результате мы сможем определить, какие подписки пользователей больше всего влияют на определение возраста и пола человека. 

In [1]:
from sklearn.model_selection import train_test_split
import numpy as np
import pandas
import random
import matplotlib.pyplot as plt
import matplotlib
import copy

In [2]:
!pip3 install catboost



In [3]:
def gini(x):
    _, counts = np.unique(x, return_counts=True)
    proba = counts / len(x)
    return np.sum(proba * (1 - proba))
    
def entropy(x):
    _, counts = np.unique(x, return_counts=True)
    proba = counts / len(x)
    return -np.sum(proba * np.log2(proba))

def gain(left_y, right_y, criterion):
    y = np.concatenate((left_y, right_y))
    return criterion(y) - (criterion(left_y) * len(left_y) + criterion(right_y) * len(right_y)) / len(y)

### Задание 1 (2 балла)
Random Forest состоит из деревьев решений. Каждое такое дерево строится на одной из выборок, полученных при помощи bagging. Элементы, которые не вошли в новую обучающую выборку, образуют out-of-bag выборку. Кроме того, в каждом узле дерева мы случайным образом выбираем набор из `max_features` и ищем признак для предиката разбиения только в этом наборе.

Сегодня мы будем работать только с бинарными признаками, поэтому нет необходимости выбирать значение признака для разбиения.

#### Методы
`predict(X)` - возвращает предсказанные метки для элементов выборки `X`

#### Параметры конструктора
`X, y` - обучающая выборка и соответствующие ей метки классов. Из нее нужно получить выборку для построения дерева при помощи bagging. Out-of-bag выборку нужно запомнить, она понадобится потом.

`criterion="gini"` - задает критерий, который будет использоваться при построении дерева. Возможные значения: `"gini"`, `"entropy"`.

`max_depth=None` - ограничение глубины дерева. Если `None` - глубина не ограничена

`min_samples_leaf=1` - минимальное количество элементов в каждом листе дерева.

`max_features="auto"` - количество признаков, которые могут использоваться в узле. Если `"auto"` - равно `sqrt(X.shape[1])`

In [4]:
from collections import Counter
from typing import Callable, Union, NoReturn, Optional, Dict, Any, List

class DecisionTreeLeaf:
    """

    Attributes
    ----------
    y : Тип метки (напр., int или str)
        Метка класса, который встречается чаще всего среди элементов листа дерева
    """
    def __init__(self, sub_y):
        self.y = Counter(sub_y).most_common(1)[0][0]
        

class DecisionTreeNode:
    """

    Attributes
    ----------
    split_dim : int
        Измерение, по которому разбиваем выборку.
    split_value : float
        Значение, по которому разбираем выборку.
    left : Union[DecisionTreeNode, DecisionTreeLeaf]
        Поддерево, отвечающее за случай x[split_dim] < split_value.
    right : Union[DecisionTreeNode, DecisionTreeLeaf]
        Поддерево, отвечающее за случай x[split_dim] >= split_value. 
    """
    def __init__(self, split_dim: int, split_value: float, 
                 left: Union['DecisionTreeNode', DecisionTreeLeaf], 
                 right: Union['DecisionTreeNode', DecisionTreeLeaf]):
        self.split_dim = split_dim
        self.split_value = split_value
        self.left = left
        self.right = right

In [5]:
def find_best_split(feature_vector, target_vector, min_split, criterion=gini):
    
    s_ind = np.argsort(np.array(feature_vector))
    x = np.array(feature_vector)[s_ind]
    y = np.array(target_vector)[s_ind]


    n = x.shape[0]

    thresholds = np.unique(x)
    if thresholds.shape[0] == 1:
        return (None, None)
    thresholds = (thresholds[:-1] + thresholds[1:]) / 2
    left, right = None, None
    ind = 0
    best_gain, best_threshold = None, None
    tmp = []
    for threshold in thresholds:
        while x[ind] < threshold and ind < n:
            ind += 1
        if ind < min_split:
            continue
        if n - ind < min_split:
            break
        left = y[:ind]
        right = y[ind:]
        ig = gain(left, right, criterion)
        tmp.append(ig)
        if best_gain is None or ig > best_gain:
            best_gain = ig
            best_threshold = threshold
    
    return best_threshold, best_gain

In [6]:
class DecisionTree:
    def __init__(self, X, y, criterion="gini", max_depth=None, min_samples_leaf=1, max_features="auto"):
        n = X.shape[0]
        indexes = np.random.randint(0, n, n)
        self.X = X[indexes]
        self.y = y[indexes]
        out_of_bag_ind = [i not in set(indexes) for i in range(n)]
        self.out_of_bag_x = X[out_of_bag_ind]
        self.out_of_bag_y = y[out_of_bag_ind]
        self.criterion = gini
        if criterion == "entropy":
            self.criterion = entropy
        self.max_depth = max_depth
        self.min_samples_leaf = min_samples_leaf
        self.max_features = int(np.sqrt(X.shape[1]))
        if max_features != "auto":
            self.max_features = max_features
        self.root = self._fit_node(self.X, self.y, 0)
    
    def out_of_bag(self):
        return [self.out_of_bag_x, self.out_of_bag_y]
            
    def _fit_node(self, sub_X, sub_y, depth):
        if np.all(sub_y == sub_y[0]):
            node = DecisionTreeLeaf(sub_y)
            return node
        
        if self.max_depth is not None and depth >= self.max_depth:
            node = DecisionTreeLeaf(sub_y)
            return node
        feature_best, threshold_best, gain_best, split = None, None, None, None
        feature_indexes = np.random.randint(0, sub_X.shape[1], self.max_features)
        for feature in feature_indexes:
            feature_vector = sub_X[:, feature]
            
            threshold, ig = find_best_split(feature_vector, sub_y, self.min_samples_leaf, self.criterion)
            if threshold is not None and (gain_best is None or ig > gain_best):
                feature_best = feature
                gain_best = ig
                split = feature_vector < threshold
                threshold_best = threshold
        if feature_best is None:
            node = DecisionTreeLeaf(sub_y)
            return node
        left = self._fit_node(sub_X[split], sub_y[split], depth + 1)
        right = self._fit_node(sub_X[~split], sub_y[~split], depth + 1)
        node = DecisionTreeNode(feature_best, threshold_best, left, right)
        return node

    def _predict_node(self, x, node):
        if isinstance(node, DecisionTreeLeaf):
            return node.y
        
        f = node.split_dim

        if x[f] < node.split_value:
            return self._predict_node(x, node.left)
        else:
            return self._predict_node(x, node.right)

        
    def predict(self, X):
        predicted = []
        for x in X:
            predicted.append(self._predict_node(x, self.root))
        return predicted

### Задание 2 (2 балла)
Теперь реализуем сам Random Forest. Идея очень простая: строим `n` деревьев, а затем берем модальное предсказание.

#### Параметры конструктора
`n_estimators` - количество используемых для предсказания деревьев.

Остальное - параметры деревьев.

#### Методы
`fit(X, y)` - строит `n_estimators` деревьев по выборке `X`.

`predict(X)` - для каждого элемента выборки `X` возвращает самый частый класс, который предсказывают для него деревья.

In [7]:
from tqdm.notebook import tqdm

class RandomForestClassifier:
    def __init__(self, criterion="gini", max_depth=None, min_samples_leaf=1, max_features="auto", n_estimators=10):
        self.criterion = criterion
        self.max_depth = max_depth
        self.min_samples_leaf = min_samples_leaf
        self.max_features = max_features
        self.n_estimators = n_estimators
        
    def out_of_bag(self):
        oob = [tree.out_of_bag() for tree in self.trees]
        return oob
    
    def fit(self, X, y):
        self.trees = [DecisionTree(X, y, self.criterion, self.max_depth, self.min_samples_leaf, self.max_features) for _ in tqdm(range(self.n_estimators))]
    
    def predict(self, X):
        cur = []
        for tree in self.trees:
            cur.append(tree.predict(X))
        result = []
        cur = np.array(cur)
        #print(cur)
        for i in range(X.shape[0]):
            ideas = cur[:, i]
            values, counts = np.unique(ideas, return_counts=True)
            ind = np.argmax(counts)
            result.append(values[ind])
        return result

### Задание 3 (2 балла)
Часто хочется понимать, насколько большую роль играет тот или иной признак для предсказания класса объекта. Есть различные способы посчитать его важность. Один из простых способов сделать это для Random Forest - посчитать out-of-bag ошибку предсказания `err_oob`, а затем перемешать значения признака `j` и посчитать ее (`err_oob_j`) еще раз. Оценкой важности признака `j` для одного дерева будет разность `err_oob_j - err_oob`, важность для всего леса считается как среднее значение важности по деревьям.

Реализуйте функцию `feature_importance`, которая принимает на вход Random Forest и возвращает массив, в котором содержится важность для каждого признака.

In [None]:
def feature_importance(rfc, sample=10):
    out_of_bag = rfc.out_of_bag()
    res = 0
    for i in range(len(out_of_bag)):
        pred_y = rfc.predict(out_of_bag[i][0])
        res += np.mean(pred_y == out_of_bag[i][1])
    result = []
    for i in range(len(out_of_bag)):
        x = np.array(out_of_bag[i][0])[::sample].copy()
        for j in tqdm(range(x.shape[1])):
            x = np.array(out_of_bag[i][0])[::sample].copy()
            if i == 0:
                result.append(res)
            x_j = x[:, j]
            random.shuffle(x_j)
            x[:, j] = x_j
            pred_y = rfc.predict(x)
            err_oob_j = np.mean(pred_y == out_of_bag[i][1][::sample])
            result[j] -= err_oob_j
    return result

def most_important_features(importance, names, k=20):
    # Выводит названия k самых важных признаков
    idicies = np.argsort(importance)[::-1][:k]
    return np.array(names)[idicies]

Наконец, пришло время протестировать наше дерево на простом синтетическом наборе данных. В результате точность должна быть примерно равна `1.0`, наибольшее значение важности должно быть у признака с индексом `4`, признаки с индексами `2` и `3`  должны быть одинаково важны, а остальные признаки - не важны совсем.

In [None]:
def synthetic_dataset(size):
    X = [(np.random.randint(0, 2), np.random.randint(0, 2), i % 6 == 3, 
          i % 6 == 0, i % 3 == 2, np.random.randint(0, 2)) for i in range(size)]
    y = [i % 3 for i in range(size)]
    return np.array(X), np.array(y)

X, y = synthetic_dataset(1000)
rfc = RandomForestClassifier(n_estimators=10)
rfc.fit(X, y)
pred = rfc.predict(X)
#print(pred, y)
print("Accuracy:", np.mean(pred == y))
print("Importance:", feature_importance(rfc))

### Задание 4 (1 балл)
Теперь поработаем с реальными данными.

Выборка состоит из публичных анонимизированных данных пользователей социальной сети Вконтакте. Первые два столбца отражают возрастную группу (`zoomer`, `doomer` и `boomer`) и пол (`female`, `male`). Все остальные столбцы являются бинарными признаками, каждый из них определяет, подписан ли пользователь на определенную группу/публичную страницу или нет.\
\
Необходимо обучить два классификатора, один из которых определяет возрастную группу, а второй - пол.\
\
Эксперименты с множеством используемых признаков и подбор гиперпараметров приветствуются. Лес должен строиться за какое-то разумное время.

In [None]:
def read_dataset(path):
    dataframe = pandas.read_csv(path, header=0)
    dataset = dataframe.values.tolist()
    random.shuffle(dataset)
    y_age = [row[0] for row in dataset]
    y_sex = [row[1] for row in dataset]
    X = [row[2:] for row in dataset]
    
    return np.array(X), np.array(y_age), np.array(y_sex), list(dataframe.columns)[2:]

In [None]:
X, y_age, y_sex, features = read_dataset("vk.csv")
X_train, X_test, y_age_train, y_age_test, y_sex_train, y_sex_test = train_test_split(X, y_age, y_sex, train_size=0.9)

#### Возраст

In [None]:
rfc = RandomForestClassifier(n_estimators=10)

rfc.fit(X_train, y_age_train)
print("Accuracy:", np.mean(rfc.predict(X_test) == y_age_test))
#print("Most important features:")
#for i, name in enumerate(most_important_features(feature_importance(rfc), features, 20)):
    #print(str(i+1) + ".", name)

#### Пол

In [None]:
rfc = RandomForestClassifier(n_estimators=10)
rfc.fit(X_train, y_sex_train)
print("Accuracy:", np.mean(rfc.predict(X_test) == y_sex_test))
print("Most important features:")
for i, name in enumerate(most_important_features(feature_importance(rfc), features, 20)):
    print(str(i+1) + ".", name)

### CatBoost
В качестве аьтернативы попробуем CatBoost. 

Устаниовить его можно просто с помощью `pip install catboost`. Туториалы можно найти, например, [здесь](https://catboost.ai/docs/concepts/python-usages-examples.html#multiclassification) и [здесь](https://github.com/catboost/tutorials/blob/master/python_tutorial.ipynb). Главное - не забудьте использовать `loss_function='MultiClass'`.\
\
Сначала протестируйте CatBoost на синтетических данных. Выведите точность и важность признаков.

In [None]:
from catboost import CatBoostClassifier

In [None]:
X, y = synthetic_dataset(1000)
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.7, shuffle=True)

classifier = CatBoostClassifier(loss_function='MultiClass')
classifier.fit(X_train, y_train)

print("Accuracy:", np.mean(classifier.predict(X_test) == y))
print("Importance:", None)

### Задание 5 (3 балла)
Попробуем применить один из используемых на практике алгоритмов. В этом нам поможет CatBoost. Также, как и реализованный ними RandomForest, применим его для определения пола и возраста пользователей сети Вконтакте, выведите названия наиболее важных признаков так же, как в задании 3.\
\
Эксперименты с множеством используемых признаков и подбор гиперпараметров приветствуются.

In [None]:
X, y_age, y_sex, features = read_dataset("vk.csv")
X_train, X_test, y_age_train, y_age_test, y_sex_train, y_sex_test = train_test_split(X, y_age, y_sex, train_size=0.9)
X_train, X_eval, y_age_train, y_age_eval, y_sex_train, y_sex_eval = train_test_split(X_train, y_age_train, y_sex_train, train_size=0.8)

#### Возраст

In [None]:
classifier = CatBoostClassifier()
classifier.fit(X_train, y_train)

print("Accuracy:", np.mean(classifier.predict(X_test) == y_age_test))
print("Most important features:")
for i, name in enumerate(most_important_features(None, features, 10)):
    print(str(i+1) + ".", name)

#### Пол

In [None]:
print("Accuracy:", np.mean(None == y_sex_test))
print("Most important features:")
for i, name in enumerate(most_important_features(None, features, 10)):
    print(str(i+1) + ".", name)