# Домашнее задание №3

<span style="color: red; font-size: 14pt">Дедлайн: 20 ноября 23:59</span>

**Оформление дз**: 
- Присылайте выполненное задание на почту ``zueva.nn@phystech.edu``

### Задача 1 

Рассмотрим задачу бинарной классификации. Будем считать, что все алгоритмы из базового семейства возвращают ответы из отрезка $[0,1]$, которые можно интерпретировать как вероятности принадлежности объектов классу $1$. В качестве функции потерь возьмем отрицательный логарифм правдоподобия:
$$L(y,z) = -(y \log{z}+(1-y)\log{(1-z)})$$
В формуле $y$ - правильный ответ, $z$ - ответ алгоритма. Выпишите формулы для поиска базовых алгоритмов $b_n$ и коэффициентов $\gamma_n$ в градиентном бустинге.

In [1]:
# Ваш ответ здесь

$\quad\quad$ В задачах классификации с двумя классами $Y =$ {+1; -1} разумным выбором является настройка функции распределения на объектах и ответах $p_+(x)\in$ [0, 1] и возвращающей вероятность класса +1.
Удобнее минимизировать отрицательный логарифм правдоподобия:


$$ Q(a)=-\sum_{i=1}^l\big([y_i=1] log(p_+(x))+[y_i=-1]log{(1-p_+(x_i)})\big) $$

Такая задача крайне неудобна - нужно искать алгоритм $p_+(x)$ с ограничением, что его ответ лежит в отрезке [0, 1]. Будем вместо этого искать алгоритм $a(x)$, принадлежащий области рациональных чисел, и который связан с функцией $p_+(x)$ через сигмоидную функцию:

$$ p_+(x)=\frac{1}{1+exp(-2a(x))} $$

Подставим её в отрицательный логарифм правдоподобия $Q(a)$ и получим логистическую функцию потерь:

$$ L(y,a(x))=log\big(1+exp(-2ya(x))\big) $$

Алгоритм $a(x)$ возвращает логарифм отношения оценок вероятностей классов:

$$ a(x)=\frac{1}{2}log \frac{p_+(x)}{1-p_+(x)} $$

После $N$ шагов градиентного спуска получим алгоритм $a_N(x)$, представляющий собой сумму функций:


$$ \boxed{a_N(x) = \sum_{n=0}^N \gamma_n b_n(x)},\quad \text{где $b_n(x)$ есть дифференциал функции потерь $L(y,a)$ по $a$ или градиент $-g(x)$} $$

$\quad\quad$ Задача поиска базового алгоритма $b_n(x)$ при условии упрощения изначальной функции правдоподобия, данной в условии, до логистической функции потерь будет выглядеть как (здесь $a$ эквивалентно $z$ в условии):

$$\boldsymbol b_n=arg\min_{b \in A} \sum_{i=1}^l\bigg(b(x_i)-\frac{2y_i}{1-exp(2y_ia_{N-1}(x_i)}\bigg)^2$$

После того, как базовый алгоритм $b_N(x)$ найден, остается лишь найти коэффициент при нем:

$$
\boldsymbol
\gamma_{N_j} = arg \min_j \sum_{i=1}^l L\big(y_i, a_{N-1}(x_i) + \gamma b_n(x_i)\big)
$$


## Задача 2. Random Forest

### Реализация (40%)

**Необходимо реализовать класс `RandomForest`** (для решения задачи классификации)

**Спецификация:**
- класс наследуется от `sklearn.BaseEstimator`;
- конструктор содержит следующие параметры: 
    - `num_trees` - количество деревьев в лесе;
    - `max_depth` - максимальная глубина дерева (по умолчанию - `numpy.inf`); 
    - `max_features` - количество признаков, принимаемое к рассмотрению при разбиении (аналогичный параметр есть в sklearn имплементации). Параметр может принимать значения:
        - int - тогда рассматриваем max_features признаков при каждом разбиении;
        - float - max_features обозначает процент, int(max_features * n_features) признаков рассматривается при каждом разбиении;
        - “sqrt” - max_features=sqrt(n_features);
        - “log2” - max_features=log2(n_features);
        - None - max_features=n_features;
    - `criterion` - критерий разбиения (для классификации - 'gini' или 'entropy', по умолчанию - 'gini'); функции с подсчетом энтропийного и критерия Джини можно взять из предыдущего дз;
    
- класс имеет методы `fit` и `predict`;
- метод `fit` принимает матрицу объектов `X` и вектор ответов `y` (объекты `numpy.ndarray`) и возвращает экземпляр класса
    `RandomForest`, представляющий собой Random Forest, обученный по выборке `(X, y)` с учётом заданных в конструкторе параметров; 
- метод `predict` принимает матрицу объектов и возвращает вектор предсказанных ответов;

In [22]:
import random
import sklearn
import pandas as pd
import numpy as np

In [23]:
def bagging(X, y, size):
    #Implement random sampling here
    #sample_X, sample_y = X[:size], y[:size]
    sample_X, sample_y = random.sample(X, size), random.sample(y, size)
    return sample_X, sample_y

In [24]:
class RandomForest(sklearn.base.BaseEstimator, sklearn.base.ClassifierMixin):
    def __init__(self, num_trees, max_depth, max_features):
        self.num_trees = num_trees
        self.max_depth = max_depth
        self.max_features = max_features
        self.trees = []
    
    def fit(self, X_train, y_train):
        '''
        Create trees here, using bagging and RSM.
        '''
        return self
    
    def predict(self, X_test):
        '''
        Predict the label here using your grown trees.
        '''
        y_pred = numpy.zeros(X_test.shape[0])
        return y_pred

$\quad$In ensemble algorithms, bagging methods form a class of algorithms which build several instances of a black-box estimator on random subsets of the original training set and then aggregate their individual predictions to form a final prediction. These methods are used as a way to reduce the variance of a base estimator (e.g., a decision tree), by introducing randomization into its construction procedure and then making an ensemble out of it. In many cases, bagging methods constitute a very simple way to improve with respect to a single model, without making it necessary to adapt the underlying base algorithm. As they provide a way to reduce overfitting, bagging methods work best with strong and complex models (e.g., fully developed decision trees), in contrast with boosting methods which usually work best with weak models (e.g., shallow decision trees).

$\quad$In particular, max_samples and max_features control the size of the subsets (in terms of samples and features), while bootstrap and bootstrap_features control whether samples and features are drawn with or without replacement.

$\quad$The sklearn.ensemble module includes two averaging algorithms based on randomized decision trees: the RandomForest algorithm and the Extra-Trees method. Both algorithms are perturb-and-combine techniques specifically designed for trees

### Тестирование (15%)

Загрузите датасет Wine Data Set (https://archive.ics.uci.edu/ml/datasets/wine). Разделите выборку на обучающую и тестовую с помощью метода `train_test_split`, используйте значения параметров `test_size=0.2`, `random_state=42`. Попробуйте обучить Random Forest на предложенном датасете

In [25]:
# YOUR CODE HERE
wine = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data', header=None)

In [26]:
display(wine.head())

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
0,1,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050
2,1,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185
3,1,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480
4,1,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735


Features:

1)  Alcohol
2)  Malic acid
3)  Ash
4)  Alcalinity of ash5)  Magnesium
6)  Total phenols
7)  Flavanoids
8)  Nonflavanoid phenols
9)  Proanthocyanins
10) Color intensity
11) Hue
12) OD280/OD315 of diluted wines
13) Proline   

In [47]:
np.unique([i for i in wine[0]])

array([1, 2, 3])

In [28]:
X_train, Y_train = np.array(wine.drop("0", axis=1)), np.array(wine['0'])
X_train, X_test, Y_train, Y_test = train_test_split(X_train, Y_train, test_size=0.2, random_state=42)

KeyError: "labels ['0'] not contained in axis"

Покажите, как менялись значения критерия качества `accuracy` при увеличении параметра num_trees. Видны ли следы переобучения?

In [None]:
# YOUR CODE HERE

Сравните качество работы вашей реализации RandomForest и реализации из sklearn.

In [None]:
# YOUR CODE HERE

### Модификация Random Forest 

Измените свою реализацию `RandomForest` так, чтобы случайное подмножество признаков выбиралось не в каждом сплите, а перед построением всего дерева. Сравните результат работы с обычным RandomForest.

In [None]:
# YOUR CODE HERE