## Задание 07

### Задача 1. Смещение константного алгоритма (2 балла)
Пусть $x \in R^d$, и значение каждого признака на объекте $x$ независимо генерируется из равномерного распределения $x_i\in U[0,1],i=1,2\dots,d$. Будем считать, что объекты в выборке независимы, а $\mathbb{E}[y|x]=x^Tx.$ Найдите смещение константного алгоритма, полученного минимизацией среднеквадратичной ошибки на обучающей выборке. 

### Задача 2. Разложение ошибки (2 балла)
Истинная зависимость имеет вид $y_i = 3x^2_i+ u_i$, где $y_i$ - прогнозируемая переменная, $x_i$-признак и $u_i$ - случайная составляющая. Величины $x_i$ независимы и равновероятно принимаю значения $0, 1, 2$. Величины $u_i$ независимы и равновероятно принимают значения $−1$ и $1$.
Исследователь Анатолий оценивает модель линейной регрессии $y_i = wx_i$, минимизируя среднеквадратичную ошибку.
Разложите ожидание квадрата ошибки прогноза на шум, смещение и разброс.

### Задача 3. Взвешенное голосование (2 балла)
Рассмотрим задачу бинарной классификации, пусть у нас есть три алгоритма $b_1(x), b_2(x)$ и $b_3(x)$, каждый из которых ошибается с вероятностью $p$. Мы строим композицию взвешенным голосованием: алгоритмам присвоены значимости $w_1, w_2$ и $w_3$, и для вынесения вердикта суммируются значимости алгоритмов, проголосовавших за каждый из классов:
$$
a_0=\sum_{i=1}^3w_i[b_i(x)=0], $$
$$
a_1=\sum_{i=1}^3w_i[b_i(x)=1]. \\
$$
Объект $x$ относится к классу, для которого сумма оказалась максимальной. Например, если первые два алгоритма голосуют за класс $0$, а третий за класс $1$, то выбирается класс $0$, если $w_1+w_2>w_3$, и класс $1$ в противном случае. Какова вероятность ошибки такой композиции этих трех алгоритмов, если:

* $w_1=0.3, w_2=0.4, w_3=0.3$;
* $w_1=0.2, w_2=0.5, w_3=0.2$?


### Задача 4. Разложение ошибки с помощью бутстрапа 

В этом задании вам предстоит воспользоваться возможностями bootstraping для оценки смещения и разброса алгоритмов машинного обучения. Делать мы это будем на данных boston:

In [6]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
%matplotlib inline
import warnings
warnings.filterwarnings('ignore')

In [7]:
from sklearn.datasets import load_boston

In [8]:
boston = load_boston()
X = boston["data"]
y = boston["target"]
X.shape, y.shape

((506, 13), (506,))

#### Алгоритм оценки смещения и разброса алгоритма $a$

1. Сгенерировать $s$ выборок $X_j$ методом бутстрапа.

2. На каждой выборке $X_j$ обучить алгоритм $a_j$.

3. Для каждой выборки $X_j$ определить множество объектов $T_j$, не вошедших в нее (out-of-bag). Вычислить предсказания алгоритма $a_j$ на объектах $T_j$.

Поскольку у нас есть только один ответ для каждого объекта, мы будем считать шум равным 0, а $\mathbb{E}[y|x]$ равным имеющемуся правильному ответу для объекта $x$.

#### Итоговые оценки:

* #### Смещение: 
для одного объекта - квадрат разности среднего предсказания и правильного ответа. Среднее предсказание берется только по тем алгоритмам $a_j$, для которых этот объект входил в out-of-bag выборку $T_j$. Для получения общего смещения выполнить усреденение смещений по объектам.
* #### Разброс: 
для одного объекта - выборочная дисперсия предсказаний алгоритмов $a_j$, для которых этот объект входил в out-of-bag выборку $T_j$. Для получения общего разброса выполнить усреденение разбросов по объектам.
* #### Ошибка $L$:
усреднить квадраты разностей предсказания и правильного ответа по всем выполненным предсказаниям для всех объектов.

В результате должно получиться, что ошибка приблизительно равна сумме смещения и разброса!

* реализуйте описанный алгоритм. Обратите внимание, что если объект не вошел ни в одну из out-of-bag выборок, учитывать его в вычислении итоговых величин не нужно. (3 балла) 

* Оцените смещение, разброс и ошибку для трех алгоритмов с гиперпараметрами по умолчанию: линейная регрессия, решающее дерево, случайный лес.

* Проанализируйте полученный результат. Согласуются ли полученные результаты с теми, что мы обсуждали на занятиях? (1 балл)

In [26]:
#реализуйте описанный алгоритм. 
#Обратите внимание, что если объект не вошел ни в одну из out-of-bag выборок, 
#учитывать его в вычислении итоговых величин не нужно

def compute(algorithm, X, y, s=1000):
    N = X.shape[0]
    y_pred = np.full(fill_value=np.nan, shape=(s, N))
    sum_sample = np.zeros(shape=(1, N))[0]
    counter = np.zeros(N)
    
    for i in range(s):
        X_i = np.random.choice(N, N) # рандомная подвыборка
        T_i = np.setdiff1d(np.arange(N), X_i) # out-of-bag
        if T_i.shape[0] == 0:
            continue
        X_sample, y_sample = X[X_i], y[X_i] 
        pred = algorithm.fit(X_sample, y_sample).predict(X[T_i]) #обучаем алгоритм на подвыборке
                                                                #ищем предсказание на out-of-bag
        y_pred[i].flat[T_i] = pred #храним предсказания
        sum_sample[T_i] += pred
        counter[T_i] += 1  #храним индексы тех,кто в out- of- bag
    
    #берем только по тем алгоритмам, для которых этот объект входил в out-of-bag выборку  
    nonzero_ind = (counter > 1) #берем только те, кто входит в out -of -bag
    sum_sample = sum_sample.reshape(1, -1)[0][nonzero_ind]
    y = y[nonzero_ind]
    counter = counter[nonzero_ind]
    y_pred = y_pred[:, nonzero_ind]
    
    
 
    bias = np.mean((sum_sample / counter - y) ** 2) # усредненный квадрат разности среднего 
                                                     #предсказания и правильного ответа 
    
    tmp = ((y_pred - sum_sample/ counter) ** 2)
    variance = np.mean(np.nansum(tmp, axis=0) / (np.sum(~np.isnan(tmp), axis=0) - 1)) #усредненная дисперсия предсказаний
    
    error = np.nanmean((y_pred - y.T) ** 2) #усредненый квадрат разности предсказания и правильного ответа 
    
    return bias, variance, error 

In [27]:
#Оцените смещение, разброс и ошибку для трех алгоритмов с гиперпараметрами по умолчанию: 
#линейная регрессия, решающее дерево, случайный лес.

from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor

print(" bias |  variance | error ")
print("LinearRegression", compute(LinearRegression(), X, y))
print("DecisionTreeRegressor", compute(DecisionTreeRegressor(), X, y))
print("RandomForestRegressor", compute(RandomForestRegressor(), X, y))

 bias |  variance | error 
LinearRegression (23.729711956271203, 0.9385683903302623, 24.601168353748506)
DecisionTreeRegressor (10.431664996392175, 12.864984085538195, 23.354579026776268)
RandomForestRegressor (10.5845731997286, 3.3497450617595743, 14.075530336455639)


In [11]:
#Проанализируйте полученный результат. 
#Согласуются ли полученные результаты с теми, что мы обсуждали на занятиях?

1) Линейная регрессия имеет достаточно большое смещение, так как пытаемся приблизить нелинейную функцию. Так как данные несильно зашумлены, то разбром небольшой. \
2) Рещающее дерево имеет меньшее смещение, так как используя дерево возможно приблизить любую функцию.Так как решающие деревья — это алгоритмы, неустойчивые к изменениям обучающей выборки,то разброс достаточно большой. \
3) Случайный лес имеет такое же смещение, как и решающее дерево, разброс же уменьшается за счет использования бэггинга. 