## Задание 07

### Задача 1. Смещение константного алгоритма (2 балла)
Пусть $x \in R^d$, и значение каждого признака на объекте $x$ независимо генерируется из равномерного распределения $x_i\in U[0,1],i=1,2\dots,d$. Будем считать, что объекты в выборке независимы, а $\mathbb{E}[y|x]=x^Tx.$ Найдите смещение константного алгоритма, полученного минимизацией среднеквадратичной ошибки на обучающей выборке. 

Константа наилучшим образом приближающая по среднеквадратичной ошибке для данной выборки:

$$С = \int_x x^Txp(x)$$
$$p(x) = 1$$
$$\mathbf{E}_{X} \mu(X) = \mathbf{E}_{X}[С(X)] = \int_{x} xx^Tp(x)dx=\frac{d}{3}$$

$$bias = \mathbf{E}_{x}[\mathbf{E}_{X}[С(X)]-E[y|x]]^2 = \mathbf{E}_{x} (\frac{d}{3}-xx^T)dxdy = 
\int_x(\frac{d}{3}-xx^T) = \frac{d^2}{9}-\frac{2d}{3} \int_x xx^T dx + \int_x d^2x^4 dx = \frac{4d^2}{45}$$


### Задача 2. Разложение ошибки (2 балла)
Истинная зависимость имеет вид $y_i = 3x^2_i+ u_i$, где $y_i$ - прогнозируемая переменная, $x_i$-признак и $u_i$ - случайная составляющая. Величины $x_i$ независимы и равновероятно принимаю значения $0, 1, 2$. Величины $u_i$ независимы и равновероятно принимают значения $−1$ и $1$.
Исследователь Анатолий оценивает модель линейной регрессии $y_i = wx_i$, минимизируя среднеквадратичную ошибку.
Разложите ожидание квадрата ошибки прогноза на шум, смещение и разброс.

Для линейной регрессии при минимизации средней ошибки коэффициент $w=\frac{\sum_{i} x_iy_i}{\sum_{i} x_i^2}$

шум $$\mathbf{E}_{x, y} [y-E[y|x]]^2 = \mathbf{E}_{x}(3x^2+u-3x^2)^2 = \mathbf{E}_{x}(u^2) = 1 $$

смещение 
$$ \mathbf{E}_{x}[\mathbf{E}_{X}[\mu(X)](x)-E[y|x]]^2 $$
$$ \mathbf{E}_{X}[\mu(X)] = \mathbf{E}_{X} \frac{\sum_{i} x_iy_i}{\sum_{i} x_i^2} = \mathbf{E}_{X} \frac{\sum_{i} x_i (3x_i^2+u)}{\sum_{i} x_i^2} = \mathbf{E}_{X} \frac{\sum_{i} 3x_i^3}{\sum_{i} x_i^2} = \mathbf{E}_{X} 3x_i = 3 $$
$$ \mathbf{E}_{x}[\mathbf{E}_{X}[\mu(X)](x)-E[y|x]]^2 = \mathbf{E}_{x} (3x-3x^2)^2 = 12 $$

разброс
$$ \mathbf{E}_{x}[\mathbf{E}_{X}([\mu(X)](x)-\mathbf{E}_{X}[\mu(X)(x)])^2] = 
\mathbf{E}_{x} x^2 \mathbf{E}_{X} (\frac{\sum_{i} x_iy_i}{\sum_{i} x_i^2} - 3)^2 
= \frac{5}{3} \mathbf{E}_{X} (3x_i - 3) ^2 = \frac{5}{3} * 6 = 10
$$

### Задача 3. Взвешенное голосование (2 балла)
Рассмотрим задачу бинарной классификации, пусть у нас есть три алгоритма $b_1(x), b_2(x)$ и $b_3(x)$, каждый из которых ошибается с вероятностью $p$. Мы строим композицию взвешенным голосованием: алгоритмам присвоены значимости $w_1, w_2$ и $w_3$, и для вынесения вердикта суммируются значимости алгоритмов, проголосовавших за каждый из классов:
$$
a_0=\sum_{i=1}^3w_i[b_i(x)=0], $$
$$
a_1=\sum_{i=1}^3w_i[b_i(x)=1]. \\
$$
Объект $x$ относится к классу, для которого сумма оказалась максимальной. Например, если первые два алгоритма голосуют за класс $0$, а третий за класс $1$, то выбирается класс $0$, если $w_1+w_2>w_3$, и класс $1$ в противном случае. Какова вероятность ошибки такой композиции этих трех алгоритмов, если:

* $w_1=0.3, w_2=0.4, w_3=0.3$;
* $w_1=0.2, w_2=0.5, w_3=0.2$?


В первом случае композиция алгоритмов ошибочна, если ошибочны 2 из 3 алгоритма или все три:
$$p^{'}=3p*p*(1-p)+p*p*p=3p^2-2p^3$$
Во втором случае ошибка полностью определяется вторым алгоритмом, так как ответ композиции равно ответу второго:
$$p^{'}=p$$

### Задача 4. Разложение ошибки с помощью бутстрапа 

В этом задании вам предстоит воспользоваться возможностями bootstraping для оценки смещения и разброса алгоритмов машинного обучения. Делать мы это будем на данных boston:

In [7]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
%matplotlib inline

In [149]:
from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.utils import resample
from sklearn.metrics import mean_squared_error 

In [150]:
boston = load_boston()
X = boston["data"]
y = boston["target"]
X.shape, y.shape

((506, 13), (506,))

#### Алгоритм оценки смещения и разброса алгоритма $a$

1. Сгенерировать $s$ выборок $X_j$ методом бутстрапа.

2. На каждой выборке $X_j$ обучить алгоритм $a_j$.

3. Для каждой выборки $X_j$ определить множество объектов $T_j$, не вошедших в нее (out-of-bag). Вычислить предсказания алгоритма $a_j$ на объектах $T_j$.

Поскольку у нас есть только один ответ для каждого объекта, мы будем считать шум равным 0, а $\mathbb{E}[y|x]$ равным имеющемуся правильному ответу для объекта $x$.

#### Итоговые оценки:

* #### Смещение: 
для одного объекта - квадрат разности среднего предсказания и правильного ответа. Среднее предсказание берется только по тем алгоритмам $a_j$, для которых этот объект входил в out-of-bag выборку $T_j$. Для получения общего смещения выполнить усреденение смещений по объектам.
* #### Разброс: 
для одного объекта - выборочная дисперсия предсказаний алгоритмов $a_j$, для которых этот объект входил в out-of-bag выборку $T_j$. Для получения общего разброса выполнить усреденение разбросов по объектам.
* #### Ошибка $L$:
усреднить квадраты разностей предсказания и правильного ответа по всем выполненным предсказаниям для всех объектов.

В результате должно получиться, что ошибка приблизительно равна сумме смещения и разброса!

* реализуйте описанный алгоритм. Обратите внимание, что если объект не вошел ни в одну из out-of-bag выборок, учитывать его в вычислении итоговых величин не нужно. (3 балла) 

* Оцените смещение, разброс и ошибку для трех алгоритмов с гиперпараметрами по умолчанию: линейная регрессия, решающее дерево, случайный лес.

* Проанализируйте полученный результат. Согласуются ли полученные результаты с теми, что мы обсуждали на занятиях? (1 балл)

In [164]:
regr_inits = [LinearRegression, DecisionTreeRegressor, RandomForestRegressor]
s = 10
bootstrap_percent = 0.75
n = X.shape[0]
I = range(n)
y_pred_acc = [[] for i in range(n)]
error_acc = []

for regr_init in regr_inits:
    regr = regr_init()
    
    for j in range(s):
        I_j = resample(I, replace=False, n_samples=int(n*bootstrap_percent))
        X_j = X[I_j]
        y_j = y[I_j]
        
        K_j = [i for i in I if i not in I_j]
        T_j = np.asarray([X[i] for i in I if i not in I_j])
        u_j = np.asarray([y[i] for i in I if i not in I_j])
        
        regr.fit(X_j, y_j)
        u_j_pred = regr.predict(T_j)
        for k, i in zip(K_j, range(len(K_j))):
            y_pred_acc[k].append(u_j_pred[i])
            error_acc.append((y[k]-u_j_pred[i])**2)
        
    element_bias_acc = []
    for y_pred_list, i in zip(y_pred_acc, range(n)):
        if not y_pred_list:
            continue
        m = np.mean(y_pred_list)
        element_bias_acc.append((y[i] - m)**2)

    bias = np.mean(element_bias_acc)
    variance = np.mean([np.var(y_pred_list) for y_pred_list in y_pred_acc if y_pred_list])
    error = np.mean(error_acc)
    print("Bias: {}, Variance: {}, L: {}".format(bias, variance, error))


Bias: 24.16571395945386, Variance: 0.15187110107115567, L: 24.440916184616707
Bias: 15.466921698925303, Variance: 8.338069310318248, L: 24.219540769473706




Bias: 12.653270502358808, Variance: 7.402219701485804, L: 21.33524061796935


Как и ожидалось, линейная регрессия имеет большое смешение и маленький разброс, дерево имеет большой разброс и небольшое смещение, лес - чуть меньший чем удерева разброс и меньшее смещение. 