#### Задание 1. Bias-Variance decomposition.

Как известно, ошибка алгоритма может быть разложена по формуле bias-variance decomposition на

$$error^2 = bias^2 + variance$$,

где $bias^2$ -- среднеквадратичное отклонение средних ответов алгоритма от истинных ответов, а variance -- среднее отклонение ответов алгоритма от среднего ответа. 

Предлагается оценить bias и variance с помощью бустрапной оценки.

В цикле обучим N моделей, где на шаге i:

1) Выберем n элементов из выборки по схеме выбора с возвращением (функция np.random.choice()). Обучим на ней модель и получим вектор предсказаний $\hat{y}_i$.

2) Вычислим среднее предсказание $\overline{y} = \frac{1}{N}\sum_{i=1}^{N} \hat{y}_i.$

3) Посчитаем среднюю ошибку алгоритма $error=\frac{1}{N}\sum_{i=1}^{N}MSE(y,\hat{y}_i).$

4) Посчитаем смещение: $bias^2 = MSE(y, \overline y)$

5) Посчитаем разброс: $variance = \frac{1}{N}\sum_{i=1}^N MSE(\hat{y}_i, \overline y).$


В качестве алгоритма будем использовать решающее дерево. Данные хранятся в файле $\textbf{blogData_train.csv}$

Постройте графики зависимости $error$, $bias^2$ и $variance$ от глубины решающего дерева (от 1 до 15 включительно) для $N=100$. 

In [None]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from tqdm import tqdm
%matplotlib inline

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.tree import DecisionTreeRegressor

In [None]:
data = pd.read_csv('blogData_train.csv', header=-1)
data.head()

In [None]:
# Разбейте выборку на train и test в соотношении 4:1

data_train, data_test = # ВАШ КОД ЗДЕСЬ

In [None]:
X_train = data_train.values[:, :-1]
X_test = data_test.values[:, :-1]

y_train = data_train.values[:, -1]
y_test = data_test.values[:, -1]

In [None]:
# Функция подсчета среднего предсказания

def get_mean_prediction(list_of_predictions):
    return np.mean(list_of_predictions, axis=0)

In [None]:
# Напишите функции, которые по вектору ответов и набору из N предсказаний выдают среднюю ошибку,
# bias и variance

def error(y_true, list_of_predictions):
    # ВАШ КОД ЗДЕСЬ
    return error

def bias(y_true, list_of_predictions):
    # ВАШ КОД ЗДЕСЬ
    return error

def variance(y_true, list_of_predictions):
    # ВАШ КОД ЗДЕСЬ
    return error

In [None]:
# Эксперимент

N = 100
DEPTHS = np.arange(1, 16)

n_objects = X_train.shape[0]

errors = []
biases = []
variances = []

for depth in tqdm(DEPTHS):
    predictions = []
    for i in range(N):
        
        # Сгенерируем выборку для обучения
    
        indices = np.random.choice(n_objects, size=n_objects)
        X = X_train[indices]
        y = y_train[indices]
    
        # Обучите решающее дерево с глубиной depth на выборке X, y
    
        model = DecisionTreeRegressor(<ВАШ КОД>)
        # ВАШ КОД
    
        predictions.append(model.predict(X_test))
    
    errors.append(error(y_test, predictions))
    biases.append(bias(y_test, predictions))
    variances.append(variance(y_test, predictions))

Постройте графики для ошибки, смещения и разброса. Выполняется ли bias-variance разложение?

#### Задание 2

Воспользуйтесь для решения задачи классификации в предыдущей задаче алгоритм RandomForest. 
Постройте график зависимости качества (MSE) от числа деревьев.

In [None]:
from sklearn.ensemble import RandomForestRegressor
# ВАШ КОД ЗДЕСЬ

#### Задание 3

Вернемся к задаче предсказания зарплаты. 

В этом задании мы протестируем Blending - метод построения композиции.

Для этого напишите класс Blender, который будет принимать на вход два алгоритма и параметр $\alpha$ -- вес первого алгоритма в итоговом предсказании.

Обучение такой модели состоит в обучении двух исходных моделей, а применение в сумме $y_1 \alpha + y_2 (1 - \alpha)$

In [None]:
from sklearn.base import BaseEstimator, ClassifierMixin

In [None]:
class Blender(BaseEstimator, ClassifierMixin):
    def __init__(self, clf1, clf2, alpha):
        # ВАШ КОД ЗДЕСЬ
        
    def fit(self, X, y):
        # ВАШ КОД ЗДЕСЬ
        
    def predict(X):
        # ВАШ КОД ЗДЕСЬ

In [None]:
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data',)
# Назначаем имена колонок
columns = ('age workclass fnlwgt education educ-num marital-status occupation relationship '
           'race sex capital-gain capital-loss  hours-per-week native-country salary')

df.columns = columns.split() #этот метод разделит датасет по колонкам как в массиве columns
df = df.dropna()

In [None]:
df_prc = df.copy()
df_prc['salary'] = df['salary'].apply((lambda x: x==' >50K')) # Будем предсказывать 1(True), если зарплата больше 50K, 0(False) иначе
df_prc.head()

In [None]:
X = np.array(df_prc[df._get_numeric_data().columns])
y = np.array(df_prc['salary'], dtype='int')