# HSE 2023: Введение в машинное обучение БИ 22/23

## Домашнее задание № 4


# Внимание!

* Некоторые задания требуют значительного времени для выполнения, поэтому **лучше приступить к выполнению домашнего задания как можно раньше** 

* Решения обязательно должны содержать комментарии, все полученные результаты должны сопровождаться выводами (для этого удобно использовать ячейки markdown)


In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

plt.rcParams['figure.figsize'] = (11, 5)
%matplotlib inline

# Часть 1. Дерево решений

### Задание 1  (1 балл)

Загрузите датасет boston и разделите его на тренировочную ($75\%$) и тестовую ($25\%$) части. Обучите дерево глубины 1 и постройте следующий график:

- Scatter plot для точек обучающей выборки (Выбранный моделью признак по оси x, целевая переменая по оси y)
- Обученная модель

In [None]:
# YOUR CODE HERE

### Задание 2  (1 балл)


Продолжаем работать с датасетом boston

- С помощью `GridSearchCV` найдите оптимальные значения [`max_depth`, `min_samples_leaf`] используя кроссвалидацию с 5 фолдами
- Обучите модель с лучшими гиперпараметрами на всем тренировочном датасете
- Укажите значение `MAE` на тесте и значения гиперпараметров

In [None]:
# YOUR CODE HERE

``` your comments here```

### Задание 3  (1 балл)

Используйте `sklearn.ensemble.BaggingRegressor` для создания ансамбля 

- какого значение MAE на тесте удалось достичь
- как можно объяснить изменение результата в сравнении с отдельным деревом

In [None]:
from sklearn.ensemble import BaggingRegressor

# YOUR CODE HERE

```your comments here```

# Часть 2. Ансамбли

В этой части будем решать задачу классификации на датасете [Thyroid Disease Data Set](https://archive.ics.uci.edu/ml/datasets/thyroid+disease)

In [None]:
from sklearn.preprocessing import LabelEncoder

df = pd.read_csv('thyroid_disease.csv')

le = LabelEncoder()
y = le.fit_transform(df['Class'])
X = df.drop('Class', axis=1)
X.head(5)

### Задание 1  (2 балла)

Начнем с предобработки данных 

0. Удалите столбцы, которые не являются полезными (например, много пропущенных значений). Объясните свой выбор. 
1. Разделите данные на тренировочную и тестовую части
2. Вы вероятно заметили, что имеются как категориальные так и численные признаки. С ними необходимо сделать следующее:
    -  Категориальные: Заполнить пропущенные значения и применить one-hot-encoding
    - Численные: Заполнить пропущенные значения

    
Используйте `ColumnTranformer` что бы задать общий "transformer" для всех столбцов в датасете. Он принимает на вход список кортежей

```
ColumnTransformer([
    ('name1', transform1, column_names1),
    ('name2', transform2, column_names2)
])
```

Обратите внимание на аргумент `remainder='passthrough'`. [Здесь](https://scikit-learn.org/stable/modules/compose.html#column-transformer) вы можете найти примеры использования `ColumnTranformer`. 
    
Поскольку мы хотим применить 2 преобразования к категориальному признаку, очень удобно объединить их в `Pipeline`:

```
double_tranform = make_pipeline(
                        transform_1,
                        transform_2
                        )
```

P.S. Выберите ваш любимый способ заполнения пропущенных значений. 

*Подсказка* Категориальный столбец обычно имеет `dtype = 'object'`. Это может помочь получить списки категориальных и числовых столбцов.


In [None]:
from sklearn.pipeline import make_pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.impute import SimpleImputer


# YOUR CODE HERE
# define column_transformer 

# Transform the data
X_train = column_transformer.fit_transform(X_train)
X_test = column_transformer.transform(X_test)

### Задание 2  (1.5 балл)

Обучите и сравните 5 разных моделей из sklearn: Gradient Boosting, Random Forest, Decision Tree, SVM, Logitics Regression
    
* Выберите одну метрику классификации и обоснуйте свой выбор.
* Сравните модели используя данную метрику на кроссвалидации. Не забудьте выбрать верную стратегию кроссвалидации с учетом баланса классов. (подробнее о CV стратегиях [тут](https://scikit-learn.org/stable/modules/cross_validation.html#stratified-k-fold))
* Какая модель оказалась лучшей. Какие модели переобучались или недообучались?

In [None]:
# YOUR CODE HERE

```your comments here```

### Задание 3  (1 балл)



Вам нужно обучить одну из трех популярных реализаций бустинга (xgboost, lightgbm, catboost). Подберите гиперпараметры (количество деревьев, скорость обучения, глубина) на кроссвалидации и сравните с методами из предыдущей задачи.


Чтобы получить реализацию, которую вы должны использовать, запустите ячейку ниже и введите свое имя (например, если вы введете Андрей, вы увидите, что пользователь с таким именем должен реализовать xgboost).

In [None]:
def assign_method():
    name = input()
    methods = ['xgboost', 'lightgbm', 'catboost']
    idx = sum([ord(x) for x in list(name)]) % 3
    print('Реализуйте', methods[idx])
    
assign_method()

In [None]:
# YOUR CODE HERE

```your comments here```

### Задание 4  (2.5 балла)

Обучим еще несколько ансамблей:

* Бэггинг над деревьями решений
* Бэггинг над градиентным бустингом (с большим колличеством деревьев, >100)
* [VotingСlassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.VotingClassifier.html#sklearn.ensemble.VotingClassifier) 
* [StackingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.StackingClassifier.html#sklearn.ensemble.StackingClassifier) c LogisticRegression в качестве финальной модели
* [StackingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.StackingClassifier.html#sklearn.ensemble.StackingClassifier) c GradeintBoosting в качестве финальной модели

Если в задании не указано иное, не стесняйтесь настраивать/выбирать гиперпараметры и базовые модели.

Ответьте на вопросы:
* Какая модель показала лучший скор?
* Снижает ли бэггинг переобучение в случае градиентного бустинка с большим колличством деревьев?
* В чем разница между VotingСlassifier и StackingClassifier?



In [None]:
# YOUR CODE HERE

```your comments here```

Укажите скор лучшей модели

In [None]:
# YOUR CODE HERE