# Кейс по моделированию

Данная домашняя работа выполняется в формате отчета (написание кода + свои размышления). Оценивается как правильность выполнения домашней работы (код), так и правильность объяснения действий и результатов. Data Scientist должен понимать, что он делает и почему он это делает. Также приходится объяснять свои размышления и принимаемое решение руководителю или человеку со стороны бизнеса.

Старайтесь выполнить домашку САМОСТОЯТЕЛЬНО. Это идет вам на пользу (Хорошая оценка - меньшее, что можно получить, главное - знания по результатам выполнения). Если что-то не получается, обращайтесь к преподавателю с вопросами.

Всего 23 балла. 10 из 10 - это 20 баллов. Лучше решить по максимуму с запасом.

Начнём!

### Данные

В задачах кредитного скоринга, предсказания дефолта самым важным признаком служит заработная плата клиента. Но... Не всегда она известна.

Вам предлагается решить задачу бинарной классификации, а именно построить алгоритм, определяющий, превысит ли средний заработок человека порог $50k

#### Как оценить качество алгоритма

Мы будем смотреть на показатель Area Under ROC Curve (ROC_AUC). Напомню, что он тем выше, чем мы правильнее упорядочиваем наши предсказанные "вероятности". Подробнее [здесь](https://ru.wikipedia.org/wiki/ROC-кривая)

#### Делаем важные импорты

In [None]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt

#### Данные

1) age (Возраст): continuous. 

2) workclass (Информация о работе): Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked. 

3) fnlwgt (Вещественный признак - анонимен): continuous. 

4) education (Образование): Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool. 

5) education-num: continuous. 

6) marital-status (Семейное положение): Married-civ-spouse, Divorced, Never-married, Separated, Widowed, Married-spouse-absent, Married-AF-spouse. 

7) occupation (Род деятельности): Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, Prof-specialty, Handlers-cleaners, Machine-op-inspct, Adm-clerical, Farming-fishing, Transport-moving, Priv-house-serv, Protective-serv, Armed-Forces. 

8) relationship (Статус в семье): Wife, Own-child, Husband, Not-in-family, Other-relative, Unmarried. 

9) race (Раса): White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black. 

10) sex (Пол): Female, Male. 

11) capital-gain (Размер капитала): continuous. 

12) capital-loss (Фича на основе капитала): continuous. 

13) hours-per-week (Сколько часов в неделю работает): continuous.

14) >50K,<=50K (Ваш таргет)

#### Скачиваем данные

In [None]:
# В данной таблице NaNы заполнены значком '?' - заменим его на проспуски с помощью параметра "na_values"
data_adult = pd.read_csv("HW_ML_04-05_data.adult.csv", na_values='?')
data_adult.head()

### 1. Анализ

Иногда в данных встречаются пропуски.

Более подробно о работе с пропусками в Pandas можно прочитать [здесь](http://pandas.pydata.org/pandas-docs/stable/missing_data.html) 

**(1 балл)** 
- Найдите все признаки, имеющие пропущенные значения. Удалите из выборки все объекты с пропусками.

- Проведите анализ (количество строк, количество строк после удаления (use df.shape),...)

In [None]:
# use pd.isnull, data_adult.dropna
...

**(1 балл)** 
- Выделите целевую переменную (наш таргет) в отдельную переменную (назовите ее 'target')
- Преобразуйте к бинарному формату ({0,1})
- Удалите из датасета старую переменную.
- Посмотрите распределение целевой переменной

In [None]:
...

**(1 балл)**
- Постройте гистограмму распределения признака "capital-gain" с количеством бинов=50
- Посмотрите процентное соотношение категорий в колонке "workclass"

In [None]:
# use df\['needed column'\].hist(bins=...), df\['needed column'\].value_counts
...

### 2. Категориальные признаки

Как вы могли заметить, среди признаков есть категориальные.

**(1 балл)**
- Выделите 3 переменные (cat - список категориальных признаков, num - список вещественных признаков, target - таргет (строка));
- Закодируйте категориальные признаки;
- Выберите признаки для обучения.

Чтобы понять, какие признаки категориальные, используйте:
- df.dtypes,
- df\[col\].value_counts,
- df\[col\].nunique
- ...

In [None]:
cat = [...]
num = [...]
target = '...'

In [None]:
data_adult = pd.get_dummies(...)

In [None]:
train_columns = data_adult.columns.difference(...)

### 3. Нормализация данных

**(1 балл)**
- Проведите анализ шкал признаков (Какого порядка вещественные признаки?) Можно с помощью гистограммы.
- Напишите, к каким проблемам может привести разница в шкалах различных признаков.
- На какие алгоритмы машинного обучения может повлиять данная проблема и почему.
- На какие алгоритмы машинного обучения не влияет масштабирование данных.

**(1 балл)**
- Масштабируйте данные
- Выделите отдельно X (ваши признаки) и y - ваша колонка таргета

In [None]:
from sklearn.preprocessing import StandardScaler
...

Далее используйте масштабированные признаки

### 4. Валидация

В нашем случае будем валидироваться с помощью KFold + сохранение баланса классов в каждом "фолде" с помощью StratifiedKFold из sklearn.model_selection

**(1 балл)**

Расскажите:
- Какие виды валидации вы знаете?
- Какие минусы и плюсы каждого подхода к валидации?
- В чем преимущество StratifiedKFold над KFold?

### 5. Выбор алгоритма и оптимизация

При подборе алгоритма будем варьировать не один параметр, а несколько в каждом алгоритме.

Выберем 3 алгоритма:

 - kNN (подробнее [здесь](http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html))
 - SGD Linear Classifier (подробнее [здесь](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html))
 - RandomForest (подробнее [здесь](http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html))
 

### 5.1 kNN

**(3 балла)**
- Инициализируйте дефолтную модель (модель с дефолтными гиперпараметрами).
- Инициализируйте GridSearchCV для подбора гиперпараметров (подробнее [здесь](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html)). Не забудьте задать параметр cv (число фолдов выберите из диапазона от 3 до 10). 
- Подберите наилучшие параметры для модели с помощью GridSearchCV.
- Постройте график зависимости качества ROC_AUC от параметров (получается 2 графика) с доверительным интервалом. Ось Х - значения параметра, ось Y - значения ROC_AUC.

Подберите оптимальные параметры:
- Число соседей (**n_neighbors**) Перебирайте в диапазоне от 0 до 50.
- Метрика (**metric**) Перебирайте из \['minkowski', 'euclidean', 'chebyshev', 'manhattan'\].

Если подбор занимает очень много времени:
* Задайте значение параметра n_jobs=-1.
* Перебирайте значения из диапазона с шагом 2-5.

Для построения графика зависимости качества модели от показателя metric по оси идут 4 категории метрики. Для построения подобного графика, используйте xticks из pylab. Подробнее [здесь](https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.xticks.html) Потыкайте на картиночки, там откроется код.

Чтобы взять лучшую модель из GridSearchCV используйте метод gsCV.best_estimator_ после того, как обучите GridSearchCV на подбор лучших гиперпараметров.

gsCV.best_estimator_ вернет модель с наилучшими гиперпараметрами с точки зрения качества roc_auc на кросс-валидации.

Чтобы посмотреть параметры лучшей модели, используйте gsCV.best_params_

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV 

In [None]:
...

In [None]:
import pylab as pl
x_kNN = ...
xTicks = [...]
# rotation - поварьируйте (это угол поворота названий категорий гиперпараметров)
pl.xticks(range(...), xTicks, rotation=...)
pl.plot(x_kNN, ..., color=...)

In [None]:
...

### 5.2 SGD Linear Classifier

**(3 балла)**
- Инициализируйте дефолтную модель (модель с дефолтными гиперпараметрами)
- Инициализируйте GridSearchCV для подбора гиперпараметров (подробнее [здесь](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html)). Не забудьте задать параметр cv (число фолдов выберите из диапазона от 3 до 10). 
- Подберите наилучшие параметры для модели с помощью GridSearchCV.
- Постройте график зависимости качества ROC_AUC от параметров (получается 2 графика) с доверительным интервалом. Ось Х - значения параметра, ось Y - значения ROC_AUC.

Подберите оптимальные параметры:
- Loss функция (**loss**) Перебирайте из \['hinge', 'log', 'modified_huber', 'squared_hinge', 'perceptron', 'squared_loss', 'huber', 'epsilon_insensitive'\]
- Вид штрафа (**penalty**) Перебирайте из \['none', 'l2', 'l1', 'elasticnet'\]


Для построения графика зависимости качества модели от показателей loss, penalty по оси "x" идут категории. Для построения подобного графика, используйте xticks из pylab. Подробнее [здесь](https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.xticks.html) Потыкайте на картиночки, там откроется код.

Чтобы взять лучшую модель из GridSearchCV используйте метод gsCV.best_estimator_ после того, как обучите GridSearchCV на подбор лучших гиперпараметров.

gsCV.best_estimator_ вернет модель с наилучшими гиперпараметрами с точки зрения качества roc_auc на кросс-валидации.

Чтобы посмотреть параметры лучшей модели, используйте gsCV.best_params_

In [None]:
from sklearn.linear_model import SGDClassifier

In [None]:
...

In [None]:
import pylab as pl
x_SGD = ...
xTicks = [...]
# rotation - поварьируйте (это угол поворота названий категорий гиперпараметров)
pl.xticks(range(...), xTicks, rotation=...)
pl.plot(x_SGD, ..., color=...)

In [None]:
...

### 5.3 RandomForestClassifier

**(3 балла)**
- Инициализируйте дефолтную модель (модель с дефолтными гиперпараметрами).
- Инициализируйте GridSearchCV для подбора гиперпараметров (подробнее [здесь](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html)). Не забудьте задать параметр cv (число фолдов выберите из диапазона от 3 до 10). 
- Подберите наилучшие параметры для модели с помощью GridSearchCV.
- Постройте график зависимости качества ROC_AUC от параметров (получается 2 графика) с доверительным интервалом. Ось Х - значения параметра, ось Y - значения ROC_AUC.

Подберите оптимальные параметры:
- Число деревьев (**n_estimators**) Перебирайте в диапазоне от 0 до 100
- Параметр максимального количества фичей для построения дерева (**max_features**) Перебирайте из \['auto', 'sqrt', 'log2', None\]
- Критерий разбиения на поддеревья (**criterion**) Перебирайте из \['gini', 'entropy'\]


Для построения графика зависимости качества модели от показателей max_features, criterion по оси "x" идут категории. Для построения подобного графика, используйте xticks из pylab. Подробнее [здесь](https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.xticks.html) Потыкайте на картиночки, там откроется код.

Чтобы взять лучшую модель из GridSearchCV используйте метод gsCV.best_estimator_ после того, как обучите GridSearchCV на подбор лучших гиперпараметров.

gsCV.best_estimator_ вернет модель с наилучшими гиперпараметрами с точки зрения качества roc_auc на кросс-валидации.

Чтобы посмотреть параметры лучшей модели, используйте gsCV.best_params_

#### Важно!!!

Число деревьев (**n_estimators**) перебирать с помощью GridSearchCV НЕ НАДО!

Если задание ниже не получится (можете по-старинке перебирать (но придется долго ждать))

**(2 балла)**

Подберём число деревьев (n_estimators) в алгоритме RandomForest, начиная с которого качество стабилизируется. Выполните задание одним из предложенных способов (можете сделать двумя, а потом сравнить их результаты).

_Способ 1_
1. Разбейте выборку на обучающую и тестовую с помощью train_test_split.
2. Для каждого числа деревьев:
  - Обучите модель на обучающей выборке
  - Посчитайте скор на тестовой выборке
  - Сохраните скор
3. Проанализируйте зависимость качества предсказания модели от числа деревьев (постройте график).
4. Напишите какое оптимальное количество деревьев следует использовать и почему.

_Способ 2_
1. Для каждого числа деревьев:
  - Посчитайте скор, используя cross_val_score
  - Сохраните скор
3. Проанализируйте зависимость качества предсказания модели от числа деревьев (постройте график).
4. Напишите какое оптимальное количество деревьев следует использовать и почему.

В дальнейших экспериментах используйте подобранное количество деревьев.

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split, cross_val_score

#### Сначала подберите оптимальное количество деревьев, зафиксируйте, затем другие параметры.

In [None]:
max_trees_number = 100
result = []
X_train, X_test, y_train, y_test = train_test_split(...) # для способа 1

# Подсказка
for current_trees_number in range(...):
    # инициализируем модель
    RFC_model = RandomForestClassifier(n_estimators=...)
    # обучаем модель
    RFC_model.fit(...)
    # считаем скор
    ...
    # сохраняем скор
    ...

In [None]:
...

In [None]:
import pylab as pl
x_RFC = ...
xTicks = [...]
# rotation - поварьируйте (это угол поворота названий категорий гиперпараметров)
pl.xticks(range(...), xTicks, rotation=...)
pl.plot(x_RFC, ..., color=...)

In [None]:
...

### 6. Ансамбль моделей

**(2 балла)**

Попробуйте "заблендить" модели (сложить результаты (ответы) разных алгоритмов) с разными коэффициентами перед ними.

Попробуйте различные комбинации алгоритмов. А так же все три алгоритма вместе.

$$result(x) = clf_1(x) * \alpha + clf_2(x) * (1 - \alpha)$$

Подробнее про ансамбли: [здесь](https://dyakonov.org/2017/03/10/cтекинг-stacking-и-блендинг-blending/)

Простой пример использования VotingClassifier и его описание можно найти в официальной документации: [здесь](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.VotingClassifier.html) 


In [None]:
# Библиотека для блендинга
from sklearn.ensemble import VotingClassifier

In [None]:
...

### 7. Ящик с усами

**(2 балла)**

Давайте посмотрим визуально на качество наших моделей. Вы уже знаете, какие гиперпараметры для наших моделей являются наилучшими. Зафиксируйте данные параметры:

In [None]:
best_model_knn = KNeighborsClassifier(..."best params"...) # Можно ручками или через .best_params_ или .best_model_
best_model_random_forest = RandomForestClassifier(..."best params"...)  # Можно ручками или через .best_params_ или .best_model_
best_model_sgd = SGDClassifier(..."best params"...)  # Можно ручками или через .best_params_ или .best_model_
best_model_voting_classifier = voting_grid_search_CV.best_model_

Посмотрим на наше качество на кросс_валидации:

In [None]:
from sklearn.model_selection import cross_val_score

In [None]:
# В качестве cv возьмите StratifiedKFold с 7 фолдами
cv_score_knn = cross_val_score(estimator=..., X=..., y=..., cv=..., scoring='roc_auc')
cv_score_random_forest = cross_val_score(estimator=..., X=..., y=..., cv=..., scoring='roc_auc')
cv_score_sgd = cross_val_score(estimator=..., X=..., y=..., cv=..., scoring='roc_auc')
cv_score_voting_classifier = cross_val_score(estimator=..., X=..., y=..., cv=..., scoring='roc_auc')

Создайте таблицу pandas.DataFrame с колонками названиями методов (4 колонки), а значения - выход функции cross_val_score

In [None]:
final_result = pd.DataFrame(..., columns=[...])

Запустите код ниже

In [None]:
ax = final_result.boxplot() 
_ = plt.setp(ax.lines, linewidth=2.0)
plt.show()

### 8. Выводы

**(1 балл)**
По графику выше сделайте вывод:
- Какой алгоритм "победил в соревновании" за качество?
- Лучший алгоритм с точки зрения качества/скорости работы (иногда это очень важно)
- Опишите каждый алгоритм (вкратце), его плюсы и минусы

_____

_____

_____

_____