## Практическая работа

## Цели практической работы

*  решить реальную задачу;
*  потренироваться в обработке данных;
*  обучить различные модели классификации, подобрать гиперпараметры и выбрать лучшую модель;
*  добиться наилучшего качества в задаче.

## Что входит в практическую работу

*  исследование датасета и обработка данных (работа с пропущенными и ошибочными значениями);
*  обучение различных моделей классификации с параметрами по умолчанию;
*  подбор гиперпараметров моделей;
*  смешивание моделей;
*  оценка качества моделей.

## Что оценивается

*  Выполнены все этапы задания: код запускается, отрабатывает без ошибок; подробно и обоснованно написаны текстовые выводы, где это требуется.

## Формат сдачи
Выполните предложенные задания: впишите свой код (или, если требуется, текст) в ячейки после комментариев. 

*Комментарии — это текст, который начинается с символа #. Например: # ваш код здесь.*

Сохраните изменения, используя опцию Save and Checkpoint из вкладки меню File или кнопку Save and Checkpoint на панели инструментов. Итоговый файл в формате .ipynb (файл Jupyter Notebook) загрузите в личный кабинет и отправьте на проверку.

### 1. Загрузите тренировочные и тестовые датасеты

In [75]:
import pandas as pd
from category_encoders import TargetEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier

Xtrain = pd.read_csv("TrainData.csv")
Xtest = pd.read_csv("TestData.csv")

### 2. Изучите тренировочные и тестовые данные на наличие:
- пропусков,
- ошибочных значений.

Обработайте пропуски и ошибочные значения способом, выбранным по своему усмотрению.

In [76]:
Xtrain.shape

(7500, 15)

In [77]:
# процент пропущенных значений
def missing(df):
    n = len(df)
    missing_values = {}
    for i in df.columns:
        missing_values[i] = len(df[df[i].isna()]) / n

    return sorted(missing_values.items(), key = lambda x: x[1], reverse=True)
    
missing(Xtrain)

[('f7', 0.25),
 ('f2', 0.01),
 ('f11', 0.0013333333333333333),
 ('f1', 0.0),
 ('f3', 0.0),
 ('f4', 0.0),
 ('f5', 0.0),
 ('f6', 0.0),
 ('f8', 0.0),
 ('f9', 0.0),
 ('f10', 0.0),
 ('f12', 0.0),
 ('f13', 0.0),
 ('f14', 0.0),
 ('target', 0.0)]

In [78]:
Xtrain[['f7', 'f2', 'f11']].describe()

Unnamed: 0,f7,f2,f11
count,5625.0,7425.0,7490.0
mean,0.240556,238.905308,1068.693992
std,0.147371,76.198282,7430.34477
min,0.0,64.25907,0.0
25%,0.115721,218.59393,0.0
50%,0.241573,218.59393,0.0
75%,0.439103,218.59393,0.0
max,0.482222,575.396825,99999.0


In [79]:
# f7 заполним средним значением
Xtrain['f7'] = Xtrain['f7'].fillna(Xtrain['f7'].mean())

In [80]:
# f2, f11 заполним самым распространенным значением
Xtrain['f2'] = Xtrain['f2'].fillna(Xtrain['f2'].mode()[0])
Xtrain['f11'] = Xtrain['f11'].fillna(Xtrain['f11'].mode()[0])

In [81]:
Xtest.shape

(2500, 15)

In [82]:
missing(Xtest)

[('f1', 0.0),
 ('f2', 0.0),
 ('f3', 0.0),
 ('f4', 0.0),
 ('f5', 0.0),
 ('f6', 0.0),
 ('f7', 0.0),
 ('f8', 0.0),
 ('f9', 0.0),
 ('f10', 0.0),
 ('f11', 0.0),
 ('f12', 0.0),
 ('f13', 0.0),
 ('f14', 0.0),
 ('target', 0.0)]

### 3. Оцените баланс классов в задаче
- Затем попытайтесь устно ответить на вопрос, можно ли использовать accuracy как метрику качества в задаче? 

In [None]:
# Ваш код здесь

### 3. Постройте baseline-модель:
- разбейте TrainData на тренировочные (Train) и тестовые данные (Test); 
- обучите KNN, LogisticRegression и SVC с параметрами по умолчанию на тренировочных данных (Train);
- примените модели на тестовых данных (Test) и вычислите значение метрики f1.

In [None]:
from sklearn.metrics import f1_score

# Ваш код здесь

### 4. Улучшите модели
Попробуйте улучшить качество обученных моделей:
- можете подбирать гиперпараметры моделей (лучше это делать по кросс-валидации на Train, то есть с помощью использования GridSearchCV на Train);
- можете задавать class_weights;
- можете вручную или при помощи методов Python генерировать новые признаки и/или удалять существующие.

Это самая важная и творческая часть задания. Проводите как можно больше экспериментов!

Проведите минимиум три эксперимента: для каждого типа модели минимум один эксперимент.

In [None]:
# Ваш код здесь

### 5. Оцените на отложенной выборке качество наилучшей модели
В пунктах 3 и 4 вы построили много разных моделей.

Возьмите ту, которая дала наилучшее качество на тестовых данных (Test). Примените её на отложенной выборке (TestData) и выведите на экран значение метрики f1.

In [None]:
# Ваш код здесь

### 6. Выполните хитрый трюк
Часто смешивание различных моделей даёт улучшение итогового предсказания. Попробуйте смешать две лучшие модели по формуле:
$$pred_{final} = \alpha\cdot pred_1 + (1-\alpha)\cdot pred_2$$.

Значение $\alpha$ подберите в цикле по Test-выборке. Оцените качество на отложенной выборке.

Удалось ли добиться улучшения качества?

In [None]:
# Ваш код здесь

### 7. Сделайте выводы

Запишите в отдельной ячейке текстом выводы о проделанной работе. Для этого ответьте на вопросы:
- Какие подходы вы использовали для улучшения работы baseline-моделей?
- Какого максимального качества удалось добиться на Test-данных?
- Какое при этом получилось качество на отложенной выборке? 
- Ваша модель переобучилась, недообучилась или обучилась как надо?

In [None]:
# Ваш текст здесь

Важный комментарий! В реальных задачах не следует ожидать, что машинным обучением всегда удастся решить задачу с хорошим качеством. Но использовать все имеющиеся у вас в арсенале методы для достижения наилучшего результата нужно.