<p style="align: center;">
    <img align=center src="../../img/dls_logo.jpg" width=500 height=500>
</p>

<h1 style="text-align: center;">
    Физтех-Школа Прикладной математики и информатики (ФПМИ) МФТИ
</h1>

---

Это домашнее задание будет посвящено полноценному решению задачи машинного обучения.

Есть две части этого домашнего задания:

* Сделать полноценный отчёт о вашей работе: как вы обработали данные, какие модели попробовали и какие результаты получились (максимум 10 баллов). За каждую выполненную часть будет начислено определённое количество баллов.

* Лучшее решение отправить в соревнование на [kaggle](https://www.kaggle.com/t/f50bc21dbe0e42dabe5e32a21f2e5235) (максимум 5 баллов). За прохождение определенных порогов будут начисляться баллы.

Обе части будут проверяться в формате **peer-review**. Т.е. вашу посылку на Stepik будут проверять несколько других студентов и аггрегация их оценок будет выставлена в качестве итоговой оценки. В то же время вам тоже нужно будет проверить несколько других учеников.

Пожалуйста, делайте свою работу чистой и понятной, чтобы облегчить проверку. Если у вас будут проблемы с решением или хочется совета, то пишите в наш чат в телеграме или в лс @runfme. Если вы захотите проаппелировать оценку, то пипшите в лс @runfme.

Во всех пунктах указания - это минимальный набор вещей, которые стоит сделать. Если вы можете сделать какой-то шаг лучше или добавить что-то своё - дерзайте!

## Как проверять?

Ставьте полный балл, если выполнены все рекомендации или сделано что-то более интересное и сложное. За каждый отсустствующий пункт из рекомендаций снижайте оценку на 1 балл.

## Метрика

Перед решением любой задачи важно понимать, как будет оцениваться ваше решение. В данном случае мы используем стандартную для задачи классификации метрику **ROC-AUC**. Ее можно вычислить, используя только предсказанные вероятности и истинные классы без конкретного порога классификации, плюс она работает, даже если классы в данных сильно несбалансированы (примеров одного класса в десятки раз больше примеров другого). Именно поэтому она очень удобна для соревнований.

Посчитать её легко:

In [1]:
from sklearn.metrics import roc_auc_score

y_true = [
    0,
    1,
    1,
    0,
    1,
]

y_predictions = [
    0.1,
    0.9,
    0.4,
    0.6,
    0.61,
]

roc_auc_score(y_true, y_predictions)

0.8333333333333333

---

In [2]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

%matplotlib inline

## Загрузка данных (2 балла)

1. Посмотрите на случайные строчки.

2. Посмотрите, есть ли в датасете незаполненные значения (`nan`) с помощью `data.isna()` или `data.info()` и, если нужно, замените их на что-то. Будет хорошо, если вы построите табличку с количеством `nan` в каждой колонке.

In [5]:
# загрузим данные
data_train = pd.read_csv('data/train.csv')
data_test = pd.read_csv('data/test.csv')

In [6]:
# для вашего удобства списки с именами разных колонок

# числовые признаки
num_cols = [
    'ClientPeriod',
    'MonthlySpending',
    'TotalSpent',
]

# категориальные признаки
cat_cols = [
    'Sex',
    'IsSeniorCitizen',
    'HasPartner',
    'HasChild',
    'HasPhoneService',
    'HasMultiplePhoneNumbers',
    'HasInternetService',
    'HasOnlineSecurityService',
    'HasOnlineBackup',
    'HasDeviceProtection',
    'HasTechSupportAccess',
    'HasOnlineTV',
    'HasMovieSubscription',
    'HasContractPhone',
    'IsBillingPaperless',
    'PaymentMethod',
]

feature_cols = num_cols + cat_cols

target_col = 'Churn'

In [11]:
# помотрим на 5 случайных строк обучающего датасета
data_train.sample(5)

Unnamed: 0,ClientPeriod,MonthlySpending,TotalSpent,Sex,IsSeniorCitizen,HasPartner,HasChild,HasPhoneService,HasMultiplePhoneNumbers,HasInternetService,HasOnlineSecurityService,HasOnlineBackup,HasDeviceProtection,HasTechSupportAccess,HasOnlineTV,HasMovieSubscription,HasContractPhone,IsBillingPaperless,PaymentMethod,Churn
3555,16,73.85,1284.2,Male,0,Yes,No,Yes,Yes,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Bank transfer (automatic),1
4018,49,56.3,2780.6,Female,0,Yes,No,No,No phone service,DSL,No,Yes,No,Yes,Yes,Yes,One year,Yes,Credit card (automatic),0
4671,15,56.15,931.9,Female,0,No,No,Yes,No,DSL,No,No,No,No,Yes,No,One year,No,Mailed check,0
1716,1,49.9,49.9,Male,0,No,Yes,Yes,No,DSL,No,Yes,No,No,No,No,Month-to-month,Yes,Electronic check,0
3042,56,115.85,6567.9,Male,0,Yes,Yes,Yes,Yes,Fiber optic,Yes,Yes,Yes,Yes,Yes,Yes,Two year,No,Mailed check,0


In [12]:
# помотрим на 5 случайных строк тестового датасета
data_test.sample(5)

Unnamed: 0,ClientPeriod,MonthlySpending,TotalSpent,Sex,IsSeniorCitizen,HasPartner,HasChild,HasPhoneService,HasMultiplePhoneNumbers,HasInternetService,HasOnlineSecurityService,HasOnlineBackup,HasDeviceProtection,HasTechSupportAccess,HasOnlineTV,HasMovieSubscription,HasContractPhone,IsBillingPaperless,PaymentMethod
1082,1,29.15,29.15,Male,0,No,No,No,No phone service,DSL,No,No,No,Yes,No,No,Month-to-month,No,Mailed check
261,24,89.25,2210.2,Male,0,Yes,No,Yes,No,Fiber optic,Yes,No,No,Yes,No,Yes,Month-to-month,Yes,Electronic check
1277,72,19.7,1421.9,Male,0,Yes,No,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Credit card (automatic)
1699,39,95.55,3692.85,Female,0,No,No,Yes,No,Fiber optic,Yes,No,Yes,Yes,Yes,No,One year,Yes,Electronic check
3,67,74.0,4868.4,Female,0,Yes,Yes,Yes,Yes,DSL,Yes,Yes,No,Yes,Yes,No,Two year,No,Credit card (automatic)


In [13]:
# посмотрим на общую информацию по обучающему датасету
# видим, что незаполненных значений нет
data_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5282 entries, 0 to 5281
Data columns (total 20 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   ClientPeriod              5282 non-null   int64  
 1   MonthlySpending           5282 non-null   float64
 2   TotalSpent                5282 non-null   object 
 3   Sex                       5282 non-null   object 
 4   IsSeniorCitizen           5282 non-null   int64  
 5   HasPartner                5282 non-null   object 
 6   HasChild                  5282 non-null   object 
 7   HasPhoneService           5282 non-null   object 
 8   HasMultiplePhoneNumbers   5282 non-null   object 
 9   HasInternetService        5282 non-null   object 
 10  HasOnlineSecurityService  5282 non-null   object 
 11  HasOnlineBackup           5282 non-null   object 
 12  HasDeviceProtection       5282 non-null   object 
 13  HasTechSupportAccess      5282 non-null   object 
 14  HasOnlin

In [14]:
# посмотрим на общую информацию по тестовому датасету
# видим, что незаполненных значений тоже нет
data_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1761 entries, 0 to 1760
Data columns (total 19 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   ClientPeriod              1761 non-null   int64  
 1   MonthlySpending           1761 non-null   float64
 2   TotalSpent                1761 non-null   object 
 3   Sex                       1761 non-null   object 
 4   IsSeniorCitizen           1761 non-null   int64  
 5   HasPartner                1761 non-null   object 
 6   HasChild                  1761 non-null   object 
 7   HasPhoneService           1761 non-null   object 
 8   HasMultiplePhoneNumbers   1761 non-null   object 
 9   HasInternetService        1761 non-null   object 
 10  HasOnlineSecurityService  1761 non-null   object 
 11  HasOnlineBackup           1761 non-null   object 
 12  HasDeviceProtection       1761 non-null   object 
 13  HasTechSupportAccess      1761 non-null   object 
 14  HasOnlin

In [19]:
# дополнительно проверим значения в каждом из столбцов
for feature in feature_cols:
    print(data_train[feature].value_counts())
    print('-' * 30)
    
print(data_train[target_col].value_counts())

1     457
72    284
2     165
3     162
4     136
     ... 
57     39
39     35
36     34
44     34
0       9
Name: ClientPeriod, Length: 73, dtype: int64
------------------------------
20.05     46
19.65     35
19.95     34
20.00     33
19.80     32
          ..
51.60      1
52.30      1
114.75     1
58.70      1
39.20      1
Name: MonthlySpending, Length: 1468, dtype: int64
------------------------------
20.2      9
          9
19.75     8
20.05     6
19.65     6
         ..
861.85    1
1546.3    1
806.95    1
199.75    1
795.65    1
Name: TotalSpent, Length: 4978, dtype: int64
------------------------------
Male      2655
Female    2627
Name: Sex, dtype: int64
------------------------------
0    4440
1     842
Name: IsSeniorCitizen, dtype: int64
------------------------------
No     2705
Yes    2577
Name: HasPartner, dtype: int64
------------------------------
No     3676
Yes    1606
Name: HasChild, dtype: int64
------------------------------
Yes    4761
No      521
Name: HasPhoneSe

In [21]:
# дополнительно проверим значения в каждом из столбцов
for feature in feature_cols:
    print(data_test[feature].value_counts())
    print('-' * 30)

1     156
72     78
2      73
4      40
71     39
     ... 
58     12
59     11
28     11
32      9
0       2
Name: ClientPeriod, Length: 73, dtype: int64
------------------------------
20.05    15
19.85    15
20.25    14
19.90    13
20.15    13
         ..
99.90     1
44.05     1
88.70     1
63.05     1
99.45     1
Name: MonthlySpending, Length: 906, dtype: int64
------------------------------
19.55      4
20.25      4
45.3       3
19.9       3
5597.65    2
          ..
631.85     1
4718.25    1
3670.5     1
6110.2     1
1939.35    1
Name: TotalSpent, Length: 1710, dtype: int64
------------------------------
Male      900
Female    861
Name: Sex, dtype: int64
------------------------------
0    1461
1     300
Name: IsSeniorCitizen, dtype: int64
------------------------------
No     936
Yes    825
Name: HasPartner, dtype: int64
------------------------------
No     1257
Yes     504
Name: HasChild, dtype: int64
------------------------------
Yes    1600
No      161
Name: HasPhoneService

In [24]:
# видим, что в обучающем датасете в колонке 'TotalSpent'
# есть 9 пробелов, посмотрим на эти записи
data_train[data_train['TotalSpent'] == ' ']

# видим, что это новые клиенты ('ClientPeriod' == 0)
# поэтому заменим 'TotalSpent' в этих строках на 0
data_train.replace(' ', 0.0)

Unnamed: 0,ClientPeriod,MonthlySpending,TotalSpent,Sex,IsSeniorCitizen,HasPartner,HasChild,HasPhoneService,HasMultiplePhoneNumbers,HasInternetService,HasOnlineSecurityService,HasOnlineBackup,HasDeviceProtection,HasTechSupportAccess,HasOnlineTV,HasMovieSubscription,HasContractPhone,IsBillingPaperless,PaymentMethod,Churn
1048,0,25.75,,Male,0,Yes,Yes,Yes,Yes,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,0
1707,0,73.35,,Female,0,Yes,Yes,Yes,Yes,DSL,No,Yes,Yes,Yes,Yes,No,Two year,No,Mailed check,0
2543,0,19.7,,Male,0,Yes,Yes,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,One year,Yes,Mailed check,0
3078,0,80.85,,Female,0,Yes,Yes,Yes,No,DSL,Yes,Yes,Yes,No,Yes,Yes,Two year,No,Mailed check,0
3697,0,20.0,,Female,0,Yes,Yes,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,0
4002,0,61.9,,Male,0,No,Yes,Yes,Yes,DSL,Yes,Yes,No,Yes,No,No,Two year,Yes,Bank transfer (automatic),0
4326,0,25.35,,Male,0,Yes,Yes,Yes,Yes,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,0
4551,0,52.55,,Female,0,Yes,Yes,No,No phone service,DSL,Yes,No,Yes,Yes,Yes,No,Two year,Yes,Bank transfer (automatic),0
4598,0,56.05,,Female,0,Yes,Yes,No,No phone service,DSL,Yes,Yes,Yes,Yes,Yes,No,Two year,No,Credit card (automatic),0


## Анализ данных (3 балла)

1) Для численных призанков постройте гистограмму (*plt.hist(...)*) или boxplot (*plt.boxplot(...)*). Для категориальных посчитайте количество каждого значения для каждого признака. Для каждой колонки надо сделать *data.value_counts()* и построить bar диаграммы *plt.bar(...)* или круговые диаграммы *plt.pie(...)* (хорошо, елси вы сможете это сделать на одном гарфике с помощью *plt.subplots(...)*). 

2) Посмотрите на распределение целевой переменной и скажите, являются ли классы несбалансированными.

3) (Если будет желание) Поиграйте с разными библиотеками для визуализации - *sns*, *pandas_visual_analysis*, etc.

Второй пункт очень важен, потому что существуют задачи классификации с несбалансированными классами. Например, это может значить, что в датасете намного больше примеров 0 класса. В таких случаях нужно 1) не использовать accuracy как метрику 2) использовать методы борьбы с imbalanced dataset (обычно если датасет сильно несбалансирован, т.е. класса 1 в 20 раз меньше класса 0).

In [None]:
# YOUR CODE

(Дополнительно) Если вы нашли какие-то ошибки в данных или выбросы, то можете их убрать. Тут можно поэксперементировать с обработкой данных как угодно, но не за баллы.

In [None]:
# YOUR CODE

## Применение линейных моделей (3 балла)



1) Обработайте данные для того, чтобы к ним можно было применить LogisticRegression. Т.е. отнормируйте числовые признаки, а категориальные закодируйте с помощью one-hot-encoding'а. 

2) С помощью кроссвалидации или разделения на train/valid выборку протестируйте разные значения гиперпараметра C и выберите лучший (можно тестировать С=100, 10, 1, 0.1, 0.01, 0.001) по метрике ROC-AUC. 

Если вы разделяете на train/valid, то используйте LogisticRegressionCV. Он сам при вызове .fit() подберет параметр С. (не забудьте передать scroing='roc_auc', чтобы при кроссвалидации сравнивались значения этой метрики, и refit=True, чтобы при потом модель обучилась на всем датасете с лучшим параметром C). 


(более сложный вариант) Если вы будете использовать кроссвалидацию, то преобразования данных и LogisticRegression нужно соединить в один Pipeline с помощью make_pipeline, как это делалось во втором семинаре. Потом pipeline надо передать в GridSearchCV. Для one-hot-encoding'a можно испльзовать комбинацию LabelEncoder + OneHotEncoder (сначала превращаем строчки в числа, а потом числа првращаем в one-hot вектора.)

In [None]:
from sklearn.linear_model import LogisticRegression, LogisticRegressionCV
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler, RobustScaler, LabelEncoder, OneHotEncoder
from sklearn.pipeline import make_pipeline

In [None]:
# YOUR CODE

Выпишите какое лучшее качество и с какими параметрами вам удалось получить

## Применение градиентного бустинга (2 балла)

Если вы хотите получить баллы за точный ответ, то стоит попробовать градиентный бустинг. Часто градиентный бустинг с дефолтными параметрами даст вам 80% результата за 0% усилий.

Мы будем использовать catboost, поэтому нам не надо кодировать категориальные признаки. catboost сделает это сам (в .fit() надо передать cat_features=cat_cols). А численные признаки нормировать для моделей, основанных на деревьях не нужно.

1) Разделите выборку на train/valid. Протестируйте catboost cо стандартными параметрами.

2) Протестируйте разные занчения параметроа количества деревьев и learning_rate'а и выберите лучшую по метрике ROC-AUC комбинацию. 

(Дополнительно) Есть некоторые сложности с тем, чтобы использовать CatBoostClassifier вместе с GridSearchCV, поэтому мы не просим использовать кроссвалидацию. Но можете попробовать)

In [None]:
# YOUR CODE

Выпишите какое лучшее качество и с какими параметрами вам удалось получить

## Предсказания

In [None]:
best_model = # какая-то предыдущая модель

SyntaxError: invalid syntax (<ipython-input-12-7d881febecc7>, line 1)

In [None]:
X_test = pd.read_csv('./test.csv')
submission = pd.read_csv('./submission.csv')

submission['Churn'] = # best_model.predict_proba(X_test) / best_model.predict(X_test)
submission.to_csv('./my_submission.csv')

## Kaggle (5 баллов)

Как выставить баллы:

1. 1 >= roc auc > 0.84 - это 5 баллов

2. 0.84 >= roc auc > 0.7 - это 3 балла

3. 0.7 >= roc auc > 0.6 - это 1 балл

4. 0.6 >= roc auc - это 0 баллов

Для выполнения задания необходимо выполнить следующие шаги:

* Зарегистрироваться на платформе [kaggle.com](https://www.kaggle.com/). Процесс выставления оценок будет проходить при подведении итогового рейтинга. Пожалуйста, укажите во вкладке Team -> Team name свои имя и фамилию в формате Имя_Фамилия (важно, чтобы имя и фамилия совпадали с данными на Stepik).

* Обучить модель, получить файл с ответами в формате `.csv` и сдать его в конкурс. Пробуйте и экспериментируйте. Обратите внимание, что вы можете выполнять до $20$ попыток сдачи на kaggle в день.

* После окончания соревнования отправить итоговый ноутбук с решением на степик.

* После дедлайна проверьте посылки других участников по критериям. Для этого надо зайти на степик, скачать их ноутбук и проверить скор в соревновании.