<p style="align: center;"><img align=center src="https://s8.hostingkartinok.com/uploads/images/2018/08/308b49fcfbc619d629fe4604bceb67ac.jpg" width=500 height=450/></p>

<h3 style="text-align: center;"><b>Школа глубокого обучения ФПМИ МФТИ</b></h3>

<h3 style="text-align: center;"><b>Домашнее задание. Продвинутый поток. Осень 2021</b></h3>

Это домашнее задание будет посвящено полноценному решению задачи машинного обучения.

Есть две части этого домашнего задания: 
* Сделать полноценный отчет о вашей работе: как вы обработали данные, какие модели попробовали и какие результаты получились (максимум 10 баллов). За каждую выполненную часть будет начислено определенное количество баллов.
* Лучшее решение отправить в соревнование на [kaggle](https://www.kaggle.com/c/advanced-dls-spring-2021/) (максимум 5 баллов). За прохождение определенного порогов будут начисляться баллы.


**Обе части будут проверяться в формате peer-review. Т.е. вашу посылку на степик будут проверять несколько других студентов и аггрегация их оценок будет выставлена. В то же время вам тоже нужно будет проверить несколько других учеников.**

**Пожалуйста, делайте свою работу чистой и понятной, чтобы облегчить проверку. Если у вас будут проблемы с решением или хочется совета, то пишите в наш чат в телеграме или в лс @runfme. Если вы захотите проаппелировать оценку, то пипшите в лс @runfme.**

**Во всех пунктах указания это минимальный набор вещей, которые стоит сделать. Если вы можете сделать какой-то шаг лучше или добавить что-то свое - дерзайте!**

# Как проверять?

Ставьте полный балл, если выполнены все рекомендации или сделано что-то более интересное и сложное. За каждый отсустствующий пункт из рекомендация снижайте 1 балл.

# Метрика

Перед решением любой задачи важно понимать, как будет оцениваться ваше решение. В данном случае мы используем стандартную для задачи классификации метрику ROC-AUC. Ее можно вычислить используя только предсказанные вероятности и истинные классы без конкретного порога классификации + она раотает даже если классы в данных сильно несбалансированны (примеров одного класса в десятки раз больше примеров длугого). Именно поэтому она очень удобна для соревнований.

Посчитать ее легко:


In [None]:
from sklearn.metrics import roc_auc_score

y_true = [
    0,
    1,
    1,
    0,
    1
]

y_predictions = [
    0.1,
    0.9,
    0.4,
    0.6,
    0.61
]

roc_auc_score(y_true, y_predictions)

# Первая часть. Исследование

In [None]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import plotly.express as px

## Загрузка данных (2 балла)

1) Посмотрите на случайные строчки. 

2) Посмотрите, есть ли в датасете незаполненные значения (nan'ы) с помощью data.isna() или data.info() и, если нужно, замените их на что-то. Будет хорошо, если вы построите табличку с количеством nan в каждой колонке.

In [None]:
data = pd.read_csv('../input/dls-hw/train.csv')
train = data.copy()

In [None]:
# Для вашего удобства списки с именами разных колонок

# Числовые признаки
num_cols = [
    'ClientPeriod',
    'MonthlySpending',
    'TotalSpent'
]

# Категориальные признаки
cat_cols = [
    'Sex',
    'IsSeniorCitizen',
    'HasPartner',
    'HasChild',
    'HasPhoneService',
    'HasMultiplePhoneNumbers',
    'HasInternetService',
    'HasOnlineSecurityService',
    'HasOnlineBackup',
    'HasDeviceProtection',
    'HasTechSupportAccess',
    'HasOnlineTV',
    'HasMovieSubscription',
    'HasContractPhone',
    'IsBillingPaperless',
    'PaymentMethod'
]

feature_cols = num_cols + cat_cols
target_col = 'Churn'

In [None]:
train.info()

In [None]:
train.head()

In [None]:
train[pd.to_numeric(train['TotalSpent'], errors='coerce').isnull()]

## Анализ данных (3 балла)

1) Для численных призанков постройте гистограмму (*plt.hist(...)*) или boxplot (*plt.boxplot(...)*). Для категориальных посчитайте количество каждого значения для каждого признака. Для каждой колонки надо сделать *data.value_counts()* и построить bar диаграммы *plt.bar(...)* или круговые диаграммы *plt.pie(...)* (хорошо, елси вы сможете это сделать на одном гарфике с помощью *plt.subplots(...)*). 

2) Посмотрите на распределение целевой переменной и скажите, являются ли классы несбалансированными.

3) (Если будет желание) Поиграйте с разными библиотеками для визуализации - *sns*, *pandas_visual_analysis*, etc.

Второй пункт очень важен, потому что существуют задачи классификации с несбалансированными классами. Например, это может значить, что в датасете намного больше примеров 0 класса. В таких случаях нужно 1) не использовать accuracy как метрику 2) использовать методы борьбы с imbalanced dataset (обычно если датасет сильно несбалансирован, т.е. класса 1 в 20 раз меньше класса 0).

In [None]:
def histogram_draw(df, column):
    fig = px.histogram(df,
                       x=column,
                       marginal="box",
                       template = "plotly_white")
    fig.add_vline(x=np.mean(df[column]),
                  line_dash = 'solid',
                  line_color = 'red')
    fig.update_layout(
        autosize=False,
        width=1000,
        height=400)
    fig.show()

def convert_to_float(df):
    df[num_cols] = df[num_cols].replace(' ',-1).astype('float')
    return df

def upsample(features, target, repeat): 
    features_zeros = features[target == 0]
    features_ones = features[target == 1]
    target_zeros = target[target == 0]  
    target_ones = target[target == 1]

    features_upsampled = pd.concat(
        [features_zeros] + [features_ones] * repeat) 

    target_upsampled = pd.concat(
        [target_zeros] + [target_ones] * repeat)

    features_upsampled, target_upsampled = shuffle(
        features_upsampled, target_upsampled, random_state=random_state)

    return features_upsampled, target_upsampled

In [None]:
convert_to_float(train)

In [None]:
for name in num_cols:
    histogram_draw(train, name)

In [None]:
for name in cat_cols:
    print(train[name].value_counts())
    print('--------------------------------------')

In [None]:
fig = px.pie(values = train[target_col].value_counts().values,
             names = train[target_col].value_counts().index,
             hole = .3,
             title='Соотношение событий в данных'
             )
fig.show()

(Дополнительно) Если вы нашли какие-то ошибки в данных или выбросы, то можете их убрать. Тут можно поэксперементировать с обработкой данных как угодно, но не за баллы.

## Применение линейных моделей (3 балла)

1) Обработайте данные для того, чтобы к ним можно было применить LogisticRegression. Т.е. отнормируйте числовые признаки, а категориальные закодируйте с помощью one-hot-encoding'а. 

2) С помощью кроссвалидации или разделения на train/valid выборку протестируйте разные значения гиперпараметра C и выберите лучший (можно тестировать С=100, 10, 1, 0.1, 0.01, 0.001) по метрике ROC-AUC. 

Если вы разделяете на train/valid, то используйте LogisticRegressionCV. Он сам при вызове .fit() подберет параметр С. (не забудьте передать scroing='roc_auc', чтобы при кроссвалидации сравнивались значения этой метрики, и refit=True, чтобы при потом модель обучилась на всем датасете с лучшим параметром C). 


(более сложный вариант) Если вы будете использовать кроссвалидацию, то преобразования данных и LogisticRegression нужно соединить в один Pipeline с помощью make_pipeline, как это делалось во втором семинаре. Потом pipeline надо передать в GridSearchCV. Для one-hot-encoding'a можно испльзовать комбинацию LabelEncoder + OneHotEncoder (сначала превращаем строчки в числа, а потом числа првращаем в one-hot вектора.)

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import StandardScaler, RobustScaler, LabelEncoder, OneHotEncoder, FunctionTransformer
from sklearn.pipeline import make_pipeline
from sklearn.utils import shuffle
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer

random_state = 12345

In [None]:
features_train = data.drop(target_col, axis=1)
target_train = data[target_col]

In [None]:
features_train, target_train = upsample(features_train, target_train, 3)
target_train.value_counts()

In [None]:
float_transformer = make_pipeline(
    FunctionTransformer(convert_to_float, validate=False)
)

num_cols_pipe = make_pipeline(
    float_transformer,
    FunctionTransformer(lambda x: x.replace([np.inf, -np.inf], np.nan)),
    StandardScaler(),
    SimpleImputer(strategy='median', add_indicator=True)
)
    
cat_cols_pipe = make_pipeline(
    FunctionTransformer(lambda x: x.astype(str)),
    SimpleImputer(strategy='constant'),
    OneHotEncoder(handle_unknown='ignore')
)

preprocessor = ColumnTransformer([
    ('num_cols', num_cols_pipe, num_cols),
    ('cat_cols', cat_cols_pipe, cat_cols)
])

pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('LogisticRegression', LogisticRegression(solver='liblinear', random_state=random_state))
])

parameters = [
    {'LogisticRegression__C': np.logspace(-3, 3, 7),
    'LogisticRegression__max_iter': np.arange(10, 100, 10)
    }
]

In [None]:
clf = GridSearchCV(pipeline, parameters, scoring='roc_auc', cv=5)
clf.fit(features_train, target_train)

Выпишите какое лучшее качество и с какими параметрами вам удалось получить

In [None]:
print('Best Params:', clf.best_params_)
print('Best Score: {:.3f}'.format(clf.best_score_))

## Применение градиентного бустинга (2 балла)

Если вы хотите получить баллы за точный ответ, то стоит попробовать градиентный бустинг. Часто градиентный бустинг с дефолтными параметрами даст вам 80% результата за 0% усилий.

Мы будем использовать catboost, поэтому нам не надо кодировать категориальные признаки. catboost сделает это сам (в .fit() надо передать cat_features=cat_cols). А численные признаки нормировать для моделей, основанных на деревьях не нужно.

1) Разделите выборку на train/valid. Протестируйте catboost cо стандартными параметрами.

2) Протестируйте разные занчения параметроа количества деревьев и learning_rate'а и выберите лучшую по метрике ROC-AUC комбинацию. 

(Дополнительно) Есть некоторые сложности с тем, чтобы использовать CatBoostClassifier вместе с GridSearchCV, поэтому мы не просим использовать кроссвалидацию. Но можете попробовать)

In [None]:
from catboost import CatBoostClassifier
from sklearn.model_selection import train_test_split

In [None]:
train = data.copy()

In [None]:
features = train.drop(target_col, axis=1)
target = train[target_col]

In [None]:
features_train, features_valid, target_train, target_valid = train_test_split(features, target, random_state=random_state)

In [None]:
features_train, target_train = upsample(features_train, target_train, 3)
target_train.value_counts()

In [None]:
pipeline = Pipeline([
    ('FunctionTransformer', FunctionTransformer(convert_to_float, validate=False)),
    ('CatBoostClassifier', CatBoostClassifier(cat_features=cat_cols, 
                                              loss_function='Logloss', 
                                              eval_metric='AUC',
                                              iterations=300,
                                              l2_leaf_reg=5,
                                              min_data_in_leaf=50,
                                              verbose=False,
                                              random_state=random_state))
])

In [None]:
pipeline.fit(features_train, target_train)

Выпишите какое лучшее качество и с какими параметрами вам удалось получить

In [None]:
predicted_valid = pipeline.predict_proba(features_valid)[:, 1]
print('Best Score: {:.3f}'.format(roc_auc_score(target_valid, predicted_valid)))

# Предсказания

In [None]:
best_model = pipeline

In [None]:
X_test = pd.read_csv('../input/dls-hw/test.csv')
submission = pd.read_csv('../input/dls-hw/submission.csv')

submission['Churn'] = best_model.predict_proba(X_test)[:, 1] # best_model.predict_proba(X_test) / best_model.predict(X_test)
submission.to_csv('./my_submission.csv')

# Kaggle (5 баллов)

Как выставить баллы:

1) 1 >= roc auc > 0.84 это 5 баллов

2) 0.84 >= roc auc > 0.7 это 3 балла

3) 0.7 >= roc auc > 0.6 это 1 балл

4) 0.6 >= roc auc это 0 баллов


Для выполнения задания необходимо выполнить следующие шаги.
* Зарегистрироваться на платформе [kaggle.com](kaggle.com). Процесс выставления оценок будет проходить при подведении итогового рейтинга. Пожалуйста, укажите во вкладке Team -> Team name свои имя и фамилию в формате Имя_Фамилия (важно, чтобы имя и фамилия совпадали с данными на Stepik).
* Обучить модель, получить файл с ответами в формате .csv и сдать его в конкурс. Пробуйте и экспериментируйте. Обратите внимание, что вы можете выполнять до 20 попыток сдачи на kaggle в день.
* После окончания соревнования отправить в итоговый ноутбук с решением на степик. 
* После дедлайна проверьте посылки других участников по критериям. Для этого надо зайти на степик, скачать их ноутбук и проверить скор в соревновании.