<p style="align: center;"><img align=center src="https://s8.hostingkartinok.com/uploads/images/2018/08/308b49fcfbc619d629fe4604bceb67ac.jpg" width=500 height=450/></p>

<h3 style="text-align: center;"><b>Школа глубокого обучения ФПМИ МФТИ</b></h3>

<h3 style="text-align: center;"><b>Домашнее задание. Продвинутый поток. Весна 2021</b></h3>

Это домашнее задание будет посвящено полноценному решению задачи машинного обучения.

Есть две части этого домашнего задания: 
* Сделать полноценный отчет о вашей работе: как вы обработали данные, какие модели попробовали и какие результаты получились (максимум 10 баллов). За каждую выполненную часть будет начислено определенное количество баллов.
* Лучшее решение отправить в соревнование на [kaggle](https://www.kaggle.com/c/advanced-dls-spring-2021/) (максимум 5 баллов). За прохождение определенного порогов будут начисляться баллы.


**Обе части будут проверяться в формате peer-review. Т.е. вашу посылку на степик будут проверять несколько других студентов и аггрегация их оценок будет выставлена. В то же время вам тоже нужно будет проверить несколько других учеников.**

**Пожалуйста, делайте свою работу чистой и понятной, чтобы облегчить проверку. Если у вас будут проблемы с решением или хочется совета, то пишите в наш чат в телеграме или в лс @runfme. Если вы захотите проаппелировать оценку, то пипшите в лс @runfme.**

**Во всех пунктах указания это минимальный набор вещей, которые стоит сделать. Если вы можете сделать какой-то шаг лучше или добавить что-то свое - дерзайте!**

# Как проверять?

Ставьте полный балл, если выполнены все рекомендации или сделано что-то более интересное и сложное. За каждый отсустствующий пункт из рекомендация снижайте 1 балл.

# Метрика

Перед решением любой задачи важно понимать, как будет оцениваться ваше решение. В данном случае мы используем стандартную для задачи классификации метрику ROC-AUC. Ее можно вычислить используя только предсказанные вероятности и истинные классы без конкретного порога классификации + она раотает даже если классы в данных сильно несбалансированны (примеров одного класса в десятки раз больше примеров длугого). Именно поэтому она очень удобна для соревнований.

Посчитать ее легко:


In [12]:
from sklearn.metrics import roc_auc_score

y_true = [
    0,
    1,
    1,
    0,
    1
]

y_predictions = [
    0.1,
    0.9,
    0.4,
    0.6,
    0.61
]

roc_auc_score(y_true, y_predictions)

0.8333333333333333

# Первая часть. Исследование

In [13]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

## Загрузка данных (2 балла)

1) Посмотрите на случайные строчки. 

2) Посмотрите, есть ли в датасете незаполненные значения (nan'ы) с помощью data.isna() или data.info() и, если нужно, замените их на что-то. Будет хорошо, если вы построите табличку с количеством nan в каждой колонке.

In [14]:
data = pd.read_csv('./train.csv')

In [15]:
# Для вашего удобства списки с именами разных колонок

# Числовые признаки
num_cols = [
    'ClientPeriod',
    'MonthlySpending',
    'TotalSpent'
]

# Категориальные признаки
cat_cols = [
    'Sex',
    'IsSeniorCitizen',
    'HasPartner',
    'HasChild',
    'HasPhoneService',
    'HasMultiplePhoneNumbers',
    'HasInternetService',
    'HasOnlineSecurityService',
    'HasOnlineBackup',
    'HasDeviceProtection',
    'HasTechSupportAccess',
    'HasOnlineTV',
    'HasMovieSubscription',
    'HasContractPhone',
    'IsBillingPaperless',
    'PaymentMethod'
]

feature_cols = num_cols + cat_cols
target_col = 'Churn'

In [17]:
data.sample(10)

Unnamed: 0,ClientPeriod,MonthlySpending,TotalSpent,Sex,IsSeniorCitizen,HasPartner,HasChild,HasPhoneService,HasMultiplePhoneNumbers,HasInternetService,HasOnlineSecurityService,HasOnlineBackup,HasDeviceProtection,HasTechSupportAccess,HasOnlineTV,HasMovieSubscription,HasContractPhone,IsBillingPaperless,PaymentMethod,Churn
2282,22,49.45,1031.4,Female,0,No,Yes,No,No phone service,DSL,No,No,Yes,No,Yes,Yes,One year,Yes,Credit card (automatic),0
2454,4,48.55,201.0,Male,0,Yes,No,No,No phone service,DSL,No,Yes,No,No,Yes,Yes,Month-to-month,Yes,Electronic check,1
5115,11,94.0,1078.9,Female,0,Yes,No,Yes,Yes,Fiber optic,No,No,No,No,Yes,Yes,Month-to-month,Yes,Electronic check,1
1111,71,89.3,6388.65,Female,0,Yes,No,Yes,Yes,DSL,Yes,Yes,Yes,Yes,Yes,Yes,Two year,No,Credit card (automatic),0
271,55,56.8,3112.05,Female,0,Yes,No,Yes,No,DSL,Yes,Yes,No,Yes,No,No,Two year,No,Mailed check,0
4892,32,89.6,2901.8,Female,0,Yes,Yes,Yes,Yes,Fiber optic,Yes,No,No,No,Yes,No,Month-to-month,No,Electronic check,0
1432,8,55.75,446.8,Female,0,Yes,Yes,Yes,Yes,DSL,No,Yes,No,No,No,No,Month-to-month,No,Electronic check,0
3394,7,79.3,523.15,Female,0,No,No,Yes,No,Fiber optic,No,No,No,No,No,Yes,Month-to-month,Yes,Electronic check,1
2649,22,26.25,605.9,Female,0,No,No,Yes,Yes,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,0
3884,49,98.7,4920.55,Male,0,No,No,Yes,Yes,Fiber optic,No,Yes,No,No,Yes,Yes,Month-to-month,No,Electronic check,0


In [18]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5282 entries, 0 to 5281
Data columns (total 20 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   ClientPeriod              5282 non-null   int64  
 1   MonthlySpending           5282 non-null   float64
 2   TotalSpent                5282 non-null   object 
 3   Sex                       5282 non-null   object 
 4   IsSeniorCitizen           5282 non-null   int64  
 5   HasPartner                5282 non-null   object 
 6   HasChild                  5282 non-null   object 
 7   HasPhoneService           5282 non-null   object 
 8   HasMultiplePhoneNumbers   5282 non-null   object 
 9   HasInternetService        5282 non-null   object 
 10  HasOnlineSecurityService  5282 non-null   object 
 11  HasOnlineBackup           5282 non-null   object 
 12  HasDeviceProtection       5282 non-null   object 
 13  HasTechSupportAccess      5282 non-null   object 
 14  HasOnlin

In [19]:
data = data.replace(' ', np.nan)
data = data.dropna()

In [20]:
data['TotalSpent'] = data['TotalSpent'].astype('float64', copy=False)

In [22]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5273 entries, 0 to 5281
Data columns (total 20 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   ClientPeriod              5273 non-null   int64  
 1   MonthlySpending           5273 non-null   float64
 2   TotalSpent                5273 non-null   float64
 3   Sex                       5273 non-null   object 
 4   IsSeniorCitizen           5273 non-null   int64  
 5   HasPartner                5273 non-null   object 
 6   HasChild                  5273 non-null   object 
 7   HasPhoneService           5273 non-null   object 
 8   HasMultiplePhoneNumbers   5273 non-null   object 
 9   HasInternetService        5273 non-null   object 
 10  HasOnlineSecurityService  5273 non-null   object 
 11  HasOnlineBackup           5273 non-null   object 
 12  HasDeviceProtection       5273 non-null   object 
 13  HasTechSupportAccess      5273 non-null   object 
 14  HasOnlin

## Анализ данных (3 балла)

1) Для численных призанков постройте гистограмму (*plt.hist(...)*) или boxplot (*plt.boxplot(...)*). Для категориальных посчитайте количество каждого значения для каждого признака. Для каждой колонки надо сделать *data.value_counts()* и построить bar диаграммы *plt.bar(...)* или круговые диаграммы *plt.pie(...)* (хорошо, елси вы сможете это сделать на одном гарфике с помощью *plt.subplots(...)*). 

2) Посмотрите на распределение целевой переменной и скажите, являются ли классы несбалансированными.

3) (Если будет желание) Поиграйте с разными библиотеками для визуализации - *sns*, *pandas_visual_analysis*, etc.

Второй пункт очень важен, потому что существуют задачи классификации с несбалансированными классами. Например, это может значить, что в датасете намного больше примеров 0 класса. В таких случаях нужно 1) не использовать accuracy как метрику 2) использовать методы борьбы с imbalanced dataset (обычно если датасет сильно несбалансирован, т.е. класса 1 в 20 раз меньше класса 0).

In [None]:
fig, axes = plt.subplots(4, 5, figsize=(20, 20))
n=0
for i in range(0,4):
    for j in range(0,5):
        if data.columns[n] in num_cols:
            axes[i,j].hist(data[data.columns[n]])
            axes[i,j].set_title(data.columns[n])
            
        else:
            axes[i,j].pie(data[data.columns[n]].value_counts(), labels = data[data.columns[n]].unique())
            axes[i,j].set_title(data.columns[n])
            axes[i,j].legend()
        n+=1

Примеров класса 0 примерно 3 раза больше, что не так много. Следовательно можно считать классы сбалансированными

(Дополнительно) Если вы нашли какие-то ошибки в данных или выбросы, то можете их убрать. Тут можно поэксперементировать с обработкой данных как угодно, но не за баллы.

In [24]:
# YOUR CODE

## Применение линейных моделей (3 балла)

1) Обработайте данные для того, чтобы к ним можно было применить LogisticRegression. Т.е. отнормируйте числовые признаки, а категориальные закодируйте с помощью one-hot-encoding'а. 

2) С помощью кроссвалидации или разделения на train/valid выборку протестируйте разные значения гиперпараметра C и выберите лучший (можно тестировать С=100, 10, 1, 0.1, 0.01, 0.001) по метрике ROC-AUC. 

Если вы разделяете на train/valid, то используйте LogisticRegressionCV. Он сам при вызове .fit() подберет параметр С. (не забудьте передать scroing='roc_auc', чтобы при кроссвалидации сравнивались значения этой метрики, и refit=True, чтобы при потом модель обучилась на всем датасете с лучшим параметром C). 


(более сложный вариант) Если вы будете использовать кроссвалидацию, то преобразования данных и LogisticRegression нужно соединить в один Pipeline с помощью make_pipeline, как это делалось во втором семинаре. Потом pipeline надо передать в GridSearchCV. Для one-hot-encoding'a можно испльзовать комбинацию LabelEncoder + OneHotEncoder (сначала превращаем строчки в числа, а потом числа првращаем в one-hot вектора.)

In [36]:
from sklearn.linear_model import LogisticRegression, LogisticRegressionCV
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler, RobustScaler, LabelEncoder, OneHotEncoder
from sklearn.pipeline import make_pipeline
from sklearn.pipeline import Pipeline

In [37]:
#1способ(using GridSearchCV)
num_indices = [0,1,2]
cat_indices = list(range(3,19))
num_features = data.columns[num_indices]
cat_features = data.columns[cat_indices]

In [27]:
num_transformer = Pipeline([('scaler', StandardScaler())])
cat_transformer = Pipeline([('onehot',OneHotEncoder())])

In [28]:
from sklearn.compose import ColumnTransformer
preprocessor = ColumnTransformer([
 ('num', num_transformer, num_features),
 ('cat', cat_transformer, cat_features)])

In [29]:
pl = make_pipeline(
                   preprocessor,
                   LogisticRegression()
)

In [30]:
def search(X, y, model, grid_params, param_scale='log', draw = True):
    print(grid_params)
    CV_model = GridSearchCV(estimator=model, 
                            param_grid=grid_params,
                            cv=5, 
                            refit=True,
                            scoring='roc_auc',
                            n_jobs=-1, 
                            verbose=10,
                            )
    CV_model.fit(X, y)
    means = CV_model.cv_results_['mean_test_score']
    error = CV_model.cv_results_['std_test_score']
    print(CV_model.best_estimator_.get_params)
    quality = roc_auc_score(y, CV_model.best_estimator_.predict(X))
    
    return means, error, quality

In [31]:
models = [pl]
grid_params = [{ 'logisticregression__penalty' : ['l1', 'l2', 'elasticnet'],
                 'logisticregression__C' : [100, 10, 1, 0.1, 0.01, 0.001],
                 'logisticregression__solver': ['saga'],
                 'logisticregression__l1_ratio' : [0.01, 0.1, 1]
                 
}]

In [32]:
X = data[data.columns[list(range(0,19))]]
y = data[data.columns[19]]

In [33]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X.values, y.values, 
                                                    train_size=0.8,
                                                    random_state=42)

In [35]:
search(X, y, pl, grid_params)

[{'logisticregression__penalty': ['l1', 'l2', 'elasticnet'], 'logisticregression__C': [100, 10, 1, 0.1, 0.01, 0.001], 'logisticregression__solver': ['saga'], 'logisticregression__l1_ratio': [0.01, 0.1, 1]}]
Fitting 5 folds for each of 54 candidates, totalling 270 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 2 concurrent workers.
[Parallel(n_jobs=-1)]: Done   1 tasks      | elapsed:    2.2s
[Parallel(n_jobs=-1)]: Done   4 tasks      | elapsed:    3.1s
[Parallel(n_jobs=-1)]: Done   9 tasks      | elapsed:    4.8s
[Parallel(n_jobs=-1)]: Done  14 tasks      | elapsed:    6.6s
[Parallel(n_jobs=-1)]: Done  21 tasks      | elapsed:    9.4s
[Parallel(n_jobs=-1)]: Done  28 tasks      | elapsed:   11.7s
[Parallel(n_jobs=-1)]: Done  37 tasks      | elapsed:   15.1s
[Parallel(n_jobs=-1)]: Done  46 tasks      | elapsed:   18.2s
[Parallel(n_jobs=-1)]: Done  57 tasks      | elapsed:   22.2s
[Parallel(n_jobs=-1)]: Done  68 tasks      | elapsed:   26.0s
[Parallel(n_jobs=-1)]: Done  81 tasks      | elapsed:   31.0s
[Parallel(n_jobs=-1)]: Done  94 tasks      | elapsed:   35.0s
[Parallel(n_jobs=-1)]: Done 109 tasks      | elapsed:   39.6s
[Parallel(n_jobs=-1)]: Done 124 tasks      | elapsed:   44.4s
[Parallel(n_jobs=-1)]: Done 141 tasks      | elapsed:   

<bound method Pipeline.get_params of Pipeline(memory=None,
         steps=[('columntransformer',
                 ColumnTransformer(n_jobs=None, remainder='drop',
                                   sparse_threshold=0.3,
                                   transformer_weights=None,
                                   transformers=[('num',
                                                  Pipeline(memory=None,
                                                           steps=[('scaler',
                                                                   StandardScaler(copy=True,
                                                                                  with_mean=True,
                                                                                  with_std=True))],
                                                           verbose=False),
                                                  Index(['ClientPeriod', 'MonthlySpending', 'TotalSpent'], dtype='object')),
                      



(array([0.84482182, 0.84482274, 0.84482831, 0.84481811, 0.84482738,
        0.84482645, 0.84481717, 0.84482923, 0.84481717, 0.84484791,
        0.84481258, 0.84480699, 0.84484883, 0.84481537, 0.84482558,
        0.84484883, 0.84481072, 0.84485719, 0.84461579, 0.84470596,
        0.84470039, 0.84461672, 0.84470503, 0.8446558 , 0.84461486,
        0.84470503, 0.84461672, 0.84339887, 0.84381276, 0.84382485,
        0.84339886, 0.84381276, 0.84387129, 0.84339794, 0.84381183,
        0.84339701, 0.82952352, 0.84128266, 0.84139042, 0.82952352,
        0.8412873 , 0.84122116, 0.82952538, 0.8412873 , 0.82952445,
        0.5       , 0.83720094, 0.83708883, 0.5       , 0.8372028 ,
        0.83178836, 0.5       , 0.8372028 , 0.5       ]),
 array([0.01143564, 0.01143215, 0.0114478 , 0.01143995, 0.01143278,
        0.01143386, 0.01143099, 0.01142765, 0.011436  , 0.01150682,
        0.0114479 , 0.01144387, 0.01151018, 0.01144064, 0.01146037,
        0.01150852, 0.01144667, 0.01150551, 0.01143852, 0.

In [None]:
#1способ
num_indices = [0,1,2]
cat_indices = list(range(3,19))
#One-hot кодирование для категориальных признаков
dummy_features = pd.get_dummies(data[data.columns[cat_indices]])

In [None]:
#нормировка числовых признаков
scaler = StandardScaler()
numeric_features = pd.DataFrame(scaler.fit_transform(data[data.columns[num_indices]]), columns = ['ClientPeriod', 'MonthlySpending', 'TotalSpent'])

In [None]:
data2 = pd.concat([numeric_features, dummy_features, data[data.columns[19]]], axis=1, join = 'inner')
data2

Unnamed: 0,ClientPeriod,MonthlySpending,TotalSpent,IsSeniorCitizen,Sex_Female,Sex_Male,HasPartner_No,HasPartner_Yes,HasChild_No,HasChild_Yes,...,HasContractPhone_Month-to-month,HasContractPhone_One year,HasContractPhone_Two year,IsBillingPaperless_No,IsBillingPaperless_Yes,PaymentMethod_Bank transfer (automatic),PaymentMethod_Credit card (automatic),PaymentMethod_Electronic check,PaymentMethod_Mailed check,Churn
0,0.919099,-1.506436,-0.557582,0,0,1,0,1,0,1,...,0,1,0,1,0,0,0,0,1,0
1,1.612060,-1.295997,-0.184763,0,0,1,0,1,1,0,...,0,0,1,1,0,0,1,0,0,0
2,-1.282072,0.362658,-0.976504,0,0,1,1,0,1,0,...,1,0,0,0,1,0,0,1,0,1
3,-0.018437,0.475334,0.122800,1,1,0,0,1,1,0,...,1,0,0,1,0,0,0,0,1,0
4,1.122911,1.666716,1.968909,0,1,0,0,1,0,1,...,0,0,1,1,0,0,1,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5268,-1.200547,-1.145210,-0.973749,0,1,0,0,1,0,1,...,0,0,1,1,0,0,1,0,0,0
5269,0.715287,-0.679594,-0.045372,0,1,0,0,1,0,1,...,1,0,0,0,1,0,0,0,1,0
5270,-1.282072,-0.328310,-0.985693,0,0,1,1,0,1,0,...,1,0,0,0,1,0,0,1,0,1
5271,-0.140724,0.365972,-0.033560,0,0,1,1,0,1,0,...,0,1,0,0,1,1,0,0,0,0


In [None]:
y = data2[data2.columns[45]]
y

0       0
1       0
2       1
3       0
4       0
       ..
5268    0
5269    0
5270    1
5271    0
5272    0
Name: Churn, Length: 5264, dtype: int64

In [None]:
X = data2[data2.columns[list(range(0,45))]]
X

Unnamed: 0,ClientPeriod,MonthlySpending,TotalSpent,IsSeniorCitizen,Sex_Female,Sex_Male,HasPartner_No,HasPartner_Yes,HasChild_No,HasChild_Yes,...,HasMovieSubscription_Yes,HasContractPhone_Month-to-month,HasContractPhone_One year,HasContractPhone_Two year,IsBillingPaperless_No,IsBillingPaperless_Yes,PaymentMethod_Bank transfer (automatic),PaymentMethod_Credit card (automatic),PaymentMethod_Electronic check,PaymentMethod_Mailed check
0,0.919099,-1.506436,-0.557582,0,0,1,0,1,0,1,...,0,0,1,0,1,0,0,0,0,1
1,1.612060,-1.295997,-0.184763,0,0,1,0,1,1,0,...,0,0,0,1,1,0,0,1,0,0
2,-1.282072,0.362658,-0.976504,0,0,1,1,0,1,0,...,0,1,0,0,0,1,0,0,1,0
3,-0.018437,0.475334,0.122800,1,1,0,0,1,1,0,...,0,1,0,0,1,0,0,0,0,1
4,1.122911,1.666716,1.968909,0,1,0,0,1,0,1,...,1,0,0,1,1,0,0,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5268,-1.200547,-1.145210,-0.973749,0,1,0,0,1,0,1,...,1,0,0,1,1,0,0,1,0,0
5269,0.715287,-0.679594,-0.045372,0,1,0,0,1,0,1,...,0,1,0,0,0,1,0,0,0,1
5270,-1.282072,-0.328310,-0.985693,0,0,1,1,0,1,0,...,1,1,0,0,0,1,0,0,1,0
5271,-0.140724,0.365972,-0.033560,0,0,1,1,0,1,0,...,1,0,1,0,0,1,1,0,0,0


In [None]:
def search_param(X, y, param_scale='ordinary', draw = True):
    
    CV_model = LogisticRegressionCV(
                            cv=5, 
                            scoring='roc_auc',
                            penalty = 'l1',      
                            refit=True,
                            solver = 'saga',
                            n_jobs=-1, 
                            verbose=10,
                            fit_intercept = True,
                            )
    CV_model.fit(X, y)
    params = CV_model.get_params()
    quality = roc_auc_score(y, CV_model.predict(X))
    print(params)
    print(quality)
    print(CV_model.C_)

In [None]:
search_param(X,y)

[Parallel(n_jobs=-1)]: Using backend ThreadingBackend with 2 concurrent workers.


convergence after 1 epochs took 0 seconds
convergence after 1 epochs took 0 seconds
convergence after 1 epochs took 0 seconds
convergence after 3 epochs took 0 seconds
convergence after 14 epochs took 0 seconds
convergence after 14 epochs took 0 seconds
convergence after 16 epochs took 0 seconds
convergence after 15 epochs took 0 seconds
convergence after 13 epochs took 0 seconds
convergence after 16 epochs took 1 seconds
convergence after 12 epochs took 1 seconds
convergence after 11 epochs took 0 seconds
convergence after 8 epochs took 0 seconds
convergence after 7 epochs took 0 seconds
convergence after 5 epochs took 0 seconds
convergence after 2 epochs took 0 seconds
convergence after 5 epochs took 0 seconds
convergence after 2 epochs took 0 seconds
convergence after 2 epochs took 0 seconds
convergence after 2 epochs took 0 seconds
convergence after 1 epochs took 0 seconds
convergence after 1 epochs took 0 seconds
convergence after 1 epochs took 0 seconds
convergence after 1 epochs

[Parallel(n_jobs=-1)]: Done   1 tasks      | elapsed:    1.0s



convergence after 15 epochs took 0 seconds
convergence after 16 epochs took 0 seconds
convergence after 15 epochs took 0 seconds
convergence after 14 epochs took 1 seconds
convergence after 14 epochs took 1 seconds
convergence after 10 epochs took 0 seconds
convergence after 11 epochs took 0 seconds
convergence after 7 epochs took 0 seconds
convergence after 7 epochs took 0 seconds
convergence after 5 epochs took 0 seconds
convergence after 2 epochs took 0 seconds
convergence after 2 epochs took 0 seconds
convergence after 5 epochs took 0 seconds
convergence after 2 epochs took 0 seconds
convergence after 1 epochs took 0 seconds
convergence after 2 epochs took 0 seconds
convergence after 1 epochs took 0 seconds

[Parallel(n_jobs=-1)]: Done   3 out of   5 | elapsed:    2.1s remaining:    1.3s



convergence after 13 epochs took 0 seconds
convergence after 15 epochs took 0 seconds
convergence after 14 epochs took 0 seconds
convergence after 10 epochs took 1 seconds
convergence after 7 epochs took 0 seconds
convergence after 5 epochs took 0 seconds
convergence after 2 epochs took 0 seconds
convergence after 2 epochs took 0 seconds


[Parallel(n_jobs=-1)]: Done   5 out of   5 | elapsed:    2.9s remaining:    0.0s
[Parallel(n_jobs=-1)]: Done   5 out of   5 | elapsed:    2.9s finished


convergence after 19 epochs took 0 seconds
{'Cs': 10, 'class_weight': None, 'cv': 5, 'dual': False, 'fit_intercept': True, 'intercept_scaling': 1.0, 'l1_ratios': None, 'max_iter': 100, 'multi_class': 'auto', 'n_jobs': -1, 'penalty': 'l1', 'random_state': None, 'refit': True, 'scoring': 'roc_auc', 'solver': 'saga', 'tol': 0.0001, 'verbose': 10}
0.7010325998155913
[21.5443469]


Выпишите какое лучшее качество и с какими параметрами вам удалось получить

roc-auc = 0.722955531163189 при C=10, l1_ratio=1, penalty='l1',
                                    solver='saga'

## Применение градиентного бустинга (2 балла)

Если вы хотите получить баллы за точный ответ, то стоит попробовать градиентный бустинг. Часто градиентный бустинг с дефолтными параметрами даст вам 80% результата за 0% усилий.

Мы будем использовать catboost, поэтому нам не надо кодировать категориальные признаки. catboost сделает это сам (в .fit() надо передать cat_features=cat_cols). А численные признаки нормировать для моделей, основанных на деревьях не нужно.

1) Разделите выборку на train/valid. Протестируйте catboost cо стандартными параметрами.

2) Протестируйте разные занчения параметроа количества деревьев и learning_rate'а и выберите лучшую по метрике ROC-AUC комбинацию. 

(Дополнительно) Есть некоторые сложности с тем, чтобы использовать CatBoostClassifier вместе с GridSearchCV, поэтому мы не просим использовать кроссвалидацию. Но можете попробовать)

In [None]:
!pip install catboost
import catboost

In [53]:

X_train_, X_test_, y_train_, y_test_ = train_test_split(X.values, y.values, 
                                                       train_size=0.8, 
                                                       random_state=42)

In [54]:
boosting_model = catboost.CatBoostClassifier(n_estimators=200, 
                                             cat_features=cat_indices)

boosting_model.fit(X_train, y_train)
y_train_predicted = boosting_model.predict_proba(X_train)[:, 1]
y_test_predicted = boosting_model.predict_proba(X_test)[:, 1]

Learning rate set to 0.083332
0:	learn: 0.6393850	total: 18.1ms	remaining: 3.6s
1:	learn: 0.5986678	total: 36.3ms	remaining: 3.6s
2:	learn: 0.5669397	total: 47.9ms	remaining: 3.14s
3:	learn: 0.5401092	total: 68ms	remaining: 3.33s
4:	learn: 0.5184259	total: 90.1ms	remaining: 3.51s
5:	learn: 0.5006508	total: 106ms	remaining: 3.42s
6:	learn: 0.4860068	total: 120ms	remaining: 3.31s
7:	learn: 0.4729220	total: 135ms	remaining: 3.25s
8:	learn: 0.4613053	total: 152ms	remaining: 3.23s
9:	learn: 0.4518849	total: 168ms	remaining: 3.19s
10:	learn: 0.4444709	total: 184ms	remaining: 3.15s
11:	learn: 0.4389258	total: 203ms	remaining: 3.18s
12:	learn: 0.4351742	total: 216ms	remaining: 3.11s
13:	learn: 0.4308061	total: 233ms	remaining: 3.09s
14:	learn: 0.4263292	total: 254ms	remaining: 3.13s
15:	learn: 0.4224699	total: 271ms	remaining: 3.11s
16:	learn: 0.4199115	total: 287ms	remaining: 3.08s
17:	learn: 0.4175362	total: 302ms	remaining: 3.05s
18:	learn: 0.4142761	total: 319ms	remaining: 3.04s
19:	learn:

In [55]:
train_auc = roc_auc_score(y_train, y_train_predicted)
test_auc = roc_auc_score(y_test, y_test_predicted)

In [56]:
test_auc

0.8397499410238264

In [95]:
boosting_model = catboost.CatBoostClassifier(n_estimators=200, 
                                             cat_features=cat_indices)
grid = {'learning_rate': [0.1, 0.3, 0.6, 0.8],
        'depth': [2, 4, 6],
        'l2_leaf_reg': [2, 3, 4]
        }
boosting_model.grid_search(grid, 
                           X_train, 
                           y_train, 
                           plot=True,
                           refit=True,)
#boosting_model.fit(X_train, y_train)

MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

[1;30;43mВыходные данные были обрезаны до нескольких последних строк (5000).[0m
121:	learn: 0.3841012	test: 0.4079615	best: 0.4073771 (97)	total: 1.21s	remaining: 772ms
122:	learn: 0.3840613	test: 0.4080435	best: 0.4073771 (97)	total: 1.22s	remaining: 765ms
123:	learn: 0.3839015	test: 0.4079120	best: 0.4073771 (97)	total: 1.23s	remaining: 754ms
124:	learn: 0.3837891	test: 0.4079709	best: 0.4073771 (97)	total: 1.24s	remaining: 744ms
125:	learn: 0.3833373	test: 0.4078983	best: 0.4073771 (97)	total: 1.25s	remaining: 733ms
126:	learn: 0.3832125	test: 0.4078991	best: 0.4073771 (97)	total: 1.26s	remaining: 724ms
127:	learn: 0.3831784	test: 0.4078751	best: 0.4073771 (97)	total: 1.27s	remaining: 713ms
128:	learn: 0.3831310	test: 0.4077625	best: 0.4073771 (97)	total: 1.28s	remaining: 703ms
129:	learn: 0.3830557	test: 0.4077682	best: 0.4073771 (97)	total: 1.29s	remaining: 693ms
130:	learn: 0.3825189	test: 0.4081525	best: 0.4073771 (97)	total: 1.29s	remaining: 683ms
131:	learn: 0.3823172	test: 

{'cv_results': defaultdict(list,
             {'iterations': [0,
               1,
               2,
               3,
               4,
               5,
               6,
               7,
               8,
               9,
               10,
               11,
               12,
               13,
               14,
               15,
               16,
               17,
               18,
               19,
               20,
               21,
               22,
               23,
               24,
               25,
               26,
               27,
               28,
               29,
               30,
               31,
               32,
               33,
               34,
               35,
               36,
               37,
               38,
               39,
               40,
               41,
               42,
               43,
               44,
               45,
               46,
               47,
               48,
               49,
             

In [96]:
boosting_model = catboost.CatBoostClassifier(learning_rate = 0.3,
                                             depth = 2,
                                             l2_leaf_reg = 3,
                                             n_estimators=200, 
                                             cat_features=cat_indices)
boosting_model.fit(X_train, y_train)
y_train_predicted = boosting_model.predict_proba(X_train)[:, 1]
y_test_predicted = boosting_model.predict_proba(X_test)[:, 1]
train_auc = roc_auc_score(y_train, y_train_predicted)
test_auc = roc_auc_score(y_test, y_test_predicted)
test_auc

0:	learn: 0.5772188	total: 5.36ms	remaining: 1.07s
1:	learn: 0.5167897	total: 11.1ms	remaining: 1.1s
2:	learn: 0.4710667	total: 16.2ms	remaining: 1.06s
3:	learn: 0.4482016	total: 21.2ms	remaining: 1.04s
4:	learn: 0.4396732	total: 25.5ms	remaining: 996ms
5:	learn: 0.4340495	total: 30.1ms	remaining: 973ms
6:	learn: 0.4298335	total: 34.7ms	remaining: 957ms
7:	learn: 0.4259148	total: 39.3ms	remaining: 943ms
8:	learn: 0.4233878	total: 45.4ms	remaining: 963ms
9:	learn: 0.4211317	total: 49.8ms	remaining: 946ms
10:	learn: 0.4185681	total: 54.6ms	remaining: 939ms
11:	learn: 0.4161373	total: 59ms	remaining: 925ms
12:	learn: 0.4155314	total: 63.6ms	remaining: 915ms
13:	learn: 0.4141078	total: 67.6ms	remaining: 898ms
14:	learn: 0.4118640	total: 71.5ms	remaining: 881ms
15:	learn: 0.4114991	total: 75.2ms	remaining: 865ms
16:	learn: 0.4109411	total: 80ms	remaining: 862ms
17:	learn: 0.4106102	total: 84.7ms	remaining: 857ms
18:	learn: 0.4099737	total: 88.9ms	remaining: 847ms
19:	learn: 0.4093075	total:

0.845376267987733

Выпишите какое лучшее качество и с какими параметрами вам удалось получить

# Предсказания

In [97]:
best_model = catboost.CatBoostClassifier(learning_rate = 0.3,
                                             depth = 2,
                                             l2_leaf_reg = 3,
                                             n_estimators=200, 
                                             cat_features=cat_indices)
best_model.fit(X_train, y_train)
y_train_predicted = boosting_model.predict_proba(X_train)[:, 1]
y_test_predicted = boosting_model.predict_proba(X_test)[:, 1]
train_auc = roc_auc_score(y_train, y_train_predicted)
test_auc = roc_auc_score(y_test, y_test_predicted)
train_auc, test_auc

0:	learn: 0.5772188	total: 6.45ms	remaining: 1.28s
1:	learn: 0.5167897	total: 12.9ms	remaining: 1.28s
2:	learn: 0.4710667	total: 18.4ms	remaining: 1.21s
3:	learn: 0.4482016	total: 23.8ms	remaining: 1.16s
4:	learn: 0.4396732	total: 28.5ms	remaining: 1.11s
5:	learn: 0.4340495	total: 33.9ms	remaining: 1.09s
6:	learn: 0.4298335	total: 38.7ms	remaining: 1.07s
7:	learn: 0.4259148	total: 43.8ms	remaining: 1.05s
8:	learn: 0.4233878	total: 48.6ms	remaining: 1.03s
9:	learn: 0.4211317	total: 53ms	remaining: 1.01s
10:	learn: 0.4185681	total: 58.6ms	remaining: 1.01s
11:	learn: 0.4161373	total: 63.3ms	remaining: 991ms
12:	learn: 0.4155314	total: 68.2ms	remaining: 980ms
13:	learn: 0.4141078	total: 72.4ms	remaining: 961ms
14:	learn: 0.4118640	total: 76.5ms	remaining: 943ms
15:	learn: 0.4114991	total: 81.1ms	remaining: 932ms
16:	learn: 0.4109411	total: 87ms	remaining: 937ms
17:	learn: 0.4106102	total: 92.9ms	remaining: 939ms
18:	learn: 0.4099737	total: 97.7ms	remaining: 931ms
19:	learn: 0.4093075	total

(0.8673511852431102, 0.845376267987733)

In [99]:
X_test = pd.read_csv('./test.csv')
submission = pd.read_csv('./submission.csv')

submission['Churn'] = best_model.predict_proba(X_test) #/ best_model.predict(X_test)
submission.to_csv('./my_submission.csv')

# Kaggle (5 баллов)

Как выставить баллы:

1) 1 >= roc auc > 0.84 это 5 баллов

2) 0.84 >= roc auc > 0.7 это 3 балла

3) 0.7 >= roc auc > 0.6 это 1 балл

4) 0.6 >= roc auc это 0 баллов


Для выполнения задания необходимо выполнить следующие шаги.
* Зарегистрироваться на платформе [kaggle.com](kaggle.com). Процесс выставления оценок будет проходить при подведении итогового рейтинга. Пожалуйста, укажите во вкладке Team -> Team name свои имя и фамилию в формате Имя_Фамилия (важно, чтобы имя и фамилия совпадали с данными на Stepik).
* Обучить модель, получить файл с ответами в формате .csv и сдать его в конкурс. Пробуйте и экспериментируйте. Обратите внимание, что вы можете выполнять до 20 попыток сдачи на kaggle в день.
* После окончания соревнования отправить в итоговый ноутбук с решением на степик. 
* После дедлайна проверьте посылки других участников по критериям. Для этого надо зайти на степик, скачать их ноутбук и проверить скор в соревновании.