<p style="align: center;"><img align=center src="https://s8.hostingkartinok.com/uploads/images/2018/08/308b49fcfbc619d629fe4604bceb67ac.jpg" width=500 height=450/></p>

<h3 style="text-align: center;"><b>Школа глубокого обучения ФПМИ МФТИ</b></h3>

<h3 style="text-align: center;"><b>Домашнее задание. Продвинутый поток. Весна 2021</b></h3>

Это домашнее задание будет посвящено полноценному решению задачи машинного обучения.

Есть две части этого домашнего задания: 
* Сделать полноценный отчет о вашей работе: как вы обработали данные, какие модели попробовали и какие результаты получились (максимум 10 баллов). За каждую выполненную часть будет начислено определенное количество баллов.
* Лучшее решение отправить в соревнование на [kaggle](https://www.kaggle.com/c/advanced-dls-spring-2021/) (максимум 5 баллов). За прохождение определенного порогов будут начисляться баллы.


**Обе части будут проверяться в формате peer-review. Т.е. вашу посылку на степик будут проверять несколько других студентов и аггрегация их оценок будет выставлена. В то же время вам тоже нужно будет проверить несколько других учеников.**

**Пожалуйста, делайте свою работу чистой и понятной, чтобы облегчить проверку. Если у вас будут проблемы с решением или хочется совета, то пишите в наш чат в телеграме или в лс @runfme. Если вы захотите проаппелировать оценку, то пипшите в лс @runfme.**

**Во всех пунктах указания это минимальный набор вещей, которые стоит сделать. Если вы можете сделать какой-то шаг лучше или добавить что-то свое - дерзайте!**

# Как проверять?

Ставьте полный балл, если выполнены все рекомендации или сделано что-то более интересное и сложное. За каждый отсустствующий пункт из рекомендация снижайте 1 балл.

# Метрика

Перед решением любой задачи важно понимать, как будет оцениваться ваше решение. В данном случае мы используем стандартную для задачи классификации метрику ROC-AUC. Ее можно вычислить используя только предсказанные вероятности и истинные классы без конкретного порога классификации + она раотает даже если классы в данных сильно несбалансированны (примеров одного класса в десятки раз больше примеров длугого). Именно поэтому она очень удобна для соревнований.

Посчитать ее легко:


In [None]:
from sklearn.metrics import roc_auc_score

y_true = [
    0,
    1,
    1,
    0,
    1
]

y_predictions = [
    0.1,
    0.9,
    0.4,
    0.6,
    0.61
]

roc_auc_score(y_true, y_predictions)

# Первая часть. Исследование

In [None]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

## Загрузка данных (2 балла)

1) Посмотрите на случайные строчки. 

2) Посмотрите, есть ли в датасете незаполненные значения (nan'ы) с помощью data.isna() или data.info() и, если нужно, замените их на что-то. Будет хорошо, если вы построите табличку с количеством nan в каждой колонке.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

data = pd.read_csv('/content/drive/My Drive/DeepLearningSchool/8.Algorithm_composition/train.csv')
print(f"Количество строк {data.shape[0]}, количество признаков {data.shape[1]}")
data.head()

In [None]:
# Для вашего удобства списки с именами разных колонок

# Числовые признаки
num_cols = [
    'ClientPeriod',
    'MonthlySpending',
    'TotalSpent'
]

# Категориальные признаки
cat_cols = [
    'Sex',
    'IsSeniorCitizen',
    'HasPartner',
    'HasChild',
    'HasPhoneService',
    'HasMultiplePhoneNumbers',
    'HasInternetService',
    'HasOnlineSecurityService',
    'HasOnlineBackup',
    'HasDeviceProtection',
    'HasTechSupportAccess',
    'HasOnlineTV',
    'HasMovieSubscription',
    'HasContractPhone',
    'IsBillingPaperless',
    'PaymentMethod'
]

feature_cols = num_cols + cat_cols
target_col = 'Churn'

In [None]:
# Общая информация о данных
data.info()

In [None]:
# Смотрим None в данных
print(data.isna().any())
# Если бы были пропуски, то вывели бы сумму таких значений
data.isna().sum()

In [None]:
# Смотрим пропуски в данных
print(data.isnull().any())
# Если бы были пропуски, то вывели бы сумму таких значений
data.isna().sum()

## Анализ данных (3 балла)

1) Для численных призанков постройте гистограмму (*plt.hist(...)*) или boxplot (*plt.boxplot(...)*). Для категориальных посчитайте количество каждого значения для каждого признака. Для каждой колонки надо сделать *data.value_counts()* и построить bar диаграммы *plt.bar(...)* или круговые диаграммы *plt.pie(...)* (хорошо, елси вы сможете это сделать на одном гарфике с помощью *plt.subplots(...)*). 

2) Посмотрите на распределение целевой переменной и скажите, являются ли классы несбалансированными.

3) (Если будет желание) Поиграйте с разными библиотеками для визуализации - *sns*, *pandas_visual_analysis*, etc.

Второй пункт очень важен, потому что существуют задачи классификации с несбалансированными классами. Например, это может значить, что в датасете намного больше примеров 0 класса. В таких случаях нужно 1) не использовать accuracy как метрику 2) использовать методы борьбы с imbalanced dataset (обычно если датасет сильно несбалансирован, т.е. класса 1 в 20 раз меньше класса 0).

In [None]:
# YOUR CODE
# Задание 1. Смотрим на числовые признаки
import matplotlib.pyplot as plt
num_cols = [
    'ClientPeriod',
    'MonthlySpending',
    'TotalSpent'
]

data['TotalSpent'] = data['TotalSpent'].replace(' ', '0')
data['TotalSpent'] = data['TotalSpent'].astype(float)
data['TotalSpent'] = data['TotalSpent'].replace(0, data['TotalSpent'].mean())

plt.figure(figsize = (16, 16))
for i in range(len(num_cols)):
    plt.subplot(2,2,i+1)
    plt.grid(True, linestyle='--', color='0.75')
    plt.hist(data[num_cols[i]], 15)
    plt.xlabel(f'{num_cols[i]}', size = '14')
    plt.ylabel('Количество значений', size = '14')
plt.show()

In [None]:
# YOUR CODE
# Задание 1. Смотрим на категориальные признаки
import matplotlib.pyplot as plt
cat_cols = [
    'Sex',
    'IsSeniorCitizen',
    'HasPartner',
    'HasChild',
    'HasPhoneService',
    'HasMultiplePhoneNumbers',
    'HasInternetService',
    'HasOnlineSecurityService',
    'HasOnlineBackup',
    'HasDeviceProtection',
    'HasTechSupportAccess',
    'HasOnlineTV',
    'HasMovieSubscription',
    'HasContractPhone',
    'IsBillingPaperless',
    'PaymentMethod'
]

plt.figure(figsize = (16, 80))

for i in range(len(cat_cols)):
    plt.subplot(8,2,i+1)
    plt.grid(True, linestyle='--', color='0.75')
    plt.bar(data[cat_cols[i]].unique(), data[cat_cols[i]].value_counts())
    plt.xlabel(f'{cat_cols[i]}', size = '14')
    plt.ylabel('Количество значений', size = '14')
plt.show()

In [None]:
# Задание 2
# Классы не сбалансированны
import matplotlib.pyplot as plt

target_col = 'Churn'
plt.figure(figsize = (10, 10))
plt.grid(True, linestyle='--', color='0.75')
plt.hist(data[target_col], 15)
plt.xlabel(f'{target_col}', size = '14')
plt.ylabel('Количество значений', size = '14')
plt.show()

(Дополнительно) Если вы нашли какие-то ошибки в данных или выбросы, то можете их убрать. Тут можно поэксперементировать с обработкой данных как угодно, но не за баллы.

In [None]:
# YOUR CODE
# Смотрим корреляции
import matplotlib.pyplot as plt


corr = data[feature_cols].corr()

for i in corr:
  print(i)
  print(i, sum(corr[i])-1)

corr.style.background_gradient(cmap='coolwarm')

## Применение линейных моделей (3 балла)

1) Обработайте данные для того, чтобы к ним можно было применить LogisticRegression. Т.е. отнормируйте числовые признаки, а категориальные закодируйте с помощью one-hot-encoding'а. 

2) С помощью кроссвалидации или разделения на train/valid выборку протестируйте разные значения гиперпараметра C и выберите лучший (можно тестировать С=100, 10, 1, 0.1, 0.01, 0.001) по метрике ROC-AUC. 

Если вы разделяете на train/valid, то используйте LogisticRegressionCV. Он сам при вызове .fit() подберет параметр С. (не забудьте передать scroing='roc_auc', чтобы при кроссвалидации сравнивались значения этой метрики, и refit=True, чтобы при потом модель обучилась на всем датасете с лучшим параметром C). 


(более сложный вариант) Если вы будете использовать кроссвалидацию, то преобразования данных и LogisticRegression нужно соединить в один Pipeline с помощью make_pipeline, как это делалось во втором семинаре. Потом pipeline надо передать в GridSearchCV. Для one-hot-encoding'a можно испльзовать комбинацию LabelEncoder + OneHotEncoder (сначала превращаем строчки в числа, а потом числа првращаем в one-hot вектора.)

In [None]:
from sklearn.linear_model import LogisticRegression, LogisticRegressionCV
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler, RobustScaler, LabelEncoder, OneHotEncoder
from sklearn.pipeline import make_pipeline

In [None]:
# YOUR CODE
features_labels = []

### LabelEncoder для категориальных признаков

In [None]:
le = LabelEncoder()
for s in cat_cols:
    le.fit(data[s])
    data[s+'_le'] = le.transform(data[s])
    features_labels.append(s+'_le')

print(data.shape)
data.head()

### OneHotEncoder для категориальных признаков

In [None]:
ohe = OneHotEncoder(handle_unknown='ignore')
for s in cat_cols:
    new_ohe_features = ohe.fit_transform(data[s].values.reshape(-1, 1)).toarray()
    tmp = pd.DataFrame(new_ohe_features, columns=[s+'='+str(i) for i in range(new_ohe_features.shape[1])])
    data = pd.concat([data, tmp], axis=1)
    data.drop([s], axis=1, inplace=True)
    [features_labels.append(s+'='+str(i)) for i in range(new_ohe_features.shape[1])]
    

print(data.shape)
data.head()

### Нормализация числовых признаков

In [None]:
scaler = StandardScaler()
for i in num_cols:
    print(i)
    data[i+'_ss'] = scaler.fit_transform(data[i].values.reshape(-1, 1))
    features_labels.append(i+'_ss') 
    data.drop([i], axis=1, inplace=True)

print(data.shape)
data.head()

### Ищем лучшие параметры для LogisticRegression

In [None]:
import time

import warnings
from sklearn.exceptions import ConvergenceWarning
warnings.filterwarnings(action='ignore', category=ConvergenceWarning)

t = time.time()
parameters = {
    'penalty': ('elasticnet', ),
    'C': (100, 10, 1, 0.1, 0.01, 0.001),
    'class_weight': ('balanced', None),
    'solver': ('saga',),
    'n_jobs': (-1,),
    'l1_ratio': (0.1, 0.3, 0.5, 0.9)
}

lr_clf =  LogisticRegression()
gs_lr_clf = GridSearchCV(lr_clf, parameters, cv=3, scoring='roc_auc')

X_train, X_test, y_train, y_test = train_test_split(
    data[features_labels], data[target_col], stratify=data[target_col], random_state=42, test_size=0.2
)
gs_lr_clf.fit(X_train, y_train)

# End estimate. Writing some info
print(f'How long: {"%.2f" % (time.time()-t)}, s')
print('LogisticRegression - best estimator: ', gs_lr_clf.best_estimator_)
print('LogisticRegression - best score: ', gs_lr_clf.best_score_)
print("LogisticRegression - best predict: ", roc_auc_score(y_test, gs_lr_clf.predict(X_test)))

Выпишите какое лучшее качество и с какими параметрами вам удалось получить

LogisticRegression - best predict:  0.7140609090067574

LogisticRegression - best estimator:  LogisticRegression(C=100, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=0.1, max_iter=100,
                   multi_class='auto', n_jobs=-1, penalty='elasticnet',
                   random_state=None, solver='saga', tol=0.0001, verbose=0,
                   warm_start=False)

## Применение градиентного бустинга (2 балла)

Если вы хотите получить баллы за точный ответ, то стоит попробовать градиентный бустинг. Часто градиентный бустинг с дефолтными параметрами даст вам 80% результата за 0% усилий.

Мы будем использовать catboost, поэтому нам не надо кодировать категориальные признаки. catboost сделает это сам (в .fit() надо передать cat_features=cat_cols). А численные признаки нормировать для моделей, основанных на деревьях не нужно.

1) Разделите выборку на train/valid. Протестируйте catboost cо стандартными параметрами.

2) Протестируйте разные занчения параметроа количества деревьев и learning_rate'а и выберите лучшую по метрике ROC-AUC комбинацию. 

(Дополнительно) Есть некоторые сложности с тем, чтобы использовать CatBoostClassifier вместе с GridSearchCV, поэтому мы не просим использовать кроссвалидацию. Но можете попробовать)

In [None]:
!pip install catboost

In [None]:
from catboost import CatBoostClassifier


cbc_clf = CatBoostClassifier(iterations=400,
                       depth=4,
                       learning_rate=0.05,
                       loss_function='Logloss',
                       verbose=False,
                       random_seed = 4,
                       l2_leaf_reg = 40,
                       eval_metric='AUC'
                       )

parametrs_cbc = {
    'iterations': [50, 100, 150, 200],
    "learning_rate": [0.01, 0.05, 0.1, 0.5],
    'min_data_in_leaf': [3, 6, 9, 12],
    'depth': [2, 3, 4, 5, 6],
    'l2_leaf_reg': [0, 0.01, 0.05, 0.1, 0.5]    
}

cbc_grid = GridSearchCV(cbc_clf, parametrs_cbc, cv=5, verbose=4, scoring='roc_auc', refit=True, n_jobs=-1)
cbc_grid.fit(X_train, y_train)

# End estimate. Writing some info
print(f'How long: {"%.2f" % (time.time()-t)}, s')
print('CatBoostClassifier - best estimator: ', cbc_grid.best_estimator_)
print('CatBoostClassifier - best score: ', cbc_grid.best_score_)
print("CatBoostClassifier - best predict: ", roc_auc_score(y_test, cbc_grid.predict(X_test)))

## Что еще стоит попробовать
- использовать голосование
- разбить выборку на 2 части и на каждой подвыборке провести обучение алгоритмов
- использовать sklearn.multiclass.OneVsRestClassifier
- получше почистить данные
- посмотреть на ошибки в определении классов и на сами фичи
- зафиксировать random_state, тк от него зависит качество модели
- использовать sklearn.preprocessing.PowerTransformer
- использовать sklearn.preprocessing.Normalizer
- использовать sklearn.preprocessing.SplineTransformer
- попробовать Classification with Vowpal Wabbit
- попробовать другой метаалгоритм
- метаалгоритм в стекинге лучше обучать на другой подвыборке (!)
- Заменить 0 и 1 на вероятности каждого значения (?)
- признаки с бинарными значениями образуют 3 новых признака, которые плохо вляют на оценку. Стоит оставить только 2 признака???




# Использование стекинга с различными библиотеками градиентного бустинга и алгоритмов классификации из sklearn

## Предварительная обработка данных

In [1]:
# Числовые признаки
num_cols = [
    'ClientPeriod',
    'MonthlySpending',
    'TotalSpent'
]

# Категориальные признаки
cat_cols = [
    'Sex',
    'IsSeniorCitizen',
    'HasPartner',
    'HasChild',
    'HasPhoneService',
    'HasMultiplePhoneNumbers',
    'HasInternetService',
    'HasOnlineSecurityService',
    'HasOnlineBackup',
    'HasDeviceProtection',
    'HasTechSupportAccess',
    'HasOnlineTV',
    'HasMovieSubscription',
    'HasContractPhone',
    'IsBillingPaperless',
    'PaymentMethod'
]

feature_cols = num_cols + cat_cols
target_col = 'Churn'

import pandas as pd
from sklearn.preprocessing import StandardScaler, RobustScaler, LabelEncoder, OneHotEncoder
from sklearn.model_selection import train_test_split

# from google.colab import drive
# drive.mount('/content/drive')
# data = pd.read_csv('/content/drive/My Drive/DeepLearningSchool/8.Algorithm_composition/train.csv')
# data_predict = pd.read_csv('/content/drive/My Drive/DeepLearningSchool/8.Algorithm_composition/test.csv')

PATH = r'C:\Users\user\PycharmProjects\DeepLearningSchool\8.Algorithm_composition\{}'
data = pd.read_csv(PATH.format('train.csv'))
data_predict = pd.read_csv(PATH.format('test.csv'))

print(f"Количество строк {data.shape[0]}, количество признаков {data.shape[1]}")
features_labels = []

# Чтение данных для обучения модели
y = data['Churn']
data.drop(['Churn'], inplace=True, axis=True)
data['TotalSpent'] = data['TotalSpent'].replace(' ', '0')
data['TotalSpent'] = data['TotalSpent'].astype(float)
data['TotalSpent'] = data['TotalSpent'].replace(0, data['TotalSpent'].mean())

# Чтение данных для предсказания
data_predict['TotalSpent'] = data_predict['TotalSpent'].replace(' ', '0')
data_predict['TotalSpent'] = data_predict['TotalSpent'].astype(float)
data_predict['TotalSpent'] = data_predict['TotalSpent'].replace(0, data['TotalSpent'].mean())
X_predict = data_predict

#LabelEncoder для категориальных признаков
le = LabelEncoder()
for s in cat_cols:
    le.fit(data[s])
    data[s+'_le'] = le.transform(data[s])
    X_predict[s+'_le'] = le.transform(X_predict[s])
    features_labels.append(s+'_le')

# OneHotEncoder для категориальных признаков
ohe = OneHotEncoder(handle_unknown='ignore')
for s in cat_cols:
    ohe.fit(data[s].values.reshape(-1, 1))
    
    new_ohe_features = ohe.transform(X_predict[s].values.reshape(-1, 1)).toarray()
    tmp = pd.DataFrame(new_ohe_features, columns=[s+'='+str(i) for i in range(new_ohe_features.shape[1])])
    X_predict = pd.concat([X_predict, tmp], axis=1)
    X_predict.drop([s], axis=1, inplace=True)
    
    new_ohe_features = ohe.transform(data[s].values.reshape(-1, 1)).toarray()
    tmp = pd.DataFrame(new_ohe_features, columns=[s+'='+str(i) for i in range(new_ohe_features.shape[1])])
    data = pd.concat([data, tmp], axis=1)
    data.drop([s], axis=1, inplace=True)
    
    [features_labels.append(s+'='+str(i)) for i in range(new_ohe_features.shape[1])]

# Нормализация числовых признаков
scaler = StandardScaler()
for i in num_cols:
    scaler.fit(data[i].values.reshape(-1, 1))
    
    X_predict[i+'_ss'] = scaler.transform(X_predict[i].values.reshape(-1, 1))
    X_predict.drop([i], axis=1, inplace=True)
    
    data[i+'_ss'] = scaler.transform(data[i].values.reshape(-1, 1))
    data.drop([i], axis=1, inplace=True)
    
    features_labels.append(i+'_ss') 

# Разбивание выборки для обучения на тестовую и валидационную
X_train, X_valid, y_train, y_valid = train_test_split(
    data, y, stratify=y, random_state=42, test_size=0.2
)

Количество строк 5282, количество признаков 20


## Дополнителная обработка данных

In [2]:
from sklearn.preprocessing import MaxAbsScaler
from sklearn.feature_selection import f_classif
from sklearn.feature_selection import SelectKBest
from sklearn.preprocessing import PolynomialFeatures
from sklearn.feature_selection import SelectFromModel



transformer = MaxAbsScaler().fit(X_train)
X_train = pd.DataFrame(transformer.transform(X_train), columns=features_labels)
X_valid = pd.DataFrame(transformer.transform(X_valid), columns=features_labels)

new_names = ['ClientPeriod_ss', 'MonthlySpending_ss', 'TotalSpent_ss']
pf = PolynomialFeatures(interaction_only=True, degree=2)
pf.fit(X_train[(new_names)])

X_train_pf = pf.transform(X_train[(new_names)])
X_valid_pf = pf.transform(X_valid[(new_names)])
new_names_pf = [f'new_names_{i}' for i in range(X_train_pf.shape[1])]

X_train_pf = pd.DataFrame(X_train_pf, columns=new_names_pf)
X_valid_pf = pd.DataFrame(X_valid_pf, columns=new_names_pf)
X_train = pd.concat([X_train, X_train_pf], axis=1)
X_valid = pd.concat([X_valid, X_valid_pf], axis=1)
X_train = X_train.drop(['new_names_0'], axis=1)
X_valid = X_valid.drop(['new_names_0'], axis=1)

selecter = SelectKBest(f_classif, k=48).fit(X_train, y_train)
X_train = selecter.transform(X_train)
X_valid = selecter.transform(X_valid)

print(f"Количество строк {X_train.shape[0]}, количество признаков {X_train.shape[1]}")
print(f"Количество строк {y_train.shape}")
print(X_train.shape)
print(X_valid.shape)

Количество строк 4225, количество признаков 48
Количество строк (4225,)
(4225, 48)
(1057, 48)


## Использование стекинга для моделей с лучшими параметрами

In [17]:
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import StackingClassifier
from sklearn.model_selection import GridSearchCV, cross_val_score
from sklearn.metrics import roc_auc_score
from sklearn.pipeline import Pipeline


##############################################################################################
# MLPClassifier - 0.8520

X_train_mlpc = X_train.copy()
y_train_mlpc = y_train.copy()
X_valid_mlpc = X_valid.copy()
y_valid_mlpc = y_valid.copy()

parameters_mlpc = {
    'activation': ['logistic'],
    'solver': ['adam'],
    'max_iter': [50, 100, 150],
    'alpha': [0.0001, 0.0005],
    'learning_rate': ['constant'],
    'hidden_layer_sizes': [100, 150, 200],
    'random_state': [57]
}
clf_mlpc = MLPClassifier()
mlpc_grid = GridSearchCV(clf_mlpc, parameters_mlpc, cv=5, scoring='roc_auc', n_jobs=-1, verbose=3)
mlpc_grid.fit(X_train_mlpc, y_train_mlpc)
##############################################################################################


##############################################################################################
# GaussianNB - 0.8294

clf_gnb = GaussianNB()
clf_gnb.fit(X_train, y_train)
##############################################################################################


##############################################################################################
# GradientBoostingClassifier - 0.8519

pipe_gbc = Pipeline(steps=[
        ('select', SelectFromModel(estimator=GradientBoostingClassifier(loss='exponential', 
                                                                        criterion='friedman_mse', 
                                                                        random_state=57))),
        ('clf', GradientBoostingClassifier(loss='exponential', 
                                           criterion='friedman_mse', 
                                          random_state=57))
])

parameters_gbc = {
        'clf__learning_rate': [0.05],
        'clf__n_estimators': [200, 300, 400],
        'clf__subsample': [1, 2, 3],
        'clf__min_samples_leaf': [2, 3],
        'clf__max_depth': [1, 2],
        'clf__max_features': [None],
        'clf__random_state': [57]
        }

grid_gbc = GridSearchCV(pipe_gbc, parameters_gbc, cv=5, scoring='roc_auc', n_jobs=-1, refit=True, verbose=1)
grid_gbc.fit(X_train, y_train)
##############################################################################################


##############################################################################################
# LogisticRegression - 0.8491

pipe_lr = Pipeline(steps=[
        ('select', SelectFromModel(estimator=LogisticRegression(solver='saga', random_state=57))),
        ('clf', LogisticRegression(solver='saga', random_state=57))
])

parameters_lr= {
    'clf__penalty': ['l1'],
    'clf__C': [20],
    'clf__class_weight': [None],
    'clf__max_iter': [50000],
    'clf__random_state': [57],
    'clf__solver': ['saga']
}

grid_lr = GridSearchCV(pipe_lr, parameters_lr, cv=5, scoring='roc_auc', n_jobs=-1, verbose=3)
grid_lr.fit(X_train, y_train)
##############################################################################################


##############################################################################################
# RandomForestClassifier - 0.84906
# Предсказание класса через лучшие параметры параметры 0.8543737850597055
# Предсказание класса через лучшие параметры параметры 0.8543737850597057
pipe_rfc = Pipeline(steps=[
        ('select', SelectFromModel(estimator=RandomForestClassifier(criterion='entropy'), threshold='mean')),
        ('clf', RandomForestClassifier(criterion='entropy'))
])

parameters_rfc = {
    'clf__n_estimators': [200, 500, 1000],
    'clf__criterion': ['entropy'],
    'clf__min_samples_leaf': [1],
    'clf__max_features': ['sqrt'],
    'clf__max_samples': [80]
}

grid_rfc = GridSearchCV(pipe_rfc, parameters_rfc, cv=5, scoring='roc_auc', n_jobs=-1, verbose=3)
grid_rfc.fit(X_train, y_train)
##############################################################################################


##############################################################################################
estimators = [
              ('grid_rfc', grid_rfc.best_estimator_),
              ('grid_gbc', grid_gbc.best_estimator_),
              ('clf_gnb', clf_gnb),
              ('grid_lr', grid_lr.best_estimator_),
              ('mlpc_grid', mlpc_grid.best_estimator_)
]

sc_clf = StackingClassifier(estimators=estimators, final_estimator=LogisticRegression(random_state=57), cv=5)

# Started parameters - lbfgs
# 0.8542 - liblinear
# parameters_sc_lr = {
#     'final_estimator__penalty': ['l2'],
#     'final_estimator__solver': ['newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga'],
#     'final_estimator__class_weight': [None],
#     'final_estimator__C': [0.01, 0.05, 0.1, 0.5, 1, 5, 10, 15, 20],
#     'final_estimator__max_iter': [10000],
#     'stack_method': ['predict_proba']
# }

parameters_sc_lr = {
    'final_estimator__penalty': ['l2'],
    'final_estimator__solver': ['lbfgs'],
    'final_estimator__class_weight': ['balanced'],
    'final_estimator__C': [0.01, 0.1, 1, 10, 20],
    'final_estimator__max_iter': [50000],
    'final_estimator__random_state': [57],
    'stack_method': ['predict_proba']
}

grid_sc_sklearn_logreg_clf = GridSearchCV(sc_clf, parameters_sc_lr, cv=5, scoring='roc_auc', n_jobs=-1, verbose=3)
grid_sc_sklearn_logreg_clf.fit(X_train, y_train)
print("-"*70)
print('Sklearn - best estimator LogisticRegression: ', grid_sc_sklearn_logreg_clf.best_estimator_)
print("Предсказание класса через лучшие параметры параметры", 
      roc_auc_score(y_valid, grid_sc_sklearn_logreg_clf.best_estimator_.predict_proba(X_valid)[:, 1]))
##############################################################################################


##############################################################################################
estimators = [
              ('grid_rfc', grid_rfc.best_estimator_),
              ('grid_gbc', grid_gbc.best_estimator_),
              ('clf_gnb', clf_gnb),
              ('grid_lr', grid_lr.best_estimator_),
              ('mlpc_grid', mlpc_grid.best_estimator_)
]

sc_clf = StackingClassifier(estimators=estimators, final_estimator=MLPClassifier(), cv=5)

# parameters_mlpc = {
#     'activation': ['identity', 'logistic', 'tanh', 'relu'],
#     'solver': ['lbfgs', 'sgd', 'adam'],
#     'max_iter': [50, 100, 150],
#     'alpha': [0.0001, 0.0005],
#     'learning_rate': ['constant', 'invscaling', 'adaptive'],
#     'hidden_layer_sizes': [100, 150, 200],
#     'random_state': [57]
# }

parameters_sc_lr = {
    'final_estimator__activation': ['relu'],
    'final_estimator__solver': ['adam'],
    'max_iter': [1, 10, 50, 100, 150, 200, 300],
    'final_estimator__learning_rate': ['constant'],
    'final_estimator__random_state': [57],
    'stack_method': ['predict_proba']
}

grid_sc_sklearn_mlpc_clf = GridSearchCV(sc_clf, parameters_sc_lr, cv=5, scoring='roc_auc', n_jobs=-1, verbose=3)
grid_sc_sklearn_mlpc_clf.fit(X_train, y_train)
print("-"*70)
print('Sklearn - best estimator MLPClassifier: ', grid_sc_sklearn_mlpc_clf.best_estimator_)
print("Предсказание класса через лучшие параметры параметры", 
      roc_auc_score(y_valid, grid_sc_sklearn_mlpc_clf.best_estimator_.predict_proba(X_valid)[:, 1]))
##############################################################################################

Fitting 5 folds for each of 18 candidates, totalling 90 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 12 concurrent workers.
[Parallel(n_jobs=-1)]: Done   8 tasks      | elapsed:    1.5s
[Parallel(n_jobs=-1)]: Done  90 out of  90 | elapsed:   16.2s finished


Fitting 5 folds for each of 36 candidates, totalling 180 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 12 concurrent workers.
[Parallel(n_jobs=-1)]: Done  26 tasks      | elapsed:    4.7s
[Parallel(n_jobs=-1)]: Done 180 out of 180 | elapsed:   34.0s finished


Fitting 5 folds for each of 1 candidates, totalling 5 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 12 concurrent workers.
[Parallel(n_jobs=-1)]: Done   2 out of   5 | elapsed:    0.1s remaining:    0.2s
[Parallel(n_jobs=-1)]: Done   5 out of   5 | elapsed:    0.7s finished
[Parallel(n_jobs=-1)]: Using backend LokyBackend with 12 concurrent workers.


Fitting 5 folds for each of 3 candidates, totalling 15 fits


[Parallel(n_jobs=-1)]: Done   4 out of  15 | elapsed:    1.5s remaining:    4.2s
[Parallel(n_jobs=-1)]: Done  10 out of  15 | elapsed:    2.3s remaining:    1.1s
[Parallel(n_jobs=-1)]: Done  15 out of  15 | elapsed:    3.9s finished


Fitting 5 folds for each of 5 candidates, totalling 25 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 12 concurrent workers.
[Parallel(n_jobs=-1)]: Done  11 out of  25 | elapsed:   44.7s remaining:   56.9s
[Parallel(n_jobs=-1)]: Done  20 out of  25 | elapsed:  1.4min remaining:   20.8s
[Parallel(n_jobs=-1)]: Done  25 out of  25 | elapsed:  1.7min finished


----------------------------------------------------------------------
Sklearn - best estimator LogisticRegression:  StackingClassifier(cv=5,
                   estimators=[('grid_rfc',
                                Pipeline(memory=None,
                                         steps=[('select',
                                                 SelectFromModel(estimator=RandomForestClassifier(bootstrap=True,
                                                                                                  ccp_alpha=0.0,
                                                                                                  class_weight=None,
                                                                                                  criterion='entropy',
                                                                                                  max_depth=None,
                                                                                                  max_features='auto',
     

[Parallel(n_jobs=-1)]: Using backend LokyBackend with 12 concurrent workers.
[Parallel(n_jobs=-1)]: Done   8 tasks      | elapsed:   46.2s
[Parallel(n_jobs=-1)]: Done 104 tasks      | elapsed:  6.8min
[Parallel(n_jobs=-1)]: Done 180 out of 180 | elapsed: 11.5min finished


----------------------------------------------------------------------
Sklearn - best estimator MLPClassifier:  StackingClassifier(cv=5,
                   estimators=[('grid_rfc',
                                Pipeline(memory=None,
                                         steps=[('select',
                                                 SelectFromModel(estimator=RandomForestClassifier(bootstrap=True,
                                                                                                  ccp_alpha=0.0,
                                                                                                  class_weight=None,
                                                                                                  criterion='entropy',
                                                                                                  max_depth=None,
                                                                                                  max_features='auto',
          

In [25]:
##############################################################################################
estimators = [
              ('grid_rfc', grid_rfc.best_estimator_),
              ('grid_gbc', grid_gbc.best_estimator_),
              ('clf_gnb', clf_gnb),
              ('grid_lr', grid_lr.best_estimator_),
              ('mlpc_grid', mlpc_grid.best_estimator_)
]

sc_clf = StackingClassifier(estimators=estimators, final_estimator=MLPClassifier(), cv=5)

# parameters_mlpc = {
#     'activation': ['identity', 'logistic', 'tanh', 'relu'],
#     'solver': ['lbfgs', 'sgd', 'adam'],
#     'max_iter': [50, 100, 150],
#     'alpha': [0.0001, 0.0005],
#     'learning_rate': ['constant', 'invscaling', 'adaptive'],
#     'hidden_layer_sizes': [100, 150, 200],
#     'random_state': [57]
# }

parameters_sc_lr = {
    'final_estimator__activation': ['relu'],
    'final_estimator__solver': ['adam'],
    'final_estimator__max_iter': [150, 200, 300, 500],
    'final_estimator__hidden_layer_sizes': [100, 150, 200, 300, 500],
    'final_estimator__learning_rate': ['constant'],
    'final_estimator__random_state': [57],
    'stack_method': ['predict_proba']
}

grid_sc_sklearn_mlpc_clf = GridSearchCV(sc_clf, parameters_sc_lr, cv=5, scoring='roc_auc', n_jobs=-1, verbose=3)
grid_sc_sklearn_mlpc_clf.fit(X_train, y_train)
print("-"*70)
print('Sklearn - best estimator MLPClassifier: ', grid_sc_sklearn_mlpc_clf.best_estimator_)
print("Предсказание класса через лучшие параметры параметры", 
      roc_auc_score(y_valid, grid_sc_sklearn_mlpc_clf.best_estimator_.predict_proba(X_valid)[:, 1]))
##############################################################################################

Fitting 5 folds for each of 20 candidates, totalling 100 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 12 concurrent workers.
[Parallel(n_jobs=-1)]: Done   8 tasks      | elapsed:   45.9s
[Parallel(n_jobs=-1)]: Done 100 out of 100 | elapsed:  6.8min finished


----------------------------------------------------------------------
Sklearn - best estimator MLPClassifier:  StackingClassifier(cv=5,
                   estimators=[('grid_rfc',
                                Pipeline(memory=None,
                                         steps=[('select',
                                                 SelectFromModel(estimator=RandomForestClassifier(bootstrap=True,
                                                                                                  ccp_alpha=0.0,
                                                                                                  class_weight=None,
                                                                                                  criterion='entropy',
                                                                                                  max_depth=None,
                                                                                                  max_features='auto',
          

In [24]:
grid_sc_sklearn_clf.best_estimator_.final_estimator_

MLPClassifier(activation='relu', alpha=0.0001, batch_size='auto', beta_1=0.9,
              beta_2=0.999, early_stopping=False, epsilon=1e-08,
              hidden_layer_sizes=100, learning_rate='constant',
              learning_rate_init=0.001, max_fun=15000, max_iter=200,
              momentum=0.9, n_iter_no_change=10, nesterovs_momentum=True,
              power_t=0.5, random_state=57, shuffle=True, solver='adam',
              tol=0.0001, validation_fraction=0.1, verbose=False,
              warm_start=False)

In [None]:
parameters_sc_lr = {
    'final_estimator__penalty': ['l2'],
    'final_estimator__solver': ['lbfgs'],
    'final_estimator__class_weight': ['balanced'],
    'final_estimator__C': [10, 20, 30, 50],
    'final_estimator__max_iter': [50000],
    'final_estimator__random_state': [57],
    'stack_method': ['predict_proba']
}

grid_sc_sklearn_clf = GridSearchCV(sc_clf, parameters_sc_lr, cv=5, scoring='roc_auc', n_jobs=-1, verbose=3)
grid_sc_sklearn_clf.fit(X_train, y_train)

print('Sklearn - best estimator: ', grid_sc_sklearn_clf.best_estimator_)
print("Предсказание класса через лучшие параметры параметры", 
      roc_auc_score(y_valid, grid_sc_sklearn_clf.best_estimator_.predict_proba(X_valid)[:, 1]))

In [None]:
parameters_sc_lr = {
    'final_estimator__penalty': ['l1'],
    'final_estimator__solver': ['liblinear'],
    'final_estimator__class_weight': ['balanced'],
    'final_estimator__C': [0.01, 0.1, 1, 10, 20],
    'final_estimator__max_iter': [50000],
    'final_estimator__random_state': [57],
    'stack_method': ['predict_proba']
}

grid_sc_sklearn_clf = GridSearchCV(sc_clf, parameters_sc_lr, cv=5, scoring='roc_auc', n_jobs=-1, verbose=3)
grid_sc_sklearn_clf.fit(X_train, y_train)

print('Sklearn - best estimator: ', grid_sc_sklearn_clf.best_estimator_)
print("Предсказание класса через лучшие параметры параметры", 
      roc_auc_score(y_valid, grid_sc_sklearn_clf.best_estimator_.predict_proba(X_valid)[:, 1]))

In [None]:
from xgboost import XGBClassifier
from catboost import CatBoostClassifier
import lightgbm as lgb
from sklearn.ensemble import StackingClassifier
from sklearn.model_selection import GridSearchCV, cross_val_score
from sklearn.metrics import roc_auc_score


#############################################################################################
params_xgb = {
        'min_child_weight': [5],
        'gamma': [5],
        'subsample': [0.1],
        'colsample_bytree': [0.5, 0.55, 0.6, ],
        'max_depth': [2]
        }

clf_xgb = XGBClassifier()
xgb_grid = GridSearchCV(clf_xgb, params_xgb, cv=5, verbose=4, scoring='roc_auc', refit=True, n_jobs=-1)
xgb_grid.fit(X_train, y_train)
#############################################################################################


#############################################################################################
parametrs_lgb = {
    'num_leaves': [6],
   'max_depth': [4],
   'class_weight': ['balanced'], 
   'random_state': [100],
   'learning_rate': [0.05],
   'n_estimators': [110]
}

clf_lgb = lgb.LGBMClassifier()
lgb_grid = GridSearchCV(clf_lgb, parametrs_lgb, cv=5, verbose=4, scoring='roc_auc', refit=True, n_jobs=-1)
lgb_grid.fit(X_train, y_train)
#############################################################################################


#############################################################################################
parameters_lr= {
    'penalty': ['elasticnet', 'l1', 'l2', 'none'],
    'C': [0.01, 0.1, 1, 10, 20, 50],
    'class_weight': [None],
    'max_iter': [1000],
    'solver': ['saga']
}
clf_lr = LogisticRegression()
lr_grid = GridSearchCV(clf_lr, parameters_lr, cv=5, scoring='roc_auc', n_jobs=-1, verbose=3)
lr_grid.fit(X_train, y_train)
#############################################################################################


#############################################################################################
cbc_clf = CatBoostClassifier(iterations=400,
                       depth=4,
                       learning_rate=0.05,
                       loss_function='Logloss',
                       verbose=False,
                       random_seed = 4,
                       l2_leaf_reg = 40,
                       eval_metric='AUC'
                       )

parametrs_cbc = {
    'iterations': [160],
    "learning_rate": [0.05],
    'min_data_in_leaf': [6],
    'depth': [5],
    'l2_leaf_reg': [0]    
}

cbc_grid = GridSearchCV(cbc_clf, parametrs_cbc, cv=5, verbose=4, scoring='roc_auc', refit=True, n_jobs=-1)
cbc_grid.fit(X_train, y_train)
#############################################################################################

estimators = [
     ('xgb', xgb_grid.best_estimator_),
     ('lgb', lgb_grid.best_estimator_),
     ('cbc', cbc_grid.best_estimator_),
    ('lr', lr_grid.best_estimator_)
]

sc_clf = StackingClassifier(estimators=estimators, final_estimator=LogisticRegression(), cv=5)
parameters_sc_lr = {
    'final_estimator__C': [10, 1, 0.1],
    'final_estimator__penalty': ['elasticnet'],
    'final_estimator__solver': ['saga'],
    'final_estimator__l1_ratio': [0.5, 0.9],
    'stack_method': ['predict_proba']
}
gs_sc_estim_clf = GridSearchCV(sc_clf, parameters_sc_lr, cv=5, scoring='roc_auc', n_jobs=-1, verbose=3)
gs_sc_estim_clf.fit(X_train, y_train)
print('StackingClassifier - best estimator: ', gs_sc_estim_clf.best_estimator_)
print("Предсказание вероятности ", roc_auc_score(y_valid, gs_sc_estim_clf.best_estimator_.predict_proba(X_valid)[:, 1]))

In [None]:
from sklearn.ensemble import VotingClassifier
vk_clf = VotingClassifier(
    estimators= [
        ('grid_sc_sklearn_clf', grid_sc_sklearn_clf.best_estimator_),
        ('grid_sc_estim_clf', gs_sc_estim_clf.best_estimator_),
        ('xgb', xgb_grid.best_estimator_),
        ('lgb', lgb_grid.best_estimator_),
        ('cbc', cbc_grid.best_estimator_)

    ],
    voting='soft')

parameters_vk = {
    'n_jobs': [-1]
}
gs_vk_clf = GridSearchCV(estimator=vk_clf, param_grid=parameters_vk, cv=5, scoring='roc_auc', n_jobs=-1, verbose=3)
gs_vk_clf.fit(X_train, y_train)


# submission = pd.DataFrame(gs_vk_clf.best_estimator_.predict_proba(X_predict)[:, 1], columns=["Churn"])
# submission.to_csv(PATH.format('my_submission_voiting.csv'), columns=["Churn"])
print('VotingClassifier - best estimator: ', gs_vk_clf.best_estimator_)
print('VotingClassifier - best params: ', gs_vk_clf.best_params_)
print("Предсказание вероятности ", roc_auc_score(y_valid, gs_vk_clf.best_estimator_.predict_proba(X_valid)[:, 1]))

### Ищем лучшее количество фичей с помощью SelectKBest для точного предсказания LogisticRegression и GradientBoostingClassifier

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import GridSearchCV, cross_val_score
from sklearn.metrics import roc_auc_score


def transformer_selecter(num_cols, data_train, value_train, data_valid):
    X_train_tr_sl = data_train.copy()
    y_train_tr_sl = value_train.copy()
    X_valid_tr_sl = data_valid.copy()
    selecter = SelectKBest(f_classif, k=num_cols).fit(X_train_tr_sl, y_train_tr_sl)
    return selecter.transform(X_train_tr_sl), selecter.transform(X_valid_tr_sl)
    
    
def learn_logreg(data_train, value_train, data_valid, value_valid):
    """
    SelectFromModel - 0.8535 - 62
    """

    X_train_lr = data_train.copy()
    y_train_lr = value_train.copy()
    X_valid_lr = data_valid.copy()
    y_valid_lr = value_valid.copy()
    
    selector = SelectFromModel(estimator=LogisticRegression(solver='saga', random_state=57)).fit(X_train_lr, y_train_lr)
    X_train_lr = selector.transform(X_train_lr)
    X_valid_lr = selector.transform(X_valid_lr)

    parameters_lr= {
        'penalty': ['l1', 'l2', 'elasticnet'],
        'C': [0.01, 0.05, 0.1, 0.5, 1, 5, 10, 15, 20],
        'class_weight': ['balanced', None],
        'max_iter': [10000],
        'random_state': [57],
        'solver': ['saga']
    }
    clf_lr = LogisticRegression()
    lr_grid = GridSearchCV(clf_lr, parameters_lr, cv=5, scoring='roc_auc', n_jobs=-1, verbose=1)
    lr_grid.fit(X_train_lr, y_train_lr)
    return roc_auc_score(y_valid_lr, lr_grid.best_estimator_.predict_proba(X_valid_lr)[:, 1])


def learn_rfc(data_train, value_train, data_valid, value_valid):
    """
    SelectFromModel - 0.8520 - 40
    """
  
    X_train_rfc = data_train.copy()
    y_train_rfc = value_train.copy()
    X_valid_rfc = data_valid.copy()
    y_valid_rfc = value_valid.copy()

    selector = SelectFromModel(
        estimator=GradientBoostingClassifier(loss='exponential', criterion='friedman_mse', random_state=57)
    ).fit(X_train_rfc, y_train_rfc)
    X_train_rfc = selector.transform(X_train_rfc)
    X_valid_rfc = selector.transform(X_valid_rfc)

    parameters_gbc = {
            'learning_rate': [0.05],
            'n_estimators': [150, 200, 250, 300],
            'max_depth': [1, 2, 5],
            'random_state': [57]
            }

    clf_gbc = GradientBoostingClassifier()
    gbc_grid = GridSearchCV(clf_gbc, parameters_gbc, cv=5, verbose=1, scoring='roc_auc', refit=True, n_jobs=-1)
    gbc_grid.fit(X_train_rfc, y_train_rfc)
    return roc_auc_score(y_valid_rfc, gbc_grid.best_estimator_.predict_proba(X_valid_rfc)[:, 1])

logreg = []
rfc = []
num_best = [i for i in range(30, 68, 2)]
for i in range(30, 68, 2):
    X_train_trans, X_valid_trans = transformer_selecter(num_cols=i, data_train=X_train, 
                                                        value_train=y_train, data_valid=X_valid)
    logreg.append(
        learn_logreg(data_train=X_train_trans, data_valid=X_valid_trans, value_train=y_train, value_valid=y_valid)
    )
    rfc.append(
        learn_rfc(data_train=X_train_trans, data_valid=X_valid_trans, value_train=y_train, value_valid=y_valid)
    )


In [None]:
import matplotlib.pyplot as plt


print(f"Лучшее значение метрики для GradientBoostingClassifier {'%.4f' % max(rfc)}")
print(f"Достигнуто при количестве фичей {num_best[rfc.index(max(rfc))]}")

# plot figure
plt.figure(figsize=(10, 8))
plt.grid()
plt.plot(num_best, rfc, 'ro')
plt.plot(num_best, rfc, 'g--')
plt.title("График зависимости метрики от используемых фич для GradientBoostingClassifier")
plt.xlabel('Features numbers')
plt.ylabel('roc_auc_score')

print(f"Лучшее значение метрики для LogisticRegression {'%.4f' % max(logreg)}")
print(f"Достигнуто при количестве фичей {num_best[logreg.index(max(logreg))]}")

# plot figure
plt.figure(figsize=(10, 8))
plt.grid()
plt.plot(num_best, logreg, 'ro')
plt.plot(num_best, logreg, 'g--')
plt.title("График зависимости метрики от используемых фич для LogisticRegression")
plt.xlabel('Features numbers')
plt.ylabel('roc_auc_score')
plt.show()

X_train.hist(figsize=(16, 30))

#### Буду дальше использовать 48 признаков!

### Поиск лучших параметров для GradientBoostingClassifier

In [None]:
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import GridSearchCV, cross_val_score
from sklearn.metrics import roc_auc_score


##############################################################################################
# GradientBoostingClassifier

X_train_gbc = X_train.copy()
y_train_gbc = y_train.copy()
X_valid_gbc = X_valid.copy()
y_valid_gbc = y_valid.copy()

selector = SelectFromModel(estimator=GradientBoostingClassifier(loss='exponential', criterion='friedman_mse')).fit(X_train_gbc, y_train_gbc)
X_train_gbc = selector.transform(X_train_gbc)
X_valid_gbc = selector.transform(X_valid_gbc)

# Started parameters
# parameters_gbc = {
#         'learning_rate': [0.05, 0.1, 0.5, 0.9],
#         'n_estimators': [50, 100, 150, 200, 250, 300],
#         'subsample': [0.1, 0.5, 1, 5],
#         'min_samples_leaf': [1, 2, 3],
#         'max_depth': [1, 2, 3, 4, 5],
#         'max_features': ['sqrt', 'log2', None],
#         'random_state': [57]
#         }

parameters_gbc = {
        'learning_rate': [0.05],
        'n_estimators': [200, 300, 400],
        'subsample': [1, 2, 3],
        'min_samples_leaf': [2, 3],
        'max_depth': [1, 2],
        'max_features': [None],
        'random_state': [57]
        }

clf_gbc = GradientBoostingClassifier()
gbc_grid = GridSearchCV(clf_gbc, parameters_gbc, cv=5, verbose=4, scoring='roc_auc', refit=True, n_jobs=-1)
gbc_grid.fit(X_train_gbc, y_train_gbc)

print('GradientBoostingClassifier - best estimator: ', gbc_grid.best_estimator_)
print("Предсказание класса через лучшие параметры параметры", 
      roc_auc_score(y_valid_gbc, gbc_grid.best_estimator_.predict_proba(X_valid_gbc)[:, 1]))
##############################################################################################

### Поиск лучших параметров для MLPClassifier

In [None]:
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import GridSearchCV, cross_val_score
from sklearn.metrics import roc_auc_score


##############################################################################################
# MLPClassifier

X_train_mlpc = X_train.copy()
y_train_mlpc = y_train.copy()
X_valid_mlpc = X_valid.copy()
y_valid_mlpc = y_valid.copy()

# Started parameters
# parameters_mlpc = {
#     'activation': ['tanh', 'logistic', 'identity', 'relu'],
#     'solver': ['lbfgs', 'sgd', 'adam'],
#     'max_iter': [100, 200, 500, 1000],
#     'alpha': [0.0001, 0.0005, 0.001, 0.005, 0.01, 0.05, 0.1, 0.5, 1, 5, 10],
#     'learning_rate': ['constant', 'invscaling', 'adaptive'],
#     'hidden_layer_sizes': [1, 5, 10, 50, 100],
#     'random_state': [57]
# }

parameters_mlpc = {
    'activation': ['logistic'],
    'solver': ['adam'],
    'max_iter': [50, 100, 150],
    'alpha': [0.0001, 0.0005],
    'learning_rate': ['constant'],
    'hidden_layer_sizes': [100, 150, 200],
    'random_state': [57]
}
clf_mlpc = MLPClassifier()
mlpc_grid = GridSearchCV(clf_mlpc, parameters_mlpc, cv=5, scoring='roc_auc', n_jobs=-1, verbose=3)
mlpc_grid.fit(X_train_mlpc, y_train_mlpc)

print('MLPClassifier - best estimator: ', mlpc_grid.best_estimator_)
print("Предсказание класса через лучшие параметры параметры", 
      roc_auc_score(y_valid_mlpc, mlpc_grid.best_estimator_.predict_proba(X_valid_mlpc)[:, 1]))
##############################################################################################

### Поиск лучших параметров для LogisticRegression

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV, cross_val_score
from sklearn.metrics import roc_auc_score


###########################################################################################################
# LogisticRegression

X_train_lr = X_train.copy()
y_train_lr = y_train.copy()
X_valid_lr = X_valid.copy()
y_valid_lr = y_valid.copy()
    
selector = SelectFromModel(estimator=LogisticRegression(solver='saga', random_state=57)).fit(X_train_lr, y_train_lr)
X_train_lr = selector.transform(X_train_lr)
X_valid_lr = selector.transform(X_valid_lr)

parameters_lr= {
    'penalty': ['l1', 'l2', 'elasticnet'],
    'C': [0.01, 0.05, 0.1, 0.5, 1, 5, 10, 15, 20],
    'class_weight': ['balanced', None],
    'max_iter': [10000],
    'random_state': [57],
    'solver': ['saga']
}
clf_lr = LogisticRegression()
lr_grid = GridSearchCV(clf_lr, parameters_lr, cv=5, scoring='roc_auc', n_jobs=-1, verbose=1)
lr_grid.fit(X_train_lr, y_train_lr)
print("-"*100)
print('LogisticRegression - best estimator: ', lr_grid.best_estimator_)
print("Предсказание класса через лучшие параметры параметры", 
      roc_auc_score(y_valid_lr, lr_grid.best_estimator_.predict_proba(X_valid_lr)[:, 1]))
print("-"*100)
###########################################################################################################

selector = SelectFromModel(estimator=LogisticRegression(random_state=57, solver='liblinear')).fit(X_train_lr, y_train_lr)
X_train_lr = selector.transform(X_train_lr)
X_valid_lr = selector.transform(X_valid_lr)

parameters_lr= {
        'penalty': ['l1', 'l2'],
        'C': [0.01, 0.05, 0.1, 0.5, 1, 5, 10, 15, 20],
        'class_weight': ['balanced', None],
        'max_iter': [10000],
        'random_state': [57],
        'solver': ['liblinear']
}
clf_lr = LogisticRegression()
lr_grid = GridSearchCV(clf_lr, parameters_lr, cv=5, scoring='roc_auc', n_jobs=-1, verbose=1)
lr_grid.fit(X_train_lr, y_train_lr)

print("-"*100)
print('LogisticRegression - best estimator: ', lr_grid.best_estimator_)
print("Предсказание класса через лучшие параметры параметры", 
      roc_auc_score(y_valid_lr, lr_grid.best_estimator_.predict_proba(X_valid_lr)[:, 1]))
print("-"*100)

### Поиск лучших параметров для GaussianNB

In [None]:
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import GridSearchCV, cross_val_score
from sklearn.metrics import roc_auc_score


##############################################################################################
# GaussianNB

X_train_gnb = X_train.copy()
y_train_gnb = y_train.copy()
X_valid_gnb = X_valid.copy()
y_valid_gnb = y_valid.copy()

# selector = SelectFromModel(estimator=GaussianNB()).fit(X_train_gnb, y_train_gnb)
# X_train_gnb = selector.transform(X_train_gnb)
# X_valid_gnb = selector.transform(X_valid_gnb)

clf_gnb = GaussianNB()
clf_gnb.fit(X_train_gnb, y_train_gnb)

print("Предсказание класса через лучшие параметры параметры", 
      roc_auc_score(y_valid_gnb, clf_gnb.predict_proba(X_valid_gnb)[:, 1]))
##############################################################################################

### Поиск лучших параметров для RandomForestClassifier

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV, cross_val_score
from sklearn.metrics import roc_auc_score


##############################################################################################
# RandomForestClassifier

X_train_rfc = X_train.copy()
y_train_rfc = y_train.copy()
X_valid_rfc = X_valid.copy()
y_valid_rfc = y_valid.copy()

selector = SelectFromModel(estimator=RandomForestClassifier()).fit(X_train_rfc, y_train_rfc)
X_train_rfc = selector.transform(X_train_rfc)
X_valid_rfc = selector.transform(X_valid_rfc)

# Start parameters
# parameters_rfc = {
#     'n_estimators': [10, 50, 100, 150, 200],
#     'criterion': ['gini','entropy'],
#     'min_samples_leaf': [1, 5, 10, 15, 20],
#     'max_features': ['sqrt', 'log2'],
#     'bootstrap':[False],
#     'max_samples': [5, 10, 15, 20]
# }

parameters_rfc = {
    'n_estimators': [200, 500, 1000],
    'criterion': ['entropy'],
    'min_samples_leaf': [1],
    'max_features': ['sqrt'],
    'max_samples': [80]
}

clf_rfc = RandomForestClassifier()
rfc_grid = GridSearchCV(clf_rfc, parameters_rfc, cv=5, scoring='roc_auc', n_jobs=-1, verbose=3)
rfc_grid.fit(X_train_rfc, y_train_rfc)

print('RandomForestClassifier - best estimator: ', rfc_grid.best_estimator_)
print("Предсказание класса через лучшие параметры параметры", 
      roc_auc_score(y_valid_rfc, rfc_grid.best_estimator_.predict_proba(X_valid_rfc)[:, 1]))
##############################################################################################

### Поиск лучших параметров для LogisticRegression

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV, cross_val_score
from sklearn.metrics import roc_auc_score


##############################################################################################
# LogisticRegression

X_train_lr = data_train.copy()
y_train_lr = value_train.copy()
X_valid_lr = data_valid.copy()
y_valid_lr = value_valid.copy()
    
selector = SelectFromModel(estimator=LogisticRegression(solver='saga', random_state=57)).fit(X_train_lr, y_train_lr)
X_train_lr = selector.transform(X_train_lr)
X_valid_lr = selector.transform(X_valid_lr)

parameters_lr= {
    'penalty': ['l1', 'l2', 'elasticnet'],
    'C': [0.01, 0.05, 0.1, 0.5, 1, 5, 10, 15, 20],
    'class_weight': ['balanced', None],
    'max_iter': [10000],
    'solver': ['saga']
}
clf_lr = LogisticRegression()
lr_grid = GridSearchCV(clf_lr, parameters_lr, cv=5, scoring='roc_auc', n_jobs=-1, verbose=1)
lr_grid.fit(X_train_lr, y_train_lr)

print('LogisticRegression - best estimator: ', lr_grid.best_estimator_)
print("Предсказание класса через лучшие параметры параметры", 
      roc_auc_score(y_valid_lr, lr_grid.best_estimator_.predict_proba(X_valid_lr)[:, 1]))
##############################################################################################

### Поиск лучших параметров для XGBClassifier

In [16]:
from xgboost import XGBClassifier
from sklearn.model_selection import GridSearchCV, cross_val_score
from sklearn.metrics import roc_auc_score


#############################################################################################
# XGBClassifier

X_train_xgbc = X_train.copy()
y_train_xgbc = y_train.copy()
X_valid_xgbc = X_valid.copy()
y_valid_xgbc = y_valid.copy()
    
selector = SelectFromModel(estimator=XGBClassifier(eval_metric='auc')).fit(X_train_xgbc, y_train_xgbc)
X_train_xgbc = selector.transform(X_train_xgbc)
X_valid_xgbc = selector.transform(X_valid_xgbc)

# params_xgbc = {
#         'min_child_weight': [1, 2, 3, 4, 5, 10],
#         'gamma': [0.01, 0.05, 0.1, 0.5, 1, 5, 10],
#         'subsample': [0.05, 0.1, 0.5, 0.9],
#         'colsample_bytree': [0.1, 0.4, 0.5, 0.6, 0.9],
#         'max_depth': [1, 2, 3, 4, 5, 10],
#         'n_estimators': [10, 50, 100, 200, 500],
#         'eval_metric': ['auc'],
#         'seed': [57]
#         }

params_xgbc = {
        'min_child_weight': [4],
        'gamma': [5],
        'subsample': [0.5],
        'colsample_bytree': [0.5],
        'max_depth': [1],
        'n_estimators': [500],
        'eval_metric': ['auc'],
        'random_state': [57],
        'seed': [57]
        }

clf_xgbc = XGBClassifier()
xgbc_grid = GridSearchCV(clf_xgbc, params_xgbc, cv=5, verbose=4, scoring='roc_auc', refit=True, n_jobs=-1)
xgbc_grid.fit(X_train_xgbc, y_train_xgbc)

print('XGBClassifier - best estimator: ', xgbc_grid.best_estimator_)
print("Предсказание класса через лучшие параметры параметры", 
      roc_auc_score(y_valid_xgbc, xgbc_grid.best_estimator_.predict_proba(X_valid_xgbc)[:, 1]))
#############################################################################################

Fitting 5 folds for each of 3 candidates, totalling 15 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 12 concurrent workers.
[Parallel(n_jobs=-1)]: Done   4 out of  15 | elapsed:    0.5s remaining:    1.5s
[Parallel(n_jobs=-1)]: Done   8 out of  15 | elapsed:    0.5s remaining:    0.4s
[Parallel(n_jobs=-1)]: Done  12 out of  15 | elapsed:    0.6s remaining:    0.1s
[Parallel(n_jobs=-1)]: Done  15 out of  15 | elapsed:    0.9s finished


XGBClassifier - best estimator:  XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,
              colsample_bynode=1, colsample_bytree=0.5, eval_metric='auc',
              gamma=5, learning_rate=0.1, max_delta_step=0, max_depth=1,
              min_child_weight=4, missing=None, n_estimators=500, n_jobs=1,
              nthread=None, objective='binary:logistic', random_state=57,
              reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=57,
              silent=None, subsample=0.5, verbosity=1)
Предсказание класса через лучшие параметры параметры 0.8543205591039524


### Поиск лучших параметров для LGBMClassifier

In [26]:
import lightgbm as lgb


#############################################################################################
# LGBMClassifier

X_train_lgbmc = X_train.copy()
y_train_lgbmc = y_train.copy()
X_valid_lgbmc = X_valid.copy()
y_valid_lgbmc = y_valid.copy()
    
selector = SelectFromModel(estimator=lgb.LGBMClassifier()).fit(X_train_lgbmc, y_train_lgbmc)
X_train_lgbmc = selector.transform(X_train_lgbmc)
X_valid_lgbmc = selector.transform(X_valid_lgbmc)

# parametrs_lgbmc = {
#     'num_leaves': [1, 5, 6, 7, 10],
#    'max_depth': [1, 2, 3, 4, 5, 10],
#    'class_weight': ['balanced', None], 
#    'random_state': [57],
#    'learning_rate': [0.01, 0.05, 0.1, 0.5, 0.9],
#    'n_estimators': [10, 50, 100, 200, 500],
#    'eval_metric': ['auc']
# }

parametrs_lgbmc = {
    'boosting_type': ['dart'],
    'num_leaves': [1, 5, 6, 7, 10],
   'max_depth': [1, 2, 3, 4, 5, 10],
   'class_weight': ['balanced', None], 
   'random_state': [57],
   'learning_rate': [0.01, 0.05, 0.1, 0.5, 0.9],
   'n_estimators': [10, 50, 100, 200, 500],
   'eval_metric': ['auc']
}

clf_lgbmc = lgb.LGBMClassifier()
lgbmc_grid = GridSearchCV(clf_lgbmc, parametrs_lgbmc, cv=5, verbose=4, scoring='roc_auc', refit=True, n_jobs=-1)
lgbmc_grid.fit(X_train_lgbmc, y_train_lgbmc)

print('LGBMClassifier - best estimator: ', lgbmc_grid.best_estimator_)
print("Предсказание класса через лучшие параметры параметры", 
      roc_auc_score(y_valid_lgbmc, lgbmc_grid.best_estimator_.predict_proba(X_valid_lgbmc)[:, 1]))
#############################################################################################

Fitting 5 folds for each of 1500 candidates, totalling 7500 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 12 concurrent workers.
[Parallel(n_jobs=-1)]: Done   1 tasks      | elapsed:    0.9s
[Parallel(n_jobs=-1)]: Done  76 tasks      | elapsed:    1.3s
[Parallel(n_jobs=-1)]: Done 410 tasks      | elapsed:    9.7s
[Parallel(n_jobs=-1)]: Done 652 tasks      | elapsed:   21.3s
[Parallel(n_jobs=-1)]: Done 913 tasks      | elapsed:   30.8s
[Parallel(n_jobs=-1)]: Done 1386 tasks      | elapsed:   48.8s
[Parallel(n_jobs=-1)]: Done 1966 tasks      | elapsed:  1.1min
[Parallel(n_jobs=-1)]: Done 2663 tasks      | elapsed:  1.5min
[Parallel(n_jobs=-1)]: Done 3346 tasks      | elapsed:  1.8min
[Parallel(n_jobs=-1)]: Done 4016 tasks      | elapsed:  2.1min
[Parallel(n_jobs=-1)]: Done 4883 tasks      | elapsed:  2.7min
[Parallel(n_jobs=-1)]: Done 5812 tasks      | elapsed:  3.2min
[Parallel(n_jobs=-1)]: Done 6802 tasks      | elapsed:  3.8min
[Parallel(n_jobs=-1)]: Done 7477 out of 7500 | elapsed:  4.1min remaining:    0.7s


LGBMClassifier - best estimator:  LGBMClassifier(boosting_type='dart', class_weight=None, colsample_bytree=1.0,
               eval_metric='auc', importance_type='split', learning_rate=0.1,
               max_depth=3, min_child_samples=20, min_child_weight=0.001,
               min_split_gain=0.0, n_estimators=100, n_jobs=-1, num_leaves=5,
               objective=None, random_state=57, reg_alpha=0.0, reg_lambda=0.0,
               silent='warn', subsample=1.0, subsample_for_bin=200000,
               subsample_freq=0)
Предсказание класса через лучшие параметры параметры 0.8404262704804222


[Parallel(n_jobs=-1)]: Done 7500 out of 7500 | elapsed:  4.1min finished


### Поиск лучших значений для CatBoostClassifier

In [None]:
from catboost import CatBoostClassifier


#############################################################################################
# CatBoostClassifier

X_train_cbc = X_train.copy()
y_train_cbc = y_train.copy()
X_valid_cbc = X_valid.copy()
y_valid_cbc = y_valid.copy()
    
selector = SelectFromModel(estimator=CatBoostClassifier()).fit(X_train_cbc, y_train_cbc)
X_train_cbc = selector.transform(X_train_cbc)
X_valid_cbc = selector.transform(X_valid_cbc)

clf_cbc = CatBoostClassifier(iterations=400,
                       depth=4,
                       learning_rate=0.05,
                       loss_function='Logloss',
                       verbose=False,
                       random_seed = 4,
                       l2_leaf_reg = 40,
                       eval_metric='AUC:type=Classic'
                       )

parametrs_cbc = {
    'iterations': [10, 50, 100, 150, 200, 500],
    "learning_rate": [0.01, 0.05, 0.1, 0.5, 0.9],
    'min_data_in_leaf': [1, 2, 3, 5, 10],
    'depth': [1, 2, 3, 4, 5, 10],
    'l2_leaf_reg': [0, 0.001, 0.005, 0.01, 0.05, 0.1]    
}

cbc_grid = GridSearchCV(cbc_clf, parametrs_cbc, cv=5, verbose=4, scoring='roc_auc', refit=True, n_jobs=-1)
cbc_grid.fit(X_train_cbc, y_train_cbc)

print('CatBoostClassifier - best estimator: ', cbc_grid.best_estimator_)
print("Предсказание класса через лучшие параметры параметры", 
      roc_auc_score(y_valid_cbc, cbc_grid.best_estimator_.predict_proba(X_valid_cbc)[:, 1]))
#############################################################################################

Выпишите какое лучшее качество и с какими параметрами вам удалось получить
0.856

# Предсказания

In [None]:
# Лучшая модель
best_model = gs_vk_clf

In [None]:
X_test = pd.read_csv('./test.csv')
submission = pd.read_csv('./submission.csv')

submission['Churn'] = # best_model.predict_proba(X_test) / best_model.predict(X_test)
submission.to_csv('./my_submission.csv')

# Kaggle (5 баллов)

Как выставить баллы:

1) 1 >= roc auc > 0.84 это 5 баллов

2) 0.84 >= roc auc > 0.7 это 3 балла

3) 0.7 >= roc auc > 0.6 это 1 балл

4) 0.6 >= roc auc это 0 баллов


Для выполнения задания необходимо выполнить следующие шаги.
* Зарегистрироваться на платформе [kaggle.com](kaggle.com). Процесс выставления оценок будет проходить при подведении итогового рейтинга. Пожалуйста, укажите во вкладке Team -> Team name свои имя и фамилию в формате Имя_Фамилия (важно, чтобы имя и фамилия совпадали с данными на Stepik).
* Обучить модель, получить файл с ответами в формате .csv и сдать его в конкурс. Пробуйте и экспериментируйте. Обратите внимание, что вы можете выполнять до 20 попыток сдачи на kaggle в день.
* После окончания соревнования отправить в итоговый ноутбук с решением на степик. 
* После дедлайна проверьте посылки других участников по критериям. Для этого надо зайти на степик, скачать их ноутбук и проверить скор в соревновании.