# EDA

за основу взял [1 занятие клуба ии в мифи](https://colab.research.google.com/drive/1V__EuSANRpZLZd5dW2H9Pgvxhllfud1x)

### Загрузим файлы, с которыми будем работать

In [None]:
import pandas as pd
train = pd.read_csv("train.csv")
commit = pd.read_csv("test.csv")

### Выделим категориальные признаки, численные и целевой признак

In [None]:
num_cols = [
    "ClientPeriod",
    "MonthlySpending",
    "TotalSpent",
]

cat_cols = [
    "Sex",
    "IsSeniorCitizen",
    "HasPartner",
    "HasChild",
    "HasPhoneService",
    "HasMultiplePhoneNumbers",
    "HasInternetService",
    "HasOnlineSecurityService",
    "HasOnlineBackup",
    "HasDeviceProtection",
    "HasTechSupportAccess",
    "HasOnlineTV",
    "HasMovieSubscription",
    "HasContractPhone",
    "IsBillingPaperless",
    "PaymentMethod",
]

churn = "Churn"

### Проанализируем данные на пустые и некорректные значения

In [None]:
train.info()

In [None]:
commit.info()

Заметим, что TotalSpent представлен как object, а IsSeniorCitizen как int. Сделаем замену типов

Заменим все " " на пустые значения

In [None]:
import numpy as np

train.replace(' ', np.nan, inplace=True)
commit.replace(' ', np.nan, inplace=True)

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns

# График распределения пропущенных значений
plt.figure(figsize=(15,7))

cmap = sns.cubehelix_palette(as_cmap=True, light=.9)

sns.heatmap(train.isna().transpose(), cmap=cmap,
            cbar_kws={'label': 'Missing Data'})

In [None]:
print(train.isna().sum())
print(commit.isna().sum())


Как мы видим, пустые значения появились в totalspent. Заменим их на нули

In [None]:
train["TotalSpent"] = train["TotalSpent"].replace(np.nan, 0).astype('float')
commit["TotalSpent"] = commit["TotalSpent"].replace(np.nan, 0).astype('float')

In [None]:
print(train.info())
print(commit.info())

Заменим для IsSeniorCitizen 0 на No, 1 на Yes

In [None]:
train.IsSeniorCitizen = train.IsSeniorCitizen.map(lambda x: "Yes" if x == 1 else "No")
commit.IsSeniorCitizen = commit.IsSeniorCitizen.map(lambda x: "Yes" if x == 1 else "No")
print(set(train.IsSeniorCitizen.to_list()))
print(set(commit.IsSeniorCitizen.to_list()))

### Анализ числовых признаков

Распределение признаков

In [None]:
train.describe()

In [None]:
commit.describe()

In [None]:
train.hist(bins=50)

In [None]:
commit.hist(bins=50)

Гистограммы схожи, значит данные провдоподобные и сформированны не предвзято

Попробуем обнаружить взаимосвзязь между численными признаками

In [None]:
sns.pairplot(train[num_cols])

### Анализ категориальных признаков

Рассмотрим распределение целевой переменной по всем категориальным признакам

In [None]:
nrows, ncols = 4, 4
fig, axes = plt.subplots(nrows=nrows, ncols=ncols,  figsize=(12, 12))
plt.subplots_adjust(wspace=0.5, hspace=0.5)

for i, column_name in enumerate(cat_cols):
    row = i // nrows
    col = i % ncols
    axis = axes[row, col]
    chart_title = "".join(column_name)
    sns.countplot(train, x=column_name, hue=churn, ax=axis)
    axis.set_title(chart_title, fontsize=8)
    axis.set_xlabel("")
    axis.set_ylabel("Кол-во клиентов", fontsize=8)
    axis.legend(("Активные", "Ушедшие"), fontsize=8)
    axis.set_xticklabels(axis.get_xticklabels(), rotation=45, fontsize=8)


Для обнаружения корреляций между признаками закодируем категориальные признаки методом labelencoding(чтобы за раз закодировать ordinalencoder)

In [None]:
from sklearn.preprocessing import OrdinalEncoder

oe = OrdinalEncoder()
train_label_encoded = train.copy()
train_label_encoded[cat_cols] = oe.fit_transform(train_label_encoded[cat_cols])

train_label_encoded

Построим хитмап для обнаружения корреляций

In [None]:
corr_matrix = train_label_encoded.corr()
fig, axes = plt.subplots(figsize=(15, 10))
sns.heatmap(data=corr_matrix, annot=True, cmap="coolwarm", ax=axes, linewidth=.5, fmt=".2f")


Как мы видим, TotalSpent зависима от ClientPeriod и MonthlySpending, в меньшей степени от HasContractPhone

Теперь, посмотрим распределение целевого признака 

In [None]:
train[churn].hist()

Как мы видим, тут есть дисбаланс классов. Мы его исправим далее

# Подготовка данных для обучения

### Подготовка классов для пайплайнов

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer

from imblearn.pipeline import Pipeline as Pipeline_imb # чтоб встроить синтетические данные в пайплайн

from imblearn.over_sampling import SMOTE

#пайп для категориальных признаков
categorical_pipe = Pipeline(steps=[('ohe', OneHotEncoder(drop="first", handle_unknown="error"))])

#пайп для численных признаков
numeric_pipe = Pipeline(steps=[('scaler', StandardScaler())])

#трансформер колонок
columns_transformer = ColumnTransformer(
    transformers=[
        ("categorical", categorical_pipe, cat_cols),
        ("numeric", numeric_pipe, num_cols),
    ])

#пайп для генерации синтетических данных
smote_pipe = SMOTE(random_state=42)

### Подготовим алгоритмы для нахождения лучших гиперпараметров

In [None]:
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
import optuna

from sklearn.metrics import roc_auc_score

### Разделим обучающую выборку на обучающую и контрольную

In [None]:
from sklearn.model_selection import train_test_split

train_x, test_x, train_y, test_y = train_test_split(train.drop(columns=churn), train[churn], test_size=0.2, shuffle=False)
train_x

# Обучение моделей
Обучать будем catboost, xgboost, logisticregression так как они показали наилучший результат в ноутбуке classif. Реализацию других моделей можно будет посмотреть там

### Логистическая регрессия

##### Обучение логистической регрессии

In [None]:
# from sklearn.linear_model import LogisticRegression
# from sklearn.model_selection import GridSearchCV
# from imblearn.pipeline import Pipeline as Pipeline_imb


# lr_pipe = Pipeline_imb([
#     ('preproc', columns_transformer),
#     ('smote', smote_pipe),
#     ('model', LogisticRegression())
# ])

# # пространство гиперпараметров
# lr_params_grid = {
#     "model__C": [i/10 for i in range(1, 20)],
#     "model__penalty": ["l2"],
#     "model__solver": ["saga"],
#     "model__max_iter": [i for i in range(100, 1000, 100)]
# }

# lr_grid_search = GridSearchCV(
#     estimator=lr_pipe,
#     param_grid=lr_params_grid,
#     scoring="roc_auc",
#     n_jobs=-1,
#     cv=5,
#     refit=True
# )

# lr_model = lr_grid_search.fit(train_x, train_y)
# print("Лучшие параметры:", lr_grid_search.best_params_)


In [None]:
from sklearn.linear_model import LogisticRegression
from imblearn.pipeline import Pipeline as Pipeline_imb


lr_pipe = Pipeline_imb([
    ('preproc', columns_transformer),
    ('smote', smote_pipe),
    ('model', LogisticRegression(C=0.1, max_iter=400, penalty='l2', solver='saga'))
])

lr_model = lr_pipe.fit(train_x, train_y)


In [None]:
roc_auc_score(test_y, lr_model.predict(test_x))


Как мы видим, при наборе параметров {'model__C': 0.1, 'model__max_iter': 400, 'model__penalty': 'l2', 'model__solver': 'saga'}

Результат 0.758

##### Матрица ошибок

In [None]:
import seaborn as sns
from sklearn.metrics import confusion_matrix

In [None]:
cm_lr = confusion_matrix(test_y ,lr_model.predict(test_x))
sns.heatmap(cm_lr, annot=True, fmt='d')
plt.title("cm logr")
plt.xlabel('prediction')
plt.ylabel('true values')

### CatBoost

##### Обучение catboost(использую random search)

In [None]:
from catboost import CatBoostClassifier

cat_features = train_x.select_dtypes(include=["object", "category"]).columns.tolist()

cb_params_rand = {"depth": [i for i in range(2, 6)], 
                        "l2_leaf_reg": [i/10 for i in range(1, 16)], 
                        "subsample": [i for i in range(1, 10)], 
                        "n_estimators": [i for i in range(1, 500, 10)], 
                        "learning_rate": [i/100 for i in range(1, 100, 10)], 
                       }

cb_model = CatBoostClassifier(
    cat_features=cat_features,
    logging_level="Silent",
    random_seed=42,
    early_stopping_rounds=50,
    )

cb_model.random_search(cb_params_rand, train_x, train_y, cv=5, plot=True, refit=Trueб iterations=30, verbose=True)

# cb_pipe = Pipeline_imb([
#     ('preproc', columns_transformer),
#     ('smote', smote_pipe),
#     ('model', cb_model)
# ])

# cb_rand_search = RandomizedSearchCV(
#     estimator=cb_pipe,
#     param_distributions=cb_params_rand,
#     n_iter=30,
#     scoring='roc_auc',
#     cv=5,
#     n_jobs=-1,
#     random_state=42,
#     refit=True
# )


# cb_model = cb_rand_search.fit(train_x, train_y)
# print("Лучшие параметры:", cb_rand_search.best_params_)

print(f"  Лучший результат: {cb_model.best_score_['learn']['AUC']}")
print(f"  Лучший набор гиперпараметров: {cb_model.get_params()}")

In [None]:
roc_auc_score(test_y, cb_model.predict(test_x)

Как мы видим, при наборе параметров

Результат

##### Матрица ошибок

In [None]:
cm_cb = confusion_matrix(test_y ,cb_model.predict(test_x))
sns.heatmap(cm_cb, annot=True, fmt='d')
plt.title("cm cb")
plt.xlabel('prediction')
plt.ylabel('true values')

### XGBoost

Обучение XGBoost(используем optuna)

Как мы видим, при наборе параметров

Результат

### Матрица ошибок

In [None]:
cm_xgb = confusion_matrix(test_y ,xgb_model.predict(test_x))
sns.heatmap(cm_xgb, annot=True, fmt='d')
plt.title("cm xgb")
plt.xlabel('prediction')
plt.ylabel('true values')