Для выполнения домашнего задания был выбран dataset [Telco Customer Churn](https://www.kaggle.com/datasets/blastchar/telco-customer-churn)

In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import GradientBoostingClassifier
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier
from catboost import CatBoostClassifier 

In [None]:
df = pd.read_csv("dataset.csv", sep=",")
df.head()

In [None]:
df.info()

Проверим, что customerId уникален

In [None]:
len(df[df.duplicated(['customerID'])])

Идентификатор клиента не влияет на отток, поэтому можем удалить его. 

In [None]:
df.drop(columns=["customerID"], inplace=True)

gender - пол клиента

In [None]:
df["gender"].value_counts()

Добавим переменную в которую будем собирать категориальные признаки

In [None]:
categorical_columns = {"gender"}

SeniorCitizen - указывает, является ли клиент старше 65 лет

In [None]:
df["SeniorCitizen"].value_counts()

Partner - указывает, состоит ли клиент в браке: Да, Нет

In [None]:
categorical_columns.add("Partner")
df["Partner"].value_counts()

Dependents - указывает, проживает ли клиент с какими-либо иждивенцами: Да, нет. Иждивенцами могут быть дети, родители, бабушки и дедушки и т.д.

In [None]:
categorical_columns.add("Dependents")
df["Dependents"].value_counts()

tenure - общее количество месяцев, в течение которых клиент работал в компании к концу указанного выше квартала.

In [None]:
df["tenure"].describe()

PhoneService - подключен ли клиент к услугам домашней телефонной связи в компании

In [None]:
categorical_columns.add("PhoneService")
df["PhoneService"].value_counts()

MultipleLines - подключен ли клиент к нескольким телефонным линиям компании

In [None]:
categorical_columns.add("MultipleLines")
df["MultipleLines"].value_counts()

InternetService - подключен ли клиент к интернет-сервису компании: Нет, DSL, оптоволокно, кабель

In [None]:
categorical_columns.add("InternetService")
df["InternetService"].value_counts()

OnlineSecurity - подписывается ли клиент на дополнительную услугу онлайн-безопасности, предоставляемую компанией

In [None]:
categorical_columns.add("OnlineSecurity")
df["OnlineSecurity"].value_counts()

OnlineBackup - подписывается ли клиент на дополнительную услугу онлайн-резервного копирования, предоставляемую компанией

In [None]:
categorical_columns.add("OnlineBackup")
df["OnlineBackup"].value_counts()

DeviceProtection - подписался ли клиент на дополнительный план защиты устройств для своего интернет-оборудования, предоставляемый компанией

In [None]:
categorical_columns.add("DeviceProtection")
df["DeviceProtection"].value_counts()

TechSupport - подписывается ли клиент на дополнительный план технической поддержки от компании с сокращенным временем ожидания.

In [None]:
categorical_columns.add("TechSupport")
df["TechSupport"].value_counts()

StreamingTV - использует ли клиент свой интернет-сервис для трансляции телевизионных программ от стороннего провайдера

In [None]:
categorical_columns.add("StreamingTV")
df["StreamingTV"].value_counts()

StreamingMovies - использует ли клиент свой интернет-сервис для трансляции фильмов от стороннего провайдера

In [None]:
categorical_columns.add("StreamingMovies")
df["StreamingMovies"].value_counts()

Contract - тип контракта клиента

In [None]:
categorical_columns.add("Contract")
df["Contract"].value_counts()

PaperlessBilling - выбрал ли клиент безбумажный способ выставления счетов

In [None]:
categorical_columns.add("PaperlessBilling")
df["PaperlessBilling"].value_counts()

PaymentMethod - каким образом клиент оплачивает свой счет

In [None]:
categorical_columns.add("PaymentMethod")
df["PaymentMethod"].value_counts()

MonthlyCharges - общая ежемесячная плата клиента за все его услуги

In [None]:
df["MonthlyCharges"].describe()

TotalCharges - общая сумма платежей клиента, рассчитанную на конец указанного выше квартала

In [None]:
df["TotalCharges_float"] = pd.to_numeric(df["TotalCharges"], errors="coerce").fillna(-999)
df.drop(columns=["TotalCharges"], inplace=True)


In [None]:
categorical_columns.add("Churn")
df["Churn"].value_counts()

In [None]:
label_encoder = LabelEncoder()
for column_name in categorical_columns:
    df[column_name] = label_encoder.fit_transform(df[column_name])

In [None]:
df.info()

In [None]:
X = df.drop(columns=["Churn"])
y = df["Churn"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

In [None]:
gbm = GradientBoostingClassifier().fit(X_train, y_train)
gbm.score(X_test, y_test)

In [None]:
xgbm = XGBClassifier().fit(X_train, y_train)
xgbm.score(X_test, y_test)

In [None]:

lgbm = LGBMClassifier().fit(X_train, y_train)
lgbm.score(X_test, y_test)

In [None]:
cbm = CatBoostClassifier().fit(X_train, y_train)
cbm.score(X_test, y_test)

In [None]:
param_grid = {
    "n_estimators": [10, 50, 100, 300],
    "max_features": list(range(1, 20)) + ["sqrt", "log2"],
    "subsample": np.arange(0.1, 1.1, 0.1),
}
grid_search_cv = GridSearchCV(gbm, param_grid=param_grid)
grid_search_cv.fit(X_train, y_train)
grid_search_cv.best_params_

In [None]:
grid_search_cv.score(X_test, y_test)

In [None]:
param_grid = {
    "n_estimators": [10, 50, 100, 300],
    "max_bin": list(range(1, 20)),
    "subsample": np.arange(0.1, 1.1, 0.1),
}
grid_search_cv = GridSearchCV(xgbm, param_grid=param_grid)
grid_search_cv.fit(X_train, y_train)
grid_search_cv.best_params_

In [None]:
grid_search_cv.score(X_test, y_test)

In [None]:
param_grid = {
    "n_estimators": [10, 50, 100, 300],
    "subsample": np.arange(0.1, 1.1, 0.1),
}
grid_search_cv = GridSearchCV(lgbm, param_grid=param_grid)
grid_search_cv.fit(X_train, y_train)
grid_search_cv.best_params_


In [None]:
grid_search_cv.score(X_test, y_test)

In [None]:
param_grid = {
    "n_estimators": [10, 50, 100, 300],
    "max_bin": list(range(1, 20)),
    "subsample": np.arange(0.1, 1.1, 0.1),
}
grid_search_cv = GridSearchCV(cbm, param_grid=param_grid)
grid_search_cv.fit(X_train, y_train)
grid_search_cv.best_params_

In [None]:
grid_search_cv.score(X_test, y_test)

# Вывод
При использовании параметров из "коробки" выигрывает модель градиентного бустинга с реализацией из sklearn. После настройки гиперпараметров, реализация CatBoost вырывается вперёд.