# Проект для оператора связи

### Описание проекта
В данном проекте необходимо реализовать модель, способную прогнозировать отток клиентов. Пользователям, которые планируют уйти, будут предложены персональные скидки и промокоды. 

### Описание услуг

Оператор предоставляет два основных типа услуг: 

1. Стационарную телефонную связь. Возможно подключение телефонного аппарата к нескольким линиям одновременно.
2. Интернет. Подключение может быть двух типов: через телефонную линию (DSL*,* от англ. *digital subscriber line*, «цифровая абонентская линия») или оптоволоконный кабель (*Fiber optic*).  

Также доступны такие услуги:

- Интернет-безопасность: антивирус (*DeviceProtection*) и блокировка небезопасных сайтов (*OnlineSecurity*);
- Выделенная линия технической поддержки (*TechSupport*);
- Облачное хранилище файлов для резервного копирования данных (*OnlineBackup*);
- Стриминговое телевидение (*StreamingTV*) и каталог фильмов (*StreamingMovies*).

За услуги клиенты могут платить каждый месяц или заключить договор на 1–2 года. Доступны различные способы расчёта и возможность получения электронного чека.

### Описание данных

Данные состоят из файлов, полученных из разных источников:

Таблица `contract_new.csv` содержит информацию о договоре;

Описание полей данных:
- `BeginDate` – дата начала пользования услугами
- `EndDate` – дата окончания пользования услугами
- `Type` – тип договора: ежемесячный, годовой и т.д.
- `PaperlessBilling` – выставления счёта по электронной почте
- `PaymentMethod` – способ оплаты
- `MonthlyCharges` – ежемесячные траты на услуги
- `TotalCharges` – всего потрачено денег на услуги


Таблица `personal_new.csv` содержит персональные данные клиента;

Описание полей данных:
- `gender` – пол
- `SeniorCitizen` – пенсионный статус по возрасту
- `Partner` – наличие супруга/супруги
- `Dependents` – наличие иждивенцев


Таблица `internet_new.csv` содержит информацию об интернет-услугах;

Описание полей данных:
- `InternetService` – наличие услуг Интернет
- `OnlineSecurity` – межсетевой экран
- `OnlineBackup` – облачное хранилище резервного копирования данных
- `DeviceProtection` – антивирус
- `TechSupport` – выделенная линия поддержки
- `StreamingTV` – онлайн-ТВ
- `StreamingMovies` – онлайн-кинотеатр


Таблица `phone_new.csv` содержит информацию об услугах телефонии.

Описание полей данных:
- `MultipleLines` – возможность подключения телефонного аппарата к нескольким линиям одновременно

- `customerID` содержит код клиента.

In [None]:
!pip install phik

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import phik
import warnings


from sklearn.preprocessing import StandardScaler, OrdinalEncoder
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.compose import ColumnTransformer
from sklearn.metrics import roc_auc_score, roc_curve, confusion_matrix, accuracy_score
from catboost import CatBoostClassifier

RANDOM_STATE = 190623
warnings.filterwarnings("ignore")

In [None]:
try:
    contract = pd.read_csv('/datasets/contract_new.csv')
    internet = pd.read_csv('/datasets/internet_new.csv')
    personal = pd.read_csv('/datasets/personal_new.csv')
    phone = pd.read_csv('/datasets/phone_new.csv')
except:
    contract = pd.read_csv(r'C:\Users\Acer\Documents\Практикум\Graduation project\contract_new.csv')
    internet = pd.read_csv(r'C:\Users\Acer\Documents\Практикум\Graduation project\internet_new.csv')
    personal = pd.read_csv(r'C:\Users\Acer\Documents\Практикум\Graduation project\personal_new.csv')
    phone = pd.read_csv(r'C:\Users\Acer\Documents\Практикум\Graduation project\phone_new.csv')    

## Первичный анализ данных

В данном разделе мы посмотрим на данные, поверхностно изучим их и сделаем первые выводы. После этого составим план работы. 

Более подробный анализ данных будет произведён в следующем разделе.

In [None]:
def describe_data(data):
    display(data.head(10))
    display(data.info())
    display(data.describe(include='all'))

In [None]:
describe_data(contract)

**Первые выводы о таблице contract**:
- Таблица импортируется корректно
- В таблице представлено 7043 объекта и 8 колонок с признаками
- В данных отсутствуют явные пропуски
- Необходимо поработать с типом данных, определить категориальные и числовые признаки. На первый взгляд:
1. Категориальные: Type, PaperlessBilling, PaymentMethod 
2. Числовые: MonthlyCharges, TotalCharges
3. Целевой признак: EndDate, содержит даты(клиент ушёл) и значения No(клиент продолжает пользоваться услугами). В дальнейшем будет преобразован.
4. Признаки для последующего удаления: customerID(после объединения таблиц будет удалён, т.к. не несёт полезной информации для обучения модели), BeginDate(будет преобразован в числовой признак с длительностью пользования услугами ушедших клиентов)
- В описании данных есть несколько интересных моментов:
1. Большинство клиентов продолжают пользоваться услугами оператора
2. Большинство клиентов оплачивают тариф электронно и ежемесячно, так же получают электронный чек 
3. В столбце TotalCharges можно заметить пустое часто встречающееся значение, этот момент я уже проанализировала и в данных присутствуют неявные пропуски, заполненные пробелом. В следующем разделе изучим более подробно.
- Необходимо привести названия столбцов к общепринятому виду.

In [None]:
describe_data(internet)

**Первые выводы о таблице internet**:
- Таблица импортируется корректно
- В таблице представлено 5517 объектов и 8 колонок с признаками
- В данных отсутствуют пропуски, об это говорит описание данных, точнее количество уникальных значений для каждой колонки.
- Все данные в таблице бинарные, но я оставлю их категориальными.
- На первый взгляд можно сказать о том, что большая часть клиентов не пользуется доп.услугами, т.к. топовое значение: No. А так же у большей части клиентов оптиковолоконный кабель. Более подробно изучим в следующем разделе и построим гистограммы.
- Необходимо привести названия столбцов к общепринятому виду.

In [None]:
describe_data(personal)

**Первые выводы о таблице personal:**
- Таблица импортируется корректно.
- В таблице представлено 7043 объекта и 5 колонок с признаками.
- В данной таблице все значения категориальные, столбец SeniorCitizen так же будет преобразован в категориальный признак.
- Большинство клиентов молодые мужчины без партнёра и без иждивенцев, хотя значения пола и наличия партнёра практически равны. Пенсионеров только 16 процентов.
-Необходимо привести названия столбцов к общепринятому виду.

In [None]:
describe_data(phone)

**Первые выводы о таблице phone:**
- Таблица импортируется корректно
- В таблице 6361 объект и 2 колонки с признаками
- Отсутствуют пропущенные значения
- Большинство людей всё-таки не имеют возможности ведения параллельных линий во время звонка, хотя значения близки
- Необходимо привести названия столбцов к общепринятому виду.

## План работы

1. Предобработка данных:
 1. Приведение названий столбцов к общепринятому виду
 2. Изменение типов данных
 3. Проверка таблиц на наличие неявных пропусков и явных/неявных дубликатов
 4. Объединение таблиц по столбцу customerID, необходимо проследить, чтобы все пользователи попали в датасет
 5. Работа с появившимися пропусками.
2. Анализ данных:
 1. Создание целевого признака из EndDate
 1. Построение графиков для изучения зависимостей между признаками и целевым признаком
 2. Построение гистограмм для изучения категориальных признаков.
 3. Составление портретов клиентов, которые остались и которые ушли из компании в виде круговой диаграммы.
 4. Изучение выбросов 
 5. Изучение баланса классов
 6. Создание новых признаков: Количество дней, в течение которых клиенты пользовались услугами компании(для ушедших пользователей), возможно в процессе добавлятся ещё признаки.
 7. Проверка корреляции с целевым признаком и проверка на мультиколлинеарность.
3. Построение моделей:
 1. Разбиение данных на train и test, со стратификацией и перемешиванием.
 2. Составление pipeline для моделей:
  1. Для Random Forest: Ordinal Encoder + масштабирование + GridSearchCV
  2. Для Catboost: GridSearchCV
 3. Выбор лучшей модели (по метрике на кроссвалидации model.best_score_)
 4. Проверка на тестовой выборке лучшей модели
 5. Построение графика ROC
 6. Анализ важности признаков выбранной модели(model.features_importances_)
 7. Построение матрицы ошибок
 8. Анализ второй метрики accuracy
4. Создание отчёта:
 1. Был ли выполнен план, какие шаги пришлось изменить и почему.
 2. Описание ключевых шагов решения задачи.
 3. Описание предобработки данных
 4. Сравнение значений метрики на кросс-валидации для всех моделей в сводной таблице.
 5. Описание выбранной модели машинного обучения: архитектура, сетка гиперпараметров, лучшие гиперпараметры

## Предобработка данных 

Явные дубликаты в датасетах отсутствуют, о чём говорит частота появления равная 1 в customerID, т.е. все ID уникальны.

Проверим таблицы на наличие неявных пропусков. В столбце TotalCharges при первичном анализе данных были замечены пустые часто встречающееся значение, можно предположить, что это пробелы. Изучим природу их возникновения.

In [None]:
contract[contract['TotalCharges'] == ' ']

Можно заметить, что все строки, в которых встречается пробел имеют общую особенность: это клиенты которые подключили услуги в дату выгрузки датасета 2020-02-01. Проверим, встречается ли похожая ситуация для строк с этой датой.

In [None]:
contract[contract['BeginDate'] == '2020-02-01']

In [None]:
contract[contract['TotalCharges'] == ' '] == contract[contract['BeginDate'] == '2020-02-01']

Выборки совпадают. Так же можно заметить, что у всех пользователей тип оплаты на два года, посмотрим другие данные с таким же типом оплаты.

In [None]:
contract[(contract['Type'] == 'Two year') & (contract['BeginDate'] != '2020-02-01')].sort_values('BeginDate', ascending=False)

Клиенты с таким типом тарифа платят в конце месяца, в этом можно убедить если посмотреть на клиентов, которые подключили услуги 20-01-01, у них внесён платёж только за один месяц. Следовательно заполним пропуски в данных 0.

In [None]:
contract.loc[contract['TotalCharges'] == ' ', 'TotalCharges'] = 0

In [None]:
#Проверка замены
contract[contract['TotalCharges'] == ' ']

Создадим целевой признак из признака EndDate, где 0 - пользователь остался, 1 - пользователь ушёл

In [None]:
contract['Churn'] = np.where(contract['EndDate'] == 'No', '0', '1').astype(int)

In [None]:
contract.head(15)

In [None]:
#Проверка замены
len(contract['Churn'] == 1) == len(~(contract['EndDate'] == 'No'))

Для создания нового признака, который будет показывать какое количество дней клиент пользуется услугами, изменим столбцы `BeginDate` и `EndDate` и приведём их к формату даты. Значения No заменим на дату выгрузки из базы данных.

In [None]:
contract['EndDate'] = contract['EndDate'].replace('No', '2020-02-01')

In [None]:
#Проверка замены
(contract['EndDate'] == 'No').sum()

In [None]:
contract['BeginDate'] = pd.to_datetime(contract['BeginDate'], format='%Y-%m-%d')
contract['EndDate'] = pd.to_datetime(contract['EndDate'], format='%Y-%m-%d')

contract.info()

Так же переведём тип данных признака `TotalCharges` в float.

In [None]:
contract['TotalCharges'] = contract['TotalCharges'].astype(float)

contract.info()

In [None]:
contract['duration'] = (contract['EndDate'] - contract['BeginDate']).dt.days

contract['duration']

Теперь можно объединить таблицы. Будем делать это с помощью merge по признаку customerID.

In [None]:
data = contract.merge(personal, how='outer', on='customerID')
data = data.merge(internet, how='outer', on='customerID')
data = data.merge(phone, how='outer', on='customerID')

In [None]:
pd.set_option('display.max_columns', None)

In [None]:
data.head()

In [None]:
data.info()

In [None]:
data.head()

Переименуем столбцы датафрейма.

In [None]:
data.columns = ['customer_id', 'begin_date', 'end_date', 'type', 'paperless_billing',
       'payment_method', 'monthly_charges', 'total_charges', 'churn', 'duration', 'gender',
       'senior_citizen', 'partner', 'dependents', 'internet_service',
       'online_security', 'online_backup', 'device_protection', 'tech_support',
       'streaming_tv', 'streaming_movies', 'multiple_lines']

In [None]:
data.columns

В новом датафрейме появились пропуски, изучим их.

In [None]:
data.isna().sum()

In [None]:
data.query('internet_service.isna()')

Пропуски во всех столбцах из датафрейма internet соответствуют одним и тем же людям. Вероятнее всего пропуски в столбцах появились из-за того, что у клиентов услуги не подключены, заполним их значением No. Такая же ситуация со столбцом multiple_lines.

In [None]:
for column in ['internet_service', 'online_security', 'online_backup',
       'device_protection', 'tech_support', 'streaming_tv', 'streaming_movies',
       'multiple_lines']:
    data[column] = data[column].fillna('No')

In [None]:
data.isna().sum()

Так же переведём все булевы переменные из object в int, для более удобного анализа

In [None]:
data.columns

In [None]:
def bool_to_int(data, column):
    data[column] = np.where(data[column] == 'No', '0', '1').astype(int)

In [None]:
for column in ['paperless_billing', 'partner', 'dependents', 'online_security', 'online_backup',
       'device_protection', 'tech_support', 'streaming_tv', 'streaming_movies',
       'multiple_lines']:
    bool_to_int(data, column)

In [None]:
data.head()

## Анализ данных

In [None]:
data.describe().T

Доля пользователей:
1. С пенсионным удостоверением - 16%
2. Имеют партнёра - 48%
3. Имеют иждивенцев - 29,9%

Доля пользователей услуг:
1. Электронный чек - 59%
2. Антивирус (DeviceProtection) - 34,3%
3. Блокировка небезопасных сайтов (OnlineSecurity) - 28,6%
4. Выделенная линия технической поддержки (TechSupport) - 29%
5. Облачное хранилище файлов для резервного копирования данных (OnlineBackup) - 34,4%
6. Стриминговое телевидение (StreamingTV) - 38.4%
7. Каталог фильмов (StreamingMovies) - 38.7%
8. Возможность подключения телефонного аппарата к нескольким линиям одновременно - 42%

In [None]:
plt.figure(figsize=(16, 8))

sns.histplot(data['monthly_charges'], kde=True)
plt.title('Распределение трат за месяц')
plt.xlabel('Траты в месяц')
plt.ylabel('Число клиентов');

Из графика можно заметить, что клиенты делятся условно на три группы:
1. Платят 20-30 долларов за тариф
2. Платят 30-70 долларов за тариф
3. Платят 70-120 долларов за тариф.

Используем эти данные в качестве дополнительного признака.

In [None]:
data['customer_groups'] = 'medium'
data.loc[data['monthly_charges'] <= 30, 'customer_groups'] = 'low'
data.loc[data['monthly_charges'] > 70, 'customer_groups'] = 'high'

In [None]:
data.loc[(data['monthly_charges'] > 30) & (data['monthly_charges'] <= 70)]['customer_groups'].unique()

In [None]:
data.loc[data['monthly_charges'] <= 30]['customer_groups'].unique()

In [None]:
data.loc[data['monthly_charges'] > 70]['customer_groups'].unique()

In [None]:
data['customer_groups'].value_counts()

Можно заметить, что несмотря на выборос в районе 20 у.е., пользователей из самой высокой тарифной группы больше практически в два раза. Изучим более подробно каждую группу.

In [None]:
data['customer_groups'].unique()

In [None]:
for val in data['customer_groups'].unique():
    print(f'Описание данных для группы {val}')
    display(data[data['customer_groups'] == val].describe().T)

Группа low:
1. *10%* клиентов из этой группы ушли.
2. Доля пенсионеров составляет всего 4 процента.
3. Менее 1% клиентов пользуются дополнительными услугами, возможностью подключения телефонного аппарата к нескольким линиям одновременно 20%
4. Продолжительность пользования услугами средняя из трёх групп (порядка 2,5 лет)
5. 31% клиентов получают электронный чек.

Группа medium:
1. *11%* клиентов из этой группы ушли.
2. От 25% до 41% клиентов пользуются дополнительными услугами, возможностью подключения телефонного аппарата к нескольким линиям одновременно 16%
3. Самая короткая продолжительность пользования услугами (порядка 2 лет)
4. Более половины клиентов получают электронный чек.

Группа high:
1. *20%* клиентов из этой группы ушли. Возможно здесь имеет место внешний фактор, т.к. в этой группе самый высокий процент пенсионеров: 24%, а так же неравномерность выборки.
2. В этой группе самые высокие показатели дополнительных услуг, от 35% до 62%, возможность подключения телефонного аппарата к нескольким линиям одновременно 64%
3. 73% пользователей получают электронный чек.
4. Самая высокая продолжительность пользования услугами. (Чуть менее 3 лет)

Можно сделать вывод, что группа с самой высокой платой за месяц пользуется бОльшим количеством услуг, дольше всего, но при этом процент ухода клиентов так же самый высокий. Возможно это связано с неравномерностью выборок.

Изучим признаки даты начала и конца использования услуг.

In [None]:
plt.figure(figsize=(16, 8))
sns.histplot(data['begin_date'])
plt.title('Распределение дат начала использования услуг')
plt.xlabel('Дата, год')
plt.ylabel('Количество, шт.');

На графике видно два пика, в середине 2014 года компания начала расти, в 2015 вышла на плато и активно развивается с 2019.

In [None]:
plt.figure(figsize=(16, 8))
sns.histplot(data[data['end_date'] != '2020-02-01']['end_date'])
plt.title('Распределение ухода клиентов по датам')
plt.xlabel('Дата, год')
plt.ylabel('Количество, шт.');

Количество уходящих клиентов постоянно росло и в конце 2019 года достигло своего пика.

Удалим стоблцы `customer_id`, `begin_date` и `end_date`, и разделим численные и категориальные переменные.

In [None]:
data = data.drop(['customer_id', 'begin_date', 'end_date'], axis=1)

In [None]:
cat_features = data.select_dtypes(include='object').columns

In [None]:
data.info()

In [None]:
stay = data['churn'] == 1
gone = data['churn'] == 0

In [None]:
num_features = data[['monthly_charges', 'total_charges', 'duration']].columns
num_features

Вернём категориальные переменные к Yes/No

In [None]:
def int_to_object(data, column):
    data[column] = np.where(data[column] == 1, 'Yes', 'No')

In [None]:
for column in ['paperless_billing', 'partner', 'senior_citizen', 'dependents', 'online_security', 'online_backup',
       'device_protection', 'tech_support', 'streaming_tv', 'streaming_movies',
       'multiple_lines']:
    int_to_object(data, column)

In [None]:
data.head(10)

In [None]:
for col in num_features:
    plt.subplots(figsize=(16, 8))
    sns.histplot(data.loc[stay, col], color='r', label='Ушедшие клиенты')
    sns.histplot(data[col], alpha=0.5, label='Все клиенты')
    plt.legend()
    plt.title(f'Распределение значений ({col})');

Изучим какими услугами пользовались ушедшие и оставшиеся клиенты.

In [None]:
for col in cat_features:
    fig, axs = plt.subplots(1, 2, figsize=(16, 9), sharey=True)
    axs[0].pie(data.loc[stay, col].value_counts(), labels=data.loc[stay, col].value_counts().index, autopct="%1.1f%%")
    axs[1].pie(data.loc[gone, col].value_counts(), labels=data.loc[gone, col].value_counts().index, autopct="%1.1f%%")
    plt.legend()
    plt.title(f'Распределение значений {col}\nНа левой диграмме отображены оставшиеся клиенты\nНа правой диграмме отображены ушедшие клиенты');

Проверим наши переменные на связь друг с другом, для этого используем phik.

In [None]:
phik = data.phik_matrix(interval_cols=num_features)
phik

In [None]:
plt.figure(figsize=(12,12))
phik[np.abs(phik < 0.2)] = 0
sns.heatmap(phik, annot=True);

In [None]:
phik['churn'].sort_values(ascending=False)

Как и было обнаружено при анализе ранее, группа людей с высокими платежами за тариф и которая являлась клиентами дольше всего, уходит чаще. Матрица связей это подтвердила.

Проблема мультиколлинеарности может быть для столбцов `monthly_charges`, `internet_service` и `customer_groups`. Пока не будем ничего удалять, т.к. обучаться будут деревянные модели, а они не чувствительны к мультиколлинеарности.

**Выводы**

При изучении датасета были получены результаты:

- Доля пользователей:
1. С пенсионным удостоверением - 16%
2. Имеют партнёра - 48%
3. Имеют иждивенцев - 29,9%

- Доля пользователей услуг:
1. Электронный чек - 59%
2. Антивирус (DeviceProtection) - 34,3%
3. Блокировка небезопасных сайтов (OnlineSecurity) - 28,6%
4. Выделенная линия технической поддержки (TechSupport) - 29%
5. Облачное хранилище файлов для резервного копирования данных (OnlineBackup) - 34,4%
6. Стриминговое телевидение (StreamingTV) - 38.4%
7. Каталог фильмов (StreamingMovies) - 38.7%
8. Возможность подключения телефонного аппарата к нескольким линиям одновременно - 42%

Было добавлено несколько признаков для построения модели:
1. Длительность использования услуг
2. Группы по ежемесячной оплате за тариф

Были проанализированы временные графики: В 2019-2020 годах наблюдается максимальный прирост новых клиентов (более 800), но так же максимальный уход клиентов (более 160 человек)


*Изучив долю ушедших пользователей, можно составить портрет клиента с наибольшим риском ухода:*

Пожилой мужчина или женщина с высокой платой за тариф, имеющий партнёра и иждивенцев, оплачивающий тариф на два года автоматически через банк или кредитную карту, который пользуется дополнительными услугами, оптоволоконным кабелем и имеет возможность подключения телефонного аппарата к нескольким линиям одновременно.

## Обучение моделей

Выделим признаки и целевой признак датасета, разобьём датасет на обучающую и тренировочную выборки.

In [None]:
features = data.drop(['churn'], axis=1)
target = data['churn']

In [None]:
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=.25, random_state=RANDOM_STATE, stratify=target)

In [None]:
X_train.shape, y_train.shape, X_test.shape, y_test.shape

In [None]:
y_train.value_counts(), y_test.value_counts()

### Random Forest

In [None]:
num_features

In [None]:
%%time

numeric_transformer = Pipeline(
    steps=[("scaler", StandardScaler())]
)

categorical_transformer = Pipeline(
    steps=[
        ("encoder", OrdinalEncoder()),
    ]
)
preprocessor = ColumnTransformer(
    transformers=[
        ("num", numeric_transformer, num_features),
        ("cat", categorical_transformer, cat_features),
    ]
)

pipe_rf = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('model_rf', RandomForestClassifier(class_weight='balanced', random_state=RANDOM_STATE))
])
param = {'model_rf__n_estimators' : range(100, 500, 100),
        'model_rf__criterion' : ['gini', 'entropy'],
        'model_rf__max_depth' : [2, 4],
        'model_rf__min_samples_leaf': [2, 4]}
grid_rf = GridSearchCV(pipe_rf, param, scoring='roc_auc', cv=3, n_jobs=-1, error_score="raise")
grid_rf.fit(X_train, y_train)

best_rf = grid_rf.best_estimator_

grid_rf.best_score_

In [None]:
grid_rf.best_params_

Была обучена модель Random Forest, с параметрами:
- Критерий criterion 'gini
- Максимальная глубина max_depth 4
- Минимальное количество листьев min_samples_leaf 4
- Количество деревьев n_estimators 200

Получен результат метрики ROC-AUC 0.81

### CatBoost

In [None]:
cat_features= list(data.select_dtypes(include='object').columns)
cat_features

In [None]:
%%time

model_cb = CatBoostClassifier(auto_class_weights='Balanced', random_state=RANDOM_STATE)
    
params = {'learning_rate': [0.01, 0.1, 0.3, 0.5],
          'depth': [2, 4, 6],
          'loss_function': ['Logloss', 'Entropy']}


grid_cb = GridSearchCV(model_cb, params, scoring='roc_auc', cv=3, n_jobs=-1)
grid_cb.fit(X_train, y_train, cat_features=cat_features, verbose=100, plot=True)

best_cb = grid_cb.best_estimator_

grid_cb.best_score_

In [None]:
grid_cb.best_params_

Была обучена модель CatBoost, с параметрами:
1. Глубина 'depth': 2, 
2. 'learning_rate': 0.3, 
3. 'loss_function': 'Logloss'
4. auto_class_weights='Balanced'

Получен результат метрики ROC-AUC 0,906

Для тестирования выберем именно эту модель

## Тестирование лучшей модели

Для рассчёта метрики roc_auc используем predict_probs. Для метрики accuracy predict.

In [None]:
predictions = best_cb.predict(X_test)
pred_proba = best_cb.predict_proba(X_test)[:,1]

roc_auc = roc_auc_score(y_test, pred_proba)
roc_auc

Построим ROC кривую 

In [None]:
plt.figure(figsize=(16, 6))

fpr, tpr, thresholds = roc_curve(y_test, pred_proba)
plt.plot(fpr, tpr)
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC-кривая модели класса')
plt.plot([0, 1], [0, 1], linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.0]);

Кривая ROC находится гораздо выше графика, показывающего предсказание простейшей модели с метрикой accuracy 50, можно говорить о том, что модель хорошо обучилась.

Построим матрицу ошибок

In [None]:
cmatrix = confusion_matrix(y_test, predictions)
plt.figure(figsize=(8, 8))
sns.heatmap(cmatrix, annot=True, fmt='d')
plt.title('Матрица ошибок')
plt.xlabel('Предсказания')
plt.ylabel('Ответы')
plt.show();

Проанализируем важные для бизнеса показатели:
- Значение False Positive = 139, это значит, что из 1761 клиента 139 были предложены лучшие условия, но они не собирались уходить, это примерно 7%
- Значение False Negative = 51, из 1761 клиента 51 клиенту не предложили лучшие условия и он ушёл, это примерно 3%

Проведём анализ важности признаков

In [None]:
features_importance = best_cb.get_feature_importance(prettified=True)
features_importance

In [None]:
plt.figure(figsize=(16, 6))
sns.barplot(y=features_importance['Feature Id'], x=features_importance['Importances']);

Самым важным признаком для модели оказался признак duration, содержащий длительность использования услуг клиентом. А вот созданный признак с разбиением по группам в зависимости от ежемесячного платежа влияет всего на 0,76%

In [None]:
accuracy_score(y_test, predictions)

**Вывод**

В данном разделе были обучены несколько моделей:
1. Random Forest, с параметрами:
- Критерий criterion 'gini
- Максимальная глубина max_depth 4
- Минимальное количество листьев min_samples_leaf 4
- Количество деревьев n_estimators 200


Так же для этой модели был использован pipeline, числовые признаки были масштабированы StandardScaler, категориальные OrdinalEncoder.

Получен *результат метрики ROC-AUC 0.81*
2. CatBoost, с параметрами:
- Глубина 'depth': 2, 
- 'learning_rate': 0.3, 
- 'loss_function': 'Logloss'
- auto_class_weights='Balanced'

Получен *результат метрики ROC-AUC 0,906*. Именно эта модель и была выбрана для дальнейшего тестирования.

Датасет был разбит на train и test, в соотношении 3/1, поиск лучших параметров выполнялся с помощью GridSearchCV.

**Модель CatBoost на тестовой выборке показала результат метрики ROC-AUC 0.938**

Был построен график ROC кривой, который показал, что наша модель справляется гораздо лучше dummy модели.

Была построена матрица ошибок и получены результаты:
- Значение False Positive = 139, это значит, что из 1761 клиента 139 были предложены лучшие условия, но они не собирались уходить, это примерно 7%
- Значение False Negative = 51, из 1761 клиента 51 клиенту не предложили лучшие условия и он ушёл, это примерно 3%

Был проведён анализ важности признаков, самое сильное влияние на модель оказал признак duration, содержащий длительность использования услуг клиентом.

**Модель показывает значение метрики accuracy на тестовой выборке = 0.89**

Возможно модель можно улучшить, если удалить признаки, которые оказывают на неё минимальное влияние, так же можно попробовать увеличить количество итераций, т.к. на графике видно, что кривая не вышла на плато, а стремится вниз.

Так же я хотела построить круговую диаграмму для охарактеризования ушедших и оставшихся пользователей(зависимость значения churn от каждого категориального признака), но не смогла понять, как её построить из сводной таблицы pivot_table

## Отчёт

Для составления отчёта подробнее изучим первоначальный план и проанализируем, какие пункты были выполнены, какие результаты получены, с чем удалось справиться, а с чем нет, какие позникли трудности при выполнении проекта.

1. Предобработка данных:
 1. Приведение названий столбцов к общепринятому виду
 2. Изменение типов данных
 3. Проверка таблиц на наличие неявных пропусков и явных/неявных дубликатов
 4. Объединение таблиц по столбцу customerID, необходимо проследить, чтобы все пользователи попали в датасет
 5. Работа с появившимися пропусками.
 
**Вывод по разделу:** На этапе предобработки данных проблем не возникло. Были выполнены все пункты плана.

2. Анализ данных:
 1. Создание целевого признака из EndDate
 1. Построение графиков для изучения зависимостей между признаками и целевым признаком
 2. Построение гистограмм для изучения категориальных признаков.
 3. Составление портретов клиентов, которые остались и которые ушли из компании в виде круговой диаграммы.
 4. Изучение выбросов 
 5. Изучение баланса классов
 6. Создание новых признаков: Количество дней, в течение которых клиенты пользовались услугами компании(для ушедших пользователей), возможно в процессе добавлятся ещё признаки.
 7. Проверка корреляции с целевым признаком и проверка на мультиколлинеарность.
 
**Вывод по разделу:** На этапе анализа данных так же были выполнены все пункты плана. 

В процессе работы возникли трудности и построением параллельно расположеных круговых диграмм, для её решения была более подробно изучена функция subplots().
Так же для анализа корреляции была изучена новая библиотека phik, позволяющая изучить нелинейную корреляцию, в том числе для категориальных признаков.

3. Построение моделей:
 1. Разбиение данных на train и test, со стратификацией и перемешиванием.
 2. Составление pipeline для моделей:
  1. Для Random Forest: Ordinal Encoder + масштабирование + GridSearchCV
  2. Для Catboost: GridSearchCV
 3. Выбор лучшей модели (по метрике на кроссвалидации model.best_score_)
 4. Проверка на тестовой выборке лучшей модели
 5. Построение графика ROC
 6. Анализ важности признаков выбранной модели(model.features_importances_)
 7. Построение матрицы ошибок
 8. Анализ второй метрики accuracy
 
**Вывод по разделу:** На этапе построения моделей были выполнены все пункты плана.

Для построения были выбраны две модели: Random Forest и CatBoost. Эти модели были выбраны, т.к. в наших данных присутствует проблема мультиколлинеарности признаков, а модели, основанные на решающих деревьях не страдают от мультиколлинеарности.

Так же в наших данных присутствует небольшой дисбаланс классов, поэтому в качестве метрики была выбрана ROC_AUC.

4. Создание отчёта:
 1. Был ли выполнен план, какие шаги пришлось изменить и почему.
 2. Описание ключевых шагов решения задачи.
 3. Описание предобработки данных
 4. Описание выбранной модели машинного обучения: архитектура, сетка гиперпараметров, лучшие гиперпараметры
 
*Ключевые шаги решения задачи:*
1. На этапе первичного анализа данных были выявлены первые закономерности и связи между признаками. Это послужило хорошей базой для последующего более глубоко изучения признаков.
2. Объединение таблиц с последующим заполнением пропусков, это позволило изучить профиль клиентов в целом, выделить группы клиентов, создать новые признаки для обучения моделей, построить графики зависимостей между признаками и составить портрет клиента, для которого была высокая вероятность уйти.
3. Выбор моделей для обучения. С учётом особенностей датасета были выбраны модели, которые бы решали эти особенности, это позволило нам улучшить метрику качества и не переобучить модель.

*Для проверки на тестовой выборке была выбрана модель Catboost с параметрами:*
1. Глубина 'depth': 2, 
2. 'learning_rate': 0.3, 
3. loss_function': 'Logloss'
4. auto_class_weights='Balanced'

Получен *результат метрики ROC-AUC 0,906*.

Датасет был разбит на train и test, в соотношении 3/1, поиск лучших параметров выполнялся с помощью GridSearchCV.

**Модель CatBoost на тестовой выборке показала результат метрики ROC-AUC 0.938**

Был построен график ROC кривой, который показал, что наша модель справляется гораздо лучше dummy модели.

Была построена матрица ошибок и получены результаты:
- Значение False Positive = 139, это значит, что из 1761 клиента 139 были предложены лучшие условия, но они не собирались уходить, это примерно 7%
- Значение False Negative = 51, из 1761 клиента 51 клиенту не предложили лучшие условия и он ушёл, это примерно 3%

Был проведён анализ важности признаков, самое сильное влияние на модель оказал признак duration, содержащий длительность использования услуг клиентом.

**Модель показывает значение метрики accuracy на тестовой выборке = 0.89**