# Описание проекта

Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых.

Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Вам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком.

Постройте модель с предельно большим значением F1-меры. Чтобы сдать проект успешно, нужно довести метрику до 0.59. Проверьте F1-меру на тестовой выборке самостоятельно.
Дополнительно измеряйте AUC-ROC, сравнивайте её значение с F1-мерой.

### Описание данных
***Признаки***
- `RowNumber` — индекс строки в данных
- `CustomerId` — уникальный идентификатор клиента
- `Surname` — фамилия
- `CreditScore` — кредитный рейтинг
- `Geography` — страна проживания
- `Gender` — пол
- `Age` — возраст
- `Tenure` — сколько лет человек является клиентом банка
- `Balance` — баланс на счёте
- `NumOfProducts` — количество продуктов банка, используемых клиентом
- `HasCrCard` — наличие кредитной карты
- `IsActiveMember` — активность клиента
- `EstimatedSalary` — предполагаемая зарплата

***Целевой признак***
- `Exited` — факт ухода клиента


## Постановка задачи
### [Шаг 1. Знакомство с данными и изучение общей информации](#section1)
### [Шаг 2. Подготовка данных](#section2)
Разделите исходные данные на обучающую, валидационную и тестовую выборки.

### [Шаг 3. Исследование разных моделей машинного обучения](#section3)
Исследуйте качество разных моделей, меняя гиперпараметры. Кратко напишите выводы исследования.

### [Шаг 4. Оценка качества моделей](#section4)
Проверьте качество модели на тестовой выборке.

### [Шаг 5. Дополнительное задание](#section5)
Дополнительное задание: проверьте модели на вменяемость. Ничего страшного, если не получится: эти данные сложнее тех, с которыми вы работали раньше. В следующем курсе подробнее об этом расскажем.

### [Шаг 6. Общий вывод](#section6)

Загрузите и подготовьте данные. Поясните порядок действий.
Исследуйте баланс классов, обучите модель без учёта дисбаланса. Кратко опишите выводы.
Улучшите качество модели, учитывая дисбаланс классов. Обучите разные модели и найдите лучшую. Кратко опишите выводы.
Проведите финальное тестирование.

# Решение задачи
## Шаг 1. Знакомство с данными и изучение общей информации. <a class="anchor" id="section1"></a>

Импортируем необходимые библиотеки для дальнейшей работы.

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.dummy import DummyClassifier
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import mean_squared_error
from sklearn.metrics import f1_score
import warnings

warnings.filterwarnings('ignore')

Чтение файла с данными и вывод случайных пяти строчек таблицы для ознакомления.

In [None]:
# users_data = pd.read_csv('/datasets/Churn.csv')
users_data = pd.read_csv('Churn.csv')
users_data.sample(n=5)

Получение общей информации о датафрейме.

In [None]:
users_data.info()

Все столбцы заполнены, явных пропусков не наблюдается, предобработка данных в данном случае не требуется. Посмотрим на пять случайных строк для знакомства с содержимым данных.

**Наблюдение:**
Перед нами стоит задача классификации. За целевой признак берем столбец is_ultra. Остальные признаки помогут нам предсказывать решение по столбцу is_ultra.

## Шаг 2. Подготовка данных <a class="anchor" id="section2"></a>
Разделите исходные данные на обучающую, валидационную и тестовую выборки.
Разобьем выборку по принципу 60/20/20.

**Итог:**
Данные были разбиты по принципу 60/20/20.
- Обучение пройдет на данных `features_train_data` и `target_train_data`;
- Валидация модели на данных `features_valid_data` и `target_valid_data`;
- Лучшая модель по валидации будет применена на данных `features_test_data` и `target_test_data`.

## Шаг 3. Исследование разных моделей машинного обучения <a class="anchor" id="section3"></a>
Исследуйте качество разных моделей, меняя гиперпараметры. Кратко напишите выводы исследования.

## Шаг 4. Оценка качества моделей <a class="anchor" id="section4"></a>
Проверьте качество модели на тестовой выборке.

## Шаг 5. Дополнительное задание <a class="anchor" id="section5"></a>
Дополнительное задание: проверьте модели на вменяемость.
Проведем сравнение между константным предсказанием и лучшей обученной моделью - случайным лесом.

## Шаг 6. Общий вывод <a class="anchor" id="section6"></a>

В ходе проделанной работы было выполнено: