# Отток клиентов

## Введение

### Задание

Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых.

Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Вам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком. 

Постройте модель с предельно большим значением *F1*-меры. Чтобы сдать проект успешно, нужно довести метрику до 0.59. Проверьте *F1*-меру на тестовой выборке самостоятельно.

Дополнительно измеряйте *AUC-ROC*, сравнивайте её значение с *F1*-мерой.

Источник данных: [https://www.kaggle.com/barelydedicated/bank-customer-churn-modeling](https://www.kaggle.com/barelydedicated/bank-customer-churn-modeling)

### Описание данных

- **RowNumber** — индекс строки в данных
- **CustomerId** — уникальный идентификатор клиента
- **Surname** — фамилия
- **CreditScore** — кредитный рейтинг
- **Geography** — страна проживания
- **Gender** — пол
- **Age** — возраст
- **Tenure** — количество недвижимости у клиента
- **Balance** — баланс на счёте
- **NumOfProducts** — количество продуктов банка, используемых клиентом
- **HasCrCard** — наличие кредитной карты
- **IsActiveMember** — активность клиента
- **EstimatedSalary** — предполагаемая зарплата

Целевой признак
- **Exited** — факт ухода клиента

## Подключение библиотек

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt


from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OrdinalEncoder
from sklearn.ensemble import ExtraTreesClassifier

## Подготовка данных

In [2]:
data = pd.read_csv('/datasets/Churn.csv')

In [3]:
data.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2.0,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1.0,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8.0,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1.0,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2.0,125510.82,1,1,1,79084.1,0


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
RowNumber          10000 non-null int64
CustomerId         10000 non-null int64
Surname            10000 non-null object
CreditScore        10000 non-null int64
Geography          10000 non-null object
Gender             10000 non-null object
Age                10000 non-null int64
Tenure             9091 non-null float64
Balance            10000 non-null float64
NumOfProducts      10000 non-null int64
HasCrCard          10000 non-null int64
IsActiveMember     10000 non-null int64
EstimatedSalary    10000 non-null float64
Exited             10000 non-null int64
dtypes: float64(3), int64(8), object(3)
memory usage: 1.1+ MB


### Вывод 

- Поле **Tenure** содержит пустые значения 
- Поля **Surname**, **Geography**, **Gender** не числовые
- Предположительно поля **RowNumber**, **CustomerId**, **Surname**, **Geography**, **Gender** не влиют на результат 

## Деление выборки

In [5]:
data_train, data_test = train_test_split(data, test_size=0.4, random_state=12345)

## Кодирование признаков 

Поля Surname, Geography, Gender — являются категориальными признаками и мы решаем задачу классификации, поэтому нам подойдет кодировка OrdinalEncoder

In [6]:
data_train = data_train.reset_index()

In [7]:
def ordinal_encoder(data):
    encoder = OrdinalEncoder()
    
    tmp = data_train[['Surname', 'Geography', 'Gender']]
    tmp =  pd.DataFrame(encoder.fit_transform(tmp), columns=tmp.columns)
    
    print(data_train[['Surname', 'Geography', 'Gender']].head(10))
    print('================================')
    print(tmp.head(10))
    
    data[['Surname', 'Geography', 'Gender']] = tmp
    return data

In [8]:
data_train = ordinal_encoder(data_train)

    Surname Geography  Gender
0   Meagher     Spain    Male
1    Moysey    France  Female
2   Forster   Germany    Male
3       Hay    France    Male
4   Lorenzo   Germany  Female
5      Hill     Spain  Female
6  Genovese     Spain    Male
7     Azuka    France  Female
8       Yao   Germany  Female
9    Walker   Germany    Male
   Surname  Geography  Gender
0   1341.0        2.0     1.0
1   1411.0        0.0     0.0
2    705.0        1.0     1.0
3    871.0        0.0     1.0
4   1220.0        1.0     0.0
5    898.0        2.0     0.0
6    750.0        2.0     1.0
7    102.0        0.0     0.0
8   2187.0        1.0     0.0
9   2101.0        1.0     1.0


In [9]:
data_train.head(10)

Unnamed: 0,index,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,7479,7480,15671987,1341.0,567,2.0,1.0,35,8.0,153137.74,1,1,0,88659.07,0
1,3411,3412,15815628,1411.0,711,0.0,0.0,37,8.0,113899.92,1,0,0,80215.2,0
2,6027,6028,15799494,705.0,850,1.0,1.0,44,3.0,140393.65,2,0,1,186285.52,0
3,1247,1248,15711288,871.0,512,0.0,1.0,24,6.0,0.0,2,1,0,37654.31,0
4,3716,3717,15699492,1220.0,665,1.0,0.0,27,2.0,147435.96,1,0,0,187508.06,0
5,8741,8742,15762855,898.0,622,2.0,0.0,23,8.0,0.0,2,1,1,131389.39,0
6,7461,7462,15645571,750.0,596,2.0,1.0,32,4.0,0.0,2,0,1,146504.35,0
7,5106,5107,15682995,102.0,600,0.0,0.0,32,1.0,78535.25,1,1,0,64349.6,0
8,6130,6131,15651144,2187.0,632,1.0,0.0,35,2.0,150561.03,2,0,0,64722.61,0
9,4955,4956,15581525,2101.0,775,1.0,1.0,33,,83501.66,2,1,0,128841.31,0


### Заполнение Tenure

In [10]:
def preparing_importances(header, weights):
    

SyntaxError: unexpected EOF while parsing (<ipython-input-10-e6db4a46fb1f>, line 2)

In [None]:
tenure_data = data[data['Tenure'].notna()] 
X = tenure_data.drop('Tenure', axis=1)

Y = tenure_data['Tenure']

# feature extraction

model = ExtraTreesClassifier()

model.fit(X, Y)

print(model.feature_importances_)

## Исследование задачи

## Борьба с дисбалансом

## Тестирование модели

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [ ]  Весь код выполняется без ошибок
- [ ]  Ячейки с кодом расположены в порядке исполнения
- [ ]  Выполнен шаг 1: данные подготовлены
- [ ]  Выполнен шаг 2: задача исследована
    - [ ]  Исследован баланс классов
    - [ ]  Изучены модели без учёта дисбаланса
    - [ ]  Написаны выводы по результатам исследования
- [ ]  Выполнен шаг 3: учтён дисбаланс
    - [ ]  Применено несколько способов борьбы с дисбалансом
    - [ ]  Написаны выводы по результатам исследования
- [ ]  Выполнен шаг 4: проведено тестирование
- [ ]  Удалось достичь *F1*-меры не менее 0.59
- [ ]  Исследована метрика *AUC-ROC*