## Прогнозирование оттока клиентов банка

#### Описание проекта  
Исходные данные содержат информацию о клиентах банка. Основная задача - прогнозирование оттока клиентов.  

Задачи:

* Построить модель для прогнозирования оттока клиентов на основе данных о клиентах.
* Провести сегментацию клиентов по признакам (например, возраст, баланс, использование кредитных карт) для выделения типичных групп.
* Проанализировать признаки, оказывающие наибольшее влияние на отток клиентов.
* Сформулировать выводы и предложить рекомендации для уменьшения оттока и улучшения обслуживания клиентов.

Данные:  

customer_id: Уникальный идентификатор клиента.  
credit_score: Кредитный рейтинг клиента.  
country: Страна проживания клиента.  
gender: Пол клиента.  
age: Возраст клиента.  
tenure: Количество лет, которое клиент провел в банке.  
balance: Баланс на счете клиента.  
products_number: Количество продуктов, которые клиент использует в банке.  
credit_card: Наличие кредитной карты (0 — нет, 1 — есть).  
active_member: Статус активного клиента (0 — неактивный, 1 — активный).  
estimated_salary: Примерный доход клиента.  
churn: Целевой признак, указывающий на отток клиента (1 — клиент ушел, 0 — остался).  

#### Оглавление  
- [1. Загрузка данных](#1-Загрузка-данных)  
- [2. Анализ данных](#2-Анализ-данных)  
- [3. Построение модели](#3-Построение-модели)  
- [4. Выводы](#4-Выводы)

#### 1. Загрузка данных <a id="1-Загрузка-данных"></a>  

In [1]:
# Импортируем необходимые библиотеки
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from ydata_profiling import ProfileReport

# Загружаем данные
import os
data_path = os.path.join(os.getcwd(), 'data', 'bank_customer_churn.csv')
data = pd.read_csv(data_path)

# Просмотр первых строк данных
data.head()

Unnamed: 0,customer_id,credit_score,country,gender,age,tenure,balance,products_number,credit_card,active_member,estimated_salary,churn
0,15634602,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,15647311,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,15619304,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,15701354,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,15737888,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


In [2]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customer_id       10000 non-null  int64  
 1   credit_score      10000 non-null  int64  
 2   country           10000 non-null  object 
 3   gender            10000 non-null  object 
 4   age               10000 non-null  int64  
 5   tenure            10000 non-null  int64  
 6   balance           10000 non-null  float64
 7   products_number   10000 non-null  int64  
 8   credit_card       10000 non-null  int64  
 9   active_member     10000 non-null  int64  
 10  estimated_salary  10000 non-null  float64
 11  churn             10000 non-null  int64  
dtypes: float64(2), int64(8), object(2)
memory usage: 937.6+ KB


In [3]:
data.describe()

Unnamed: 0,customer_id,credit_score,age,tenure,balance,products_number,credit_card,active_member,estimated_salary,churn
count,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,15690940.0,650.5288,38.9218,5.0128,76485.889288,1.5302,0.7055,0.5151,100090.239881,0.2037
std,71936.19,96.653299,10.487806,2.892174,62397.405202,0.581654,0.45584,0.499797,57510.492818,0.402769
min,15565700.0,350.0,18.0,0.0,0.0,1.0,0.0,0.0,11.58,0.0
25%,15628530.0,584.0,32.0,3.0,0.0,1.0,0.0,0.0,51002.11,0.0
50%,15690740.0,652.0,37.0,5.0,97198.54,1.0,1.0,1.0,100193.915,0.0
75%,15753230.0,718.0,44.0,7.0,127644.24,2.0,1.0,1.0,149388.2475,0.0
max,15815690.0,850.0,92.0,10.0,250898.09,4.0,1.0,1.0,199992.48,1.0


In [4]:
profile = ProfileReport(data, minimal=True)

profile.to_widgets()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render widgets:   0%|          | 0/1 [00:00<?, ?it/s]

VBox(children=(Tab(children=(Tab(children=(GridBox(children=(VBox(children=(GridspecLayout(children=(HTML(valu…

In [8]:
# Расчет средних значений признаков для клиентов, которые ушли (1) и остались (0)
numeric_data = data.select_dtypes(include=['number'])
numeric_data.groupby(by='churn').mean() 

Unnamed: 0_level_0,customer_id,credit_score,age,tenure,balance,products_number,credit_card,active_member,estimated_salary
churn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
0,15691170.0,651.853196,37.408389,5.033279,72745.296779,1.544267,0.707146,0.554565,99738.391772
1,15690050.0,645.351497,44.837997,4.932744,91108.539337,1.475209,0.699067,0.360825,101465.677531
