### Формулирование задачи
Отток клиентов является одной из главных проблем любой компании. Под оттоком клиентов понимается прекращение оплаты услуг или прекращение использования продукта компании. Процент клиентов, которые прекращают использовать продукт в течение определенного времени называется коэффициентом оттока клиентов. И если большая часть клиентов перестанет использовать продукт, то это сильно скажется на материальных потерях компании.

Основной идеей задачи является построение модели оттока клиентов, использую предоставленные данные.

#### Входные данные
* RowNumber - номер строки;
* CustomerId - уникальный идентификатор клиента;
* Surname - клиент;
* Credit Score - кредитный рейтинг;
* Geography - страна, где находится клиент;
* Gender - половой признак;
* Age - возраст клиента;
* Tenure - стаж на последнем месте работы;
* Balance - остатки на всех счетах клиента, имеющихся в банке;
* NumOfProducts - количество продуктов у клиента;
* HasCrCard - признак наличия у клиента кредитной карты;
* IsActiveMember - признак активности пользователя;
* EstimatedSalary - заработная плата клиента;
* Exited - признак того, покинул клиент банк или нет

In [1]:
import pandas as pd

In [11]:
data = pd.read_csv(r'data\Churn Modeling.csv').drop(columns='RowNumber')

Проведем первичный анализ данных. Т.е. пробежимся глазами по данным и попробуем выявить в них какие-то особенности.

Сразу наблюдается, что у нас есть столбец `RowNumber`, который не несет никакой смысловой нагрузки. Поэтому удалим его.

In [12]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 13 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   CustomerId       10000 non-null  int64  
 1   Surname          10000 non-null  object 
 2   CreditScore      10000 non-null  int64  
 3   Geography        10000 non-null  object 
 4   Gender           10000 non-null  object 
 5   Age              10000 non-null  int64  
 6   Tenure           10000 non-null  int64  
 7   Balance          10000 non-null  float64
 8   NumOfProducts    10000 non-null  int64  
 9   HasCrCard        10000 non-null  int64  
 10  IsActiveMember   10000 non-null  int64  
 11  EstimatedSalary  10000 non-null  float64
 12  Exited           10000 non-null  int64  
dtypes: float64(2), int64(8), object(3)
memory usage: 1015.8+ KB


In [13]:
data.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
CustomerId,10000.0,15690940.0,71936.186123,15565701.0,15628528.25,15690740.0,15753230.0,15815690.0
CreditScore,10000.0,650.5288,96.653299,350.0,584.0,652.0,718.0,850.0
Age,10000.0,38.9218,10.487806,18.0,32.0,37.0,44.0,92.0
Tenure,10000.0,5.0128,2.892174,0.0,3.0,5.0,7.0,10.0
Balance,10000.0,76485.89,62397.405202,0.0,0.0,97198.54,127644.2,250898.09
NumOfProducts,10000.0,1.5302,0.581654,1.0,1.0,1.0,2.0,4.0
HasCrCard,10000.0,0.7055,0.45584,0.0,0.0,1.0,1.0,1.0
IsActiveMember,10000.0,0.5151,0.499797,0.0,0.0,1.0,1.0,1.0
EstimatedSalary,10000.0,100090.2,57510.492818,11.58,51002.11,100193.9,149388.2,199992.48
Exited,10000.0,0.2037,0.402769,0.0,0.0,0.0,0.0,1.0
