# Сегментация клиентов в банке

## Загрузка данных/библиотек и первичное ознакомление
1. Импорт библиотек **pandas**, **seaborn**, **matplotlib**, **stats from scipy**, **statsmodels** и **numpy**
2. Загрузка входных данных
3. Обзор входных данных: 
 - описание полей и числа строк
 - типы данных
 - наличие пропусков

## Преодбработка данных
1. Удаление явных и неявных дубликатов
2. Изучение пропусков в поле **Balance**
3. Удаление записей с аномальными значениями
3. Добавление поля с категориями возрастов

## Исследовательский анализ данных (EDA)
Анализ с целью выявить дополнительные признаки (помимо числа продуктов и оттока) для сегментации и числа сегментов
1. Построение матрицы корелляции
2. Построение графиков с распределением признаков

## Сегментация данных (выделение сегментов)
1. Выделение сегментов кластеризацией методом **К-средних**
2. Визуализация полученного распределения клиентов по кластерам - сегментам
3. Значения признаков в центрах кластеров

## Статистическое исследование данных (Проверка гипотез)
1. Обоснование выбора статкритерия для проверки первой гипотезы
2. Проверка первой гипотезы
3. Формулировка второй гипотезы
4. Обоснование выбора статкритерия для проверки второй гипотезы

## Выводы и рекомендации по удержанию сегментов
1. Представление полученных сегментов
2. Рекомендации по удержанию для сегментов с оттоком

In [2]:
import pandas as pd

In [5]:
df = pd.read_csv('bank_dataset.csv')

In [7]:
display(df)
df.info()

Unnamed: 0,userid,score,City,Gender,Age,Objects,Balance,Products,CreditCard,Loyalty,estimated_salary,Churn
0,15677338,619,Ярославль,Ж,42,2,,1,1,1,101348.88,1
1,15690047,608,Рыбинск,Ж,41,1,83807.86,1,0,1,112542.58,0
2,15662040,502,Ярославль,Ж,42,8,159660.80,3,1,0,113931.57,1
3,15744090,699,Ярославль,Ж,39,1,,2,0,0,93826.63,0
4,15780624,850,Рыбинск,Ж,43,2,125510.82,1,1,1,79084.10,0
...,...,...,...,...,...,...,...,...,...,...,...,...
9995,15648965,771,Ярославль,М,39,5,,2,1,0,96270.64,0
9996,15612628,516,Ярославль,М,35,10,57369.61,1,1,1,101699.77,0
9997,15627268,709,Ярославль,Ж,36,7,,1,0,1,42085.58,1
9998,15725091,772,Ростов Великий,М,42,3,75075.31,2,1,0,92888.52,1


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   userid            10000 non-null  int64  
 1   score             10000 non-null  int64  
 2   City              10000 non-null  object 
 3   Gender            10000 non-null  object 
 4   Age               10000 non-null  int64  
 5   Objects           10000 non-null  int64  
 6   Balance           6383 non-null   float64
 7   Products          10000 non-null  int64  
 8   CreditCard        10000 non-null  int64  
 9   Loyalty           10000 non-null  int64  
 10  estimated_salary  10000 non-null  float64
 11  Churn             10000 non-null  int64  
dtypes: float64(2), int64(8), object(2)
memory usage: 937.6+ KB


In [10]:
display(df[df['Balance'].duplicated()])

Unnamed: 0,userid,score,City,Gender,Age,Objects,Balance,Products,CreditCard,Loyalty,estimated_salary,Churn
3,15744090,699,Ярославль,Ж,39,1,,2,0,0,93826.63,0
6,15635267,822,Ярославль,М,50,7,,2,1,1,10062.80,0
11,15779909,497,Рыбинск,М,24,3,,2,1,0,76390.01,0
12,15675000,476,Ярославль,Ж,34,10,,2,1,0,26260.98,0
13,15734219,549,Ярославль,Ж,25,5,,2,0,0,190857.79,0
...,...,...,...,...,...,...,...,...,...,...,...,...
9989,15648358,841,Рыбинск,М,28,4,,2,1,1,179436.60,0
9992,15699841,726,Рыбинск,М,36,2,,1,1,0,195192.40,0
9994,15762030,800,Ярославль,Ж,29,2,,2,0,0,167773.55,0
9995,15648965,771,Ярославль,М,39,5,,2,1,0,96270.64,0
