# Задание

### Основная часть

* Попробовать построить графики из тех, что были на уроке по Seaborn и Matplotlib
* Важно чтобы у каждого из графиков был как минимум один в комментариях или markdown

### Дополнительная часть

* Некоторые данные представлены в агрегированном в виде в разном временном размере. Если вам нужны дополнительные переменные, то добавьте их в датасет.

* Опишите данную вам выборку, а так же кластеризуйте данные с помощь инструментов Python (количество кластеров на ваше усмотрение) и опишите полученные кластеры ( например, в первом кластере представлены клиенты с таким-то поведением или продуктовым наполнением).

* Для выполнения работы, пожалуйста, используйте Python. Задание мы ждем выполненным в Jupyter notebook с соответствующими комментариями.

# Описания полей

* age	возраст
* gender	пол repexc_date
* city_type	Тип города проживания клиента
* full_mob	Длительность взаимоотношений с банком

* ml_balance	ипотека
* cl_balance_0m	потребительский кредит
* loan_balance_0m	все кредиты

* td_balance_0m	депозит
* casa_balance_0m	счета

* dc_trx_cnt	количество трат по картам
* dc_trx_sum	сумма трат по картам
* Avg_trx	средний размер транзакции
* avgtrx_to_balance	


* min_casa_balance_1q	показатели по счетам за квартал
* max_casa_balance_1q	
* avg_casa_balance_1Y	показатели по счетам за год

* min_td_balance_1q	
* max_td_balance_1q	
* avg_td_balance_1Y

* min_loan_balance_1q	
* max_loan_balance_1q	
* avg_loan_balance_1Y

* min_cl_balance_1q	
* max_cl_balance_1q	
* avg_cl_balance_1Y	
* loan_to_deposit	

* income	доход клиента
* nbi	доход от клиента без OPEX

In [None]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from scipy import stats
from tqdm.auto import tqdm


#!pip install pandas-profiling
from pandas_profiling import ProfileReport

pd.set_option('display.float_format', lambda x: '%.3f' % x)
pd.set_option('display.max_columns', None)
#pd.set_option('display.expand_frame_repr', False)
pd.set_option('max_colwidth', 100)
pd.options.mode.chained_assignment = None

%config InlineBackend.figure_format = 'svg'

In [None]:
df = pd.read_csv('test_cluster.csv', encoding='cp1251', sep=';')
df.head()

In [None]:
df.describe()

In [None]:
ProfileReport(df, title="Report")

In [None]:
df = df[['age', 'city_type', 'full_mob', 'ml_balance', 'loan_balance_0m', 'td_balance_0m', 
   'dc_trx_sum', 'income']]

In [None]:
df = pd.get_dummies(df, columns=['city_type'])

#df['gender'] = df['gender'].fillna('Not_Stated')
#df = pd.get_dummies(df, columns=['gender'])


In [None]:
plt.figure(figsize=(10,7))
plt.title('title', size=14)
plt.xlabel('xlabel')
plt.ylabel('ylabel')
sns.histplot(data=df_, x='age', palette = 'flare_r', alpha = 0.4);

In [None]:
plt.figure(figsize=(10,7))
plt.title('title', size=14)
plt.xlabel('xlabel')
plt.ylabel('ylabel')
sns.histplot(data=df_, x='full_mob', palette = 'flare_r', alpha = 0.4);

## Кластеризация

In [None]:
df_ = df.copy()

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from scipy.cluster.hierarchy import dendrogram, linkage 

In [None]:
scaler = StandardScaler() # создаём нормализатор

In [None]:
x_sc = scaler.fit_transform(df_.drop(columns = ['income'])) # обучаем

In [None]:
km = KMeans(n_clusters = 5, random_state = 0)

In [None]:
labels = km.fit_predict(x_sc)

In [None]:
df_['cluster'] = labels

## анализ

In [None]:
df_.sample(5)

In [None]:
df_[['cluster', 'city_type_<100','city_type_100-500', 'city_type_500-1000', 'city_type_1M+', 'city_type_Mega']]\
    .groupby('cluster').sum()

## Вывод

Модель кластеризации построилась на основании численности населения города клиентов.

_

In [None]:
df_[['cluster','full_mob', 'ml_balance', 'loan_balance_0m', 'td_balance_0m', 'dc_trx_sum', 'income']]\
    .groupby('cluster').mean()

## Вывод

- выяснилось, что в крупнейших городах и городах-миллионниках (1 и 4 кластер) в среднем более высокая ипотечная нагрузка на клиента. При этом в крупнейших городах в среднем самый высоких доход, хотя в городах-миллиониках он в среднем самый низкий. 
- в среднем длительные отношения с банком в наиболее высоки в городах от 100 тыс. до 500 тыс. населения (кластер 2)

_

In [None]:
plt.figure(figsize=(10,7))
plt.title('title', size=14)
plt.xlabel('xlabel')
plt.ylabel('ylabel')
sns.histplot(data=df_, x='age', hue="cluster", palette = 'flare_r', alpha = 0.4);

In [None]:
plt.figure(figsize=(10,7))
plt.title('title', size=14)
plt.xlabel('xlabel')
plt.ylabel('ylabel')
sns.histplot(data=df_, x='full_mob', hue="cluster", palette = 'flare_r', alpha = 0.4);