Столбцы таблицы:
(ч) - числовой признак
(к) - категориальный признак
(-) - не используется

* RowNumber — номер строки таблицы (это лишняя информация, поэтому можете сразу от неё избавиться) (-)
* CustomerId — идентификатор клиента (ч)
* Surname — фамилия клиента (-)
* CreditScore — кредитный рейтинг клиента (чем он выше, тем больше клиент брал кредитов и возвращал их) (ч)
* Geography — страна клиента (банк международный) (-)
* Gender — пол клиента (к)
* Age — возраст клиента (ч)
* Tenure — сколько лет клиент пользуется услугами банка (ч)
* Balance — баланс на счетах клиента в банке (ч)
* NumOfProducts — количество услуг банка, которые приобрёл клиент (ч)
* HasCrCard — есть ли у клиента кредитная карта (1 — да, 0 — нет) (к)
* IsActiveMember — есть ли у клиента статус активного клиента банка (1 — да, 0 — нет) (к)
* EstimatedSalary — предполагаемая заработная плата клиента (ч)
* Exited — статус лояльности (1 — ушедший клиент, 0 — лояльный клиент) (к)

In [282]:
import pandas as pd
import plotly.express as px
import matplotlib.pyplot as plt

# Загрузка данных об оттоке клиентов некоторого банка.
churn_data = pd.read_csv('data/churn.csv', sep=',')

# Подготовка данных
churn_df = churn_data.drop('RowNumber', axis=1)
display(churn_df)



Unnamed: 0,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,15634602,Hargrave,619,France,Female,42,2,0.00,1,1,1,101348.88,1
1,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,15619304,Onio,502,France,Female,42,8,159660.80,3,1,0,113931.57,1
3,15701354,Boni,699,France,Female,39,1,0.00,2,0,0,93826.63,0
4,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.10,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,15606229,Obijiaku,771,France,Male,39,5,0.00,2,1,0,96270.64,0
9996,15569892,Johnstone,516,France,Male,35,10,57369.61,1,1,1,101699.77,0
9997,15584532,Liu,709,France,Female,36,7,0.00,1,0,1,42085.58,1
9998,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,1,0,92888.52,1


# Задание 9.1. 
Каково соотношение ушедших и лояльных клиентов? Покажите это на графике и дайте комментарий по соотношению.

In [283]:
# Данные
pie_data = churn_df.groupby(by='Exited', as_index=False)['Exited'].value_counts()
# display(pie_data)

# Круговая диаграмма
fig_pie = px.pie(
    data_frame=pie_data,
    values='count',
    names=['лояльные клиенты', 'ушедшие клиенты'],
    height=500,
    width=600,
    title='Соотношение ушедших и лояльных клиентов'
)

fig_pie.show()

# Вывод:
По данному графику видно, что отток среди клиентов банка составляет 20,4 % против 79,6 % процентов лояльных (оставшихся) клиентов. Это довольно большая цифра. Ушедшие клиенты составляют почти четверть от всех клиентов банка!

# Задание 9.2.
Постройте график, показывающий распределение баланса пользователей, у которых на счету больше 2 500 долларов. Опишите распределение и сделайте выводы.

In [286]:
# Данные по распределению баланса
mask = churn_df['Balance'] > 2_500

# Данные
hist_data = churn_df[mask].groupby(by='Balance', as_index=False)['Balance'].value_counts()
# display(hist_data)

# Гистограмма
fig_hist = px.histogram(
    data_frame=hist_data,
    x='Balance',
    height=500,
    width=1000,
    nbins=25,
    title='Распределение баланса пользователей (у которых на счету больше 2.500 долл.США)'
)

# Наименование в таблице
fig_hist.update_layout(xaxis_title='Баланс на счету', yaxis_title='Количество клиентов')

fig_hist.show()

# Вывод:
По данному графику видно, что первое место среди клиентов банка (898 человек) занимают люди имеющие на счету от 120 до 130 тыс.долл. 
<br> На втором месте (832 клиента) с балансом от 110 до 120 тыс.долл. 
<br> Третье место занимают клиенты (785 человек) с балансом от 100 и до 110 тысяч долларов.
<br> Таким образом можно сделать вывод, что основные клиенты банка состоятельные люди имеющие на своем счету более 100 тысяч долларов.

# Задание 9.3. 
Посмотрите на распределение баланса клиента в разрезе признака оттока. Как различаются суммы на накопительном счёте ушедших и лояльных клиентов? Подумайте и напишите, с чем это может быть связано, что может не устраивать ушедших клиентов в банке.

In [288]:
# Получение категориального признака
churn_df['Exited'] = churn_df['Exited'].replace(0, 'лояльный')
churn_df['Exited'] = churn_df['Exited'].replace(1, 'ушедший')

# Данные
hist_data = churn_df.groupby(by=['Balance', 'Exited'], as_index=False)['Balance'].value_counts()
# display(hist_data)

# Гистограмма
fig_hist = px.histogram(
    data_frame=hist_data,
    x='Balance',
    height=500,
    width=1000,
    nbins=30,
    color='Exited',
    title='Распределение баланса клиента в разрезе признака оттока'
)

# Наименование в таблице
fig_hist.update_layout(xaxis_title='Баланс на счету', yaxis_title='Количество клиентов')

fig_hist.show()

# Вывод:
В данном графике есть выброс ввиде отрицательного балланса, эти данные можно не учитывать.
<br>Согласно данному графику среди всех клиентов в основном балланс составляет от 100 до 150 тыс. долл. Основная доля ушедших клиентов имела баланс в пределах от 105 до 135 тыс. долл.
Учитывая то, что между ушедшими и оставшимися клиентами не видно заметной разницы, возможно причина ухода:
- Политика банка по отношению к своим клиентам;
- Ситуация в стране и т.д.
<br>Для более детального анализа данной ситуации стоит изучить возраст и доходы клиентов обеих групп.

# Задание 9.4. 
Посмотрите на распределение возраста в разрезе признака оттока. В какой группе больше потенциальных выбросов? На какую возрастную категорию клиентов стоит обратить внимание банку?

In [289]:
# Получение категориального признака
churn_df['Exited'] = churn_df['Exited'].replace(0, 'лояльный')
churn_df['Exited'] = churn_df['Exited'].replace(1, 'ушедший')

# маска
mask = churn_df['Balance'] > 2_500
# Данные
hist_data = churn_df[mask].groupby(by=['Balance', 'Exited', 'Age'], as_index=False)['Age'].value_counts()
# display(hist_data)

# Гистограмма
fig_hist = px.histogram(
    data_frame=hist_data,
    x='Age',
    height=500,
    width=1000,
    nbins=30,
    color='Exited',
    title='График N 1: Распределение баланса клиента в разрезе признака оттока'
)

# Тепловая гистограмма
fig_heathist = px.density_heatmap(
    data_frame=hist_data,
    x='Age',
    y='Exited',
    height=500,
    width=1000,
    title='График N 2: Распределение баланса клиента в разрезе признака оттока'
)

# Наименование в таблице
fig_hist.update_layout(xaxis_title='Возраст', yaxis_title='Количество')
fig_heathist.update_layout(xaxis_title='Возраст', yaxis_title='Лояльность')

fig_hist.show()
fig_heathist.show()


# Вывод:
В графике N 1 видно, что основная группа ушедших клиентов имеет возраст более 30 лет. Основная, по численности, группа ушедших клиентов составляет по возрасту 30 до 59 лет. Потенциальные выбросы больше прослеживаются в группе ушедших.
<br> Банку стоит обратить внимание на группу в возрасте от 30 до 59 лет.

# Задание 9.5. 
Постройте график, который показывает взаимосвязь кредитного рейтинга клиента и его предполагаемой зарплаты. Добавьте расцветку по признаку оттока клиентов. Какова взаимосвязь между признаками? Если не видите явной взаимосвязи, укажите это.

In [290]:
# Получение категориального признака
churn_df['Exited'] = churn_df['Exited'].replace(0, 'лояльный')
churn_df['Exited'] = churn_df['Exited'].replace(1, 'ушедший')

# Данные
hist_data = churn_df.groupby(by=['EstimatedSalary', 'CreditScore', 'Exited'], as_index=False).value_counts()
# display(hist_data)

# Диаграмма рассеянея
fig_scatter = px.scatter(
    data_frame=hist_data,
    x='EstimatedSalary',
    y='CreditScore',
    color='Exited',
    size_max=5,
    title='График N 1: Взаимосвязь кредитного рейтинга клиента и его предполагаемой зарплаты'
)

# Тепловая гистограмма
fig_hist = px.density_heatmap(
    data_frame=hist_data,
    x='EstimatedSalary',
    y='CreditScore',
    nbinsx=25,
    nbinsy=25,
    title='График N 2: Взаимосвязь кредитного рейтинга клиента и его предполагаемой зарплаты'
)

# Наименование в таблице
fig_hist.update_layout(xaxis_title='Предполагаемая зарплата', yaxis_title='Кредитный рейтинг')
fig_scatter.update_layout(xaxis_title='Предполагаемая зарплата', yaxis_title='Кредитный рейтинг')

fig_scatter.show()
fig_hist.show()

# Вывод:
Cудя по графику N 1, нет явной взаимосвязи между предполагаемой зарплатой и кредитным рейтингом. Единственное, что можно выудить из графика N 2 - основной кредитный рейтинг клиентов варьируемся в диапазоне от 600 до 700 единиц с зарплатой от 45 тысяч и выше (данные по зарплате сильно разнятся).

# Задание 9.6. 
Кто чаще уходит, мужчины или женщины? Постройте график, который иллюстрирует это.

In [314]:
# Получение числового признака из категориального
churn_df['Exited'] = churn_df['Exited'].replace('лояльный', 0)
churn_df['Exited'] = churn_df['Exited'].replace('ушедший', 1)

# Маска для ушедших клиентов
mask = churn_df['Exited'] == 1

# Данные
bar_data = churn_df[mask].groupby(by='Gender', as_index=False)['Exited'].value_counts()
# display(bar_data)

# Столбчатая диаграмма
fig_bar = px.bar(
    data_frame=bar_data,
    x='Gender',
    y='count',
    title='Кто чаще отказывается от услуг банка - женщины или мужчины'
)

# Круговая диаграмма
fig_pie = px.pie(
    data_frame=bar_data,
    values='count',
    names=['Женщины', 'Мужчины'],
    title='Кто чаще отказывается от услуг банка - женщины или мужчины'
)

# Наименование в таблице
fig_bar.update_layout(xaxis_title='Пол клиента', yaxis_title='Количество')

fig_bar.show()
fig_pie.show()

# Вывод:
Данный график показывает, что среди отказавшихся от услуг банка больше женщин чем мужчин, однако разница не слишком большая.

# Задание 9.7. 
Как отток клиентов зависит от числа приобретённых у банка услуг? Для ответа на этот вопрос постройте многоуровневую столбчатую диаграмму.

In [295]:
# Получение категориального признака
churn_df['Exited'] = churn_df['Exited'].replace(0, 'лояльный')
churn_df['Exited'] = churn_df['Exited'].replace(1, 'ушедший')

# Данные
bar_data = churn_df.groupby(by=['NumOfProducts', 'Exited'], as_index=False)['NumOfProducts'].value_counts()
# display(bar_data)

# Столбчатая диаграмма
fig_bar = px.bar(
    data_frame=bar_data,
    x='Exited',
    y='count',
    color='NumOfProducts',
    facet_col='NumOfProducts',
    barmode='group',
    title='Количество услуг приобретенных клиентами и их лояльность'
)

# Наименование в таблице
fig_bar.update_layout(xaxis_title='Лояльность', yaxis_title='Количество')

fig_bar.show()

# Вывод:
По графику видно, что лояльные клиенты приобретали от 1 до 3 услуг в банке. Среди ушедших клиентов услугами банка пользовались до 4 раз. Однако видно, что после первой услуги желающих далее пользоваться услугами банка резко падает. Судя по всему, первая услуга могла повлиять на решение уйти из банка, либо банки конкуренты имеют более выгодные предложения.

# Задание 9.8. 
Как влияет наличие статуса активного клиента на отток клиентов? Постройте диаграмму, иллюстрирующую это. Что бы вы предложили банку, чтобы уменьшить отток клиентов среди неактивных?

In [279]:
# Получение категориального признака
churn_df['IsActiveMember'] = churn_df['IsActiveMember'].replace(0, 'неактивный')
churn_df['IsActiveMember'] = churn_df['IsActiveMember'].replace(1, 'активный')

# Получение категориального признака
churn_df['Exited'] = churn_df['Exited'].replace(0, 'лояльный')
churn_df['Exited'] = churn_df['Exited'].replace(1, 'ушедший')

# Данные
bar_data = churn_df.groupby(by=['IsActiveMember', 'Exited'], as_index=False)['IsActiveMember'].value_counts()
# display(bar_data)

# Cтолбчатая диаграмма
fig_bar = px.bar(
    data_frame=bar_data,
    x='IsActiveMember',
    y='count',
    color='Exited',
    facet_col='Exited',
    title='Как влияет наличие статуса клиента на отток'
)

# Наименование в таблице
fig_bar.update_layout(yaxis_title='Количество')

fig_bar.show()

# Вывод:
Среди группы ушедших клиентов неактивных клиентов больше. Соответственно банку следует заняться этой категорией клиентов поощряя их к активным взаимодействиям с банком. 
<br> Предложения: 
* Повышенные кэшбеки на покупки в магазинах-партнерах (следует учитывать так же возраст. Например если основные клиенты у нас от 30 до 39 лет, то следует поработать с магазинами этой возрастной категории). 
* Повышенные проценты на краткосрочные вклады;
* Выгодные зарплатные проекты и т.д.

# Задание 9.9. 
В какой стране доля ушедших клиентов больше? Постройте тепловую картограмму, которая покажет это соотношение на карте мира. Предположите, с чем это может быть связано.

In [278]:
# Получение категориального признака
churn_df['Exited'] = churn_df['Exited'].replace(0, 'лояльный')
churn_df['Exited'] = churn_df['Exited'].replace(1, 'ушедший')

# Ушедшие клиенты
mask = churn_df['Exited'] == 'ушедший'

# Данные
chrono_data = churn_df[mask].groupby(by=['Geography', 'Exited'], as_index=False)['Exited'].value_counts()
# display(chrono_data)

# Тепловая картограмма
fig_heat = px.choropleth(
    data_frame=chrono_data,
    locations='Geography',
    locationmode='country names',
    color='count',
    height=500,
    width=800,
    title='Доля ушедших клиентов по странам'
)

fig_heat.show()

# Вывод:
Среди стран по количеству ушедших клиентов выделяется Германия. Возможно это связано с менталитетом клиентов (более требовательные к услугам банка, привыкшие к четкости и структурированности в финансовых делах). Возможно причина в недостаточном количестве банковских точек/банкоматов.

# Задание 9.10. 
Переведите числовой признак CreditScore в категориальный. Для этого воспользуйтесь функцией get_credit_score_cat(), которая приведена ниже. Примените её к столбцу CreditScore и создайте новый признак CreditScoreCat — категории кредитного рейтинга.
Постройте сводную таблицу, строками которой являются категории кредитного рейтинга (CreditScoreCat), а столбцами — количество лет, в течение которых клиент пользуется услугами банка (Tenure). В ячейках сводной таблицы должно находиться среднее по признаку оттока (Exited) — доля ушедших пользователей.

На основе полученной сводной таблицы постройте тепловую карту с аннотацией. Найдите на тепловой карте категории клиентов, которые уходят чаще всего.

In [277]:
# Функция преобразовывает числовой признак в категориальный
def get_credit_score_cat(credit_score):
    if credit_score >= 300 and credit_score < 500:
        return "Very_Poor"
    elif credit_score >= 500 and credit_score < 601:
        return "Poor"
    elif credit_score >= 601 and credit_score < 661:
        return "Fair"
    elif credit_score >= 661 and credit_score < 781:
        return "Good"
    elif credit_score >= 781 and credit_score < 851:
        return "Excellent"
    elif credit_score >= 851:
        return "Top"
    elif credit_score < 300:
        return "Deep"

# Получение признака из категориального в числовой
churn_df['Exited'] = churn_df['Exited'].replace('лояльный', 0)
churn_df['Exited'] = churn_df['Exited'].replace('ушедший', 1)

# Создание нового признака
churn_df['CreditScoreCat'] = churn_df['CreditScore'].apply(get_credit_score_cat)

# Сводная таблица
pivot_df = churn_df.pivot_table(
    values='Exited',
    index='CreditScoreCat',
    columns='Tenure',
    aggfunc='mean')

# display(pivot_df)

# Тепловая карта
fig_heatmap = px.imshow(
    pivot_df,    
    title='Категории клиентов уходящие из банка чаще всего'
)

# Наименование в таблице
fig_heatmap.update_layout(xaxis_title='Сколько лет клиент обслуживается в банке', yaxis_title='Кредитный рейтинг')

fig_heatmap.show()

# Вывод:
Согласно тепловой карте, чаще всего уходят клиенты с самым низким кредитным рейтингом.