## <center> Итоговое задание по блоку визуализации

#### Нам представлен датасет с данными об оттоке клиентов некоторого банка.

#### Банк обращается к нам за помощью: он хочет разработать кампанию лояльности по удержанию клиентов, но для этого ему необходимо, чтобы мы выяснили основные причины оттока клиентов. Иными словами, нужно установить, чем ушедшие клиенты отличаются от лояльных и как между собой связаны различные признаки, определяющие клиентов.

#### После разведывательного анализа, с целью выявления наиболее важных признаков оттока, банк сможет построить модель машинного обучения, которая будет прогнозировать уход клиента.

In [1]:
# импортируем необходимые библиотеки
import pandas as pd
import plotly
import plotly.express as px
print(plotly.__version__)

5.9.0


# About Dataset


### Content
 - RowNumber—corresponds to the record (row) number and has no effect on the output.
 - CustomerId—contains random values and has no effect on customer leaving the bank.
 - Surname—the surname of a customer has no impact on their decision to leave the bank.
 - CreditScore—can have an effect on customer churn, since a customer with a higher credit score is less likely to leave the bank.
 - Geography—a customer’s location can affect their decision to leave the bank.
 - Gender—it’s interesting to explore whether gender plays a role in a customer leaving the bank.
 - Age—this is certainly relevant, since older customers are less likely to leave their bank than younger ones.
 - Tenure—refers to the number of years that the customer has been a client of the bank. Normally, older clients are more loyal and less likely to leave a bank.
   - Balance—also a very good indicator of customer churn, as people with a higher balance in their accounts are less likely to leave the bank compared to those with lower balances.
   - NumOfProducts—refers to the number of products that a customer has purchased through the bank.
   - HasCrCard—denotes whether or not a customer has a credit card. This column is also relevant, since people with a credit card are less likely to leave the bank.
   - IsActiveMember—active customers are less likely to leave the bank.
   - EstimatedSalary—as with balance, people with lower salaries are more likely to leave the bank compared to those with higher salaries.
   - Exited—whether or not the customer left the bank.


In [2]:
churn_data = pd.read_csv('data/churn.csv')
churn_data.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


In [3]:
# во избежание потери данных из исходника, копируем датасет для дальнейшей работы
churn_dataset = churn_data.copy()
churn_data.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


`9.1.` Каково соотношение ушедших и лояльных клиентов? Покажите это на графике и дайте комментарий по соотношению.

9.2. Постройте график, показывающий распределение баланса пользователей, у которых на счету больше 2 500 долларов. Опишите распределение и сделайте выводы.

9.3. Посмотрите на распределение баланса клиента в разрезе признака оттока. Как различаются суммы на накопительном счёте ушедших и лояльных клиентов? Подумайте и напишите, с чем это может быть связано, что может не устраивать ушедших клиентов в банке.

9.4. Посмотрите на распределение возраста в разрезе признака оттока. В какой группе больше потенциальных выбросов? На какую возрастную категорию клиентов стоит обратить внимание банку?

9.5. Постройте график, который показывает взаимосвязь кредитного рейтинга клиента и его предполагаемой зарплаты. Добавьте расцветку по признаку оттока клиентов. Какова взаимосвязь между признаками? Если не видите явной взаимосвязи, укажите это.

9.6. Кто чаще уходит, мужчины или женщины? Постройте график, который иллюстрирует это.

9.7. Как отток клиентов зависит от числа приобретённых у банка услуг? Для ответа на этот вопрос постройте многоуровневую столбчатую диаграмму.

9.8. Как влияет наличие статуса активного клиента на отток клиентов? Постройте диаграмму, иллюстрирующую это. Что бы вы предложили банку, чтобы уменьшить отток клиентов среди неактивных?

9.9. В какой стране доля ушедших клиентов больше? Постройте тепловую картограмму, которая покажет это соотношение на карте мира. Предположите, с чем это может быть связано.

9.10. Переведите числовой признак CreditScore в категориальный. Для этого воспользуйтесь функцией get_credit_score_cat(), которая приведена ниже. Примените её к столбцу CreditScore и создайте новый признак CreditScoreCat — категории кредитного рейтинга.

In [None]:
# def get_credit_score_cat(credit_score):
#     if credit_score >= 300 and credit_score < 500:
#         return "Very_Poor"
#     elif credit_score >= 500 and credit_score < 601:
#         return "Poor"
#     elif credit_score >= 601 and credit_score < 661:
#         return "Fair"
#     elif credit_score >= 661 and credit_score < 781:
#         return "Good"
#     elif credit_score >= 781 and credit_score < 851:
#         return "Excellent"
#     elif credit_score >= 851:
#         return "Top"
#     elif credit_score < 300:
#         return "Deep"

Постройте сводную таблицу, строками которой являются категории кредитного рейтинга (CreditScoreCat), а столбцами — количество лет, в течение которых клиент пользуется услугами банка (Tenure). В ячейках сводной таблицы должно находиться среднее по признаку оттока (Exited) — доля ушедших пользователей.

На основе полученной сводной таблицы постройте тепловую карту с аннотацией. Найдите на тепловой карте категории клиентов, которые уходят чаще всего.

### <center> *Сохраняем итоговый датафрейм в файл .csv*

In [None]:
# churn_dataset.to_csv('data/churn_dataset.csv', index=False, sep=';')