In [1]:
import numpy as np
import pandas as pd
import plotly 
import plotly.express as px
import plotly.graph_objects as go
import seaborn as sns
%matplotlib inline


In [2]:
df = pd.read_csv('data/churn.csv')

In [3]:
df_treemaps = df

In [4]:
df_treemaps.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10000 non-null  int64  
 1   CustomerId       10000 non-null  int64  
 2   Surname          10000 non-null  object 
 3   CreditScore      10000 non-null  int64  
 4   Geography        10000 non-null  object 
 5   Gender           10000 non-null  object 
 6   Age              10000 non-null  int64  
 7   Tenure           10000 non-null  int64  
 8   Balance          10000 non-null  float64
 9   NumOfProducts    10000 non-null  int64  
 10  HasCrCard        10000 non-null  int64  
 11  IsActiveMember   10000 non-null  int64  
 12  EstimatedSalary  10000 non-null  float64
 13  Exited           10000 non-null  int64  
dtypes: float64(2), int64(9), object(3)
memory usage: 1.1+ MB


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10000 non-null  int64  
 1   CustomerId       10000 non-null  int64  
 2   Surname          10000 non-null  object 
 3   CreditScore      10000 non-null  int64  
 4   Geography        10000 non-null  object 
 5   Gender           10000 non-null  object 
 6   Age              10000 non-null  int64  
 7   Tenure           10000 non-null  int64  
 8   Balance          10000 non-null  float64
 9   NumOfProducts    10000 non-null  int64  
 10  HasCrCard        10000 non-null  int64  
 11  IsActiveMember   10000 non-null  int64  
 12  EstimatedSalary  10000 non-null  float64
 13  Exited           10000 non-null  int64  
dtypes: float64(2), int64(9), object(3)
memory usage: 1.1+ MB


In [6]:
 
df_treemaps['IsActiveMember'] = df['IsActiveMember'].replace(to_replace={'Не _тивный_клиент':'Не активный клиент'})
# df_treemaps['HasCrCard'] = df['HasCrCard'].replace(to_replace={0:'Не имеет кр.карты', 1:'Имеет кр.карту'})
df_treemaps.head()

TypeError: Cannot compare types 'ndarray(dtype=int64)' and 'str'

In [None]:

px.treemap(
      data_frame=df_treemaps, 
           path=[                
                 'Geography', 
                 'CreditScoreCat', 
                 'IsActiveMember', 
                 'HasCrCard', 
                 'NumOfProducts',                                                  
                 'Gender',
                 'Age',
                 'Surname'                
                 ], 
           values='CreditScore',           
           color='Exited', 
           color_continuous_scale=[
                 [0, 'rgb(255, 5, 5)'], 
                 [0.25, 'rgb(195, 196, 183)'], 
                 [0.5, 'rgb(23, 142, 150)'],
                 [0.75, 'rgb(5, 88, 255)'],                  
                 [1, 'rgb(147, 5, 255)']
                 ],                   
           width=1200, height=700
      )

### Числовые признаки


CustomerId -- идентификатор клиента

Age   -- возраст клиента

Balance  -- баланс на счетах клиента в банке

**NumOfProducts  --  количество услуг банка, которые приобрёл клиент**

EstimatedSalary -- предполагаемая заработная плата клиента

Tenure — сколько лет клиент пользуется услугами банка

### Котегориальные признаки

Surname — фамилия клиента

Geography — страна клиента (банк международный)

Gender — пол клиента

HasCrCard — есть ли у клиента кредитная карта (1 — да, 0 — нет)

IsActiveMember — есть ли у клиента статус активного клиента банка (1 — да, 0 — нет)

Exited — статус лояльности (1 — ушедший клиент, 0 — лояльный клиент)

CreditScoreCat -- категории кредитного рейтинга клиента (

    
1 *Excellent(1)* 

2 *Fair(0.5)*

3 *Good(0)*

4 *Poor(-0,5)*

5 *Very_Poor(-1)*




## Условие задания:

***Итак, банк обращается к вам за помощью: он хочет разработать кампанию лояльности по удержанию клиентов, но для этого ему необходимо, чтобы вы выяснили основные причины оттока клиентов. Иными словами, нужно установить, чем ушедшие клиенты отличаются от лояльных и как между собой связаны различные признаки, определяющие клиентов.***

### 9.1 
***Каково соотношение ушедших и лояльных клиентов? Покажите это на графике и дайте комментарий по соотношению.***

In [None]:
px.pie(df, names='Exited',
             title='Соотношение лояльных и ушедших клиентов (график 9.1)',
             width=600, height=300, 
             hole=0.6)


### Анатация:
 На графике 9.1 
соотношение лояльных (синий) и ушедщих (красный) клиентов видно, что ушедших клиентов чуть больше **20%**, лояльных почти **80%** с разницей почти в **60%**

### 9.2.
***Постройте график, показывающий распределение баланса пользователей, у которых на счету больше 2 500 долларов. Опишите распределение и сделайте выводы.***

In [None]:
money_df = df[df['Balance']>=2500].sort_values(by='Age', ascending=True)
px.histogram(money_df, x='Balance', color='Gender', facet_col='Gender',
             marginal='box', width=1000, height=400,
             title='''Распределение баланса пользователей, у которых на счету больше 2 500 долларов (график 9.2) ''')

### Анатация:

### 9.3. 
***Посмотрите на распределение баланса клиента в разрезе признака оттока. Как различаются суммы на накопительном счёте ушедших и лояльных клиентов? Подумайте и напишите, с чем это может быть связано, что может не устраивать ушедших клиентов в банке.***

In [None]:
money_df.head()

In [None]:
px.box(money_df, x='Balance', color='Exited', 
       width=800, height=300, labels={'Exited':'Статус клиента'},
       title='распределение баланса клиента в разрезе признака оттока')

In [None]:
px.box(money_df, x='Balance', color='Exited', y='CreditScoreCat', orientation='h',
       width=1000, height=400, labels={'Exited':'Статус клиента'},
       title='распределение баланса клиента в разрезе признака оттока по категориям кредитного рейтинга')

In [None]:
px.histogram(money_df, x='CreditScoreCat', facet_col='NumOfProducts', facet_row='Exited', color='Gender',
       width=1200, height=600, labels={'Exited':'Статус клиента'},
       title='распределение баланса клиента в разрезе признака оттока по категориям возрастным группам')

Описание:

### 9.4. 
***Посмотрите на распределение возраста в разрезе признака оттока. В какой группе больше потенциальных выбросов? На какую возрастную категорию клиентов стоит обратить внимание банку?***

In [None]:
px.box(money_df, x='Age', color='Exited',
       width=800, height=400,
       facet_row='Exited', facet_col='Gender',
       labels={'Exited':'Статус'},
       title='распределение возраста клиента в разрезе признака оттока')

Описание:

### 9.5. 
***Постройте график, который показывает взаимосвязь кредитного рейтинга клиента и его предполагаемой зарплаты. Добавьте расцветку по признаку оттока клиентов. Какова взаимосвязь между признаками? Если не видите явной взаимосвязи, укажите это.***

In [None]:
df_salary = df.groupby(['CreditScoreCat', 'Exited'], as_index=False)['EstimatedSalary'].median()
df_salary.head()
       

In [None]:
px.histogram(df_salary, x='CreditScoreCat', y='EstimatedSalary', color='Exited', facet_row='Exited', text_auto=True, width=800, height=600, title='взаимосвязь кредитного рейтинга клиента и его предполагаемой зарплаты')

Описание:

### 9.6
***Кто чаще уходит, мужчины или женщины? Постройте график, который иллюстрирует это.***

In [None]:
px.histogram(df_gones, x='Exited', 
             facet_col='Gender', 
             color='Gender',
             width=600, height=300, 
             )

### 9.7. 
***Как отток клиентов зависит от числа приобретённых у банка услуг? Для ответа на этот вопрос постройте многоуровневую столбчатую диаграмму.***

Описание:

### 9.8. 
***Как влияет наличие статуса активного клиента на отток клиентов? Постройте диаграмму, иллюстрирующую это. Что бы вы предложили банку, чтобы уменьшить отток клиентов среди неактивных?***

In [None]:
df_activ = df.groupby(['Geography', 'IsActiveMember'], as_index=False)['Exited'].value_counts()
df_activ

In [None]:
px.bar(df_activ, x='Geography', y='count', facet_col='IsActiveMember', color='Geography', facet_row='Exited', width=800, height=500)

Описание:

### 9.9. 
***В какой стране доля ушедших клиентов больше? Постройте тепловую картограмму, которая покажет это соотношение на карте мира. Предположите, с чем это может быть связано.***

In [None]:
df_exited = df.query('Exited == 1')
df_exitedSiti = df_exited.groupby('Geography', as_index=False)['Exited'].value_counts()
#

In [None]:
df_exitedSiti.head()

Описание:

In [None]:
px.choropleth(
    data_frame=df_exitedSiti, #DataFrame
    locations="Geography", #столбец с локациями
    locationmode = "country names", #режим сопоставления локаций с базой Plotly
    color="count", #от чего зависит цвет
    #animation_frame="Tenure", #анимационный бегунок
    range_color=[0, 1000], #диапазон цвета
    title='@@@@@@@@@@@@@@@@@@@@', #заголовок
    width=800, #ширина
    height=500, #высота
    scope='europe'
)



In [None]:
px.scatter_geo(df_exitedSiti, 
               color='count', 
               size='count', 
               locationmode='country names', 
               scope ='europe', 
               fitbounds ='locations', 
               locations='Geography',             
               text='count',
               width=800, height=500,
               title='Количество ушедших клиентов')

In [None]:
px.pie(df_exitedSiti, names='Geography', values='count', width=600, height=300)

#### 9.10. 
***Переведите числовой признак CreditScore в категориальный. Для этого воспользуйтесь функцией get_credit_score_cat(), которая приведена ниже. Примените её к столбцу CreditScore и создайте новый признак CreditScoreCat — категории кредитного рейтинга.***

In [None]:
def get_credit_score_cat(credit_score):
    if credit_score >= 300 and credit_score < 500:
        return "Very_Poor"
    elif credit_score >= 500 and credit_score < 601:
        return "Poor"
    elif credit_score >= 601 and credit_score < 661:
        return "Fair"
    elif credit_score >= 661 and credit_score < 781:
        return "Good"
    elif credit_score >= 781 and credit_score < 851:
        return "Excellent"
    elif credit_score >= 851:
        return "Top"
    elif credit_score < 300:
        return "Deep"

In [None]:
df['CreditScoreCat']= df['CreditScore'].aggregate(get_credit_score_cat).astype('category')

***Постройте сводную таблицу, строками которой являются категории кредитного рейтинга (CreditScoreCat), а столбцами — количество лет, в течение которых клиент пользуется услугами банка (Tenure). В ячейках сводной таблицы должно находиться среднее по признаку оттока (Exited) — доля ушедших пользователей.***

***На основе полученной сводной таблицы постройте тепловую карту с аннотацией. Найдите на тепловой карте категории клиентов, которые уходят чаще всего.***

In [None]:
df_pivotT = df.pivot_table(
    values='Exited',
    index='CreditScoreCat',
    columns='Tenure',
    aggfunc='mean',
    fill_value=0,
)

In [None]:
df_pivotT

In [None]:
px.imshow( df_pivotT, text_auto='.2f', width=800, height=500)

In [None]:
df['Age'].describe()

18-30 30-45 45-63 63-92

In [None]:
def CatAge(age):
    if age >= 18 and age < 25:
        return 'age_18-25'
    elif age >= 25 and age < 35:
        return 'age_25-35'
    elif age >= 35 and age < 45:
        return 'age_35-45'
    elif age >= 45 and age <= 55:
        return 'age_45-55'
    elif age >= 55 and age < 63:
        return 'age_55-63'
    elif age >= 63 and age < 92:
        return 'age_63-92'

In [None]:
df['Cat_Age']  = df['Age'].aggregate(CatAge).astype('category')

In [None]:
df.head(20)

In [None]:
df_pivot_age = df.pivot_table(
    values='HasCrCard',
    index= 'Tenure',
    columns='CreditScoreCat',
    aggfunc='mean',
    fill_value=0,)

In [None]:
df_pivot_age.head()

In [None]:
px.imshow(df_pivot_age, text_auto='.2f', width=1000, height=600, aspect='auto')

In [None]:
df_pivot_tenure = df.pivot_table(
    values='Exited',
    index= 'Tenure',
    columns='Cat_Age',
    aggfunc='mean',
    fill_value=0,)

In [None]:
df_pivot_tenure.head()

In [None]:
px.imshow(df_pivot_tenure, text_auto='.2f', width=1000, height=600, aspect='auto')

Список доступных для изменения параметров можно получить с
помощью функции **axes_style():**

In [None]:
sns.axes_style()

In [None]:
mean_df_balance = df.groupby(['Exited',  'CreditScoreCat',  'Tenure'], as_index=False).agg({'Balance':'median', 'Tenure':'mean'})

In [None]:
mean_df_balance

In [None]:
px.histogram(mean_df_balance, y='Balance', x='CreditScoreCat', facet_col='Tenure', color='CreditScoreCat', facet_row='Exited', width=1600, height=400)

In [None]:
mean_df_balance2 = df.groupby(['Exited',  'CreditScoreCat', 'Tenure'], as_index=False).agg({'Balance':'median'})

In [None]:
mean_df_balance2.head()

In [None]:
sns.set_style("whitegrid", {'axes.labelcolor':"b", 'axes.edgecolor':'b',
'xtick.color':'r', 'ytick.color':'r'})
sp =sns.catplot(x='CreditScoreCat', y='Balance', kind='swarm', data=mean_df_balance2, orient='v', col='Exited', hue='CreditScoreCat')

