In [1]:
# Importa os pacotes de manipulação e visualização de dados
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Define a formatação padrão para a visualização de dataframes 
# completos e números com 2 casas decimais
pd.set_option('display.max_columns', None)
pd.options.display.float_format = "{:,.2f}".format

In [2]:
# Traz o dataframe à partir do csv de dados de crédito bancário
df = pd.read_csv(".\BankChurners.csv")
df.head()

Unnamed: 0,CLIENTNUM,Attrition_Flag,Customer_Age,Gender,Dependent_count,Education_Level,Marital_Status,Income_Category,Card_Category,Months_on_book,Total_Relationship_Count,Months_Inactive_12_mon,Contacts_Count_12_mon,Credit_Limit,Total_Revolving_Bal,Avg_Open_To_Buy,Total_Amt_Chng_Q4_Q1,Total_Trans_Amt,Total_Trans_Ct,Total_Ct_Chng_Q4_Q1,Avg_Utilization_Ratio,Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_1,Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_2
0,768805383,Existing Customer,45,M,3,High School,Married,$60K - $80K,Blue,39,5,1,3,12691.0,777,11914.0,1.33,1144,42,1.62,0.06,0.0,1.0
1,818770008,Existing Customer,49,F,5,Graduate,Single,Less than $40K,Blue,44,6,1,2,8256.0,864,7392.0,1.54,1291,33,3.71,0.1,0.0,1.0
2,713982108,Existing Customer,51,M,3,Graduate,Married,$80K - $120K,Blue,36,4,1,0,3418.0,0,3418.0,2.59,1887,20,2.33,0.0,0.0,1.0
3,769911858,Existing Customer,40,F,4,High School,Unknown,Less than $40K,Blue,34,3,4,1,3313.0,2517,796.0,1.41,1171,20,2.33,0.76,0.0,1.0
4,709106358,Existing Customer,40,M,3,Uneducated,Married,$60K - $80K,Blue,21,5,1,0,4716.0,0,4716.0,2.17,816,28,2.5,0.0,0.0,1.0


In [3]:
df.duplicated().sum()

0

In [4]:
df.duplicated(subset=['CLIENTNUM']).sum()

0

In [5]:
# Excluindo colunas que contém 'Naive_Bayes', que são colunas 
# numéricas usadas para modelagem, e o número do cliente
# que é uma coluna numérica que seria utilizada somente como 
# chave primária para cruzar com outros dataframes, e não carrega
# informação acionável
drop_col = ['CLIENTNUM', 'Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_1', 'Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_2']
df1 = df.drop(drop_col, axis=1)
df1.head()

Unnamed: 0,Attrition_Flag,Customer_Age,Gender,Dependent_count,Education_Level,Marital_Status,Income_Category,Card_Category,Months_on_book,Total_Relationship_Count,Months_Inactive_12_mon,Contacts_Count_12_mon,Credit_Limit,Total_Revolving_Bal,Avg_Open_To_Buy,Total_Amt_Chng_Q4_Q1,Total_Trans_Amt,Total_Trans_Ct,Total_Ct_Chng_Q4_Q1,Avg_Utilization_Ratio
0,Existing Customer,45,M,3,High School,Married,$60K - $80K,Blue,39,5,1,3,12691.0,777,11914.0,1.33,1144,42,1.62,0.06
1,Existing Customer,49,F,5,Graduate,Single,Less than $40K,Blue,44,6,1,2,8256.0,864,7392.0,1.54,1291,33,3.71,0.1
2,Existing Customer,51,M,3,Graduate,Married,$80K - $120K,Blue,36,4,1,0,3418.0,0,3418.0,2.59,1887,20,2.33,0.0
3,Existing Customer,40,F,4,High School,Unknown,Less than $40K,Blue,34,3,4,1,3313.0,2517,796.0,1.41,1171,20,2.33,0.76
4,Existing Customer,40,M,3,Uneducated,Married,$60K - $80K,Blue,21,5,1,0,4716.0,0,4716.0,2.17,816,28,2.5,0.0


# Hipóteses

In [6]:
# Mudança das faixas de renda para valores fixos
df_teste = df1.copy()
df_teste.Income_Category.replace({'Less than $40K':30000},inplace=True)
df_teste.Income_Category.replace({'$40K - $60K':50000},inplace=True)
df_teste.Income_Category.replace({'$60K - $80K':70000},inplace=True)
df_teste.Income_Category.replace({'$80K - $120K':100000},inplace=True)
df_teste.Income_Category.replace({'$120K +':120000},inplace=True)
df_teste.Income_Category.replace({'Unknown':np.nan},inplace=True)

In [7]:
# Mudando os Unknows para os valores que são a moda
df_teste.replace({'Marital_Status':{'Unknown':df1['Marital_Status'].mode()}, 
            'Income_Category':{'Unknown':df1['Income_Category'].mode()},
            'Education_Level':{'Unknown':df1['Education_Level'].mode()}},
            inplace=True)

## Qual a influência do nível educacional no salário, no uso do crédito rotativo, no limite de crédito e nos valores das transações?

#### Income_Category
Não existem diferenças significativas entre as médias de renda. Entretanto vale destacar que a média salarial dos clientes que não possuem formação alguma chega a ser maior que daqueles que se graduam ou que fazem pós graduação ou que obtem o doutorado.

In [8]:
df_teste.groupby(['Education_Level'])[['Income_Category']].mean().sort_values(by='Income_Category')

Unnamed: 0_level_0,Income_Category
Education_Level,Unnamed: 1_level_1
Graduate,58697.84
Doctorate,59081.36
Post-Graduate,59147.12
Uneducated,59708.14
High School,60296.42
College,60375.69


#### Total_Revolving_Bal
Percebe-se que os clientes que possuem doutorado são os que menos utilizam o crédito rotativo seguido daquelas que estão em College e das que não possuem educação formal. Vale destacar que a ausência de educação formal não implica em maior utilização do crédito rotativo.

In [9]:
df_teste.groupby(['Education_Level'])[['Total_Revolving_Bal']].mean().sort_values(by='Total_Revolving_Bal')

Unnamed: 0_level_0,Total_Revolving_Bal
Education_Level,Unnamed: 1_level_1
Doctorate,1094.08
College,1135.78
Uneducated,1154.08
Graduate,1161.75
Post-Graduate,1187.67
High School,1194.35


#### Credit_Limit
Nota-se que em média, os clientes sem educação formal são os que mais possuem limite de crédito, enquanto que os clientes com o maior nível de educação formal possuem o menor limite de crédito. A disposição dos níveis educacionais em função dos limites de crédito mostram que o limite de crédito não está atrelado ao nível educacional do cliente.

In [10]:
df_teste.groupby(['Education_Level'])[['Credit_Limit']].mean().sort_values(by='Credit_Limit')

Unnamed: 0_level_0,Credit_Limit
Education_Level,Unnamed: 1_level_1
Doctorate,8413.26
Graduate,8541.81
High School,8605.82
College,8684.54
Post-Graduate,8862.56
Uneducated,8899.51


#### Total_Trans_Amt
Uma vez mais, pode-se observar que a média total de transações não está ligada ao nível educacional dos clientes. Isso é corrobarado pelo fato dos níveis educacionais não se encontrarem em ordem crescente ou decrescente quando se organizam os valores totais de transação.

In [11]:
df_teste.groupby(['Education_Level'])[['Total_Trans_Amt']].mean().sort_values(by='Total_Trans_Amt')

Unnamed: 0_level_0,Total_Trans_Amt
Education_Level,Unnamed: 1_level_1
Doctorate,4193.02
College,4255.81
High School,4403.74
Graduate,4419.0
Uneducated,4484.34
Post-Graduate,4515.41


## Solteiros e sem dependentes tem limite maior?

In [12]:
# Filtragem para os solteiros
df_single = df_teste[df['Marital_Status'] == 'Single']
df_single.groupby(['Marital_Status','Dependent_count'])[['Credit_Limit']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Credit_Limit
Marital_Status,Dependent_count,Unnamed: 2_level_1
Single,0,7695.8
Single,1,8279.27
Single,2,9079.85
Single,3,9352.5
Single,4,10167.22
Single,5,8661.33


Em média, os solteiros sem dependentes apresentam os limites menores. Nota-se que de 0 a 4 dependendentes a média do limite tende a crescer, porém ao se alcançar 5 dependentes ele decai a um nível de crédito que fica entre os solteiros que tem 1 e 2 dependentes.

## Clientes mais jovens usam mais crédito rotativo?

In [13]:
df_teste['Customer_Age_period'] = pd.cut(np.array(df_teste['Customer_Age']), 
                                              bins=int(df1.Customer_Age.std()),
                                              precision=0)
df_teste.drop('Customer_Age', axis=1, inplace = True)

In [14]:
df_teste.groupby(['Customer_Age_period'])[['Total_Revolving_Bal']].mean()

Unnamed: 0_level_0,Total_Revolving_Bal
Customer_Age_period,Unnamed: 1_level_1
"(26.0, 32.0]",1109.53
"(32.0, 38.0]",1199.43
"(38.0, 44.0]",1155.4
"(44.0, 50.0]",1129.54
"(50.0, 55.0]",1184.05
"(55.0, 61.0]",1204.89
"(61.0, 67.0]",1178.19
"(67.0, 73.0]",1293.0


Não, são os clientes mais velhos que em média mais usam o crédito rotativo.

## Clientes que usaram mais usam o crédito rotativo fazem mais transações?

In [15]:
# bins = pd.IntervalIndex.from_tuples([(-0.01, 600), (600, 1200), (1200, 1800), (1800, 2400),(2400,3000)])
# df_teste['Total_Revolving_Bal_range'] = pd.cut(np.array(df_teste['Total_Revolving_Bal']), 
#                                               bins,
#                                               precision=0)
# df_teste.groupby(['Total_Revolving_Bal_range'])[['Total_Trans_Ct']].mean()

In [16]:
df_teste['Total_Revolving_Bal_range'] = pd.cut(np.array(df_teste['Total_Revolving_Bal']), bins=[-0.01, 600, 1200, 1800, 2400, 9999],
                                               labels=['[0, 600]', '(600, 1200]', '(1200, 1800]', '(1800, 2400]', '2400+'], 
                                               right=True, precision=0)

In [17]:
df_teste.groupby(['Total_Revolving_Bal_range'])[['Total_Trans_Ct']].mean()

Unnamed: 0_level_0,Total_Trans_Ct
Total_Revolving_Bal_range,Unnamed: 1_level_1
"[0, 600]",60.85
"(600, 1200]",67.4
"(1200, 1800]",66.98
"(1800, 2400]",66.18
2400+,60.74


## Clientes que usaram mais o rotativo fazem transações com maior valor?

In [18]:
df_teste.groupby(['Total_Revolving_Bal_range'])[['Total_Trans_Amt']].mean()

Unnamed: 0_level_0,Total_Trans_Amt
Total_Revolving_Bal_range,Unnamed: 1_level_1
"[0, 600]",3978.61
"(600, 1200]",4474.77
"(1200, 1800]",4597.15
"(1800, 2400]",4699.95
2400+,4289.36


## Clientes com mais crédito rotativo tem cartões "melhores"?

In [19]:
df_teste.groupby(['Total_Revolving_Bal_range','Card_Category'])[['Card_Category']].count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Card_Category
Total_Revolving_Bal_range,Card_Category,Unnamed: 2_level_1
"[0, 600]",Blue,2545
"[0, 600]",Gold,21
"[0, 600]",Platinum,6
"[0, 600]",Silver,139
"(600, 1200]",Blue,1887
"(600, 1200]",Gold,23
"(600, 1200]",Platinum,0
"(600, 1200]",Silver,96
"(1200, 1800]",Blue,2748
"(1200, 1800]",Gold,33


## Pessoas com cartão "inferiores" sairam do banco?

In [20]:
df_teste[df_teste['Attrition_Flag'] == 'Attrited Customer'].groupby(['Attrition_Flag','Card_Category'])[['Card_Category']].count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Card_Category
Attrition_Flag,Card_Category,Unnamed: 2_level_1
Attrited Customer,Blue,1519
Attrited Customer,Gold,21
Attrited Customer,Platinum,5
Attrited Customer,Silver,82


In [21]:
# df_teste[df_teste['Attrition_Flag'] == 'Attrited Customer'].groupby(['Attrition_Flag','Gender','Card_Category'])[['Card_Category']].count()

In [22]:
# df_teste[df_teste['Attrition_Flag'] == 'Existing Customer'].groupby(['Attrition_Flag','Gender','Card_Category'])[['Card_Category']].count()

## Qual a proporção de homens e mulheres que sairam do banco?

In [23]:
df_teste[df_teste['Attrition_Flag'] == 'Attrited Customer'].groupby(['Attrition_Flag','Gender'])[['Gender']].count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Gender
Attrition_Flag,Gender,Unnamed: 2_level_1
Attrited Customer,F,930
Attrited Customer,M,697


In [24]:
#Proporção de homens e mulheres que continuam no banco
# df_teste[df_teste['Attrition_Flag'] == 'Existing Customer'].groupby(['Attrition_Flag','Gender'])[['Gender']].count()

## Qual a influência do estado civil no salário, no uso do crédito rotativo, no limite de crédito e nos valores das transações?

In [25]:
df_teste.groupby(['Marital_Status'])[['Income_Category']].mean().sort_values(by='Income_Category')

Unnamed: 0_level_0,Income_Category
Marital_Status,Unnamed: 1_level_1
Single,58365.25
Divorced,58961.83
Married,60146.06


In [26]:
df_teste.groupby(['Marital_Status'])[['Total_Revolving_Bal']].mean().sort_values(by='Total_Revolving_Bal')

Unnamed: 0_level_0,Total_Revolving_Bal
Marital_Status,Unnamed: 1_level_1
Single,1124.24
Divorced,1155.98
Married,1191.73


In [27]:
df_teste.groupby(['Marital_Status'])[['Credit_Limit']].mean().sort_values(by='Credit_Limit')

Unnamed: 0_level_0,Credit_Limit
Marital_Status,Unnamed: 1_level_1
Married,8265.24
Single,8999.68
Divorced,9358.57


In [28]:
df_teste.groupby(['Marital_Status'])[['Total_Trans_Amt']].mean().sort_values(by='Total_Trans_Amt')

Unnamed: 0_level_0,Total_Trans_Amt
Marital_Status,Unnamed: 1_level_1
Married,4248.73
Divorced,4529.09
Single,4594.55
