In [16]:
import pandas as pd
import numpy as np
import plotly.express as px
from sklearn.preprocessing import LabelEncoder

### Nesse trabalho usaremos uma base de dados retirada do kaggle, através do link https://www.kaggle.com/sakshigoyal7/credit-card-customers. A partir disso faremos as seguintes análises:

#### 1 - Uma maior escolaridade implica em uma maior renda?
#### 2 - Ter uma maior renda implica necessariamente em um maior limite de crédito?
#### 3 - O que é mais importante para um maior limite de crédito? O número de transações ou os valores que foram transacionados?
#### 4 - Clientes que passam maiores períodos de tempo inativos gastam menos?
#### 5 - O numero de dependentes e a escolaridade de um cliente influencia no seu limite de crédito?
#### 6 - 
#### 7 - 
#### 8 - 
#### 9 - 
#### 10 - 

# Importação do dataset de Dados Bancários

In [17]:
df = pd.read_csv('BankChurners.csv')

In [18]:
df

Unnamed: 0,CLIENTNUM,Attrition_Flag,Customer_Age,Gender,Dependent_count,Education_Level,Marital_Status,Income_Category,Card_Category,Months_on_book,...,Credit_Limit,Total_Revolving_Bal,Avg_Open_To_Buy,Total_Amt_Chng_Q4_Q1,Total_Trans_Amt,Total_Trans_Ct,Total_Ct_Chng_Q4_Q1,Avg_Utilization_Ratio,Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_1,Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_2
0,768805383,Existing Customer,45,M,3,High School,Married,$60K - $80K,Blue,39,...,12691.0,777,11914.0,1.335,1144,42,1.625,0.061,0.000093,0.999910
1,818770008,Existing Customer,49,F,5,Graduate,Single,Less than $40K,Blue,44,...,8256.0,864,7392.0,1.541,1291,33,3.714,0.105,0.000057,0.999940
2,713982108,Existing Customer,51,M,3,Graduate,Married,$80K - $120K,Blue,36,...,3418.0,0,3418.0,2.594,1887,20,2.333,0.000,0.000021,0.999980
3,769911858,Existing Customer,40,F,4,High School,Unknown,Less than $40K,Blue,34,...,3313.0,2517,796.0,1.405,1171,20,2.333,0.760,0.000134,0.999870
4,709106358,Existing Customer,40,M,3,Uneducated,Married,$60K - $80K,Blue,21,...,4716.0,0,4716.0,2.175,816,28,2.500,0.000,0.000022,0.999980
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10122,772366833,Existing Customer,50,M,2,Graduate,Single,$40K - $60K,Blue,40,...,4003.0,1851,2152.0,0.703,15476,117,0.857,0.462,0.000191,0.999810
10123,710638233,Attrited Customer,41,M,2,Unknown,Divorced,$40K - $60K,Blue,25,...,4277.0,2186,2091.0,0.804,8764,69,0.683,0.511,0.995270,0.004729
10124,716506083,Attrited Customer,44,F,1,High School,Married,Less than $40K,Blue,36,...,5409.0,0,5409.0,0.819,10291,60,0.818,0.000,0.997880,0.002118
10125,717406983,Attrited Customer,30,M,2,Graduate,Unknown,$40K - $60K,Blue,36,...,5281.0,0,5281.0,0.535,8395,62,0.722,0.000,0.996710,0.003294


## Limpeza dos dados

### Removendo as duas últimas colunas pois elas não serão usadas

In [19]:
df.drop(columns=df.columns[-2:], inplace=True)

### Removendo a coluna 'Card_Category' pois as colunas 'Credit_Limit' e 'Card_Category' possuem uma baixa correlação. Isso pode acontecer pois possívelmente a categoria do cartão influencia apenas no limite de crédito, algo que já existe no dataset. 

In [20]:
le = LabelEncoder()
df['Card_Category'] = le.fit_transform(df['Card_Category'])
df['Credit_Limit'] = le.fit_transform(df['Credit_Limit'])
df[['Card_Category', 'Credit_Limit']].corr()

Unnamed: 0,Card_Category,Credit_Limit
Card_Category,1.0,0.390493
Credit_Limit,0.390493,1.0


In [21]:
df['Credit_Limit'] = le.inverse_transform(df['Credit_Limit'])
df.drop(columns=['Card_Category'], inplace=True)

### Excluindo os sifrões da coluna "Income_Category", que significa Categoria de Renda, pois é implícito que a renda é mostrada como dólares por ano e também para despoluir um pouco os dados. 

In [22]:
df['Income_Category'] = [income.replace('$', '').replace('Less than', '-') for income in df['Income_Category']]

### Substituindo 'Existing Customer' por 0 e 'Attrited Customer' por 1 para simplificar os dados, pois essa coluna nos diz se a conta bancária foi encerrada (1) ou não (0)

In [23]:
df['Attrition_Flag'] = [account.replace('Existing Customer', '0').replace('Attrited Customer', '1') for account in df['Attrition_Flag']]

# Gráficos das divisões dos clientes por cada feature

## Clientes por Sexo

In [25]:
fig = px.pie(df, names='Gender', title='Clientes por Sexo', )
fig.update_layout(height=400, width=700)
fig.show()

## Clientes por Escolaridade

In [26]:
fig = px.pie(df, names='Education_Level', title='Clientes por Escolaridade')
fig.update_layout(height=400, width=700)
fig.show()

## Clientes por Renda Anual

In [27]:
fig = px.pie(df, names='Income_Category', title='Clientes por Renda Anual')
fig.update_layout(height=400, width=700)
fig.show()

## Clientes por Estado Civil

In [28]:
fig = px.pie(df, names='Marital_Status', title='Clientes por Estado Civil')
fig.update_layout(height=400, width=700)
fig.show()

## Clientes por Número de dependentes

In [134]:
fig = px.pie(df, names='Dependent_count', title='Clientes por Número de dependentes')
fig.update_layout(height=400, width=700)
fig.show()

## Análise dos dados

### 1. Uma maior escolaridade implica em uma maior renda?

#### Primeiro iremos descartar as linhas onde não temos informações da escolaridade do cliente, ou seja, a escolaridade é dada como 'Unknown'

In [193]:
#education_income_df = df.drop(df[(df['Education_Level'] == 'Unknown') & (df['Income_Category'] == 'Unknown')].index)#, df.loc[df['Credit_Limit'] == 'Unknown'].index)
education_income_df = df.drop(df[df['Education_Level'] == 'Unknown'].index)
#education_income_df = df.drop(df[df['Income_Category'] == 'Unknown'].index)
# education_income_df = education_income_df.drop(education_income_df.loc[education_income_df['Credit_Limit'] == 'Unknown'].index)
education_income_df[['Education_Level', 'Income_Category']].sort_values(by=['Education_Level'])

Unnamed: 0,Education_Level,Income_Category
5064,College,- 40K
7071,College,- 40K
7078,College,- 40K
1630,College,40K - 60K
7079,College,- 40K
...,...,...
8900,Unknown,60K - 80K
5705,Unknown,- 40K
629,Unknown,- 40K
5708,Unknown,120K +


In [184]:
education_income_df = education_income_df[['Education_Level', 'Income_Category']]
education_income_df.sort_values(by=['Education_Level']).value_counts()

Education_Level  Income_Category
Graduate         - 40K              1139
High School      - 40K               671
Unknown          - 40K               556
Graduate         40K - 60K           553
Uneducated       - 40K               522
Graduate         80K - 120K          478
                 60K - 80K           422
High School      40K - 60K           355
College          - 40K               345
Graduate         Unknown             332
High School      80K - 120K          308
                 60K - 80K           307
Unknown          40K - 60K           269
Uneducated       40K - 60K           249
High School      Unknown             225
Unknown          80K - 120K          219
Uneducated       80K - 120K          217
Unknown          60K - 80K           210
Graduate         120K +              204
Uneducated       60K - 80K           195
                 Unknown             185
College          40K - 60K           183
                 80K - 120K          175
Post-Graduate    - 40K  

### 2. Ter uma maior renda implica necessariamente em um maior limite de crédito?

### 3. O que é mais importante para um maior limite de crédito? O número de transações ou os valores que foram transacionados?

### 4. Clientes que passam maiores períodos de tempo inativos gastam menos?

### 5. O numero de dependentes e a escolaridade de um cliente influencia no seu limite de crédito?

#### a. Dependentes

#### Vemos que a maioria dos clientes possuem 2 ou 3 filhos e a minoria nenhum ou 5 filhos.

In [145]:
df['Dependent_count'].value_counts()

3    2732
2    2655
1    1838
4    1574
0     904
5     424
Name: Dependent_count, dtype: int64

In [161]:
dict_mean_dependents = {}
dependent_df = df[['Dependent_count', 'Credit_Limit']]
for dependents in dependent_df['Dependent_count'].unique():
    dict_mean_dependents[dependents] = dependent_df.loc[dependent_df['Dependent_count']== dependents].mean()
dependents_mean_credit_df = pd.DataFrame.from_dict(dict_mean_dependents).transpose()
dependents_mean_credit_df.sort_values(by=['Dependent_count'])

Unnamed: 0,Dependent_count,Credit_Limit
0,0.0,7160.763717
1,1.0,7905.123449
2,2.0,8717.175292
3,3.0,8976.506589
4,4.0,9454.955019
5,5.0,9110.453302


#### Veja que o número de dependentes possui uma certa influencia no limite de crédito. Se olharmos para clientes com 0 ou 1 dependentes, podemos ver que possuem um limite muito menor que clientes com 2 ou mais, o mesmo vale para clientes com 4 ou 5 dependentes. Apesar de clientes com 5 dependentes possuírem em média um limite menor, o que pode ser consequência de outros fatores como nível de escolaridade, número de transações, renda anual, etc. Podemos concluir que de certa forma quanto mais dependentes o cliente tiver, maior será seu limite de crédito. 

#### b. Escolaridade

#### Primeiro iremos descartar as linhas onde não temos informações da escolaridade do cliente, ou seja, a escolaridade é dada como 'Unknown'

In [124]:
education_df = df.drop(df.loc[df['Education_Level'] == 'Unknown'].index)
education_df['Education_Level'].value_counts()

Graduate         3128
High School      2013
Uneducated       1487
College          1013
Post-Graduate     516
Doctorate         451
Name: Education_Level, dtype: int64

In [125]:
education_mean_credit_df = education_df[['Education_Level', 'Credit_Limit']]

dict_mean = { 'Uneducated' : '',
              'High School' : '',
              'Graduate' : '',
              'College' : '',
              'Post-Graduate' : '',
              'Doctorate' : ''
}
#education_mean_credit_df.loc[education_mean_credit_df['Education_Level'] == 'Post-Graduate']
for educ_lvl in education_mean_credit_df['Education_Level'].unique():
    dict_mean[educ_lvl] = education_mean_credit_df.loc[education_mean_credit_df['Education_Level']== educ_lvl].mean()
education_mean_credit_df = pd.DataFrame.from_dict(dict_mean).transpose()
education_mean_credit_df

Unnamed: 0,Credit_Limit
Uneducated,8899.509011
High School,8605.823547
Graduate,8566.100927
College,8684.53613
Post-Graduate,8862.560465
Doctorate,8413.25898


#### Veja que todos os níveis de educação possuem uma média de limite de crédito praticamente iguais

#### Agora avaliaremos as escolaridades dos clientes que possuem o maior limite disponível

In [126]:
education_df['Credit_Limit'].max()

34516.0

In [127]:
education_df.loc[education_df['Credit_Limit'] == 34516]['Education_Level'].value_counts()

Graduate         162
High School       97
Uneducated        72
College           58
Post-Graduate     28
Doctorate         19
Name: Education_Level, dtype: int64

#### Agora avaliaremos as escolaridades dos clientes que possuem o menor limite disponível

In [128]:
education_df['Credit_Limit'].min()

1438.3

In [129]:
education_df.loc[education_df['Credit_Limit'] == 1438.3]['Education_Level'].value_counts()

Graduate         149
High School       86
Uneducated        73
College           67
Doctorate         36
Post-Graduate     24
Name: Education_Level, dtype: int64

#### Percebe-se que o número de clientes por escolaridade que recebem o limite mínimo e máximo de crédito quase não diferem, logo podemos concluir que apenas a escolaridade não é um fator exclusivo para decidir o limite de crédito de um cliente.