# Desafio: 

Você trabalha em uma grande empresa de Cartão de Crédito e o diretor da empresa percebeu que o número de clientes que cancelam seus cartões tem aumentado significativamente, causando prejuízos enormes para a empresa

O que fazer para evitar isso? Como saber as pessoas que têm maior tendência a cancelar o cartão?

# O que temos:

Temos 1 base de dados com informações dos clientes, tanto clientes atuais quanto clientes que cancelaram o cartão

Download da Base de Dados: Botão na página

Referência: https://www.kaggle.com/sakshigoyal7/credit-card-customers

- Passo 1: importar a base de dados
- Passo 2: Visualizar e tratar a base de dados
- Passo 3: "Dar uma olhada na sua base de dados"
- Passo 4: Construir uma análise para identificar o motivo do cancelamento
  - Identificar qual o motivo dos principais motivos dos clientes estarem cancelando o cartão de crédito

In [16]:
from IPython.display import display
import pandas

table = pandas.read_csv('ClientesBanco.csv', encoding='latin-1', sep=',')
table = table.drop("CLIENTNUM", axis=1)
display(table)

Unnamed: 0,Categoria,Idade,Sexo,Dependentes,Educação,Estado Civil,Faixa Salarial Anual,Categoria Cartão,Meses como Cliente,Produtos Contratados,Inatividade 12m,Contatos 12m,Limite,Limite Consumido,Limite Disponível,Mudanças Transacoes_Q4_Q1,Valor Transacoes 12m,Qtde Transacoes 12m,Mudança Qtde Transações_Q4_Q1,Taxa de Utilização Cartão
0,Cliente,45,M,3,Ensino Médio,Casado,$60K - $80K,Blue,39,5,1,3,12691.0,777,11914.0,1335.000,1144,42,1625.000,0.061
1,Cliente,49,F,5,Ensino Superior,Solteiro,Less than $40K,Blue,44,6,1,2,8256.0,864,7392.0,1541.000,1291,33,3714.000,0.105
2,Cliente,51,M,3,Ensino Superior,Casado,$80K - $120K,Blue,36,4,1,0,3418.0,0,3418.0,2594.000,1887,20,2333.000,0.000
3,Cliente,40,F,4,Ensino Médio,Não informado,Less than $40K,Blue,34,3,4,1,3313.0,2517,796.0,1405.000,1171,20,2333.000,0.760
4,Cliente,40,M,3,Sem ensino formal,Casado,$60K - $80K,Blue,21,5,1,0,4716.0,0,4716.0,2175.000,816,28,2.500,0.000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10122,Cliente,50,M,2,Ensino Superior,Solteiro,$40K - $60K,Blue,40,3,2,3,4003.0,1851,2152.0,0.703,15476,117,0.857,0.462
10123,Cancelado,41,M,2,Não informado,Divorciado,$40K - $60K,Blue,25,4,2,3,4277.0,2186,2091.0,0.804,8764,69,0.683,0.511
10124,Cancelado,44,F,1,Ensino Médio,Casado,Less than $40K,Blue,36,5,3,4,5409.0,0,5409.0,0.819,10291,60,0.818,0.000
10125,Cancelado,30,M,2,Ensino Superior,Não informado,$40K - $60K,Blue,36,4,3,3,5281.0,0,5281.0,0.535,8395,62,0.722,0.000


# Verificar informações vazias e exibir valores vazios e exibir um resumo das colunas

In [24]:
table = table.dropna()
display(table.info())

display(table.describe().round(1))


<class 'pandas.core.frame.DataFrame'>
Int64Index: 10126 entries, 0 to 10126
Data columns (total 20 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Categoria                      10126 non-null  object 
 1   Idade                          10126 non-null  int64  
 2   Sexo                           10126 non-null  object 
 3   Dependentes                    10126 non-null  int64  
 4   Educação                       10126 non-null  object 
 5   Estado Civil                   10126 non-null  object 
 6   Faixa Salarial Anual           10126 non-null  object 
 7   Categoria Cartão               10126 non-null  object 
 8   Meses como Cliente             10126 non-null  int64  
 9   Produtos Contratados           10126 non-null  int64  
 10  Inatividade 12m                10126 non-null  int64  
 11  Contatos 12m                   10126 non-null  int64  
 12  Limite                         10126 non-null 

None

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Idade,10126.0,46.3,8.0,26.0,41.0,46.0,52.0,73.0
Dependentes,10126.0,2.3,1.3,0.0,1.0,2.0,3.0,5.0
Meses como Cliente,10126.0,35.9,8.0,13.0,31.0,36.0,40.0,56.0
Produtos Contratados,10126.0,3.8,1.6,1.0,3.0,4.0,5.0,6.0
Inatividade 12m,10126.0,2.3,1.0,0.0,2.0,2.0,3.0,6.0
Contatos 12m,10126.0,2.5,1.1,0.0,2.0,2.0,3.0,6.0
Limite,10126.0,8632.0,9089.2,1438.3,2555.0,4549.0,11067.8,34516.0
Limite Consumido,10126.0,1162.8,815.0,0.0,358.0,1276.0,1784.0,2517.0
Limite Disponível,10126.0,7469.2,9091.1,3.0,1324.2,3473.0,9860.0,34516.0
Mudanças Transacoes_Q4_Q1,10126.0,108.7,353.9,0.0,0.6,0.7,0.9,3397.0


# Vamos avaliar como está a divisão entre Clientes x Cancelamentos

In [42]:
# clientes_x_cancelados = table[["Categoria", "Idade", "Dependentes", "Meses como Cliente", "Produtos Contratados"]].groupby("Categoria").mean()

qtde_categoria = table["Categoria"].value_counts()
display(qtde_categoria)

qtde_categoria_perc = table["Categoria"].value_counts(normalize=True)
display(qtde_categoria_perc)



Cliente      8499
Cancelado    1627
Name: Categoria, dtype: int64

Cliente      0.839325
Cancelado    0.160675
Name: Categoria, dtype: float64

# Temos várias formas de descobrir o motivo dos cancelamentos
  - Podemos olhar a comparação entre Clientes e canceclados em cada uma das colunas da nossa base de dados, para ver se essa informaçõa trás algum insight