# Solução do desafio

Para resolver esse desafio, seguirei esses passos:

- Passo 1 - Importar a base de dados e visualizá-la
- Passo 2 - Verificar se essa base precisa de algum tratamento
  - Excluir colunas sem utilidade
  - Ter um panorama geral dos dados
  - Corrigir linhas e valores vazios
- Passo 3 - Analisar a base de dados
  - Apurar a porcentagem dos clientes ativos e dos que cancelaram
  - Gerar gráficos a partir dos dados dos clientes
  - Analisar o perfil das pessoas que têm maior tendência a cancelar o cartão

## Passo 1 - Importando a base de dados

Assim como no desafio 1, também utilizarei a biblioteca *pandas* para poder fazer a visualização da base de dados.

Como essa base possui caracteres especiais como o '~', passei o parâmetro *encoding='latin1'* para que esses caracteres sejam decodificados corretamente.

In [1]:
import pandas as pd

df = pd.read_csv(r'clientes.csv', encoding='latin1')
display(df)

Unnamed: 0,CLIENTNUM,Categoria,Idade,Sexo,Dependentes,Educação,Estado Civil,Faixa Salarial Anual,Categoria Cartão,Meses como Cliente,...,Inatividade 12m,Contatos 12m,Limite,Limite Consumido,Limite Disponível,Mudanças Transacoes_Q4_Q1,Valor Transacoes 12m,Qtde Transacoes 12m,Mudança Qtde Transações_Q4_Q1,Taxa de Utilização Cartão
0,768805383,Cliente,45,M,3,Ensino Médio,Casado,$60K - $80K,Blue,39,...,1,3,12691.0,777,11914.0,1335.000,1144,42,1625.000,0.061
1,818770008,Cliente,49,F,5,Ensino Superior,Solteiro,Less than $40K,Blue,44,...,1,2,8256.0,864,7392.0,1541.000,1291,33,3714.000,0.105
2,713982108,Cliente,51,M,3,Ensino Superior,Casado,$80K - $120K,Blue,36,...,1,0,3418.0,0,3418.0,2594.000,1887,20,2333.000,0.000
3,769911858,Cliente,40,F,4,Ensino Médio,Não informado,Less than $40K,Blue,34,...,4,1,3313.0,2517,796.0,1405.000,1171,20,2333.000,0.760
4,709106358,Cliente,40,M,3,Sem ensino formal,Casado,$60K - $80K,Blue,21,...,1,0,4716.0,0,4716.0,2175.000,816,28,2.500,0.000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10122,772366833,Cliente,50,M,2,Ensino Superior,Solteiro,$40K - $60K,Blue,40,...,2,3,4003.0,1851,2152.0,0.703,15476,117,0.857,0.462
10123,710638233,Cancelado,41,M,2,Não informado,Divorciado,$40K - $60K,Blue,25,...,2,3,4277.0,2186,2091.0,0.804,8764,69,0.683,0.511
10124,716506083,Cancelado,44,F,1,Ensino Médio,Casado,Less than $40K,Blue,36,...,3,4,5409.0,0,5409.0,0.819,10291,60,0.818,0.000
10125,717406983,Cancelado,30,M,2,Ensino Superior,Não informado,$40K - $60K,Blue,36,...,3,3,5281.0,0,5281.0,0.535,8395,62,0.722,0.000


## Passo 2 - Tratando a base de dados

### Excluir coluna inútil

A coluna 'CLIENTNUM' não vai possuir nenhuma utilidade na minha análise do banco de dados, então seria interessante excluí-la.

Para exclusão de uma linha ou coluna, basta utilizar a função *drop* e passar como parâmetro o nome da linha/coluna e o seu eixo (0 para linha e 1 para coluna).

In [2]:
df = df.drop('CLIENTNUM', axis=1)

### Panorama geral da base

Para se obter informações gerais acerca de uma base de dados, basta fazer uso da função *info*. A partir dessa função podemos perceber se existe algum campo vazio na base a ser analisada.

In [3]:
display(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10127 entries, 0 to 10126
Data columns (total 20 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Categoria                      10127 non-null  object 
 1   Idade                          10127 non-null  int64  
 2   Sexo                           10127 non-null  object 
 3   Dependentes                    10127 non-null  int64  
 4   Educação                       10127 non-null  object 
 5   Estado Civil                   10127 non-null  object 
 6   Faixa Salarial Anual           10127 non-null  object 
 7   Categoria Cartão               10126 non-null  object 
 8   Meses como Cliente             10127 non-null  int64  
 9   Produtos Contratados           10127 non-null  int64  
 10  Inatividade 12m                10127 non-null  int64  
 11  Contatos 12m                   10127 non-null  int64  
 12  Limite                         10127 non-null 

None

### Excluir linhas vazias

Baseado no panorama acima, pude observar que existe um campo vazio na coluna 'Categoria Cartão'. Como esse campo pode prejudicar a análise posterior desses dados, é melhor excluir toda essa linha que possui uma informação vazia.

Para exclusão de uma ou várias linhas que possuem valores vazios, basta fazer uso da função *dropna*.

In [4]:
df = df.dropna()
display(df)

Unnamed: 0,Categoria,Idade,Sexo,Dependentes,Educação,Estado Civil,Faixa Salarial Anual,Categoria Cartão,Meses como Cliente,Produtos Contratados,Inatividade 12m,Contatos 12m,Limite,Limite Consumido,Limite Disponível,Mudanças Transacoes_Q4_Q1,Valor Transacoes 12m,Qtde Transacoes 12m,Mudança Qtde Transações_Q4_Q1,Taxa de Utilização Cartão
0,Cliente,45,M,3,Ensino Médio,Casado,$60K - $80K,Blue,39,5,1,3,12691.0,777,11914.0,1335.000,1144,42,1625.000,0.061
1,Cliente,49,F,5,Ensino Superior,Solteiro,Less than $40K,Blue,44,6,1,2,8256.0,864,7392.0,1541.000,1291,33,3714.000,0.105
2,Cliente,51,M,3,Ensino Superior,Casado,$80K - $120K,Blue,36,4,1,0,3418.0,0,3418.0,2594.000,1887,20,2333.000,0.000
3,Cliente,40,F,4,Ensino Médio,Não informado,Less than $40K,Blue,34,3,4,1,3313.0,2517,796.0,1405.000,1171,20,2333.000,0.760
4,Cliente,40,M,3,Sem ensino formal,Casado,$60K - $80K,Blue,21,5,1,0,4716.0,0,4716.0,2175.000,816,28,2.500,0.000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10122,Cliente,50,M,2,Ensino Superior,Solteiro,$40K - $60K,Blue,40,3,2,3,4003.0,1851,2152.0,0.703,15476,117,0.857,0.462
10123,Cancelado,41,M,2,Não informado,Divorciado,$40K - $60K,Blue,25,4,2,3,4277.0,2186,2091.0,0.804,8764,69,0.683,0.511
10124,Cancelado,44,F,1,Ensino Médio,Casado,Less than $40K,Blue,36,5,3,4,5409.0,0,5409.0,0.819,10291,60,0.818,0.000
10125,Cancelado,30,M,2,Ensino Superior,Não informado,$40K - $60K,Blue,36,4,3,3,5281.0,0,5281.0,0.535,8395,62,0.722,0.000


### 

## Passo 3 - Analisando a base de dados

Nessa etapa, buscarei analisar a base de dados com o objetivo de descobrir algumas causas do cancelamento do cartão, buscando modelar o perfil do cliente com maior chance de cancelar seu cartão.

Portanto, iniciarei a análise através de uma descrição resumida (média, valor mínimo, valor máximo, dentre outros aspectos) dos campos numéricos da base de dados, fazendo uso da função *describe*.

In [5]:
display(df.describe())

Unnamed: 0,Idade,Dependentes,Meses como Cliente,Produtos Contratados,Inatividade 12m,Contatos 12m,Limite,Limite Consumido,Limite Disponível,Mudanças Transacoes_Q4_Q1,Valor Transacoes 12m,Qtde Transacoes 12m,Mudança Qtde Transações_Q4_Q1,Taxa de Utilização Cartão
count,10126.0,10126.0,10126.0,10126.0,10126.0,10126.0,10126.0,10126.0,10126.0,10126.0,10126.0,10126.0,10126.0,10126.0
mean,46.327079,2.346139,35.928995,3.812463,2.3413,2.455264,8631.962088,1162.764369,7469.197719,108.713167,4404.391764,64.861841,66.579995,0.274901
std,8.01642,1.298956,7.986593,1.55444,1.010584,1.106267,9089.225428,815.012238,9091.132356,353.912795,3397.157925,23.471594,284.001363,0.275704
min,26.0,0.0,13.0,1.0,0.0,0.0,1438.3,0.0,3.0,0.0,510.0,10.0,0.0,0.0
25%,41.0,1.0,31.0,3.0,2.0,2.0,2555.0,358.0,1324.25,0.631,2156.0,45.0,0.582,0.023
50%,46.0,2.0,36.0,4.0,2.0,2.0,4549.0,1276.0,3473.0,0.736,3899.5,67.0,0.702,0.1755
75%,52.0,3.0,40.0,5.0,3.0,3.0,11067.75,1784.0,9860.0,0.859,4741.0,81.0,0.818,0.503
max,73.0,5.0,56.0,6.0,6.0,6.0,34516.0,2517.0,34516.0,3397.0,18484.0,139.0,3714.0,0.999


### Clientes ativos e cancelados

Para verificar quantas pessoas da tabela ainda são clientes, basta fazer uma contagem na coluna 'Categoria' com a função *value_counts*. Se passarmos o parâmetro *normalize=True* nessa função, então obteremos a porcentagem do número total de pessoas que são clientes e dos que cancelaram o cartão.

In [6]:
display(df['Categoria'].value_counts())
display(df['Categoria'].value_counts(normalize=True))

Cliente      8499
Cancelado    1627
Name: Categoria, dtype: int64

Cliente      0.839325
Cancelado    0.160675
Name: Categoria, dtype: float64

### Gráficos dos dados

Para gerar os gráficos que me ajudarão na análise do perfil dos clientes, ulizarei a biblioteca *plotly*, além do pacote *nbformat* (necessário para gerar esses gráficos corretamente).

Os gráficos serão gerados a partir de todas as colunas da base de dados, dividindo-os a partir da 'Categoria', que pode ser 'Cliente' ou 'Cancelado'.

In [7]:
import plotly.express as px

def create_graph(column, dataframe):
    fig = px.histogram(dataframe, x=column, color='Categoria')
    fig.show()

for column in df:
    create_graph(column, df)

### Perfil dos clientes que cancelaram

A partir da análise dos gráficos que informam todas as informações necessárias sobre os clientes ativos e os que cancelaram, podemos tirar algumas conclusões. Tais como:

1. No gráfico da Categoria do Cartão, pode-se observar que quase a totalidade dos clientes que cancelaram o cartão são da categoria Blue. Talvez essa categoria não seja vantajosa para o cliente;
2. No gráfico de Contatos nos Últimos 12 meses, pude notar que quanto mais o cliente entrou em contato com a empresa, mais ele tendeu a cancelar o cartão. Possa ser que esses contatos são problemas de uso que estão sendo mal resolvidos;
3. Nos gráficos de Quantidade de Transações nos Últimos 12 meses e de Taxa de Utilização do Cartão, é notório que quem utiliza menos o cartão tende a cancelar mais. No entanto, se a pessoa tiver mais de 80 transações, a chance dela cancelar o cartão decai significantemente.

Portanto, o plano de ação dessa empresa torna-se mais claro, afinal, eles sabem agora quais são alguns dos seus pontos fracos a serem melhorados, como o Cartão de bandeira Blue e o serviço de Contato com o cliente.