# Case - Definindo um modelo de machine learning para prever casos de churn em uma instuição financeira

## Introdução

Um gerente de um banco não está satisfeito com o fato de cada vez mais clientes abandonarem os serviços de cartão de crédito. Visando entender o que pode estar acontecendo e tentar prever quando um cliente se tornará churn, a instituição financeira disponibilizou um dataset com dados de todos seus clientes.

## Objetivo do projeto

Utilizando o dataset disponível, o objetivo do presente projeto é definir um modelo de machine learning para prever os casos de churn e identificar estratégias para evitar que isso com mais frequência.

## Sobre os dados

O dataset disponibilizado consiste em dados dos mais de 10.000 clientes, mencionando idade, salário, estado civil, limite do cartão de crédito, categoria do cartão de crédito, etc. Abaixo segue o descritivo de cada uma das colunas presentes na tabela de dados.

- CLIENTNUM: Identificador exclusivo do cliente titular da conta;
- Attrition_Flag: Variável de evento interno (atividade do cliente), nos diz se a conta do cliente foi encerrada ou não;
- Customer_Age: Idade do cliente;
- Gender: Gênero do cliente (masculino ou feminino);
- Dependent_count: Número de dependentes;
- Education_Level: Nível educacional;
- Marital_Status: Casado, Solteiro, Divorciado, Desconhecido;
- Income_Category: Renda anual;
- Card_Category: Tipo de Cartão (Azul, Prata, Ouro, Platina);
- Months_on_book: Período de relacionamento com banco;
- Total_Relationship_Count: Total de produtos detidos pelo cliente;
- Months_Inactive_12_mon: Nº de meses inativos nos últimos 12 meses;
- Contacts_Count_12_mon: Nº de contatos nos últimos 12 meses;
- Credit_Limit: Limite de crédito no cartão de crédito;
- Total_Revolving_Bal: Saldo Rotativo Total no Cartão de Crédito;
- Avg_Open_To_Buy: Linha de crédito aberta para compra (média dos últimos 12 meses);
- Total_Amt_Chng_Q4_Q1: Alteração no valor da transação (quarto trimestre em relação ao primeiro trimestre);
- Total_Trans_Amt: Valor total da transação (últimos 12 meses);
- Total_Trans_Ct: Contagem total de transações (últimos 12 meses);
- Total_Ct_Chng_Q4_Q1: Mudança na contagem de transações (quarto trimestre em relação ao primeiro trimestre);
- Avg_Utilization_Ratio: Taxa média de utilização do cartão.

## Bibliotecas utilizadas

Para fazer este projeto foram utilizadas as seguintes bibliotecas do Python,

In [22]:
# libs de análise e manipulação dos dados
import pandas as pd
import numpy as np

# libs de visualização dos dados e análises gráficas
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# libs de machine learning
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, LabelEncoder, StandardScaler
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, balanced_accuracy_score, precision_score, recall_score, f1_score, roc_auc_score
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay, RocCurveDisplay

## Importando os dados

Primeiro, importou-se o dataset "BankChurners.csv", disponível na lista de arquivos deste repositório, utilizando-se a biblioteca Pandas,

In [13]:
pd.set_option('display.max_columns', 50)    # config para mostrar todas as colunas do dataset

base_dados = pd.read_csv('BankChurners.csv', sep = ';')
base_dados.head()

Unnamed: 0,CLIENTNUM,Attrition_Flag,Customer_Age,Gender,Dependent_count,Education_Level,Marital_Status,Income_Category,Card_Category,Months_on_book,Total_Relationship_Count,Months_Inactive_12_mon,Contacts_Count_12_mon,Credit_Limit,Total_Revolving_Bal,Avg_Open_To_Buy,Total_Amt_Chng_Q4_Q1,Total_Trans_Amt,Total_Trans_Ct,Total_Ct_Chng_Q4_Q1,Avg_Utilization_Ratio
0,768805383,Existing Customer,45,M,3,High School,Married,$60K - $80K,Blue,39,5,1,3,12691.0,777,11914.0,1.335,1144,42,1.625,0.061
1,818770008,Existing Customer,49,F,5,Graduate,Single,Less than $40K,Blue,44,6,1,2,8256.0,864,7392.0,1.541,1291,33,3.714,0.105
2,713982108,Existing Customer,51,M,3,Graduate,Married,$80K - $120K,Blue,36,4,1,0,3418.0,0,3418.0,2.594,1887,20,2.333,0.0
3,769911858,Existing Customer,40,F,4,High School,Unknown,Less than $40K,Blue,34,3,4,1,3313.0,2517,796.0,1.405,1171,20,2.333,0.76
4,709106358,Existing Customer,40,M,3,Uneducated,Married,$60K - $80K,Blue,21,5,1,0,4716.0,0,4716.0,2.175,816,28,2.5,0.0


## Análise Descritiva e Exploratória dos dados

Exibindo-se mais informações a respeito deste dataset,

In [12]:
base_dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10127 entries, 0 to 10126
Data columns (total 21 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   CLIENTNUM                 10127 non-null  int64  
 1   Attrition_Flag            10127 non-null  object 
 2   Customer_Age              10127 non-null  int64  
 3   Gender                    10127 non-null  object 
 4   Dependent_count           10127 non-null  int64  
 5   Education_Level           10127 non-null  object 
 6   Marital_Status            10127 non-null  object 
 7   Income_Category           10127 non-null  object 
 8   Card_Category             10127 non-null  object 
 9   Months_on_book            10127 non-null  int64  
 10  Total_Relationship_Count  10127 non-null  int64  
 11  Months_Inactive_12_mon    10127 non-null  int64  
 12  Contacts_Count_12_mon     10127 non-null  int64  
 13  Credit_Limit              10127 non-null  float64
 14  Total_

Pelos resultados, percebe-se que o dataset tem 10127 linhas, sendo que aparentemente não existe dado nulo em nenhuma das 21 colunas, visto que para todas elas temos um total de 10127 entradas não nulas. Além disso, é possível avaliar que existem 6 colunas com dados do tipo 'object', 10 com dados em números inteiros e outras 5 com dados do tipo flutante, ou número decimal. Dados do tipo 'object' pode significar que só existem dados em texto na coluna, ou que existem mais de um tipo de dado na mesma coluna.

### Dados duplicados

Avaliando-se agora se existem linhas duplicadas neste dataset,

In [14]:
base_dados.duplicated().sum()

0

Portanto, não existe nenhuma linha duplicada.

### Dados nulos

Verificando agora a questão dos dados nulos. Conforme foi visto anteriormente, aparentemente não existe nenhum dado nulo no dataset. Afim de investigar mais afundo este ponto, avaliou-se as classes de respostas para cada uma das colunas com dados do tipo "object".

In [17]:
for col in base_dados.select_dtypes('object'):
    print(base_dados[col].value_counts(),'\n')

Attrition_Flag
Existing Customer    8500
Attrited Customer    1627
Name: count, dtype: int64 

Gender
F    5358
M    4769
Name: count, dtype: int64 

Education_Level
Graduate         3128
High School      2013
Unknown          1519
Uneducated       1487
College          1013
Post-Graduate     516
Doctorate         451
Name: count, dtype: int64 

Marital_Status
Married     4687
Single      3943
Unknown      749
Divorced     748
Name: count, dtype: int64 

Income_Category
Less than $40K    3561
$40K - $60K       1790
$80K - $120K      1535
$60K - $80K       1402
Unknown           1112
$120K +            727
Name: count, dtype: int64 

Card_Category
Blue        9436
Silver       555
Gold         116
Platinum      20
Name: count, dtype: int64 



Conforme o resultado acima, percebe-se que nas colunas "Education_Level", "Marital_Status" e "Income_Category" existe uma categoria de resposta "Unknown" ou "desconhecido", funcionando como uma espécie de dado nulo.

Assim, é necessário substituir estes dados "Unknown" por dados nulos de fato, afim de facilitar o tratamento deles a seguir.

In [18]:
# substituindo-os por dados nulos
base_dados = base_dados.replace('Unknown', np.nan)

Agora, exibindo a quantidade e percentual de dados nulos por coluna do dataset,

In [20]:
missing_data = (
    base_dados.isnull()
    .sum()
    .to_frame('missing_count')
    .join((base_dados.isnull().sum()/base_dados.shape[0]).to_frame('missing_pct'))
)

missing_data.style.format('{:.2%}', subset = 'missing_pct')

Unnamed: 0,missing_count,missing_pct
CLIENTNUM,0,0.00%
Attrition_Flag,0,0.00%
Customer_Age,0,0.00%
Gender,0,0.00%
Dependent_count,0,0.00%
Education_Level,1519,15.00%
Marital_Status,749,7.40%
Income_Category,1112,10.98%
Card_Category,0,0.00%
Months_on_book,0,0.00%


Tem-se então 15% de dados nulos na coluna "Education_Level", 7.40% em "Marital_Status" e 10.98% em "Income_Category". Como as respostas destas colunas são muito subjetivas e a não existe uma disparidade muito grande em nenhuma delas (a distribuição das respostas está bem parelha), optou-se por apenas excluir as linhas com estes dados nulos.


In [21]:
base_dados.dropna(inplace = True)

### Analisando a distribuição dos dados de algumas colunas presentes no dataset

Nesta sessão foram analisadas a distribuição dos dados de algumas colunas presentes no dataset. Para tal, utilizou-se das bibliotecas de visualização de dados importadas anteriormente.

#### Definindo uma função para plotar gráficos utilizando Plotly

Antes de iniciar tais análises, para deixar o código "mais limpo", sem repetir a mesma estrutura diversas vezes, foi definida a função a seguir com o intuito de ser chamada todas as vezes que os gráficos de boxplot e histograma forem necessários.

In [39]:
def plot_charts(df, col):
    chart = make_subplots(rows = 2, cols = 1)

    plot1 = go.Box(
        x = df,
        name = f'{col} - Distribuição',
        boxmean = True
    )

    plot2 = go.Histogram(
        x = df,
        name = f'{col} - Histograma'
    )

    chart.add_trace(plot1, row = 1, col = 1)
    chart.add_trace(plot2, row = 2, col = 1)

    chart.update_layout(
        height = 700,
        width = 1200,
        title_text = f'Dashboard - {col}'
    )

    return chart

#### Plot - Idade

In [40]:
plot_charts(base_dados['Customer_Age'], col = 'Idade')

#### Plot - Dependentes

In [41]:
plot_charts(base_dados['Dependent_count'], col = 'Dependentes')

#### Plot - Tempo de relacionamento dos clientes com a instituição financeira

In [42]:
plot_charts(base_dados['Months_on_book'], col = 'Tempo de relacionamento')

#### Plot - Total de produtos dos clientes

In [43]:
plot_charts(base_dados['Total_Relationship_Count'], col ='Total de produtos dos clientes')

#### Plot - Meses de inatividade

In [44]:
plot_charts(df = base_dados['Months_Inactive_12_mon'], col = 'Meses de inatividade')

#### Plot - Total de transações

In [45]:
plot_charts(df = base_dados['Total_Trans_Amt'], col = 'Total de transações 12 meses')