<a href="https://colab.research.google.com/github/lcfdiniz/puc-rio/blob/main/bank-customer-churn/bank_customer_churn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd

# Predição de churn para clientes de banco

por [Lucas Fiorani Diniz](https://www.linkedin.com/in/lcfdiniz/)

## Definição do Problema

A taxa de churn (*churn rate*) é uma métrica que aponta a rotatividade dos clientes de uma empresa, ou de forma mais direta, o número de clientes que deixaram de fazer negócios com a empresa em um determinado período de tempo.

Entre as maneiras de se reduzir o churn de uma empresa, estão o entendimento dos motivos do cancelamento e identificação dos clientes com maior chance de ir embora.

Com essa abordagem, é possível realizar ações preventivas efetivas, que mantenham os clientes na base por mais tempo. O investimento na predição de churn e consequente retenção de clientes é extremamente eficiente, dado que o custo para se adquirir um novo cliente pode ser de 5 a 7 vezes maior do que manter um atual. [[1]](https://jrs.digital/conquistar-um-novo-cliente-custa-entre-5-a-7-vezes-mais-que-manter-um-atual/#:~:text=Segundo%20o%20economista%20americano%20Philip,de%20clientes%2C%20usu%C3%A1rios%20e%20compradores.)

Nesse sentido, técnicas de Machine Learning possuem um grande potencial de identificar com sucesso os fatores que levam aos cancelamentos dos serviços e os clientes com maior probabilidade de se tornarem churn.

Para o caso das instituições bancárias, altas taxas de churn podem impactar diretamente sua receita e rentabilidade. Entre os motivos para que um cliente possa decidir encerrar sua conta bancária ou deixar de utilizar os serviços de um banco, estão:

- Insatisfação com os serviços oferecidos;
- Má experiência com os produtos financeiros;
- Concorrência;
- Mudanças nas circunstâncias pessoais do cliente.

Caso essas instituições sejam capazes de identificar as causas e clientes com maior potencial de churn, é possível adotar estratégias como:

- Melhoria dos serviços;
- Personalização de ofertas e recomendações;
- Programas de fidelidade e recompensa;
- Monitoramento proativo.

### Levantamento de hipóteses

Considerando o contexto apresentado acima, é possível levantar as seguintes hipóteses a respeito da relação dos clientes de uma instituição bancária e a taxa de churn da mesma:

- Os clientes com uma maior pontuação de crédito são menos propensos a deixarem o banco;

- Os clientes com maior idade são menos propensos a deixarem o banco;

- Os clientes com contas mais antigas são mais leais e, portanto, são menos propensos a deixarem o banco;

- Os clientes que utilizam cartão de crédito são menos propensos a deixarem o banco;

- Os clientes mais ativos são menos propensos a deixarem o banco;

- Os clientes com reclamações mal-solucionadas são mais propensos a deixarem o banco.

### Restrições e condições respeitadas

Para se obter os dados do problema, a plataforma [Kaggle](https://www.kaggle.com/datasets) foi consultada. O Kaggle é a maior comunidade online de cientistas de dados e praticantes de Machine Learning, disponibilizando recursos valiosos para seus usuários, como datasets variados.

O melhor dataset encontrado para o problema foi o [*Bank Customer Churn*](https://www.kaggle.com/datasets/radheshyamkollipara/bank-customer-churn?select=Customer-Churn-Records.csv). Esse conjunto de dados possui registros do mês de abril de 2022, sendo portanto bastante recente. Cada entrada desse dataset representa um cliente, e para cada um desses estão disponíveis diversas features descrevendo variáveis demográficas, comportamentais e se o mesmo deixou a empresa no mês avaliado (variável alvo).

Sendo assim, algumas considerações devem ser feitas:

- O modelo pode sofrer um viés em relação ao mês no qual os dados foram obtidos. É possível que a taxa de churn seja distinta de acordo com o mês avaliado, bem como os motivos por trás desse indicador;

- A localização geográfica dos clientes e das instituições bancárias é um fator importante. O dataset utilizado apresenta informações demográficas de clientes em países europeus, e portanto sujeitas às particularidades dessas regiões;

- Ainda, é possível que o comportamento dos clientes (serviços utilizados, confiança em bancos e a própria educação financeira) em países europeus seja diferente daquele observado para clientes sul-americanos;

- Por fim, existem fatores não englobados pelos dados disponibilizados, e que podem influenciar na decisão de um cliente em deixar a instituição bancária. Entre esses, estão possíveis ofertas agressivas da concorrência, condição econômica global e motivações no âmbito pessoal/particular.

### Dataset utilizado

In [3]:
# Insere a URL onde os dados foram disponibilizados (repositório do GitHub)
url = "https://raw.githubusercontent.com/lcfdiniz/puc-rio/main/bank-customer-churn/data/customer-churn-records.csv"

In [4]:
df = pd.read_csv(url)

df.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited,Complain,Satisfaction Score,Card Type,Point Earned
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1,1,2,DIAMOND,464
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0,1,3,DIAMOND,456
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1,1,3,DIAMOND,377
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0,0,5,GOLD,350
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0,0,5,GOLD,425


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 18 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   RowNumber           10000 non-null  int64  
 1   CustomerId          10000 non-null  int64  
 2   Surname             10000 non-null  object 
 3   CreditScore         10000 non-null  int64  
 4   Geography           10000 non-null  object 
 5   Gender              10000 non-null  object 
 6   Age                 10000 non-null  int64  
 7   Tenure              10000 non-null  int64  
 8   Balance             10000 non-null  float64
 9   NumOfProducts       10000 non-null  int64  
 10  HasCrCard           10000 non-null  int64  
 11  IsActiveMember      10000 non-null  int64  
 12  EstimatedSalary     10000 non-null  float64
 13  Exited              10000 non-null  int64  
 14  Complain            10000 non-null  int64  
 15  Satisfaction Score  10000 non-null  int64  
 16  Card 

O dataset utilizado é composto por 10.000 entradas de dados e 18 features, sendo 14 representadas por valores numéricos (2 por números de ponto flutuante e 12 por números inteiros) e 4 representadas por valores categóricos. Não existem valores faltantes no conjunto de dados.

In [6]:
df.describe()

Unnamed: 0,RowNumber,CustomerId,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited,Complain,Satisfaction Score,Point Earned
count,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,5000.5,15690940.0,650.5288,38.9218,5.0128,76485.889288,1.5302,0.7055,0.5151,100090.239881,0.2038,0.2044,3.0138,606.5151
std,2886.89568,71936.19,96.653299,10.487806,2.892174,62397.405202,0.581654,0.45584,0.499797,57510.492818,0.402842,0.403283,1.405919,225.924839
min,1.0,15565700.0,350.0,18.0,0.0,0.0,1.0,0.0,0.0,11.58,0.0,0.0,1.0,119.0
25%,2500.75,15628530.0,584.0,32.0,3.0,0.0,1.0,0.0,0.0,51002.11,0.0,0.0,2.0,410.0
50%,5000.5,15690740.0,652.0,37.0,5.0,97198.54,1.0,1.0,1.0,100193.915,0.0,0.0,3.0,605.0
75%,7500.25,15753230.0,718.0,44.0,7.0,127644.24,2.0,1.0,1.0,149388.2475,0.0,0.0,4.0,801.0
max,10000.0,15815690.0,850.0,92.0,10.0,250898.09,4.0,1.0,1.0,199992.48,1.0,1.0,5.0,1000.0


In [7]:
df.describe(include="object")

Unnamed: 0,Surname,Geography,Gender,Card Type
count,10000,10000,10000,10000
unique,2932,3,2,4
top,Smith,France,Male,DIAMOND
freq,32,5014,5457,2507


In [13]:
def get_unique_values(df, col):
  print(f"Valores únicos da feature {col}:")
  print(df[col].unique())
  print("\n")

In [15]:
get_unique_values(df, "Geography")
get_unique_values(df, "Gender")
get_unique_values(df, "Card Type")

Valores únicos da feature Geography:
['France' 'Spain' 'Germany']


Valores únicos da feature Gender:
['Female' 'Male']


Valores únicos da feature Card Type:
['DIAMOND' 'GOLD' 'SILVER' 'PLATINUM']




A descrição de cada uma das features pode ser vista abaixo:

- `RowNumber`: número da linha ou registro, não afetando a permanência ou não do cliente;

- `CustomerId`: Id do cliente, sendo esse um número aleatório que também não afeta a permanência ou não do cliente;

- `Surname`: sobrenome do cliente;

- `CreditScore`: score de crédito do cliente;

- `Geography`: localização do cliente, sendo essa uma entre França, Espanha ou Alemanha;

- `Gender`: gênero do cliente;

- `Age`: idade do cliente;

- `Tenure`: número de anos em que o cliente encontra-se vinculado ao banco;

- `Balance`: saldo da conta do cliente (em euros, provavelmente);

- `NumOfProducts`: número de produtos que o cliente aderiu através do banco;

- `HasCrCard`: se o cliente possui (1) ou não (0) cartão de crédito;

- `IsActiveMember`: se o cliente é um membro ativo (1) ou não (0). Os critérios para essa feature não foram especificados pelo fornecedor do conjunto de dados;

- `EstimatedSalary`: salário estimado do cliente (em euros, provavelmente);

- `Exited`: variável alvo, que indica se o cliente deixou o banco (1) ou não (0) no mês avaliado;

- `Complain`: se o cliente realizou reclamações (1) ou não (0);

- `Satisfaction Score`: nota de satisfação fornecida pelo cliente para a resolução de sua reclamação;

- `Card Type`: tipo de cartão que o cliente possui, podendo ser um entre Diamond, Gold, Silver e Platinum;

- `Points Earned`: pontos ganhos pelo cliente pelo uso do cartão de crédito.

## Preparação de Dados

## Modelagem e Treinamento

## Avaliação de Resultados