# Detenção de Evasão no Beta Bank: Prevenindo a Rotatividade de Clientes com Análise de Dados

No cenário atual, o **Beta Bank** enfrenta um desafio crescente: a evasão constante de clientes. Mês a mês, uma parcela significativa dos clientes abandona o banco, o que representa um custo elevado e uma ameaça à sustentabilidade do negócio. Através de análises internas, o banco identificou que manter um cliente existente é consideravelmente mais econômico do que adquirir um novo.

Diante deste cenário, surge a necessidade crítica de desenvolver estratégias eficientes para prevenir a perda de clientes. A chave para esta solução repousa na **análise de dados** – uma abordagem que permite prever com precisão a probabilidade de um cliente deixar o banco. Utilizando dados históricos sobre o comportamento dos clientes e registros de rescisões de contratos, podemos construir um modelo preditivo robusto.

Este projeto de análise de dados visa criar um sistema capaz de identificar sinais precoces de insatisfação ou propensão à evasão entre os clientes. Ao compreender os padrões e tendências nas atividades dos clientes, bem como os fatores que influenciam a decisão de deixar o banco, seremos capazes de implementar medidas proativas para aumentar a retenção de clientes.

Além de identificar os clientes em risco, o projeto busca desenvolver estratégias personalizadas para abordar as necessidades específicas de cada segmento de cliente, aumentando assim a eficácia das ações de retenção. Este esforço não apenas fortalece a relação do Beta Bank com seus clientes existentes, mas também contribui para a construção de uma base de clientes mais leal e satisfeita a longo prazo.


## importação de bibliotecas 

Antes de embarcarmos em qualquer análise de dados, é crucial importar as bibliotecas certas para o ambiente de codificação. As bibliotecas contêm conjuntos de ferramentas e funções que nos permitem executar tarefas específicas, variando desde a manipulação de dados até a visualização e análise estatística. Ao importar bibliotecas apropriadas, estamos essencialmente equipando nosso ambiente com as ferramentas necessárias para conduzir a análise de maneira eficaz e eficiente. Em projetos de análise de dados, é comum usar bibliotecas como pandas para manipulação de dados, matplotlib e seaborn para visualização, e scikit-learn para modelagem, entre outras. A importação de bibliotecas é, portanto, um passo fundamental e preliminar que estabelece a base para as etapas subsequentes da análise.

In [1]:
import pandas as pd
import numpy as np
import matplotlib as plot
import statistics
import scipy.stats as stats
import datetime as dt
from scipy.stats import probplot
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats as st
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, confusion_matrix, recall_score
from sklearn.metrics import f1_score, roc_auc_score, classification_report
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.utils import shuffle
from sklearn.model_selection import RandomizedSearchCV
from sklearn.tree import DecisionTreeClassifier
# importanto bibliotecas 

In [2]:
try:
    data = pd.read_csv('/datasets/Churn.csv')
except:
    data = pd.read_csv(r'C:\Users\PC\Desktop\portifolio 2\projeto 8\Churn.csv') # armazenando o conjunto de dados 

## Observação de dados 

Agora é o momento de ter o nosso primeiro contato com os dados. Vamos identificar quais dados estão disponíveis, bem como possíveis problemas que possam estar presentes, como a ausência de informações, dados armazenados com o tipo incorreto, entre outros.

In [3]:
data.head(10) # imprimindo as primeiras 10 linhas do conjunto de dados. 

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2.0,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1.0,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8.0,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1.0,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2.0,125510.82,1,1,1,79084.1,0
5,6,15574012,Chu,645,Spain,Male,44,8.0,113755.78,2,1,0,149756.71,1
6,7,15592531,Bartlett,822,France,Male,50,7.0,0.0,2,1,1,10062.8,0
7,8,15656148,Obinna,376,Germany,Female,29,4.0,115046.74,4,1,0,119346.88,1
8,9,15792365,He,501,France,Male,44,4.0,142051.07,2,0,1,74940.5,0
9,10,15592389,H?,684,France,Male,27,2.0,134603.88,1,1,1,71725.73,0


* RowNumber — índice das strings de dados
* CustomerId — identificador exclusivo do cliente
* Surname — sobrenome
* CreditScore — pontuação de crédito
* Geography — país de residência
* Gender — gênero
* Age — idade
* Tenure — tempo de serviço para o cliente
* Balance — saldo da conta
* NumOfProducts — número de produtos bancários usados pelo cliente
* HasCrCard — cliente possui cartão de crédito (1 - sim; 0 - não)
* IsActiveMember — cliente ativo (1 - sim; 0 - não)
* EstimatedSalary — salário estimado
* Exited — o cliente saiu (1 - sim; 0 - não)

In [4]:
data.info() #imprmindo informações gerais do conjunto de dados. 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10000 non-null  int64  
 1   CustomerId       10000 non-null  int64  
 2   Surname          10000 non-null  object 
 3   CreditScore      10000 non-null  int64  
 4   Geography        10000 non-null  object 
 5   Gender           10000 non-null  object 
 6   Age              10000 non-null  int64  
 7   Tenure           9091 non-null   float64
 8   Balance          10000 non-null  float64
 9   NumOfProducts    10000 non-null  int64  
 10  HasCrCard        10000 non-null  int64  
 11  IsActiveMember   10000 non-null  int64  
 12  EstimatedSalary  10000 non-null  float64
 13  Exited           10000 non-null  int64  
dtypes: float64(3), int64(8), object(3)
memory usage: 1.1+ MB


Somente uma coluna apresenta valores ausentes, a coluna: 'tenure', as demais caracteristicas apresentam os tipos corretor de dados, apesar de ser aconselhaveu usar somente letras minusculas nos seus respectivos nomes 

In [5]:
data.describe() #imprimindo valores estatisticos de colunas quantitativas. 

Unnamed: 0,RowNumber,CustomerId,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
count,10000.0,10000.0,10000.0,10000.0,9091.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,5000.5,15690940.0,650.5288,38.9218,4.99769,76485.889288,1.5302,0.7055,0.5151,100090.239881,0.2037
std,2886.89568,71936.19,96.653299,10.487806,2.894723,62397.405202,0.581654,0.45584,0.499797,57510.492818,0.402769
min,1.0,15565700.0,350.0,18.0,0.0,0.0,1.0,0.0,0.0,11.58,0.0
25%,2500.75,15628530.0,584.0,32.0,2.0,0.0,1.0,0.0,0.0,51002.11,0.0
50%,5000.5,15690740.0,652.0,37.0,5.0,97198.54,1.0,1.0,1.0,100193.915,0.0
75%,7500.25,15753230.0,718.0,44.0,7.0,127644.24,2.0,1.0,1.0,149388.2475,0.0
max,10000.0,15815690.0,850.0,92.0,10.0,250898.09,4.0,1.0,1.0,199992.48,1.0


1. **Métricas Estatísticas Básicas:**
   - Através da análise de tendências centrais e de dispersão, como média e desvio padrão, obtemos uma compreensão mais profunda da distribuição e da variabilidade dos dados.

## Pré processamento de dados.

O pré-processamento de dados é o conjunto de técnicas e etapas aplicadas para preparar e limpar os dados brutos, garantindo que estejam prontos para análises posteriores. Isso envolve a remoção de ruídos, tratamento de valores ausentes, normalização e outras transformações necessárias para obter dados de qualidade. 

In [6]:
data.columns = data.columns.str.lower() #transformando o nome de todas as colunas somente em letras minusculas

Ter todos os nomes de colunas em minúsculos remove qualquer inconsistência causada por variações na capitalização. Isso é particularmente útil em ambientes de programação onde a diferenciação entre maiúsculas e minúsculas pode levar a erros ou confusões.

In [7]:
data = data.drop_duplicates() #eliminando duplicatas 

*Exclusão de Duplicatas:*
  - Após a identificação, procedemos com a remoção dessas entradas duplicadas.
  - Este processo assegura que cada transação no dataset seja única e represente um evento distinto.

# Previsão de Evasão de Clientes em Bancos com Aprendizado de Máquina

O desafio da evasão de clientes, ou churn, é significativo no setor bancário. O uso de técnicas de aprendizado de máquina (ML) tem se mostrado fundamental na previsão e na mitigação desse fenômeno.

## Aspectos Cruciais

### Escolha do Modelo de ML
- **Opções**: Árvores de Decisão, Florestas Aleatórias, Regressão Logística, SVM, Redes Neurais.
- **Seleção**: Depende da complexidade dos dados e do objetivo de negócio.

### Treinamento e Teste
- **Processo**: Divisão dos dados em conjuntos de treinamento e teste.
- **Objetivo**: Avaliar a eficácia do modelo.

### Métricas de Avaliação
- **Principais Métricas**: Precisão, Recall, F1-Score, AUC-ROC.
- **Matriz de Confusão**: Fornece detalhes sobre o desempenho do modelo.

### Validação Cruzada e Ajuste de Hiperparâmetros
- **Validação Cruzada**: Essencial para a generalização do modelo.
- **Ajuste de Hiperparâmetros**: Otimiza o desempenho do modelo.

### Interpretabilidade do Modelo
- **Importância**: Compreender os fatores que influenciam as previsões.


In [8]:
data_ohe = data.drop(columns={'surname', 'rownumber', 'customerid'})
data_ohe = pd.get_dummies(data_ohe, drop_first=True)
data_ohe['tenure'].fillna(data_ohe['tenure'].median(), inplace=True)
target = data_ohe['exited']
features = data_ohe.drop('exited', axis=1)
features_train, features_valid, target_train, target_valid = train_test_split(
    features, target, test_size=0.15, random_state=1234)

1. **Remoção de Colunas**: Eliminar colunas que não contribuem para a análise, como identificadores únicos e informações pessoais.
2. **One-Hot Encoding**: Converter variáveis categóricas em uma forma que possa ser fornecida aos modelos de machine learning.
3. **Tratamento de Valores Ausentes**: Lidar com eventuais valores ausentes na coluna `tenure`.
4. **Separação da Variável Alvo**: Definir qual é a variável alvo (`target`) que queremos prever. Neste caso, é a coluna 'exited'.
5. **Separação das Características (Features)**: Separar as características usadas para prever a variável alvo.
6. **Divisão em Conjuntos de Treino e Validação**: Dividir os dados em dois conjuntos - um para treinar o modelo e outro para validar seu desempenho.


In [9]:
def upsample(features, target, repeat):
    features_zeros = features[target == 0]
    features_ones = features[target == 1]
    target_zeros = target[target == 0]
    target_ones = target[target == 1]

    features_upsampled = pd.concat([features_zeros] + [features_ones] * repeat)
    target_upsampled = pd.concat([target_zeros] + [target_ones] * repeat)

    features_upsampled, target_upsampled = shuffle(
        features_upsampled, target_upsampled, random_state=12345
    )

    return features_upsampled, target_upsampled

features_upsampled, target_upsampled = upsample(features_train, target_train, 10)


A função `upsample` é utilizada para balancear classes em um conjunto de dados para modelos de classificação. Ela separa os dados em classes (zeros e uns), replica os dados da classe minoritária (aqui indicada por `repeat` vezes) e concatena de volta com a classe majoritária. Por fim, embaralha os dados balanceados usando a função `shuffle` com `random_state=12345` para garantir reprodutibilidade. O resultado é um conjunto de dados com classes mais equilibradas, ideal para treinar modelos de classificação.


In [10]:
params = {
    'n_estimators': [100, 200],
    'max_depth': [10, 20],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 2]
}

random_search = RandomizedSearchCV(
    RandomForestClassifier(random_state=1234), 
    params, 
    n_iter=10,  # Número de combinações de hiperparâmetros a serem testadas
    cv=3,       # Reduzindo o número de folds
    scoring='f1',
    n_jobs=-1,  # Usando todos os núcleos disponíveis
    random_state=1234
)
random_search.fit(features_train, target_train)
best_model = random_search.best_estimator_

predicted_valid = best_model.predict(features_valid)

# Calculando o F1 Score
f1 = f1_score(target_valid, predicted_valid)
print(f"F1 Score: {f1}")


F1 Score: 0.5967741935483871


In [11]:
params = {
    'n_estimators': [100, 200],
    'max_depth': [10, 20],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 2],
    'class_weight':['balanced']
}

random_search = RandomizedSearchCV(
    RandomForestClassifier(random_state=1234), 
    params, 
    n_iter=10,  # Número de combinações de hiperparâmetros a serem testadas
    cv=3,       # Reduzindo o número de folds
    scoring='f1',
    n_jobs=-1,  # Usando todos os núcleos disponíveis
    random_state=1234
)
random_search.fit(features_train, target_train)
best_model = random_search.best_estimator_

predicted_valid = best_model.predict(features_valid)

# Calculando o F1 Score
f1 = f1_score(target_valid, predicted_valid)
print(f"F1 Score: {f1}")


F1 Score: 0.612954186413902


Para maximizar o desempenho do nosso modelo, realizaremos um ajuste fino dos hiperparâmetros. Utilizaremos `GridSearchCV` para automatizar o processo de busca pelos melhores hiperparâmetros para o `RandomForestClassifier`. Os hiperparâmetros que ajustaremos incluem:

1. **n_estimators**: Número de árvores na floresta.
2. **max_depth**: Profundidade máxima das árvores.
3. **min_samples_split**: Número mínimo de amostras necessárias para dividir um nó interno.
4. **min_samples_leaf**: Número mínimo de amostras necessárias para estar em um nó folha.
5. **class_weight**: Ponderações das classes para lidar com desequilíbrios de classe.

O objetivo é encontrar a combinação de hiperparâmetros que resulte no maior F1 Score, uma métrica que equilibra precisão e recall.


In [12]:
model = LogisticRegression(random_state=12345, solver='liblinear')
model.fit(features_upsampled, target_upsampled)
predicted_valid = model.predict(features_valid)
print('F1:', f1_score(target_valid, predicted_valid))

F1: 0.3671199011124845


In [13]:
model = LogisticRegression(random_state=12345, solver='liblinear', class_weight ='balanced')
model.fit(features_upsampled, target_upsampled)
predicted_valid = model.predict(features_valid)
print('F1:', f1_score(target_valid, predicted_valid))

F1: 0.455531453362256


O código utiliza um modelo de Regressão Logística do `scikit-learn` para classificação. Primeiro, o modelo é instanciado com `random_state=12345` para garantir resultados consistentes e `solver='liblinear'`, ideal para conjuntos menores. Em seguida, ele é treinado com `features_upsampled` e `target_upsampled`, indicando o uso de técnicas de balanceamento de classe como o upsampling. Após treinamento, o modelo faz previsões no conjunto de validação (`features_valid`) e a eficácia é avaliada pela pontuação F1, que combina precisão e revocação, sendo útil em classes desequilibradas.


In [14]:
decision_tree_model = DecisionTreeClassifier(random_state=1234, class_weight ='balanced')
decision_tree_model.fit(features_upsampled, target_upsampled)
predictions = decision_tree_model.predict(features_valid)
f1 = f1_score(target_valid, predictions)
print(f"F1 Score: {f1}")


F1 Score: 0.4859504132231405


In [15]:
decision_tree_model = DecisionTreeClassifier(random_state=1234)
decision_tree_model.fit(features_upsampled, target_upsampled)
predictions = decision_tree_model.predict(features_valid)
f1 = f1_score(target_valid, predictions)
print(f"F1 Score: {f1}")

F1 Score: 0.5306799336650083


O código implementa um modelo de Árvore de Decisão para classificação usando `scikit-learn`. Inicialmente, cria-se o modelo com `DecisionTreeClassifier`, definindo `random_state=1234` para resultados consistentes e `class_weight='balanced'` para ajustar automaticamente os pesos em classes desequilibradas. O modelo é treinado com dados balanceados (`features_upsampled` e `target_upsampled`). Após o treinamento, são feitas previsões no conjunto de validação (`features_valid`) e a eficácia é avaliada pelo F1 Score, uma métrica que considera precisão e revocação, útil em classes desequilibradas.



## Conclusão

Ao analisar diferentes modelos de aprendizado de máquina, observa-se uma melhoria significativa no desempenho ao aplicar técnicas de balanceamento de classe e ajuste de limiar de classificação. Os resultados, medidos pelo F1 Score, para cada modelo antes e após estas alterações são os seguintes:

- **Random Forest:**
  - Antes: F1 Score: 0.5967741935483871
  - Depois: F1 Score: 0.612954186413902

- **Regressão Logística:**
  - Antes: F1: 0.3671199011124845
  - Depois: F1: 0.455531453362256

- **Árvore de Decisão:**
  - Antes: F1 Score: 0.4859504132231405
  - Depois: F1 Score: 0.5306799336650083

Conforme evidenciado pelos valores de F1 Score, a **Random Forest** apresenta a melhor métrica após a aplicação das técnicas de balanceamento e ajuste de limiar, demonstrando sua maior eficácia em relação aos outros modelos analisados.

