# Projeto de Análise Exploratória, Correlação de Variáveis e Machine Learning

**Random Forest** é um algoritmo de aprendizado de máquina que utiliza uma coleção de árvores de decisão para realizar classificações ou regressões. Ele opera criando diversas árvores a partir de subconjuntos aleatórios dos dados e, em seguida, combina as previsões de todas essas árvores para melhorar a precisão e reduzir o risco de overfitting. Essa abordagem robusta é especialmente eficaz em conjuntos de dados complexos e pode lidar bem com dados faltantes e variáveis irrelevantes.

## Problema de Negócio

Obter uma previsão de churn de clientes por meio da análise preditiva dos atributos dos clientes.

## Base de Dados

O dataset foi disponibilizado pela escola preditiva para projetos práticos de análise de dados e técnicas de machine learning.

##### Você está aqui pelo processo completo e as linhas de código?

Siga em frente em cada etapa e, caso se sinta à vontade, me ajude a desenvolver ainda mais minha visão sobre análise exploratória de dados e machine learning.

##### Você está aqui pelo resultado final?

Vá direto à [Conclusão Final](#8-Conclusões-Finais) para entender o resultado final do tratamento e exploração dos dados, ou acesse o link da apresentação do projeto. https://github.com/Faustoalemos/Projeto_churn_machine_learning/blob/main/Projeto%20Churn.pdf

## Índice

1. [Instalação e Importação das Bibliotecas](#instalacao-importacao)



Documentação das bibliotecas utilizadas:
- [Pandas](https://pandas.pydata.org/docs/)
- [Seaborn](https://seaborn.pydata.org/)
- [Scikit-learn](https://scikit-learn.org/stable/documentation.html)
- [Numpy](https://numpy.org/doc/)
- [Matplotlib](https://matplotlib.org/stable/index.html)

2. [Importação dos Dados](#2-importação-dos-dados)


3. [Exploração do Dataset](#3-exploração-do-dataset)

Exploração inicial do dataset para entender a distribuição das variáveis, detectar outliers e padrões relevantes. Ferramentas como pandas e seaborn foram usadas para visualização e análise descritiva, o restante do processo de exploração de forma mais detalhada está no link: https://github.com/Faustoalemos/Projeto_churn_machine_learning/blob/main/Projeto%20Churn.pdf

4. [Limpeza dos Dados](#4-limpeza-dos-dados)

Tratamento de valores nulos e escalonamento dos dados para garantir que os modelos de machine learning possam ser aplicados de maneira eficiente. Utilizamos StandardScaler para normalizar as variáveis numéricas.

5. [Tratamento e pré-processamento de dados](#5-tratamento-e-pré-processamento-de-dados)

Para garantir que os dados estivessem prontos para a modelagem, realizamos o tratamento e pré-processamento. Substituímos valores nulos e normalizamos as variáveis numéricas utilizando StandardScaler. As variáveis de entrada (X) incluíram atributos como Idade, Limite de Crédito no Mercado, Quantidade de Categorias e Programa de Fidelidade, enquanto a variável de saída (y) foi a previsão de churn. O escalonamento foi aplicado para ajustar a escala dos dados e melhorar a performance do modelo preditivo.

6. [Criação dos modelos preditivos ou classificação](#6-Criação-dos-modelos-preditivos-ou-classificação)

Implementação do algoritmo de machine learning Random Forest para prever o churn dos clientes. O modelo foi treinado com os dados de treino e ajustado para obter melhores previsões.

7. [Avaliando o desempenho do modelo](#7-Avaliando-o-desempenho-do-modelo)

Avaliação do desempenho do modelo utilizando métricas como acurácia, precisão, recall, F1-score e ROC AUC. A matriz de confusão foi utilizada para identificar a eficácia do modelo em prever churn.

8. [Conclusões Finais](#8-Conclusões-Finais)

Com a implementação das estratégias de retenção baseadas em Machine Learning e a personalização de ofertas e comunicações, conseguimos identificar e atuar proativamente sobre clientes em risco de churn. A automação e a análise contínua de dados não só irão aumentaram a eficiência operacional, como também irão melhorar a precisão das nossas previsões, garantindo uma experiência superior para nossos clientes. O ideal é continuar aprimorando as abordagens para manter e fortalecer a lealdade dos nossos clientes.

## 1. Instalação e Importação das Bibliotecas
<!-- #instalacao-importacao -->

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np


from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import MinMaxScaler, LabelEncoder
from sklearn.preprocessing import StandardScaler
from xgboost import XGBClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score
from sklearn.metrics import recall_score, confusion_matrix, precision_score, f1_score, accuracy_score, classification_report
from imblearn.over_sampling import SMOTE
%matplotlib inline
import warnings
warnings.filterwarnings('ignore')



## 2. Importação dos dados;
<!-- #2-importação-dos-dados -->

In [2]:
data=pd.read_excel('base_churn_tratada.xlsx')

## 3. Exploração do Dataset;
<!--#3-exploração-do-dataset-->

#### 3.1 Visualização das primeiras e ultimas linhas da tabela;   

In [3]:
data.head()

Unnamed: 0,ClientId,DataExtracao,Score_Credito,Estado,Gênero,Idade,Tempo_Cliente,Limite_Credito_Mercado,Qte_Categorias,Usa_Cartao_Credito,Programa_Fidelidade,Sum_Pedidos_Acumulados,DataUltimaTransacao,Tempo sem comprar,Churn
0,345568,2019-06-30,619,São Paulo,Feminino,42,2,0.0,1,1,1,422287,2019-09-14,46,1
1,345569,2019-06-30,608,Rio de Janeiro,Feminino,41,1,8380786.0,1,0,1,4689274166666667,2019-10-05,25,0
2,345570,2019-06-30,502,São Paulo,Feminino,42,8,1596608.0,3,1,0,474714875,2019-08-20,71,1
3,345571,2019-06-30,699,São Paulo,Feminino,39,1,0.0,2,0,0,39094429166666672,2019-10-21,9,0
4,345572,2019-06-30,850,Rio de Janeiro,Feminino,43,2,12551082.0,1,1,1,32951708333333336,2019-10-26,4,0


In [4]:
data.tail()

Unnamed: 0,ClientId,DataExtracao,Score_Credito,Estado,Gênero,Idade,Tempo_Cliente,Limite_Credito_Mercado,Qte_Categorias,Usa_Cartao_Credito,Programa_Fidelidade,Sum_Pedidos_Acumulados,DataUltimaTransacao,Tempo sem comprar,Churn
9995,355563,2019-06-30,771,São Paulo,Masculino,39,5,0.0,2,1,0,4011276666666666,2019-10-05,25,0
9996,355564,2019-06-30,516,São Paulo,Masculino,35,10,5736961.0,1,1,1,4237490416666666,2019-10-06,24,0
9997,355565,2019-06-30,709,São Paulo,Feminino,36,7,0.0,1,0,1,17535658333333332,2019-07-21,101,1
9998,355566,2019-06-30,772,Minas Gerais,Masculino,42,3,7507531.0,2,1,0,3870355,2019-08-19,72,1
9999,355567,2019-06-30,792,São Paulo,Feminino,28,4,13014279.0,1,1,0,15912825,2019-10-17,13,0


#### 3.2 Visualizando o tamanho total do dataset; 

In [5]:
data.shape

(10000, 15)

#### 3.3 Visualizando o nome de cada uma das colunas;

In [6]:
data.columns

Index(['ClientId', 'DataExtracao', 'Score_Credito', 'Estado', 'Gênero',
       'Idade', 'Tempo_Cliente', 'Limite_Credito_Mercado', 'Qte_Categorias',
       'Usa_Cartao_Credito', 'Programa_Fidelidade', 'Sum_Pedidos_Acumulados',
       'DataUltimaTransacao', 'Tempo sem comprar', 'Churn'],
      dtype='object')

Podemos utilizar para caso necessário quisermos pegar o nome de cada coluna para tratamento já no formato correto.

#### 3.4 Verificando a indexação das linhas;

In [7]:
data.index

RangeIndex(start=0, stop=10000, step=1)

Somente para visualizar e verificar a indexação de cada linha, como serão identificadas.

#### 3.5 Analise de valores únicos dentro das colunas;   

In [8]:
data.nunique()

ClientId                  10000
DataExtracao                  1
Score_Credito               460
Estado                        3
Gênero                        2
Idade                        70
Tempo_Cliente                11
Limite_Credito_Mercado     5614
Qte_Categorias                4
Usa_Cartao_Credito            2
Programa_Fidelidade           2
Sum_Pedidos_Acumulados     9999
DataUltimaTransacao         122
Tempo sem comprar           122
Churn                         2
dtype: int64

#### 3.6 Analisando o formato de cada coluna; 

In [9]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 15 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   ClientId                10000 non-null  int64         
 1   DataExtracao            10000 non-null  datetime64[ns]
 2   Score_Credito           10000 non-null  int64         
 3   Estado                  10000 non-null  object        
 4   Gênero                  10000 non-null  object        
 5   Idade                   10000 non-null  int64         
 6   Tempo_Cliente           10000 non-null  int64         
 7   Limite_Credito_Mercado  9232 non-null   float64       
 8   Qte_Categorias          10000 non-null  int64         
 9   Usa_Cartao_Credito      10000 non-null  int64         
 10  Programa_Fidelidade     10000 non-null  int64         
 11  Sum_Pedidos_Acumulados  10000 non-null  int64         
 12  DataUltimaTransacao     10000 non-null  datetim

 - Foi identificado que a coluna Limite_Credito_mercado, possui dados nulos.

#### 3.7 Identificando valores missing;

In [10]:
data.isnull().sum()

ClientId                    0
DataExtracao                0
Score_Credito               0
Estado                      0
Gênero                      0
Idade                       0
Tempo_Cliente               0
Limite_Credito_Mercado    768
Qte_Categorias              0
Usa_Cartao_Credito          0
Programa_Fidelidade         0
Sum_Pedidos_Acumulados      0
DataUltimaTransacao         0
Tempo sem comprar           0
Churn                       0
dtype: int64

- Com a visão foi possível identificar 768 valores nulos na coluna Limite_Credito_Mercado e dessa forma teremos que preencher os dados com a mediana, visto que a média conforme abaixo está sendo influênciada para baixo devido aos outliers zerados.

In [11]:
print(data['Limite_Credito_Mercado'].describe())

count    9.232000e+03
mean     6.669974e+06
std      6.314556e+06
min      0.000000e+00
25%      0.000000e+00
50%      8.271338e+06
75%      1.225104e+07
max      2.508981e+07
Name: Limite_Credito_Mercado, dtype: float64


 - Para efetuar o tratamento dos dados iremos incluir a mediana nos valores nulos para não influênciar de forma negativa a predição dos clientes com churn.

## 4. Limpeza dos dados;
<!-- #4-limpeza-dos-dados -->

In [12]:
# Substituindo os valores nulos na coluna 'Limite_Credito_Mercado' pelo valor 8271337,5
data['Limite_Credito_Mercado'] = data['Limite_Credito_Mercado'].fillna(8271337.5)

# Verificando se a substituição foi feita corretamente
print(data['Limite_Credito_Mercado'].isnull().sum())  # Deve retornar 0

0


- Tratamento dos dados realizado com sucesso com a inclusão da mediana nas linhas que estão com dados nulos.

In [13]:
data.isnull().sum()

ClientId                  0
DataExtracao              0
Score_Credito             0
Estado                    0
Gênero                    0
Idade                     0
Tempo_Cliente             0
Limite_Credito_Mercado    0
Qte_Categorias            0
Usa_Cartao_Credito        0
Programa_Fidelidade       0
Sum_Pedidos_Acumulados    0
DataUltimaTransacao       0
Tempo sem comprar         0
Churn                     0
dtype: int64

In [14]:
# Adicionar uma coluna de índice 
data['index'] = data.index

 - Vamos adicionar uma coluna de índice ao DataFrame original antes do escalonamento e balanceamento, para garantir que possamos mapear de volta para os índices originais após a divisão.

## 5. Tratamento e pré-processamento de dados;   
<!-- #5-tratamento-e-pré-processamento-de-dados -->

In [15]:
# Escalonando os dados
scaler = StandardScaler()
X = data[['Idade', 'Limite_Credito_Mercado', 'Qte_Categorias', 'Programa_Fidelidade']] 
y = data['Churn']



In [90]:
# Aplicar o escalonamento 
X_scaled = scaler.fit_transform(X)

- A padronização dos dados foi aplicado para garantir que todas as features tivessem a mesma escala, evitando que features com valores maiores dominassem o modelo de Regressão Logística.

In [93]:
# Balanceamento das classes com SMOTE 
sm = SMOTE(random_state=42) 
X_resampled, y_resampled = sm.fit_resample(X, y)
indices_resampled = sm.fit_resample(np.array(data.index).reshape(-1, 1), y)[0]

## 6. Criação dos modelos preditivos ou classificação;
<!-- #6-Criação-dos-modelos-preditivos-ou-classificação -->

- Será necessário separar apenas as colunas que iremos utilizar na classificação e que já entendemos que seriam importantes para o modelo funcionar e que possuem correlação segundo o information value.

#### 6.1 Separação dos dados de treino e teste;

In [94]:
# Dividir os dados em treinamento e teste 
#X_train, X_test, y_train, y_test = train_test_split(X_resampled, y_resampled, test_size=0.3, random_state=65, stratify=y_resampled)
X_train, X_test, y_train, y_test, train_idx, test_idx = train_test_split(X_resampled, y_resampled, indices_resampled, test_size=0.3, random_state=42, stratify=y_resampled)

Nesse momento estamos separandos as variáveis de entradas que são os nossos históricos  e a variável de saída que é o nosso target ou previsão.

#### 6.2 Treinamento do Modelo;

In [95]:
# Treinar o modelo
rf_model = RandomForestClassifier(random_state=100) 
rf_model.fit(X_train, y_train)

RandomForestClassifier(random_state=100)

In [96]:
# Prever o churn para os dados de teste
y_pred_rf = rf_model.predict(X_test)

In [97]:
# Prever a probabilidade
y_pred_rf_prob = rf_model.predict_proba(X_test)[:, 1]

In [118]:
# Ajustar o threshold 
optimal_threshold = 0.2 # Ajuste conforme necessário

# Ajuste conforme necessário 
y_pred_rf_adjusted = (y_pred_rf_prob >= optimal_threshold).astype(int)

In [119]:
# Juntar as previsões e probabilidades ajustadas 
y_result_prob_rf = np.concatenate((y_pred_rf_adjusted.reshape(len(y_pred_rf_adjusted), 1), y_pred_rf_prob.reshape(len(y_pred_rf_prob), 1)), axis=1) 
y_result_df_rf = pd.DataFrame(y_result_prob_rf, columns=['y_pred_adjusted', 'y_pred_prob'])

In [120]:
# Transformando o resultado em uma tabela.
y_result_df_rf = pd.DataFrame(y_result_prob_rf, columns=['y_pred_adjusted', 'y_pred_prob'])

## 7. Avaliando o desempenho do modelo;
<!-- #7-Avaliando-o-desempenho-do-modelo -->

In [121]:
result = rf_model.score(X_test,y_test)
print("Acurácia nos dados de teste: %.3f%%" % (result*100.0))

Acurácia nos dados de teste: 77.947%


In [122]:
# Confusion Matrix 
conf_matrix = confusion_matrix(y_test, y_pred_rf_adjusted) 
print("Confusion Matrix:\n", conf_matrix)

Confusion Matrix:
 [[1492  905]
 [ 238 2158]]


In [103]:
# Métricas de Avaliação
print("Accuracy (RF, adjusted):", accuracy_score(y_test, y_pred_rf_adjusted))
print("Precision (RF, adjusted):", precision_score(y_test, y_pred_rf_adjusted))
print("Recall (RF, adjusted):", recall_score(y_test, y_pred_rf_adjusted))
print("F1 Score (RF, adjusted):", f1_score(y_test, y_pred_rf_adjusted))
print("ROC AUC Score (RF, adjusted):", roc_auc_score(y_test, y_pred_rf_prob))

Accuracy (RF, adjusted): 0.779261422908408
Precision (RF, adjusted): 0.7748562037797864
Recall (RF, adjusted): 0.7871452420701168
F1 Score (RF, adjusted): 0.780952380952381
ROC AUC Score (RF, adjusted): 0.8616770545820004


In [106]:
# Juntar as previsões e probabilidades em um DataFrame
results_df = pd.DataFrame({ 'ClientId': data.loc[test_idx.flatten().astype(int), 'ClientId'].values,
                           'Idade': data.loc[test_idx.flatten().astype(int), 'Idade'].values,
                           'Limite_Credito_Mercado': data.loc[test_idx.flatten().astype(int),'Limite_Credito_Mercado'].values,
                           'Qte_Categorias': data.loc[test_idx.flatten().astype(int),'Qte_Categorias'].values,
                           'Programa_Fidelidade': data.loc[test_idx.flatten().astype(int), 'Programa_Fidelidade'].values,
                           'Actual': y_test.values,
                           'Predicted': y_pred_rf_adjusted, 
                           'Probability': y_pred_rf_prob})

In [107]:
# Exportando o DataFrame final para um arquivo Excel
caminho_arquivo = r'F:\Pen Fausto\Curso - Preditiva AI\Fundamentos Anaytics\08 - Projeto Nº2\resultado_churnv5.xlsx'
results_df.to_excel(caminho_arquivo, index=False)

## 8. Conclusões Finais
<!-- #8-Conclusões-Finais -->

Com a implementação das estratégias de retenção baseadas em Machine Learning e a personalização de ofertas e comunicações, conseguimos identificar e atuar proativamente sobre clientes em risco de churn. A automação e a análise contínua de dados não só irão aumentaram a eficiência operacional, como também irão melhorar a precisão das nossas previsões, garantindo uma experiência superior para nossos clientes. O ideal é continuar aprimorando as abordagens para manter e fortalecer a lealdade dos nossos clientes.