<a href="https://colab.research.google.com/github/EliseMalvaoCarlson/Challenge2_Alura_Data_Science_TeleconX_Parte2/blob/main/TelecomX_BR_parte2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



# Challenge - Telecom X - parte 2

# üõ†Ô∏è 1 - Prepara√ß√£o dos Dados

## 1.1 - Extra√ß√£o do Arquivo Tratado

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
dados = pd.read_csv("https://raw.githubusercontent.com/EliseMalvaoCarlson/Challeng_TelecomX_parte2_BR/refs/heads/main/dados_tratados.csv")


In [None]:
dados.head()

## 1.2 - Remo√ß√£o de Colunas Irrelevantes

A base de dados importada j√° estava sem a coluna customerID

## 1.3 - Encoding

# O que √© Encoding?

No processamento de dados para machine learning, encoding √© o processo de transformar vari√°veis categ√≥ricas (como ‚Äúg√™nero‚Äù ou ‚Äútipo de contrato‚Äù) em valores num√©ricos que os algoritmos conseguem entender. Modelos como Random Forest ou Regress√£o Log√≠stica n√£o conseguem trabalhar diretamente com texto ‚Äî eles precisam de n√∫meros.

### 1.3.1 - Identificar as colunas categ√≥ricas

In [None]:
colunas_categoricas = ['gender', 'Partner', 'Dependents', 'PhoneService',
                       'MultipleLines', 'InternetService', 'OnlineSecurity',
                       'OnlineBackup', 'DeviceProtection', 'TechSupport',
                       'StreamingTV', 'StreamingMovies', 'Contract',
                       'PaperlessBilling', 'PaymentMethod']

### 1.3.2 - Aplicar get_dummies()

**O que √© get_dummies()?**

A fun√ß√£o get_dummies() do pandas √© usada para codificar vari√°veis categ√≥ricas em formato num√©rico. Isso √© essencial para que algoritmos de machine learning possam processar essas informa√ß√µes

In [None]:
# Codifica vari√°veis categ√≥ricas (drop_first=True para evitar multicolinearidade)
dados_encoded = pd.get_dummies(dados, columns=colunas_categoricas, drop_first=True)

### 1.3.3 - Verifica√ß√£o da Propor√ß√£o de Evas√£o

In [None]:
# Propor√ß√£o de churn
y = dados['Churn']
proporcao_churn = y.value_counts(normalize=True).round(2) * 100

# Impress√£o no console
print("Propor√ß√£o de clientes:")
print(f"Ativos (Churn = 0): {proporcao_churn[0]}%")
print(f"Evadidos (Churn = 1): {proporcao_churn[1]}%")

# Visualiza√ß√£o aprimorada
plt.figure(figsize=(6, 4))
cores = ['blue', '#F44336']  # verde e vermelho mais suaves
proporcao_churn.plot(kind='bar', color=cores)

# R√≥tulos e t√≠tulo
plt.xticks(ticks=[0, 1], labels=['Ativos', 'Evadidos'], rotation=0)
plt.title('Distribui√ß√£o das Classes (Churn)', fontsize=14)
plt.ylabel('% de Clientes', fontsize=12)
plt.ylim(0, 100)
plt.grid(axis='y', linestyle='--', alpha=0.5)

# Adiciona os valores nas barras
for i, valor in enumerate(proporcao_churn):
    plt.text(i, valor + 2, f'{valor:.1f}%', ha='center', fontsize=12)

plt.tight_layout()
plt.show()


### 1.3.4 - Balanceamento de Classes (opcional)

Seria necess√°rio se a propor√ß√£o de churn for muito baixa, algo como Ativos (Churn = 0): 90% / Evadidos (Churn = 1): 10%, mas como obtivemos valores mais altos, n√£o ser√° necess√°rio.

### 1.3.5 - Normaliza√ß√£o ou Padroniza√ß√£o (se necess√°rio)

Vamos pular essa etapa porque vamos usar Random Forest agora.

# üéØ 2 - Correla√ß√£o e Sele√ß√£o de Vari√°veis

## 2.1 - An√°lise de Correla√ß√£o - Matriz de Correla√ß√£o entre vari√°veis num√©ricas

In [None]:
corr = dados_encoded.corr().round(4)

**O que √© .corr()?**

A fun√ß√£o .corr() calcula a matriz de correla√ß√£o entre todas as vari√°veis num√©ricas do DataFrame dados_encoded. A correla√ß√£o mede o grau de associa√ß√£o entre duas vari√°veis, com valores que variam de:

+1: correla√ß√£o positiva perfeita

0: nenhuma correla√ß√£o

‚Äì1: correla√ß√£o negativa perfeita

**E o .round(4)?**

Esse m√©todo arredonda os valores da matriz de correla√ß√£o para quatro casas decimais, facilitando a leitura e a visualiza√ß√£o dos resultados.

**Resultado: corr**

O objeto corr gerado √© uma tabela quadrada onde cada c√©lula representa a correla√ß√£o entre duas vari√°veis. Por exemplo:

corr['Churn']['tenure'] mostra a correla√ß√£o entre tempo de contrato e evas√£o.

corr['Churn']['Contract_Two year'] mostra a correla√ß√£o entre contratos bienais e churn.



In [None]:
corr['Churn'].sort_values(ascending=False)

In [None]:
# 1. Correla√ß√µes com 'Churn'
corr_churn = corr['Churn'].drop('Churn')

# 2. Ordenar por correla√ß√£o absoluta
correlacoes_ordenadas = corr_churn.reindex(
    corr_churn.abs().sort_values(ascending=False).index
)

# 3. Obter o limite da 10¬™ maior correla√ß√£o (com empates)
top_n = 10
limite = correlacoes_ordenadas.abs().unique()[top_n - 1]
variaveis_relevantes = correlacoes_ordenadas[correlacoes_ordenadas.abs() >= limite].index.tolist()

# 4. Incluir 'Churn' na lista
variaveis_plot = ['Churn'] + variaveis_relevantes

# 5. Criar submatriz de correla√ß√£o
submatriz_corr = corr.loc[variaveis_plot, variaveis_plot]

# 6. Plotar heatmap
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(10, 8))
sns.heatmap(
    submatriz_corr,
    annot=True,
    fmt='.2f',
    cmap='coolwarm',
    vmin=-1, vmax=1,
    linewidths=0.5,
    linecolor='gray',
    cbar_kws={"shrink": 0.8}
)
plt.title('Submatriz das Maiores Correla√ß√µes com Churn', fontsize=14)
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

## 2.2 - An√°lises Direcionadas

### 2.2.1 - Tempo de contrato √ó Evas√£o

In [None]:
# Convert 'Churn' to categorical for plotting
dados['Churn'] = dados['Churn'].astype('category')

plt.figure(figsize=(8, 5))  # Tamanho do gr√°fico
sns.boxplot(x='Churn', y='tenure', data=dados, hue='Churn', palette={0.0: '#4CAF50', 1.0: '#F44336'}, legend=False)  # Cores personalizadas
plt.title('Tempo de Contrato x Churn', fontsize=14, fontweight='bold')
plt.xlabel('Churn (0 = N√£o, 1 = Sim)', fontsize=12)
plt.ylabel('Meses de Contrato', fontsize=12)
# Adjust xticks to match categorical values
plt.xticks(ticks=[0, 1], labels=['N√£o Evadiu', 'Evadiu'], fontsize=11)
plt.yticks(fontsize=10)
plt.grid(axis='y', linestyle='--', alpha=0.3)
plt.tight_layout()
plt.show()

### 2.2.2 - Total Gasto √ó Evas√£o

In [None]:
sns.boxplot(x='Churn', y='Charges.Total', data=dados)
plt.title('Total Gasto x Churn')
plt.xlabel('Churn (0 = N√£o, 1 = Sim)')
plt.ylabel('Valor Total Gasto')
plt.show()

# ü§ñ 3 - Modelagem Preditiva

## 3.1 - Separa√ß√£o de dados

In [None]:
from sklearn.model_selection import train_test_split

X = dados_encoded.drop(columns=['Churn'])  # j√° est√° sem customerID
y = dados_encoded['Churn']

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

## 3.2 - Cria√ß√£o de modelos

### 3.2.1 - Treinamento com Random Forest

**O que √© Random Forest?**

Random Forest √© um algoritmo de aprendizado supervisionado baseado em √°rvores de decis√£o. Ele cria v√°rias √°rvores (da√≠ o ‚Äúforest‚Äù) e combina suas previs√µes para melhorar a precis√£o e reduzir o risco de overfitting.

**O que acontece ap√≥s o treinamento?**

O modelo aprende padr√µes nos dados para prever a vari√°vel alvo (Churn). Ele ser√° testado depois com dados novos (X_test) para verificar se consegue generalizar bem.

In [None]:
from sklearn.ensemble import RandomForestClassifier

modelo_rf = RandomForestClassifier(random_state=42)
modelo_rf.fit(X_train, y_train)

### 3.2.2 - Treinamento com Regress√£o Log√≠stica - etapa 1: Separar vari√°veis num√©ricas para normalizar apenas onde necess√°rio

**A Regress√£o Log√≠stica √© um modelo estat√≠stico usado para prever vari√°veis**
bin√°rias, como o churn (evas√£o de clientes), que pode ser 0 (permaneceu) ou 1 (evadiu). Ela estima a probabilidade de um evento ocorrer com base nas vari√°veis explicativas.

**Etapa 1: Normaliza√ß√£o dos dados**

In [None]:
from sklearn.preprocessing import StandardScaler

# Identificar colunas num√©ricas
numericas = X.select_dtypes(include=['float64', 'int64']).columns.tolist()

# Normalizar os dados para regress√£o log√≠stica
scaler = StandardScaler()
X_norm = X.copy()
X_norm[numericas] = scaler.fit_transform(X_norm[numericas])

# Dividir treino/teste com os dados normalizados
Xn_train, Xn_test, yn_train, yn_test = train_test_split(
    X_norm, y, test_size=0.3, random_state=42, stratify=y # propor√ß√£o de 70% para treino e 30% para teste
)

### 3.2.2 - Treinamento com Regress√£o Log√≠stica - etapa 2: Treinar Regress√£o Log√≠stica com dados normalizados

**Os dados normalizados foram divididos em treino e teste:**



In [None]:
from sklearn.linear_model import LogisticRegression

modelo_log = LogisticRegression(max_iter=1000, random_state=42)
modelo_log.fit(Xn_train, yn_train)

### 3.2.3 - Justificativa de escolha dos modelos para an√°lise

###  Random Forest

O modelo **Random Forest** foi adotado como uma abordagem baseada em √°rvores de decis√£o. Por sua natureza, ele √© robusto a vari√°veis com diferentes escalas e tipos, o que elimina a necessidade de normaliza√ß√£o dos dados. Essa caracter√≠stica foi considerada na etapa de pr√©-processamento, onde a padroniza√ß√£o foi propositalmente omitida. Apesar de sua alta capacidade de aprendizado, o modelo apresentou sinais de **overfitting**, com desempenho quase perfeito no treino e queda significativa no teste, o que compromete sua capacidade de generaliza√ß√£o.

---

###  Regress√£o Log√≠stica

A **Regress√£o Log√≠stica** foi escolhida como modelo linear base para prever a evas√£o de clientes. Por ser sens√≠vel √† escala das vari√°veis, foi aplicada a **normaliza√ß√£o com StandardScaler** nas colunas num√©ricas antes do treinamento. Essa escolha se justifica por ser um dos algoritmos mais utilizados em problemas de classifica√ß√£o bin√°ria, como o de churn. Al√©m de ser simples e eficiente, ela fornece **coeficientes interpret√°veis**, permitindo entender o impacto de cada vari√°vel na probabilidade de evas√£o.

Embora o modelo ainda n√£o tenha sido explorado em profundidade no curso, sua configura√ß√£o foi feita com base em **refer√™ncias confi√°veis e suporte t√©cnico**, garantindo que os ajustes necess√°rios ‚Äî como normaliza√ß√£o e balanceamento ‚Äî fossem corretamente aplicados.

---

###  Compara√ß√£o entre os modelos

A compara√ß√£o entre Random Forest e Regress√£o Log√≠stica permitiu avaliar o desempenho entre t√©cnicas **n√£o-lineares** e **lineares** no contexto da previs√£o de churn. A Regress√£o Log√≠stica demonstrou maior consist√™ncia entre treino e teste, melhor recall e F1-score, al√©m de ser mais confi√°vel para aplica√ß√£o pr√°tica. J√° o Random Forest, apesar de sua alta acur√°cia no treino, mostrou dificuldade de generaliza√ß√£o, refor√ßando a import√¢ncia de ajustes como o GridSearchCV.



## 3.3 - Avalia√ß√£o dos Modelos

### 3.3.1 - M√©tricas: acur√°cia, precis√£o, recall e F1-score.

O que s√£o essas m√©tricas?

Essas quatro m√©tricas s√£o usadas para **avaliar o desempenho de modelos de classifica√ß√£o**, especialmente em problemas bin√°rios como o churn (evas√£o de clientes):

| M√©trica       | Defini√ß√£o                                                                 | Interpreta√ß√£o pr√°tica no notebook |
|---------------|---------------------------------------------------------------------------|-----------------------------------|
| **Acur√°cia**  | Propor√ß√£o de previs√µes corretas sobre o total de casos                    | Mede o desempenho geral do modelo |
| **Precis√£o**  | Propor√ß√£o de casos previstos como positivos que realmente s√£o positivos   | Indica se o modelo evita falsos positivos |
| **Recall**    | Propor√ß√£o de casos positivos que foram corretamente identificados         | Mede a capacidade de detectar clientes que realmente evadiram |
| **F1-score**  | M√©dia harm√¥nica entre precis√£o e recall                                   | Equil√≠brio entre acertos e cobertura |

---

### Como foram aplicadas no notebook?

O notebook calculou essas m√©tricas para os dois modelos ‚Äî **Random Forest** e **Regress√£o Log√≠stica** ‚Äî tanto no conjunto de **treino** quanto no de **teste**:

```python
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
```

As previs√µes foram feitas com `.predict()` e os resultados foram organizados em um `DataFrame` chamado `df_metricas`, arredondado para tr√™s casas decimais.

---

###  Resultados observados

####  Random Forest
- **Treino**: Acur√°cia de 0.998, Recall de 0.995 ‚Üí quase perfeito (ind√≠cio de overfitting)
- **Teste**: Acur√°cia de 0.784, Recall de 0.494 ‚Üí caiu bastante, errou mais da metade dos churns

####  Regress√£o Log√≠stica
- **Treino**: Acur√°cia de 0.811, Recall de 0.563 ‚Üí desempenho mais realista
- **Teste**: Acur√°cia de 0.798, Recall de 0.545 ‚Üí melhor equil√≠brio e generaliza√ß√£o

---

###  Conclus√£o

Essas m√©tricas permitiram comparar os modelos de forma objetiva. O **Random Forest** teve alta acur√°cia no treino, mas baixo recall no teste, indicando overfitting. J√° a **Regress√£o Log√≠stica** mostrou desempenho mais consistente e maior capacidade de identificar clientes que realmente evadiram ‚Äî o que √© essencial para o objetivo do projeto.


In [None]:
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score, f1_score
)
import pandas as pd

# Previs√µes dos dois modelos - TESTE
y_pred_rf = modelo_rf.predict(X_test)
y_pred_log = modelo_log.predict(Xn_test)

# Previs√µes dos dois modelos - TREINO
y_pred_rf_train = modelo_rf.predict(X_train)
y_pred_log_train = modelo_log.predict(Xn_train)

# Dicion√°rios com as m√©tricas principais - TESTE
metricas_rf_test = {
    'Modelo': 'Random Forest - Teste',
    'Acur√°cia': accuracy_score(y_test, y_pred_rf),
    'Precis√£o': precision_score(y_test, y_pred_rf),
    'Recall': recall_score(y_test, y_pred_rf),
    'F1-Score': f1_score(y_test, y_pred_rf)
}

metricas_log_test = {
    'Modelo': 'Regress√£o Log√≠stica - Teste',
    'Acur√°cia': accuracy_score(yn_test, y_pred_log),
    'Precis√£o': precision_score(yn_test, y_pred_log),
    'Recall': recall_score(yn_test, y_pred_log),
    'F1-Score': f1_score(yn_test, y_pred_log)
}


# Dicion√°rios com as m√©tricas principais - TREINO
metricas_rf_train = {
    'Modelo': 'Random Forest - Treino',
    'Acur√°cia': accuracy_score(y_train, y_pred_rf_train),
    'Precis√£o': precision_score(y_train, y_pred_rf_train),
    'Recall': recall_score(y_train, y_pred_rf_train),
    'F1-Score': f1_score(y_train, y_pred_rf_train)
}

metricas_log_train = {
    'Modelo': 'Regress√£o Log√≠stica - Treino',
    'Acur√°cia': accuracy_score(yn_train, y_pred_log_train),
    'Precis√£o': precision_score(yn_train, y_pred_log_train),
    'Recall': recall_score(yn_train, y_pred_log_train),
    'F1-Score': f1_score(yn_train, y_pred_log_train)
}

# Criar DataFrame com os dois modelos
df_metricas = pd.DataFrame([metricas_rf_test, metricas_log_test, metricas_rf_train, metricas_log_train])
df_metricas.set_index('Modelo', inplace=True)
df_metricas = df_metricas.round(3)

# Mostrar as m√©tricas em tabela
print("\nüìä Comparativo das M√©tricas Principais:")
df_metricas


### 3.3.1 - M√©trica: matriz de confus√£o

In [None]:
from sklearn.metrics import confusion_matrix
import pandas as pd

# --- Previs√µes para o conjunto de TESTE ---
y_pred_rf_test = modelo_rf.predict(X_test)
y_pred_log_test = modelo_log.predict(Xn_test)

# --- Previs√µes para o conjunto de TREINO ---
y_pred_rf_train = modelo_rf.predict(X_train)
y_pred_log_train = modelo_log.predict(Xn_train)

print("--- MATRIZES DE CONFUS√ÉO ---")

# --- Matriz Random Forest - TESTE ---
print("\nüìä Matriz de Confus√£o - Random Forest (Teste)")
print(pd.DataFrame(confusion_matrix(y_test, y_pred_rf_test),
                   index=['Atual: Permaneceu', 'Atual: Evadiu'],
                   columns=['Previsto: Permaneceu', 'Previsto: Evadiu']))

# --- Matriz Random Forest - TREINO ---
print("\nüìä Matriz de Confus√£o - Random Forest (Treino)")
print(pd.DataFrame(confusion_matrix(y_train, y_pred_rf_train),
                   index=['Atual: Permaneceu', 'Atual: Evadiu'],
                   columns=['Previsto: Permaneceu', 'Previsto: Evadiu']))

print("\n" + "=" * 60 + "\n")  # Divisor maior entre modelos

# --- Matriz Regress√£o Log√≠stica - TESTE ---
print("üìä Matriz de Confus√£o - Regress√£o Log√≠stica (Teste)")
print(pd.DataFrame(confusion_matrix(yn_test, y_pred_log_test),
                   index=['Atual: Permaneceu', 'Atual: Evadiu'],
                   columns=['Previsto: Permaneceu', 'Previsto: Evadiu']))

# --- Matriz Regress√£o Log√≠stica - TREINO ---
print("\nüìä Matriz de Confus√£o - Regress√£o Log√≠stica (Treino)")
print(pd.DataFrame(confusion_matrix(yn_train, y_pred_log_train),
                   index=['Atual: Permaneceu', 'Atual: Evadiu'],
                   columns=['Previsto: Permaneceu', 'Previsto: Evadiu']))


### 3.3.2 - An√°lise cr√≠tica

## ‚úÖ **Resumo geral das m√©tricas**

| Modelo                      | Acur√°cia | Precis√£o | Recall | F1-Score |
| --------------------------- | -------- | -------- | ------ | -------- |
| **Random Forest - Treino**  | 0.998    | 0.996    | 0.995  | 0.996    |
| **Random Forest - Teste**   | 0.784    | 0.617    | 0.494  | 0.549    |
| **Reg. Log√≠stica - Treino** | 0.811    | 0.671    | 0.563  | 0.613    |
| **Reg. Log√≠stica - Teste**  | 0.798    | 0.640    | 0.545  | 0.589    |

---

## üîç **An√°lise detalhada por modelo**

### üå≤ **Random Forest**

#### üü© Ponto positivo:

* Acertou 1380 dos 1552 clientes que permaneceram.
* Boa precis√£o no teste (0.617), ou seja, quando prev√™ churn, costuma acertar.

#### üü• Ponto preocupante:

* **Desempenho em treino alt√≠ssimo (quase 100%)** e queda forte no teste.
* Recall no teste √© baixo (0.494), ou seja, **erra mais de 50% dos clientes que evadiram**.
* Matriz de confus√£o do treino mostra apenas **11 erros em mais de 5000 registros** ‚Äî isso √© um **sinal claro de overfitting**.

#### üìâ Conclus√£o:

> **Random Forest memorizou os dados de treino** e teve dificuldade de generalizar no conjunto de teste. Apesar de sua alta performance no treino, seu desempenho real √© limitado.

---

### üìà **Regress√£o Log√≠stica**

#### üü© Ponto forte:

* Manteve **boa consist√™ncia entre treino e teste** ‚Äî ou seja, generaliza melhor.
* No teste:

  * **Maior recall (0.545)** ‚Üí identificou mais clientes que realmente evadiram
  * **Melhor F1-score (0.589)** ‚Üí equil√≠brio mais robusto entre precis√£o e recall

#### üü® Considera√ß√µes:

* No treino, teve desempenho inferior ao Random Forest, mas **sem exagero**.
* Apresentou 737 acertos de churn e 571 falsos negativos (matriz de confus√£o treino), o que √© **realista para modelos simples e interpret√°veis**.

#### üìâ Conclus√£o:

> Embora menos potente que Random Forest, a Regress√£o Log√≠stica mostra **desempenho est√°vel, interpret√°vel e mais confi√°vel para aplica√ß√£o pr√°tica.**

---

## üß† **An√°lise comparativa (cr√≠tica)**

| Crit√©rio                  | Random Forest        | Regress√£o Log√≠stica | Melhor modelo |
| ------------------------- | -------------------- | ------------------- | ------------- |
| Acur√°cia no teste         | 0.784                | **0.798**           | üîπ Log√≠stica  |
| Recall (teste - churn)    | 0.494                | **0.545**           | üîπ Log√≠stica  |
| F1-Score (teste)          | 0.549                | **0.589**           | üîπ Log√≠stica  |
| Consist√™ncia treino/teste | ‚ùå (muito gap)        | ‚úÖ (coerente)        | üîπ Log√≠stica  |
| Overfitting detectado?    | ‚úÖ Sim                | ‚ùå N√£o               | üîπ Log√≠stica  |
| Facilidade de explica√ß√£o  | M√©dia (import√¢ncias) | Alta (coeficientes) | üîπ Log√≠stica  |


### 3.3.3 - Justificativa da escolha do modelo

Com base nas m√©tricas de desempenho obtidas at√© esta etapa, o modelo de **Regress√£o Log√≠stica** apresentou resultados superiores ao Random Forest em todos os principais indicadores: acur√°cia, precis√£o, recall e F1-score. Destaca-se, sobretudo, o **maior recall**, essencial para a identifica√ß√£o de clientes com risco real de evas√£o ‚Äî objetivo central deste projeto.

O modelo **Random Forest**, por sua vez, apesar de apresentar boa performance em teste, demonstrou sinais evidentes de **overfitting**, com desempenho quase perfeito no conjunto de treino. Esse comportamento sugere baixa capacidade de generaliza√ß√£o para novos dados.

**Assim, at√© o momento, a Regress√ßao Log√≠stica √© a op√ß√£o mais adequada dentre os modelos treinados inicialmente.**

Entretanto, essa an√°lise cr√≠tica abre espa√ßo para poss√≠veis melhorias. Em uma pr√≥xima etapa, ser√° conduzido um **aprofundamento t√©cnico com refinamento dos modelos, visando corrigir distor√ß√µes como overfitting e melhorar a sensibilidade na detec√ß√£o de churn.**

Esse processo permitir√° validar se a escolha atual permanece como a mais indicada ou se outro modelo, ap√≥s ajustes, poder√° apresentar desempenho mais robusto.

### 3.3.4 - Overfitting ou Underfitting

### üîç Random Forest

**Conclus√£o:**
> Forte ind√≠cio de **Overfitting**.  
O modelo Random Forest performou quase perfeitamente nos dados de treino, mas teve **queda significativa** no teste. Isso indica que o modelo possivelmente **"memorizou" os dados de treino**, comprometendo a **generaliza√ß√£o**.

---

### üîç Regress√£o Log√≠stica

**Conclus√£o:**
> A diferen√ßa entre treino e teste √© **muito menor**, o que indica **boa generaliza√ß√£o**.  
A Regress√£o Log√≠stica **n√£o sofre de overfitting severo**.  
Entretanto, o **recall moderado** sugere que o modelo ainda **perde quase metade dos clientes que realmente evadem**. Isso pode indicar um poss√≠vel **underfitting da classe minorit√°ria**, sem ser um underfitting generalizado.

---

## üìå Resumo Geral

- **Random Forest**: Apresentou **overfitting** ‚Äî o modelo est√° excessivamente ajustado aos dados de treino.
- **Regress√£o Log√≠stica**: Apresentou **consist√™ncia** entre treino e teste. Ainda que o recall seja moderado, **n√£o h√° overfitting severo**. Pode haver uma **dificuldade em capturar a classe minorit√°ria** (churn).

# üìã 4 - Interpreta√ß√£o e Conclus√µes

## 4.1 - Random Forest ‚Äì Import√¢ncia das Vari√°veis

Objetivo: entender quais vari√°veis mais impactam a decis√£o do modelo.

In [None]:
importances = modelo_rf.feature_importances_
variaveis = X.columns

importancia_df = pd.DataFrame({
    'Vari√°vel': variaveis,
    'Import√¢ncia': importances
}).sort_values(by='Import√¢ncia', ascending=False)

# Visualizar as 10 vari√°veis mais importantes
print(importancia_df.head(10))

# Gr√°fico
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(9, 6))
sns.barplot(x='Import√¢ncia', y='Vari√°vel', data=importancia_df.head(10))
plt.title('Top 10 Vari√°veis mais Importantes - Random Forest')
plt.tight_layout()
plt.show()

## 4.2 - Regress√£o Log√≠stica ‚Äì Coeficientes das Vari√°veis

Objetivo: verificar a influ√™ncia (positiva ou negativa) de cada vari√°vel na evas√£o.

Interpreta√ß√£o dos coeficientes:

- Coeficiente positivo: aumenta a chance de churn;

- Coeficiente negativo: reduz a chance de churn.

In [None]:
coeficientes = modelo_log.coef_[0]
variaveis_log = Xn_train.columns

coef_df = pd.DataFrame({
    'Vari√°vel': variaveis_log,
    'Coeficiente': coeficientes
}).sort_values(by='Coeficiente', key=abs, ascending=False)

# Exibir as vari√°veis com maior peso absoluto
print(coef_df.head(10))

# Gr√°fico
plt.figure(figsize=(10, 6))
sns.barplot(x='Coeficiente', y='Vari√°vel', data=coef_df.head(10))
plt.title('Top 10 Coeficientes - Regress√£o Log√≠stica')
plt.tight_layout()
plt.show()

## 4.3 - An√°lise cr√≠tica dos modelos com refinamentos

### 4.3.1 - Revis√£o Cr√≠tica da Modelagem

Com base na Etapa 3, foi poss√≠vel identificar que o modelo de Random Forest apresentava sinais de overfitting e que a Regress√£o Log√≠stica, embora mais est√°vel, ainda poderia melhorar o recall ‚Äî m√©trica cr√≠tica em problemas de churn.

Dessa forma, nesta etapa foram aplicadas t√©cnicas de refinamento e ajustes para validar se melhorias nos modelos poderiam gerar ganhos expressivos, sem perder a capacidade de generaliza√ß√£o.

As t√©cnicas aplicadas foram:

- Ajuste de hiperpar√¢metros com `GridSearchCV` no Random Forest
- Regress√£o Log√≠stica com `class_weight='balanced'`
- Ajuste do threshold (limiar de classifica√ß√£o) na Regress√£o Log√≠stica

### 4.3.2 - Aplica√ß√£o das Melhorias Propostas

#### 4.3.2.1 - Ajuste de Hiperpar√¢metros no Random Forest

Para mitigar o overfitting observado no Random Forest, foi aplicado um ajuste de hiperpar√¢metros via GridSearchCV, otimizando a m√©trica de F1-score.

In [46]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report, confusion_matrix

# Definir o grid de hiperpar√¢metros
param_grid = {
    'n_estimators': [100, 200],
    'max_depth': [5, 10, None],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 2],
    'max_features': ['sqrt', 'log2']
}

# Criar e treinar o GridSearchCV
grid_rf = GridSearchCV(
    estimator=RandomForestClassifier(random_state=42),
    param_grid=param_grid,
    cv=5,
    n_jobs=-1,
    scoring='f1',
    verbose=1
)

# Treinar com os dados
grid_rf.fit(X_train, y_train)

# Obter o melhor modelo
melhor_rf = grid_rf.best_estimator_

# Prever no conjunto de teste
y_pred_melhor_rf = melhor_rf.predict(X_test)

# Exibir relat√≥rio e matriz de confus√£o
print("=== Random Forest com Hiperpar√¢metros Otimizados ===")
print(classification_report(y_test, y_pred_melhor_rf))
print("Matriz de Confus√£o:")
print(confusion_matrix(y_test, y_pred_melhor_rf))

Fitting 5 folds for each of 48 candidates, totalling 240 fits
=== Random Forest com Hiperpar√¢metros Otimizados ===
              precision    recall  f1-score   support

         0.0       0.84      0.89      0.86      1552
         1.0       0.64      0.51      0.57       561

    accuracy                           0.79      2113
   macro avg       0.74      0.70      0.72      2113
weighted avg       0.78      0.79      0.79      2113

Matriz de Confus√£o:
[[1387  165]
 [ 273  288]]


#### 4.3.2.2 - Regr. Log√≠stica com class_weight='balanced'

Considerando o custo de falsos negativos em churn, foi testado o uso de class_weight='balanced' na Regress√£o Log√≠stica. A estrat√©gia prioriza o aprendizado da classe minorit√°ria, mesmo com propor√ß√£o moderada (26.5%).

In [47]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix

# Treinamento com balanceamento de classes
modelo_log_bal = LogisticRegression(max_iter=1000, class_weight='balanced')
modelo_log_bal.fit(Xn_train, yn_train)

# Previs√£o
y_pred_log_bal = modelo_log_bal.predict(Xn_test)

# Avalia√ß√£o
print("=== Regress√£o Log√≠stica com class_weight='balanced' ===")
print(classification_report(yn_test, y_pred_log_bal))
print("Matriz de Confus√£o:")
print(confusion_matrix(yn_test, y_pred_log_bal))

=== Regress√£o Log√≠stica com class_weight='balanced' ===
              precision    recall  f1-score   support

         0.0       0.91      0.71      0.80      1552
         1.0       0.50      0.80      0.61       561

    accuracy                           0.73      2113
   macro avg       0.70      0.75      0.71      2113
weighted avg       0.80      0.73      0.75      2113

Matriz de Confus√£o:
[[1103  449]
 [ 113  448]]


#### 4.3.2.3 - Ajuste de Threshold com Base na Curva de Precis√£o-Recall

Por fim, foi ajustado o threshold de decis√£o da Regress√£o Log√≠stica tradicional. O objetivo foi encontrar o ponto com melhor F1-score mantendo recall ‚â• 0.65. Essa abordagem visa melhorar a sensibilidade sem comprometer excessivamente a precis√£o.

In [53]:
# Gerar probabilidades com o modelo de Regress√£o Log√≠stica
y_probs = modelo_log.predict_proba(Xn_test)[:, 1]  # Probabilidade da classe 1 (churn)

# Obter precis√£o, recall e thresholds da curva
prec, rec, thresholds = precision_recall_curve(yn_test, y_probs)

# Calcular F1-score para cada ponto da curva
f1_scores = 2 * (prec * rec) / (prec + rec + 1e-6)  # evitar divis√£o por zero

# Filtrar apenas os thresholds com recall acima de 0.65
validos = rec >= 0.65

# Selecionar o melhor threshold com base no maior F1-score entre os v√°lidos
if np.any(validos):
    idx_max_f1 = np.argmax(f1_scores * validos)
    threshold_otimizado = thresholds[idx_max_f1]
else:
    threshold_otimizado = 0.5  # fallback padr√£o

# Aplicar novo threshold √†s probabilidades
y_pred_threshold = (y_probs >= threshold_otimizado).astype(int)

# Avalia√ß√£o
print(f"=== Regress√£o Log√≠stica com Novo Threshold Otimizado (threshold = {threshold_otimizado:.2f}) ===")
print(classification_report(yn_test, y_pred_threshold))
print("Matriz de Confus√£o:")
print(confusion_matrix(yn_test, y_pred_threshold))


=== Regress√£o Log√≠stica com Novo Threshold Otimizado (threshold = 0.31) ===
              precision    recall  f1-score   support

         0.0       0.90      0.76      0.83      1552
         1.0       0.54      0.76      0.63       561

    accuracy                           0.76      2113
   macro avg       0.72      0.76      0.73      2113
weighted avg       0.80      0.76      0.78      2113

Matriz de Confus√£o:
[[1186  366]
 [ 132  429]]


## 4.3 - Comparativo Final dos Modelos

A seguir, s√£o apresentados os resultados comparativos obtidos com esses aprimoramentos.

| Modelo                                 | Acur√°cia | Precis√£o | Recall    | F1-Score  | FN (evadiu, mas n√£o previsto) |
| -------------------------------------- | -------- | -------- | --------- | --------- | ----------------------------- |
| **Random Forest (original)**           | 0.784    | 0.617    | 0.494     | 0.549     | 284                           |
| **Random Forest (ajustado)**           | 0.790    | 0.640    | 0.510     | 0.570     | 273                           |
| **Regress√£o Log√≠stica (original)**     | 0.798    | 0.640    | 0.545     | 0.589     | 255                           |
| **Regr. Log√≠stica com `balanced`**     | 0.730    | 0.500    | **0.800** | 0.610     | **113**                       |
| **Regr. Log√≠stica com threshold 0.31** | 0.760    | 0.540    | 0.765     | **0.630** | 132                           |

## 4.4 - Justificativa do Modelo Final Escolhido

Ap√≥s aplicar t√©cnicas de refinamento, como ajuste de threshold e balanceamento de classes, o modelo que demonstrou o melhor desempenho geral foi a Regress√£o Log√≠stica com threshold ajustado para 0.31.

Esse modelo alcan√ßou um F1-score de 0.63, recall de 0.765 e conseguiu reduzir o n√∫mero de clientes evasores n√£o identificados para 132 ‚Äî um dos melhores resultados entre todos os testes realizados.

A escolha est√° alinhada com o objetivo principal do projeto: identificar clientes com risco de churn de forma antecipada, sem sacrificar completamente a precis√£o ou a acur√°cia global.

## 4.5 - Conclus√µes

üìå Principais fatores associados ao churn
Com base nas an√°lises dos modelos Random Forest e Regress√£o Log√≠stica, os fatores mais relevantes foram:

üîç Random Forest ‚Äì Vari√°veis com maior import√¢ncia:
Charges.Total (gastos totais)

Tenure (tempo como cliente)

Charges.Monthly e Charges.Daily

Tipo de contrato (Contract_Two year, Contract_One year)

Forma de pagamento (PaymentMethod_Electronic check)

Tipo de internet (InternetService_Fiber optic)

Fatura digital (PaperlessBilling_Yes)

G√™nero masculino (gender_Male)

Essas vari√°veis contribu√≠ram para reduzir a impureza nas √°rvores, influenciando fortemente a classifica√ß√£o.

üìà Regress√£o Log√≠stica ‚Äì Interpreta√ß√£o dos coeficientes:
Tenure e Contract_Two year: coeficientes negativos ‚Üí reduzem a chance de churn

InternetService_Fiber optic, Charges.Total, PaperlessBilling_Yes, PaymentMethod_Electronic check: coeficientes positivos ‚Üí aumentam a chance de churn

TechSupport_Yes e PhoneService_Yes: coeficientes negativos ‚Üí indicam reten√ß√£o

üß† Conclus√£o T√©cnica
Mesmo em sua vers√£o inicial, a Regress√£o Log√≠stica j√° superava o Random Forest em recall e F1-score, mostrando maior capacidade de generaliza√ß√£o. Ap√≥s os refinamentos, ela se consolidou como o modelo mais eficaz para detectar churn com sensibilidade e estabilidade.

Ambos os modelos destacaram vari√°veis como tenure, tipo de contrato e gastos acumulados, mas a Regress√£o Log√≠stica ofereceu interpreta√ß√µes mais claras, facilitando decis√µes orientadas por dados.

üí° Estrat√©gias de Reten√ß√£o sugeridas
Incentivar contratos de longo prazo com benef√≠cios progressivos

Monitorar clientes com altos gastos e oferecer suporte proativo

Avaliar perfis com fatura digital e d√©bito eletr√¥nico (maior risco)

Refor√ßar suporte t√©cnico, especialmente para usu√°rios de fibra √≥tica

Criar campanhas de fideliza√ß√£o para clientes com menos de 6 meses de casa

‚úÖ Encerramento
O projeto foi conclu√≠do com sucesso, integrando t√©cnicas de pr√©-processamento, modelagem supervisionada e an√°lise interpretativa. Os resultados obtidos oferecem √† empresa uma base s√≥lida para reduzir churn de forma estrat√©gica e orientada por dados.