# üìä TEMPLATE REUTILIZ√ÅVEL ‚Äî EXPLORATORY DATA ANALYSIS (EDA)

## Contexto do Projeto

Descreva aqui:

- Qual problema est√° sendo resolvido
- Qual decis√£o de neg√≥cio ser√° tomada
- Tipo de problema (classifica√ß√£o, regress√£o, etc.)
- Vari√°vel alvo
- M√©trica priorit√°ria

**Exemplo:**
Este projeto tem como objetivo prever churn de clientes, permitindo
a√ß√µes preventivas de reten√ß√£o.

## üìö 1. Imports e configura√ß√µes

In [None]:
import pandas as pd
import numpy as np
import sys
from pathlib import Path

import matplotlib.pyplot as plt
import seaborn as sns

from typing import List

# Adicionar o diret√≥rio src ao path
project_root = Path.cwd().parent
sys.path.insert(0, str(project_root))

from src.utils import calculate_iv_categorical, calculate_iv_numeric
from src.config import DATA_PATH_RAW

plt.style.use("seaborn-v0_8")
sns.set_palette("Set2")

pd.set_option("display.max_columns", None)

## üìÇ 2. Carregamento dos Dados

In [None]:
df = pd.read_csv(DATA_PATH_RAW)

df.head()

## üîç 3. Vis√£o Geral do Dataset

In [None]:
print(f"Linhas: {df.shape[0]}")
print(f"Colunas: {df.shape[1]}")

In [None]:
df.info()

In [None]:
df.describe()

## üéØ 4. Vari√°vel Alvo

In [None]:
df[TARGET_COL].value_counts(normalize=True)

In [None]:
sns.countplot(data=df, x=TARGET_COL)
plt.title("Distribui√ß√£o da Vari√°vel Alvo")
plt.show()

### üìå Checklist

-Dataset balanceado? <br/>
-Accuracy √© m√©trica adequada? <br/>
-Precisa de balanceamento? <br/>

## üßπ 5. Qualidade dos Dados

### 5.1 Valores Ausentes

In [None]:
missing = df.isna().mean().sort_values(ascending=False)
missing[missing > 0]

### üìå Checklist:

- Missing √© aleat√≥rio?  <br/>
- Missing carrega informa√ß√£o?  <br/>
- Remover, imputar ou criar flag?  <br/>

### 5.2 Duplicatas

In [None]:
if ID_COL in df.columns:
    print("Duplicatas:", df[ID_COL].duplicated().sum())

## üìä 6. Identifica√ß√£o de Tipos de Vari√°veis

In [None]:
if NUMERIC_COLS is None:
    NUMERIC_COLS = df.select_dtypes(include=np.number).columns.tolist()

if CATEGORICAL_COLS is None:
    CATEGORICAL_COLS = df.select_dtypes(include="object").columns.tolist()

NUMERIC_COLS, CATEGORICAL_COLS

## üìà 7. An√°lise Univariada ‚Äî Num√©ricas

In [None]:
for col in NUMERIC_COLS:
    plt.figure(figsize=(6,4))
    sns.histplot(df[col], kde=True)
    plt.title(f"Distribui√ß√£o de {col}")
    plt.show()

### üìå Checklist:

- Assimetria?  <br/>
- Outliers?  <br/>
- Transforma√ß√µes necess√°rias?  <br/>

## üß© 8. An√°lise Univariada ‚Äî Categ√≥ricas

In [None]:
for col in CATEGORICAL_COLS:
    if col not in [ID_COL, TARGET_COL]:
        display(df[col].value_counts(normalize=True))

### üìå Checklist:

- Cardinalidade alta?  <br/>
- Categorias raras?  <br/>
- Agrupamentos poss√≠veis?  <br/>

## üîó 9. An√°lise Bivariada ‚Äî Num√©ricas √ó Target

In [None]:
for col in NUMERIC_COLS:
    plt.figure(figsize=(6,4))
    sns.boxplot(data=df, x=TARGET_COL, y=col)
    plt.title(f"{col} vs {TARGET_COL}")
    plt.show()

üìå Pergunta-chave:

- O comportamento muda entre as classes?

## üß© 10. An√°lise Bivariada ‚Äî Categ√≥ricas √ó Target

In [None]:
def churn_rate_by_category(df, col, target):
    return (
        df.groupby(col)[target]
        .apply(lambda x: (x == df[target].unique()[0]).mean())
        .sort_values(ascending=False)
    )

In [None]:
for col in CATEGORICAL_COLS:
    if col not in [ID_COL, TARGET_COL]:
        display(churn_rate_by_category(df, col, TARGET_COL))

### üìå Checklist:

- Categrias com risco alto? <br/>
- Vari√°veis dominantes?  <br/>

## üî¨ 11. An√°lise Multivariada (Opcional)

### üìå Checklist:

- Target vs (feature1 + feature2) <br/>
- Segmenta√ß√£o por faixas </br>
- Intera√ß√µes importantes </br>

In [None]:
# Calcular IV para vari√°veis categ√≥ricas e num√©ricas
iv_results = {}

# Para categ√≥ricas
for col in CATEGORICAL_COLS[:2]:  # Primeiras 2 categ√≥ricas
    if col not in [ID_COL, TARGET_COL]:
        iv_results[col] = calculate_iv_categorical(df, col, TARGET_COL)

# Para num√©ricas
for col in NUMERIC_COLS[:2]:  # Primeiras 2 num√©ricas
    if col != TARGET_COL:
        iv_results[col] = calculate_iv_numeric(df, col, TARGET_COL)

# Exibir resultados ordenados
iv_df = pd.DataFrame(list(iv_results.items()), columns=['Feature', 'IV'])
iv_df = iv_df.sort_values('IV', ascending=False)
print("\nüìä Information Value (IV) das vari√°veis:")
print("\nInterpreta√ß√£o:")
print("< 0.02: Sem poder preditivo")
print("0.02-0.1: Fraco")
print("0.1-0.3: M√©dio")
print("0.3-0.5: Forte")
print("> 0.5: Suspeito (overfitting)\n")
display(iv_df)

## üî• 12. Correla√ß√£o

In [None]:
plt.figure(figsize=(8,6))
sns.heatmap(df[NUMERIC_COLS].corr(), annot=True, cmap="coolwarm")
plt.title("Correla√ß√£o entre Vari√°veis Num√©ricas")
plt.show()

### üìå Checklist:

- Features redundantes? <br/>
- Multicolinearidade </br>

## üß† 13. Hip√≥teses e Insights

Liste hip√≥teses confirmadas pela EDA:

- 
- 
- 

## üöÄ 14. Implica√ß√µes para Modelagem

### Decis√µes:
- Encoding necess√°rio
- Features a criar
- M√©trica priorit√°ria
- Estrat√©gia de valida√ß√£o