<a href="https://colab.research.google.com/github/marcelofschiavo/ds-cookbook/blob/main/05_ML_Classificacao_(Supervisionado).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 05. Modelagem Preditiva (Classifica√ß√£o)

Nos notebooks anteriores, n√≥s *entendemos* o passado (com EDA e Estat√≠stica).
Agora, vamos *prever* o futuro.

**Objetivo:** Criar um modelo de Machine Learning que aprenda com os dados de quem *saiu* e *ficou* para prever, com base em um funcion√°rio novo (ou existente), qual a **probabilidade** dele pedir demiss√£o.

**Tipo de Problema:** Classifica√ß√£o Bin√°ria (prever uma categoria: "Sim" ou "N√£o").

In [None]:
"""
## Setup: Carregar Bibliotecas e Dados

Nesta c√©lula, importamos as bibliotecas que usaremos (Pandas e Scikit-learn)
e carregamos nosso conjunto de dados limpo do Notebook 01.
"""
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, ConfusionMatrixDisplay
import warnings

# Ignorar avisos futuros (apenas para limpar o output)
warnings.filterwarnings('ignore')

# --- Carregue seus dados aqui ---
# (Substitua 'dados_empresa_limpos.csv' pelo nome do seu arquivo)
try:
    df = pd.read_csv('dados_empresa_limpos.csv')
    print("DataFrame 'df' carregado com sucesso!")
    print(f"Total de {df.shape[0]} linhas e {df.shape[1]} colunas.")

except FileNotFoundError:
    print("------------------------------------------------------------------")
    print(">>> ERRO: Arquivo 'dados_empresa_limpos.csv' n√£o encontrado. <<<")
    print("... Criando um DataFrame de EXEMPLO para o resto do notebook n√£o quebrar.")
    print("------------------------------------------------------------------")

    # Criar um 'df' de exemplo para classifica√ß√£o
    data = {
        'salario': np.random.randint(3000, 15000, 500),
        'satisfacao': np.random.rand(500).round(2),
        'tempo_empresa': np.random.randint(1, 10, 500),
        'departamento': np.random.choice(['TI', 'Vendas', 'RH'], 500),
        'pediu_demissao': np.random.choice([0, 1], 500, p=[0.85, 0.15]) # 15% de turnover
    }
    df = pd.DataFrame(data)
    print("DataFrame de exemplo carregado.")

print("\nAmostra dos dados:")
print(df.head())

## Conceito 1: Prepara√ß√£o (Separar X/y e One-Hot Encoding)

üß† **Intui√ß√£o:**
"Modelos de ML s√£o √≥timos em matem√°tica, mas p√©ssimos em ler texto. N√£o podemos dar a ele a coluna 'departamento' com 'TI' ou 'Vendas'. Precisamos 'traduzir':
1.  **Separar:** Dizemos ao modelo o que ele precisa prever (o 'y': `pediu_demissao`) e quais 'pistas' ele pode usar (o 'X': todas as outras colunas).
2.  **Traduzir:** Transformamos 'departamento' em colunas num√©ricas, como 'departamento_TI' (1 se sim, 0 se n√£o) e 'departamento_Vendas' (1 se sim, 0 se n√£o)."

üéì **Defini√ß√£o T√©cnica:**
Realizamos duas opera√ß√µes:
1.  **Separa√ß√£o de Features e Target:** `y` √© o vetor-alvo (vari√°vel dependente, `pediu_demissao`) e `X` √© a matriz de features (vari√°veis independentes, preditores).
2.  **One-Hot Encoding:** Usamos `pd.get_dummies()` para converter vari√°veis categ√≥ricas nominais (como `departamento`) em N colunas bin√°rias, onde N √© o n√∫mero de categorias √∫nicas. Isso evita que o modelo assuma uma ordem incorreta (ex: que TI < Vendas < RH).

üç≥ **Receita:**

In [None]:
# 1. Definir X (features) e y (target)
#    (Assumindo que 'pediu_demissao' √© 1 para Sim e 0 para N√£o)
y = df['pediu_demissao']
X = df.drop('pediu_demissao', axis=1) # Usar todas as outras colunas como features

# 2. One-Hot Encoding (Converter categorias em n√∫meros)
#    O 'drop_first=True' evita redund√¢ncia e multicolinearidade
X_encoded = pd.get_dummies(X, drop_first=True, dtype=int)

print("--- Target (y) ---")
print(y.head())
print("\n--- Features (X_encoded) ---")
print(X_encoded.head())

üìä **Resultado:**
"Agora temos 'y' (uma S√©rie s√≥ com 0s e 1s) e 'X_encoded' (um DataFrame s√≥ com n√∫meros, pronto para o modelo)."

## Conceito 2: Divis√£o de Treino e Teste (train_test_split)

üß† **Intui√ß√£o:**
"Nunca podemos testar um aluno usando a mesma prova que ele usou para estudar. Ele iria 'decorar' as respostas, n√£o 'aprender' o conceito.
Com ML √© igual. N√≥s dividimos nosso 'baralho' de dados:
* **70% para Treino:** As 'aulas' e 'exerc√≠cios' que o modelo usa para aprender os padr√µes.
* **30% para Teste:** A 'prova final'. Dados que o modelo *nunca viu*, usados para ver se ele realmente aprendeu a generalizar."

üéì **Defini√ß√£o T√©cnica:**
Particionamos os dados (X e y) em conjuntos de treino e teste. Isso √© vital para avaliar a capacidade de **generaliza√ß√£o** do modelo em dados "novos" (out-of-sample).
* `test_size=0.3`: Reserva 30% dos dados para o teste.
* `random_state=42`: Garante a **reprodutibilidade**. A divis√£o ser√° sempre a mesma, n√£o importa quantas vezes rodarmos.
* `stratify=y`: **CRUCIAL** em classifica√ß√£o desbalanceada (como turnover). Garante que a propor√ß√£o de 'Sim' e 'N√£o' (ex: 15% de 'Sim') seja a mesma tanto no conjunto de treino quanto no de teste.

üç≥ **Receita:**

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X_encoded, y,
    test_size=0.30,
    random_state=42,
    stratify=y  # Essencial para garantir propor√ß√µes iguais de 'y' no treino/teste
)
print(f"Shape de X_train: {X_train.shape}")
print(f"Shape de X_test:  {X_test.shape}")
print("-" * 20)
print(f"Propor√ß√£o de 'Sair' no Treino: {y_train.mean():.2%}")
print(f"Propor√ß√£o de 'Sair' no Teste:  {y_test.mean():.2%}")

üìä **Resultado:**
"Nossos dados est√£o divididos. O modelo treinar√° com as amostras de 'treino' e ser√° avaliado com as amostras de 'teste'."

## Conceito 3: Feature Scaling (StandardScaler) - (Opcional, mas recomendado)

üß† **Intui√ß√£o:**
"Alguns modelos (como a Regress√£o Log√≠stica) s√£o 'enganados' por escalas diferentes. A coluna 'salario' (Ex: 3000 a 15000) parece *milhares* de vezes mais importante que 'satisfacao' (Ex: 0 a 1), mesmo que n√£o seja.
O 'Scaler' age como um 'equalizador': ele coloca todas as features na mesma r√©gua (m√©dia 0, desvio padr√£o 1), garantindo uma compara√ß√£o justa."

üéì **Defini√ß√£o T√©cnica:**
A Padroniza√ß√£o (Standardization) transforma os dados para que tenham m√©dia 0 e desvio padr√£o 1 (Z-score). √â crucial para algoritmos sens√≠veis √† escala (Regress√£o Log√≠stica, SVMs, KNN, Redes Neurais).
**IMPORTANTE (Evitar Data Leakage):** O scaler deve ser treinado (`.fit()`) **APENAS** nos dados de treino (`X_train`) e depois usado para transformar (`.transform()`) ambos (`X_train` e `X_test`).

üç≥ **Receita:**

In [None]:
from sklearn.preprocessing import StandardScaler

# 1. Criar o Scaler
scaler = StandardScaler()

# 2. Treinar (fit) o scaler APENAS no X_train
scaler.fit(X_train)

# 3. Aplicar (transform) o scaler em ambos os conjuntos
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

print(f"M√©dia de X_train (antes): {X_train['salario'].mean():.2f}")
print(f"M√©dia de X_train_scaled (depois): {X_train_scaled[:, 0].mean():.2f}") # Pega a primeira coluna
print(f"Desvio Padr√£o de X_train_scaled (depois): {X_train_scaled[:, 0].std():.2f}")

üìä **Resultado:**
"Os dados de treino e teste agora est√£o escalados. Note como a m√©dia de 'X_train_scaled' √© ~0 e o desvio padr√£o √© ~1."

## Conceito 4: Modelo 1 - Regress√£o Log√≠stica (O Baseline)

üß† **Intui√ß√£o:**
"√â o modelo 'baseline', o mais simples e r√°pido. Ele acha a melhor 'linha' (ou curva sigm√≥ide) que separa os 'Sim' dos 'N√£o'. √â √≥timo para ter um resultado r√°pido e para ser um ponto de partida (se um modelo complexo n√£o for muito melhor que esse, talvez n√£o valha a pena us√°-lo)."

üéì **Defini√ß√£o T√©cnica:**
A Regress√£o Log√≠stica √© um modelo linear generalizado usado para classifica√ß√£o bin√°ria. Ele modela a *probabilidade* de uma classe (P(y=1)) usando a fun√ß√£o log√≠stica (sigm√≥ide).
* `class_weight='balanced'`: Ajusta os pesos do modelo para dar mais import√¢ncia √† classe minorit√°ria (no nosso caso, 'pediu_demissao'=1), o que √© vital para dados desbalanceados.

üç≥ **Receita:**

In [None]:
from sklearn.linear_model import LogisticRegression

# 1. Criar o modelo
#    Usamos 'class_weight='balanced'' para o modelo dar mais import√¢ncia
#    aos casos de 'Sim' (turnover), que geralmente s√£o minoria.
log_reg = LogisticRegression(random_state=42, class_weight='balanced')

# 2. Treinar o modelo (usando dados ESCALADOS)
log_reg.fit(X_train_scaled, y_train)

# 3. Fazer previs√µes (nos dados de teste ESCALADOS)
y_pred_log_reg = log_reg.predict(X_test_scaled)

print("Previs√µes da Regress√£o Log√≠stica (primeiros 10):")
print(y_pred_log_reg[:10])

üìä **Resultado:**
"Modelo treinado. As previs√µes est√£o na vari√°vel 'y_pred_log_reg'. Vamos avali√°-las no pr√≥ximo passo."

## Conceito 5: Modelo 2 - Random Forest (O "Cavalo de Batalha")

üß† **Intui√ß√£o:**
"√â o 'cavalo de batalha' do ML. Em vez de uma pessoa tentando decidir, ele pergunta a 100 'especialistas' (√Årvores de Decis√£o) e faz uma *vota√ß√£o* entre elas. Cada 'especialista' v√™ o problema de um √¢ngulo um pouco diferente. O resultado da 'vota√ß√£o' √© muito mais robusto e preciso.
**B√¥nus:** Modelos de √°rvore n√£o se importam com a escala dos dados (n√£o precisam do Scaler)."

üéì **Defini√ß√£o T√©cnica:**
O Random Forest √© um m√©todo *ensemble* de *bagging*. Ele constr√≥i m√∫ltiplas √°rvores de decis√£o em tempo de treino, cada uma em uma sub-amostra aleat√≥ria dos dados (bootstrap). A previs√£o final √© a *moda* (vota√ß√£o) das previs√µes de todas as √°rvores. √â robusto a overfitting e captura rela√ß√µes n√£o-lineares complexas.

üç≥ **Receita:**

In [None]:
from sklearn.ensemble import RandomForestClassifier

# 1. Criar o modelo
rf_model = RandomForestClassifier(
    n_estimators=100,  # Quantidade de √°rvores na "floresta"
    random_state=42,
    class_weight='balanced',
    n_jobs=-1          # Usar todos os processadores
)

# 2. Treinar o modelo (usando dados ORIGINAIS, n√£o escalados)
rf_model.fit(X_train, y_train)

# 3. Fazer previs√µes (nos dados de teste ORIGINAIS)
y_pred_rf = rf_model.predict(X_test)
print("Previs√µes do Random Forest (primeiros 10):")
print(y_pred_rf[:10])

üìä **Resultado:**
"Modelo treinado. As previs√µes est√£o na vari√°vel 'y_pred_rf'. Agora vamos comparar os dois modelos."

## Conceito 6: Avalia√ß√£o (Classification Report & Confusion Matrix)

üß† **Intui√ß√£o:**
"Em turnover, 'Acur√°cia' (acertos totais) √© in√∫til. Um modelo que chuta 'Fica' para todos acerta 90% das vezes (se 10% saem), mas n√£o serve para nada. Precisamos focar nas m√©tricas certas:
* **Recall (para classe 1 'Sair'):** 'De todas as pessoas que *realmente* v√£o sair, quantas o nosso modelo conseguiu *pegar*?' (Esta √© a m√©trica-chave para o RH!).
* **Precis√£o (para classe 1 'Sair'):** 'De todos que o modelo *acusou* que iam sair, quantos realmente sa√≠ram?' (Importante para n√£o gastar recursos de reten√ß√£o com quem ia ficar)."

A **Matriz de Confus√£o** √© o 'raio-X' dos erros. O pior erro √© o **Falso Negativo**: a pessoa *vai sair* (Real=1) e o modelo previu que ela ia *ficar* (Previsto=0)."

üéì **Defini√ß√£o T√©cnica:**
* **`classification_report`**: Fornece um resumo das principais m√©tricas (Precis√£o, Recall, F1-Score) por classe. O F1-Score √© a m√©dia harm√¥nica de Precis√£o e Recall, √∫til como m√©trica √∫nica.
* **`confusion_matrix`**: Uma tabela que resume o desempenho:
    * **TN (Topo Esquerdo):** Previu '0', Real '0'.
    * **FP (Topo Direita):** Previu '1', Real '0'. (Erro Tipo I)
    * **FN (Baixo Esquerda):** Previu '0', Real '1'. (Erro Tipo II - O mais cr√≠tico!)
    * **TP (Baixo Direita):** Previu '1', Real '1'.

üç≥ **Receita:**

In [None]:
from sklearn.metrics import classification_report, confusion_matrix, ConfusionMatrixDisplay

# Vamos avaliar o Random Forest (y_pred_rf), que geralmente √© melhor.
print("--- Classification Report (Random Forest) ---")
# 'target_names' deixa o relat√≥rio mais leg√≠vel
print(classification_report(y_test, y_pred_rf, target_names=['Ficou (0)', 'Saiu (1)']))


# --- Matriz de Confus√£o ---
print("\n--- Matriz de Confus√£o (Random Forest) ---")
cm = confusion_matrix(y_test, y_pred_rf)

# Plotar a matriz
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=['Ficou (0)', 'Saiu (1)'])
disp.plot(cmap='Blues', values_format='d') # 'd' = formato decimal
plt.title('Matriz de Confus√£o')
plt.show()

üìä **Resultado:**
"No Classification Report, olhe para a linha 'Saiu (1)'. Um **Recall de 0.70** significaria que estamos 'pegando' 70% das pessoas que realmente v√£o pedir demiss√£o.
Na Matriz de Confus√£o, o n√∫mero no canto **inferior esquerdo** s√£o os Falsos Negativos (as pessoas que perdemos). Nosso objetivo √© minimizar esse n√∫mero."

## Conceito 7: Interpreta√ß√£o (Feature Importance)

üß† **Intui√ß√£o:**
"OK, o modelo do Random Forest √© uma 'caixa-preta' que acerta bastante. Mas *por qu√™*? Ele n√£o pode simplesmente dizer 'prevejo que ele vai sair' sem uma explica√ß√£o.
A 'Import√¢ncia das Features' nos diz quais 'pistas' (colunas) o modelo mais usou para tomar suas decis√µes. Ele nos diz o 'O Qu√™' do porqu√™ (Ex: 'Sal√°rio' √© o mais importante), dando um foco de a√ß√£o para o RH."

üéì **Defini√ß√£o T√©cnica:**
Em modelos de √°rvore (como o Random Forest), podemos extrair o `feature_importances_`. Esta √© uma medida (geralmente *Gini importance*) que calcula o quanto cada feature contribuiu, em m√©dia, para a redu√ß√£o da impureza (ou aumento da 'pureza' dos n√≥s) ao longo de todas as√°rvores da floresta.

üç≥ **Receita:**

In [None]:
import seaborn as sns

# 1. Pegar as import√¢ncias do modelo treinado
importances = rf_model.feature_importances_

# 2. Criar um DataFrame para visualiza√ß√£o
#    Usamos X_encoded.columns para pegar os nomes das features
feature_importance_df = pd.DataFrame({
    'Feature': X_encoded.columns,
    'Importance': importances
}).sort_values(by='Importance', ascending=False)

# 3. Plotar as 10 mais importantes
plt.figure(figsize=(10, 6))
sns.barplot(
    x='Importance',
    y='Feature',
    data=feature_importance_df.head(10),
    palette='viridis'
)
plt.title('Top 10 Features Mais Importantes (Random Forest)')
plt.xlabel('Import√¢ncia')
plt.ylabel('Feature')
plt.show()

üìä **Resultado:**
"O gr√°fico confirma visualmente quais s√£o os principais *drivers* do turnover. Se 'satisfacao', 'salario' e 'tempo_empresa' est√£o no topo, isso valida nossas suspeitas da EDA e da Estat√≠stica, e d√° ao RH um foco claro de atua√ß√£o para pol√≠ticas de reten√ß√£o."