# Treinamento de Modelo: [NOME DO ALGORITMO]
> **Fase 3 - Time 7**

**Respons√°vel:** [Seu Nome]
**Algoritmo:** [Ex: Random Forest, SVM, KNN...]

**Objetivos deste Notebook:**
1.  **Carregar:** Importar os dados de treino/teste padronizados (do pr√©-processamento unificado).
2.  **Treinar:** Ajustar o modelo [NOME DO ALGORITMO] aos dados de treino.
3.  **Avaliar:** Medir a performance com foco no **Recall** (Sensibilidade) para detectar doen√ßas.
4.  **Validar:** Testar se o modelo consegue identificar o grupo de risco "Assintom√°tico".

**M√©tricas Chave:**
* **Recall (Sensibilidade):** Prioridade m√°xima. N√£o podemos deixar doentes irem para casa.
* **F1-Score:** Para garantir que n√£o estamos apenas "chutando que todos est√£o doentes".

## 1. Configura√ß√£o de ambiente
Importa√ß√£o de bibliotecas e defini√ß√£o de estilos gr√°ficos padronizados.

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import joblib
import os

# M√©tricas padronizadas
from sklearn.metrics import classification_report, confusion_matrix, recall_score, roc_auc_score, roc_curve, ConfusionMatrixDisplay

# Configura√ß√£o visual
sns.set_theme(style="whitegrid")
palette = sns.color_palette("coolwarm", as_cmap=True)

In [2]:
# Carregamento dos Dados Processados (Pasta data/processed)
# IMPORTANTE: N√£o mexer neste bloco para garantir compatibilidade!

try:
    X_train = joblib.load('../data/processed/X_train.pkl')
    y_train = joblib.load('../data/processed/y_train.pkl')
    X_test = joblib.load('../data/processed/X_test.pkl')
    y_test = joblib.load('../data/processed/y_test.pkl')
    feature_names = joblib.load('../data/processed/feature_names.pkl')
    
    print(f"‚úÖ Dados carregados com sucesso!")
    print(f"Treino: {X_train.shape}")
    print(f"Teste:  {X_test.shape}")
except FileNotFoundError:
    print("‚ùå Arquivos n√£o encontrados. Rode o notebook '02_preprocessing_unificado.ipynb' primeiro.")

‚úÖ Dados carregados com sucesso!
Treino: (237, 22)
Teste:  (60, 22)


## 2. Treinamento do Modelo

Adotaremos uma abordagem em duas etapas:
1.  **Baseline:** Treinar o modelo com par√¢metros padr√£o (default) para estabelecer uma linha de base.
2.  **Otimiza√ß√£o:** Encontrar a melhor combina√ß√£o de hiperpar√¢metros focada em **Recall**.

### 2.1 Baseline

In [None]:
# ==========================================================
# 2.1 BASELINE (Modelo "Cru")
# ==========================================================

# 1. Importe seu modelo aqui
# from sklearn.svm import SVC
# from sklearn.ensemble import RandomForestClassifier
# from sklearn.neighbors import KNeighborsClassifier

# 2. Instancie com par√¢metros padr√£o (apenas random_state se aplic√°vel)
# model_baseline = SVC(random_state=42)
model_baseline = [SEU_MODELO_AQUI](random_state=42)

print("üöÄ Treinando Baseline...")
model_baseline.fit(X_train, y_train)

# Avalia√ß√£o R√°pida do Baseline
y_pred_base = model_baseline.predict(X_test)
recall_base = recall_score(y_test, y_pred_base)
print(f"‚úÖ Baseline treinado! Recall inicial: {recall_base:.2%}")

### 2.2 Otimiza√ß√£o

‚ö° Escolha sua Estrat√©gia de Otimiza√ß√£o

Voc√™ pode escolher entre **Grid Search** (tenta todas as combina√ß√µes, mais lento, mais preciso) ou **Random Search** (tenta combina√ß√µes aleat√≥rias, mais r√°pido, bom para muitos par√¢metros).

> **Dica:**
> * Use **GridSearch** se tiver poucos par√¢metros (ex: KNN, Regress√£o Log√≠stica).
> * Use **RandomSearch** se tiver muitos par√¢metros ou se o Grid estiver demorando muito (ex: Random Forest, SVM).

In [None]:
# ==========================================================
# 2.2 OTIMIZA√á√ÉO DE HIPERPAR√ÇMETROS
# EXEMPLO DE USO COM GRIDSEARCHCV
# ==========================================================
from sklearn.model_selection import GridSearchCV

# A. Defina o Grid de Par√¢metros (Consulte a documenta√ß√£o do seu modelo!)
# Exemplo para SVM: {'C': [0.1, 1, 10], 'kernel': ['linear', 'rbf']}
# Exemplo para Random Forest: {'n_estimators': [50, 100, 200], 'max_depth': [5, 10, None]}
# Exemplo para KNN: {'n_neighbors': [3, 5, 7, 9], 'weights': ['uniform', 'distance']}

param_grid = {
    # [PREENCHA AQUI COM OS PAR√ÇMETROS DO SEU ALGORITMO]
}

# B. Configura√ß√£o da Busca
# scoring='recall': Dizemos ao GridSearch que o mais importante √© ACERTAR OS DOENTES
grid_search = GridSearchCV(
    estimator=[SEU_MODELO_AQUI](random_state=42),
    param_grid=param_grid,
    cv=5,               # Valida√ß√£o Cruzada em 5 partes
    scoring='recall',   # Foco total em Recall
    n_jobs=-1,          # Usa todos os processadores
    verbose=1
)

print("üïµÔ∏è Iniciando busca pelos melhores par√¢metros (pode demorar)...")
grid_search.fit(X_train, y_train)

# C. Melhores Resultados
best_model = grid_search.best_estimator_

print("-" * 30)
print(f"üèÜ Melhor Recall na Valida√ß√£o: {grid_search.best_score_:.2%}")
print(f"‚öôÔ∏è Melhores Par√¢metros: {grid_search.best_params_}")

In [None]:
# ==========================================================
# 2.2 (OP√á√ÉO B) RANDOMIZED SEARCH CV
# Use esta c√©lula se o GridSearch estiver demorando muito!
# ==========================================================
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint, uniform

# A. Defina a Distribui√ß√£o de Par√¢metros
# Diferente do Grid, aqui podemos passar listas ou distribui√ß√µes estat√≠sticas
param_dist = {
    # [COLE SEUS PAR√ÇMETROS AQUI - Igual ao Grid]
    # Exemplo para Random Forest:
    # 'n_estimators': randint(50, 300),
    # 'max_depth': [5, 10, 20, None],
}

if param_dist: # S√≥ roda se voc√™ preencheu o dicion√°rio
    random_search = RandomizedSearchCV(
        estimator=[SEU_MODELO_AQUI](random_state=42),
        param_distributions=param_dist,
        n_iter=50,          # Tenta 50 combina√ß√µes aleat√≥rias (Ajuste conforme sua paci√™ncia)
        cv=5,               # Valida√ß√£o Cruzada
        scoring='recall',   # Foco no Recall
        n_jobs=-1,
        random_state=42,    # Garante que o aleat√≥rio seja sempre o mesmo
        verbose=1
    )

    print("üé≤ Iniciando busca aleat√≥ria (Random Search)...")
    random_search.fit(X_train, y_train)

    # Atualiza o best_model com o vencedor do Random Search
    best_model = random_search.best_estimator_

    print("-" * 30)
    print(f"üèÜ Melhor Recall (Random): {random_search.best_score_:.2%}")
    print(f"‚öôÔ∏è Melhores Par√¢metros: {random_search.best_params_}")
else:
    print("‚ö†Ô∏è Defina o param_dist para rodar o Random Search.")

## 3. Avalia√ß√£o de Performance

In [None]:
# Previs√µes do Melhor Modelo
y_pred_final = best_model.predict(X_test)
recall_final = recall_score(y_test, y_pred_final)

print(f"üìà Evolu√ß√£o do Recall:")
print(f"   - Baseline:  {recall_base:.2%}")
print(f"   - Otimizado: {recall_final:.2%}")
print(f"   - Ganho:     {(recall_final - recall_base):.2%}")

# Matriz de Confus√£o do Modelo Campe√£o
plt.figure(figsize=(6, 5))
ConfusionMatrixDisplay.from_predictions(y_test, y_pred_final, cmap='Blues', display_labels=['Saud√°vel', 'Doente'])
plt.title('Matriz de Confus√£o (Melhor Modelo)')
plt.grid(False)
plt.show()

# Classification Report Completo
print(classification_report(y_test, y_pred_final))

### 3.1. Avali√ß√£o de Grupo Assintom√°tico
Nesta etapa, validaremos a tese central: Verificaremos a performance do modelo especificamente nos pacientes que **n√£o apresentavam dor t√≠pica** (CP=3: Asymptomatic).

> **Por que isso √© importante?**
> A maioria dos erros humanos acontece aqui. Se nosso modelo tiver um bom Recall neste grupo, provamos que a IA enxerga al√©m do √≥bvio.

In [None]:
# ==========================================================
# 3.1 VALIDA√á√ÉO NO SUBGRUPO ASSINTOM√ÅTICO
# ==========================================================

# 1. Identificando a coluna correta (p√≥s One-Hot Encoding)
# O nome da coluna geralmente √© 'cp_3.0' ou 'cp_3', dependendo do processamento
cols_assintomaticas = [col for col in X_test.columns if 'cp_3' in col]

if len(cols_assintomaticas) > 0:
    col_alvo = cols_assintomaticas[0]
    print(f"üîé Analisando subgrupo oculto: '{col_alvo}'")

    # 2. Filtrando os dados
    # Pegamos apenas as linhas onde o paciente √© assintom√°tico (Valor 1 na coluna)
    mask_assin = X_test[col_alvo] == 1
    
    X_test_sub = X_test[mask_assin]
    y_test_sub = y_test[mask_assin]
    
    if len(X_test_sub) > 0:
        # 3. Avaliando o Melhor Modelo neste subgrupo
        y_pred_sub = best_model.predict(X_test_sub)
        
        recall_sub = recall_score(y_test_sub, y_pred_sub)
        acc_sub = sum(y_test_sub == y_pred_sub) / len(y_test_sub)
        
        print("-" * 40)
        print(f"üìä RESULTADO DO TESTE DE FOGO:")
        print(f"   Pacientes Assintom√°ticos no Teste: {len(X_test_sub)}")
        print(f"   Recall (Doentes detectados): {recall_sub:.2%} üéØ")
        print("-" * 40)
        
        if recall_sub > 0.80:
            print("‚úÖ SUCESSO: O modelo √© excelente em detectar isquemia silenciosa!")
        else:
            print("‚ö†Ô∏è ATEN√á√ÉO: O modelo tem dificuldade com casos sem dor. Considere ajustar o threshold.")
    else:
        print("‚ÑπÔ∏è Nenhum paciente assintom√°tico caiu na amostragem de teste atual.")
else:
    print("‚ùå Coluna de 'cp_3' n√£o encontrada. Verifique os nomes das features.")

## 4. Exporta√ß√£o do Modelo
Salvando o modelo campe√£o (otimizado) para uso na aplica√ß√£o final.

In [None]:
# Cria o diret√≥rio se n√£o existir
os.makedirs('../models', exist_ok=True)

# Define o nome do arquivo baseado no algoritmo usado
# Ex: modelo_RandomForestClassifier.pkl
nome_modelo = best_model.__class__.__name__
caminho_final = f'../models/modelo_{nome_modelo}.pkl'

joblib.dump(best_model, caminho_final)

print(f"üíæ Modelo salvo com sucesso!")
print(f"üìÇ Local: {caminho_final}")