# Exercício: Otimização de Modelos com Cross Validation

## Objetivo

Aplicar técnicas de validação cruzada e otimização de hiperparâmetros em um problema real de classificação.

## Dataset

Utilizaremos o dataset Wine Quality para prever a qualidade do vinho baseado em características químicas.

## Tarefas

1. Preparar os dados e análise exploratória
2. Implementar validação cruzada
3. Comparar diferentes modelos
4. Otimizar hiperparâmetros
5. Avaliar performance final


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_wine
from sklearn.model_selection import (
    cross_val_score,
    GridSearchCV,
    RandomizedSearchCV,
    train_test_split,
    StratifiedKFold,
)
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report, confusion_matrix
import warnings

warnings.filterwarnings("ignore")

# Carregar dados
wine = load_wine()
X, y = wine.data, wine.target
feature_names = wine.feature_names
target_names = wine.target_names

print(f"Shape dos dados: {X.shape}")
print(f"Classes: {target_names}")
print(f"Distribuição das classes: {np.bincount(y)}")

## Tarefa 1: Análise Exploratória e Preparação dos Dados


In [None]:
# TODO: Criar DataFrame com os dados
df = None  # Criar DataFrame com X e y

# TODO: Exibir informações básicas do dataset
# - Primeiras linhas
# - Estatísticas descritivas
# - Verificar valores nulos

# TODO: Visualizar distribuição das classes
# Criar gráfico de barras mostrando a contagem de cada classe

# TODO: Dividir dados em treino e teste (70-30)
# Usar stratify para manter proporção das classes
X_train, X_test, y_train, y_test = None, None, None, None

## Tarefa 2: Implementar Validação Cruzada Manual


In [None]:
# TODO: Implementar função de validação cruzada estratificada manual
def stratified_cv_manual(X, y, model, k=5):
    """
    Implementa Stratified K-Fold Cross Validation manualmente

    Parâmetros:
    - X: features
    - y: target
    - model: modelo a ser avaliado
    - k: número de folds

    Retorna:
    - lista com scores de cada fold
    """
    # TODO: Implementar a lógica
    # 1. Criar índices estratificados para cada fold
    # 2. Para cada fold, treinar modelo e calcular score
    # 3. Retornar lista de scores

    scores = []
    # Sua implementação aqui

    return scores


# TODO: Testar a implementação manual
model = LogisticRegression(random_state=42, max_iter=1000)
manual_scores = stratified_cv_manual(X_train, y_train, model, k=5)
print(f"Scores manuais: {manual_scores}")
print(f"Média: {np.mean(manual_scores):.3f} ± {np.std(manual_scores):.3f}")

## Tarefa 3: Comparar Diferentes Modelos


In [None]:
# TODO: Definir dicionário com diferentes modelos
models = {
    # TODO: Adicionar pelo menos 4 modelos diferentes:
    # - Logistic Regression
    # - Random Forest
    # - SVM
    # - Gradient Boosting
}

# TODO: Avaliar cada modelo com cross validation
cv_results = {}
for name, model in models.items():
    # TODO: Usar cross_val_score com StratifiedKFold
    # Usar 5 folds e scoring='accuracy'
    scores = None
    cv_results[name] = scores
    print(f"{name:20}: {scores.mean():.3f} ± {scores.std():.3f}")

# TODO: Criar boxplot comparando os modelos
plt.figure(figsize=(12, 6))
# Plotar boxplot dos resultados de CV
plt.show()

## Tarefa 4: Otimização de Hiperparâmetros


In [None]:
# TODO: Otimizar Random Forest com Grid Search
rf_param_grid = {
    # TODO: Definir grid de parâmetros para Random Forest
    # Incluir: n_estimators, max_depth, min_samples_split, min_samples_leaf
}

# TODO: Implementar Grid Search
rf_grid = GridSearchCV(
    # TODO: Configurar Grid Search
    # - modelo: RandomForestClassifier
    # - param_grid: rf_param_grid
    # - cv: 5
    # - scoring: 'accuracy'
)

# TODO: Treinar Grid Search
# rf_grid.fit(...)

print(f"Melhores parâmetros RF: {rf_grid.best_params_}")
print(f"Melhor score RF: {rf_grid.best_score_:.3f}")

In [None]:
# TODO: Otimizar SVM com Random Search
from scipy.stats import uniform, loguniform

svm_param_dist = {
    # TODO: Definir distribuições para Random Search do SVM
    # Incluir: C (distribuição log-uniforme), gamma, kernel
}

# TODO: Implementar Random Search
svm_random = RandomizedSearchCV(
    # TODO: Configurar Random Search
    # - modelo: SVC
    # - param_distributions: svm_param_dist
    # - n_iter: 50
    # - cv: 5
    # - scoring: 'accuracy'
)

# TODO: Treinar Random Search
# svm_random.fit(...)

print(f"Melhores parâmetros SVM: {svm_random.best_params_}")
print(f"Melhor score SVM: {svm_random.best_score_:.3f}")

## Tarefa 5: Pipeline com Pré-processamento


In [None]:
# TODO: Criar pipeline com normalização + SVM
pipe = Pipeline(
    [
        # TODO: Adicionar etapas do pipeline
        # 1. StandardScaler
        # 2. SVC
    ]
)

# TODO: Definir parâmetros para o pipeline
pipe_param_grid = {
    # TODO: Parâmetros do SVM no pipeline
    # Use notação 'nome_etapa__parametro'
}

# TODO: Grid Search no pipeline
pipe_grid = GridSearchCV(
    # TODO: Configurar Grid Search para o pipeline
)

# TODO: Treinar pipeline
# pipe_grid.fit(...)

print(f"Melhores parâmetros Pipeline: {pipe_grid.best_params_}")
print(f"Melhor score Pipeline: {pipe_grid.best_score_:.3f}")

## Tarefa 6: Avaliação Final


In [None]:
# TODO: Comparar todos os modelos otimizados
final_models = {
    "RF Baseline": RandomForestClassifier(random_state=42),
    "RF Otimizado": rf_grid.best_estimator_,
    "SVM Baseline": SVC(random_state=42),
    "SVM Otimizado": svm_random.best_estimator_,
    "Pipeline SVM": pipe_grid.best_estimator_,
}

# TODO: Avaliar cada modelo no conjunto de teste
test_scores = {}
for name, model in final_models.items():
    # TODO: Treinar modelo e avaliar no teste
    # model.fit(...)
    # score = model.score(...)
    score = None
    test_scores[name] = score
    print(f"{name:15}: {score:.3f}")

# TODO: Visualizar comparação final
plt.figure(figsize=(10, 6))
# Criar gráfico de barras com os scores finais
plt.show()

In [None]:
# TODO: Análise detalhada do melhor modelo
# Escolher o modelo com melhor performance
best_model = None  # Escolher o melhor modelo baseado nos resultados

# TODO: Treinar melhor modelo e fazer predições
# best_model.fit(...)
# y_pred = best_model.predict(...)

# TODO: Gerar relatório de classificação
# print(classification_report(...))

# TODO: Plotar matriz de confusão
# cm = confusion_matrix(...)
# plt.figure(figsize=(8, 6))
# sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
# plt.show()

## Tarefa 7: Análise de Resultados


In [None]:
# TODO: Responder às seguintes perguntas:

print("=== ANÁLISE DE RESULTADOS ===")
print("\n1. Qual modelo teve melhor performance?")
# TODO: Sua resposta aqui

print("\n2. A otimização de hiperparâmetros trouxe ganhos significativos?")
# TODO: Comparar baseline vs otimizado

print("\n3. O pré-processamento (normalização) foi importante?")
# TODO: Comparar SVM com e sem pipeline

print("\n4. Qual foi o impacto da validação cruzada estratificada?")
# TODO: Discutir importância para dataset desbalanceado

print("\n5. Que melhorias você sugere para próximas iterações?")
# TODO: Suas sugestões aqui

## Desafio Extra: Nested Cross Validation


In [None]:
# TODO: DESAFIO - Implementar Nested Cross Validation
# Para obter estimativa não-viesada da performance


def nested_cv_score(model, param_grid, X, y, outer_cv=5, inner_cv=3):
    """
    Implementa Nested Cross Validation

    Retorna:
    - Lista com scores do CV externo
    """
    # TODO: Implementar nested CV
    # 1. Loop externo: dividir dados em treino/teste
    # 2. Loop interno: otimizar hiperparâmetros no treino
    # 3. Avaliar melhor modelo no teste do loop externo

    outer_scores = []
    # Sua implementação aqui

    return outer_scores


# TODO: Testar nested CV com Random Forest
# nested_scores = nested_cv_score(...)
# print(f"Nested CV Score: {np.mean(nested_scores):.3f} ± {np.std(nested_scores):.3f}")