# Etapa 4: Otimiza√ß√£o e Tuning de Hiperpar√¢metros

## Objetivos
Otimizar o melhor modelo da Etapa 3 atrav√©s de tuning de hiperpar√¢metros, evitar overfitting, avaliar no conjunto de teste e salvar o modelo final otimizado.

**Vari√°vel Alvo**: `final_grade` (Nota Final)

**Lembre-se**: 
- Usar apenas treino e valida√ß√£o para tuning
- Avaliar no conjunto de teste APENAS UMA VEZ
- Comparar modelo antes vs depois da otimiza√ß√£o
- Salvar modelo final para produ√ß√£o


In [None]:
# Importa√ß√£o das bibliotecas necess√°rias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV, cross_val_score
from sklearn.linear_model import Ridge, Lasso, ElasticNet
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import joblib
import os
import warnings
from datetime import datetime

# Configura√ß√£o para exibir gr√°ficos inline no Jupyter Notebook
%matplotlib inline

# Configura√ß√µes de visualiza√ß√£o
try:
    plt.style.use('seaborn-v0_8-darkgrid')
except:
    plt.style.use('seaborn-darkgrid')
sns.set_palette("husl")
warnings.filterwarnings('ignore')

# Configura√ß√£o para exibir todas as colunas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

# Configura√ß√£o adicional para garantir que gr√°ficos apare√ßam
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['figure.dpi'] = 100

print("Bibliotecas importadas com sucesso!")
print(f"Data/Hora: {datetime.now().strftime('%d/%m/%Y %H:%M:%S')}")


## 1. Recapitula√ß√£o dos Resultados da Etapa 3

Carregar e revisar os resultados do modelo baseline da Etapa 3.


In [None]:
# Carregar dados processados da Etapa 2
df = pd.read_csv('../../data/processed/students_clean.csv')

print("Dataset processado carregado com sucesso!")
print(f"\nFormato: {df.shape}")

# Separar features (X) e vari√°vel alvo (y)
target = 'final_grade'
features_to_remove = ['student_id', target]

X = df.drop(columns=features_to_remove, errors='ignore')
y = df[target]

print(f"\nFeatures (X): {X.shape}")
print(f"Target (y): {y.shape}")

# Carregar modelo baseline da Etapa 3
print("\n" + "="*60)
print("Carregando modelo baseline da Etapa 3...")
print("="*60)

try:
    modelo_baseline = joblib.load('../../models/modelo_baseline.pkl')
    print("‚úÖ Modelo baseline carregado com sucesso!")
except FileNotFoundError:
    print("‚ö†Ô∏è Modelo baseline n√£o encontrado. Ser√° treinado novamente.")
    from sklearn.linear_model import LinearRegression
    modelo_baseline = LinearRegression()
    
    # Dividir dados para treinar baseline
    X_temp, X_test, y_temp, y_test = train_test_split(
        X, y, test_size=0.2, random_state=42, shuffle=True
    )
    X_train, X_val, y_train, y_val = train_test_split(
        X_temp, y_temp, test_size=0.25, random_state=42, shuffle=True
    )
    
    modelo_baseline.fit(X_train, y_train)
    print("‚úÖ Modelo baseline treinado!")

# Dividir dados em treino, valida√ß√£o e teste (mesma divis√£o da Etapa 3)
X_temp, X_test, y_temp, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, shuffle=True
)
X_train, X_val, y_train, y_val = train_test_split(
    X_temp, y_temp, test_size=0.25, random_state=42, shuffle=True
)

print(f"\nDivis√£o dos Dados:")
print(f"Treino:      {X_train.shape[0]} amostras ({X_train.shape[0]/len(df)*100:.1f}%)")
print(f"Valida√ß√£o:   {X_val.shape[0]} amostras ({X_val.shape[0]/len(df)*100:.1f}%)")
print(f"Teste:       {X_test.shape[0]} amostras ({X_test.shape[0]/len(df)*100:.1f}%)")
print(f"\n‚ö†Ô∏è IMPORTANTE: Dados de teste ser√£o usados APENAS UMA VEZ no final!")


In [None]:
# Avaliar modelo baseline para compara√ß√£o futura
print("="*60)
print("AVALIA√á√ÉO DO MODELO BASELINE (Etapa 3)")
print("="*60)

# Predi√ß√µes do baseline
y_train_pred_baseline = modelo_baseline.predict(X_train)
y_val_pred_baseline = modelo_baseline.predict(X_val)

# M√©tricas do baseline
mse_train_baseline = mean_squared_error(y_train, y_train_pred_baseline)
rmse_train_baseline = np.sqrt(mse_train_baseline)
mae_train_baseline = mean_absolute_error(y_train, y_train_pred_baseline)
r2_train_baseline = r2_score(y_train, y_train_pred_baseline)

mse_val_baseline = mean_squared_error(y_val, y_val_pred_baseline)
rmse_val_baseline = np.sqrt(mse_val_baseline)
mae_val_baseline = mean_absolute_error(y_val, y_val_pred_baseline)
r2_val_baseline = r2_score(y_val, y_val_pred_baseline)

# Criar DataFrame com resultados do baseline
resultados_baseline = pd.DataFrame({
    'M√©trica': ['MSE', 'RMSE', 'MAE', 'R¬≤'],
    'Treino': [mse_train_baseline, rmse_train_baseline, mae_train_baseline, r2_train_baseline],
    'Valida√ß√£o': [mse_val_baseline, rmse_val_baseline, mae_val_baseline, r2_val_baseline]
})

print("\nResultados do Modelo Baseline (Regress√£o Linear):")
print(resultados_baseline.to_string(index=False))

print(f"\nüìä Resumo:")
print(f"   R¬≤ Valida√ß√£o: {r2_val_baseline:.4f} ({r2_val_baseline*100:.2f}%)")
print(f"   RMSE Valida√ß√£o: {rmse_val_baseline:.4f} pontos")
print(f"   MAE Valida√ß√£o: {mae_val_baseline:.4f} pontos")


## 2. Sele√ß√£o do Modelo para Otimiza√ß√£o

Escolher o modelo que ser√° otimizado. Como o baseline foi Regress√£o Linear, vamos otimizar modelos de regress√£o regularizada (Ridge, Lasso, ElasticNet) que s√£o varia√ß√µes da Regress√£o Linear com regulariza√ß√£o para evitar overfitting.


In [None]:
# 2.1 Escolher modelo para otimiza√ß√£o
# Vamos usar ElasticNet que combina Ridge e Lasso
# ElasticNet tem dois hiperpar√¢metros principais: alpha e l1_ratio

print("="*60)
print("SELE√á√ÉO DO MODELO PARA OTIMIZA√á√ÉO")
print("="*60)

print("\nModelo escolhido: ElasticNet")
print("\nJustificativa:")
print("  - ElasticNet combina regulariza√ß√£o L1 (Lasso) e L2 (Ridge)")
print("  - Permite sele√ß√£o de features (L1) e agrupamento de features correlacionadas (L2)")
print("  - Mais flex√≠vel que Ridge ou Lasso isolados")
print("  - Hiperpar√¢metros: alpha (for√ßa da regulariza√ß√£o) e l1_ratio (propor√ß√£o L1 vs L2)")

# Criar modelo base
modelo_base = ElasticNet(random_state=42, max_iter=10000)

print(f"\n‚úÖ Modelo base criado: {type(modelo_base).__name__}")


## 3. Grid Search ou Random Search

Escolher uma t√©cnica de otimiza√ß√£o de hiperpar√¢metros. Vamos implementar ambas as op√ß√µes, mas usar Random Search por ser mais eficiente.


In [None]:
# 3.1 Definir grid de hiperpar√¢metros para ElasticNet
print("="*60)
print("DEFINI√á√ÉO DO GRID DE HIPERPAR√ÇMETROS")
print("="*60)

# Hiperpar√¢metros para ElasticNet:
# - alpha: for√ßa da regulariza√ß√£o (valores maiores = mais regulariza√ß√£o)
# - l1_ratio: propor√ß√£o de L1 (Lasso) vs L2 (Ridge)
#   - l1_ratio = 0: apenas Ridge (L2)
#   - l1_ratio = 1: apenas Lasso (L1)
#   - 0 < l1_ratio < 1: combina√ß√£o (ElasticNet)

# Para Random Search, definimos distribui√ß√µes
from scipy.stats import uniform, randint

# Distribui√ß√£o para alpha (valores entre 0.01 e 100)
param_distributions = {
    'alpha': uniform(loc=0.01, scale=10),  # uniforme entre 0.01 e 10.01
    'l1_ratio': uniform(loc=0, scale=1)    # uniforme entre 0 e 1
}

print("\nHiperpar√¢metros para otimiza√ß√£o (Random Search):")
print("  alpha: distribui√ß√£o uniforme entre 0.01 e 10.01")
print("  l1_ratio: distribui√ß√£o uniforme entre 0 e 1")
print("\nN√∫mero de itera√ß√µes: 50 (pode ser aumentado para melhor resultado)")

# Para Grid Search (op√ß√£o alternativa - comentado por ser mais lento)
# param_grid = {
#     'alpha': [0.01, 0.1, 1.0, 10.0, 100.0],
#     'l1_ratio': [0.0, 0.25, 0.5, 0.75, 1.0]
# }
# print(f"\nGrid Search teria {len(param_grid['alpha']) * len(param_grid['l1_ratio'])} combina√ß√µes")


In [None]:
# 3.2 Executar Random Search com Cross-Validation
print("="*60)
print("EXECUTANDO RANDOM SEARCH COM CROSS-VALIDATION")
print("="*60)
print("\n‚è≥ Isso pode levar alguns minutos...")
print("   Usando 5-fold cross-validation para cada combina√ß√£o de hiperpar√¢metros")

# Combinar treino e valida√ß√£o para ter mais dados no tuning
X_train_val = pd.concat([X_train, X_val], axis=0)
y_train_val = pd.concat([y_train, y_val], axis=0)

print(f"\nDados combinados para tuning: {X_train_val.shape[0]} amostras")

# Criar RandomizedSearchCV
# n_iter: n√∫mero de combina√ß√µes aleat√≥rias a testar
# cv: n√∫mero de folds na cross-validation
# scoring: m√©trica para otimizar (neg_mean_squared_error = menor MSE)
# n_jobs: usar todos os cores dispon√≠veis (-1)
# random_state: para reprodutibilidade

random_search = RandomizedSearchCV(
    estimator=modelo_base,
    param_distributions=param_distributions,
    n_iter=50,  # Testar 50 combina√ß√µes aleat√≥rias
    cv=5,  # 5-fold cross-validation
    scoring='neg_mean_squared_error',  # Queremos minimizar MSE
    n_jobs=-1,  # Usar todos os cores
    random_state=42,
    verbose=1  # Mostrar progresso
)

# Executar busca
import time
start_time = time.time()

random_search.fit(X_train_val, y_train_val)

end_time = time.time()
elapsed_time = end_time - start_time

print(f"\n‚úÖ Random Search conclu√≠do em {elapsed_time:.2f} segundos ({elapsed_time/60:.2f} minutos)")
print(f"\nMelhores hiperpar√¢metros encontrados:")
print(f"  alpha: {random_search.best_params_['alpha']:.4f}")
print(f"  l1_ratio: {random_search.best_params_['l1_ratio']:.4f}")
print(f"\nMelhor score (neg MSE): {random_search.best_score_:.4f}")
print(f"Melhor RMSE (CV): {np.sqrt(-random_search.best_score_):.4f} pontos")


## 4. An√°lise dos Melhores Hiperpar√¢metros

Analisar os resultados do Random Search e entender quais hiperpar√¢metros funcionaram melhor.


In [None]:
# 4.1 Converter resultados do Random Search em DataFrame
print("="*60)
print("AN√ÅLISE DOS RESULTADOS DO RANDOM SEARCH")
print("="*60)

# Converter cv_results_ em DataFrame
results_df = pd.DataFrame(random_search.cv_results_)

# Calcular RMSE a partir do neg_mean_squared_error
results_df['RMSE'] = np.sqrt(-results_df['mean_test_score'])
results_df['RMSE_std'] = np.sqrt(results_df['std_test_score'])

# Selecionar colunas relevantes
cols_to_show = ['param_alpha', 'param_l1_ratio', 'mean_test_score', 'RMSE', 'RMSE_std', 'rank_test_score']
results_analysis = results_df[cols_to_show].copy()

# Renomear colunas para melhor visualiza√ß√£o
results_analysis.columns = ['Alpha', 'L1_Ratio', 'Neg_MSE', 'RMSE', 'RMSE_Std', 'Rank']

# Ordenar por rank (melhor = 1)
results_analysis = results_analysis.sort_values('Rank')

print("\nTop 10 Melhores Combina√ß√µes de Hiperpar√¢metros:")
print("="*60)
print(results_analysis.head(10).to_string(index=False))


In [None]:
# 4.2 Visualizar distribui√ß√£o dos resultados
print("\nCriando visualiza√ß√µes dos resultados...")

fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# Gr√°fico 1: Alpha vs RMSE
ax1 = axes[0, 0]
scatter1 = ax1.scatter(results_analysis['Alpha'], results_analysis['RMSE'], 
                       c=results_analysis['L1_Ratio'], cmap='viridis', 
                       s=50, alpha=0.6, edgecolors='black')
ax1.set_xlabel('Alpha (For√ßa da Regulariza√ß√£o)', fontsize=11, fontweight='bold')
ax1.set_ylabel('RMSE (Cross-Validation)', fontsize=11, fontweight='bold')
ax1.set_title('Alpha vs RMSE\n(Cor = L1_Ratio)', fontsize=12, fontweight='bold')
ax1.grid(alpha=0.3)
plt.colorbar(scatter1, ax=ax1, label='L1_Ratio')

# Gr√°fico 2: L1_Ratio vs RMSE
ax2 = axes[0, 1]
scatter2 = ax2.scatter(results_analysis['L1_Ratio'], results_analysis['RMSE'],
                       c=results_analysis['Alpha'], cmap='plasma',
                       s=50, alpha=0.6, edgecolors='black')
ax2.set_xlabel('L1_Ratio (Propor√ß√£o Lasso vs Ridge)', fontsize=11, fontweight='bold')
ax2.set_ylabel('RMSE (Cross-Validation)', fontsize=11, fontweight='bold')
ax2.set_title('L1_Ratio vs RMSE\n(Cor = Alpha)', fontsize=12, fontweight='bold')
ax2.grid(alpha=0.3)
plt.colorbar(scatter2, ax=ax2, label='Alpha')

# Gr√°fico 3: Distribui√ß√£o do RMSE
ax3 = axes[1, 0]
ax3.hist(results_analysis['RMSE'], bins=20, edgecolor='black', alpha=0.7, color='skyblue')
ax3.axvline(results_analysis['RMSE'].min(), color='red', linestyle='--', 
            linewidth=2, label=f'Melhor: {results_analysis["RMSE"].min():.4f}')
ax3.axvline(results_analysis['RMSE'].mean(), color='green', linestyle='--',
            linewidth=2, label=f'M√©dia: {results_analysis["RMSE"].mean():.4f}')
ax3.set_xlabel('RMSE', fontsize=11, fontweight='bold')
ax3.set_ylabel('Frequ√™ncia', fontsize=11, fontweight='bold')
ax3.set_title('Distribui√ß√£o do RMSE\n(Todas as Combina√ß√µes Testadas)', fontsize=12, fontweight='bold')
ax3.legend()
ax3.grid(alpha=0.3)

# Gr√°fico 4: Top 10 melhores com barras de erro
ax4 = axes[1, 1]
top_10 = results_analysis.head(10)
x_pos = range(len(top_10))
bars = ax4.barh(x_pos, top_10['RMSE'], xerr=top_10['RMSE_Std'], 
                alpha=0.7, edgecolor='black', color='steelblue')
ax4.set_yticks(x_pos)
ax4.set_yticklabels([f"Œ±={row['Alpha']:.3f}\nl1={row['L1_Ratio']:.3f}" 
                     for _, row in top_10.iterrows()], fontsize=9)
ax4.set_xlabel('RMSE (Cross-Validation)', fontsize=11, fontweight='bold')
ax4.set_ylabel('Combina√ß√£o de Hiperpar√¢metros', fontsize=11, fontweight='bold')
ax4.set_title('Top 10 Melhores Combina√ß√µes\n(com Desvio Padr√£o)', fontsize=12, fontweight='bold')
ax4.invert_yaxis()
ax4.grid(axis='x', alpha=0.3)

plt.tight_layout()
plt.show()

print("‚úÖ Visualiza√ß√µes criadas!")


In [None]:
# 4.3 An√°lise dos melhores hiperpar√¢metros
print("\n" + "="*60)
print("INTERPRETA√á√ÉO DOS MELHORES HIPERPAR√ÇMETROS")
print("="*60)

best_alpha = random_search.best_params_['alpha']
best_l1_ratio = random_search.best_params_['l1_ratio']

print(f"\nMelhor Alpha: {best_alpha:.4f}")
if best_alpha < 0.1:
    print("  ‚Üí Regulariza√ß√£o muito fraca (pr√≥ximo de Regress√£o Linear simples)")
elif best_alpha < 1.0:
    print("  ‚Üí Regulariza√ß√£o moderada")
elif best_alpha < 10.0:
    print("  ‚Üí Regulariza√ß√£o forte")
else:
    print("  ‚Üí Regulariza√ß√£o muito forte")

print(f"\nMelhor L1_Ratio: {best_l1_ratio:.4f}")
if best_l1_ratio < 0.2:
    print("  ‚Üí Predomin√¢ncia de Ridge (L2) - mant√©m todas as features")
elif best_l1_ratio < 0.5:
    print("  ‚Üí Mais Ridge que Lasso, mas com alguma sele√ß√£o de features")
elif best_l1_ratio < 0.8:
    print("  ‚Üí Mais Lasso que Ridge - sele√ß√£o de features importante")
else:
    print("  ‚Üí Predomin√¢ncia de Lasso (L1) - sele√ß√£o forte de features")

print(f"\nüí° Conclus√£o:")
print(f"   O modelo otimizado usa {best_l1_ratio*100:.1f}% de regulariza√ß√£o L1 (Lasso)")
print(f"   e {(1-best_l1_ratio)*100:.1f}% de regulariza√ß√£o L2 (Ridge)")
print(f"   com for√ßa de regulariza√ß√£o alpha = {best_alpha:.4f}")


## 5. Treinamento do Modelo Final

Treinar o modelo final com os melhores hiperpar√¢metros usando TREINO + VALIDA√á√ÉO combinados.


In [None]:
# 5.1 Treinar modelo final com melhores hiperpar√¢metros
print("="*60)
print("TREINAMENTO DO MODELO FINAL")
print("="*60)

# O best_estimator_ j√° est√° treinado com os melhores hiperpar√¢metros
# Mas vamos treinar novamente com todos os dados de treino+valida√ß√£o
# para ter o m√°ximo de dados poss√≠vel

print("\nTreinando modelo final com TREINO + VALIDA√á√ÉO combinados...")
print(f"Total de amostras: {X_train_val.shape[0]}")

# Criar modelo final com melhores hiperpar√¢metros
modelo_final = ElasticNet(
    alpha=random_search.best_params_['alpha'],
    l1_ratio=random_search.best_params_['l1_ratio'],
    random_state=42,
    max_iter=10000
)

# Treinar no conjunto completo (treino + valida√ß√£o)
modelo_final.fit(X_train_val, y_train_val)

print("‚úÖ Modelo final treinado com sucesso!")

# Fazer predi√ß√µes para avalia√ß√£o (ainda n√£o usamos teste!)
y_train_val_pred = modelo_final.predict(X_train_val)

# Calcular m√©tricas no conjunto de treino+valida√ß√£o
mse_train_val = mean_squared_error(y_train_val, y_train_val_pred)
rmse_train_val = np.sqrt(mse_train_val)
mae_train_val = mean_absolute_error(y_train_val, y_train_val_pred)
r2_train_val = r2_score(y_train_val, y_train_val_pred)

print(f"\nM√©tricas no conjunto de Treino+Valida√ß√£o:")
print(f"  R¬≤:   {r2_train_val:.4f} ({r2_train_val*100:.2f}%)")
print(f"  RMSE: {rmse_train_val:.4f} pontos")
print(f"  MAE:  {mae_train_val:.4f} pontos")


## 6. Avalia√ß√£o no Conjunto de Teste

‚ö†Ô∏è **IMPORTANTE**: Esta √© a √öNICA vez que usaremos o conjunto de teste!


In [None]:
# 6.1 Carregar dados de teste (guardados desde a Etapa 3)
print("="*60)
print("AVALIA√á√ÉO FINAL NO CONJUNTO DE TESTE")
print("="*60)
print("\n‚ö†Ô∏è ATEN√á√ÉO: Esta √© a √öNICA vez que usaremos o conjunto de teste!")

# Carregar dados de teste salvos
X_test = pd.read_csv('../../data/processed/X_test.csv')
y_test = pd.read_csv('../../data/processed/y_test.csv').squeeze()

print(f"\nDados de teste carregados:")
print(f"  X_test: {X_test.shape}")
print(f"  y_test: {y_test.shape}")

# Fazer predi√ß√µes no conjunto de teste
print("\nFazendo predi√ß√µes no conjunto de teste...")
y_test_pred = modelo_final.predict(X_test)

# Calcular m√©tricas finais
mse_test = mean_squared_error(y_test, y_test_pred)
rmse_test = np.sqrt(mse_test)
mae_test = mean_absolute_error(y_test, y_test_pred)
r2_test = r2_score(y_test, y_test_pred)

print("\n" + "="*60)
print("M√âTRICAS FINAIS NO CONJUNTO DE TESTE")
print("="*60)
print(f"\nMSE  (Erro Quadr√°tico M√©dio):     {mse_test:.4f}")
print(f"RMSE (Raiz do Erro Quadr√°tico):    {rmse_test:.4f} pontos")
print(f"MAE  (Erro Absoluto M√©dio):        {mae_test:.4f} pontos")
print(f"R¬≤   (Coeficiente de Determina√ß√£o): {r2_test:.4f} ({r2_test*100:.2f}%)")

print("\nüí° Interpreta√ß√£o:")
print(f"   O modelo explica {r2_test*100:.2f}% da varia√ß√£o nas notas finais")
print(f"   Em m√©dia, o modelo erra por {rmse_test:.2f} pontos")
print(f"   O erro m√©dio absoluto √© de {mae_test:.2f} pontos")


## 7. Compara√ß√£o: Antes vs Depois da Otimiza√ß√£o

Comparar o desempenho do modelo baseline (Etapa 3) com o modelo otimizado (Etapa 4).


In [None]:
# 7.1 Avaliar baseline no conjunto de teste para compara√ß√£o justa
print("="*60)
print("COMPARA√á√ÉO: BASELINE vs MODELO OTIMIZADO")
print("="*60)

# Avaliar baseline no teste (para compara√ß√£o justa)
y_test_pred_baseline = modelo_baseline.predict(X_test)

mse_test_baseline = mean_squared_error(y_test, y_test_pred_baseline)
rmse_test_baseline = np.sqrt(mse_test_baseline)
mae_test_baseline = mean_absolute_error(y_test, y_test_pred_baseline)
r2_test_baseline = r2_score(y_test, y_test_pred_baseline)

# Criar tabela comparativa
comparacao = pd.DataFrame({
    'M√©trica': ['MSE', 'RMSE', 'MAE', 'R¬≤'],
    'Baseline (Etapa 3)': [
        mse_test_baseline,
        rmse_test_baseline,
        mae_test_baseline,
        r2_test_baseline
    ],
    'Otimizado (Etapa 4)': [
        mse_test,
        rmse_test,
        mae_test,
        r2_test
    ]
})

# Calcular melhoria
comparacao['Melhoria'] = comparacao['Baseline (Etapa 3)'] - comparacao['Otimizado (Etapa 4)']
comparacao['Melhoria (%)'] = (
    (comparacao['Melhoria'] / comparacao['Baseline (Etapa 3)']) * 100
).round(2)

# Para R¬≤, queremos aumento (n√£o diminui√ß√£o)
comparacao.loc[comparacao['M√©trica'] == 'R¬≤', 'Melhoria (%)'] = (
    ((comparacao.loc[comparacao['M√©trica'] == 'R¬≤', 'Otimizado (Etapa 4)'].values[0] - 
      comparacao.loc[comparacao['M√©trica'] == 'R¬≤', 'Baseline (Etapa 3)'].values[0]) / 
     comparacao.loc[comparacao['M√©trica'] == 'R¬≤', 'Baseline (Etapa 3)'].values[0]) * 100
).round(2)

print("\nCompara√ß√£o no Conjunto de Teste:")
print("="*60)
print(comparacao.to_string(index=False))


In [None]:
# 7.2 Visualizar compara√ß√£o
print("\nCriando gr√°ficos de compara√ß√£o...")

fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Gr√°fico 1: Compara√ß√£o de m√©tricas
ax1 = axes[0]
x = np.arange(len(comparacao['M√©trica']))
width = 0.35

bars1 = ax1.bar(x - width/2, comparacao['Baseline (Etapa 3)'], width, 
                label='Baseline', alpha=0.8, color='lightcoral', edgecolor='black')
bars2 = ax1.bar(x + width/2, comparacao['Otimizado (Etapa 4)'], width,
                label='Otimizado', alpha=0.8, color='steelblue', edgecolor='black')

ax1.set_xlabel('M√©trica', fontsize=12, fontweight='bold')
ax1.set_ylabel('Valor', fontsize=12, fontweight='bold')
ax1.set_title('Compara√ß√£o: Baseline vs Modelo Otimizado\n(Conjunto de Teste)', 
              fontsize=13, fontweight='bold')
ax1.set_xticks(x)
ax1.set_xticklabels(comparacao['M√©trica'])
ax1.legend(fontsize=10)
ax1.grid(axis='y', alpha=0.3)

# Adicionar valores nas barras
for bars in [bars1, bars2]:
    for bar in bars:
        height = bar.get_height()
        ax1.text(bar.get_x() + bar.get_width()/2., height,
                f'{height:.3f}', ha='center', va='bottom', fontsize=9)

# Gr√°fico 2: Melhoria percentual
ax2 = axes[1]
colors = ['green' if x > 0 else 'red' for x in comparacao['Melhoria (%)']]
bars = ax2.barh(comparacao['M√©trica'], comparacao['Melhoria (%)'], 
                color=colors, alpha=0.7, edgecolor='black')
ax2.axvline(x=0, color='black', linestyle='-', linewidth=1)
ax2.set_xlabel('Melhoria (%)', fontsize=12, fontweight='bold')
ax2.set_ylabel('M√©trica', fontsize=12, fontweight='bold')
ax2.set_title('Melhoria Percentual do Modelo Otimizado\n(Verde = Melhorou | Vermelho = Piorou)', 
              fontsize=13, fontweight='bold')
ax2.grid(axis='x', alpha=0.3)

# Adicionar valores nas barras
for bar in bars:
    width = bar.get_width()
    label_x = width if width > 0 else width - 0.5
    ax2.text(label_x, bar.get_y() + bar.get_height()/2,
            f' {width:.2f}%', ha='left' if width > 0 else 'right', 
            va='center', fontsize=10, fontweight='bold')

plt.tight_layout()
plt.show()

print("‚úÖ Gr√°ficos de compara√ß√£o criados!")

# Resumo da melhoria
print("\n" + "="*60)
print("RESUMO DA MELHORIA")
print("="*60)
melhoria_r2 = comparacao.loc[comparacao['M√©trica'] == 'R¬≤', 'Melhoria (%)'].values[0]
melhoria_rmse = comparacao.loc[comparacao['M√©trica'] == 'RMSE', 'Melhoria (%)'].values[0]

if melhoria_r2 > 0:
    print(f"\n‚úÖ R¬≤ melhorou em {melhoria_r2:.2f}%")
else:
    print(f"\n‚ö†Ô∏è R¬≤ diminuiu em {abs(melhoria_r2):.2f}%")

if melhoria_rmse < 0:  # RMSE menor √© melhor
    print(f"‚úÖ RMSE melhorou em {abs(melhoria_rmse):.2f}% (diminuiu)")
else:
    print(f"‚ö†Ô∏è RMSE piorou em {melhoria_rmse:.2f}% (aumentou)")


## 8. An√°lise de Erros Detalhada

Realizar an√°lise detalhada dos erros do modelo final no conjunto de teste.


In [None]:
# 8.1 Scatter Plot: Predito vs Real
print("="*60)
print("AN√ÅLISE DE ERROS DETALHADA")
print("="*60)

fig, axes = plt.subplots(1, 2, figsize=(16, 7))

# Gr√°fico 1: Predito vs Real
ax1 = axes[0]
ax1.scatter(y_test, y_test_pred, alpha=0.5, s=30, color='steelblue', edgecolors='black', linewidth=0.5)

# Linha perfeita (y = x)
min_val = min(y_test.min(), y_test_pred.min())
max_val = max(y_test.max(), y_test_pred.max())
ax1.plot([min_val, max_val], [min_val, max_val], 'r--', lw=2, label='Linha Perfeita (Predi√ß√£o = Real)')

ax1.set_xlabel('Valores Reais (Nota Final)', fontsize=12, fontweight='bold')
ax1.set_ylabel('Predi√ß√µes do Modelo (Nota Final)', fontsize=12, fontweight='bold')
ax1.set_title('Scatter Plot: Predi√ß√µes vs Valores Reais\n(Conjunto de Teste)', 
              fontsize=13, fontweight='bold')
ax1.legend(fontsize=10, loc='lower right')
ax1.grid(alpha=0.3)

# Adicionar R¬≤ e RMSE no gr√°fico
textstr = f'R¬≤ = {r2_test:.4f} ({r2_test*100:.2f}%)\nRMSE = {rmse_test:.2f} pontos'
ax1.text(0.05, 0.95, textstr, transform=ax1.transAxes,
         fontsize=11, verticalalignment='top', 
         bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.7))

# Gr√°fico 2: Res√≠duos vs Predi√ß√µes
residuos = y_test - y_test_pred
ax2 = axes[1]
ax2.scatter(y_test_pred, residuos, alpha=0.5, s=30, color='steelblue', edgecolors='black', linewidth=0.5)
ax2.axhline(y=0, color='red', linestyle='--', linewidth=2, label='Zero (Ideal)')
ax2.set_xlabel('Predi√ß√µes do Modelo (Nota Final)', fontsize=12, fontweight='bold')
ax2.set_ylabel('Res√≠duos (Valor Real - Predi√ß√£o)', fontsize=12, fontweight='bold')
ax2.set_title('Res√≠duos vs Predi√ß√µes\n(Verificar Padr√µes e Homocedasticidade)', 
              fontsize=13, fontweight='bold')
ax2.legend(fontsize=10)
ax2.grid(alpha=0.3)

plt.tight_layout()
plt.show()

print("‚úÖ Gr√°ficos de an√°lise de erros criados!")


In [None]:
# 8.2 Distribui√ß√£o dos Res√≠duos
print("\nCriando gr√°ficos de distribui√ß√£o dos res√≠duos...")

fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Subplot 1: Histograma dos res√≠duos
ax1 = axes[0]
ax1.hist(residuos, bins=30, edgecolor='black', alpha=0.7, color='skyblue', label='Distribui√ß√£o dos Res√≠duos')
ax1.axvline(x=0, color='red', linestyle='--', linewidth=2, label='Zero (Ideal)')
ax1.axvline(x=residuos.mean(), color='green', linestyle='--', linewidth=2, 
            label=f'M√©dia: {residuos.mean():.2f}')
ax1.set_xlabel('Res√≠duos (Valor Real - Predi√ß√£o)', fontsize=12, fontweight='bold')
ax1.set_ylabel('Frequ√™ncia (Quantidade de Amostras)', fontsize=12, fontweight='bold')
ax1.set_title('Histograma: Distribui√ß√£o dos Res√≠duos\n(Conjunto de Teste)', 
              fontsize=13, fontweight='bold')
ax1.legend(fontsize=10)
ax1.grid(axis='y', alpha=0.3)

# Adicionar estat√≠sticas
textstr = f'M√©dia: {residuos.mean():.4f}\nDesvio Padr√£o: {residuos.std():.4f}\nM√≠nimo: {residuos.min():.2f}\nM√°ximo: {residuos.max():.2f}'
ax1.text(0.98, 0.98, textstr, transform=ax1.transAxes,
         fontsize=10, verticalalignment='top', horizontalalignment='right',
         bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.7))

# Subplot 2: Q-Q Plot (verificar normalidade dos res√≠duos)
from scipy import stats
ax2 = axes[1]
stats.probplot(residuos, dist="norm", plot=ax2)
ax2.set_title('Q-Q Plot: Normalidade dos Res√≠duos\n(Conjunto de Teste)', 
              fontsize=13, fontweight='bold')
ax2.grid(alpha=0.3)

plt.tight_layout()
plt.show()

# Estat√≠sticas dos res√≠duos
print("\nEstat√≠sticas dos Res√≠duos:")
print("="*60)
print(f"  M√©dia: {residuos.mean():.4f} (ideal: pr√≥xima de 0)")
print(f"  Desvio Padr√£o: {residuos.std():.4f}")
print(f"  M√≠nimo: {residuos.min():.4f}")
print(f"  M√°ximo: {residuos.max():.4f}")
print(f"  Mediana: {residuos.median():.4f}")

print("\nüí° Interpreta√ß√£o:")
if abs(residuos.mean()) < 0.5:
    print("  ‚úÖ M√©dia pr√≥xima de zero: modelo n√£o tem vi√©s sistem√°tico")
else:
    print("  ‚ö†Ô∏è M√©dia distante de zero: modelo pode ter vi√©s")

if abs(residuos.skew()) < 0.5:
    print("  ‚úÖ Distribui√ß√£o aproximadamente sim√©trica")
else:
    print(f"  ‚ö†Ô∏è Distribui√ß√£o assim√©trica (skewness: {residuos.skew():.2f})")


In [None]:
# 8.3 An√°lise de Casos Extremos (Piores Predi√ß√µes)
print("\n" + "="*60)
print("AN√ÅLISE DE CASOS EXTREMOS - PIORES PREDI√á√ïES")
print("="*60)

# Calcular erro absoluto
erro_absoluto = np.abs(residuos)

# Encontrar top 10 piores predi√ß√µes
top_10_erros = erro_absoluto.nlargest(10)

# Criar DataFrame com informa√ß√µes dos piores casos
casos_extremos = pd.DataFrame({
    '√çndice': top_10_erros.index,
    'Valor Real': y_test.iloc[top_10_erros.index],
    'Predi√ß√£o': y_test_pred[top_10_erros.index],
    'Erro Absoluto': top_10_erros.values,
    'Res√≠duo': residuos.iloc[top_10_erros.index]
})

# Ordenar por erro absoluto (maior primeiro)
casos_extremos = casos_extremos.sort_values('Erro Absoluto', ascending=False)

print("\nTop 10 Piores Predi√ß√µes (Maiores Erros):")
print("="*60)
print(casos_extremos.to_string(index=False))

# An√°lise
print("\nüí° An√°lise dos Casos Extremos:")
print(f"   Maior erro: {casos_extremos['Erro Absoluto'].max():.2f} pontos")
print(f"   Erro m√©dio nos top 10: {casos_extremos['Erro Absoluto'].mean():.2f} pontos")
print(f"   Erro m√©dio geral: {erro_absoluto.mean():.2f} pontos")

# Verificar se h√° padr√£o (subestima√ß√£o ou superestima√ß√£o)
subestimados = (casos_extremos['Res√≠duo'] > 0).sum()
superestimados = (casos_extremos['Res√≠duo'] < 0).sum()

print(f"\n   Nos piores casos:")
print(f"   - Subestimados (predi√ß√£o < real): {subestimados} casos")
print(f"   - Superestimados (predi√ß√£o > real): {superestimados} casos")


## 9. Salvamento do Modelo Final

Salvar o modelo otimizado e treinado para uso em produ√ß√£o.


In [None]:
# 9.1 Salvar o modelo final otimizado
print("="*60)
print("SALVAMENTO DO MODELO FINAL")
print("="*60)

# Criar diret√≥rio models se n√£o existir
os.makedirs('../../models', exist_ok=True)

# Salvar modelo final
model_path = '../../models/modelo_final.pkl'
joblib.dump(modelo_final, model_path)

print(f"‚úÖ Modelo final salvo em: {model_path}")
print(f"\nInforma√ß√µes do Modelo:")
print(f"   Tipo: ElasticNet")
print(f"   Alpha: {random_search.best_params_['alpha']:.4f}")
print(f"   L1_Ratio: {random_search.best_params_['l1_ratio']:.4f}")
print(f"   Features: {X_train_val.shape[1]}")
print(f"\nM√©tricas no Conjunto de Teste:")
print(f"   R¬≤:   {r2_test:.4f} ({r2_test*100:.2f}%)")
print(f"   RMSE: {rmse_test:.4f} pontos")
print(f"   MAE:  {mae_test:.4f} pontos")

# Verificar tamanho do arquivo
if os.path.exists(model_path):
    file_size = os.path.getsize(model_path) / 1024  # KB
    print(f"\n   Tamanho do arquivo: {file_size:.2f} KB")


In [None]:
# 9.2 Testar se o modelo carregado funciona corretamente
print("\nTestando modelo carregado...")
print("="*60)

# Carregar modelo
modelo_carregado = joblib.load(model_path)

# Fazer predi√ß√£o de teste
predicao_teste = modelo_carregado.predict(X_test.iloc[:5])

print("‚úÖ Modelo carregado com sucesso!")
print(f"\nTeste de predi√ß√£o (primeiras 5 amostras):")
print(f"  Valores reais:    {y_test.iloc[:5].values}")
print(f"  Predi√ß√µes:        {predicao_teste}")
print(f"  Erros:            {y_test.iloc[:5].values - predicao_teste}")

# Verificar se as predi√ß√µes s√£o iguais
predicoes_originais = modelo_final.predict(X_test.iloc[:5])
if np.allclose(predicao_teste, predicoes_originais):
    print("\n‚úÖ Modelo carregado funciona corretamente!")
else:
    print("\n‚ö†Ô∏è Diferen√ßas detectadas entre modelo original e carregado")


## 10. Conclus√µes Finais

Resumo final dos resultados da otimiza√ß√£o e pr√≥ximos passos.


In [None]:
# Resumo final
print("="*80)
print("RESUMO FINAL - ETAPA 4: OTIMIZA√á√ÉO E TUNING DE HIPERPAR√ÇMETROS")
print("="*80)

print(f"\nüìä Modelo Otimizado:")
print(f"   Tipo: ElasticNet")
print(f"   Alpha: {random_search.best_params_['alpha']:.4f}")
print(f"   L1_Ratio: {random_search.best_params_['l1_ratio']:.4f}")

print(f"\nüìà M√©tricas de Desempenho (Conjunto de Teste):")
print(f"   R¬≤:   {r2_test:.4f} ({r2_test*100:.2f}%)")
print(f"   RMSE: {rmse_test:.4f} pontos")
print(f"   MAE:  {mae_test:.4f} pontos")

print(f"\nüîÑ Compara√ß√£o com Baseline:")
melhoria_r2 = comparacao.loc[comparacao['M√©trica'] == 'R¬≤', 'Melhoria (%)'].values[0]
melhoria_rmse = comparacao.loc[comparacao['M√©trica'] == 'RMSE', 'Melhoria (%)'].values[0]
print(f"   R¬≤:   {melhoria_r2:+.2f}%")
print(f"   RMSE: {melhoria_rmse:+.2f}%")

print(f"\nüîç An√°lise de Erros:")
print(f"   M√©dia dos res√≠duos: {residuos.mean():.4f}")
print(f"   Desvio padr√£o: {residuos.std():.4f}")
print(f"   Maior erro: {erro_absoluto.max():.2f} pontos")

print(f"\nüíæ Arquivos Salvos:")
print(f"   Modelo final: ../../models/modelo_final.pkl")

print("\n" + "="*80)
print("ETAPA 4 CONCLU√çDA!")
print("="*80)


### Documenta√ß√£o: Storytelling e Conclus√µes

#### Contexto
[Descrever o objetivo da otimiza√ß√£o e o que foi feito]

#### Metodologia de Otimiza√ß√£o
[Explicar por que escolheu Random Search vs Grid Search]
[Explicar por que escolheu ElasticNet]
[Descrever o processo de cross-validation]

#### Resultados da Otimiza√ß√£o
[Interpretar os melhores hiperpar√¢metros encontrados]
[Explicar o que significam alpha e l1_ratio escolhidos]

#### Compara√ß√£o: Antes vs Depois
[Analisar se houve melhoria significativa]
[Explicar por que melhorou (ou n√£o melhorou)]

#### An√°lise de Erros
[Interpretar os gr√°ficos de res√≠duos]
[Analisar os casos extremos - por que o modelo errou?]
[Verificar se h√° padr√µes nos erros]

#### Limita√ß√µes do Modelo
[Quais s√£o as limita√ß√µes do modelo atual?]
[Em que situa√ß√µes o modelo pode falhar?]

#### Poss√≠veis Melhorias Futuras
[O que poderia ser feito para melhorar ainda mais?]
[Quais outras t√©cnicas poderiam ser testadas?]
[Feature engineering adicional? Outros algoritmos?]

#### Conclus√µes
[Resumir o desempenho final do modelo]
[O modelo est√° pronto para produ√ß√£o?]
[Quais s√£o os pr√≥ximos passos?]
