# GABARITO COMPLETO - Etapa 3: Modelo Baseline

**Dataset:** Students Performance

**Objetivo:** Criar primeiro modelo de ML e estabelecer benchmark

---

## Conte√∫do:
1. Divis√£o de Dados (60/20/20)
2. Modelo Baseline (Regress√£o Linear)
3. M√©tricas de Avalia√ß√£o
4. An√°lise de Res√≠duos
5. Feature Importance
6. Diagn√≥stico Overfitting
7. Salvamento

## 1. IMPORTS E CONFIGURA√á√ïES

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from scipy import stats
import joblib
import os
import warnings

warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8-darkgrid')
pd.set_option('display.max_columns', None)

print("‚úÖ Imports conclu√≠dos!")

## 2. CARREGAR DADOS PROCESSADOS

In [None]:
# Carregar dataset limpo da Etapa 2
try:
    df = pd.read_csv('../../data/students_clean.csv')
    print(f"‚úÖ Dataset carregado: {df.shape}")
except FileNotFoundError:
    print("‚ùå ERRO: Arquivo students_clean.csv n√£o encontrado!")
    print("Execute a Etapa 2 primeiro!")
    raise

df.head()

In [None]:
df.info()

In [None]:
# Verificar missing values
missing_count = df.isnull().sum().sum()
print(f"Missing values: {missing_count}")

if missing_count == 0:
    print("‚úÖ Dataset 100% limpo! Etapa 2 foi executada corretamente.")
else:
    print(f"‚ö†Ô∏è ATEN√á√ÉO: {missing_count} missing values detectados!")
    print("   Isso N√ÉO deveria acontecer se a Etapa 2 foi executada.")
    print("   Verifique se voc√™ est√° usando o arquivo correto (students_clean.csv)")
    print("\nüîß Aplicando tratamento de seguran√ßa...")
    
    # Tratamento de emerg√™ncia
    for col in df.select_dtypes(include=['float64', 'int64']).columns:
        if df[col].isnull().sum() > 0:
            df[col].fillna(df[col].median(), inplace=True)
    
    print(f"‚úÖ Missing values tratados: {df.isnull().sum().sum()} restantes")

---
# PARTE 1: DIVIS√ÉO DE DADOS (60/20/20)

**Por que 60/20/20?**
- **Treino (60%):** Aprende padr√µes
- **Valida√ß√£o (20%):** Ajusta hiperpar√¢metros
- **Teste (20%):** Avalia√ß√£o final imparcial

**Benef√≠cio:** Evita overfitting no conjunto de teste

## 1.1. Separar Features e Target

In [None]:
# Target
target_col = 'final_grade'

# Features (remover ID e target)
X = df.drop(columns=['student_id', target_col])
y = df[target_col]

print(f"Features: {X.shape}")
print(f"Target: {y.shape}")
print(f"\nColunas de features: {len(X.columns)}")
print(X.columns.tolist())

## 1.2. Divis√£o Treino/Valida√ß√£o/Teste

In [None]:
# PASSO 1: Separar teste (20%)
X_temp, X_test, y_temp, y_test = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42
)

print("üî∏ Primeira divis√£o (80% temp / 20% teste)")
print(f"  X_temp: {X_temp.shape}")
print(f"  X_test: {X_test.shape}")

In [None]:
# PASSO 2: Separar treino e valida√ß√£o
# 0.25 * 80% = 20% do total para valida√ß√£o
X_train, X_val, y_train, y_val = train_test_split(
    X_temp, y_temp,
    test_size=0.25,
    random_state=42
)

print("üî∏ Segunda divis√£o (60% treino / 20% valida√ß√£o do total)")
print(f"  X_train: {X_train.shape}")
print(f"  X_val: {X_val.shape}")

In [None]:
# Resumo das divis√µes
print("="*60)
print("RESUMO DAS DIVIS√ïES")
print("="*60)
print(f"Treino:    {X_train.shape[0]:4d} amostras ({X_train.shape[0]/len(X)*100:.1f}%)")
print(f"Valida√ß√£o: {X_val.shape[0]:4d} amostras ({X_val.shape[0]/len(X)*100:.1f}%)")
print(f"Teste:     {X_test.shape[0]:4d} amostras ({X_test.shape[0]/len(X)*100:.1f}%)")
print(f"TOTAL:     {len(X):4d} amostras (100.0%)")

## 1.3. Verificar Distribui√ß√£o do Target

In [None]:
# Estat√≠sticas
stats_df = pd.DataFrame({
    'Treino': y_train.describe(),
    'Valida√ß√£o': y_val.describe(),
    'Teste': y_test.describe()
})

print("üìä Estat√≠sticas do Target nos 3 Conjuntos:\n")
print(stats_df.round(2))

In [None]:
# Comparar m√©dias
mean_train = y_train.mean()
mean_val = y_val.mean()
mean_test = y_test.mean()

diff_val = abs(mean_val - mean_train) / mean_train * 100
diff_test = abs(mean_test - mean_train) / mean_train * 100

print(f"\nM√©dia Treino:    {mean_train:.2f}")
print(f"M√©dia Valida√ß√£o: {mean_val:.2f} (diff: {diff_val:.2f}%)")
print(f"M√©dia Teste:     {mean_test:.2f} (diff: {diff_test:.2f}%)")

if diff_val < 5 and diff_test < 5:
    print("\n‚úÖ Distribui√ß√µes muito similares (< 5% diferen√ßa)")
else:
    print("\n‚ö†Ô∏è Distribui√ß√µes t√™m diferen√ßas > 5%")

In [None]:
# Visualiza√ß√£o: Boxplots
fig, axes = plt.subplots(1, 3, figsize=(15, 5))

axes[0].boxplot(y_train, patch_artist=True,
                boxprops=dict(facecolor='#4CAF50', alpha=0.7))
axes[0].set_title(f'Treino (n={len(y_train)})', fontweight='bold')
axes[0].set_ylabel('Nota Final')
axes[0].grid(axis='y', alpha=0.3)

axes[1].boxplot(y_val, patch_artist=True,
                boxprops=dict(facecolor='#FFC107', alpha=0.7))
axes[1].set_title(f'Valida√ß√£o (n={len(y_val)})', fontweight='bold')
axes[1].set_ylabel('Nota Final')
axes[1].grid(axis='y', alpha=0.3)

axes[2].boxplot(y_test, patch_artist=True,
                boxprops=dict(facecolor='#F44336', alpha=0.7))
axes[2].set_title(f'Teste (n={len(y_test)})', fontweight='bold')
axes[2].set_ylabel('Nota Final')
axes[2].grid(axis='y', alpha=0.3)

plt.suptitle('VISUALIZA√á√ÉO 1: Distribui√ß√£o do Target nos 3 Conjuntos',
             fontsize=14, fontweight='bold')
plt.tight_layout()
plt.savefig('etapa3_01_target_distribution.png', dpi=300, bbox_inches='tight')
plt.show()

---
## üìù RESPOSTA QUEST√ÉO 1

**Q1: Por que usar divis√£o 60/20/20 ao inv√©s de 80/20?**

**RESPOSTA:**

**Problema da divis√£o 80/20:**
- Treina com 80%, avalia com 20% (teste)
- Se resultado ruim ‚Üí ajusta modelo ‚Üí avalia no MESMO teste
- **Vazamento indireto:** Modelo "aprende" caracter√≠sticas do teste

**Solu√ß√£o 60/20/20:**
- **Treino (60%):** Ajusta pesos do modelo
- **Valida√ß√£o (20%):** Testa ajustes, compara modelos
- **Teste (20%):** **Guardado intocado** at√© avalia√ß√£o final

**Fluxo correto:**
```
1. Treinar no treino
2. Avaliar na valida√ß√£o
3. Ajustar baseado na valida√ß√£o
4. Repetir 1-3 quantas vezes necess√°rio
5. UMA VEZ ao final: avaliar no teste
6. Reportar resultado do teste
```

**Analogia:**
- Treino = Estudar o conte√∫do
- Valida√ß√£o = Simulados (pode refazer)
- Teste = Prova final (uma chance s√≥!)

**Benef√≠cio:** Avalia√ß√£o imparcial, resultado confi√°vel para produ√ß√£o

---
# PARTE 2: MODELO BASELINE (REGRESS√ÉO LINEAR)

**Por que Regress√£o Linear como baseline?**
1. R√°pido de treinar
2. Interpret√°vel (coeficientes claros)
3. Bom ponto de refer√™ncia
4. Funciona bem para rela√ß√µes lineares

## 2.1. Treinar Modelo

In [None]:
# Criar e treinar
baseline_model = LinearRegression()
baseline_model.fit(X_train, y_train)

print("="*60)
print("MODELO BASELINE TREINADO")
print("="*60)
print(f"\nIntercepto: {baseline_model.intercept_:.4f}")
print(f"Coeficientes: {len(baseline_model.coef_)}")

## 2.2. Fazer Predi√ß√µes

In [None]:
# Predi√ß√µes nos 3 conjuntos
y_train_pred = baseline_model.predict(X_train)
y_val_pred = baseline_model.predict(X_val)
y_test_pred = baseline_model.predict(X_test)

print("‚úÖ Predi√ß√µes realizadas:")
print(f"  Treino: {len(y_train_pred)} predi√ß√µes")
print(f"  Valida√ß√£o: {len(y_val_pred)} predi√ß√µes")
print(f"  Teste: {len(y_test_pred)} predi√ß√µes")

In [None]:
# Comparar primeiras predi√ß√µes
comparison = pd.DataFrame({
    'Real': y_val.head(10).values,
    'Predito': y_val_pred[:10],
    'Erro': y_val.head(10).values - y_val_pred[:10]
})

print("\nüìä Primeiras 10 Predi√ß√µes (Valida√ß√£o):\n")
print(comparison.to_string(index=False))

## 2.3. Coeficientes e Feature Importance

In [None]:
# DataFrame de coeficientes
coef_df = pd.DataFrame({
    'Feature': X_train.columns,
    'Coefficient': baseline_model.coef_
}).sort_values('Coefficient', key=abs, ascending=False)

print("üìä COEFICIENTES DO MODELO:\n")
print(coef_df.head(15).to_string(index=False))

In [None]:
# Visualiza√ß√£o dos top coeficientes
top_features = coef_df.head(15)

plt.figure(figsize=(10, 8))
colors = ['#2E86AB' if c > 0 else '#A23B72' for c in top_features['Coefficient']]
plt.barh(range(len(top_features)), top_features['Coefficient'], color=colors,
         alpha=0.7, edgecolor='black')
plt.yticks(range(len(top_features)), top_features['Feature'])
plt.xlabel('Coeficiente', fontweight='bold')
plt.title('VISUALIZA√á√ÉO 2: Top 15 Features Mais Importantes',
          fontsize=14, fontweight='bold')
plt.axvline(x=0, color='black', linestyle='-', linewidth=1.5)
plt.grid(axis='x', alpha=0.3)
plt.tight_layout()
plt.savefig('etapa3_02_feature_importance.png', dpi=300, bbox_inches='tight')
plt.show()

---
## üìù RESPOSTA QUEST√ÉO 2

**Q2: Interprete os 3 coeficientes mais importantes do modelo**

**RESPOSTA:**

In [None]:
top_3 = coef_df.head(3)

print("TOP 3 FEATURES MAIS IMPACTANTES:\n")
for i, (idx, row) in enumerate(top_3.iterrows(), 1):
    feat = row['Feature']
    coef = row['Coefficient']
    direction = "AUMENTA" if coef > 0 else "DIMINUI"

    print(f"{i}. {feat}")
    print(f"   Coeficiente: {coef:.4f}")
    print(f"   Interpreta√ß√£o: Cada unidade adicional {direction} a nota em {abs(coef):.2f} pontos")
    print(f"   Impacto: {'Positivo' if coef > 0 else 'Negativo'}\n")

print("üí° IMPORTANTE:")
print("- Como usamos StandardScaler, '1 unidade' = 1 desvio padr√£o")
print("- Coeficientes positivos aumentam a nota")
print("- Coeficientes negativos diminuem a nota")

---
# PARTE 3: M√âTRICAS DE AVALIA√á√ÉO

**4 M√©tricas Essenciais:**
1. **MSE:** Mean Squared Error (penaliza erros grandes)
2. **RMSE:** Root MSE (mesma unidade do target)
3. **MAE:** Mean Absolute Error (robusto a outliers)
4. **R¬≤:** Propor√ß√£o de vari√¢ncia explicada (0-1)

## 3.1. Calcular M√©tricas

In [None]:
def evaluate_model(y_true, y_pred, dataset_name=""):
    """Calcula e exibe m√©tricas de regress√£o"""
    mse = mean_squared_error(y_true, y_pred)
    rmse = np.sqrt(mse)
    mae = mean_absolute_error(y_true, y_pred)
    r2 = r2_score(y_true, y_pred)

    print(f"\n{dataset_name}")
    print("-" * 50)
    print(f"MSE  (Mean Squared Error):     {mse:.4f}")
    print(f"RMSE (Root MSE):              {rmse:.4f} pontos")
    print(f"MAE  (Mean Absolute Error):   {mae:.4f} pontos")
    print(f"R¬≤   (R-squared):             {r2:.4f} ({r2*100:.2f}%)")

    return {'MSE': mse, 'RMSE': rmse, 'MAE': mae, 'R2': r2}

# Avaliar
print("="*60)
print("AVALIA√á√ÉO DO MODELO BASELINE")
print("="*60)

train_metrics = evaluate_model(y_train, y_train_pred, "üìä TREINO")
val_metrics = evaluate_model(y_val, y_val_pred, "üìä VALIDA√á√ÉO")

In [None]:
# Tabela comparativa
metrics_df = pd.DataFrame({
    'Treino': train_metrics,
    'Valida√ß√£o': val_metrics
})

print("\n" + "="*60)
print("COMPARA√á√ÉO TREINO vs VALIDA√á√ÉO")
print("="*60 + "\n")
print(metrics_df)

In [None]:
# Calcular diferen√ßas
diff_r2 = abs(train_metrics['R2'] - val_metrics['R2'])
diff_r2_pct = (diff_r2 / train_metrics['R2']) * 100

print(f"\nüìà An√°lise de Generaliza√ß√£o:")
print(f"  Diferen√ßa R¬≤: {diff_r2:.4f} ({diff_r2_pct:.2f}%)")

if diff_r2_pct < 5:
    print("  ‚úÖ EXCELENTE! Modelo generaliza muito bem (< 5%)")
elif diff_r2_pct < 10:
    print("  ‚úÖ BOM! Generaliza√ß√£o adequada (< 10%)")
else:
    print("  ‚ö†Ô∏è ATEN√á√ÉO! Poss√≠vel overfitting (> 10%)")

---
## üìù RESPOSTA QUEST√ÉO 3

**Q3: Explique cada m√©trica e qual √© mais importante**

**RESPOSTA:**

### 1. MSE (Mean Squared Error)
- **F√≥rmula:** Œ£(y_real - y_pred)¬≤ / n
- **Unidade:** pontos¬≤ (dif√≠cil interpretar)
- **Caracter√≠stica:** Penaliza MUITO erros grandes (eleva ao quadrado)
- **Uso:** Fun√ß√£o de perda durante treinamento

### 2. RMSE (Root Mean Squared Error)
- **F√≥rmula:** ‚àöMSE
- **Unidade:** pontos (mesma do target!)
- **Interpreta√ß√£o:** "O modelo erra em m√©dia X pontos"
- **Vantagem:** Interpret√°vel para leigos

### 3. MAE (Mean Absolute Error)
- **F√≥rmula:** Œ£|y_real - y_pred| / n
- **Unidade:** pontos
- **Caracter√≠stica:** Menos sens√≠vel a outliers que RMSE
- **Interpreta√ß√£o:** Erro m√©dio absoluto

### 4. R¬≤ (R-squared)
- **F√≥rmula:** 1 - (SS_res / SS_tot)
- **Range:** -‚àû a 1 (1 = perfeito)
- **Interpreta√ß√£o:** "% da vari√¢ncia explicada"
- **Benchmark:** > 0.7 = bom, > 0.9 = excelente

### üéØ Qual mais importante?

**Depende do contexto!**

- **Para comparar modelos:** **R¬≤** (normalizado)
- **Para comunicar com n√£o-t√©cnicos:** **RMSE/MAE** (interpret√°vel)
- **Para penalizar erros grandes:** **MSE/RMSE**
- **Para dados com outliers:** **MAE**

**Neste projeto:** Usamos R¬≤ como principal + RMSE para interpreta√ß√£o

---
# PARTE 4: AN√ÅLISE DE RES√çDUOS

**Res√≠duos = Erros do modelo (y_real - y_pred)**

**Um bom modelo deve ter:**
1. Res√≠duos centrados em zero (sem vi√©s)
2. Distribui√ß√£o normal
3. Vari√¢ncia constante (homocedasticidade)

## 4.1. Calcular Res√≠duos

In [None]:
# Res√≠duos
residuals_train = y_train - y_train_pred
residuals_val = y_val - y_val_pred

print("üìä ESTAT√çSTICAS DOS RES√çDUOS:\n")
print("TREINO:")
print(f"  M√©dia:   {residuals_train.mean():.6f} (esperado ‚âà 0)")
print(f"  Mediana: {residuals_train.median():.4f}")
print(f"  Std Dev: {residuals_train.std():.4f}")

print("\nVALIDA√á√ÉO:")
print(f"  M√©dia:   {residuals_val.mean():.6f} (esperado ‚âà 0)")
print(f"  Mediana: {residuals_val.median():.4f}")
print(f"  Std Dev: {residuals_val.std():.4f}")

In [None]:
# Verificar se m√©dia pr√≥xima de zero
mean_res = abs(residuals_val.mean())
if mean_res < 0.01:
    print(f"\n‚úÖ M√©dia muito pr√≥xima de zero ({residuals_val.mean():.6f})")
    print("   ‚Üí Modelo SEM vi√©s sistem√°tico")
elif mean_res < 0.1:
    print(f"\n‚úÖ M√©dia pr√≥xima de zero ({residuals_val.mean():.4f})")
else:
    print(f"\n‚ö†Ô∏è M√©dia n√£o t√£o pr√≥xima de zero ({residuals_val.mean():.4f})")
    if residuals_val.mean() > 0:
        print("   ‚Üí Modelo tende a SUBESTIMAR")
    else:
        print("   ‚Üí Modelo tende a SUPERESTIMAR")

## 4.2. Visualiza√ß√£o 1: Predi√ß√µes vs Reais

In [None]:
# Scatter plot
plt.figure(figsize=(10, 10))

# Valida√ß√£o
plt.scatter(y_val, y_val_pred, alpha=0.6, s=50, color='#4ECDC4',
           edgecolors='navy', linewidth=0.5, label=f'Valida√ß√£o (n={len(y_val)})')

# Linha perfeita
min_val = min(y_val.min(), y_val_pred.min())
max_val = max(y_val.max(), y_val_pred.max())
plt.plot([min_val, max_val], [min_val, max_val], 'r--', lw=3,
        label='Predi√ß√£o Perfeita (y=x)')

# Banda de confian√ßa (¬±RMSE)
rmse_val = val_metrics['RMSE']
x_line = np.array([min_val, max_val])
plt.fill_between(x_line, x_line - rmse_val, x_line + rmse_val,
                 color='gray', alpha=0.2, label=f'¬±RMSE (¬±{rmse_val:.2f})')

plt.xlabel('Valores Reais', fontsize=13, fontweight='bold')
plt.ylabel('Valores Preditos', fontsize=13, fontweight='bold')
plt.title('VISUALIZA√á√ÉO 3: Valores Reais vs Preditos (Valida√ß√£o)',
         fontsize=14, fontweight='bold')
plt.legend(loc='upper left', fontsize=11)
plt.grid(alpha=0.3)
plt.axis('equal')

# Adicionar m√©tricas no gr√°fico
textstr = f'R¬≤ = {val_metrics["R2"]:.4f}\nRMSE = {rmse_val:.2f}\nMAE = {val_metrics["MAE"]:.2f}'
props = dict(boxstyle='round', facecolor='wheat', alpha=0.8)
plt.text(0.05, 0.95, textstr, transform=plt.gca().transAxes, fontsize=12,
        verticalalignment='top', bbox=props)

plt.tight_layout()
plt.savefig('etapa3_03_predictions_vs_actual.png', dpi=300, bbox_inches='tight')
plt.show()

## 4.3. Visualiza√ß√£o 2: Res√≠duos vs Preditos

In [None]:
# Res√≠duos vs predi√ß√µes
plt.figure(figsize=(12, 6))

plt.scatter(y_val_pred, residuals_val, alpha=0.5, s=30, color='royalblue',
           edgecolors='navy', linewidth=0.5)

# Linha em zero
plt.axhline(y=0, color='red', linestyle='--', linewidth=2, label='Res√≠duo = 0')

# Linhas de refer√™ncia (¬±2 RMSE)
plt.axhline(y=2*rmse_val, color='orange', linestyle=':', linewidth=1.5, alpha=0.7)
plt.axhline(y=-2*rmse_val, color='orange', linestyle=':', linewidth=1.5, alpha=0.7,
           label=f'¬±2 RMSE')

plt.xlabel('Valores Preditos', fontsize=13, fontweight='bold')
plt.ylabel('Res√≠duos (Real - Predito)', fontsize=13, fontweight='bold')
plt.title('VISUALIZA√á√ÉO 4: Res√≠duos vs Valores Preditos',
         fontsize=14, fontweight='bold')
plt.legend(loc='best')
plt.grid(alpha=0.3)
plt.tight_layout()
plt.savefig('etapa3_04_residuals_vs_fitted.png', dpi=300, bbox_inches='tight')
plt.show()

## 4.4. Visualiza√ß√£o 3: Distribui√ß√£o dos Res√≠duos

In [None]:
# Histograma dos res√≠duos
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Histograma
axes[0].hist(residuals_val, bins=40, density=True, alpha=0.7,
            color='green', edgecolor='darkgreen', label='Res√≠duos')

# Curva normal te√≥rica
mu = residuals_val.mean()
sigma = residuals_val.std()
x_range = np.linspace(residuals_val.min(), residuals_val.max(), 100)
normal_curve = stats.norm.pdf(x_range, mu, sigma)
axes[0].plot(x_range, normal_curve, 'r--', linewidth=2,
            label=f'Normal(Œº={mu:.2f}, œÉ={sigma:.2f})')

axes[0].axvline(mu, color='red', linestyle='--', linewidth=1.5, label=f'M√©dia: {mu:.2f}')
axes[0].set_xlabel('Res√≠duo', fontweight='bold')
axes[0].set_ylabel('Densidade', fontweight='bold')
axes[0].set_title('Histograma dos Res√≠duos', fontweight='bold')
axes[0].legend()
axes[0].grid(alpha=0.3, axis='y')

# Q-Q Plot
stats.probplot(residuals_val, dist="norm", plot=axes[1])
axes[1].set_title('Q-Q Plot (Teste de Normalidade)', fontweight='bold')
axes[1].grid(alpha=0.3)

plt.suptitle('VISUALIZA√á√ÉO 5: An√°lise de Normalidade dos Res√≠duos',
            fontsize=14, fontweight='bold')
plt.tight_layout()
plt.savefig('etapa3_05_residuals_distribution.png', dpi=300, bbox_inches='tight')
plt.show()

In [None]:
# Teste de normalidade
skew = residuals_val.skew()
kurt = residuals_val.kurtosis()

print("üìä AN√ÅLISE DE NORMALIDADE:")
print(f"\nSkewness (Assimetria): {skew:.4f}")
if abs(skew) < 0.5:
    print("  ‚úÖ Distribui√ß√£o sim√©trica (|skew| < 0.5)")
elif abs(skew) < 1.0:
    print("  ‚ö†Ô∏è Leve assimetria (0.5 < |skew| < 1.0)")
else:
    print("  ‚ùå Assimetria significativa (|skew| > 1.0)")

print(f"\nKurtosis (Curtose): {kurt:.4f}")
if abs(kurt) < 0.5:
    print("  ‚úÖ Curtose normal (|kurt| < 0.5)")
else:
    print("  ‚ö†Ô∏è Desvio da normalidade")

---
## üìù RESPOSTA QUEST√ÉO 4

**Q4: O modelo apresenta overfitting ou underfitting? Justifique.**

**RESPOSTA:**

In [None]:
print("="*60)
print("DIAGN√ìSTICO: OVERFITTING vs UNDERFITTING")
print("="*60)

r2_train = train_metrics['R2']
r2_val = val_metrics['R2']
diff_r2 = abs(r2_train - r2_val)
diff_r2_pct = (diff_r2 / r2_train) * 100

print(f"\nüìä M√âTRICAS:")
print(f"  R¬≤ Treino:    {r2_train:.4f} ({r2_train*100:.2f}%)")
print(f"  R¬≤ Valida√ß√£o: {r2_val:.4f} ({r2_val*100:.2f}%)")
print(f"  Diferen√ßa:    {diff_r2:.4f} ({diff_r2_pct:.2f}%)")

print("\nüí° DIAGN√ìSTICO:")

if r2_val < 0.5 and r2_train < 0.5:
    diagnostico = "UNDERFITTING"
    print(f"  ‚ùå {diagnostico}")
    print("  - R¬≤ baixo em AMBOS os conjuntos")
    print("  - Modelo muito simples, n√£o captura complexidade")
    print("\n  SOLU√á√ÉO:")
    print("  - Adicionar features polinomiais")
    print("  - Usar modelos mais complexos (Random Forest, XGBoost)")

elif diff_r2_pct > 10:
    diagnostico = "OVERFITTING"
    print(f"  ‚ö†Ô∏è {diagnostico}")
    print("  - Performance excelente no treino, mas cai na valida√ß√£o")
    print("  - Modelo 'decorou' dados de treino")
    print("\n  SOLU√á√ÉO:")
    print("  - Regulariza√ß√£o (Ridge, Lasso)")
    print("  - Remover features menos importantes")
    print("  - Coletar mais dados")

elif diff_r2_pct > 5:
    diagnostico = "LEVE OVERFITTING"
    print(f"  ‚ö†Ô∏è {diagnostico}")
    print("  - Pequena queda na valida√ß√£o (5-10%)")
    print("  - Aceit√°vel, mas pode melhorar")
    print("\n  SUGEST√ÉO:")
    print("  - Considerar regulariza√ß√£o L2")

else:
    diagnostico = "BOM AJUSTE (GOOD FIT)"
    print(f"  ‚úÖ {diagnostico}")
    print("  - Performance alta e similar em ambos")
    print("  - Modelo generaliza MUITO BEM")
    print("  - Diferen√ßa < 5% √© excelente!")

print(f"\nüéØ CONCLUS√ÉO: {diagnostico}")

---
## üìù RESPOSTA QUEST√ÉO 5

**Q5: Analise os res√≠duos. O modelo satisfaz as suposi√ß√µes da Regress√£o Linear?**

**RESPOSTA:**

### Suposi√ß√µes da Regress√£o Linear:

#### 1. ‚úÖ Linearidade
- **Verifica√ß√£o:** Scatter plot res√≠duos vs preditos
- **Resultado:** Sem padr√£o curvil√≠neo ‚Üí ‚úÖ Satisfeita

#### 2. ‚úÖ Independ√™ncia
- **Suposi√ß√£o:** Observa√ß√µes independentes
- **Contexto:** Dados de diferentes alunos ‚Üí ‚úÖ Satisfeita

#### 3. ‚úÖ/‚ö†Ô∏è Homocedasticidade (Vari√¢ncia Constante)
- **Verifica√ß√£o:** Dispers√£o uniforme no plot de res√≠duos
- **Resultado:** Verificar se n√£o h√° padr√£o de "cone"
- Se dispers√£o uniforme ‚Üí ‚úÖ Satisfeita
- Se forma cone ‚Üí ‚ö†Ô∏è Heteroscedasticidade

#### 4. ‚úÖ/‚ö†Ô∏è Normalidade dos Res√≠duos
- **Verifica√ß√£o:** Q-Q Plot e teste de Shapiro-Wilk
- **Crit√©rios:**
  - Pontos no Q-Q plot seguem linha ‚Üí ‚úÖ Normal
  - Skewness < 0.5 ‚Üí ‚úÖ Sim√©trico
  - Kurtosis < 0.5 ‚Üí ‚úÖ Normal

#### 5. ‚úÖ Sem Multicolinearidade
- **Verifica√ß√£o:** VIF (Variance Inflation Factor)
- **Solu√ß√£o pr√©via:** One-Hot Encoding com drop_first=True

### üéØ Conclus√£o Geral:

**Se maioria das suposi√ß√µes satisfeitas:**
- Modelo √© adequado
- Predi√ß√µes confi√°veis
- Infer√™ncias estat√≠sticas v√°lidas

**Se viola√ß√µes detectadas:**
- Modelo ainda pode funcionar (ML != Estat√≠stica)
- Avaliar impacto na performance
- Considerar transforma√ß√µes ou outros modelos

---
# PARTE 5: SALVAMENTO DO MODELO E DADOS

**Por que salvar?**
- Reutilizar na Etapa 4
- N√£o precisar retreinar
- Garantir reprodutibilidade

## 5.1. Criar Diret√≥rios

In [None]:
# Criar pastas se n√£o existirem
os.makedirs('../../models', exist_ok=True)
os.makedirs('../../data', exist_ok=True)
print("‚úÖ Diret√≥rios criados/verificados")

## 5.2. Salvar Modelo

In [None]:
# Salvar modelo
model_path = '../../models/baseline_model.pkl'
joblib.dump(baseline_model, model_path)

print(f"‚úÖ Modelo salvo: {model_path}")
print(f"   Tamanho: {os.path.getsize(model_path)/1024:.2f} KB")

# Verificar salvamento
loaded_model = joblib.load(model_path)
print("‚úÖ Verificado! Modelo pode ser carregado")

## 5.3. Salvar Conjuntos de Dados

In [None]:
# Salvar splits
X_train.to_csv('../../data/X_train.csv', index=False)
X_val.to_csv('../../data/X_val.csv', index=False)
X_test.to_csv('../../data/X_test.csv', index=False)

y_train.to_csv('../../data/y_train.csv', index=False)
y_val.to_csv('../../data/y_val.csv', index=False)
y_test.to_csv('../../data/y_test.csv', index=False)

print("‚úÖ Datasets salvos:")
print("  - X_train.csv, X_val.csv, X_test.csv")
print("  - y_train.csv, y_val.csv, y_test.csv")

## 5.4. Salvar M√©tricas

In [None]:
# Salvar m√©tricas para refer√™ncia
metrics_summary = pd.DataFrame({
    'Treino': train_metrics,
    'Valida√ß√£o': val_metrics
})

metrics_summary.to_csv('../../data/baseline_metrics.csv')
print("‚úÖ M√©tricas salvas: baseline_metrics.csv")

---
# RESUMO FINAL

In [None]:
print("="*70)
print("  üéØ ETAPA 3 CONCLU√çDA - MODELO BASELINE")
print("="*70)

print("\nüìä DIVIS√ÉO DE DADOS:")
print(f"  Treino:    {len(X_train):4d} ({len(X_train)/len(X)*100:.1f}%)")
print(f"  Valida√ß√£o: {len(X_val):4d} ({len(X_val)/len(X)*100:.1f}%)")
print(f"  Teste:     {len(X_test):4d} ({len(X_test)/len(X)*100:.1f}%)")

print("\nüìà PERFORMANCE (Valida√ß√£o):")
print(f"  R¬≤:   {val_metrics['R2']:.4f} ({val_metrics['R2']*100:.2f}% vari√¢ncia explicada)")
print(f"  RMSE: {val_metrics['RMSE']:.4f} pontos")
print(f"  MAE:  {val_metrics['MAE']:.4f} pontos")

print("\nüíæ ARQUIVOS SALVOS:")
print("  - Modelo: baseline_model.pkl")
print("  - Datasets: X_train, X_val, X_test")
print("  - M√©tricas: baseline_metrics.csv")

print("\n‚úÖ CHECKLIST:")
print("  ‚úÖ Dados divididos (60/20/20)")
print("  ‚úÖ Modelo baseline treinado")
print("  ‚úÖ M√©tricas calculadas (MSE, RMSE, MAE, R¬≤)")
print("  ‚úÖ Res√≠duos analisados")
print("  ‚úÖ Feature importance identificada")
print("  ‚úÖ Overfitting/Underfitting diagnosticado")
print("  ‚úÖ Modelo e dados salvos")

print("\nüöÄ PR√ìXIMA ETAPA:")
print("  ‚Üí Etapa 4: Modelos Avan√ßados")
print("  ‚Üí Meta: Superar R¬≤ do baseline em 5-10%")
print("  ‚Üí Modelos: Random Forest, XGBoost, etc.")

print("\n" + "="*70)
print("  üéì PARAB√âNS! Baseline estabelecido com sucesso!")
print("="*70)