# Estrategia de Modelado Predictivo (ML)

**Proyecto:** Optimizaci√≥n de Eficiencia Energ√©tica Naval
**Fase:** Selecci√≥n de Arquitectura y Entrenamiento (Model Tournament)

---

**Objetivo del M√≥dulo**

Desarrollar y comparar modelos de Machine Learning para predecir el consumo de combustible (`log_fuel_consumption`), superando las limitaciones de linealidad detectadas en el Baseline F√≠sico (OLS).

**Contexto T√©cnico (Heredado del EDA)**

El an√°lisis exploratorio revel√≥ tres factores cr√≠ticos que definen la estrategia de modelado:
1.  **No-Linealidad Estructural:** La "Ley del Cubo" te√≥rica se ve distorsionada a baja velocidad por la Carga Base (*Hotel Load*), creando un efecto de "banana" que la regresi√≥n lineal no captura bien.
2.  **Autocorrelaci√≥n Severa:** El test de Durbin-Watson (0.01) confirm√≥ que los datos dependen fuertemente del tiempo.
3.  **Multicolinealidad:** La variable `width` fue eliminada; el modelo debe manejar la interacci√≥n entre `length` y `draft` para deducir la resistencia.

**Estrategia de Validaci√≥n (Rules of Engagement)**

Para garantizar resultados realistas y evitar *Data Leakage*:
* **Prohibido `shuffle=True`:** No mezclaremos datos aleatoriamente.
* **Split Cronol√≥gico:** Entrenaremos estrictamente con el **Pasado (80%)** y evaluaremos con el **Futuro (20%)**.
* **M√©trica Decisiva:** RMSE (Root Mean Squared Error) para penalizar grandes desviaciones.

---
**Los Modelos a evaluar**

1.  **Baseline:** Regresi√≥n Lineal (OLS) - *Referencia de "suelo" de rendimiento.*
2.  **Retador 1:** Random Forest Regressor - *Captura de no-linealidad robusta.*
3.  **Retador 2:** XGBoost Regressor - *Boosting de alto rendimiento para Big Data.*

## Instalacion librerias y configuracion de Entorno

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
# M√©tricas de Evaluaci√≥n
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
# Herramientas de Validaci√≥n (Series de Tiempo)
from sklearn.model_selection import TimeSeriesSplit
# Modelos
from sklearn.linear_model import LinearRegression   # Benchmark (L√≠nea Base)
from sklearn.ensemble import RandomForestRegressor  # Retador 1 (No linealidad)
import xgboost as xgb                               # Retador 2 (Potencia Big Data)

# --- Configuraci√≥n Global ---
# Estilo de gr√°ficos limpio
sns.set_theme(style="whitegrid")
plt.rcParams['figure.figsize'] = (12, 6)

# Configuraci√≥n de Pandas para ver todas las columnas
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', lambda x: '%.4f' % x)

# Silenciar advertencias molestas de versiones futuras
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Entorno Configurado Exitosamente.")
print(f"   - Pandas Version: {pd.__version__}")
print(f"   - XGBoost Version: {xgb.__version__}")
print("   - Estrategia: TimeSeriesSplit cargado.")

‚úÖ Entorno Configurado Exitosamente.
   - Pandas Version: 2.3.3
   - XGBoost Version: 3.1.2
   - Estrategia: TimeSeriesSplit cargado.


## Funci√≥n de Evaluaci√≥n Estandarizada

In [2]:
def train_evaluate_model(model, model_name, X_train, y_train, X_test, y_test):
    """ Entrena el modelo y eval√∫a su desempe√±o en train y test para detectar overfitting.
    
    Args:
        model: Estimador de scikit-learn o xgboost inicializado.
        model_name (str): Nombre identificador.
    
    Returns:
        dict: M√©tricas calculadas.
    """
    
    # 1. Entrenamiento
    print(f"üîÑ Entrenando {model_name}...")
    model.fit(X_train, y_train)
    
    # 2. Predicci√≥n (Train y Test)
    # Predecimos en ambos para medir la brecha (Generalizaci√≥n vs Memorizaci√≥n)
    y_pred_train = model.predict(X_train)
    y_pred_test = model.predict(X_test)
    
    # 3. C√°lculo de M√©tricas
    # RMSE (Root Mean Squared Error): Penaliza cuadr√°ticamente los errores grandes.
    rmse_train = np.sqrt(mean_squared_error(y_train, y_pred_train))
    rmse_test = np.sqrt(mean_squared_error(y_test, y_pred_test))
    
    # MAE (Mean Absolute Error): Error promedio directo (m√°s interpretable).
    mae_test = mean_absolute_error(y_test, y_pred_test)
    
    # R2 (Coeficiente de Determinaci√≥n): Capacidad explicativa de la varianza.
    r2_test = r2_score(y_test, y_pred_test)
    
    # 4. Reporte T√©cnico en Consola
    print(f"\nüìä Resultados para: {model_name}")
    print(f"{'-'*30}")
    print(f"‚Ä¢ RMSE Train: {rmse_train:.4f}")
    print(f"‚Ä¢ RMSE Test:  {rmse_test:.4f}")
    print(f"‚Ä¢ Delta RMSE: {rmse_test - rmse_train:.4f} (Gap de Overfitting)")
    print(f"‚Ä¢ MAE Test:   {mae_test:.4f}")
    print(f"‚Ä¢ R¬≤ Test:    {r2_test:.4f}")
    print(f"{'='*30}\n")
    
    return {
        'Modelo': model_name,
        'RMSE_Test': rmse_test,
        'RMSE_Train': rmse_train,
        'MAE_Test': mae_test,
        'R2_Test': r2_test
    }

# Lista para guardar los resultados del torneo
results_list = []

print("‚úÖ Funci√≥n 'train_evaluate_model' definida. El sistema de arbitraje est√° listo.")

‚úÖ Funci√≥n 'train_evaluate_model' definida. El sistema de arbitraje est√° listo.


**Puntos Clave:**

1. Delta RMSE: Calculamos la diferencia entre el error de entrenamiento y el de prueba. Si este n√∫mero es muy alto, el modelo est√° haciendo Overfitting (memorizando en vez de aprender).

2. M√©trica Dual (RMSE vs MAE): RMSE es m√°s sensible a los valores at√≠picos (picos de consumo), mientras que MAE nos da una idea del error "en el d√≠a a d√≠a".

In [None]:
# --- CELDA 3: FASE 1 - Benchmark (Regresi√≥n Lineal OLS) ---

# 1. Inicializar el modelo base
# Usamos los par√°metros por defecto. No requiere ajuste de hiperpar√°metros.
lr_model = LinearRegression()

# 2. Entrenar y Evaluar usando la funci√≥n del √°rbitro
# Pasamos los datos de Train (Pasado) y Test (Futuro)
print("üèÅ Iniciando Benchmark...")
lr_results = train_evaluate_model(
    model=lr_model,
    model_name="Baseline (Regresi√≥n Lineal)",
    X_train=X_train,
    y_train=y_train,
    X_test=X_test,
    y_test=y_test
)

# 3. Guardar resultados en el tablero del torneo
results_list.append(lr_results)