In [3]:
import pandas as pd
import joblib
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier # <-- IMPORTANTE: Importamos el modelo a entrenar
import os

print("--- Fase 0: Entrenamiento y Evaluación del Modelo Base ---")

# --- 1. Cargar el Dataset Histórico ---
csv_path = os.path.join('..', 'data', 'historical_game_data_with_features.csv')

try:
    df = pd.read_csv(csv_path)
    print(f"¡Éxito! Se cargó el dataset desde '{csv_path}'.")
    print(f"El dataset tiene {df.shape} partidos y {df.shape[1]} columnas.")
except FileNotFoundError:
    print(f"ERROR: No se pudo encontrar el archivo en '{csv_path}'.")
    print("Asegúrate de que el script 'build_dataset.py' haya terminado correctamente.")

# --- 2. Preparar los Datos para el Modelo ---
if 'df' in locals():
    y = df['target']
    X = df.drop('target', axis=1)
    
    print("\nCaracterísticas (X) que se usarán para entrenar:")
    print(X.columns.tolist())
    
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    print(f"\nDatos divididos en {len(X_train)} para entrenamiento y {len(X_test)} para prueba.")

    # --- 3. ENTRENAR el Modelo RandomForest ---
    print("\nEntrenando el modelo RandomForestClassifier...")
    # Creamos una instancia del modelo. n_estimators=100 es un buen punto de partida.
    model = RandomForestClassifier(n_estimators=100, random_state=42, n_jobs=-1)
    
    # ¡La magia del Machine Learning sucede aquí! El modelo "aprende" de los datos de entrenamiento.
    model.fit(X_train, y_train)
    print("¡Modelo entrenado con éxito!")

    # --- 4. EVALUAR el Modelo ---
    # Usamos el modelo recién entrenado para predecir los resultados en el conjunto de prueba.
    predictions = model.predict(X_test)
    
    # Comparamos las predicciones con los resultados reales para obtener la precisión.
    baseline_accuracy = accuracy_score(y_test, predictions)
    
    print("\n" + "="*50)
    print(f"  PRECISIÓN DE LÍNEA BASE (RandomForest): {baseline_accuracy:.4f}")
    print("="*50)
    print(f"\nEsto significa que nuestro primer modelo acierta el {baseline_accuracy:.2%} de los partidos.")
    print("Este es el número que vamos a mejorar.")

    # --- 5. GUARDAR el Modelo Entrenado ---
    # Primero, nos aseguramos de que la carpeta 'src/assets' exista.
    assets_dir = os.path.join('..', 'src', 'assets')
    if not os.path.exists(assets_dir):
        os.makedirs(assets_dir)
        print(f"\nSe ha creado la carpeta: '{assets_dir}'")

    # Ahora guardamos el modelo en esa carpeta.
    model_path = os.path.join(assets_dir, 'mlb_model.joblib')
    joblib.dump(model, model_path)
    print(f"¡Modelo entrenado y guardado con éxito en '{model_path}'!")
    print("Ahora tu aplicación web podrá cargarlo.")

--- Fase 0: Entrenamiento y Evaluación del Modelo Base ---
¡Éxito! Se cargó el dataset desde '..\data\historical_game_data_with_features.csv'.
El dataset tiene (2476, 5) partidos y 5 columnas.

Características (X) que se usarán para entrenar:
['h_team_wins_season', 'h_team_losses_season', 'v_team_wins_season', 'v_team_losses_season']

Datos divididos en 1980 para entrenamiento y 496 para prueba.

Entrenando el modelo RandomForestClassifier...
¡Modelo entrenado con éxito!

  PRECISIÓN DE LÍNEA BASE (RandomForest): 0.5585

Esto significa que nuestro primer modelo acierta el 55.85% de los partidos.
Este es el número que vamos a mejorar.
¡Modelo entrenado y guardado con éxito en '..\src\assets\mlb_model.joblib'!
Ahora tu aplicación web podrá cargarlo.
