In [1]:
import pandas as pd
import joblib
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier
import os
import sys # <-- 1. Importamos la librería 'sys'

# --- 2. AÑADIMOS LA DIRECCIÓN DE LA CARPETA PRINCIPAL ---
# '..' significa "subir un nivel de carpeta" (de 'notebooks' a 'predictor_mlb')
# Esto le permite a Python encontrar la carpeta 'src'
sys.path.insert(0, os.path.abspath('..'))

# --- 3. AHORA ESTA LÍNEA FUNCIONARÁ SIN ERRORES ---
from src.feature_engineering import add_pythagorean_expectation

print("--- Fase 1: Mejora del Modelo con Ingeniería de Características ---")

# 1. Cargar el dataset
csv_path = os.path.join('..', 'data', 'historical_game_data_with_features.csv')
df = pd.read_csv(csv_path)
print(f"Dataset original cargado con {df.shape} filas.")

# 2. ¡APLICAR LA INGENIERÍA DE CARACTERÍSTICAS!
# Esta es la línea clave. Tomamos nuestro DataFrame y le añadimos la nueva columna.
df_enhanced = add_pythagorean_expectation(df)
print(f"Dataset mejorado ahora tiene {df_enhanced.shape[1]} columnas.")

# 3. Preparar los datos con la nueva característica
y = df_enhanced['target']
# Ahora incluimos la nueva característica 'pythag_diff' en nuestros datos de entrenamiento 'X'
features_to_use = ['h_team_wins_season', 'h_team_losses_season', 'v_team_wins_season', 'v_team_losses_season', 'pythag_diff']
X = df_enhanced[features_to_use]

print("\nNuevas características para entrenar:")
print(X.columns.tolist())

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 4. Entrenar y Evaluar el NUEVO modelo
print("\nEntrenando nuevo modelo con características mejoradas...")
model_v2 = RandomForestClassifier(n_estimators=100, random_state=42, n_jobs=-1)
model_v2.fit(X_train, y_train)
print("¡Nuevo modelo entrenado!")

predictions_v2 = model_v2.predict(X_test)
new_accuracy = accuracy_score(y_test, predictions_v2)

print("\n" + "="*50)
print(f"  PRECISIÓN ANTERIOR (Línea Base): 0.5585")
print(f"  PRECISIÓN NUEVA (con Expectativa Pitagórica): {new_accuracy:.4f}")
print("="*50)

# Comparamos para ver la mejora
improvement = new_accuracy - 0.5585
print(f"\n¡Mejora de precisión: {improvement:+.2%}!")

# 5. Guardar el modelo mejorado (si quieres reemplazar el anterior)
# assets_dir = os.path.join('..', 'src', 'assets')
# model_path_v2 = os.path.join(assets_dir, 'mlb_model_v2.joblib')
# joblib.dump(model_v2, model_path_v2)
# print(f"Modelo v2 guardado en '{model_path_v2}'")

ModuleNotFoundError: No module named 'src'