In [2]:
import pandas as pd
from sqlalchemy import create_engine
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
import joblib

# --- 1. CREAR LA CONEXI√ìN (Esto es lo que faltaba) ---
# Recuerda: Usamos el puerto 5435 que configuramos para DBeaver
connection_string = "postgresql://admin:adminpass@localhost:5435/meritocr_ai_db"
engine = create_engine(connection_string)

print("‚úÖ Conexi√≥n establecida.")

# --- 2. CARGAR DATOS ---
# Cargamos solo las columnas que tienen datos reales
sql_query = "SELECT goals, matches_played, xg FROM player_performance_raw"
df = pd.read_sql(sql_query, engine)

# --- 3. LIMPIEZA ---
df_clean = df.dropna()
print(f"‚úÖ Datos cargados: {len(df_clean)} filas.")

# --- 4. ENTRENAMIENTO ---
if len(df_clean) > 0:
    X = df_clean[['goals', 'matches_played']] 
    y = df_clean['xg']

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Entrenar
    model = RandomForestRegressor(n_estimators=10, random_state=42)
    model.fit(X_train, y_train)

    # --- 5. RESULTADO Y GUARDADO ---
    # Si hay muy pocos datos, el score puede ser raro o NaN, pero lo importante es que corra
    score = model.score(X_test, y_test) if len(X_test) > 0 else 0.0
    print(f"üéØ R^2 Score (con datos simulados): {score:.4f}")

    joblib.dump(model, '../models/xg_imputation_model.pkl')
    print("üíæ ¬°Modelo guardado exitosamente en /models/xg_imputation_model.pkl!")
else:
    print("‚ùå Error: La tabla sigue vac√≠a despu√©s de limpiar nulos.")

‚úÖ Conexi√≥n establecida.
‚úÖ Datos cargados: 6 filas.
üéØ R^2 Score (con datos simulados): 0.9200
üíæ ¬°Modelo guardado exitosamente en /models/xg_imputation_model.pkl!
