In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sqlalchemy import create_engine

# 1. CONEXIÓN
connection_string = "postgresql://admin:adminpass@localhost:5435/meritocr_ai_db"
engine = create_engine(connection_string)

# 2. CARGA DE DATOS RAW
# Filtramos jugadores con pocos minutos
MIN_MINUTES = 600 
query = f"SELECT * FROM player_performance_real WHERE minutes_played > {MIN_MINUTES}"
df = pd.read_sql(query, engine)

print(f"✅ Jugadores cargados: {len(df)}")

# 3. INGENIERÍA DE VARIABLES (PER 90)
# Convertimos todo a "Por 90 minutos" para comparar justamente
metrics_to_per90 = [
    'goals', 'assists', 'xg', 'xa', 'npxg',
    'progressive_passes', 'progressive_carries', 'key_passes', 'passes_penalty_area',
    'tackles_total', 'interceptions', 'blocks', 'clearances', 'ball_recoveries'
]

for col in metrics_to_per90:
    if col in df.columns:
        df[f'{col}_p90'] = (df[col] / df['minutes_played']) * 90

# 4. LIMPIEZA DE INFINITOS
df = df.replace([np.inf, -np.inf], 0).fillna(0)

# 5. CONFIGURACIÓN DE Z-SCORES POR ROL
# Aquí está la clave: ¿Qué define ser bueno en cada puesto?

# A. Métricas Ofensivas (Para FW y AM)
metrics_attack = ['goals_p90', 'xg_p90', 'npxg_p90', 'shots_on_target_per_90']

# B. Métricas de Creación (Para MF y Wingers)
metrics_creative = ['assists_p90', 'xa_p90', 'key_passes_p90', 'progressive_passes_p90', 'passes_penalty_area_p90']

# C. Métricas Defensivas (Para DF y DM) - ¡AHORA SÍ TENEMOS ESTO!
metrics_defense = ['tackles_total_p90', 'interceptions_p90', 'blocks_p90', 'clearances_p90', 'ball_recoveries_p90']

# D. Métricas de Portero
metrics_gk = ['save_pct', 'clean_sheet_pct', 'saves'] # (Saves per 90 a veces penaliza a equipos buenos)

# Unimos todas las métricas para iterar
all_metrics = metrics_attack + metrics_creative + metrics_defense
# Filtramos solo las que existen en el DF
all_metrics = [c for c in all_metrics if c in df.columns]

# Función Z-Score
def get_zscore(series):
    if series.std() == 0: return 0
    return (series - series.mean()) / series.std()

df_z = df.copy()

print("Calculando Z-Scores Posicionales...")

# Aplicamos Z-Score a TODO, comparando siempre con (Liga + Posición)
# Un defensa se compara con defensas en Tackles.
for col in all_metrics:
    z_name = f'z_{col}'
    df_z[z_name] = df_z.groupby(['league_id', 'main_position_group'])[col].transform(get_zscore)

# 6. CREACIÓN DE ÍNDICES SINTÉTICOS (Para Nivel 1)
# Creamos resúmenes de calidad por área
# Rellenamos NaN con 0 antes de sumar
z_cols = [c for c in df_z.columns if c.startswith('z_')]
df_z[z_cols] = df_z[z_cols].fillna(0)

# Índice Ofensivo
df_z['score_attack'] = df_z[[c for c in z_cols if 'goal' in c or 'xg' in c]].mean(axis=1)
# Índice Creativo
df_z['score_creative'] = df_z[[c for c in z_cols if 'assist' in c or 'pass' in c or 'xa' in c]].mean(axis=1)
# Índice Defensivo (¡Nuevo!)
df_z['score_defense'] = df_z[[c for c in z_cols if 'tackle' in c or 'interception' in c or 'block' in c or 'recover' in c]].mean(axis=1)

# 7. GUARDAR
table_name = 'player_features_zscores'
df_z.to_sql(table_name, con=engine, if_exists='replace', index=False)
print(f"✅ Tabla maestra '{table_name}' actualizada con métricas defensivas.")

# 8. VISUALIZACIÓN RÁPIDA: LOS MEJORES DEFENSORES
print("Top 5 Defensores (Por Score Defensivo):")
top_def = df_z[df_z['main_position_group'].str.contains('DF', na=False)].sort_values('score_defense', ascending=False).head(5)
print(top_def[['player_name', 'squad', 'score_defense']])