# Exploración inicial de la base de datos

El objetivo de este cuaderno es cargar `Base_Videos_Final.csv` y obtener una primera visión de la calidad y el perfil de sus variables.

In [25]:
import pandas as pd
import numpy as np
pd.set_option('display.max_columns', None)
DATA_PATH = 'Base_Videos_Final.csv'
df = pd.read_csv(DATA_PATH)
print(f'Filas: {df.shape[0]:,} | Columnas: {df.shape[1]}')
df.head()

Filas: 540,300 | Columnas: 30


  df = pd.read_csv(DATA_PATH)


Unnamed: 0,frame_idx,duration,total_frames,video_duration,player_id,player_name,team,zone,ball_position_x,ball_position_y,player_position_x,player_position_y,distance_ball_to_net,distance_player_to_ball_m,distance_player_to_net_m,distance_player_to_teammate_m,player_hits_ball,prev_x,prev_y,player_displacement,player_speed_mps,prev_speed,player_acceleration_mps2,ball_position_x_prev,ball_position_y_prev,ball_displacement,ball_speed_mps,time_since_last_hit,partido,punto
0,0,0.033333,625,20.833333,1,Luis Jorge Garcia Camargo,top,right_box,3.24,17.111111,1.48,1.48,7.111111,13.58119,6.355556,7.41199,False,,,,,,,,,,,,Partido 27,10.0
1,1,0.033333,625,20.833333,1,Luis Jorge Garcia Camargo,top,right_box,3.24,17.111111,1.48,1.48,7.111111,13.58119,6.355556,7.41199,False,1.48,1.48,0.0,0.0,,,,,,,,Partido 27,10.0
2,2,0.033333,625,20.833333,1,Luis Jorge Garcia Camargo,top,right_box,3.24,17.111111,1.48,1.48,7.111111,13.58119,6.355556,7.41199,False,1.48,1.48,0.0,0.0,0.0,0.0,,,,,,Partido 27,10.0
3,3,0.033333,625,20.833333,1,Luis Jorge Garcia Camargo,top,right_box,3.24,17.111111,1.48,1.48,7.111111,13.58119,6.355556,7.3881,False,1.48,1.48,0.0,0.0,0.0,0.0,,,,,,Partido 27,10.0
4,4,0.033333,625,20.833333,1,Luis Jorge Garcia Camargo,top,right_box,3.24,17.111111,1.48,1.48,7.111111,13.58119,6.355556,7.3881,False,1.48,1.48,0.0,0.0,0.0,0.0,,,,,,Partido 27,10.0


## Tipos de dato y conteo de registros no nulos
Cada columna se acompaña de su tipo, la cantidad de valores distintos de nulo y cuántos están perdidos.

In [26]:
variable_profile = (
    df.dtypes.rename('dtype').to_frame()
        .assign(non_nulls=df.count(),
                nulls=lambda t: len(df) - t['non_nulls'])
)
variable_profile

Unnamed: 0,dtype,non_nulls,nulls
frame_idx,int64,540300,0
duration,float64,540300,0
total_frames,int64,540300,0
video_duration,float64,540300,0
player_id,int64,540300,0
player_name,object,519424,20876
team,object,159382,380918
zone,object,540300,0
ball_position_x,float64,540300,0
ball_position_y,float64,540300,0


## Valores nulos
Se contabiliza el total y el porcentaje que representan por columna.

In [27]:
null_summary = (
    df.isna().sum()
      .to_frame('null_count')
      .assign(null_pct=lambda t: (t['null_count'] / len(df) * 100).round(2))
      .sort_values('null_count', ascending=False)
)
null_summary

Unnamed: 0,null_count,null_pct
time_since_last_hit,523939,96.97
team,380918,70.5
distance_player_to_teammate_m,282544,52.29
ball_position_x_prev,109557,20.28
ball_speed_mps,109557,20.28
ball_displacement,109557,20.28
ball_position_y_prev,109557,20.28
punto,20876,3.86
player_name,20876,3.86
player_acceleration_mps2,5208,0.96


## Filas duplicadas
Se detectan filas idénticas en todas las columnas para identificar registros repetidos.

In [28]:
duplicate_mask = df.duplicated()
duplicate_count = duplicate_mask.sum()
print(f'Filas duplicadas: {duplicate_count} ({duplicate_count / len(df) * 100:.2f}% del total)')
df[duplicate_mask].head()

Filas duplicadas: 0 (0.00% del total)


Unnamed: 0,frame_idx,duration,total_frames,video_duration,player_id,player_name,team,zone,ball_position_x,ball_position_y,player_position_x,player_position_y,distance_ball_to_net,distance_player_to_ball_m,distance_player_to_net_m,distance_player_to_teammate_m,player_hits_ball,prev_x,prev_y,player_displacement,player_speed_mps,prev_speed,player_acceleration_mps2,ball_position_x_prev,ball_position_y_prev,ball_displacement,ball_speed_mps,time_since_last_hit,partido,punto


## Descripción estadística de las variables
Se obtiene una visión general de la distribución de cada variable (numérica y categórica).

In [29]:
description = df.describe(include='all').transpose()
description

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
frame_idx,540300.0,,,,236.541947,208.280158,0.0,88.0,181.0,325.0,1349.0
duration,540300.0,,,,0.024876,0.00832,0.016667,0.016667,0.016773,0.033333,0.033333
total_frames,540300.0,,,,471.026461,273.626478,72.0,278.0,420.0,597.0,1350.0
video_duration,540300.0,,,,11.333344,7.086376,1.2,6.566667,9.15,14.833333,42.7
player_id,540300.0,,,,14.085208,44.588668,1.0,2.0,3.0,7.0,825.0
player_name,519424.0,331.0,María José Cifuentes,18532.0,,,,,,,
team,159382.0,2.0,bottom,81394.0,,,,,,,
zone,540300.0,3.0,left_box,224013.0,,,,,,,
ball_position_x,540300.0,,,,4.239575,2.549286,0.56,2.2,3.52,6.2,23.12
ball_position_y,540300.0,,,,10.316255,4.537078,0.311111,6.488889,10.622222,13.866667,27.688889


# Limpieza de Datos

En este apartado realizamos una limpieza sistemática del dataset orientada a mejorar la calidad, consistencia temporal y coherencia física de todas las variables derivadas.

## Estrategia de limpieza

1. **Conservación de columnas correctamente observadas**
   Las variables completas y sin problemas de captura se mantienen sin modificaciones.

2. **Eliminación de filas con `player_name` o `punto` faltantes**
   Estas filas (~3.86%) no pueden asociarse a un jugador o a una secuencia válida dentro del punto, por lo que se descartan.

3. **Eliminación de columnas con exceso de valores faltantes**

   * `team`: 70.50% faltantes → se elimina por imposibilidad de reconstrucción confiable.
   * `distance_player_to_teammate_m`: depende directamente de `team` → se elimina.
   * `time_since_last_hit` (original): 96.97% faltantes → se elimina; será recalculada correctamente.

4. **Reconstrucción de variables derivadas del jugador y la pelota**

   * Se ordenan las secuencias por (`player_id`, `partido`, `punto`, `frame_idx`) o (`partido`, `punto`, `frame_idx`) para preservar coherencia temporal.
   * Las variables previas (`prev_x`, `prev_y`, `prev_speed`, y sus equivalentes para la pelota) se recalculan usando el **frame anterior** mediante `shift(1)`.
   * Se recomputan desplazamientos, velocidades y aceleraciones para asegurar consistencia física.
   * En el primer frame de cada grupo, los valores previos se igualan a los valores actuales para evitar valores no definidos.

5. **Suavizado ligero de la trayectoria de la pelota**
   Se aplica una mediana móvil de ventana 3 que reduce saltos espurios del tracking sin afectar la dinámica real del movimiento.

6. **Recálculo de `time_since_last_hit`**
   Se utiliza un método vectorizado:

   * Se calcula el tiempo acumulado por frame (`cumsum(duration)`).
   * Se identifican los frames con golpe y se propaga hacia atrás el último instante de golpe (`ffill`).
   * `time_since_last_hit` se define como la diferencia entre el tiempo acumulado actual y el último golpe.
     Esto resetea correctamente el tiempo en cada golpe y acumula entre golpes de forma consistente.



## Paso 1: Crear una copia del DataFrame original

In [30]:
# Crear copia para no modificar el DataFrame original
df_clean = df.copy()
print(f'DataFrame inicial: {df_clean.shape[0]:,} filas x {df_clean.shape[1]} columnas')

DataFrame inicial: 540,300 filas x 30 columnas


## Paso 2: Eliminar filas con player_name o punto faltantes

**Justificación**: Estas variables son identificadores clave para las secuencias de juego. Sin ellas no podemos agrupar correctamente las trayectorias ni identificar a qué punto pertenece cada observación. Representan solo el 3.86% del total, por lo que su eliminación no afecta significativamente al tamaño muestral.

In [31]:
# Eliminar filas con player_name o punto faltantes
filas_antes = len(df_clean)
df_clean = df_clean.dropna(subset=['player_name', 'punto'])
filas_despues = len(df_clean)

print(f'Filas eliminadas: {filas_antes - filas_despues:,} ({(filas_antes - filas_despues)/filas_antes*100:.2f}%)')
print(f'Filas restantes: {filas_despues:,}')

Filas eliminadas: 20,876 (3.86%)
Filas restantes: 519,424


## Paso 3: Eliminar columnas con exceso de valores faltantes

**Justificación**:
- **team** (70.50% faltantes): No se puede reconstruir con confianza, y falta en la mayoría de observaciones
- **distance_player_to_teammate_m** (52.29% faltantes): Derivada de `team`, por lo que hereda su problema de calidad
- **time_since_last_hit** (96.97% faltantes): La recalcularemos correctamente usando `player_hits_ball` y `frame_idx`

In [32]:
# Eliminar columnas problemáticas
columnas_a_eliminar = ['team', 'distance_player_to_teammate_m', 'time_since_last_hit']
df_clean = df_clean.drop(columns=columnas_a_eliminar)

print(f'Columnas eliminadas: {len(columnas_a_eliminar)}')
print(f'Columnas restantes: {df_clean.shape[1]}')
print(f'\nColumnas eliminadas: {columnas_a_eliminar}')

Columnas eliminadas: 3
Columnas restantes: 27

Columnas eliminadas: ['team', 'distance_player_to_teammate_m', 'time_since_last_hit']


## Paso 4: Identificar variables derivadas con valores faltantes

Las siguientes variables tienen valores faltantes debido a que se calculan a partir de diferencias temporales o frames previos. En el primer frame de cada secuencia (jugador-partido-punto) no existe un frame anterior, por lo que aparecen como faltantes.

In [33]:
# Verificar valores faltantes actuales
columnas_derivadas = [
    'prev_x', 'prev_y', 'player_displacement', 'player_speed_mps',
    'prev_speed', 'player_acceleration_mps2',
    'ball_position_x_prev', 'ball_position_y_prev', 'ball_displacement', 'ball_speed_mps'
]

print('Variables derivadas con valores faltantes:')
for col in columnas_derivadas:
    if col in df_clean.columns:
        n_null = df_clean[col].isna().sum()
        pct_null = n_null / len(df_clean) * 100
        print(f'  {col}: {n_null:,} ({pct_null:.2f}%)')

Variables derivadas con valores faltantes:
  prev_x: 2,652 (0.51%)
  prev_y: 2,652 (0.51%)
  player_displacement: 2,652 (0.51%)
  player_speed_mps: 2,652 (0.51%)
  prev_speed: 5,087 (0.98%)
  player_acceleration_mps2: 5,087 (0.98%)
  ball_position_x_prev: 104,332 (20.09%)
  ball_position_y_prev: 104,332 (20.09%)
  ball_displacement: 104,332 (20.09%)
  ball_speed_mps: 104,332 (20.09%)


## Paso 5: Rellenar variables derivadas de posición del jugador

**Estrategia**

- Ordenar cada secuencia por (player_id, partido, punto, frame_idx).

- Reconstruir prev_x, prev_y y prev_speed usando el frame anterior (shift(1)), no el siguiente.

**Justificación**

- El uso de shift(1) respeta la causalidad temporal y genera variables físicamente coherentes.

In [34]:
# 1) Aseguramos orden temporal global
df_clean = df_clean.sort_values(['player_id', 'partido', 'punto', 'frame_idx']).reset_index(drop=True)

def fill_player_derived_variables(group):
    """
    Recalcula variables derivadas del jugador usando el frame anterior
    dentro de cada secuencia (player_id, partido, punto).
    """
    # Por seguridad, reordenamos por frame_idx dentro del grupo
    group = group.sort_values('frame_idx').copy()
    
    # --- 1. prev_x y prev_y a partir de la posición anterior ---
    group['prev_x'] = group['player_position_x'].shift(1)
    group['prev_y'] = group['player_position_y'].shift(1)
    
    # Para el primer frame del grupo (sin frame anterior),
    # asumimos que estaba en la misma posición que el frame actual
    mask_first = group['prev_x'].isna()
    group.loc[mask_first, 'prev_x'] = group.loc[mask_first, 'player_position_x']
    group.loc[mask_first, 'prev_y'] = group.loc[mask_first, 'player_position_y']
    
    # --- 2. Desplazamiento del jugador ---
    group['player_displacement'] = np.sqrt(
        (group['player_position_x'] - group['prev_x'])**2 +
        (group['player_position_y'] - group['prev_y'])**2
    )
    
    # --- 3. Velocidad del jugador (m/s) ---
    duration_safe = group['duration'].replace(0, np.nan)
    group['player_speed_mps'] = group['player_displacement'] / duration_safe
    group['player_speed_mps'] = group['player_speed_mps'].fillna(0)
    
    # --- 4. Velocidad previa (frame anterior) ---
    group['prev_speed'] = group['player_speed_mps'].shift(1)
    group['prev_speed'] = group['prev_speed'].fillna(group['player_speed_mps'])
    
    # --- 5. Aceleración del jugador (m/s^2) ---
    group['player_acceleration_mps2'] = (
        (group['player_speed_mps'] - group['prev_speed']) / duration_safe
    )
    group['player_acceleration_mps2'] = group['player_acceleration_mps2'].fillna(0)
    
    return group

print('Recalculando variables derivadas del jugador por grupo (player_id, partido, punto)...')
df_clean = df_clean.groupby(['player_id', 'partido', 'punto'], group_keys=False).apply(fill_player_derived_variables)

print('\nValores faltantes después del recalculo (variables del jugador):')
for col in ['prev_x', 'prev_y', 'player_displacement', 'player_speed_mps', 'prev_speed', 'player_acceleration_mps2']:
    n_null = df_clean[col].isna().sum()
    print(f'  {col}: {n_null:,}')

Recalculando variables derivadas del jugador por grupo (player_id, partido, punto)...

Valores faltantes después del recalculo (variables del jugador):
  prev_x: 0
  prev_y: 0
  player_displacement: 0
  player_speed_mps: 0
  prev_speed: 0
  player_acceleration_mps2: 0


## Paso 6: Rellenar variables derivadas de posición de la pelota


**Estrategia**

- Ordenar cada punto por frame_idx.

- Aplicar un suavizado ligero (mediana móvil ventana 3) a la trayectoria de la pelota.

- Calcular ball_position_x_prev y ball_position_y_prev con shift(1) sobre posiciones suavizadas.

**Justificación**

- El suavizado elimina saltos falsos típicos del tracking de pelota.

In [35]:
def fill_ball_derived_variables(group):
    """
    Recalcula variables derivadas de la pelota dentro de cada punto.
    Incluye un suavizado ligero para reducir ruido en la trayectoria.
    """
    group = group.sort_values('frame_idx').copy()
    
    # --- (Opcional pero MUY útil) Suavizar la trayectoria de la pelota ---
    # Rolling median con ventana 3, centrada:
    group['ball_position_x_smooth'] = (
        group['ball_position_x']
        .rolling(window=3, center=True, min_periods=1)
        .median()
    )
    group['ball_position_y_smooth'] = (
        group['ball_position_y']
        .rolling(window=3, center=True, min_periods=1)
        .median()
    )
    
    # Usamos las posiciones suavizadas para calcular el "prev"
    x = group['ball_position_x_smooth']
    y = group['ball_position_y_smooth']
    
    group['ball_position_x_prev'] = x.shift(1)
    group['ball_position_y_prev'] = y.shift(1)
    
    # Para el primer frame del punto, usar la misma posición
    mask_first = group['ball_position_x_prev'].isna()
    group.loc[mask_first, 'ball_position_x_prev'] = group.loc[mask_first, 'ball_position_x_smooth']
    group.loc[mask_first, 'ball_position_y_prev'] = group.loc[mask_first, 'ball_position_y_smooth']
    
    # --- Desplazamiento de la pelota (a partir de posiciones suavizadas) ---
    group['ball_displacement'] = np.sqrt(
        (group['ball_position_x_smooth'] - group['ball_position_x_prev'])**2 +
        (group['ball_position_y_smooth'] - group['ball_position_y_prev'])**2
    )
    
    # --- Velocidad de la pelota (m/s) ---
    duration_safe = group['duration'].replace(0, np.nan)
    group['ball_speed_mps'] = group['ball_displacement'] / duration_safe
    group['ball_speed_mps'] = group['ball_speed_mps'].fillna(0)
    
    return group

print('Recalculando variables derivadas de la pelota por grupo (partido, punto)...')
df_clean = df_clean.groupby(['partido', 'punto'], group_keys=False).apply(fill_ball_derived_variables)

print('\nValores faltantes después del recalculo (variables de la pelota):')
for col in ['ball_position_x_prev', 'ball_position_y_prev', 'ball_displacement', 'ball_speed_mps']:
    n_null = df_clean[col].isna().sum()
    print(f'  {col}: {n_null:,}')


Recalculando variables derivadas de la pelota por grupo (partido, punto)...

Valores faltantes después del recalculo (variables de la pelota):
  ball_position_x_prev: 0
  ball_position_y_prev: 0
  ball_displacement: 0
  ball_speed_mps: 0


## Paso 7: Recalcular time_since_last_hit

**Estrategia**

- Ordenar cada secuencia por frame_idx.

- Calcular el tiempo acumulado total (cumsum(duration)).

- Marcar los instantes donde hubo golpe y propagar hacia atrás el último golpe (ffill).

- Definir time_since_last_hit como la diferencia entre el tiempo acumulado actual y el último instante de golpe.

**Justificación**

- Este método es totalmente vectorizado y evita ciclos o manejo manual de índices.

- Resetea correctamente el contador en cada golpe y acumula tiempo entre golpes.

- Funciona incluso cuando no hay golpes (acumula desde el inicio) y mantiene consistencia física.

In [36]:
def calculate_time_since_last_hit(group):
    """
    Tiempo transcurrido desde el último golpe de ESTE jugador
    dentro del punto: se acumulan los 'duration' y se resetea al golpear.
    """
    group = group.sort_values('frame_idx').copy()
    
    # Acumulado total de tiempo
    cum_time = group['duration'].cumsum()
    
    # En qué instantes acumulados hubo golpe
    hit_cum = cum_time.where(group['player_hits_ball'] == 1)
    
    # Último instante acumulado en que hubo golpe (hacia atrás)
    last_hit_cum = hit_cum.ffill().fillna(0)
    
    # Diferencia = tiempo desde el último golpe
    group['time_since_last_hit'] = cum_time - last_hit_cum
    
    return group

print('Recalculando time_since_last_hit por grupo (player_id, partido, punto)...')
df_clean = df_clean.groupby(['player_id', 'partido', 'punto'], group_keys=False).apply(calculate_time_since_last_hit)


Recalculando time_since_last_hit por grupo (player_id, partido, punto)...


## Paso 8: Verificación final de la limpieza

In [37]:
# Resumen de valores faltantes después de la limpieza
print('='*70)
print('RESUMEN DE LIMPIEZA DE DATOS')
print('='*70)

null_summary_clean = (
    df_clean.isna().sum()
      .to_frame('null_count')
      .assign(null_pct=lambda t: (t['null_count'] / len(df_clean) * 100).round(2))
      .sort_values('null_count', ascending=False)
)

print(f'\nDimensiones finales: {df_clean.shape[0]:,} filas x {df_clean.shape[1]} columnas')
print(f'\nColumnas con valores faltantes:')
print(null_summary_clean[null_summary_clean['null_count'] > 0])

print(f'\n\nTotal de valores faltantes en todo el dataset: {df_clean.isna().sum().sum():,}')
print(f'Porcentaje de completitud: {(1 - df_clean.isna().sum().sum() / (df_clean.shape[0] * df_clean.shape[1])) * 100:.2f}%')

RESUMEN DE LIMPIEZA DE DATOS

Dimensiones finales: 519,424 filas x 30 columnas

Columnas con valores faltantes:
Empty DataFrame
Columns: [null_count, null_pct]
Index: []


Total de valores faltantes en todo el dataset: 0
Porcentaje de completitud: 100.00%


Valores imposibles físicamente

In [38]:
# 1) Revisión rápida de variables clave (ajusta la lista si quieres)
key_vars = [
    'player_speed_mps',
    'player_acceleration_mps2',
    'player_displacement',
    'ball_speed_mps',
    'ball_displacement',
    'player_distance_teammate_m',
    'distance_ball_to_net',
    'distance_player_to_ball_m',
    'distance_player_to_net_m',
    'time_since_last_hit',
]

existing_key_vars = [c for c in key_vars if c in df_clean.columns]
print(df_clean[existing_key_vars].describe(percentiles=[0.95, 0.99, 0.995]))

       player_speed_mps  player_acceleration_mps2  player_displacement  \
count     519424.000000             519424.000000        519424.000000   
mean           1.616743                  0.613894             0.039172   
std           13.005417                907.268262             0.296576   
min            0.000000             -44598.638903             0.000000   
50%            0.000000                  0.000000             0.000000   
95%            3.394113                203.646753             0.113137   
99%           13.576450                407.293506             0.395980   
99.5%         37.335238               1018.233765             1.018234   
max          743.310648              44394.992150            17.988797   

       ball_speed_mps  ball_displacement  distance_ball_to_net  \
count   519424.000000      519424.000000         519424.000000   
mean         1.651831           0.035347              4.022256   
std         16.525418           0.333715              2.20264

In [39]:
# 2) Definir límites físicos (ajústalos si lo ves necesario)
phys_limits = {
    # Jugador
    'player_speed_mps': (0, 8),           # m/s
    'player_acceleration_mps2': (-10, 10),# m/s^2
    'player_displacement': (0, 1.5),      # m por frame
    
    # Pelota
    'ball_speed_mps': (0, 40),            # m/s
    'ball_displacement': (0, 8),          # m por frame
    
    # Distancias (en metros, aprox. dimensiones de pista de pádel)
    'distance_ball_to_net': (0, 15),
    'distance_player_to_ball_m': (0, 25),
    'distance_player_to_net_m': (0, 15),
    'player_distance_teammate_m': (0, 25),
}


# 3) Función para añadir banderas de outliers físicos y estadísticos
def add_outlier_flags(df, phys_limits, stat_q_low=0.001, stat_q_high=0.999):
    df = df.copy()
    
    # --- Outliers físicos ---
    phys_flag_cols = []
    for col, (low, high) in phys_limits.items():
        if col in df.columns:
            flag_col = f'out_phys_{col}'
            df[flag_col] = (df[col] < low) | (df[col] > high)
            phys_flag_cols.append(flag_col)
    
    if phys_flag_cols:
        df['out_any_physical'] = df[phys_flag_cols].any(axis=1)
    else:
        df['out_any_physical'] = False  # por si no existe ninguna
    
    # Outlier general (físico o estadístico)
    df['out_any'] = df['out_any_physical'] 
    
    return df


In [40]:

df_clean = add_outlier_flags(df_clean, phys_limits)

print("\nResumen de banderas de outliers:")
flag_cols = [c for c in df_clean.columns if c.startswith('out_')]
print(df_clean[flag_cols].sum())


Resumen de banderas de outliers:
out_phys_player_speed_mps               9238
out_phys_player_acceleration_mps2     179788
out_phys_player_displacement            1994
out_phys_ball_speed_mps                 3841
out_phys_ball_displacement               223
out_phys_distance_ball_to_net            142
out_phys_distance_player_to_ball_m         1
out_phys_distance_player_to_net_m         40
out_any_physical                      182947
out_any                               182947
dtype: int64


In [41]:
# 5) filtrar a nivel de frame (más conservador)
n_before = len(df_clean)

# Si tienes 'frame_seq_ok' de la validación de continuidad, la usamos; si no, todo True
if 'frame_seq_ok' in df_clean.columns:
    mask_cont = df_clean['frame_seq_ok']
else:
    mask_cont = np.ones(len(df_clean), dtype=bool)

mask_frames_ok = (~df_clean['out_any']) & mask_cont

df_clean_frames = df_clean[mask_frames_ok].copy()
n_after_frames = len(df_clean_frames)

print(f"\nFrames eliminados (outliers físicos): {n_before - n_after_frames:,}")
print(f"Frames restantes (df_clean_frames): {n_after_frames:,}")


Frames eliminados (outliers físicos): 182,947
Frames restantes (df_clean_frames): 336,477


## Paso 9: Guardar el dataset limpio

In [42]:
# Guardar el dataset limpio
OUTPUT_PATH = 'Base_Videos_Clean.csv'
df_clean_frames.to_csv(OUTPUT_PATH, index=False)
print(f'Dataset limpio guardado en: {OUTPUT_PATH}')
print(f'Tamaño del archivo: {df_clean_frames.memory_usage(deep=True).sum() / 1024**2:.2f} MB en memoria')

Dataset limpio guardado en: Base_Videos_Clean.csv
Tamaño del archivo: 134.49 MB en memoria



# Feature Engineering + Simulación (Resultados Reales)

Se sustituye el flujo para usar la verdad de `Tabla_Partidos_Agrupada.csv`, generar features de video por jugador-partido, entrenar el modelo con el resultado real del equipo y simular un torneo individual vía Monte Carlo.


## Guía rápida de limpieza y feature engineering (bloque actual)

1. **Ground truth de partidos**: carga `Tabla_Partidos_Agrupada.csv`, normaliza nombres, calcula `ganador_equipo` y genera `df_match_outcomes` en formato largo (jugador-partido, `target_real`).
2. **Limpieza de tracking**: usa `Base_Videos_Clean.csv`, normaliza nombres/partidos y filtra combos jugador-partido con < 1000 frames para eliminar ruido.
3. **Agregación de métricas**: agrupa por jugador-partido y calcula distancias, velocidades, potencia media, % en red, golpes totales (`video_*`).
4. **Merge crítico**: une `video_metrics` con `df_match_outcomes` para crear `df_master` con target binario real (`target_real`).
5. **Modelo**: entrena XGBoost con features de video y añade `prob_victoria` por fila; promedia por jugador (`prob_modelo`).
6. **Simulación Monte Carlo**: usa las probabilidades por jugador como fuerza relativa, simula un bracket simple (top 8 con más datos) y entrega ranking de probabilidad de campeonato.


In [43]:
import pandas as pd
import numpy as np
import re
import unicodedata
from pathlib import Path
import xgboost as xgb
from sklearn.model_selection import StratifiedKFold, cross_val_score

pd.set_option('display.max_columns', None)

# --- Normalización de texto ---
def normalizar_nombre(nombre):
    # Limpia nombres para alinear video y ground truth
    if pd.isna(nombre):
        return "unknown"
    texto = str(nombre).lower().strip()
    texto = ''.join(c for c in unicodedata.normalize('NFD', texto) if unicodedata.category(c) != 'Mn')
    texto = re.sub(r'[^a-z0-9\s]', ' ', texto)
    texto = re.sub(r'\s+', ' ', texto).strip()
    return texto or "unknown"


def normalizar_partido(texto):
    # Extrae el número de partido (o texto limpio si no hay dígitos)
    if pd.isna(texto):
        return ""
    valor = str(texto).lower().strip()
    nums = re.findall(r'\d+', valor)
    return nums[0] if nums else valor


# --- Agregadores de métricas de video ---
def count_hits(x):
    return x.sum()


def pct_red(x):
    return (x < 3).mean() * 100


def mean_positive(x):
    positivos = x[x > 0]
    return positivos.mean() if len(positivos) else 0


# --- Configuración ---
MIN_FRAMES_PER_PLAYER = 1000


In [44]:
# PASO 1: Procesamiento de Resultados Reales de Partidos

import unicodedata
import re
import pandas as pd
import numpy as np

print("="*60)
print("PASO 1: CARGA DE RESULTADOS REALES DE PARTIDOS")
print("="*60)

# Función de normalización (reutilizada)
def normalizar_nombre(texto):
    if pd.isna(texto):
        return "unknown"
    texto = str(texto).lower().strip()
    # Eliminar acentos
    texto = ''.join(c for c in unicodedata.normalize('NFD', texto) if unicodedata.category(c) != 'Mn')
    # Eliminar caracteres especiales
    texto = re.sub(r'[^a-z\s]', '', texto)
    # Eliminar espacios múltiples
    texto = re.sub(r'\s+', ' ', texto).strip()
    return texto

# Cargar tabla de partidos
try:
    df_matches = pd.read_csv('Tabla_Partidos_Agrupada.csv')
    print(f"\n✓ Cargados {len(df_matches)} partidos")
except FileNotFoundError:
    print("Error: No se encontró Tabla_Partidos_Agrupada.csv")
    # Crear dummy para evitar crash si no existe
    df_matches = pd.DataFrame(columns=['ID_PARTIDO', 'ID_JUGADOR_1_EQUIPO_1', 'ID_JUGADOR_2_EQUIPO_1', 
                                     'Suma de PUNTO_EQUIPO_1', 'ID_JUGADOR_1_EQUIPO_2', 
                                     'ID_JUGADOR_2_EQUIPO_2', 'Suma de PUNTO_EQUIPO_2'])

# Normalizar nombres de jugadores
player_cols = [
    'ID_JUGADOR_1_EQUIPO_1',
    'ID_JUGADOR_2_EQUIPO_1',
    'ID_JUGADOR_1_EQUIPO_2',
    'ID_JUGADOR_2_EQUIPO_2'
]

for col in player_cols:
    if col in df_matches.columns:
        df_matches[f'{col}_clean'] = df_matches[col].apply(normalizar_nombre)

# Determinar ganador
def get_winner(row):
    score_1 = row.get('Suma de PUNTO_EQUIPO_1', 0)
    score_2 = row.get('Suma de PUNTO_EQUIPO_2', 0)
    
    if pd.isna(score_1) or pd.isna(score_2):
        return None
    
    if score_1 > score_2:
        return 1
    elif score_2 > score_1:
        return 2
    else:
        return 0  # Empate

if not df_matches.empty:
    df_matches['ganador_equipo'] = df_matches.apply(get_winner, axis=1)

    print(f"\n✓ Resultados:")
    print(f"  Equipo 1 ganó: {(df_matches['ganador_equipo'] == 1).sum()} partidos")
    print(f"  Equipo 2 ganó: {(df_matches['ganador_equipo'] == 2).sum()} partidos")
    print(f"  Empates:       {(df_matches['ganador_equipo'] == 0).sum()} partidos (excluidos)")

    # Excluir empates e inválidos
    df_matches = df_matches[df_matches['ganador_equipo'].isin([1, 2])].copy()

# Transformar de wide a long (un registro por jugador-partido)
records = []

if not df_matches.empty:
    for _, row in df_matches.iterrows():
        partido = str(row['ID_PARTIDO'])
        ganador = row['ganador_equipo']
        puntos_eq1 = row['Suma de PUNTO_EQUIPO_1']
        puntos_eq2 = row['Suma de PUNTO_EQUIPO_2']
        
        # Jugadores Equipo 1
        for col in ['ID_JUGADOR_1_EQUIPO_1_clean', 'ID_JUGADOR_2_EQUIPO_1_clean']:
            if col in row:
                player = row[col]
                if player != 'unknown':
                    records.append({
                        'partido': partido,
                        'player_name_clean': player,
                        'target_real': 1 if ganador == 1 else 0,
                        'puntos_equipo': puntos_eq1,
                        'puntos_rival': puntos_eq2
                    })
        
        # Jugadores Equipo 2
        for col in ['ID_JUGADOR_1_EQUIPO_2_clean', 'ID_JUGADOR_2_EQUIPO_2_clean']:
            if col in row:
                player = row[col]
                if player != 'unknown':
                    records.append({
                        'partido': partido,
                        'player_name_clean': player,
                        'target_real': 1 if ganador == 2 else 0,
                        'puntos_equipo': puntos_eq2,
                        'puntos_rival': puntos_eq1
                    })

df_match_outcomes = pd.DataFrame(records)

print(f"\n✓ Tabla de resultados creada:")
print(f"  Total registros: {len(df_match_outcomes)}")
if not df_match_outcomes.empty:
    print(f"  Partidos únicos: {df_match_outcomes['partido'].nunique()}")
    print(f"  Jugadores únicos: {df_match_outcomes['player_name_clean'].nunique()}")
    print(f"  Balance victorias: {df_match_outcomes['target_real'].mean():.1%}")
print("="*60)


PASO 1: CARGA DE RESULTADOS REALES DE PARTIDOS

✓ Cargados 24 partidos

✓ Resultados:
  Equipo 1 ganó: 9 partidos
  Equipo 2 ganó: 13 partidos
  Empates:       2 partidos (excluidos)

✓ Tabla de resultados creada:
  Total registros: 85
  Partidos únicos: 22
  Jugadores únicos: 34
  Balance victorias: 49.4%


In [45]:
# PASO 2: Feature Engineering con Resultados Reales

print("\n" + "="*60)
print("PASO 2: FEATURE ENGINEERING (Video + Resultados Reales)")
print("="*60)

# Cargar datos de video (reutilizar lógica existente)
try:
    if 'df_clean_frames' in locals() or 'df_clean_frames' in globals():
        df_videos = df_clean_frames.copy()
        print("Usando df_clean_frames de memoria.")
    else:
        df_videos = pd.read_csv('Base_Videos_Clean.csv')
        print("Cargado Base_Videos_Clean.csv")
except Exception as e:
    print(f"Error cargando datos: {e}")
    # Fallback si no existe en memoria ni archivo
    if 'df_videos' not in locals():
         df_videos = pd.DataFrame()

if not df_videos.empty:
    # Normalizar nombres
    if 'player_name' in df_videos.columns:
        df_videos['player_name_clean'] = df_videos['player_name'].apply(normalizar_nombre)

    # Normalizar ID de partido
    def normalizar_partido(texto):
        texto = str(texto).lower().strip()
        nums = re.findall(r'\d+', texto)
        if nums:
            return nums[0]
        return texto

    if 'partido' in df_videos.columns:
        df_videos['partido'] = df_videos['partido'].apply(normalizar_partido)

    # Filtro de ruido: Eliminar combinaciones jugador-partido con < 1000 frames
    frame_counts = df_videos.groupby(['partido', 'player_name_clean']).size()
    valid_combos = frame_counts[frame_counts >= 1000].index
    df_videos = df_videos.set_index(['partido', 'player_name_clean']).loc[valid_combos].reset_index()

    print(f"\n✓ Después de filtro de ruido (>1000 frames): {len(df_videos)} frames")

    # Agregar métricas de video (por partido + jugador)
    def count_hits(x):
        return x.sum()

    def pct_net(x):
        return (x < 3).mean() * 100

    # Asegurar que las columnas existen
    agg_dict = {}
    if 'player_displacement' in df_videos.columns: agg_dict['player_displacement'] = 'sum'
    if 'player_speed_mps' in df_videos.columns: agg_dict['player_speed_mps'] = ['max', 'mean']
    if 'player_acceleration_mps2' in df_videos.columns: agg_dict['player_acceleration_mps2'] = lambda x: x[x > 0].mean()
    if 'distance_player_to_net_m' in df_videos.columns: agg_dict['distance_player_to_net_m'] = pct_net
    if 'player_hits_ball' in df_videos.columns: agg_dict['player_hits_ball'] = count_hits

    video_metrics = df_videos.groupby(['partido', 'player_name_clean']).agg(agg_dict).reset_index()

    # Aplanar columnas
    new_cols = ['partido', 'player_name_clean']
    if 'player_displacement' in agg_dict: new_cols.append('video_distancia_total_m')
    if 'player_speed_mps' in agg_dict: 
        new_cols.append('video_velocidad_max')
        new_cols.append('video_velocidad_media')
    if 'player_acceleration_mps2' in agg_dict: new_cols.append('video_potencia_media')
    if 'distance_player_to_net_m' in agg_dict: new_cols.append('video_pct_red')
    if 'player_hits_ball' in agg_dict: new_cols.append('video_golpes_totales')
    
    video_metrics.columns = new_cols

    if 'video_potencia_media' in video_metrics.columns:
        video_metrics['video_potencia_media'] = video_metrics['video_potencia_media'].fillna(0)

    print(f"\n✓ Métricas de video calculadas: {len(video_metrics)} registros")

    # MERGE CRUCIAL: Unir con resultados reales
    print("\n⚠️ CAMBIO IMPORTANTE: Ahora usando TARGET_REAL (victoria del equipo)")
    print("   Antes: target = puntos > promedio (CONCEPTUALMENTE INCORRECTO)")
    print("   Ahora: target_real = equipo ganó el partido (CORRECTO)\n")

    df_master = video_metrics.merge(
        df_match_outcomes,
        on=['partido', 'player_name_clean'],
        how='inner'  # Solo partidos con resultado conocido
    )

    print(f"✓ Después del merge con resultados reales:")
    print(f"  Registros: {len(df_master)}")
    print(f"  Partidos: {df_master['partido'].nunique()}")
    print(f"  Jugadores: {df_master['player_name_clean'].nunique()}")

    # Merge con datos de jugadores (encuesta)
    try:
        df_jugadores = pd.read_excel('Datos_Jugadores_Padel.xlsx')
        df_jugadores.rename(columns={df_jugadores.columns[0]: 'nombre_raw_info'}, inplace=True)
        df_jugadores['player_name_clean'] = df_jugadores['nombre_raw_info'].apply(normalizar_nombre)
        
        df_master = df_master.merge(df_jugadores, on='player_name_clean', how='left')
        print(f"\n✓ Merge con datos de jugadores completado")
    except Exception as e:
        print(f"⚠️ No se pudo cargar datos de jugadores: {e}")

    print("\n" + "="*60)
    print("✓ FEATURE ENGINEERING COMPLETADO")
    print("="*60)
    print(f"\nDataset final: {df_master.shape}")
    print(f"Columnas: {list(df_master.columns[:10])}...")
else:
    print("Error: No hay datos de video para procesar.")



PASO 2: FEATURE ENGINEERING (Video + Resultados Reales)
Usando df_clean_frames de memoria.

✓ Después de filtro de ruido (>1000 frames): 319653 frames

✓ Métricas de video calculadas: 107 registros

⚠️ CAMBIO IMPORTANTE: Ahora usando TARGET_REAL (victoria del equipo)
   Antes: target = puntos > promedio (CONCEPTUALMENTE INCORRECTO)
   Ahora: target_real = equipo ganó el partido (CORRECTO)

✓ Después del merge con resultados reales:
  Registros: 47
  Partidos: 14
  Jugadores: 30

✓ Merge con datos de jugadores completado

✓ FEATURE ENGINEERING COMPLETADO

Dataset final: (47, 38)
Columnas: ['partido', 'player_name_clean', 'video_distancia_total_m', 'video_velocidad_max', 'video_velocidad_media', 'video_potencia_media', 'video_pct_red', 'video_golpes_totales', 'target_real', 'puntos_equipo']...


In [None]:
# PASO 3: ENTRENAMIENTO DEL MODELO (XGBoost)

import xgboost as xgb
from sklearn.model_selection import StratifiedKFold, cross_val_score
from sklearn.metrics import roc_auc_score

print("="*60)
print("PASO 3: ENTRENAMIENTO DEL MODELO (XGBoost)")
print("="*60)

if 'df_master' in locals() and not df_master.empty:
    # Definir Features (solo video)
    features_video = [c for c in df_master.columns if c.startswith('video_')]

    # CAMBIO CRÍTICO: Usar target_real (victoria del equipo)
    X = df_master[features_video]
    y = df_master['target_real']

    print(f"\n✓ Features: {features_video}")
    print(f"✓ Target: target_real (1 = equipo ganó, 0 = equipo perdió)")
    print(f"\nDistribución del target:")
    print(y.value_counts())
    print(f"Balance: {y.mean():.1%} victorias")

    # Configuración del modelo
    model = xgb.XGBClassifier(
        max_depth=3,
        n_estimators=50,
        learning_rate=0.1,
        eval_metric='logloss',
        use_label_encoder=False,
        random_state=42
    )

    # Validación Cruzada
    try:
        cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
        cv_scores = cross_val_score(model, X, y, cv=cv, scoring='roc_auc')
        print(f"\n✓ AUC-ROC Promedio (CV=5): {cv_scores.mean():.3f} (+/- {cv_scores.std():.3f})")
    except Exception as e:
        print(f"⚠️ Advertencia en CV: {e}")

    # Entrenar modelo final
    model.fit(X, y)
    print("\n✓ Modelo entrenado exitosamente")


    # Importancia de variables
    importances = pd.DataFrame({
        'feature': features_video,
        'importance': model.feature_importances_
    }).sort_values('importance', ascending=False)

    print("\n📊 Importancia de Variables (para predecir victoria del equipo):")
    print(importances)

    print("\n" + "="*60)
    print("✓ MODELO ENTRENADO")
    print("="*60)
    print("\nInterpretación: El modelo ahora predice la probabilidad de que")
    print("el EQUIPO del jugador GANE el partido, basándose en sus métricas físicas.")
else:
    print("Error: No hay df_master para entrenar.")


PASO 3: ENTRENAMIENTO DEL MODELO (XGBoost)

✓ Features: ['video_distancia_total_m', 'video_velocidad_max', 'video_velocidad_media', 'video_potencia_media', 'video_pct_red', 'video_golpes_totales']
✓ Target: target_real (1 = equipo ganó, 0 = equipo perdió)

Distribución del target:
target_real
1    24
0    23
Name: count, dtype: int64
Balance: 51.1% victorias

✓ AUC-ROC Promedio (CV=5): 0.628 (+/- 0.157)

✓ Modelo entrenado exitosamente

📊 Importancia de Variables (para predecir victoria del equipo):
                   feature  importance
0  video_distancia_total_m    0.364772
5     video_golpes_totales    0.189647
3     video_potencia_media    0.144744
2    video_velocidad_media    0.140340
4            video_pct_red    0.081305
1      video_velocidad_max    0.079190

✓ MODELO ENTRENADO

Interpretación: El modelo ahora predice la probabilidad de que
el EQUIPO del jugador GANE el partido, basándose en sus métricas físicas.




In [47]:
# PASO 4: Simulación de Torneo (Monte Carlo)

print("\n" + "="*80)
print("PASO 4: SIMULACIÓN DE TORNEO (Monte Carlo)")
print("="*80)

def simular_enfrentamiento(jugador1, jugador2, modelo):
    """
    Simula un enfrentamiento 1v1 basándose en la probabilidad del modelo
    
    Args:
        jugador1 (str): Nombre del primer jugador
        jugador2 (str): Nombre del segundo jugador
        modelo: Modelo XGBoost entrenado
    
    Returns:
        str: Nombre del jugador ganador
    """
    # Obtener métricas promedio de cada jugador
    if 'df_master' not in globals(): return jugador1

    metrics1 = df_master[df_master['player_name_clean'] == jugador1][features_video].mean().values.reshape(1, -1)
    metrics2 = df_master[df_master['player_name_clean'] == jugador2][features_video].mean().values.reshape(1, -1)
    
    # Predecir probabilidad de victoria para cada jugador
    prob1 = modelo.predict_proba(metrics1)[0][1]  # Probabilidad de que gane el equipo de jugador1
    prob2 = modelo.predict_proba(metrics2)[0][1]  # Probabilidad de que gane el equipo de jugador2
    
    # El jugador con mayor probabilidad tiene más chances de ganar
    # Usamos la probabilidad como peso para la simulación
    if np.random.random() < prob1 / (prob1 + prob2):
        return jugador1
    else:
        return jugador2

def simular_torneo(jugadores, modelo):
    """
    Simula un torneo de eliminación simple
    
    Args:
        jugadores (list): Lista de nombres de jugadores
        modelo: Modelo XGBoost entrenado
    
    Returns:
        str: Nombre del campeón del torneo
    """
    ronda_actual = jugadores.copy()
    
    while len(ronda_actual) > 1:
        siguiente_ronda = []
        
        # Emparejar jugadores de forma aleatoria
        np.random.shuffle(ronda_actual)
        
        for i in range(0, len(ronda_actual), 2):
            if i + 1 < len(ronda_actual):
                ganador = simular_enfrentamiento(ronda_actual[i], ronda_actual[i+1], modelo)
                siguiente_ronda.append(ganador)
            else:
                # Si hay número impar, el último pasa automáticamente
                siguiente_ronda.append(ronda_actual[i])
        
        ronda_actual = siguiente_ronda
    
    return ronda_actual[0]

print("\n✓ Funciones de simulación definidas:")
print("  • simular_enfrentamiento(jugador1, jugador2, modelo)")
print("  • simular_torneo(jugadores, modelo)")

if 'df_master' in locals() and not df_master.empty:
    # Seleccionar top 8 jugadores con más datos
    print("\n✓ Seleccionando top 8 jugadores con más datos...")
    top_players = df_master['player_name_clean'].value_counts().index.tolist()

    print(f"\nJugadores seleccionados para el torneo:")
    for i, player in enumerate(top_players, 1):
        partidos = df_master[df_master['player_name_clean'] == player].shape[0]
        victorias_count = df_master[df_master['player_name_clean'] == player]['target_real'].sum()
        print(f"  {i}. {player:40s} - {partidos} partidos, {int(victorias_count)} victorias")

    # Ejecutar simulaciones Monte Carlo
    print(f"\n✓ Ejecutando {1000:,} simulaciones Monte Carlo...")
    n_sims = 1000
    victorias = {p: 0 for p in top_players}

    for sim in range(n_sims):
        if (sim + 1) % 200 == 0:
            print(f"  Simulación {sim + 1}/{n_sims}...")
        
        campeon = simular_torneo(top_players, model)
        victorias[campeon] += 1

    # Crear ranking de probabilidades
    ranking = pd.DataFrame(list(victorias.items()), columns=['Jugador', 'Victorias_Simuladas'])
    ranking['Probabilidad_Campeonato_%'] = (ranking['Victorias_Simuladas'] / n_sims) * 100
    ranking = ranking.sort_values('Probabilidad_Campeonato_%', ascending=False).reset_index(drop=True)
    ranking.index = ranking.index + 1  # Empezar índice en 1

    print("\n" + "="*80)
    print("🏆 RANKING DE PROBABILIDAD DE CAMPEONATO")
    print("="*80)
    print(ranking[['Jugador', 'Probabilidad_Campeonato_%']].to_string())

    print("\n" + "="*80)
    print("✓ SIMULACIÓN COMPLETADA")
    print("="*80)

    print("\n📌 Interpretación de los resultados:")
    print("  • La 'Probabilidad de Campeonato' indica qué tan probable es que")
    print("    cada jugador gane el torneo basándose en sus métricas físicas.")
    print("  • El modelo aprendió qué métricas se correlacionan con victorias REALES.")
    print("  • Esto es más robusto que predecir basándose solo en puntos individuales.")

    # Guardar ranking
    ranking.to_csv('Ranking_Tournament_Prediction.csv', index=False)
    print(f"\n✓ Ranking guardado en: Ranking_Tournament_Prediction.csv")
else:
    print("Error: No se puede simular sin df_master.")



PASO 4: SIMULACIÓN DE TORNEO (Monte Carlo)

✓ Funciones de simulación definidas:
  • simular_enfrentamiento(jugador1, jugador2, modelo)
  • simular_torneo(jugadores, modelo)

✓ Seleccionando top 8 jugadores con más datos...

Jugadores seleccionados para el torneo:
  1. santiago gutierrez de pineres barbosa    - 3 partidos, 3 victorias
  2. juliana beltran diaz                     - 3 partidos, 0 victorias
  3. nicolas navarro                          - 3 partidos, 0 victorias
  4. rafael andres salcedo valdivieso         - 3 partidos, 3 victorias
  5. jonatan nicolas marmolejo lopez          - 3 partidos, 2 victorias
  6. david santiago medina buitrago           - 2 partidos, 1 victorias
  7. sara juliana solano boada                - 2 partidos, 1 victorias
  8. santiago navarro cuy                     - 2 partidos, 0 victorias
  9. juan pablo aponte veloza                 - 2 partidos, 1 victorias
  10. luis jorge garcia camargo                - 2 partidos, 2 victorias
  11. jaime a