# Exploración inicial de la base de datos

El objetivo de este cuaderno es cargar `Base_Videos_Final.csv` y obtener una primera visión de la calidad y el perfil de sus variables.

In [2]:
import pandas as pd
import numpy as np
pd.set_option('display.max_columns', None)
DATA_PATH = 'Base_Videos_Final.csv'
df = pd.read_csv(DATA_PATH)
print(f'Filas: {df.shape[0]:,} | Columnas: {df.shape[1]}')
df.head()

Filas: 540,300 | Columnas: 30


  df = pd.read_csv(DATA_PATH)


Unnamed: 0,frame_idx,duration,total_frames,video_duration,player_id,player_name,team,zone,ball_position_x,ball_position_y,player_position_x,player_position_y,distance_ball_to_net,distance_player_to_ball_m,distance_player_to_net_m,distance_player_to_teammate_m,player_hits_ball,prev_x,prev_y,player_displacement,player_speed_mps,prev_speed,player_acceleration_mps2,ball_position_x_prev,ball_position_y_prev,ball_displacement,ball_speed_mps,time_since_last_hit,partido,punto
0,0,0.033333,625,20.833333,1,Luis Jorge Garcia Camargo,top,right_box,3.24,17.111111,1.48,1.48,7.111111,13.58119,6.355556,7.41199,False,,,,,,,,,,,,Partido 27,10.0
1,1,0.033333,625,20.833333,1,Luis Jorge Garcia Camargo,top,right_box,3.24,17.111111,1.48,1.48,7.111111,13.58119,6.355556,7.41199,False,1.48,1.48,0.0,0.0,,,,,,,,Partido 27,10.0
2,2,0.033333,625,20.833333,1,Luis Jorge Garcia Camargo,top,right_box,3.24,17.111111,1.48,1.48,7.111111,13.58119,6.355556,7.41199,False,1.48,1.48,0.0,0.0,0.0,0.0,,,,,,Partido 27,10.0
3,3,0.033333,625,20.833333,1,Luis Jorge Garcia Camargo,top,right_box,3.24,17.111111,1.48,1.48,7.111111,13.58119,6.355556,7.3881,False,1.48,1.48,0.0,0.0,0.0,0.0,,,,,,Partido 27,10.0
4,4,0.033333,625,20.833333,1,Luis Jorge Garcia Camargo,top,right_box,3.24,17.111111,1.48,1.48,7.111111,13.58119,6.355556,7.3881,False,1.48,1.48,0.0,0.0,0.0,0.0,,,,,,Partido 27,10.0


## Tipos de dato y conteo de registros no nulos
Cada columna se acompaña de su tipo, la cantidad de valores distintos de nulo y cuántos están perdidos.

In [3]:
variable_profile = (
    df.dtypes.rename('dtype').to_frame()
        .assign(non_nulls=df.count(),
                nulls=lambda t: len(df) - t['non_nulls'])
)
variable_profile

Unnamed: 0,dtype,non_nulls,nulls
frame_idx,int64,540300,0
duration,float64,540300,0
total_frames,int64,540300,0
video_duration,float64,540300,0
player_id,int64,540300,0
player_name,object,519424,20876
team,object,159382,380918
zone,object,540300,0
ball_position_x,float64,540300,0
ball_position_y,float64,540300,0


## Valores nulos
Se contabiliza el total y el porcentaje que representan por columna.

In [4]:
null_summary = (
    df.isna().sum()
      .to_frame('null_count')
      .assign(null_pct=lambda t: (t['null_count'] / len(df) * 100).round(2))
      .sort_values('null_count', ascending=False)
)
null_summary

Unnamed: 0,null_count,null_pct
time_since_last_hit,523939,96.97
team,380918,70.5
distance_player_to_teammate_m,282544,52.29
ball_position_x_prev,109557,20.28
ball_speed_mps,109557,20.28
ball_displacement,109557,20.28
ball_position_y_prev,109557,20.28
punto,20876,3.86
player_name,20876,3.86
player_acceleration_mps2,5208,0.96


## Filas duplicadas
Se detectan filas idénticas en todas las columnas para identificar registros repetidos.

In [5]:
duplicate_mask = df.duplicated()
duplicate_count = duplicate_mask.sum()
print(f'Filas duplicadas: {duplicate_count} ({duplicate_count / len(df) * 100:.2f}% del total)')
df[duplicate_mask].head()

Filas duplicadas: 0 (0.00% del total)


Unnamed: 0,frame_idx,duration,total_frames,video_duration,player_id,player_name,team,zone,ball_position_x,ball_position_y,player_position_x,player_position_y,distance_ball_to_net,distance_player_to_ball_m,distance_player_to_net_m,distance_player_to_teammate_m,player_hits_ball,prev_x,prev_y,player_displacement,player_speed_mps,prev_speed,player_acceleration_mps2,ball_position_x_prev,ball_position_y_prev,ball_displacement,ball_speed_mps,time_since_last_hit,partido,punto


## Descripción estadística de las variables
Se obtiene una visión general de la distribución de cada variable (numérica y categórica).

In [6]:
description = df.describe(include='all').transpose()
description

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
frame_idx,540300.0,,,,236.541947,208.280158,0.0,88.0,181.0,325.0,1349.0
duration,540300.0,,,,0.024876,0.00832,0.016667,0.016667,0.016773,0.033333,0.033333
total_frames,540300.0,,,,471.026461,273.626478,72.0,278.0,420.0,597.0,1350.0
video_duration,540300.0,,,,11.333344,7.086376,1.2,6.566667,9.15,14.833333,42.7
player_id,540300.0,,,,14.085208,44.588668,1.0,2.0,3.0,7.0,825.0
player_name,519424.0,331.0,María José Cifuentes,18532.0,,,,,,,
team,159382.0,2.0,bottom,81394.0,,,,,,,
zone,540300.0,3.0,left_box,224013.0,,,,,,,
ball_position_x,540300.0,,,,4.239575,2.549286,0.56,2.2,3.52,6.2,23.12
ball_position_y,540300.0,,,,10.316255,4.537078,0.311111,6.488889,10.622222,13.866667,27.688889


# Limpieza de Datos

En este apartado realizamos una limpieza sistemática del dataset orientada a mejorar la calidad, consistencia temporal y coherencia física de todas las variables derivadas.

## Estrategia de limpieza

1. **Conservación de columnas correctamente observadas**
   Las variables completas y sin problemas de captura se mantienen sin modificaciones.

2. **Eliminación de filas con `player_name` o `punto` faltantes**
   Estas filas (~3.86%) no pueden asociarse a un jugador o a una secuencia válida dentro del punto, por lo que se descartan.

3. **Eliminación de columnas con exceso de valores faltantes**

   * `team`: 70.50% faltantes → se elimina por imposibilidad de reconstrucción confiable.
   * `distance_player_to_teammate_m`: depende directamente de `team` → se elimina.
   * `time_since_last_hit` (original): 96.97% faltantes → se elimina; será recalculada correctamente.

4. **Reconstrucción de variables derivadas del jugador y la pelota**

   * Se ordenan las secuencias por (`player_id`, `partido`, `punto`, `frame_idx`) o (`partido`, `punto`, `frame_idx`) para preservar coherencia temporal.
   * Las variables previas (`prev_x`, `prev_y`, `prev_speed`, y sus equivalentes para la pelota) se recalculan usando el **frame anterior** mediante `shift(1)`.
   * Se recomputan desplazamientos, velocidades y aceleraciones para asegurar consistencia física.
   * En el primer frame de cada grupo, los valores previos se igualan a los valores actuales para evitar valores no definidos.

5. **Suavizado ligero de la trayectoria de la pelota**
   Se aplica una mediana móvil de ventana 3 que reduce saltos espurios del tracking sin afectar la dinámica real del movimiento.

6. **Recálculo de `time_since_last_hit`**
   Se utiliza un método vectorizado:

   * Se calcula el tiempo acumulado por frame (`cumsum(duration)`).
   * Se identifican los frames con golpe y se propaga hacia atrás el último instante de golpe (`ffill`).
   * `time_since_last_hit` se define como la diferencia entre el tiempo acumulado actual y el último golpe.
     Esto resetea correctamente el tiempo en cada golpe y acumula entre golpes de forma consistente.



## Paso 1: Crear una copia del DataFrame original

In [7]:
# Crear copia para no modificar el DataFrame original
df_clean = df.copy()
print(f'DataFrame inicial: {df_clean.shape[0]:,} filas x {df_clean.shape[1]} columnas')

DataFrame inicial: 540,300 filas x 30 columnas


## Paso 2: Eliminar filas con player_name o punto faltantes

**Justificación**: Estas variables son identificadores clave para las secuencias de juego. Sin ellas no podemos agrupar correctamente las trayectorias ni identificar a qué punto pertenece cada observación. Representan solo el 3.86% del total, por lo que su eliminación no afecta significativamente al tamaño muestral.

In [8]:
# Eliminar filas con player_name o punto faltantes
filas_antes = len(df_clean)
df_clean = df_clean.dropna(subset=['player_name', 'punto'])
filas_despues = len(df_clean)

print(f'Filas eliminadas: {filas_antes - filas_despues:,} ({(filas_antes - filas_despues)/filas_antes*100:.2f}%)')
print(f'Filas restantes: {filas_despues:,}')

Filas eliminadas: 20,876 (3.86%)
Filas restantes: 519,424


## Paso 3: Eliminar columnas con exceso de valores faltantes

**Justificación**:
- **team** (70.50% faltantes): No se puede reconstruir con confianza, y falta en la mayoría de observaciones
- **distance_player_to_teammate_m** (52.29% faltantes): Derivada de `team`, por lo que hereda su problema de calidad
- **time_since_last_hit** (96.97% faltantes): La recalcularemos correctamente usando `player_hits_ball` y `frame_idx`

In [9]:
# Eliminar columnas problemáticas
columnas_a_eliminar = ['team', 'distance_player_to_teammate_m', 'time_since_last_hit']
df_clean = df_clean.drop(columns=columnas_a_eliminar)

print(f'Columnas eliminadas: {len(columnas_a_eliminar)}')
print(f'Columnas restantes: {df_clean.shape[1]}')
print(f'\nColumnas eliminadas: {columnas_a_eliminar}')

Columnas eliminadas: 3
Columnas restantes: 27

Columnas eliminadas: ['team', 'distance_player_to_teammate_m', 'time_since_last_hit']


## Paso 4: Identificar variables derivadas con valores faltantes

Las siguientes variables tienen valores faltantes debido a que se calculan a partir de diferencias temporales o frames previos. En el primer frame de cada secuencia (jugador-partido-punto) no existe un frame anterior, por lo que aparecen como faltantes.

In [10]:
# Verificar valores faltantes actuales
columnas_derivadas = [
    'prev_x', 'prev_y', 'player_displacement', 'player_speed_mps',
    'prev_speed', 'player_acceleration_mps2',
    'ball_position_x_prev', 'ball_position_y_prev', 'ball_displacement', 'ball_speed_mps'
]

print('Variables derivadas con valores faltantes:')
for col in columnas_derivadas:
    if col in df_clean.columns:
        n_null = df_clean[col].isna().sum()
        pct_null = n_null / len(df_clean) * 100
        print(f'  {col}: {n_null:,} ({pct_null:.2f}%)')

Variables derivadas con valores faltantes:
  prev_x: 2,652 (0.51%)
  prev_y: 2,652 (0.51%)
  player_displacement: 2,652 (0.51%)
  player_speed_mps: 2,652 (0.51%)
  prev_speed: 5,087 (0.98%)
  player_acceleration_mps2: 5,087 (0.98%)
  ball_position_x_prev: 104,332 (20.09%)
  ball_position_y_prev: 104,332 (20.09%)
  ball_displacement: 104,332 (20.09%)
  ball_speed_mps: 104,332 (20.09%)


## Paso 5: Rellenar variables derivadas de posición del jugador

**Estrategia**

- Ordenar cada secuencia por (player_id, partido, punto, frame_idx).

- Reconstruir prev_x, prev_y y prev_speed usando el frame anterior (shift(1)), no el siguiente.

**Justificación**

- El uso de shift(1) respeta la causalidad temporal y genera variables físicamente coherentes.

In [11]:
# 1) Aseguramos orden temporal global
df_clean = df_clean.sort_values(['player_id', 'partido', 'punto', 'frame_idx']).reset_index(drop=True)

def fill_player_derived_variables(group):
    """
    Recalcula variables derivadas del jugador usando el frame anterior
    dentro de cada secuencia (player_id, partido, punto).
    """
    # Por seguridad, reordenamos por frame_idx dentro del grupo
    group = group.sort_values('frame_idx').copy()
    
    # --- 1. prev_x y prev_y a partir de la posición anterior ---
    group['prev_x'] = group['player_position_x'].shift(1)
    group['prev_y'] = group['player_position_y'].shift(1)
    
    # Para el primer frame del grupo (sin frame anterior),
    # asumimos que estaba en la misma posición que el frame actual
    mask_first = group['prev_x'].isna()
    group.loc[mask_first, 'prev_x'] = group.loc[mask_first, 'player_position_x']
    group.loc[mask_first, 'prev_y'] = group.loc[mask_first, 'player_position_y']
    
    # --- 2. Desplazamiento del jugador ---
    group['player_displacement'] = np.sqrt(
        (group['player_position_x'] - group['prev_x'])**2 +
        (group['player_position_y'] - group['prev_y'])**2
    )
    
    # --- 3. Velocidad del jugador (m/s) ---
    duration_safe = group['duration'].replace(0, np.nan)
    group['player_speed_mps'] = group['player_displacement'] / duration_safe
    group['player_speed_mps'] = group['player_speed_mps'].fillna(0)
    
    # --- 4. Velocidad previa (frame anterior) ---
    group['prev_speed'] = group['player_speed_mps'].shift(1)
    group['prev_speed'] = group['prev_speed'].fillna(group['player_speed_mps'])
    
    # --- 5. Aceleración del jugador (m/s^2) ---
    group['player_acceleration_mps2'] = (
        (group['player_speed_mps'] - group['prev_speed']) / duration_safe
    )
    group['player_acceleration_mps2'] = group['player_acceleration_mps2'].fillna(0)
    
    return group

print('Recalculando variables derivadas del jugador por grupo (player_id, partido, punto)...')
df_clean = df_clean.groupby(['player_id', 'partido', 'punto'], group_keys=False).apply(fill_player_derived_variables)

print('\nValores faltantes después del recalculo (variables del jugador):')
for col in ['prev_x', 'prev_y', 'player_displacement', 'player_speed_mps', 'prev_speed', 'player_acceleration_mps2']:
    n_null = df_clean[col].isna().sum()
    print(f'  {col}: {n_null:,}')

Recalculando variables derivadas del jugador por grupo (player_id, partido, punto)...

Valores faltantes después del recalculo (variables del jugador):
  prev_x: 0
  prev_y: 0
  player_displacement: 0
  player_speed_mps: 0
  prev_speed: 0
  player_acceleration_mps2: 0


## Paso 6: Rellenar variables derivadas de posición de la pelota


**Estrategia**

- Ordenar cada punto por frame_idx.

- Aplicar un suavizado ligero (mediana móvil ventana 3) a la trayectoria de la pelota.

- Calcular ball_position_x_prev y ball_position_y_prev con shift(1) sobre posiciones suavizadas.

**Justificación**

- El suavizado elimina saltos falsos típicos del tracking de pelota.

In [12]:
def fill_ball_derived_variables(group):
    """
    Recalcula variables derivadas de la pelota dentro de cada punto.
    Incluye un suavizado ligero para reducir ruido en la trayectoria.
    """
    group = group.sort_values('frame_idx').copy()
    
    # --- (Opcional pero MUY útil) Suavizar la trayectoria de la pelota ---
    # Rolling median con ventana 3, centrada:
    group['ball_position_x_smooth'] = (
        group['ball_position_x']
        .rolling(window=3, center=True, min_periods=1)
        .median()
    )
    group['ball_position_y_smooth'] = (
        group['ball_position_y']
        .rolling(window=3, center=True, min_periods=1)
        .median()
    )
    
    # Usamos las posiciones suavizadas para calcular el "prev"
    x = group['ball_position_x_smooth']
    y = group['ball_position_y_smooth']
    
    group['ball_position_x_prev'] = x.shift(1)
    group['ball_position_y_prev'] = y.shift(1)
    
    # Para el primer frame del punto, usar la misma posición
    mask_first = group['ball_position_x_prev'].isna()
    group.loc[mask_first, 'ball_position_x_prev'] = group.loc[mask_first, 'ball_position_x_smooth']
    group.loc[mask_first, 'ball_position_y_prev'] = group.loc[mask_first, 'ball_position_y_smooth']
    
    # --- Desplazamiento de la pelota (a partir de posiciones suavizadas) ---
    group['ball_displacement'] = np.sqrt(
        (group['ball_position_x_smooth'] - group['ball_position_x_prev'])**2 +
        (group['ball_position_y_smooth'] - group['ball_position_y_prev'])**2
    )
    
    # --- Velocidad de la pelota (m/s) ---
    duration_safe = group['duration'].replace(0, np.nan)
    group['ball_speed_mps'] = group['ball_displacement'] / duration_safe
    group['ball_speed_mps'] = group['ball_speed_mps'].fillna(0)
    
    return group

print('Recalculando variables derivadas de la pelota por grupo (partido, punto)...')
df_clean = df_clean.groupby(['partido', 'punto'], group_keys=False).apply(fill_ball_derived_variables)

print('\nValores faltantes después del recalculo (variables de la pelota):')
for col in ['ball_position_x_prev', 'ball_position_y_prev', 'ball_displacement', 'ball_speed_mps']:
    n_null = df_clean[col].isna().sum()
    print(f'  {col}: {n_null:,}')


Recalculando variables derivadas de la pelota por grupo (partido, punto)...

Valores faltantes después del recalculo (variables de la pelota):
  ball_position_x_prev: 0
  ball_position_y_prev: 0
  ball_displacement: 0
  ball_speed_mps: 0


## Paso 7: Recalcular time_since_last_hit

**Estrategia**

- Ordenar cada secuencia por frame_idx.

- Calcular el tiempo acumulado total (cumsum(duration)).

- Marcar los instantes donde hubo golpe y propagar hacia atrás el último golpe (ffill).

- Definir time_since_last_hit como la diferencia entre el tiempo acumulado actual y el último instante de golpe.

**Justificación**

- Este método es totalmente vectorizado y evita ciclos o manejo manual de índices.

- Resetea correctamente el contador en cada golpe y acumula tiempo entre golpes.

- Funciona incluso cuando no hay golpes (acumula desde el inicio) y mantiene consistencia física.

In [13]:
def calculate_time_since_last_hit(group):
    """
    Tiempo transcurrido desde el último golpe de ESTE jugador
    dentro del punto: se acumulan los 'duration' y se resetea al golpear.
    """
    group = group.sort_values('frame_idx').copy()
    
    # Acumulado total de tiempo
    cum_time = group['duration'].cumsum()
    
    # En qué instantes acumulados hubo golpe
    hit_cum = cum_time.where(group['player_hits_ball'] == 1)
    
    # Último instante acumulado en que hubo golpe (hacia atrás)
    last_hit_cum = hit_cum.ffill().fillna(0)
    
    # Diferencia = tiempo desde el último golpe
    group['time_since_last_hit'] = cum_time - last_hit_cum
    
    return group

print('Recalculando time_since_last_hit por grupo (player_id, partido, punto)...')
df_clean = df_clean.groupby(['player_id', 'partido', 'punto'], group_keys=False).apply(calculate_time_since_last_hit)


Recalculando time_since_last_hit por grupo (player_id, partido, punto)...


## Paso 8: Verificación final de la limpieza

In [14]:
# Resumen de valores faltantes después de la limpieza
print('='*70)
print('RESUMEN DE LIMPIEZA DE DATOS')
print('='*70)

null_summary_clean = (
    df_clean.isna().sum()
      .to_frame('null_count')
      .assign(null_pct=lambda t: (t['null_count'] / len(df_clean) * 100).round(2))
      .sort_values('null_count', ascending=False)
)

print(f'\nDimensiones finales: {df_clean.shape[0]:,} filas x {df_clean.shape[1]} columnas')
print(f'\nColumnas con valores faltantes:')
print(null_summary_clean[null_summary_clean['null_count'] > 0])

print(f'\n\nTotal de valores faltantes en todo el dataset: {df_clean.isna().sum().sum():,}')
print(f'Porcentaje de completitud: {(1 - df_clean.isna().sum().sum() / (df_clean.shape[0] * df_clean.shape[1])) * 100:.2f}%')

RESUMEN DE LIMPIEZA DE DATOS

Dimensiones finales: 519,424 filas x 30 columnas

Columnas con valores faltantes:
Empty DataFrame
Columns: [null_count, null_pct]
Index: []


Total de valores faltantes en todo el dataset: 0
Porcentaje de completitud: 100.00%


Valores imposibles físicamente

In [15]:
# 1) Revisión rápida de variables clave (ajusta la lista si quieres)
key_vars = [
    'player_speed_mps',
    'player_acceleration_mps2',
    'player_displacement',
    'ball_speed_mps',
    'ball_displacement',
    'player_distance_teammate_m',
    'distance_ball_to_net',
    'distance_player_to_ball_m',
    'distance_player_to_net_m',
    'time_since_last_hit',
]

existing_key_vars = [c for c in key_vars if c in df_clean.columns]
print(df_clean[existing_key_vars].describe(percentiles=[0.95, 0.99, 0.995]))

       player_speed_mps  player_acceleration_mps2  player_displacement  \
count     519424.000000             519424.000000        519424.000000   
mean           1.616743                  0.613894             0.039172   
std           13.005417                907.268262             0.296576   
min            0.000000             -44598.638903             0.000000   
50%            0.000000                  0.000000             0.000000   
95%            3.394113                203.646753             0.113137   
99%           13.576450                407.293506             0.395980   
99.5%         37.335238               1018.233765             1.018234   
max          743.310648              44394.992150            17.988797   

       ball_speed_mps  ball_displacement  distance_ball_to_net  \
count   519424.000000      519424.000000         519424.000000   
mean         1.651831           0.035347              4.022256   
std         16.525418           0.333715              2.20264

In [16]:
# 2) Definir límites físicos (ajústalos si lo ves necesario)
phys_limits = {
    # Jugador
    'player_speed_mps': (0, 8),           # m/s
    'player_acceleration_mps2': (-10, 10),# m/s^2
    'player_displacement': (0, 1.5),      # m por frame
    
    # Pelota
    'ball_speed_mps': (0, 40),            # m/s
    'ball_displacement': (0, 8),          # m por frame
    
    # Distancias (en metros, aprox. dimensiones de pista de pádel)
    'distance_ball_to_net': (0, 15),
    'distance_player_to_ball_m': (0, 25),
    'distance_player_to_net_m': (0, 15),
    'player_distance_teammate_m': (0, 25),
}


# 3) Función para añadir banderas de outliers físicos y estadísticos
def add_outlier_flags(df, phys_limits, stat_q_low=0.001, stat_q_high=0.999):
    df = df.copy()
    
    # --- Outliers físicos ---
    phys_flag_cols = []
    for col, (low, high) in phys_limits.items():
        if col in df.columns:
            flag_col = f'out_phys_{col}'
            df[flag_col] = (df[col] < low) | (df[col] > high)
            phys_flag_cols.append(flag_col)
    
    if phys_flag_cols:
        df['out_any_physical'] = df[phys_flag_cols].any(axis=1)
    else:
        df['out_any_physical'] = False  # por si no existe ninguna
    
    # Outlier general (físico o estadístico)
    df['out_any'] = df['out_any_physical'] 
    
    return df


In [17]:

df_clean = add_outlier_flags(df_clean, phys_limits)

print("\nResumen de banderas de outliers:")
flag_cols = [c for c in df_clean.columns if c.startswith('out_')]
print(df_clean[flag_cols].sum())


Resumen de banderas de outliers:
out_phys_player_speed_mps               9238
out_phys_player_acceleration_mps2     179788
out_phys_player_displacement            1994
out_phys_ball_speed_mps                 3841
out_phys_ball_displacement               223
out_phys_distance_ball_to_net            142
out_phys_distance_player_to_ball_m         1
out_phys_distance_player_to_net_m         40
out_any_physical                      182947
out_any                               182947
dtype: int64


In [18]:
# 5) filtrar a nivel de frame (más conservador)
n_before = len(df_clean)

# Si tienes 'frame_seq_ok' de la validación de continuidad, la usamos; si no, todo True
if 'frame_seq_ok' in df_clean.columns:
    mask_cont = df_clean['frame_seq_ok']
else:
    mask_cont = np.ones(len(df_clean), dtype=bool)

mask_frames_ok = (~df_clean['out_any']) & mask_cont

df_clean_frames = df_clean[mask_frames_ok].copy()
n_after_frames = len(df_clean_frames)

print(f"\nFrames eliminados (outliers físicos): {n_before - n_after_frames:,}")
print(f"Frames restantes (df_clean_frames): {n_after_frames:,}")


Frames eliminados (outliers físicos): 182,947
Frames restantes (df_clean_frames): 336,477


## Paso 9: Guardar el dataset limpio

In [19]:
# Guardar el dataset limpio
OUTPUT_PATH = 'Base_Videos_Clean.csv'
df_clean_frames.to_csv(OUTPUT_PATH, index=False)
print(f'Dataset limpio guardado en: {OUTPUT_PATH}')
print(f'Tamaño del archivo: {df_clean_frames.memory_usage(deep=True).sum() / 1024**2:.2f} MB en memoria')

Dataset limpio guardado en: Base_Videos_Clean.csv
Tamaño del archivo: 134.49 MB en memoria


# Feature Engineering: Creación del Dataset Maestro (Estrategia Basada en Nombres)

En esta sección, generaremos un dataset consolidado utilizando el **Nombre del Jugador** como clave principal, dado que los IDs numéricos originales no son consistentes.

Pasos:
1.  **Normalización**: Limpieza estricta de nombres (minúsculas, sin acentos, sin espacios).
2.  **ID Interno**: Generación de un nuevo ID único basado en nombres normalizados.
3.  **Agregación y Fusión**: Cálculo de métricas y cruce de tablas.

In [20]:

import unicodedata

# 1. Carga y Normalización de Nombres

def normalize_name(text):
    if pd.isna(text):
        return "unknown"
    # Convertir a string, minúsculas y quitar espacios
    text = str(text).lower().strip()
    # Eliminar acentos (forma NFD separa caracteres y acentos, luego filtramos)
    text = ''.join(c for c in unicodedata.normalize('NFD', text) if unicodedata.category(c) != 'Mn')
    return text

# Cargar archivos
print("Cargando archivos...")
try:
    # Intentar cargar Base_Videos_Clean.csv, si no existe usar df_clean_frames de memoria si está disponible
    if 'df_clean_frames' in locals():
        df_videos = df_clean_frames.copy()
        print("Usando df_clean_frames de memoria.")
    else:
        df_videos = pd.read_csv('Base_Videos_Clean.csv')
        print("Cargado Base_Videos_Clean.csv")
        
    df_puntos = pd.read_excel('Puntos_Por_Partido.xlsx')
    df_jugadores = pd.read_excel('Datos_Jugadores_Padel.xlsx')
except Exception as e:
    print(f"Error cargando datos: {e}")

# Renombrar columnas de nombre a 'nombre_raw' para evitar confusiones
# Ajusta los nombres originales según tus archivos
df_videos.rename(columns={'player_name': 'nombre_raw'}, inplace=True)
df_puntos.rename(columns={'player_name': 'nombre_raw', 'NOMBRE': 'nombre_raw'}, inplace=True)
df_jugadores.rename(columns={'NOMBRE': 'nombre_raw'}, inplace=True)

# Renombrar ID_partido a partido en df_puntos
if 'ID_partido' in df_puntos.columns:
    df_puntos.rename(columns={'ID_partido': 'partido'}, inplace=True)

# Normalizar nombres
df_videos['player_name_clean'] = df_videos['nombre_raw'].apply(normalize_name)
df_puntos['player_name_clean'] = df_puntos['nombre_raw'].apply(normalize_name)
df_jugadores['player_name_clean'] = df_jugadores['nombre_raw'].apply(normalize_name)

# Normalizar columna 'partido' para joins
df_videos['partido'] = df_videos['partido'].astype(str).str.lower().str.strip()
df_puntos['partido'] = df_puntos['partido'].astype(str).str.lower().str.strip()

print("Normalización completada.")

Cargando archivos...
Usando df_clean_frames de memoria.
Normalización completada.


In [21]:
# 2. Generación de ID Único (id_interno)

# Obtener todos los nombres únicos de todas las fuentes
all_names = pd.concat([
    df_videos['player_name_clean'],
    df_puntos['player_name_clean'],
    df_jugadores['player_name_clean']
]).unique()

# Crear mapeo: nombre_clean -> id_interno
name_to_id = {name: i+1 for i, name in enumerate(all_names) if name != 'unknown'}

# Asignar id_interno a los dataframes
df_videos['id_interno'] = df_videos['player_name_clean'].map(name_to_id)
df_puntos['id_interno'] = df_puntos['player_name_clean'].map(name_to_id)
df_jugadores['id_interno'] = df_jugadores['player_name_clean'].map(name_to_id)

print(f"Total de jugadores únicos identificados: {len(name_to_id)}")
print(f"Jugadores en Video: {df_videos['id_interno'].nunique()}")
print(f"Jugadores en Puntos: {df_puntos['id_interno'].nunique()}")
print(f"Jugadores en Atributos: {df_jugadores['id_interno'].nunique()}")

Total de jugadores únicos identificados: 340
Jugadores en Video: 330
Jugadores en Puntos: 37
Jugadores en Atributos: 34


In [22]:
# 3. Feature Engineering (Basado en Nombre/Nuevo ID)

# Definir funciones de agregación
def count_hits(x):
    return x.sum()

def pct_net(x):
    return (x < 3).mean() * 100

# Agrupar por partido y id_interno (o player_name_clean)
video_metrics = df_videos.groupby(['partido', 'player_name_clean']).agg({
    'player_displacement': 'sum',          # video_distancia_total_m
    'player_speed_mps': ['max', 'mean'],   # video_velocidad_max, video_velocidad_media
    'player_acceleration_mps2': lambda x: x[x > 0].mean(), # video_potencia_media
    'distance_player_to_net_m': pct_net,   # video_pct_red
    'player_hits_ball': count_hits,         # video_golpes_totales
    'id_interno': 'first'                   # Mantener el ID
}).reset_index()

# Aplanar columnas
video_metrics.columns = [
    'partido', 'player_name_clean',
    'video_distancia_total_m',
    'video_velocidad_max',
    'video_velocidad_media',
    'video_potencia_media',
    'video_pct_red',
    'video_golpes_totales',
    'id_interno'
]

video_metrics['video_potencia_media'] = video_metrics['video_potencia_media'].fillna(0)
print(f"Métricas calculadas para {len(video_metrics)} registros.")

Métricas calculadas para 1127 registros.


In [23]:
# 4. Unión de Datos (Merges)

# Merge 1: Video + Puntos (Usando player_name_clean y partido)
df_master = pd.merge(video_metrics, df_puntos, on=['partido', 'player_name_clean'], how='inner', suffixes=('', '_puntos'))

# Merge 2: Resultado + Datos Jugadores (Usando player_name_clean)
df_master = pd.merge(df_master, df_jugadores, on='player_name_clean', how='left', suffixes=('', '_info'))

# Limpieza final de columnas
cols_to_drop = [c for c in df_master.columns if 'id_interno' in c and c != 'id_interno']
df_master.drop(columns=cols_to_drop, inplace=True)

# 5. Validación y Salida
print("\n--- Validación del Dataset Maestro ---")
print(f"Dimensiones: {df_master.shape}")
print("Primeras filas:")
display(df_master.head())

OUTPUT_MASTER = 'Dataset_Maestro_Padel.csv'
df_master.to_csv(OUTPUT_MASTER, index=False)
print(f"\nArchivo guardado: {OUTPUT_MASTER}")


--- Validación del Dataset Maestro ---
Dimensiones: (51, 38)
Primeras filas:


Unnamed: 0,partido,player_name_clean,video_distancia_total_m,video_velocidad_max,video_velocidad_media,video_potencia_media,video_pct_red,video_golpes_totales,id_interno,nombre_raw,Puntos,Marca temporal,nombre_raw_info,CODIGO_ESTUDIANTE,CIUDAD,EDAD,GENERO,PROGRAMA_ACADEMICO,SEMESTRE,EXPERIENCIA_PADEL,TIEMPO_JUGANDO_PADEL,PRACTICA_OTRO_DEPORTE_RAQUETA,NIVEL_ACTUAL_PADEL,ESTADO_FISICO,FRECUENCIA_DEPORTE,ESTATURA,TALLA,MANO_DOMINANTE,RITMO_CARDIACO,LESIONES_LY,RAZON_PARTICIPACION,OBJETIVO_ACTIVIDAD,INTERES_PADEL,CLASES_PADEL,DESAYUNO,¿Que desayunaste?,GENERO_MUSICAL_FAVORITO,COMENTARIOS
0,12,luis jorge garcia camargo,3.959798,6.788225,0.099409,1.353584e-12,85.271967,24,29,Luis Jorge Garcia Camargo,7,NaT,,,,,,,,,,,,,,,,,,,,,,,,,,
1,12,santiago pena beltran,7.127636,6.788225,0.174412,2.258194e-12,70.065253,65,130,Santiago Peña Beltran,1,2025-08-07 08:44:56.605,Santiago Peña Beltran,296753.0,Mosquera,18.0,Masculino,Ingeniería Informática,6.0,No,Menos de 6 meses,Squash,Primera vez,Regular,1-2 veces,176.0,79.0,Derecha,80.0,Sí,Porque me parece interesante,Parchar,Tal vez,Tal vez,No,Un tinto,Otro,Mosquera no estaba en el Forms :(
2,12,santiago urrego rodriguez,9.446947,6.788225,0.253723,4.516387e-12,4.610564,0,3,Santiago Urrego Rodríguez,1,2025-08-07 08:43:19.362,Santiago Urrego Rodríguez,285468.0,Cajica,20.0,Masculino,Ingeniería Informática,6.0,No,Menos de 6 meses,Tenis de mesa,Primera vez,Regular,3-4 veces,180.0,80.0,Izquierda,,No,Por la experiencia y por el proyecto,A jugar y a interpretar datos,No,No,Si,Huevos con Milo,Reggaeton,Ninguno
3,12,sergio andres lopez rodriguez,15.216938,6.788225,0.491397,3.483274e-12,0.0,7,129,Sergio Andrés López Rodríguez,7,2025-08-07 09:07:36.014,Sergio Andrés López Rodríguez,273819.0,Bogota - Norte,21.0,Masculino,Mercadeo y logística,6.0,No,Menos de 6 meses,Squash,Primera vez,Bueno,3-4 veces,170.0,60.0,Derecha,,No,Porque me parece interesante el enfoque que e...,Pasar un rato agradable mientras se puede enf...,Sí,Sí,No,Nada,Reggaeton,"Que chévere que hagan actividades como esta , ..."
4,14,cesar camilo diaz cufino,3.450681,3.394113,0.064781,9.05942e-12,31.289111,32,79,César Camilo Díaz Cufiño,4,2025-08-07 08:45:28.765,César Camilo Díaz Cufiño,337950.0,Bogota - Norte,17.0,Masculino,Ingeniería Industrial,3.0,Sí,Menos de 6 meses,Tenis de mesa,Principiante,Bueno,Más de 4 veces,186.0,81.0,Derecha,80.0,No,Por diversión y para ayudar a la toma de datos,Divertirme y ayudar al proyecto del profe,Sí,Sí,No,Nada,Reggaeton,Espero que el proyecto pueda salir adelante y ...



Archivo guardado: Dataset_Maestro_Padel.csv


# Modelado y Simulación de Torneo (Refinado)

Esta sección implementa:
1.  **Entrenamiento Robusto**: XGBoost con validación cruzada (StratifiedKFold).
2.  **Simulación Monte Carlo**: Torneo hipotético basado en probabilidades del modelo.
3.  **Feedback Híbrido**: Recomendaciones técnicas y consejos basados en Estado Físico y Experiencia.

In [24]:
import xgboost as xgb
from sklearn.model_selection import StratifiedKFold, cross_val_score
from sklearn.metrics import roc_auc_score
import numpy as np
import pandas as pd

# 1. Preparación de Datos y Entrenamiento (Robusto)

# Definir Features (solo video)
features_video = [c for c in df_master.columns if c.startswith('video_')]

# Generar Target: 1 si Puntos > Promedio del Partido, else 0
df_master['mean_points_match'] = df_master.groupby('partido')['Puntos'].transform('mean')
df_master['target'] = (df_master['Puntos'] > df_master['mean_points_match']).astype(int)

X = df_master[features_video]
y = df_master['target']

# Configuración del Modelo (Conservadora)
model = xgb.XGBClassifier(
    max_depth=2,
    n_estimators=50,
    eval_metric='logloss',
    use_label_encoder=False,
    random_state=42
)

# Validación Cruzada Estratificada (k=5)
# Nota: Si hay muy pocos datos, k=5 podría fallar si una clase tiene < 5 muestras. Usamos try-except o k menor si es necesario.
try:
    cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
    cv_scores = cross_val_score(model, X, y, cv=cv, scoring='roc_auc')
    print(f"AUC-ROC Promedio (CV=5): {cv_scores.mean():.3f} (+/- {cv_scores.std():.3f})")
except Exception as e:
    print(f"Advertencia en CV: {e}. Entrenando sin validación cruzada completa.")

# Entrenar Modelo Final con TODOS los datos
model.fit(X, y)
print("Modelo final entrenado exitosamente.")

# Importancia de Variables
importances = pd.DataFrame({
    'feature': features_video,
    'importance': model.feature_importances_
}).sort_values('importance', ascending=False)
print("\nImportancia de Variables:")
print(importances)

AUC-ROC Promedio (CV=5): 0.525 (+/- 0.088)
Modelo final entrenado exitosamente.

Importancia de Variables:
                   feature  importance
0  video_distancia_total_m    0.284065
4            video_pct_red    0.179970
2    video_velocidad_media    0.179525
1      video_velocidad_max    0.128726
3     video_potencia_media    0.113980
5     video_golpes_totales    0.113734




In [25]:
import random

# 2. Perfilamiento y Simulación

# Crear Perfiles (Promedio de features de video)
df_perfiles = df_master.groupby('player_name_clean')[features_video].mean().reset_index()

# Agregar datos de Encuesta (Estado Físico y Experiencia)
# Tomamos el primer valor válido encontrado
def get_first_valid(x):
    valid = x.dropna()
    return valid.iloc[0] if not valid.empty else np.nan

extra_cols = ['ESTADO_FISICO', 'EXPERIENCIA_PADEL', 'nombre_raw']
# Asegurar que existan en df_master (por si acaso)
for col in extra_cols:
    if col not in df_master.columns:
        df_master[col] = np.nan

extra_info = df_master.groupby('player_name_clean')[extra_cols].agg(get_first_valid).reset_index()
df_perfiles = pd.merge(df_perfiles, extra_info, on='player_name_clean')

# Funciones de Simulación
def simular_enfrentamiento(jugador_A, jugador_B, modelo):
    # Obtener perfiles
    perfil_A = df_perfiles[df_perfiles['player_name_clean'] == jugador_A][features_video]
    perfil_B = df_perfiles[df_perfiles['player_name_clean'] == jugador_B][features_video]
    
    if perfil_A.empty or perfil_B.empty:
        return random.choice([jugador_A, jugador_B]) # Fallback
        
    # Predecir probabilidad de éxito
    prob_A = modelo.predict_proba(perfil_A)[0, 1]
    prob_B = modelo.predict_proba(perfil_B)[0, 1]
    
    # Probabilidad relativa de victoria
    # Evitar división por cero
    total_prob = prob_A + prob_B
    if total_prob == 0:
        prob_victoria_A = 0.5
    else:
        prob_victoria_A = prob_A / total_prob
    
    return jugador_A if random.random() < prob_victoria_A else jugador_B

def simular_torneo(lista_jugadores, modelo):
    ronda = lista_jugadores.copy()
    random.shuffle(ronda)
    while len(ronda) > 1:
        siguiente = []
        # Asegurar número par para emparejamientos
        if len(ronda) % 2 != 0:
             siguiente.append(ronda.pop())
             
        for i in range(0, len(ronda), 2):
            ganador = simular_enfrentamiento(ronda[i], ronda[i+1], modelo)
            siguiente.append(ganador)
        ronda = siguiente
    return ronda[0]

# Ejecución Monte Carlo
top_players = df_master['player_name_clean'].value_counts().head(8).index.tolist()
if len(top_players) < 8:
    print(f"Warning: Simulando con {len(top_players)} jugadores.")

n_sims = 1000
victorias = {p: 0 for p in top_players}

for _ in range(n_sims):
    campeon = simular_torneo(top_players, model)
    if campeon in victorias:
        victorias[campeon] += 1

ranking = pd.DataFrame(list(victorias.items()), columns=['Jugador', 'Victorias'])
ranking['Probabilidad_Campeonato'] = (ranking['Victorias'] / n_sims) * 100
ranking = ranking.sort_values('Probabilidad_Campeonato', ascending=False).reset_index(drop=True)

print("\n--- Ranking de Probabilidad de Campeonato ---")
display(ranking)


--- Ranking de Probabilidad de Campeonato ---


Unnamed: 0,Jugador,Victorias,Probabilidad_Campeonato
0,juliana beltran diaz,525,52.5
1,juan pablo aponte veloza,146,14.6
2,sara juliana solano boada,93,9.3
3,santiago navarro cuy,89,8.9
4,rafael andres salcedo valdivieso,75,7.5
5,luis jorge garcia camargo,67,6.7
6,nicolas navarro,3,0.3
7,sergio andres lopez rodriguez,2,0.2


In [28]:
# 3. Sistema de Recomendación Híbrido (Refinado)

def generar_feedback_refinado(jugador, modelo, importancias, df_perfiles):
    perfil = df_perfiles[df_perfiles['player_name_clean'] == jugador].iloc[0]
    nombre_real = perfil['nombre_raw']
    
    print(f"\n>>> Feedback para: {nombre_real} <<<")
    
    # 1. Técnico (Feature Importance)
    top_feature = importancias.iloc[0]['feature']
    print(f"[Técnico] Enfócate en: {top_feature} (Tu valor: {perfil[top_feature]:.2f})")
    
    # 2. Encuesta (Físico / Experiencia)
    estado = perfil['ESTADO_FISICO']
    experiencia = perfil['EXPERIENCIA_PADEL']
    
    tiene_dato = False
    
    if pd.notna(estado):
        print(f"[Físico] Reportado: {estado}. ", end="")
        if estado in ['Malo', 'Regular']:
            print("Tip: Prioriza cardio y recuperación.")
        elif estado == 'Bueno':
            print("Tip: Mantén tu rutina y suma ejercicios de reacción.")
        else:
            print("Tip: ¡Sigue así! Tu físico es una ventaja.")
        tiene_dato = True
        
    if pd.notna(experiencia):
        print(f"[Experiencia] Nivel: {experiencia}. ", end="")
        if experiencia in ['Primera vez', 'Menos de 6 meses']:
            print("Tip: La constancia es clave. Juega partidos amistosos.")
        else:
            print("Tip: Busca rivales de mayor nivel para seguir progresando.")
        tiene_dato = True
        
    if not tiene_dato:
        print("(Sin datos de encuesta para feedback personalizado)")

# Generar para los Top 3
print("\n--- Feedback Personalizado (Top 3) ---")
for p in ranking['Jugador'].head(3):
    generar_feedback_refinado(p, model, importances, df_perfiles)


--- Feedback Personalizado (Top 3) ---

>>> Feedback para: Juliana Beltrán Díaz  <<<
[Técnico] Enfócate en: video_distancia_total_m (Tu valor: 16.39)
[Físico] Reportado: Bueno. Tip: Mantén tu rutina y suma ejercicios de reacción.
[Experiencia] Nivel: Sí. Tip: Busca rivales de mayor nivel para seguir progresando.

>>> Feedback para: Juan Pablo Aponte Veloza  <<<
[Técnico] Enfócate en: video_distancia_total_m (Tu valor: 3.13)
[Físico] Reportado: Excelente. Tip: ¡Sigue así! Tu físico es una ventaja.
[Experiencia] Nivel: No. Tip: Busca rivales de mayor nivel para seguir progresando.

>>> Feedback para: Santiago Navarro Cuy <<<
[Técnico] Enfócate en: video_distancia_total_m (Tu valor: 10.22)
[Físico] Reportado: Malo. Tip: Prioriza cardio y recuperación.
[Experiencia] Nivel: No. Tip: Busca rivales de mayor nivel para seguir progresando.
