# Exploración inicial de la base de datos

El objetivo de este cuaderno es cargar `Base_Videos_Final.csv` y obtener una primera visión de la calidad y el perfil de sus variables.

In [1]:
import pandas as pd

pd.set_option('display.max_columns', None)
DATA_PATH = 'Base_Videos_Final.csv'
df = pd.read_csv(DATA_PATH)
print(f'Filas: {df.shape[0]:,} | Columnas: {df.shape[1]}')
df.head()

FileNotFoundError: [Errno 2] No such file or directory: 'Base_Videos_Final.csv'

## Tipos de dato y conteo de registros no nulos
Cada columna se acompaña de su tipo, la cantidad de valores distintos de nulo y cuántos están perdidos.

In [32]:
variable_profile = (
    df.dtypes.rename('dtype').to_frame()
        .assign(non_nulls=df.count(),
                nulls=lambda t: len(df) - t['non_nulls'])
)
variable_profile

Unnamed: 0,dtype,non_nulls,nulls
frame_idx,int64,540300,0
duration,float64,540300,0
total_frames,int64,540300,0
video_duration,float64,540300,0
player_id,int64,540300,0
player_name,object,519424,20876
team,object,159382,380918
zone,object,540300,0
ball_position_x,float64,540300,0
ball_position_y,float64,540300,0


## Valores nulos
Se contabiliza el total y el porcentaje que representan por columna.

In [33]:
null_summary = (
    df.isna().sum()
      .to_frame('null_count')
      .assign(null_pct=lambda t: (t['null_count'] / len(df) * 100).round(2))
      .sort_values('null_count', ascending=False)
)
null_summary

Unnamed: 0,null_count,null_pct
time_since_last_hit,523939,96.97
team,380918,70.5
distance_player_to_teammate_m,282544,52.29
ball_position_x_prev,109557,20.28
ball_speed_mps,109557,20.28
ball_displacement,109557,20.28
ball_position_y_prev,109557,20.28
punto,20876,3.86
player_name,20876,3.86
player_acceleration_mps2,5208,0.96


## Filas duplicadas
Se detectan filas idénticas en todas las columnas para identificar registros repetidos.

In [34]:
duplicate_mask = df.duplicated()
duplicate_count = duplicate_mask.sum()
print(f'Filas duplicadas: {duplicate_count} ({duplicate_count / len(df) * 100:.2f}% del total)')
df[duplicate_mask].head()

Filas duplicadas: 0 (0.00% del total)


Unnamed: 0,frame_idx,duration,total_frames,video_duration,player_id,player_name,team,zone,ball_position_x,ball_position_y,player_position_x,player_position_y,distance_ball_to_net,distance_player_to_ball_m,distance_player_to_net_m,distance_player_to_teammate_m,player_hits_ball,prev_x,prev_y,player_displacement,player_speed_mps,prev_speed,player_acceleration_mps2,ball_position_x_prev,ball_position_y_prev,ball_displacement,ball_speed_mps,time_since_last_hit,partido,punto


## Descripción estadística de las variables
Se obtiene una visión general de la distribución de cada variable (numérica y categórica).

In [35]:
description = df.describe(include='all').transpose()
description

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
frame_idx,540300.0,,,,236.541947,208.280158,0.0,88.0,181.0,325.0,1349.0
duration,540300.0,,,,0.024876,0.00832,0.016667,0.016667,0.016773,0.033333,0.033333
total_frames,540300.0,,,,471.026461,273.626478,72.0,278.0,420.0,597.0,1350.0
video_duration,540300.0,,,,11.333344,7.086376,1.2,6.566667,9.15,14.833333,42.7
player_id,540300.0,,,,14.085208,44.588668,1.0,2.0,3.0,7.0,825.0
player_name,519424.0,331.0,María José Cifuentes,18532.0,,,,,,,
team,159382.0,2.0,bottom,81394.0,,,,,,,
zone,540300.0,3.0,left_box,224013.0,,,,,,,
ball_position_x,540300.0,,,,4.239575,2.549286,0.56,2.2,3.52,6.2,23.12
ball_position_y,540300.0,,,,10.316255,4.537078,0.311111,6.488889,10.622222,13.866667,27.688889


# Limpieza de Datos

En este apartado realizamos una limpieza sistemática del dataset orientada a mejorar la calidad, consistencia temporal y coherencia física de todas las variables derivadas.

## Estrategia de limpieza

1. **Conservación de columnas correctamente observadas**
   Las variables completas y sin problemas de captura se mantienen sin modificaciones.

2. **Eliminación de filas con `player_name` o `punto` faltantes**
   Estas filas (~3.86%) no pueden asociarse a un jugador o a una secuencia válida dentro del punto, por lo que se descartan.

3. **Eliminación de columnas con exceso de valores faltantes**

   * `team`: 70.50% faltantes → se elimina por imposibilidad de reconstrucción confiable.
   * `distance_player_to_teammate_m`: depende directamente de `team` → se elimina.
   * `time_since_last_hit` (original): 96.97% faltantes → se elimina; será recalculada correctamente.

4. **Reconstrucción de variables derivadas del jugador y la pelota**

   * Se ordenan las secuencias por (`player_id`, `partido`, `punto`, `frame_idx`) o (`partido`, `punto`, `frame_idx`) para preservar coherencia temporal.
   * Las variables previas (`prev_x`, `prev_y`, `prev_speed`, y sus equivalentes para la pelota) se recalculan usando el **frame anterior** mediante `shift(1)`.
   * Se recomputan desplazamientos, velocidades y aceleraciones para asegurar consistencia física.
   * En el primer frame de cada grupo, los valores previos se igualan a los valores actuales para evitar valores no definidos.

5. **Suavizado ligero de la trayectoria de la pelota**
   Se aplica una mediana móvil de ventana 3 que reduce saltos espurios del tracking sin afectar la dinámica real del movimiento.

6. **Recálculo de `time_since_last_hit`**
   Se utiliza un método vectorizado:

   * Se calcula el tiempo acumulado por frame (`cumsum(duration)`).
   * Se identifican los frames con golpe y se propaga hacia atrás el último instante de golpe (`ffill`).
   * `time_since_last_hit` se define como la diferencia entre el tiempo acumulado actual y el último golpe.
     Esto resetea correctamente el tiempo en cada golpe y acumula entre golpes de forma consistente.



## Paso 1: Crear una copia del DataFrame original

In [36]:
# Crear copia para no modificar el DataFrame original
df_clean = df.copy()
print(f'DataFrame inicial: {df_clean.shape[0]:,} filas x {df_clean.shape[1]} columnas')

DataFrame inicial: 540,300 filas x 30 columnas


## Paso 2: Eliminar filas con player_name o punto faltantes

**Justificación**: Estas variables son identificadores clave para las secuencias de juego. Sin ellas no podemos agrupar correctamente las trayectorias ni identificar a qué punto pertenece cada observación. Representan solo el 3.86% del total, por lo que su eliminación no afecta significativamente al tamaño muestral.

In [37]:
# Eliminar filas con player_name o punto faltantes
filas_antes = len(df_clean)
df_clean = df_clean.dropna(subset=['player_name', 'punto'])
filas_despues = len(df_clean)

print(f'Filas eliminadas: {filas_antes - filas_despues:,} ({(filas_antes - filas_despues)/filas_antes*100:.2f}%)')
print(f'Filas restantes: {filas_despues:,}')

Filas eliminadas: 20,876 (3.86%)
Filas restantes: 519,424


## Paso 3: Eliminar columnas con exceso de valores faltantes

**Justificación**:
- **team** (70.50% faltantes): No se puede reconstruir con confianza, y falta en la mayoría de observaciones
- **distance_player_to_teammate_m** (52.29% faltantes): Derivada de `team`, por lo que hereda su problema de calidad
- **time_since_last_hit** (96.97% faltantes): La recalcularemos correctamente usando `player_hits_ball` y `frame_idx`

In [38]:
# Eliminar columnas problemáticas
columnas_a_eliminar = ['team', 'distance_player_to_teammate_m', 'time_since_last_hit']
df_clean = df_clean.drop(columns=columnas_a_eliminar)

print(f'Columnas eliminadas: {len(columnas_a_eliminar)}')
print(f'Columnas restantes: {df_clean.shape[1]}')
print(f'\nColumnas eliminadas: {columnas_a_eliminar}')

Columnas eliminadas: 3
Columnas restantes: 27

Columnas eliminadas: ['team', 'distance_player_to_teammate_m', 'time_since_last_hit']


## Paso 4: Identificar variables derivadas con valores faltantes

Las siguientes variables tienen valores faltantes debido a que se calculan a partir de diferencias temporales o frames previos. En el primer frame de cada secuencia (jugador-partido-punto) no existe un frame anterior, por lo que aparecen como faltantes.

In [39]:
# Verificar valores faltantes actuales
columnas_derivadas = [
    'prev_x', 'prev_y', 'player_displacement', 'player_speed_mps',
    'prev_speed', 'player_acceleration_mps2',
    'ball_position_x_prev', 'ball_position_y_prev', 'ball_displacement', 'ball_speed_mps'
]

print('Variables derivadas con valores faltantes:')
for col in columnas_derivadas:
    if col in df_clean.columns:
        n_null = df_clean[col].isna().sum()
        pct_null = n_null / len(df_clean) * 100
        print(f'  {col}: {n_null:,} ({pct_null:.2f}%)')

Variables derivadas con valores faltantes:
  prev_x: 2,652 (0.51%)
  prev_y: 2,652 (0.51%)
  player_displacement: 2,652 (0.51%)
  player_speed_mps: 2,652 (0.51%)
  prev_speed: 5,087 (0.98%)
  player_acceleration_mps2: 5,087 (0.98%)
  ball_position_x_prev: 104,332 (20.09%)
  ball_position_y_prev: 104,332 (20.09%)
  ball_displacement: 104,332 (20.09%)
  ball_speed_mps: 104,332 (20.09%)


## Paso 5: Rellenar variables derivadas de posición del jugador

**Estrategia**

- Ordenar cada secuencia por (player_id, partido, punto, frame_idx).

- Reconstruir prev_x, prev_y y prev_speed usando el frame anterior (shift(1)), no el siguiente.

**Justificación**

- El uso de shift(1) respeta la causalidad temporal y genera variables físicamente coherentes.

In [None]:
# 1) Aseguramos orden temporal global
df_clean = df_clean.sort_values(['player_id', 'partido', 'punto', 'frame_idx']).reset_index(drop=True)

def fill_player_derived_variables(group):
    """
    Recalcula variables derivadas del jugador usando el frame anterior
    dentro de cada secuencia (player_id, partido, punto).
    """
    # Por seguridad, reordenamos por frame_idx dentro del grupo
    group = group.sort_values('frame_idx').copy()
    
    # --- 1. prev_x y prev_y a partir de la posición anterior ---
    group['prev_x'] = group['player_position_x'].shift(1)
    group['prev_y'] = group['player_position_y'].shift(1)
    
    # Para el primer frame del grupo (sin frame anterior),
    # asumimos que estaba en la misma posición que el frame actual
    mask_first = group['prev_x'].isna()
    group.loc[mask_first, 'prev_x'] = group.loc[mask_first, 'player_position_x']
    group.loc[mask_first, 'prev_y'] = group.loc[mask_first, 'player_position_y']
    
    # --- 2. Desplazamiento del jugador ---
    group['player_displacement'] = np.sqrt(
        (group['player_position_x'] - group['prev_x'])**2 +
        (group['player_position_y'] - group['prev_y'])**2
    )
    
    # --- 3. Velocidad del jugador (m/s) ---
    duration_safe = group['duration'].replace(0, np.nan)
    group['player_speed_mps'] = group['player_displacement'] / duration_safe
    group['player_speed_mps'] = group['player_speed_mps'].fillna(0)
    
    # --- 4. Velocidad previa (frame anterior) ---
    group['prev_speed'] = group['player_speed_mps'].shift(1)
    group['prev_speed'] = group['prev_speed'].fillna(group['player_speed_mps'])
    
    # --- 5. Aceleración del jugador (m/s^2) ---
    group['player_acceleration_mps2'] = (
        (group['player_speed_mps'] - group['prev_speed']) / duration_safe
    )
    group['player_acceleration_mps2'] = group['player_acceleration_mps2'].fillna(0)
    
    return group

print('Recalculando variables derivadas del jugador por grupo (player_id, partido, punto)...')
df_clean = df_clean.groupby(['player_id', 'partido', 'punto'], group_keys=False).apply(fill_player_derived_variables)

print('\nValores faltantes después del recalculo (variables del jugador):')
for col in ['prev_x', 'prev_y', 'player_displacement', 'player_speed_mps', 'prev_speed', 'player_acceleration_mps2']:
    n_null = df_clean[col].isna().sum()
    print(f'  {col}: {n_null:,}')

Rellenando variables derivadas del jugador por grupo (player_id, partido, punto)...

Valores faltantes después del relleno (variables del jugador):
  prev_x: 217
  prev_y: 217
  player_displacement: 217
  player_speed_mps: 217
  prev_speed: 379
  player_acceleration_mps2: 379


## Paso 6: Rellenar variables derivadas de posición de la pelota


**Estrategia**

- Ordenar cada punto por frame_idx.

- Aplicar un suavizado ligero (mediana móvil ventana 3) a la trayectoria de la pelota.

- Calcular ball_position_x_prev y ball_position_y_prev con shift(1) sobre posiciones suavizadas.

**Justificación**

- El suavizado elimina saltos falsos típicos del tracking de pelota.

In [None]:
def fill_ball_derived_variables(group):
    """
    Recalcula variables derivadas de la pelota dentro de cada punto.
    Incluye un suavizado ligero para reducir ruido en la trayectoria.
    """
    group = group.sort_values('frame_idx').copy()
    
    # --- (Opcional pero MUY útil) Suavizar la trayectoria de la pelota ---
    # Rolling median con ventana 3, centrada:
    group['ball_position_x_smooth'] = (
        group['ball_position_x']
        .rolling(window=3, center=True, min_periods=1)
        .median()
    )
    group['ball_position_y_smooth'] = (
        group['ball_position_y']
        .rolling(window=3, center=True, min_periods=1)
        .median()
    )
    
    # Usamos las posiciones suavizadas para calcular el "prev"
    x = group['ball_position_x_smooth']
    y = group['ball_position_y_smooth']
    
    group['ball_position_x_prev'] = x.shift(1)
    group['ball_position_y_prev'] = y.shift(1)
    
    # Para el primer frame del punto, usar la misma posición
    mask_first = group['ball_position_x_prev'].isna()
    group.loc[mask_first, 'ball_position_x_prev'] = group.loc[mask_first, 'ball_position_x_smooth']
    group.loc[mask_first, 'ball_position_y_prev'] = group.loc[mask_first, 'ball_position_y_smooth']
    
    # --- Desplazamiento de la pelota (a partir de posiciones suavizadas) ---
    group['ball_displacement'] = np.sqrt(
        (group['ball_position_x_smooth'] - group['ball_position_x_prev'])**2 +
        (group['ball_position_y_smooth'] - group['ball_position_y_prev'])**2
    )
    
    # --- Velocidad de la pelota (m/s) ---
    duration_safe = group['duration'].replace(0, np.nan)
    group['ball_speed_mps'] = group['ball_displacement'] / duration_safe
    group['ball_speed_mps'] = group['ball_speed_mps'].fillna(0)
    
    return group

print('Recalculando variables derivadas de la pelota por grupo (partido, punto)...')
df_clean = df_clean.groupby(['partido', 'punto'], group_keys=False).apply(fill_ball_derived_variables)

print('\nValores faltantes después del recalculo (variables de la pelota):')
for col in ['ball_position_x_prev', 'ball_position_y_prev', 'ball_displacement', 'ball_speed_mps']:
    n_null = df_clean[col].isna().sum()
    print(f'  {col}: {n_null:,}')


## Paso 7: Recalcular time_since_last_hit

**Estrategia**

- Ordenar cada secuencia por frame_idx.

- Calcular el tiempo acumulado total (cumsum(duration)).

- Marcar los instantes donde hubo golpe y propagar hacia atrás el último golpe (ffill).

- Definir time_since_last_hit como la diferencia entre el tiempo acumulado actual y el último instante de golpe.

**Justificación**

- Este método es totalmente vectorizado y evita ciclos o manejo manual de índices.

- Resetea correctamente el contador en cada golpe y acumula tiempo entre golpes.

- Funciona incluso cuando no hay golpes (acumula desde el inicio) y mantiene consistencia física.

In [None]:
def calculate_time_since_last_hit(group):
    """
    Tiempo transcurrido desde el último golpe de ESTE jugador
    dentro del punto: se acumulan los 'duration' y se resetea al golpear.
    """
    group = group.sort_values('frame_idx').copy()
    
    # Acumulado total de tiempo
    cum_time = group['duration'].cumsum()
    
    # En qué instantes acumulados hubo golpe
    hit_cum = cum_time.where(group['player_hits_ball'] == 1)
    
    # Último instante acumulado en que hubo golpe (hacia atrás)
    last_hit_cum = hit_cum.ffill().fillna(0)
    
    # Diferencia = tiempo desde el último golpe
    group['time_since_last_hit'] = cum_time - last_hit_cum
    
    return group

print('Recalculando time_since_last_hit por grupo (player_id, partido, punto)...')
df_clean = df_clean.groupby(['player_id', 'partido', 'punto'], group_keys=False).apply(calculate_time_since_last_hit)


## Paso 8: Verificación final de la limpieza

In [None]:
# Resumen de valores faltantes después de la limpieza
print('='*70)
print('RESUMEN DE LIMPIEZA DE DATOS')
print('='*70)

null_summary_clean = (
    df_clean.isna().sum()
      .to_frame('null_count')
      .assign(null_pct=lambda t: (t['null_count'] / len(df_clean) * 100).round(2))
      .sort_values('null_count', ascending=False)
)

print(f'\nDimensiones finales: {df_clean.shape[0]:,} filas x {df_clean.shape[1]} columnas')
print(f'\nColumnas con valores faltantes:')
print(null_summary_clean[null_summary_clean['null_count'] > 0])

print(f'\n\nTotal de valores faltantes en todo el dataset: {df_clean.isna().sum().sum():,}')
print(f'Porcentaje de completitud: {(1 - df_clean.isna().sum().sum() / (df_clean.shape[0] * df_clean.shape[1])) * 100:.2f}%')

Valores imposibles físicamente

In [None]:
# 1) Revisión rápida de variables clave (ajusta la lista si quieres)
key_vars = [
    'player_speed_mps',
    'player_acceleration_mps2',
    'player_displacement',
    'ball_speed_mps',
    'ball_displacement',
    'player_distance_teammate_m',
    'distance_ball_to_net',
    'distance_player_to_ball_m',
    'distance_player_to_net_m',
    'time_since_last_hit',
]

existing_key_vars = [c for c in key_vars if c in df_clean.columns]
print(df_clean[existing_key_vars].describe(percentiles=[0.95, 0.99, 0.995]))

In [None]:
# 2) Definir límites físicos (ajústalos si lo ves necesario)
phys_limits = {
    # Jugador
    'player_speed_mps': (0, 8),           # m/s
    'player_acceleration_mps2': (-10, 10),# m/s^2
    'player_displacement': (0, 1.5),      # m por frame
    
    # Pelota
    'ball_speed_mps': (0, 40),            # m/s
    'ball_displacement': (0, 8),          # m por frame
    
    # Distancias (en metros, aprox. dimensiones de pista de pádel)
    'distance_ball_to_net': (0, 15),
    'distance_player_to_ball_m': (0, 25),
    'distance_player_to_net_m': (0, 15),
    'player_distance_teammate_m': (0, 25),
}


# 3) Función para añadir banderas de outliers físicos y estadísticos
def add_outlier_flags(df, phys_limits, stat_q_low=0.001, stat_q_high=0.999):
    df = df.copy()
    
    # --- Outliers físicos ---
    phys_flag_cols = []
    for col, (low, high) in phys_limits.items():
        if col in df.columns:
            flag_col = f'out_phys_{col}'
            df[flag_col] = (df[col] < low) | (df[col] > high)
            phys_flag_cols.append(flag_col)
    
    if phys_flag_cols:
        df['out_any_physical'] = df[phys_flag_cols].any(axis=1)
    else:
        df['out_any_physical'] = False  # por si no existe ninguna
    
    # Outlier general (físico o estadístico)
    df['out_any'] = df['out_any_physical'] 
    
    return df


In [None]:

df_clean = add_outlier_flags(df_clean, phys_limits)

print("\nResumen de banderas de outliers:")
flag_cols = [c for c in df_clean.columns if c.startswith('out_')]
print(df_clean[flag_cols].sum())

In [None]:
# 5) filtrar a nivel de frame (más conservador)
n_before = len(df_clean)

# Si tienes 'frame_seq_ok' de la validación de continuidad, la usamos; si no, todo True
if 'frame_seq_ok' in df_clean.columns:
    mask_cont = df_clean['frame_seq_ok']
else:
    mask_cont = np.ones(len(df_clean), dtype=bool)

mask_frames_ok = (~df_clean['out_any']) & mask_cont

df_clean_frames = df_clean[mask_frames_ok].copy()
n_after_frames = len(df_clean_frames)

print(f"\nFrames eliminados (outliers físicos): {n_before - n_after_frames:,}")
print(f"Frames restantes (df_clean_frames): {n_after_frames:,}")

## Paso 9: Guardar el dataset limpio

In [None]:
# Guardar el dataset limpio
OUTPUT_PATH = 'Base_Videos_Clean.csv'
df_clean_frames.to_csv(OUTPUT_PATH, index=False)
print(f'Dataset limpio guardado en: {OUTPUT_PATH}')
print(f'Tamaño del archivo: {df_clean_frames.memory_usage(deep=True).sum() / 1024**2:.2f} MB en memoria')