# Exploración inicial de la base de datos

El objetivo de este cuaderno es cargar `Base_Videos_Final.csv` y obtener una primera visión de la calidad y el perfil de sus variables.

In [31]:
import pandas as pd

pd.set_option('display.max_columns', None)
DATA_PATH = 'Base_Videos_Final.csv'
df = pd.read_csv(DATA_PATH)
print(f'Filas: {df.shape[0]:,} | Columnas: {df.shape[1]}')
df.head()

Filas: 540,300 | Columnas: 30


  df = pd.read_csv(DATA_PATH)


Unnamed: 0,frame_idx,duration,total_frames,video_duration,player_id,player_name,team,zone,ball_position_x,ball_position_y,player_position_x,player_position_y,distance_ball_to_net,distance_player_to_ball_m,distance_player_to_net_m,distance_player_to_teammate_m,player_hits_ball,prev_x,prev_y,player_displacement,player_speed_mps,prev_speed,player_acceleration_mps2,ball_position_x_prev,ball_position_y_prev,ball_displacement,ball_speed_mps,time_since_last_hit,partido,punto
0,0,0.033333,625,20.833333,1,Luis Jorge Garcia Camargo,top,right_box,3.24,17.111111,1.48,1.48,7.111111,13.58119,6.355556,7.41199,False,,,,,,,,,,,,Partido 27,10.0
1,1,0.033333,625,20.833333,1,Luis Jorge Garcia Camargo,top,right_box,3.24,17.111111,1.48,1.48,7.111111,13.58119,6.355556,7.41199,False,1.48,1.48,0.0,0.0,,,,,,,,Partido 27,10.0
2,2,0.033333,625,20.833333,1,Luis Jorge Garcia Camargo,top,right_box,3.24,17.111111,1.48,1.48,7.111111,13.58119,6.355556,7.41199,False,1.48,1.48,0.0,0.0,0.0,0.0,,,,,,Partido 27,10.0
3,3,0.033333,625,20.833333,1,Luis Jorge Garcia Camargo,top,right_box,3.24,17.111111,1.48,1.48,7.111111,13.58119,6.355556,7.3881,False,1.48,1.48,0.0,0.0,0.0,0.0,,,,,,Partido 27,10.0
4,4,0.033333,625,20.833333,1,Luis Jorge Garcia Camargo,top,right_box,3.24,17.111111,1.48,1.48,7.111111,13.58119,6.355556,7.3881,False,1.48,1.48,0.0,0.0,0.0,0.0,,,,,,Partido 27,10.0


## Tipos de dato y conteo de registros no nulos
Cada columna se acompaña de su tipo, la cantidad de valores distintos de nulo y cuántos están perdidos.

In [32]:
variable_profile = (
    df.dtypes.rename('dtype').to_frame()
        .assign(non_nulls=df.count(),
                nulls=lambda t: len(df) - t['non_nulls'])
)
variable_profile

Unnamed: 0,dtype,non_nulls,nulls
frame_idx,int64,540300,0
duration,float64,540300,0
total_frames,int64,540300,0
video_duration,float64,540300,0
player_id,int64,540300,0
player_name,object,519424,20876
team,object,159382,380918
zone,object,540300,0
ball_position_x,float64,540300,0
ball_position_y,float64,540300,0


## Valores nulos
Se contabiliza el total y el porcentaje que representan por columna.

In [33]:
null_summary = (
    df.isna().sum()
      .to_frame('null_count')
      .assign(null_pct=lambda t: (t['null_count'] / len(df) * 100).round(2))
      .sort_values('null_count', ascending=False)
)
null_summary

Unnamed: 0,null_count,null_pct
time_since_last_hit,523939,96.97
team,380918,70.5
distance_player_to_teammate_m,282544,52.29
ball_position_x_prev,109557,20.28
ball_speed_mps,109557,20.28
ball_displacement,109557,20.28
ball_position_y_prev,109557,20.28
punto,20876,3.86
player_name,20876,3.86
player_acceleration_mps2,5208,0.96


## Filas duplicadas
Se detectan filas idénticas en todas las columnas para identificar registros repetidos.

In [34]:
duplicate_mask = df.duplicated()
duplicate_count = duplicate_mask.sum()
print(f'Filas duplicadas: {duplicate_count} ({duplicate_count / len(df) * 100:.2f}% del total)')
df[duplicate_mask].head()

Filas duplicadas: 0 (0.00% del total)


Unnamed: 0,frame_idx,duration,total_frames,video_duration,player_id,player_name,team,zone,ball_position_x,ball_position_y,player_position_x,player_position_y,distance_ball_to_net,distance_player_to_ball_m,distance_player_to_net_m,distance_player_to_teammate_m,player_hits_ball,prev_x,prev_y,player_displacement,player_speed_mps,prev_speed,player_acceleration_mps2,ball_position_x_prev,ball_position_y_prev,ball_displacement,ball_speed_mps,time_since_last_hit,partido,punto


## Descripción estadística de las variables
Se obtiene una visión general de la distribución de cada variable (numérica y categórica).

In [35]:
description = df.describe(include='all').transpose()
description

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
frame_idx,540300.0,,,,236.541947,208.280158,0.0,88.0,181.0,325.0,1349.0
duration,540300.0,,,,0.024876,0.00832,0.016667,0.016667,0.016773,0.033333,0.033333
total_frames,540300.0,,,,471.026461,273.626478,72.0,278.0,420.0,597.0,1350.0
video_duration,540300.0,,,,11.333344,7.086376,1.2,6.566667,9.15,14.833333,42.7
player_id,540300.0,,,,14.085208,44.588668,1.0,2.0,3.0,7.0,825.0
player_name,519424.0,331.0,María José Cifuentes,18532.0,,,,,,,
team,159382.0,2.0,bottom,81394.0,,,,,,,
zone,540300.0,3.0,left_box,224013.0,,,,,,,
ball_position_x,540300.0,,,,4.239575,2.549286,0.56,2.2,3.52,6.2,23.12
ball_position_y,540300.0,,,,10.316255,4.537078,0.311111,6.488889,10.622222,13.866667,27.688889


# Limpieza de Datos

En este apartado realizaremos una limpieza sistemática del dataset siguiendo criterios de calidad de datos y coherencia física de las variables derivadas.

## Estrategia de limpieza:

1. **Columnas completamente observadas**: Se conservan tal cual
2. **Filas con player_name/punto faltantes**: Se eliminan (representan ~3.86% del total)
3. **Columnas con exceso de valores faltantes**:
   - `team`: 70.50% faltantes → se elimina
   - `distance_player_to_teammate_m`: 52.29% faltantes → se elimina
   - `time_since_last_hit`: 96.97% faltantes → se elimina (la recalcularemos)
4. **Series derivadas con valores faltantes**:
   - Variables de posición previa, velocidad y aceleración
   - Los faltantes corresponden al primer frame de cada secuencia (jugador-partido-punto)
   - Se rellenan usando `groupby` por jugador/partido/punto con `ffill/bfill` o recalculando
5. **Recálculo de time_since_last_hit**: Usando `player_hits_ball` y `frame_idx`

## Paso 1: Crear una copia del DataFrame original

In [36]:
# Crear copia para no modificar el DataFrame original
df_clean = df.copy()
print(f'DataFrame inicial: {df_clean.shape[0]:,} filas x {df_clean.shape[1]} columnas')

DataFrame inicial: 540,300 filas x 30 columnas


## Paso 2: Eliminar filas con player_name o punto faltantes

**Justificación**: Estas variables son identificadores clave para las secuencias de juego. Sin ellas no podemos agrupar correctamente las trayectorias ni identificar a qué punto pertenece cada observación. Representan solo el 3.86% del total, por lo que su eliminación no afecta significativamente al tamaño muestral.

In [37]:
# Eliminar filas con player_name o punto faltantes
filas_antes = len(df_clean)
df_clean = df_clean.dropna(subset=['player_name', 'punto'])
filas_despues = len(df_clean)

print(f'Filas eliminadas: {filas_antes - filas_despues:,} ({(filas_antes - filas_despues)/filas_antes*100:.2f}%)')
print(f'Filas restantes: {filas_despues:,}')

Filas eliminadas: 20,876 (3.86%)
Filas restantes: 519,424


## Paso 3: Eliminar columnas con exceso de valores faltantes

**Justificación**:
- **team** (70.50% faltantes): No se puede reconstruir con confianza, y falta en la mayoría de observaciones
- **distance_player_to_teammate_m** (52.29% faltantes): Derivada de `team`, por lo que hereda su problema de calidad
- **time_since_last_hit** (96.97% faltantes): La recalcularemos correctamente usando `player_hits_ball` y `frame_idx`

In [38]:
# Eliminar columnas problemáticas
columnas_a_eliminar = ['team', 'distance_player_to_teammate_m', 'time_since_last_hit']
df_clean = df_clean.drop(columns=columnas_a_eliminar)

print(f'Columnas eliminadas: {len(columnas_a_eliminar)}')
print(f'Columnas restantes: {df_clean.shape[1]}')
print(f'\nColumnas eliminadas: {columnas_a_eliminar}')

Columnas eliminadas: 3
Columnas restantes: 27

Columnas eliminadas: ['team', 'distance_player_to_teammate_m', 'time_since_last_hit']


## Paso 4: Identificar variables derivadas con valores faltantes

Las siguientes variables tienen valores faltantes debido a que se calculan a partir de diferencias temporales o frames previos. En el primer frame de cada secuencia (jugador-partido-punto) no existe un frame anterior, por lo que aparecen como faltantes.

In [39]:
# Verificar valores faltantes actuales
columnas_derivadas = [
    'prev_x', 'prev_y', 'player_displacement', 'player_speed_mps',
    'prev_speed', 'player_acceleration_mps2',
    'ball_position_x_prev', 'ball_position_y_prev', 'ball_displacement', 'ball_speed_mps'
]

print('Variables derivadas con valores faltantes:')
for col in columnas_derivadas:
    if col in df_clean.columns:
        n_null = df_clean[col].isna().sum()
        pct_null = n_null / len(df_clean) * 100
        print(f'  {col}: {n_null:,} ({pct_null:.2f}%)')

Variables derivadas con valores faltantes:
  prev_x: 2,652 (0.51%)
  prev_y: 2,652 (0.51%)
  player_displacement: 2,652 (0.51%)
  player_speed_mps: 2,652 (0.51%)
  prev_speed: 5,087 (0.98%)
  player_acceleration_mps2: 5,087 (0.98%)
  ball_position_x_prev: 104,332 (20.09%)
  ball_position_y_prev: 104,332 (20.09%)
  ball_displacement: 104,332 (20.09%)
  ball_speed_mps: 104,332 (20.09%)


## Paso 5: Rellenar variables derivadas de posición del jugador

**Estrategia**:
1. **prev_x, prev_y**: Rellenar con `bfill` por grupo (player_id, partido, punto) - corresponden a la posición del frame anterior
2. **player_displacement**: Recalcular usando la diferencia entre posición actual y previa
3. **player_speed_mps**: Recalcular usando displacement y duration
4. **prev_speed**: Rellenar con `bfill` por grupo
5. **player_acceleration_mps2**: Recalcular usando la diferencia de velocidades

**Justificación**: Estas variables son derivadas de posiciones del jugador. Al agrupar por (player_id, partido, punto) garantizamos que no mezclamos trayectorias de diferentes jugadores o secuencias de juego. El `bfill` rellena el primer frame con el valor del segundo frame, lo cual es físicamente razonable (asumimos que el jugador estaba en una posición similar).

In [40]:
# Ordenar por grupos relevantes y frame_idx para garantizar secuencia temporal correcta
df_clean = df_clean.sort_values(['player_id', 'partido', 'punto', 'frame_idx']).reset_index(drop=True)

# Definir función para rellenar por grupo
def fill_player_derived_variables(group):
    """
    Rellena y recalcula variables derivadas de posición del jugador
    respetando la coherencia física dentro de cada secuencia.
    """
    group = group.copy()
    
    # 1. Rellenar prev_x y prev_y con bfill (usar valor del siguiente frame disponible)
    group['prev_x'] = group['prev_x'].bfill()
    group['prev_y'] = group['prev_y'].bfill()
    
    # 2. Recalcular player_displacement usando posiciones
    group['player_displacement'] = np.sqrt(
        (group['player_position_x'] - group['prev_x'])**2 + 
        (group['player_position_y'] - group['prev_y'])**2
    )
    
    # 3. Recalcular player_speed_mps usando displacement y duration
    # Evitar división por cero
    group['player_speed_mps'] = np.where(
        group['duration'] > 0,
        group['player_displacement'] / group['duration'],
        0
    )
    
    # 4. Rellenar prev_speed con bfill
    group['prev_speed'] = group['prev_speed'].bfill()
    
    # 5. Recalcular player_acceleration_mps2
    group['player_acceleration_mps2'] = np.where(
        group['duration'] > 0,
        (group['player_speed_mps'] - group['prev_speed']) / group['duration'],
        0
    )
    
    return group

# Aplicar transformación por grupo
print('Rellenando variables derivadas del jugador por grupo (player_id, partido, punto)...')
import numpy as np
df_clean = df_clean.groupby(['player_id', 'partido', 'punto'], group_keys=False).apply(fill_player_derived_variables)

# Verificar resultados
print('\nValores faltantes después del relleno (variables del jugador):')
for col in ['prev_x', 'prev_y', 'player_displacement', 'player_speed_mps', 'prev_speed', 'player_acceleration_mps2']:
    n_null = df_clean[col].isna().sum()
    print(f'  {col}: {n_null:,}')

Rellenando variables derivadas del jugador por grupo (player_id, partido, punto)...

Valores faltantes después del relleno (variables del jugador):
  prev_x: 217
  prev_y: 217
  player_displacement: 217
  player_speed_mps: 217
  prev_speed: 379
  player_acceleration_mps2: 379


## Paso 6: Rellenar variables derivadas de posición de la pelota

**Estrategia**:
1. **ball_position_x_prev, ball_position_y_prev**: Rellenar con `bfill` por grupo (partido, punto)
2. **ball_displacement**: Recalcular usando la diferencia entre posición actual y previa
3. **ball_speed_mps**: Recalcular usando displacement y duration

**Justificación**: La pelota es compartida por todos los jugadores en un punto, por lo que agrupamos solo por (partido, punto). No tiene sentido agrupar por player_id porque la pelota es única en cada momento del punto.

In [None]:
# Función para rellenar variables de la pelota por punto
def fill_ball_derived_variables(group):
    """
    Rellena y recalcula variables derivadas de posición de la pelota
    respetando la coherencia física dentro de cada punto.
    """
    group = group.copy()
    
    # 1. Rellenar ball_position_x_prev y ball_position_y_prev con bfill
    group['ball_position_x_prev'] = group['ball_position_x_prev'].bfill()
    group['ball_position_y_prev'] = group['ball_position_y_prev'].bfill()
    
    # 2. Recalcular ball_displacement
    group['ball_displacement'] = np.sqrt(
        (group['ball_position_x'] - group['ball_position_x_prev'])**2 + 
        (group['ball_position_y'] - group['ball_position_y_prev'])**2
    )
    
    # 3. Recalcular ball_speed_mps
    group['ball_speed_mps'] = np.where(
        group['duration'] > 0,
        group['ball_displacement'] / group['duration'],
        0
    )
    
    return group

# Aplicar transformación por grupo (partido, punto)
print('Rellenando variables derivadas de la pelota por grupo (partido, punto)...')
df_clean = df_clean.groupby(['partido', 'punto'], group_keys=False).apply(fill_ball_derived_variables)

# Verificar resultados
print('\nValores faltantes después del relleno (variables de la pelota):')
for col in ['ball_position_x_prev', 'ball_position_y_prev', 'ball_displacement', 'ball_speed_mps']:
    n_null = df_clean[col].isna().sum()
    print(f'  {col}: {n_null:,}')

## Paso 7: Recalcular time_since_last_hit

**Estrategia**: Usar `player_hits_ball` y `frame_idx` para calcular correctamente el tiempo transcurrido desde el último golpe para cada jugador en cada punto.

**Justificación**: La variable original tenía 96.97% de faltantes, lo cual indica que no fue calculada correctamente. La recalcularemos usando:
- Identificar los frames donde `player_hits_ball == 1`
- Para cada frame, calcular cuántos frames han pasado desde el último golpe
- Convertir frames a tiempo usando `duration` acumulado

Agrupamos por (player_id, partido, punto) para mantener la coherencia de cada secuencia individual.

In [None]:
def calculate_time_since_last_hit(group):
    """
    Calcula el tiempo transcurrido desde el último golpe del jugador.
    Para cada frame, suma los 'duration' desde el último frame donde player_hits_ball == 1.
    """
    group = group.copy()
    
    # Inicializar la columna
    group['time_since_last_hit'] = 0.0
    
    # Identificar índices donde el jugador golpea la pelota
    hit_indices = group[group['player_hits_ball'] == 1].index
    
    if len(hit_indices) == 0:
        # Si el jugador nunca golpea en este punto, el tiempo es acumulativo desde el inicio
        group['time_since_last_hit'] = group['duration'].cumsum()
    else:
        # Para cada segmento entre golpes
        for i, hit_idx in enumerate(hit_indices):
            # Determinar el rango de frames desde este golpe hasta el siguiente (o el final)
            if i < len(hit_indices) - 1:
                next_hit_idx = hit_indices[i + 1]
                segment = group.loc[hit_idx:next_hit_idx-1]
            else:
                segment = group.loc[hit_idx:]
            
            # En el frame del golpe, time_since_last_hit es 0
            group.loc[hit_idx, 'time_since_last_hit'] = 0.0
            
            # Para los frames posteriores, acumular duration
            if len(segment) > 1:
                segment_indices = segment.index[1:]  # Excluir el frame del golpe
                cumsum_duration = group.loc[segment_indices, 'duration'].cumsum()
                group.loc[segment_indices, 'time_since_last_hit'] = cumsum_duration.values
        
        # Para frames antes del primer golpe, calcular tiempo acumulado desde el inicio
        first_hit_idx = hit_indices[0]
        before_first_hit = group.loc[:first_hit_idx-1]
        if len(before_first_hit) > 0:
            group.loc[before_first_hit.index, 'time_since_last_hit'] = group.loc[before_first_hit.index, 'duration'].cumsum()
    
    return group

# Aplicar la función por grupo
print('Recalculando time_since_last_hit por grupo (player_id, partido, punto)...')
df_clean = df_clean.groupby(['player_id', 'partido', 'punto'], group_keys=False).apply(calculate_time_since_last_hit)

# Verificar resultados
print(f'\nValores faltantes en time_since_last_hit: {df_clean["time_since_last_hit"].isna().sum():,}')
print(f'\nEstadísticas de time_since_last_hit:')
print(df_clean['time_since_last_hit'].describe())

## Paso 8: Verificación final de la limpieza

In [None]:
# Resumen de valores faltantes después de la limpieza
print('='*70)
print('RESUMEN DE LIMPIEZA DE DATOS')
print('='*70)

null_summary_clean = (
    df_clean.isna().sum()
      .to_frame('null_count')
      .assign(null_pct=lambda t: (t['null_count'] / len(df_clean) * 100).round(2))
      .sort_values('null_count', ascending=False)
)

print(f'\nDimensiones finales: {df_clean.shape[0]:,} filas x {df_clean.shape[1]} columnas')
print(f'\nColumnas con valores faltantes:')
print(null_summary_clean[null_summary_clean['null_count'] > 0])

print(f'\n\nTotal de valores faltantes en todo el dataset: {df_clean.isna().sum().sum():,}')
print(f'Porcentaje de completitud: {(1 - df_clean.isna().sum().sum() / (df_clean.shape[0] * df_clean.shape[1])) * 100:.2f}%')

## Paso 9: Guardar el dataset limpio

In [None]:
# Guardar el dataset limpio
OUTPUT_PATH = 'Base_Videos_Clean.csv'
df_clean.to_csv(OUTPUT_PATH, index=False)
print(f'Dataset limpio guardado en: {OUTPUT_PATH}')
print(f'Tamaño del archivo: {df_clean.memory_usage(deep=True).sum() / 1024**2:.2f} MB en memoria')