# TRABAJO FIN DE MÁSTER: SMALL DATA HEROES

Este proyecto tiene como objetivo aplicar técnicas de análisis de datos en el contexto del fútbol semiprofesional, concretamente en partidos de Tercera División. Utilizando Python como herramienta principal, se procesarán y analizarán datos recolectados manualmente mediante vídeos, con el fin de generar estadísticas personalizadas, visualizaciones y conclusiones que aporten valor a jugadores y cuerpos técnicos.

Las etapas clave incluyen: limpieza de datos, categorización de eventos, análisis estadístico y representación gráfica de resultados.

In [4]:
import pandas as pd
import json
import random

with open('Manual.json','r') as f: 
    Manual = json.load(f)
df = pd.read_excel('F1.xlsx')


In [6]:
df['Categoria_Completa'] = df['Categoría'].fillna(method='ffill') #Agregamos una nueva columna donde para cada fila de descriptor tenga a que categoria pertenece para conseguir el ID
df['ID'] = (df['Categoría'].notna()).cumsum() #Conseguimos el ID de cada fila para ver que corresponde a la acción correcta cada descriptor

  df['Categoria_Completa'] = df['Categoría'].fillna(method='ffill') #Agregamos una nueva columna donde para cada fila de descriptor tenga a que categoria pertenece para conseguir el ID


In [22]:
df_ordenado = df[['ID','Categoria_Completa', 'Descriptores', 'Inicio', 'Fin','Click', 'Duración']]
df_ordenado.head(20)

Unnamed: 0,ID,Categoria_Completa,Descriptores,Inicio,Fin,Click,Duración
0,1,PASE,,00:00,00:06,00:01,00:06
1,1,PASE,PARAFITA,,,00:01,
2,1,PASE,1tiempo,,,00:01,
3,1,PASE,SAQUE CENTRO,,,00:01,
4,1,PASE,RASO,,,00:01,
5,1,PASE,COMPLETO,,,00:01,
6,1,PASE,PIE IZQUIERDO,,,00:01,
7,1,PASE,X:34,,,,
8,1,PASE,Y:54,,,,
9,1,PASE,X:32,,,,


In [23]:
#Traemos las listas del diccionario json
categorias = Manual['CATEGORY']
players = Manual['PLAYERS']
outcomes = Manual['OUTCOME']
zonas_golpeo = Manual['ZONA GOLPEO']
tiempos = Manual['TIEMPO']
categorizadores = Manual['CATEGORIZADORES']

In [25]:
# Función para encontrar primera coincidencia
def encontrar_elemento(texto, lista):
    if pd.isnull(texto):
        return None
    for elemento in lista:
        if elemento.lower() in texto.lower():
            return elemento
    return None

# Función para marcar con 1 o 0
def marcar_categorizadores(texto, lista):
    texto = texto.lower() if pd.notnull(texto) else ""
    return {cat: int(cat.lower() in texto) for cat in lista}

# Crear lista de filas
filas_nuevas = []

for idx, grupo in df_ordenado.groupby('ID'):
    descriptores = " ".join(grupo['Descriptores'].dropna())

    fila = {
        'ID': idx,
        'CATEGORY': encontrar_elemento(grupo['Categoria_Completa'].iloc[0], categorias),
        'PLAYERS': encontrar_elemento(descriptores, players),
        'OUTCOME': encontrar_elemento(descriptores, outcomes),
        'ZONA_GOLPEO': encontrar_elemento(descriptores, zonas_golpeo),
        'TIEMPO': encontrar_elemento(descriptores, tiempos)
    }

    # Añadir categorizadores con 1/0
    fila.update(marcar_categorizadores(descriptores, categorizadores))

    filas_nuevas.append(fila)

# Crear nuevo DataFrame
df_eventos_sucio = pd.DataFrame(filas_nuevas)

In [26]:
df_eventos_tiempo = pd.merge(df_eventos_sucio, 
                        df_limpio[df_limpio.Inicio.isna()==False][['ID', 'Inicio', 'Fin','Click', 'Duración']],
                        how='left', on = 'ID')

In [15]:
def trata_coordenadas(df):
    coordenadas = df[df.Descriptores.str.startswith("X:") | df.Descriptores.str.startswith("Y:")][['Descriptores','ID']]
    coordenadas['tipo'] = coordenadas['Descriptores'].str.extract(r'([XY]):')
    coordenadas['valor'] = coordenadas['Descriptores'].str.extract(r':(\d+)').astype(float)
    
    # Crear una columna que numere cada aparición de X o Y por accion_id
    coordenadas['orden'] = coordenadas.groupby(['ID', 'tipo']).cumcount() + 1
    
    # Pivotear el DataFrame
    coordenadas = coordenadas.pivot_table(index='ID', columns=['tipo', 'orden'], values='valor')
    
    # Renombrar columnas
    coordenadas.columns = [f"{col[0]}{col[1]}" for col in coordenadas.columns]
    
    # Resetear índice si lo queréis como columna
    coordenadas = coordenadas.reset_index()
    return coordenadas

In [28]:
df_coordenadas = trata_coordenadas(df_ordenado)

In [33]:
# Seleccionar solo las columnas necesarias de df_coordenadas
df_coordenadas_seleccion = df_coordenadas[['ID', 'X1', 'X2', 'Y1', 'Y2']]

# Realizar el merge
df_eventing = pd.merge(df_eventos_tiempo, 
                         df_coordenadas_seleccion, 
                         how='left', on='ID')
df_eventing['TIEMPO'] = df_eventing['TIEMPO'].fillna(method='ffill') #Relleno de columnas de tiempo que no fueron etiquetadas
df_eventing.head()

  df_eventing['TIEMPO'] = df_eventing['TIEMPO'].fillna(method='ffill') #Relleno de columnas de tiempo que no fueron etiquetadas


Unnamed: 0,ID,CATEGORY,PLAYERS,OUTCOME,ZONA_GOLPEO,TIEMPO,SAQUE CENTRO,RASO,OFENSIVA,ALTO,...,IN,OFF,Inicio,Fin,Click,Duración,X1,X2,Y1,Y2
0,1,PASE,PARAFITA,COMPLETO,PIE IZQUIERDO,1tiempo,1,1,0,0,...,0,0,00:00,00:06,00:01,00:06,34.0,32.0,54.0,63.0
1,2,PASE,MONTERO,COMPLETO,PIE DERECHO,1tiempo,0,1,0,0,...,0,0,00:03,00:10,00:06,00:07,22.0,9.0,56.0,53.0
2,3,PASE,MARCOS,COMPLETO,PIE IZQUIERDO,1tiempo,0,1,0,0,...,0,0,00:06,00:11,00:09,00:04,8.0,2.0,52.0,33.0
3,4,REGATE,MELO,COMPLETO,,1tiempo,0,0,0,0,...,0,0,00:09,00:12,00:12,00:02,4.0,,43.0,
4,5,FALTA,MELO,,,1tiempo,0,0,1,0,...,0,0,00:14,00:18,00:17,00:04,4.0,,49.0,
