In [4]:
import pandas as pd

In [5]:
df = pd.read_csv('raw/player_stats/Miguel_Gutiérrez_data.csv')
df.head()

Unnamed: 0,Fecha,Día,Competencia,Ronda,Sedes,Resultado,Equipo,Adversario,Arranque,Posición,...,Faltas cometidas,Faltas recibidas,Posición adelantada,Penales ejecutados,Penales concedidos,Goles en contra,Recuperación de pelotas,Aéreos Ganados,Aéreos Perdidos,% of Aerials Won
0,2023-08-12,Sáb,La Liga,Semana 1 de partido,Visitante,E 1–1,Girona,Real Sociedad,Sí,LB,...,1,0,0,0.0,0.0,0,3.0,2.0,0.0,100.0
1,2023-08-20,Dom,La Liga,Semana 2 de partido,Local,V 3–0,Girona,Getafe,Sí,LB,...,0,0,0,0.0,0.0,0,5.0,2.0,0.0,100.0
2,2023-08-26,Sáb,La Liga,Semana 3 de partido,Visitante,V 2–1,Girona,Sevilla,Sí,LB,...,0,1,0,0.0,0.0,0,10.0,1.0,1.0,50.0
3,2023-09-03,Dom,La Liga,Semana 4 de partido,Local,V 1–0,Girona,Las Palmas,Sí,LB,...,0,0,0,0.0,0.0,0,4.0,1.0,1.0,50.0
4,2023-09-18,Lun,La Liga,Semana 5 de partido,Visitante,V 4–2,Girona,Granada,Sí,LB,...,1,0,1,0.0,0.0,0,5.0,0.0,0.0,


Para el cálculo del rendimiento, tendremos en cuenta la posición, por lo que evitamos los valores nulos en esa columna. Para ello, rellenamos con la posición más repetida para el jugador, que será la más probable. Además, transformamos en lista las posiciones de cada partido para poder trabajar mejor con ellas.

In [6]:
regular_pos = df['Posición'].mode()[0]
df['Posición'] = df['Posición'].fillna(regular_pos)

df['Posición'] = df['Posición'].apply(lambda x: x.split(','))
df.head()

Unnamed: 0,Fecha,Día,Competencia,Ronda,Sedes,Resultado,Equipo,Adversario,Arranque,Posición,...,Faltas cometidas,Faltas recibidas,Posición adelantada,Penales ejecutados,Penales concedidos,Goles en contra,Recuperación de pelotas,Aéreos Ganados,Aéreos Perdidos,% of Aerials Won
0,2023-08-12,Sáb,La Liga,Semana 1 de partido,Visitante,E 1–1,Girona,Real Sociedad,Sí,[LB],...,1,0,0,0.0,0.0,0,3.0,2.0,0.0,100.0
1,2023-08-20,Dom,La Liga,Semana 2 de partido,Local,V 3–0,Girona,Getafe,Sí,[LB],...,0,0,0,0.0,0.0,0,5.0,2.0,0.0,100.0
2,2023-08-26,Sáb,La Liga,Semana 3 de partido,Visitante,V 2–1,Girona,Sevilla,Sí,[LB],...,0,1,0,0.0,0.0,0,10.0,1.0,1.0,50.0
3,2023-09-03,Dom,La Liga,Semana 4 de partido,Local,V 1–0,Girona,Las Palmas,Sí,[LB],...,0,0,0,0.0,0.0,0,4.0,1.0,1.0,50.0
4,2023-09-18,Lun,La Liga,Semana 5 de partido,Visitante,V 4–2,Girona,Granada,Sí,[LB],...,1,0,1,0.0,0.0,0,5.0,0.0,0.0,


Además hay partidos con muchos valores vacíos, por lo que el cálculo del rendimiento en ellos va a ser inferior al no tener estadísticas que aportan un mayor valor. Para evitar esto, desechamos dichos partidos. Resulta que son todos partidos que no pertenecen a LaLiga.

In [7]:
df[df.isnull().sum(axis=1)>20]

Unnamed: 0,Fecha,Día,Competencia,Ronda,Sedes,Resultado,Equipo,Adversario,Arranque,Posición,...,Faltas cometidas,Faltas recibidas,Posición adelantada,Penales ejecutados,Penales concedidos,Goles en contra,Recuperación de pelotas,Aéreos Ganados,Aéreos Perdidos,% of Aerials Won
10,2023-11-01,Mié,Copa del Rey,Primera ronda,Visitante,V 2–1,Girona,CD San Roque de Lepe,Sí,[LB],...,0,2,0,,,0,,,,
15,2023-12-07,Jue,Copa del Rey,Segunda ronda,Visitante,V 5–2,Girona,Orihuela,No,[LB],...,0,0,0,,,0,,,,
20,2024-01-06,Sáb,Copa del Rey,Dieciseisavos de final,Visitante,V 2–0,Girona,Elche,Sí,[LB],...,0,2,0,,,0,,,,
22,2024-01-17,Mié,Copa del Rey,Ronda de 16,Local,V 3–1,Girona,Rayo Vallecano,Sí,[LB],...,1,1,0,,,0,,,,
24,2024-01-24,Mié,Copa del Rey,Cuartos de final,Visitante,D 2–3,Girona,Mallorca,Sí,[LB],...,0,2,0,,,0,,,,


In [8]:
# contar valores vacios por fila

df_clean = df[df.isnull().sum(axis=1)<20]
df_clean.shape

(35, 118)

In [9]:
rating_points = {
    # Minutos jugados es importante para todos, por lo que se puede añadir una puntuación base
    "Minutos": [0.01, 0.01, 0.01],  # Pequeña puntuación para todos

    # Goles: Muy importante para delanteros, pero también significativo para defensas y mediocampistas.
    "Goles": [1.5, 1, 0.6],  # Goles son esenciales para delanteros, pero valen mucho si un defensor o mediocampista anota.

    # Asistencias: Primordial para delanteros y mediocampistas, menos para defensas.
    "Asistencias": [1, 0.8, 0.4],

    # Total de disparos: Refleja la actividad ofensiva, es más relevante para delanteros.
    "Total de disparos": [0.2, 0.1, 0.05],  # Importante para delanteros, pero defensores no suelen disparar mucho.

    # Lanzamientos en el Objetivo: Similar a "Total de disparos", más relevante para delanteros.
    "Lanzamientos en el Objetivo": [0.3, 0.2, 0.1],

    # Tarjetas amarillas: Penaliza a todos, pero más a los defensas, ya que suelen cometer más faltas.
    "Tarjetas amarillas": [-0.1, -0.05, -0.2],  # Defensas penalizados más, porque suele reflejar malas decisiones defensivas.

    # Tarjetas rojas: Penalización fuerte para todos.
    "Tarjetas rojas": [-0.5, -0.5, -0.5],

    # Toques: Valioso para mediocampistas que controlan el ritmo del juego.
    "Toques": [0.01, 0.02, 0.01],

    # Derribos: Importante para defensores, pero no tanto para mediocampistas o delanteros.
    "Derribos": [0.05, 0.1, 0.2],  # Los defensas dependen de los derribos para cumplir su función.

    # Intercepciones: Similar a "Derribos", más valioso para defensores.
    "Intercepciones": [0.05, 0.1, 0.2],

    # Bloqueos: Fundamental para defensores.
    "Bloqueos": [0.05, 0.1, 0.25],  # Los defensas bloqueando tiros es esencial, de ahí su mayor peso.

    # xG: Importante para delanteros, pero no tanto para defensas.
    "xG: Goles esperados": [0.3, 0.2, 0.1],

    # npxG: Similar a "xG", pero sin contar penales.
    "npxG: Goles esperados (xG) sin contar penaltis": [0.3, 0.2, 0.1],

    # Acciones para la creación de tiros: Valioso para mediocampistas y delanteros.
    "Acciones para la creación de tiros": [0.2, 0.3, 0.1],  # Mediocampistas tienen un mayor peso en la creación de tiros.

    # Acciones para la creación de goles: Similar al anterior, pero más valioso para mediocampistas.
    "Acciones para la creación de goles": [0.2, 0.4, 0.1],

    # Pases completados: Importante para mediocampistas que gestionan el juego.
    "Pases completados": [0.02, 0.06, 0.02],  # Mediocampistas son los principales responsables de los pases.

    # Pases intentados: Similar a "Pases completados", con un peso extra para mediocampistas.
    "Pases intentados": [0.01, 0.03, 0.01],

    # % de pase completo: Refleja la eficiencia en los pases, más importante para mediocampistas.
    "% de pase completo": [0.01, 0.03, 0.01],

    # Pases progresivos: Fundamental para mediocampistas que avanzan el balón.
    "Pases progresivos": [0.1, 0.3, 0.2],

    # Transportes: Importante para mediocampistas que mueven el balón.
    "Transportes": [0.02, 0.06, 0.01],

    # Acarreos progresivos: Refleja la capacidad de avanzar con el balón.
    "Acarreos progresivos": [0.2, 0.3, 0.1],

    # Tomas intentadas: Importante para atacantes.
    "Tomas intentadas": [0.1, 0.1, 0.05],

    # Tomas exitosas: Penaliza intentos fallidos, se premian los defensores.
    "Tomas exitosas": [0.2, 0.2, 0.1],

    # Pases completados (Cortos): Importante para mediocampistas.
    "Pases completados (Cortos)": [0.01, 0.03, 0.01],

    # Pases completados (Medios): Valioso para mediocampistas.
    "Pases completados (Medios)": [0.02, 0.06, 0.02],

    # Pases completados (Largos): Más valioso para defensores que realizan cambios de juego largos.
    "Pases completados (Largos)": [0.05, 0.1, 0.2],

    # % de pase completo (Largos): Refleja la precisión en los pases largos.
    "% de pase completo (Largos)": [0.005, 0.01, 0.02],

    # xA: Refleja asistencias esperadas.
    "xA: Asistencias Esperadas": [0.2, 0.3, 0.1],

    # Pases clave: Importante para mediocampistas que generan oportunidades.
    "Pases clave": [0.2, 0.3, 0.1],

    # Pases en el último tercio de la cancha: Valioso para mediocampistas y delanteros.
    "Pases en el último tercio de la cancha": [0.1, 0.2, 0.05],

    # Pases al área de penalización: Más importante para delanteros y mediocampistas ofensivos.
    "Pases al área de penalización": [0.15, 0.15, 0.1],

    # Pases largos: Fundamental para defensores que inician el juego desde atrás.
    "Pases largos": [0.05, 0.1, 0.2],

    # Cambios: Los cambios de orientación del juego son valiosos para mediocampistas y defensas.
    "Cambios": [0.05, 0.1, 0.15],

    # Pases cruzados: Refleja la capacidad de cambiar el juego de lado.
    "Pases cruzados": [0.05, 0.1, 0.05],

    # Pases fuera de juego: Penalización por errores ofensivos.
    "Pases fuera de juego": [-0.1, -0.1, -0.05],

    # Pases bloqueados: Penalización por malas decisiones.
    "Pases bloqueados": [-0.05, -0.05, -0.1],

    # Regateadores tackleados: Importante para defensas que impiden avances.
    "Regateadores tackleados": [0.1, 0.1, 0.2],

    # Desafíos perdidos: Penalización por no ganar duelos.
    "Desafíos perdidos": [-0.1, -0.1, -0.2],

    # Disparos bloqueados: Importante para defensores.
    "Disparos bloqueados": [0.1, 0.1, 0.3],

    # Tkl+Int (Tackles e Intercepciones): Valor defensivo clave.
    "Tkl+Int": [0.1, 0.2, 0.4],

    # Despeje: Muy importante para defensores.
    "Despeje": [0.05, 0.2, 0.4],

    # Errores: Penaliza a todos, pero más a defensores.
    "Errores": [-0.3, -0.2, -0.4],

    # Traslados en el último tercio: Fundamental para mediocampistas y delanteros.
    "Traslados en el último tercio": [0.1, 0.2, 0.1],

    # Traslados al área de penal: Refleja la capacidad ofensiva.
    "Traslados al área de penal": [0.1, 0.2, 0.1],

    # Errores de control: Penalización por perder el control del balón.
    "Errores de control": [-0.2, -0.2, -0.2],

    # Despojado: Penalización por perder la posesión del balón.
    "Despojado": [-0.1, -0.1, -0.1],

    # Pases recibidos: Refleja la participación en el juego.
    "Pases recibidos": [0.01, 0.03, 0.01],

    # Pases progresivos Rec: Refleja la habilidad para recibir pases avanzados.
    "Pases progresivos Rec": [0.03, 0.05, 0.02],

    # Segunda tarjeta amarilla: Penalización fuerte.
    "Segunda tarjeta amarilla": [-0.5, -0.5, -0.5],

    # Faltas cometidas: Penalización por faltas, más fuerte para defensas.
    "Faltas cometidas": [-0.1, -0.1, -0.2],

    # Faltas recibidas: Refleja la habilidad para ganar faltas.
    "Faltas recibidas": [0.1, 0.1, 0.05],

    # Posición adelantada: Penalización por estar en fuera de juego.
    "Posición adelantada": [-0.1, -0.05, 0],

    # Penales concedidos: Penalización fuerte para defensores.
    "Penales concedidos": [-0.5, -0.5, -0.5],

    # Goles en contra: Penalización para defensores y porteros.
    "Goles en contra": [-0.1, -0.2, -0.4],

    # Recuperación de pelotas: Muy importante para defensores y mediocampistas.
    "Recuperación de pelotas": [0.1, 0.3, 0.4],

    # % of Aerials Won: Importante para defensores y mediocampistas en jugadas aéreas.
    "% of Aerials Won": [0.01, 0.02, 0.03]
}


In [51]:
forwards = ['FW','LW', 'RW']
midfielders = ['MF', 'CM', 'DM', 'LM', 'RM', 'WM', 'AM']
defenders = ['DF', 'FB', 'LB', 'RB', 'CB', 'WB']

def get_general_position(positions):
    if positions[0] in forwards:
        return 'Delantero'
    elif positions[0] in midfielders:
        return 'Mediocampista'
    elif positions[0] in defenders:
        return 'Defensa'


def calculate_performance(row, rating_points):
    position = get_general_position(row['Posición'])
    if position == 'Delantero':
        i = 0
    elif position == 'Mediocampista':
        i = 1
    elif position == 'Defensa':
        i = 2
    
    performance = 0
    for stat, weights in rating_points.items():
        if stat in row:
            value = row[stat]
            if pd.notnull(value):
                performance += value * weights[i]
                print(f'{stat}: {row[stat]} (+{value * weights[i]})')
                print(performance)
                
    return performance

def clean_df(df):
    regular_pos = df['Posición'].mode()[0]
    df['Posición'] = df['Posición'].fillna(regular_pos)
    df['Posición'] = df['Posición'].apply(lambda x: x.split(','))
    df_clean = df[df.isnull().sum(axis=1)<20]
    return df_clean.copy()

In [11]:
df_clean.apply(lambda x: calculate_performance(x, rating_points), axis=1)

0     10.538
1     14.047
2     15.183
3     12.127
4     13.703
5     17.432
6     12.675
7     13.619
8     14.763
9     21.601
11    25.963
12    15.502
13    17.796
14    17.436
16    13.052
17    12.484
18    20.535
19    13.674
21    18.094
23    17.563
25    13.046
26    12.867
27    13.127
28    13.736
29    18.500
30    18.920
31    14.166
32    15.257
33    14.164
34    15.305
35    10.352
36     9.715
37     9.913
38     8.960
39    10.146
dtype: float64

In [53]:
calculate_performance(df.iloc[11], rating_points)

Minutos: 89 (+0.89)
0.89
Goles: 0 (+0.0)
0.89
Asistencias: 0 (+0)
0.89
Total de disparos: 2.0 (+0.4)
1.29
Lanzamientos en el Objetivo: 0.0 (+0.0)
1.29
Tarjetas amarillas: 0 (+-0.0)
1.29
Tarjetas rojas: 0 (+-0.0)
1.29
Toques: 40.0 (+0.4)
1.69
Derribos: 1.0 (+0.05)
1.74
Intercepciones: 0.0 (+0.0)
1.74
Bloqueos: 0.0 (+0.0)
1.74
xG: Goles esperados: 0.1 (+0.03)
1.77
npxG: Goles esperados (xG) sin contar penaltis: 0.1 (+0.03)
1.8
Acciones para la creación de tiros: 3.0 (+0.6000000000000001)
2.4000000000000004
Acciones para la creación de goles: 0.0 (+0.0)
2.4000000000000004
Pases completados: 19.0 (+0.38)
2.7800000000000002
Pases intentados: 25.0 (+0.25)
3.0300000000000002
% de pase completo: 76.0 (+0.76)
3.79
Pases progresivos: 3.0 (+0.30000000000000004)
4.09
Transportes: 30.0 (+0.6)
4.6899999999999995
Acarreos progresivos: 3.0 (+0.6000000000000001)
5.289999999999999
Tomas intentadas: 5.0 (+0.5)
5.789999999999999
Tomas exitosas: 0.0 (+0.0)
5.789999999999999
Pases completados (Cortos): 12.0

7.2700000000000005

In [13]:
a = []
for stat, weights in rating_points.items():
    a.append((stat, weights[0]))

a.sort(key=lambda x: x[1], reverse=True)
a

[('Goles', 1.5),
 ('Asistencias', 1),
 ('Lanzamientos en el Objetivo', 0.3),
 ('xG: Goles esperados', 0.3),
 ('npxG: Goles esperados (xG) sin contar penaltis', 0.3),
 ('Total de disparos', 0.2),
 ('Acciones para la creación de tiros', 0.2),
 ('Acciones para la creación de goles', 0.2),
 ('Acarreos progresivos', 0.2),
 ('Tomas exitosas', 0.2),
 ('xA: Asistencias Esperadas', 0.2),
 ('Pases clave', 0.2),
 ('Pases al área de penalización', 0.15),
 ('Pases progresivos', 0.1),
 ('Tomas intentadas', 0.1),
 ('Pases en el último tercio de la cancha', 0.1),
 ('Regateadores tackleados', 0.1),
 ('Disparos bloqueados', 0.1),
 ('Tkl+Int', 0.1),
 ('Traslados en el último tercio', 0.1),
 ('Traslados al área de penal', 0.1),
 ('Faltas recibidas', 0.1),
 ('Recuperación de pelotas', 0.1),
 ('Derribos', 0.05),
 ('Intercepciones', 0.05),
 ('Bloqueos', 0.05),
 ('Pases completados (Largos)', 0.05),
 ('Pases largos', 0.05),
 ('Cambios', 0.05),
 ('Pases cruzados', 0.05),
 ('Despeje', 0.05),
 ('Pases progresivo

In [38]:
import os

source = 'raw/player_stats'
all_df = pd.DataFrame()

for csv in os.listdir(source):
    df = pd.read_csv(os.path.join(source, csv))
    df_clean = clean_df(df)
    df_clean['Player'] = csv.split('.')[0].split('_data')[0].replace('_', ' ')
    df_clean['Performance'] = df_clean.apply(lambda x: calculate_performance(x, rating_points), axis=1)
    all_df = pd.concat([all_df, df_clean])

all_df['Posición'] = all_df['Posición'].apply(lambda x: get_general_position(x))
all_df.index = range(len(all_df))

all_df
    

Unnamed: 0,Fecha,Día,Competencia,Ronda,Sedes,Resultado,Equipo,Adversario,Arranque,Posición,...,Posición adelantada,Penales ejecutados,Penales concedidos,Goles en contra,Recuperación de pelotas,Aéreos Ganados,Aéreos Perdidos,% of Aerials Won,Player,Performance
0,2023-08-20,Dom,La Liga,Semana 2 de partido,Local,V 2–0,Barcelona,Cádiz,No,Delantero,...,0.0,0.0,0.0,0,1.0,0.0,0.0,,Ferran Torres,3.4100
1,2023-08-27,Dom,La Liga,Semana 3 de partido,Visitante,V 4–3,Barcelona,Villarreal,No,Delantero,...,0.0,0.0,0.0,0,1.0,0.0,1.0,0.0,Ferran Torres,9.8750
2,2023-09-03,Dom,La Liga,Semana 4 de partido,Visitante,V 2–1,Barcelona,Osasuna,No,Delantero,...,0.0,0.0,0.0,0,1.0,0.0,0.0,,Ferran Torres,2.1970
3,2023-09-16,Sáb,La Liga,Semana 5 de partido,Local,V 5–0,Barcelona,Betis,Sí,Delantero,...,1.0,0.0,0.0,0,3.0,0.0,0.0,,Ferran Torres,6.8600
4,2023-09-19,Mar,Champions Lg,Etapa de grupo,Local,V 5–0,es Barcelona,be Antwerp,No,Delantero,...,0.0,0.0,0.0,0,0.0,0.0,0.0,,Ferran Torres,3.6815
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
532,2024-05-14,Mar,La Liga,Semana 36 de partido,Local,V 5–0,Real Madrid,Alavés,Sí,Delantero,...,0.0,0.0,0.0,0,2.0,0.0,0.0,,Vinicius Jr,20.4825
533,2024-05-25,Sáb,La Liga,Semana 38 de partido,Local,E 0–0,Real Madrid,Betis,Sí,Delantero,...,2.0,0.0,0.0,0,3.0,0.0,0.0,,Vinicius Jr,9.3690
534,2024-06-01,Sáb,Champions Lg,Final,Visitante,V 2–0,es Real Madrid,de Dortmund,Sí,Delantero,...,0.0,0.0,0.0,0,3.0,2.0,1.0,66.7,Vinicius Jr,15.0740
535,2024-06-24,Lun,Copa América,Etapa de grupo,Neutral,E 0–0,br Brasil,cr Costa Rica,Sí,Delantero,...,0.0,0.0,0.0,0,0.0,0.0,0.0,,Vinicius Jr,7.2110


In [55]:
# Normalizar entre 0 y 10 por posición

maximus = all_df.groupby('Posición')['Performance'].max()

all_df['Normalized_performance'] = all_df.apply(lambda x: (x['Performance'] / maximus[x['Posición']])*10, axis=1)
all_df.head()


Unnamed: 0,Fecha,Día,Competencia,Ronda,Sedes,Resultado,Equipo,Adversario,Arranque,Posición,...,Penales ejecutados,Penales concedidos,Goles en contra,Recuperación de pelotas,Aéreos Ganados,Aéreos Perdidos,% of Aerials Won,Player,Performance,Normalized_performance
0,2023-08-20,Dom,La Liga,Semana 2 de partido,Local,V 2–0,Barcelona,Cádiz,No,Delantero,...,0.0,0.0,0,1.0,0.0,0.0,,Ferran Torres,3.41,1.552046
1,2023-08-27,Dom,La Liga,Semana 3 de partido,Visitante,V 4–3,Barcelona,Villarreal,No,Delantero,...,0.0,0.0,0,1.0,0.0,1.0,0.0,Ferran Torres,9.875,4.494561
2,2023-09-03,Dom,La Liga,Semana 4 de partido,Visitante,V 2–1,Barcelona,Osasuna,No,Delantero,...,0.0,0.0,0,1.0,0.0,0.0,,Ferran Torres,2.197,0.999954
3,2023-09-16,Sáb,La Liga,Semana 5 de partido,Local,V 5–0,Barcelona,Betis,Sí,Delantero,...,0.0,0.0,0,3.0,0.0,0.0,,Ferran Torres,6.86,3.122298
4,2023-09-19,Mar,Champions Lg,Etapa de grupo,Local,V 5–0,es Barcelona,be Antwerp,No,Delantero,...,0.0,0.0,0,0.0,0.0,0.0,,Ferran Torres,3.6815,1.675618


In [56]:
all_df.to_csv('raw/players_unified_performance.csv', index=False)