# **Limpieza de datos**

### En este archivo limpiaremos los datos de la carpeta data.

Comenzamos importando todas las dependecias necesarias para el correcto funcionamiento del documento, aunque primero hay que asegurarnos que las tenemos instaladas.

In [241]:
# Instalamos librerías
%pip install pandas

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.




In [242]:
# Importamos librerías
import pandas as pd

El siguiente paso es cargar los datos.

In [243]:
# Cargamos los datos
equipos = pd.read_csv('../data/equipos.csv')
overall = pd.read_csv('../data/overall.csv')
partidos = pd.read_csv('../data/partidos.csv')
jugadores = pd.read_csv('../data/jugadores.csv')

Ahora iremos limpiando datos tabla por tabla.

## Tabla Equipos

Comenzamos mostrando su dimensión y sus primeras filas para ver que información contiene.

In [244]:
print(equipos.shape)
equipos.head()

(672, 17)


Unnamed: 0,Season,Squad,# Pl,Age,Poss,MP,Starts,Min,90s,Gls,Ast,G+A,G-PK,PK,PKatt,CrdY,CrdR
0,2023-2024,beAntwerp,20,25.2,43.2,6,66,540,6.0,6,4,10,6,0,1,15.0,2.0
1,2023-2024,engArsenal,23,25.9,56.5,10,110,930,10.3,19,16,35,18,1,1,13.0,0.0
2,2023-2024,esAtlético Madrid,22,30.1,49.1,10,110,930,10.3,20,11,31,20,0,1,25.0,1.0
3,2023-2024,esBarcelona,25,27.2,54.2,10,110,900,10.0,19,18,37,19,0,0,30.0,2.0
4,2023-2024,deBayern Munich,23,28.3,55.9,10,110,900,10.0,18,14,32,16,2,2,13.0,1.0


Vemos que tenemos una tabla con 17 columnas y 672 filas. Hablemos de lo que es cada columna:
- 'Season' nos dice de qué temporada es el dato.
- 'Squad' es el nombre del equipo de fútbol.
- '# Pl' es el número de jugadores que se han usado en los partidos.
- 'Age' nos dice la edad media de los jugadores del equipo.
- 'Poss' es la posesión del equipo de la pelota, que se calcula como el porcentaje de intentos de pasos.
- 'MP' es el número de partidos jugados.
- 'Starts' son los partidos empezados por el jugador.
- 'Min' son los minutos que ha jugado el equipo.
- '90s' es el número de minutos jugados partido de 90.
- 'Gls' son los goles marcados o permitidos.
- 'Ast' asistencias (pase que un jugador realiza a un compañero de equipo y que resulta en un gol).
- 'G + A', goles y asistencias.
- 'G - PK' nos dice los goles que no vienen de penales.
- 'PK' son los goles que sí que vienen de penales.
- 'PKatt' nos dice cuales son los tiros que han hecho por penales (cuenta los que han sido gol y los que no).
- 'CrdY', las tarjetas amarillas que ha tenido el equipo a lo largo del campeonato. 
- 'CrdR', las tarjetas rojas que ha tenido el equipo a lo largo del campeonato.

Una vez vista la información que contiene esta tabla, veamos si tiene datos nulos y si el tipo de datos de cada columna es el correcto.

In [245]:
equipos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 672 entries, 0 to 671
Data columns (total 17 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Season  672 non-null    object 
 1   Squad   672 non-null    object 
 2   # Pl    672 non-null    int64  
 3   Age     672 non-null    float64
 4   Poss    320 non-null    float64
 5   MP      672 non-null    int64  
 6   Starts  672 non-null    int64  
 7   Min     320 non-null    object 
 8   90s     320 non-null    float64
 9   Gls     672 non-null    int64  
 10  Ast     672 non-null    int64  
 11  G+A     672 non-null    int64  
 12  G-PK    672 non-null    int64  
 13  PK      672 non-null    int64  
 14  PKatt   672 non-null    int64  
 15  CrdY    608 non-null    float64
 16  CrdR    608 non-null    float64
dtypes: float64(5), int64(9), object(3)
memory usage: 89.4+ KB


Vemos que hay algunas columnas que tienen demasiados valores nulos, por lo que las borraremos. 

In [246]:
equipos = equipos.drop(columns=['Poss', 'Min', '90s'])
equipos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 672 entries, 0 to 671
Data columns (total 14 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Season  672 non-null    object 
 1   Squad   672 non-null    object 
 2   # Pl    672 non-null    int64  
 3   Age     672 non-null    float64
 4   MP      672 non-null    int64  
 5   Starts  672 non-null    int64  
 6   Gls     672 non-null    int64  
 7   Ast     672 non-null    int64  
 8   G+A     672 non-null    int64  
 9   G-PK    672 non-null    int64  
 10  PK      672 non-null    int64  
 11  PKatt   672 non-null    int64  
 12  CrdY    608 non-null    float64
 13  CrdR    608 non-null    float64
dtypes: float64(3), int64(9), object(2)
memory usage: 73.6+ KB


Lo siguiente que podemos hacer es ver que en la columna de 'Squad' aparece junto al nombre del equipo una abreviatura del país al que pertece. No nos interesa tenerlo en este formato, así que vamos a iterar sobre los valores de esta columna, eliminar la abreviatura de este país y añadir una nueva columna al lado que sea indique el país al que pertenece el equipo. Haremos esto haciendo uso del siguiente diccionario.

In [247]:
# Creamos un diccionario con los paises y sus abreviaturas
paises_dict = {
    'Germany': 'de',
    'Spain': 'es',
    'England': 'eng',
    'Italy': 'it',
    'France': 'fr',
    'The Netherlands': 'nl',
    'Portugal': 'pt',
    'Belgium': 'be',
    'Scotland': 'sct',
    'Ireland': 'ie',
    'Wales': 'wal',
    'Czech Republic': 'cz',
    'Poland': 'pl',
    'Switzerland': 'ch',
    'Austria': 'at',
    'Denmark': 'dk',
    'Sweden': 'se',
    'Norway': 'no',
    'Slovenia': 'si',
    'Slovakia': 'sk',
    'Hungary': 'hu',
    'Romania': 'ro',
    'Bulgaria': 'bg',
    'Croatia': 'hr',
    'Serbia': 'rs',
    'Greece': 'gr',
    'Moldova': 'md',
    'Cyprus': 'cy',
    'Russia': 'ru',
    'Belarus': 'by',
    'Ukraine': 'ua',
    'Türkiye': 'tr',
    'Israel': 'il',
    'Azerbaijan': 'az',
    'Kazakhstan': 'kz',
    'Cameroon': 'cm',
    'Argentina': 'ar'
}

# Donde almacenaremos los paises para agregar al dataframe como nueva columna
paises = []

# Iteramos sobre la columna 'Squad'
for i, equipo in enumerate(equipos['Squad']):
    # Iteramos sobre el diccionario de paises
    for key, value in paises_dict.items():
        # Si el nombre del equipo comienza o termina con el valor del diccionario
        if equipo.startswith(value) or equipo.endswith(value):
            equipos.loc[i, 'Squad'] = equipo.replace(value, '')
            paises.append(key)
            break
        
# Agregamos la columna 'Country' al dataframe en la posición 2
equipos.insert(2, 'Country', paises)

# Nos aseguramos de que se haya agregado correctamente
equipos.head()

Unnamed: 0,Season,Squad,Country,# Pl,Age,MP,Starts,Gls,Ast,G+A,G-PK,PK,PKatt,CrdY,CrdR
0,2023-2024,Antwerp,Belgium,20,25.2,6,66,6,4,10,6,0,1,15.0,2.0
1,2023-2024,Arsenal,England,23,25.9,10,110,19,16,35,18,1,1,13.0,0.0
2,2023-2024,Atlético Madrid,Spain,22,30.1,10,110,20,11,31,20,0,1,25.0,1.0
3,2023-2024,Barcelona,Spain,25,27.2,10,110,19,18,37,19,0,0,30.0,2.0
4,2023-2024,Bayern Munich,Germany,23,28.3,10,110,18,14,32,16,2,2,13.0,1.0


Además, eliminaremos las filas que contienen datos nulos ya que para definir los modelos posteriormente nos estorba ener datos de este tipo.

In [248]:
equipos = equipos.dropna()
equipos.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 608 entries, 0 to 671
Data columns (total 15 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Season   608 non-null    object 
 1   Squad    608 non-null    object 
 2   Country  608 non-null    object 
 3   # Pl     608 non-null    int64  
 4   Age      608 non-null    float64
 5   MP       608 non-null    int64  
 6   Starts   608 non-null    int64  
 7   Gls      608 non-null    int64  
 8   Ast      608 non-null    int64  
 9   G+A      608 non-null    int64  
 10  G-PK     608 non-null    int64  
 11  PK       608 non-null    int64  
 12  PKatt    608 non-null    int64  
 13  CrdY     608 non-null    float64
 14  CrdR     608 non-null    float64
dtypes: float64(3), int64(9), object(3)
memory usage: 76.0+ KB


Terminamos la limpieza de la tabla de equipos. Pasemos a la siguiente.

## Tabla Overall

Empezamos visualizando los datos.

In [249]:
print(overall.shape)
overall.head()

(775, 15)


Unnamed: 0,Season,Rk,Squad,MP,W,D,L,GF,GA,GD,Pts,Attendance,Top Team Scorer,Goalkeeper,Notes
0,2023-2024,SF,esReal Madrid,10.0,7.0,3.0,0.0,22.0,12.0,10.0,24.0,72017.0,Rodrygo-5,Andriy Lunin,
1,2023-2024,SF,deBayern Munich,10.0,7.0,2.0,1.0,18.0,9.0,9.0,23.0,60000.0,Harry Kane-7,Manuel Neuer,
2,2023-2024,SF,deDortmund,10.0,5.0,3.0,2.0,15.0,9.0,6.0,18.0,65092.0,"Marco Reus,Julian Brandt... -2",Gregor Kobel,
3,2023-2024,SF,frParis S-G,10.0,5.0,2.0,3.0,19.0,13.0,6.0,17.0,46736.0,Kylian Mbappé-8,Gianluigi Donnarumma,
4,2023-2024,,,,,,,,,,,,,,


Vemos que tenemos 774 filas y 15 columnas. Hablemos de las columnas:
- 'Season' es la temporada a la que pertenece la información de esa fila.
- 'Rk' es el puesto en el que ha quedado ese equipo en esa temporada.
- 'Squad' es el equipo.
- 'MP', el número de partidos jugados.
- 'W' el número de victorias.
- 'D' el número de empates.
- 'L' el número de derrotas.
- 'GF' los goles a favor.
- 'GA' los goles en contra. 
- 'GD' la diferencia de los goles (GF - GA).
- 'Pts' son los puntos de la liga (3 puntos si ganas, 1 por empate).
- 'Attendance', asistencia por partido durante esta temporada, solo para partidos en casa.
- 'Top Team Scorer', el jugador con más goles de los partidos de las ligas de esa temporada.
- 'Goalkeeper', el portero del equipo con más minutos jugado en el torneo.
- 'Notes', notas para añadir información a la fila.

Veamos los tipos de datos de cada columna y sus valores nulos.

In [250]:
overall.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 775 entries, 0 to 774
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Season           775 non-null    object 
 1   Rk               672 non-null    object 
 2   Squad            672 non-null    object 
 3   MP               672 non-null    float64
 4   W                672 non-null    float64
 5   D                672 non-null    float64
 6   L                672 non-null    float64
 7   GF               672 non-null    float64
 8   GA               672 non-null    float64
 9   GD               672 non-null    float64
 10  Pts              672 non-null    float64
 11  Attendance       657 non-null    object 
 12  Top Team Scorer  669 non-null    object 
 13  Goalkeeper       672 non-null    object 
 14  Notes            9 non-null      object 
dtypes: float64(8), object(7)
memory usage: 90.9+ KB


Vemos que la útima columna está casi vacía. Como apenas nos aporta información, la borraremos. 

La columna 'Top Team Scorer' incluye el número de goles que ha metido en el torneo el jugador nombrado en dicha columna. Vamos a separarlo en dos columnas: 'Top Team Scorer' y 'Top Team Scorer Goals'.

In [251]:
# Eliminamos las columnas que no nos interesan
overall = overall.drop(columns=['Notes'])

# Separamos el nombre del jugador y el número de goles
# Usamos str.rsplit() ya que el nombre del jugador puede contener guiones
overall[['Top Team Scorer', 'Top Team Scorer Goals']] = overall['Top Team Scorer'].str.rsplit('-', n=1, expand=True)

# Nos aseguramos de que se hayan hecho los cambios correctamente
overall.head()

Unnamed: 0,Season,Rk,Squad,MP,W,D,L,GF,GA,GD,Pts,Attendance,Top Team Scorer,Goalkeeper,Top Team Scorer Goals
0,2023-2024,SF,esReal Madrid,10.0,7.0,3.0,0.0,22.0,12.0,10.0,24.0,72017.0,Rodrygo,Andriy Lunin,5.0
1,2023-2024,SF,deBayern Munich,10.0,7.0,2.0,1.0,18.0,9.0,9.0,23.0,60000.0,Harry Kane,Manuel Neuer,7.0
2,2023-2024,SF,deDortmund,10.0,5.0,3.0,2.0,15.0,9.0,6.0,18.0,65092.0,"Marco Reus,Julian Brandt...",Gregor Kobel,2.0
3,2023-2024,SF,frParis S-G,10.0,5.0,2.0,3.0,19.0,13.0,6.0,17.0,46736.0,Kylian Mbappé,Gianluigi Donnarumma,8.0
4,2023-2024,,,,,,,,,,,,,,


Observamos que hay dos columnas categóricas que son tipo object cuando deberían ser numéricas. Hagamos el cambio, pero hay que tener en cuenta que los valores de la columna 'Attendance' contienen comas, por lo que antes de cambiar de tipo de dato, tenemos que asegurarnos de eliminarlas.

In [252]:
overall.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 775 entries, 0 to 774
Data columns (total 15 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Season                 775 non-null    object 
 1   Rk                     672 non-null    object 
 2   Squad                  672 non-null    object 
 3   MP                     672 non-null    float64
 4   W                      672 non-null    float64
 5   D                      672 non-null    float64
 6   L                      672 non-null    float64
 7   GF                     672 non-null    float64
 8   GA                     672 non-null    float64
 9   GD                     672 non-null    float64
 10  Pts                    672 non-null    float64
 11  Attendance             657 non-null    object 
 12  Top Team Scorer        669 non-null    object 
 13  Goalkeeper             672 non-null    object 
 14  Top Team Scorer Goals  669 non-null    object 
dtypes: flo

In [253]:
# Pasamos a float
overall['Attendance'] = overall['Attendance'].str.replace(',', '').astype(float)
overall['Top Team Scorer Goals'] = overall['Top Team Scorer Goals'].astype(float)

# Nos aseguramos de que se hayan hecho los cambios correctamente
overall.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 775 entries, 0 to 774
Data columns (total 15 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Season                 775 non-null    object 
 1   Rk                     672 non-null    object 
 2   Squad                  672 non-null    object 
 3   MP                     672 non-null    float64
 4   W                      672 non-null    float64
 5   D                      672 non-null    float64
 6   L                      672 non-null    float64
 7   GF                     672 non-null    float64
 8   GA                     672 non-null    float64
 9   GD                     672 non-null    float64
 10  Pts                    672 non-null    float64
 11  Attendance             657 non-null    float64
 12  Top Team Scorer        669 non-null    object 
 13  Goalkeeper             672 non-null    object 
 14  Top Team Scorer Goals  669 non-null    float64
dtypes: flo

A simple vista se puede ver que hay filas que tienen todos los datos vacíos a excepción de la temporada. Borremos estas filas.

In [254]:
# Con la cariable thresh le decimos que queremos que elimine las filas que tengan al menos dos valores nulos
# También reseteamos el índice
overall = overall.dropna(thresh=2).reset_index(drop=True)

# Nos aseguramos de que se hayan eliminado correctamente
print(overall.shape)
overall.head()

(672, 15)


Unnamed: 0,Season,Rk,Squad,MP,W,D,L,GF,GA,GD,Pts,Attendance,Top Team Scorer,Goalkeeper,Top Team Scorer Goals
0,2023-2024,SF,esReal Madrid,10.0,7.0,3.0,0.0,22.0,12.0,10.0,24.0,72017.0,Rodrygo,Andriy Lunin,5.0
1,2023-2024,SF,deBayern Munich,10.0,7.0,2.0,1.0,18.0,9.0,9.0,23.0,60000.0,Harry Kane,Manuel Neuer,7.0
2,2023-2024,SF,deDortmund,10.0,5.0,3.0,2.0,15.0,9.0,6.0,18.0,65092.0,"Marco Reus,Julian Brandt...",Gregor Kobel,2.0
3,2023-2024,SF,frParis S-G,10.0,5.0,2.0,3.0,19.0,13.0,6.0,17.0,46736.0,Kylian Mbappé,Gianluigi Donnarumma,8.0
4,2023-2024,QF,engManchester City,10.0,8.0,2.0,0.0,28.0,13.0,15.0,26.0,40837.0,Erling Haaland,Ederson,6.0


Al igual que en la tabla anterior, los equipos tienen junto a su nombre la abreviación del país del que vienen. Quitemos esa abreviación y agregemos una columna nueva con el país.

In [255]:
# Donde almacenaremos los paises para agregar al dataframe como nueva columna
paises = []

# Iteramos sobre la columna 'Squad'
for i, fila in enumerate(overall['Squad']):
    # Iteramos sobre el diccionario de paises
    for key, value in paises_dict.items():
        # Si el nombre del equipo comienza o termina con el valor del diccionario, pero primero verificamos que sea un string
        if (fila.startswith(value) or fila.endswith(value)):
            overall.loc[i, 'Squad'] = fila.replace(value, '')
            paises.append(key)
            break 

# Agregamos la columna 'Country' al dataframe en la posición 3
overall.insert(3, 'Country', paises)

# Nos aseguramos de que se haya agregado correctamente
overall.head()

Unnamed: 0,Season,Rk,Squad,Country,MP,W,D,L,GF,GA,GD,Pts,Attendance,Top Team Scorer,Goalkeeper,Top Team Scorer Goals
0,2023-2024,SF,Real Madrid,Spain,10.0,7.0,3.0,0.0,22.0,12.0,10.0,24.0,72017.0,Rodrygo,Andriy Lunin,5.0
1,2023-2024,SF,Bayern Munich,Germany,10.0,7.0,2.0,1.0,18.0,9.0,9.0,23.0,60000.0,Harry Kane,Manuel Neuer,7.0
2,2023-2024,SF,Dortmund,Germany,10.0,5.0,3.0,2.0,15.0,9.0,6.0,18.0,65092.0,"Marco Reus,Julian Brandt...",Gregor Kobel,2.0
3,2023-2024,SF,Paris S-G,France,10.0,5.0,2.0,3.0,19.0,13.0,6.0,17.0,46736.0,Kylian Mbappé,Gianluigi Donnarumma,8.0
4,2023-2024,QF,Manchester City,England,10.0,8.0,2.0,0.0,28.0,13.0,15.0,26.0,40837.0,Erling Haaland,Ederson,6.0


Veamos que valores puede tomar la columna 'Rk'.

In [256]:
rankings = overall['Rk'].value_counts()
print(rankings)

GR     336
R16    168
QF      84
SF      44
W       18
F       18
1        2
2        2
Name: Rk, dtype: int64


Vemos que hay algunos que valen '1' y '2', que serían equivalentes a 'W' y 'F' respectivamente. Cambiémoslo para que sean iguales.

In [257]:
# Reemplazamos los valores de la columna 'Rk' por 'W' y 'F' 
overall['Rk'] = overall['Rk'].replace('1', 'W')
overall['Rk'] = overall['Rk'].replace('2', 'F')

rankings = overall['Rk'].value_counts()
print(rankings)

GR     336
R16    168
QF      84
SF      44
W       20
F       20
Name: Rk, dtype: int64


Por último, eliminemos las filas que contengan datos nulos, ya que para los modelos que construiremos luego, este tipo de datos estorban.

In [258]:
overall = overall.dropna()
overall.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 654 entries, 0 to 671
Data columns (total 16 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Season                 654 non-null    object 
 1   Rk                     654 non-null    object 
 2   Squad                  654 non-null    object 
 3   Country                654 non-null    object 
 4   MP                     654 non-null    float64
 5   W                      654 non-null    float64
 6   D                      654 non-null    float64
 7   L                      654 non-null    float64
 8   GF                     654 non-null    float64
 9   GA                     654 non-null    float64
 10  GD                     654 non-null    float64
 11  Pts                    654 non-null    float64
 12  Attendance             654 non-null    float64
 13  Top Team Scorer        654 non-null    object 
 14  Goalkeeper             654 non-null    object 
 15  Top Te

Ahora toca analizar la tabla que muestra la información de los partidos.

## Tabla partidos

Comenzamos viendo por encima sus datos.

In [259]:
print(partidos.shape)
partidos.head()

(664, 13)


Unnamed: 0,Season,Round,Day,Date,Time,Home,Score,Away,Attendance,Venue,Referee,Match Report,Notes
0,2023-2024,Round of 16,Tue,2024-02-13,21:00,RB Leipzigde,0–1,esReal Madrid,45028,Red Bull Arena,Irfan Peljto,Match Report,Leg 1 of 2
1,2023-2024,Round of 16,Tue,2024-02-13,21:00,FC Copenhagendk,1–3,engManchester City,35853,Parken,José Sánchez,Match Report,Leg 1 of 2
2,2023-2024,Round of 16,Wed,2024-02-14,21:00,Paris S-Gfr,2–0,esReal Sociedad,46435,Parc des Princes,Marco Guida,Match Report,Leg 1 of 2
3,2023-2024,Round of 16,Wed,2024-02-14,21:00,Lazioit,1–0,deBayern Munich,57470,Stadio Olimpico,François Letexier,Match Report,Leg 1 of 2
4,2023-2024,Round of 16,Tue,2024-02-20,21:00,PSV Eindhovennl,1–1,deDortmund,34950,Philips Stadion,Srđan Jovanović,Match Report,Leg 1 of 2


Vemos que tenemos 659 filas y 13 columnas. Veamos qué es cada columna:
- 'Season', la temporada a la que pertenece la información de dicha fila.
- 'Round', en qué fase del torneo se jugó ese partido.
- 'Day', día de la semana en la que se jugó el partido.
- 'Date' es la fecha en la que se jugó el partido.
- 'Time' es la hora a la que comenzó el partido.
- 'Home', nos dice el equipo que jugó desde su estadio.
- 'Score', el resultado del partido.
- 'Away', el equipo que jugó fuera de casa.
- 'Attendance' son los espectadores que acudieron al estadio.
- 'Venue' es el estadio en donde se jugó el partido.
- 'Referee', el árbitro del partido.
- 'Math Report', un reportaje del partido.
- 'Notes', notas adicionales del partido.

Veamos los tipos de datos y los valores no nulos que hay en este dataframe.

In [260]:
partidos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 664 entries, 0 to 663
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Season        664 non-null    object
 1   Round         602 non-null    object
 2   Day           602 non-null    object
 3   Date          602 non-null    object
 4   Time          283 non-null    object
 5   Home          602 non-null    object
 6   Score         598 non-null    object
 7   Away          602 non-null    object
 8   Attendance    235 non-null    object
 9   Venue         602 non-null    object
 10  Referee       598 non-null    object
 11  Match Report  602 non-null    object
 12  Notes         581 non-null    object
dtypes: object(13)
memory usage: 67.6+ KB


Podemos ver que hay muchas filas a las que le faltan valores en todas las columnas menos en 'Season'. Busquemos y borremos estas filas. 

Aunque las columnas 'Attendance' y 'Time' puedan ser muy útiles, hay muy pocos datos así que prescindiremos de ellas. También podemos borrar las columnas 'Match Report' y 'Notes' ya que no nos aportan nada de información.

Además, podemos cambiar a date la columna 'Date'.

In [261]:
# Buscamos filas con muchos valores nulos y reindexamos
partidos = partidos.dropna(thresh=2).reset_index(drop=True)

# Borramos las columnas que no nos interesan
partidos = partidos.drop(columns=['Time', 'Attendance', 'Match Report', 'Notes'])

# Convertimos las columnas a string
partidos['Date'] = pd.to_datetime(partidos['Date'])

# Nos aseguramos de que se hayan hecho los cambios correctamente
partidos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 602 entries, 0 to 601
Data columns (total 9 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   Season   602 non-null    object        
 1   Round    602 non-null    object        
 2   Day      602 non-null    object        
 3   Date     602 non-null    datetime64[ns]
 4   Home     602 non-null    object        
 5   Score    598 non-null    object        
 6   Away     602 non-null    object        
 7   Venue    602 non-null    object        
 8   Referee  598 non-null    object        
dtypes: datetime64[ns](1), object(8)
memory usage: 42.5+ KB


Como ha sucedido en las tablas anteriores, la abreviación del país del equipo está donde no debería. Vamos a cambiarlo.

In [262]:
# Donde almacenaremos los paises para agregar al dataframe como nueva columna
paises_home = []
paises_away = []

# Iteramos sobre la columna 'Home'
for i, equipo in enumerate(partidos['Home']):
    # Iteramos sobre el diccionario de paises
    for key, value in paises_dict.items():
        # Si el nombre del equipo comienza o termina con el valor del diccionario, pero primero verificamos que sea un string
        if (equipo.startswith(value) or equipo.endswith(value)):
            partidos.loc[i, 'Home'] = equipo.replace(value, '')
            paises_home.append(key)
            break 

# Iteramos sobre la columna 'Away'
for i, equipo in enumerate(partidos['Away']):
    # Iteramos sobre el diccionario de paises
    for key, value in paises_dict.items():
        # Si el nombre del equipo comienza o termina con el valor del diccionario, pero primero verificamos que sea un string
        if (equipo.startswith(value) or equipo.endswith(value)):
            partidos.loc[i, 'Away'] = equipo.replace(value, '')
            paises_away.append(key)
            break 

# Agregamos la columna 'Country (Home)' al dataframe en la posición 5
partidos.insert(5, 'Country (Home)', paises_home)
# Agregamos la columna 'Country (Away)' al dataframe en la posición 7
partidos.insert(7, 'Country (Away)', paises_away)

# Nos aseguramos de que se haya agregado correctamente
partidos.head()

Unnamed: 0,Season,Round,Day,Date,Home,Country (Home),Score,Country (Away),Away,Venue,Referee
0,2023-2024,Round of 16,Tue,2024-02-13,RB Leipzig,Germany,0–1,Spain,Real Madrid,Red Bull Arena,Irfan Peljto
1,2023-2024,Round of 16,Tue,2024-02-13,FC Copenhagen,Denmark,1–3,England,Manchester City,Parken,José Sánchez
2,2023-2024,Round of 16,Wed,2024-02-14,Paris S-G,France,2–0,Spain,Real Sociedad,Parc des Princes,Marco Guida
3,2023-2024,Round of 16,Wed,2024-02-14,Lazio,Italy,1–0,Germany,Bayern Munich,Stadio Olimpico,François Letexier
4,2023-2024,Round of 16,Tue,2024-02-20,PSV Eindhoven,The Netherlands,1–1,Germany,Dortmund,Philips Stadion,Srđan Jovanović


Eliminamos todas aquellas filas que contengan algún valor nulo.

In [263]:
partidos = partidos.dropna()

No tiene sentido que el resultado del partido esté en una sola columna ya que de esta manera no podemos analizar quién ha ganado o no. Separemos el resultado en dos columnas: 'Score (Home)' y 'Score (Away)'.

In [264]:
score_away = []
score_home = []

# Iteramos sobre la columna 'Score'
for i, score in enumerate(partidos['Score']):
    # Separamos los valores de 'Score' por el guión
    home, away = score.split('–')

    if len(home) > 1 or len(away) > 1:
        home = home[-1]
        away = away[0]

    # Convertimos los valores a enteros y los agregamos a las listas correspondientes
    score_home.append(int(home))
    score_away.append(int(away))

# Agregamos la columna 'Score (Home)' al dataframe en la posición 6
partidos.insert(6, 'Score (Home)', score_home)
# Agregamos la columna 'Score (Away)' al dataframe en la posición 7
partidos.insert(7, 'Score (Away)', score_away)

# Eliminamos la columna 'Score'
partidos = partidos.drop(columns=['Score'])

# Nos aseguramos de que se haya agregado correctamente
partidos.head()

Unnamed: 0,Season,Round,Day,Date,Home,Country (Home),Score (Home),Score (Away),Country (Away),Away,Venue,Referee
0,2023-2024,Round of 16,Tue,2024-02-13,RB Leipzig,Germany,0,1,Spain,Real Madrid,Red Bull Arena,Irfan Peljto
1,2023-2024,Round of 16,Tue,2024-02-13,FC Copenhagen,Denmark,1,3,England,Manchester City,Parken,José Sánchez
2,2023-2024,Round of 16,Wed,2024-02-14,Paris S-G,France,2,0,Spain,Real Sociedad,Parc des Princes,Marco Guida
3,2023-2024,Round of 16,Wed,2024-02-14,Lazio,Italy,1,0,Germany,Bayern Munich,Stadio Olimpico,François Letexier
4,2023-2024,Round of 16,Tue,2024-02-20,PSV Eindhoven,The Netherlands,1,1,Germany,Dortmund,Philips Stadion,Srđan Jovanović


Para analizar el ganador del partido, restaremos el Score del equipo Home con el del Away. De esta manera, si el resultado da positivo gana el equipo 'Home', si es 0 hay empate y si la difrencia es negativa, ha ganado el equipo visitante.

In [265]:
# Agregamos una columna llamada 'Results' en la posición 4 (de momento vacía)
partidos.insert(4, "Results", None)

# Iteramos cada partido en el dataframe 'partidos' para asignar un valor a la columna 'Results'
for indice, partido in partidos.iterrows():
    home = partido["Score (Home)"]
    away = partido["Score (Away)"]

    # Calculamos la diferencia de goles
    result = home - away

    # Vamos actualizando la columna 'Results' con los valores correspondientes
    if result > 0:
        # Si el equipo de casa gana, se le asigna una 'H'
        partidos.at[indice, "Results"] = "H"
    elif result < 0:
        # Si el equipo visitante gana, se le asigna una 'A'
        partidos.at[indice, "Results"] = "A"
    else:
        # Si hay empate, se le asigna una 'D'
        partidos.at[indice, "Results"] = "D"

Ahora analizamos la última tabla.

## Tabla jugadores

No vamos a limpiar este dataset como tal. Buscamos analizar este dataset para incluir en la tabla 'Partidos' una columna que muestre la puntuación del equipo (que será la media de la puntuación de los jugadores). Por lo que en este apartado sólo buscamos evaluar a los jugadores.

Limpiamos los nombres de los equipos ya que de lo contrario, posteriormente sería imposible encontrar las coincidencias de los equipos de esta tabla con los equipos de la tabla 'Partidos'.  

In [266]:
paises_dict = {
    'Germany': 'de',
    'Spain': 'es',
    'England': 'eng',
    'Italy': 'it',
    'France': 'fr',
    'The Netherlands': 'nl',
    'Portugal': 'pt',
    'Belgium': 'be',
    'Scotland': 'sct',
    'Ireland': 'ie',
    'Wales': 'wls',
    'Czech Republic': 'cz',
    'Poland': 'pl',
    'Switzerland': 'ch',
    'Austria': 'at',
    'Iceland': 'is',
    'Denmark': 'dk',
    'Sweden': 'se',
    'Norway': 'no',
    'Finland': 'fi',
    'Estonia': 'ee',
    'Slovenia': 'si',
    'Slovakia': 'sk',
    'Hungary': 'hu',
    'Romania': 'ro',
    'Bulgaria': 'bg',
    'Albania': 'al',
    'Montenegro': 'me',
    'Croatia': 'hr',
    'Serbia': 'rs',
    'Bosnia and Herzegovina': 'ba',
    'North Macedonia': 'mk',
    'Greece': 'gr',
    'Moldova': 'md',
    'Georgia': 'ge',
    'Cyprus': 'cy',
    'Russia': 'ru',
    'Belarus': 'by',
    'Ukraine': 'ua',
    'Armenia': 'am',
    'Türkiye': 'tr',
    'Azerbaijan': 'az',
    'Israel': 'il',
}

# Iteramos sobre la columna 'Squad'
for i, equipo in enumerate(jugadores['Squad']):
    # Iteramos sobre el diccionario de paises
    for key, value in paises_dict.items():
        # Si el nombre del equipo comienza o termina con el valor del diccionario
        if (equipo.startswith(value) or equipo.endswith(value)):
            jugadores.loc[i, 'Squad'] = equipo.replace(value, '')
            break

Eliminamos filas que puedan molestarnos a la hora de calcular nuestras evaluaciones.

In [267]:
jugadores = jugadores.dropna()

Hacemos que la columna 'min' sea tipo float.

In [268]:
jugadores['Min'] = jugadores['Min'].str.replace(',', '.').astype(float)

Para evaluar a un jugador, valoraremos positivamente los goles marcados, su progresión (corresponde con las columnas PrgC, PrgP, PrgR) y los minutos jugados teniendo en cuenta los partidos en los que el jugador ha participado.

In [269]:
# Iteramos cada fila del dataframe
for index, jugador in jugadores.iterrows():
    # Definimos las variables que vamos a utilizar para calcular los puntos
    goles = jugador['Gls']
    prg_c = jugador['PrgC']
    prg_p = jugador['PrgP']
    prg_r = jugador['PrgR']
    minutos = jugador['Min']
    mp = jugador['MP']
    # Calculamos los minutos por partido y tenemos en cuenta si es diferente de 0
    min_mp = minutos / mp if mp != 0 else 0

    # Calculamos los puntos de cada jugador y los agregamos a una nueva columna
    jugadores.at[index, 'Points'] = (goles + prg_c + prg_p + prg_r + min_mp)

# Verificamos que se hayan generado las puntuaciones correctamente
jugadores.head()

Unnamed: 0,Season,Rk,Player,Nation,Pos,Squad,Age,Born,MP,Starts,...,G+A90,G-PK90,G+A-PK90,xG90,xAG90,xG+xAG90,npxG90,npxG+xAG90,Matches,Points
0,2017-2018,1,Vincent Aboubakar,cmCMR,DL,Porto,25,1992.0,6,6,...,1.27,0.91,1.27,0.51,0.19,0.7,0.51,0.7,Matches,136.5
1,2017-2018,2,Marcos Acuña,arARG,"DL,DF",Sporting CP,25,1991.0,5,5,...,0.21,0.0,0.21,0.0,0.11,0.11,0.0,0.11,Matches,130.6
2,2017-2018,3,Tosin Adarabioyo,engENG,DF,Manchester City,19,1997.0,2,1,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,Matches,52.5
3,2017-2018,4,Adriano,brBRA,DF,Beşiktaş,32,1984.0,6,5,...,0.0,0.0,0.0,0.01,0.02,0.03,0.01,0.03,Matches,131.0
4,2017-2018,5,Luiz Adriano,brBRA,"DL,CC",Spartak Moscow,30,1987.0,6,6,...,0.17,0.17,0.17,0.16,0.15,0.32,0.16,0.32,Matches,150.0


Ahora toca agregar estas puntuaciones a la tabla 'partidos', que es la tabla que usaremos luego para nuestros modelos. Solo hemos recopilado datos de los jugadores desde la temporada 2017-2018 así que todos los equipos de temporadas anteriores tendrán puntuación de 0.

In [270]:
# Creamos un diccionario para almacenar las puntuaciones de los equipos en cada temporada
puntuaciones_equipos_temporada = {}
for indice, jugador in jugadores.iterrows():
    equipo = jugador["Squad"]
    puntuacion = jugador["Points"]
    temporada = jugador["Season"]
    
    key = (equipo, temporada)
    if key in puntuaciones_equipos_temporada:
        puntuaciones_equipos_temporada[key].append(puntuacion)
    else:
        puntuaciones_equipos_temporada[key] = [puntuacion]

# Inserta las columnas de puntuación en la tabla de partidos en la posicion que indiquemos
partidos.insert(7, "Points (Home)", None)
partidos.insert(10, "Points (Away)", None)

# Inserta la puntuación promedio en la tabla de partidos para cada equipo en cada temporada
for indice, partido in partidos.iterrows():
    home = partido["Home"]
    away = partido["Away"]
    temporada = partido["Season"]
    
    key_home = (home, temporada)
    key_away = (away, temporada)
    
    if key_home in puntuaciones_equipos_temporada:
        puntuacion_promedio_local = sum(puntuaciones_equipos_temporada[key_home]) / len(puntuaciones_equipos_temporada[key_home])
        partidos.at[indice, "Points (Home)"] = puntuacion_promedio_local
        
    if key_away in puntuaciones_equipos_temporada:
        puntuacion_promedio_visitante = sum(puntuaciones_equipos_temporada[key_away]) / len(puntuaciones_equipos_temporada[key_away])
        partidos.at[indice, "Points (Away)"] = puntuacion_promedio_visitante

# Verificamos que se hayan agregado las puntuaciones correctamente
partidos.head()

Unnamed: 0,Season,Round,Day,Date,Results,Home,Country (Home),Points (Home),Score (Home),Score (Away),Points (Away),Country (Away),Away,Venue,Referee
0,2023-2024,Round of 16,Tue,2024-02-13,A,RB Leipzig,Germany,88.736698,0,1,114.554535,Spain,Real Madrid,Red Bull Arena,Irfan Peljto
1,2023-2024,Round of 16,Tue,2024-02-13,A,FC Copenhagen,Denmark,80.431647,1,3,113.894286,England,Manchester City,Parken,José Sánchez
2,2023-2024,Round of 16,Wed,2024-02-14,H,Paris S-G,France,114.33458,2,0,84.114332,Spain,Real Sociedad,Parc des Princes,Marco Guida
3,2023-2024,Round of 16,Wed,2024-02-14,H,Lazio,Italy,99.943311,1,0,107.882298,Germany,Bayern Munich,Stadio Olimpico,François Letexier
4,2023-2024,Round of 16,Tue,2024-02-20,D,PSV Eindhoven,The Netherlands,98.784903,1,1,91.173033,Germany,Dortmund,Philips Stadion,Srđan Jovanović


Podemos covertir a columnas numéricas varias de ellas.

## Exportamos los datos limpios

Último paso del análisis de datos.

In [271]:
# Exportamos los datos limpios
equipos.to_csv('../data/equipos_limpio.csv', index=False)
overall.to_csv('../data/overall_limpio.csv', index=False)
partidos.to_csv('../data/partidos_limpio.csv', index=False)
jugadores.to_csv('../data/jugadores_limpio.csv', index=False)