<img src="https://marketing4ecommerce.net/wp-content/uploads/2015/09/logo-iebs.jpg" style="float:right" width="400">

# Introducción a los lenguajes de programación

## Actividad Semanal de la clase 2

### Javier Cózar


# Dataset


En esta libreta vamos a trabajar con un conjunto de datos que contiene los datos de la FIFA de la copa del mundo. Disponéis de los archivos ya descargados en la sección de recursos. Utilizaremos estos tres ficheros:

- WorldCupMatches.csv: Datos de los partidos disputados
- WorldCupPlayers.csv: Datos de los jugadores que han jugado en cada partido
- WorldCups.csv: Datos de las copas disputadas y los resultados

# Introducción

Mediante esta libreta vamos a explorar los datos almacenados en estos tres ficheros y a responder preguntas haciendo operaciones y transformaciones con pandas. Además de completar las celdas de código para responder a los ejercicios, cuando así se indique se deberá añadir una celda de tipo _markdown_ explicando con texto enriquecido la información o las conclusiones extraídas.

In [3]:
import pandas as pd

In [4]:
# Cargamos el conjunto de datos WorldCupMatches
df_partidos = pd.read_csv("WorldCupMatches.csv")

## 1. Exploración

Usar las funciones `head`, `info` y `describe` para explorar el dataframe `df_partidos`. **Crear una celda de tipo markdown** y comentar brevemente la información almacenada en cada dataframe (columnas y tipo de datos).

_No es necesario hacer una documentación exhaustiva, tan solo comentar aspectos principales como qué tipo de información almacena el DataFrame, cuántas filas y columnas tiene, y comentar las columnas que se consideren más relevantes._

In [5]:
# Completar
print(df_partidos.head())

print(df_partidos.info())

print(df_partidos.isnull().sum())

df_partidos.describe()

     Year              Datetime    Stage         Stadium         City  \
0  1930.0  13 Jul 1930 - 15:00   Group 1         Pocitos  Montevideo    
1  1930.0  13 Jul 1930 - 15:00   Group 4  Parque Central  Montevideo    
2  1930.0  14 Jul 1930 - 12:45   Group 2  Parque Central  Montevideo    
3  1930.0  14 Jul 1930 - 14:50   Group 3         Pocitos  Montevideo    
4  1930.0  15 Jul 1930 - 16:00   Group 1  Parque Central  Montevideo    

  Home Team Name  Home Team Goals  Away Team Goals Away Team Name  \
0         France              4.0              1.0         Mexico   
1            USA              3.0              0.0        Belgium   
2     Yugoslavia              2.0              1.0         Brazil   
3        Romania              3.0              1.0           Peru   
4      Argentina              1.0              0.0         France   

  Win conditions  Attendance  Half-time Home Goals  Half-time Away Goals  \
0                     4444.0                   3.0                   0

Unnamed: 0,Year,Home Team Goals,Away Team Goals,Attendance,Half-time Home Goals,Half-time Away Goals,RoundID,MatchID
count,852.0,852.0,852.0,850.0,852.0,852.0,852.0,852.0
mean,1985.089202,1.811033,1.0223,45164.8,0.70892,0.428404,10661770.0,61346870.0
std,22.448825,1.610255,1.087573,23485.249247,0.937414,0.691252,27296130.0,111057200.0
min,1930.0,0.0,0.0,2000.0,0.0,0.0,201.0,25.0
25%,1970.0,1.0,0.0,30000.0,0.0,0.0,262.0,1188.75
50%,1990.0,2.0,1.0,41579.5,0.0,0.0,337.0,2191.0
75%,2002.0,3.0,2.0,61374.5,1.0,1.0,249722.0,43950060.0
max,2014.0,10.0,7.0,173850.0,6.0,5.0,97410600.0,300186500.0


**ANALISIS DE LOS DATOS**

Como descripción general del conjunto de datos, vemos que tenemos un total de 20 columnas, de las cuales 8 contienes datos numéricos pertenecientes a la recta real, mientras que 12 contienen datos categóricos, teniendo en cuenta que la fecha se guarda como un objeto date-time.

Es destacable que del total de 4572 filas o entradas, la mayoría no contienen información, pues tan solo 852 poseen datos no nulos, salvo en la cantidad de público asistente, que solo aparecen los datos de 850 partidos. 

La columna de condiciones de victoria está en blanco incluso en muchos casos donde no se considera información no nula, dado que solo indica condiciones especiales de finalización del partido, como tiempo extra. También es reseñable que los datos numéricos guardados como reales podrían ser transformados en enteros sin pérdida de información, lo que ayudaría a entenderlos mejor como variables discretas y además ahorraría espacio en memoria.

Las columnas RoundID y MatchID contienan un identificador numérico del partido y la ronda que se juega, si bien han sido guardados como datos numéricos, deberían tratarse y analizarse como datos categóricos puesto que no son valores cuya ordenación tenga un significado propio, así que analizarlos como valores numéricos podría llevar a errores pues se tratan simplemente de etiquetas.

## 2. Limpieza de datos

Una de las cosas que llama la atención es la alta presencia de valores perdidos en el DataFrame `df_partidos`. Cuando trabajamos con datos obtenidos del mundo real siempre nos toparemos con problemas relacionados con la medición, captura o almacenamiento de dicha información.

Localiza las filas con valores perdido. Analizar y **documentar en una nueva celda de tipo markdown** a qué se deben estos valores perdidos. Finalmente usar la función [dropna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html) sobre el DataFrame `df_partidos` para eliminar los valores perdidos del DataFrame, y almacena el resultado en `df_partidos` de nuevo.

In [6]:
# Analizamos las celdas vacías
nullmask = df_partidos.isnull() #Nos devuelve la tabla con valores booleanos marcando True en las celdas donde el valor sea nulo
print(nullmask)

for index in nullmask.columns:
    print(df_partidos.loc[nullmask[index]])

       Year  Datetime  Stage  Stadium   City  Home Team Name  Home Team Goals  \
0     False     False  False    False  False           False            False   
1     False     False  False    False  False           False            False   
2     False     False  False    False  False           False            False   
3     False     False  False    False  False           False            False   
4     False     False  False    False  False           False            False   
...     ...       ...    ...      ...    ...             ...              ...   
4567   True      True   True     True   True            True             True   
4568   True      True   True     True   True            True             True   
4569   True      True   True     True   True            True             True   
4570   True      True   True     True   True            True             True   
4571   True      True   True     True   True            True             True   

      Away Team Goals  Away

In [7]:
#Eliminamos los datos nulos del dataframe
df_partidos = df_partidos.dropna()

df_partidos

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
0,1930.0,13 Jul 1930 - 15:00,Group 1,Pocitos,Montevideo,France,4.0,1.0,Mexico,,4444.0,3.0,0.0,LOMBARDI Domingo (URU),CRISTOPHE Henry (BEL),REGO Gilberto (BRA),201.0,1096.0,FRA,MEX
1,1930.0,13 Jul 1930 - 15:00,Group 4,Parque Central,Montevideo,USA,3.0,0.0,Belgium,,18346.0,2.0,0.0,MACIAS Jose (ARG),MATEUCCI Francisco (URU),WARNKEN Alberto (CHI),201.0,1090.0,USA,BEL
2,1930.0,14 Jul 1930 - 12:45,Group 2,Parque Central,Montevideo,Yugoslavia,2.0,1.0,Brazil,,24059.0,2.0,0.0,TEJADA Anibal (URU),VALLARINO Ricardo (URU),BALWAY Thomas (FRA),201.0,1093.0,YUG,BRA
3,1930.0,14 Jul 1930 - 14:50,Group 3,Pocitos,Montevideo,Romania,3.0,1.0,Peru,,2549.0,1.0,0.0,WARNKEN Alberto (CHI),LANGENUS Jean (BEL),MATEUCCI Francisco (URU),201.0,1098.0,ROU,PER
4,1930.0,15 Jul 1930 - 16:00,Group 1,Parque Central,Montevideo,Argentina,1.0,0.0,France,,23409.0,0.0,0.0,REGO Gilberto (BRA),SAUCEDO Ulises (BOL),RADULESCU Constantin (ROU),201.0,1085.0,ARG,FRA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
847,2014.0,05 Jul 2014 - 17:00,Quarter-finals,Arena Fonte Nova,Salvador,Netherlands,0.0,0.0,Costa Rica,Netherlands win on penalties (4 - 3),51179.0,0.0,0.0,Ravshan IRMATOV (UZB),RASULOV Abduxamidullo (UZB),KOCHKAROV Bakhadyr (KGZ),255953.0,300186488.0,NED,CRC
848,2014.0,08 Jul 2014 - 17:00,Semi-finals,Estadio Mineirao,Belo Horizonte,Brazil,1.0,7.0,Germany,,58141.0,0.0,5.0,RODRIGUEZ Marco (MEX),TORRENTERA Marvin (MEX),QUINTERO Marcos (MEX),255955.0,300186474.0,BRA,GER
849,2014.0,09 Jul 2014 - 17:00,Semi-finals,Arena de Sao Paulo,Sao Paulo,Netherlands,0.0,0.0,Argentina,Argentina win on penalties (2 - 4),63267.0,0.0,0.0,C�neyt �AKIR (TUR),DURAN Bahattin (TUR),ONGUN Tarik (TUR),255955.0,300186490.0,NED,ARG
850,2014.0,12 Jul 2014 - 17:00,Play-off for third place,Estadio Nacional,Brasilia,Brazil,0.0,3.0,Netherlands,,68034.0,0.0,2.0,HAIMOUDI Djamel (ALG),ACHIK Redouane (MAR),ETCHIALI Abdelhak (ALG),255957.0,300186502.0,BRA,NED


Podemos crear una máscara con el método del DataFrame .isnull(), para posteriormente localizar por cada columna todas las filas que contengan valores nulos de la misma. Como vemos tras el análisis de los datos, las filas de la 852 en adelante (entendiendo la numeración de python, que comienza en 0) están completamente vacías, a lo que habría que sumarle que para los datos de asistencia al partido, las filas 823 y 841 carecen de datos. En cuanto al por qué carecen de datos, dado que de la fila 852 en adelante están completamente vacías, es probable que se creasen las filas en la lista pero no llegase a producirse tantos partidos y por tanto no se empleasen finalmente. Sobre los datos de asistencia al partido para las filas 823 y 841, que son los únicos huecos claros en filas que por lo demás están completas, posiblemente no se registrasen de manera adecuada. Si nos fijamos en los datos, vemos que ambas filas registran el mismo partido, que está por duplicado. Por tanto realmente solo hemos perdido el dato de asistencia de un partido 

Finalmente eliminamos los valores nulos para limpiar el dataframe y quedarnos solo con datos que podamos emplear.

## 3. Cargar datos

Al igual que hemos cargado los datos de los partidos en `df_partidos`, crear las variables `df_jugadores` y `df_copas` que contengan los dataframes correspondientes a la lectura de los csv `WorldCupPlayers` y `WorldCups` (usar `pd.read_csv)`.


In [8]:
#Cargamos los dataframes correspondientes

df_jugadores = pd.read_csv('WorldCupPlayers.csv')
df_copas = pd.read_csv('WorldCups.csv')

print(df_jugadores.head())
print(df_copas.head())

   RoundID  MatchID Team Initials           Coach Name Line-up  Shirt Number  \
0      201     1096           FRA  CAUDRON Raoul (FRA)       S             0   
1      201     1096           MEX     LUQUE Juan (MEX)       S             0   
2      201     1096           FRA  CAUDRON Raoul (FRA)       S             0   
3      201     1096           MEX     LUQUE Juan (MEX)       S             0   
4      201     1096           FRA  CAUDRON Raoul (FRA)       S             0   

        Player Name Position Event  
0       Alex THEPOT       GK   NaN  
1   Oscar BONFIGLIO       GK   NaN  
2  Marcel LANGILLER      NaN  G40'  
3      Juan CARRENO      NaN  G70'  
4   Ernest LIBERATI      NaN   NaN  
   Year      Country      Winner      Runners-Up    Third      Fourth  \
0  1930      Uruguay     Uruguay       Argentina      USA  Yugoslavia   
1  1934        Italy       Italy  Czechoslovakia  Germany     Austria   
2  1938       France       Italy         Hungary   Brazil      Sweden   
3  19

## 4. Rango temporal

El dataframe `df_copas` contiene datos de todos los mundiales disputados. ¿Cuál es el año del mundial más antiguo disputado? ¿Y el año del mundial más reciente?

**Pista:** recuerda que podemos usar funciones de agregación (`count` para contar el número de casos, `mean` para calcular el valor medio, etc.) directamente sobre columnas o Series de pandas. Por ejemplo, el siguiente código nos muestra el mayor número de goles marcado en un mundial.

```python
df_copas["GoalsScored"].max()
```

**Opcional:** Una vez localizados los años de interés (más antiguo y más reciente) visualizar las filas completas correspondientes a cada año usando la función `.loc`.

In [None]:
# Buscar el mundial más antiguo y el más reciente

primero = df_copas['Year'].min()
ultimo = df_copas['Year'].max()

#Una vez localizados, vamos a accedes a las filas de cada uno de esos mundiales
df_copas.set_index('Year').loc[[primero,ultimo]]


Unnamed: 0_level_0,Country,Winner,Runners-Up,Third,Fourth,GoalsScored,QualifiedTeams,MatchesPlayed,Attendance
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1930,Uruguay,Uruguay,Argentina,USA,Yugoslavia,70,13,18,590.549
2014,Brazil,Germany,Argentina,Netherlands,Brazil,171,32,64,3.386.810


En primer lugar he ubicado las columnas empleando los métodos min y max, para después usar el método loc colocando en primer lugar el año de celebración como índice, para que se ordenasen por año.

Como reto personal me he establecido introducirme en la librería Polars, muy similar a Pandas pero más reciente y cuyo objetivo es optimizar el procesamiento de grandes volumenes de datos en memoria y reducir el tiempo de computación empleando una nuevo sistema multinucleo. A l ahora de manipular los dataframes es importante tener en cuenta que almacena los datos por columnas completas, en lugar de por filas. El procesamiento por filas es más lento.

In [40]:
import polars as pl

pl_partidos = pl.read_csv('WorldCupMatches.csv')
pl_partidos.with_row_index()

print(pl_partidos.describe())

shape: (9, 21)
┌────────────┬────────────┬────────────┬───────┬───┬───────────┬───────────┬───────────┬───────────┐
│ statistic  ┆ Year       ┆ Datetime   ┆ Stage ┆ … ┆ RoundID   ┆ MatchID   ┆ Home Team ┆ Away Team │
│ ---        ┆ ---        ┆ ---        ┆ ---   ┆   ┆ ---       ┆ ---       ┆ Initials  ┆ Initials  │
│ str        ┆ f64        ┆ str        ┆ str   ┆   ┆ f64       ┆ f64       ┆ ---       ┆ ---       │
│            ┆            ┆            ┆       ┆   ┆           ┆           ┆ str       ┆ str       │
╞════════════╪════════════╪════════════╪═══════╪═══╪═══════════╪═══════════╪═══════════╪═══════════╡
│ count      ┆ 852.0      ┆ 852        ┆ 852   ┆ … ┆ 852.0     ┆ 852.0     ┆ 852       ┆ 852       │
│ null_count ┆ 3720.0     ┆ 3720       ┆ 3720  ┆ … ┆ 3720.0    ┆ 3720.0    ┆ 3720      ┆ 3720      │
│ mean       ┆ 1985.08920 ┆ null       ┆ null  ┆ … ┆ 1.0662e7  ┆ 6.1347e7  ┆ null      ┆ null      │
│            ┆ 2          ┆            ┆       ┆   ┆           ┆           ┆

In [41]:
#Crear la máscara es más dificil, dado que is_null() opera por columnas, no en el DataFrame completo
null_series = pl_partidos.select([pl.col(index).is_null() for index in pl_partidos.columns])

null_series

Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
bool,bool,bool,bool,bool,bool,bool,bool,bool,bool,bool,bool,bool,bool,bool,bool,bool,bool,bool,bool
false,false,false,false,false,false,false,false,false,false,false,false,false,false,false,false,false,false,false,false
false,false,false,false,false,false,false,false,false,false,false,false,false,false,false,false,false,false,false,false
false,false,false,false,false,false,false,false,false,false,false,false,false,false,false,false,false,false,false,false
false,false,false,false,false,false,false,false,false,false,false,false,false,false,false,false,false,false,false,false
false,false,false,false,false,false,false,false,false,false,false,false,false,false,false,false,false,false,false,false
…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…
true,true,true,true,true,true,true,true,true,true,true,true,true,true,true,true,true,true,true,true
true,true,true,true,true,true,true,true,true,true,true,true,true,true,true,true,true,true,true,true
true,true,true,true,true,true,true,true,true,true,true,true,true,true,true,true,true,true,true,true
true,true,true,true,true,true,true,true,true,true,true,true,true,true,true,true,true,true,true,true


In [46]:
#Vamos a filtrar las filas con valores nulos
for index in pl_partidos.columns:
    print(pl_partidos.with_row_index().filter(null_series[index]))

shape: (3_720, 21)
┌───────┬──────┬──────────┬───────┬───┬─────────┬─────────┬───────────┬────────────────────┐
│ index ┆ Year ┆ Datetime ┆ Stage ┆ … ┆ RoundID ┆ MatchID ┆ Home Team ┆ Away Team Initials │
│ ---   ┆ ---  ┆ ---      ┆ ---   ┆   ┆ ---     ┆ ---     ┆ Initials  ┆ ---                │
│ u32   ┆ i64  ┆ str      ┆ str   ┆   ┆ i64     ┆ i64     ┆ ---       ┆ str                │
│       ┆      ┆          ┆       ┆   ┆         ┆         ┆ str       ┆                    │
╞═══════╪══════╪══════════╪═══════╪═══╪═════════╪═════════╪═══════════╪════════════════════╡
│ 852   ┆ null ┆ null     ┆ null  ┆ … ┆ null    ┆ null    ┆ null      ┆ null               │
│ 853   ┆ null ┆ null     ┆ null  ┆ … ┆ null    ┆ null    ┆ null      ┆ null               │
│ 854   ┆ null ┆ null     ┆ null  ┆ … ┆ null    ┆ null    ┆ null      ┆ null               │
│ 855   ┆ null ┆ null     ┆ null  ┆ … ┆ null    ┆ null    ┆ null      ┆ null               │
│ 856   ┆ null ┆ null     ┆ null  ┆ … ┆ null    ┆ n

In [None]:
#Limpiamos los datos, eliminando los valores nulos
pl_partidos.drop_nulls()

Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
i64,str,str,str,str,str,i64,i64,str,str,i64,i64,i64,str,str,str,i64,i64,str,str
1930,"""13 Jul 1930 - 15:00 ""","""Group 1""","""Pocitos""","""Montevideo ""","""France""",4,1,"""Mexico""",""" """,4444,3,0,"""LOMBARDI Domingo (URU)""","""CRISTOPHE Henry (BEL)""","""REGO Gilberto (BRA)""",201,1096,"""FRA""","""MEX"""
1930,"""13 Jul 1930 - 15:00 ""","""Group 4""","""Parque Central""","""Montevideo ""","""USA""",3,0,"""Belgium""",""" """,18346,2,0,"""MACIAS Jose (ARG)""","""MATEUCCI Francisco (URU)""","""WARNKEN Alberto (CHI)""",201,1090,"""USA""","""BEL"""
1930,"""14 Jul 1930 - 12:45 ""","""Group 2""","""Parque Central""","""Montevideo ""","""Yugoslavia""",2,1,"""Brazil""",""" """,24059,2,0,"""TEJADA Anibal (URU)""","""VALLARINO Ricardo (URU)""","""BALWAY Thomas (FRA)""",201,1093,"""YUG""","""BRA"""
1930,"""14 Jul 1930 - 14:50 ""","""Group 3""","""Pocitos""","""Montevideo ""","""Romania""",3,1,"""Peru""",""" """,2549,1,0,"""WARNKEN Alberto (CHI)""","""LANGENUS Jean (BEL)""","""MATEUCCI Francisco (URU)""",201,1098,"""ROU""","""PER"""
1930,"""15 Jul 1930 - 16:00 ""","""Group 1""","""Parque Central""","""Montevideo ""","""Argentina""",1,0,"""France""",""" """,23409,0,0,"""REGO Gilberto (BRA)""","""SAUCEDO Ulises (BOL)""","""RADULESCU Constantin (ROU)""",201,1085,"""ARG""","""FRA"""
…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…
2014,"""05 Jul 2014 - 17:00 ""","""Quarter-finals""","""Arena Fonte Nova""","""Salvador ""","""Netherlands""",0,0,"""Costa Rica""","""Netherlands win on penalties (…",51179,0,0,"""Ravshan IRMATOV (UZB)""","""RASULOV Abduxamidullo (UZB)""","""KOCHKAROV Bakhadyr (KGZ)""",255953,300186488,"""NED""","""CRC"""
2014,"""08 Jul 2014 - 17:00 ""","""Semi-finals""","""Estadio Mineirao""","""Belo Horizonte ""","""Brazil""",1,7,"""Germany""",""" """,58141,0,5,"""RODRIGUEZ Marco (MEX)""","""TORRENTERA Marvin (MEX)""","""QUINTERO Marcos (MEX)""",255955,300186474,"""BRA""","""GER"""
2014,"""09 Jul 2014 - 17:00 ""","""Semi-finals""","""Arena de Sao Paulo""","""Sao Paulo ""","""Netherlands""",0,0,"""Argentina""","""Argentina win on penalties (2 …",63267,0,0,"""C�neyt �AKIR (TUR)""","""DURAN Bahattin (TUR)""","""ONGUN Tarik (TUR)""",255955,300186490,"""NED""","""ARG"""
2014,"""12 Jul 2014 - 17:00 ""","""Play-off for third place""","""Estadio Nacional""","""Brasilia ""","""Brazil""",0,3,"""Netherlands""",""" """,68034,0,2,"""HAIMOUDI Djamel (ALG)""","""ACHIK Redouane (MAR)""","""ETCHIALI Abdelhak (ALG)""",255957,300186502,"""BRA""","""NED"""


In [49]:
pl_copas = pl.read_csv('WorldCups.csv')

minimo = pl_copas['Year'].min()
maximo = pl_copas['Year'].max()

print(pl_copas.filter(pl.col('Year') == minimo))
print(pl_copas.filter(pl.col('Year') == maximo))

shape: (1, 10)
┌──────┬─────────┬─────────┬────────────┬───┬─────────────┬─────────────┬─────────────┬────────────┐
│ Year ┆ Country ┆ Winner  ┆ Runners-Up ┆ … ┆ GoalsScored ┆ QualifiedTe ┆ MatchesPlay ┆ Attendance │
│ ---  ┆ ---     ┆ ---     ┆ ---        ┆   ┆ ---         ┆ ams         ┆ ed          ┆ ---        │
│ i64  ┆ str     ┆ str     ┆ str        ┆   ┆ i64         ┆ ---         ┆ ---         ┆ str        │
│      ┆         ┆         ┆            ┆   ┆             ┆ i64         ┆ i64         ┆            │
╞══════╪═════════╪═════════╪════════════╪═══╪═════════════╪═════════════╪═════════════╪════════════╡
│ 1930 ┆ Uruguay ┆ Uruguay ┆ Argentina  ┆ … ┆ 70          ┆ 13          ┆ 18          ┆ 590.549    │
└──────┴─────────┴─────────┴────────────┴───┴─────────────┴─────────────┴─────────────┴────────────┘
shape: (1, 10)
┌──────┬─────────┬─────────┬────────────┬───┬─────────────┬─────────────┬─────────────┬────────────┐
│ Year ┆ Country ┆ Winner  ┆ Runners-Up ┆ … ┆ GoalsScored ┆ Q

Con esto termina la comparativa de este ejercicio con Polars, donde he realizado los mismos pasos, empleando funciones diferentes y ajustandome a la idiosincrasia de cómo cada biblioteca realiza el tratamiento de datos. 