# En este EDA vamos a explorar los partidos internacionales de selecciones de fútbol.

Vamos a analizar lo siguiente:

- ¿Cómo ha evolucionado el fúbol de selecciones?
- ¿Quién fueron los primeros? ¿Y los que más han jugado desde entonces?
- ¿Se marca más antes o ahora?
- ¿Influye tanto el jugar en casa o fuera?
- ¿Quién han sido las mejores selecciones? ¿Los que más marcan y los que mejor defienden?

## Importamos librerías

In [216]:
import pandas as pd
import numpy as np
from plotly.offline import init_notebook_mode, iplot, plot
import plotly as py
init_notebook_mode(connected=True)
import plotly.graph_objs as go
import plotly.express as px

## Importamos datos

In [217]:
futbol = pd.read_csv('results.csv') # datos de los partidos internacionales
futbol

Unnamed: 0,date,home_team,away_team,home_score,away_score,tournament,city,country,neutral
0,1872-11-30,Scotland,England,0.0,0.0,Friendly,Glasgow,Scotland,False
1,1873-03-08,England,Scotland,4.0,2.0,Friendly,London,England,False
2,1874-03-07,Scotland,England,2.0,1.0,Friendly,Glasgow,Scotland,False
3,1875-03-06,England,Scotland,2.0,2.0,Friendly,London,England,False
4,1876-03-04,Scotland,England,3.0,0.0,Friendly,Glasgow,Scotland,False
...,...,...,...,...,...,...,...,...,...
44055,2022-09-27,Norway,Serbia,0.0,2.0,UEFA Nations League,Oslo,Norway,False
44056,2022-09-27,Sweden,Slovenia,1.0,1.0,UEFA Nations League,Stockholm,Sweden,False
44057,2022-09-27,Kosovo,Cyprus,5.0,1.0,UEFA Nations League,Pristina,Kosovo,False
44058,2022-09-27,Greece,Northern Ireland,3.0,1.0,UEFA Nations League,Athens,Greece,False


In [218]:
penaltis = pd.read_csv('shootouts.csv') # resultados de las tandas de penaltis
penaltis

Unnamed: 0,date,home_team,away_team,winner
0,1967-08-22,India,Taiwan,Taiwan
1,1971-11-14,South Korea,Vietnam Republic,South Korea
2,1972-05-17,Thailand,South Korea,South Korea
3,1972-05-19,Thailand,Cambodia,Thailand
4,1973-04-21,Senegal,Ghana,Ghana
...,...,...,...,...
500,2022-03-29,Senegal,Egypt,Senegal
501,2022-06-13,Australia,Peru,Australia
502,2022-06-14,Chile,Ghana,Ghana
503,2022-09-22,Thailand,Malaysia,Malaysia


In [219]:
futbol.info() # buscamos si hay algún nulo además de los que se aprecian arriba

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 44060 entries, 0 to 44059
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   date        44060 non-null  object 
 1   home_team   44060 non-null  object 
 2   away_team   44060 non-null  object 
 3   home_score  44059 non-null  float64
 4   away_score  44059 non-null  float64
 5   tournament  44060 non-null  object 
 6   city        44060 non-null  object 
 7   country     44060 non-null  object 
 8   neutral     44060 non-null  bool   
dtypes: bool(1), float64(2), object(6)
memory usage: 2.7+ MB


In [220]:
futbol.dropna(how='any', axis='rows', inplace=True) # nos cargamos las filas nulas
futbol.tail()

Unnamed: 0,date,home_team,away_team,home_score,away_score,tournament,city,country,neutral
44054,2022-09-27,Albania,Iceland,1.0,1.0,UEFA Nations League,Tirana,Albania,False
44055,2022-09-27,Norway,Serbia,0.0,2.0,UEFA Nations League,Oslo,Norway,False
44056,2022-09-27,Sweden,Slovenia,1.0,1.0,UEFA Nations League,Stockholm,Sweden,False
44057,2022-09-27,Kosovo,Cyprus,5.0,1.0,UEFA Nations League,Pristina,Kosovo,False
44058,2022-09-27,Greece,Northern Ireland,3.0,1.0,UEFA Nations League,Athens,Greece,False


In [221]:
total=futbol.merge(penaltis,how='outer',on=['date','home_team','away_team']) #hacemos un merge para tener los resultados de las tandas de penaltis
total

Unnamed: 0,date,home_team,away_team,home_score,away_score,tournament,city,country,neutral,winner
0,1872-11-30,Scotland,England,0.0,0.0,Friendly,Glasgow,Scotland,False,
1,1873-03-08,England,Scotland,4.0,2.0,Friendly,London,England,False,
2,1874-03-07,Scotland,England,2.0,1.0,Friendly,Glasgow,Scotland,False,
3,1875-03-06,England,Scotland,2.0,2.0,Friendly,London,England,False,
4,1876-03-04,Scotland,England,3.0,0.0,Friendly,Glasgow,Scotland,False,
...,...,...,...,...,...,...,...,...,...,...
44054,2022-09-27,Albania,Iceland,1.0,1.0,UEFA Nations League,Tirana,Albania,False,
44055,2022-09-27,Norway,Serbia,0.0,2.0,UEFA Nations League,Oslo,Norway,False,
44056,2022-09-27,Sweden,Slovenia,1.0,1.0,UEFA Nations League,Stockholm,Sweden,False,
44057,2022-09-27,Kosovo,Cyprus,5.0,1.0,UEFA Nations League,Pristina,Kosovo,False,


In [222]:
total.info() # vemos si está todo en orden. Ahora hay que eliminar los nulos con los datos que tenemos

<class 'pandas.core.frame.DataFrame'>
Int64Index: 44059 entries, 0 to 44058
Data columns (total 10 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   date        44059 non-null  object 
 1   home_team   44059 non-null  object 
 2   away_team   44059 non-null  object 
 3   home_score  44059 non-null  float64
 4   away_score  44059 non-null  float64
 5   tournament  44059 non-null  object 
 6   city        44059 non-null  object 
 7   country     44059 non-null  object 
 8   neutral     44059 non-null  bool   
 9   winner      505 non-null    object 
dtypes: bool(1), float64(2), object(7)
memory usage: 3.4+ MB


## Vamos a empezar a dejar bien el dataset

In [223]:
# vamos a crear una función que rellene la columna en función de quién ganó o si se empató el partido
def ganadores(row):
    if row['home_score'] > row['away_score']:
        return row['home_team']
    elif row['home_score'] < row['away_score']:
        return row['away_team']
    elif row['home_score'] == row['away_score'] and pd.isnull(row['winner']):
        return 'Draw'

In [224]:
total['winner'] = total.apply(lambda row: ganadores(row), axis=1)
total

Unnamed: 0,date,home_team,away_team,home_score,away_score,tournament,city,country,neutral,winner
0,1872-11-30,Scotland,England,0.0,0.0,Friendly,Glasgow,Scotland,False,Draw
1,1873-03-08,England,Scotland,4.0,2.0,Friendly,London,England,False,England
2,1874-03-07,Scotland,England,2.0,1.0,Friendly,Glasgow,Scotland,False,Scotland
3,1875-03-06,England,Scotland,2.0,2.0,Friendly,London,England,False,Draw
4,1876-03-04,Scotland,England,3.0,0.0,Friendly,Glasgow,Scotland,False,Scotland
...,...,...,...,...,...,...,...,...,...,...
44054,2022-09-27,Albania,Iceland,1.0,1.0,UEFA Nations League,Tirana,Albania,False,Draw
44055,2022-09-27,Norway,Serbia,0.0,2.0,UEFA Nations League,Oslo,Norway,False,Serbia
44056,2022-09-27,Sweden,Slovenia,1.0,1.0,UEFA Nations League,Stockholm,Sweden,False,Draw
44057,2022-09-27,Kosovo,Cyprus,5.0,1.0,UEFA Nations League,Pristina,Kosovo,False,Kosovo


In [225]:
total.fillna('Draw',inplace=True) # con fillna nos quitamos todos los NaN y ponemos resultados.
total

Unnamed: 0,date,home_team,away_team,home_score,away_score,tournament,city,country,neutral,winner
0,1872-11-30,Scotland,England,0.0,0.0,Friendly,Glasgow,Scotland,False,Draw
1,1873-03-08,England,Scotland,4.0,2.0,Friendly,London,England,False,England
2,1874-03-07,Scotland,England,2.0,1.0,Friendly,Glasgow,Scotland,False,Scotland
3,1875-03-06,England,Scotland,2.0,2.0,Friendly,London,England,False,Draw
4,1876-03-04,Scotland,England,3.0,0.0,Friendly,Glasgow,Scotland,False,Scotland
...,...,...,...,...,...,...,...,...,...,...
44054,2022-09-27,Albania,Iceland,1.0,1.0,UEFA Nations League,Tirana,Albania,False,Draw
44055,2022-09-27,Norway,Serbia,0.0,2.0,UEFA Nations League,Oslo,Norway,False,Serbia
44056,2022-09-27,Sweden,Slovenia,1.0,1.0,UEFA Nations League,Stockholm,Sweden,False,Draw
44057,2022-09-27,Kosovo,Cyprus,5.0,1.0,UEFA Nations League,Pristina,Kosovo,False,Kosovo


In [226]:
total.info() # todo en orden

<class 'pandas.core.frame.DataFrame'>
Int64Index: 44059 entries, 0 to 44058
Data columns (total 10 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   date        44059 non-null  object 
 1   home_team   44059 non-null  object 
 2   away_team   44059 non-null  object 
 3   home_score  44059 non-null  float64
 4   away_score  44059 non-null  float64
 5   tournament  44059 non-null  object 
 6   city        44059 non-null  object 
 7   country     44059 non-null  object 
 8   neutral     44059 non-null  bool   
 9   winner      44059 non-null  object 
dtypes: bool(1), float64(2), object(7)
memory usage: 3.4+ MB


In [227]:
total['date']=pd.to_datetime(total['date']) # pasamos la decha a objeto datetime para tener algunas funciones
total

Unnamed: 0,date,home_team,away_team,home_score,away_score,tournament,city,country,neutral,winner
0,1872-11-30,Scotland,England,0.0,0.0,Friendly,Glasgow,Scotland,False,Draw
1,1873-03-08,England,Scotland,4.0,2.0,Friendly,London,England,False,England
2,1874-03-07,Scotland,England,2.0,1.0,Friendly,Glasgow,Scotland,False,Scotland
3,1875-03-06,England,Scotland,2.0,2.0,Friendly,London,England,False,Draw
4,1876-03-04,Scotland,England,3.0,0.0,Friendly,Glasgow,Scotland,False,Scotland
...,...,...,...,...,...,...,...,...,...,...
44054,2022-09-27,Albania,Iceland,1.0,1.0,UEFA Nations League,Tirana,Albania,False,Draw
44055,2022-09-27,Norway,Serbia,0.0,2.0,UEFA Nations League,Oslo,Norway,False,Serbia
44056,2022-09-27,Sweden,Slovenia,1.0,1.0,UEFA Nations League,Stockholm,Sweden,False,Draw
44057,2022-09-27,Kosovo,Cyprus,5.0,1.0,UEFA Nations League,Pristina,Kosovo,False,Kosovo


In [228]:
total['year']=total['date'].dt.year # sacamos una columna de años
total['month']=total['date'].dt.month_name() # otra de meses
total

Unnamed: 0,date,home_team,away_team,home_score,away_score,tournament,city,country,neutral,winner,year,month
0,1872-11-30,Scotland,England,0.0,0.0,Friendly,Glasgow,Scotland,False,Draw,1872,November
1,1873-03-08,England,Scotland,4.0,2.0,Friendly,London,England,False,England,1873,March
2,1874-03-07,Scotland,England,2.0,1.0,Friendly,Glasgow,Scotland,False,Scotland,1874,March
3,1875-03-06,England,Scotland,2.0,2.0,Friendly,London,England,False,Draw,1875,March
4,1876-03-04,Scotland,England,3.0,0.0,Friendly,Glasgow,Scotland,False,Scotland,1876,March
...,...,...,...,...,...,...,...,...,...,...,...,...
44054,2022-09-27,Albania,Iceland,1.0,1.0,UEFA Nations League,Tirana,Albania,False,Draw,2022,September
44055,2022-09-27,Norway,Serbia,0.0,2.0,UEFA Nations League,Oslo,Norway,False,Serbia,2022,September
44056,2022-09-27,Sweden,Slovenia,1.0,1.0,UEFA Nations League,Stockholm,Sweden,False,Draw,2022,September
44057,2022-09-27,Kosovo,Cyprus,5.0,1.0,UEFA Nations League,Pristina,Kosovo,False,Kosovo,2022,September


In [229]:
total['total_goals']=total['home_score']+total['away_score'] # columna de suma de goles
total

Unnamed: 0,date,home_team,away_team,home_score,away_score,tournament,city,country,neutral,winner,year,month,total_goals
0,1872-11-30,Scotland,England,0.0,0.0,Friendly,Glasgow,Scotland,False,Draw,1872,November,0.0
1,1873-03-08,England,Scotland,4.0,2.0,Friendly,London,England,False,England,1873,March,6.0
2,1874-03-07,Scotland,England,2.0,1.0,Friendly,Glasgow,Scotland,False,Scotland,1874,March,3.0
3,1875-03-06,England,Scotland,2.0,2.0,Friendly,London,England,False,Draw,1875,March,4.0
4,1876-03-04,Scotland,England,3.0,0.0,Friendly,Glasgow,Scotland,False,Scotland,1876,March,3.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
44054,2022-09-27,Albania,Iceland,1.0,1.0,UEFA Nations League,Tirana,Albania,False,Draw,2022,September,2.0
44055,2022-09-27,Norway,Serbia,0.0,2.0,UEFA Nations League,Oslo,Norway,False,Serbia,2022,September,2.0
44056,2022-09-27,Sweden,Slovenia,1.0,1.0,UEFA Nations League,Stockholm,Sweden,False,Draw,2022,September,2.0
44057,2022-09-27,Kosovo,Cyprus,5.0,1.0,UEFA Nations League,Pristina,Kosovo,False,Kosovo,2022,September,6.0


## Comenzamos viendo como ha cambiado el número de partidos jugados por año

In [230]:
data = total.groupby('year').size().to_frame().set_axis(['partidos'], axis=1) # nos saca el número de partidos que se ha jugado cada año
data

Unnamed: 0_level_0,partidos
year,Unnamed: 1_level_1
1872,1
1873,1
1874,1
1875,1
1876,2
...,...
2018,908
2019,1161
2020,299
2021,1087


In [231]:
fig = px.scatter(data, title='Nº de partidos por año',labels={'value':'Nº de partidos','year':'Años','variable':''})
                
fig.show()

La cantidad de partidos era bastante constante en sus primeros años. A partir de 1950 el número deja de ser constante y empieza a estar más disperso, pero siempre al alza.

In [233]:
fig = px.line(data, title='Nº de partidos por año',labels={'value':'Nº de partidos','year':'Años','variable':''})
fig.show()

El gráfico de line plot nos revela bastante información. Para empezar, la gráfica tiene un montón de dientes de sierra. Si nos fijamos un poco veremos que todos estos suceden en años del mundial. ¿Por qué es esto? Lo veremos más adelante, pero un pequeño adelanto es que el mundial solo lo juegan unos pocos de todos los quipos que hay.
Otra cosa que llama la atención son unos picos hacia abajo. El más llamativo es el de 2020, que coincide con el COVID19, y los otras dos (menos pronunciados), en los años 1940-1948 y 1914-1920 coincidiendo con las guerras mundiales.

## Investiguemos de donde salen esos dientes de sierra

In [190]:
# Vemos el número de partidos de cada torneo por año
partidos = total.groupby(['tournament','year']).size().to_frame()
partidos.set_axis(['suma'],axis=1,inplace=True)
partidos.reset_index(inplace=True)
partidos


Unnamed: 0,tournament,year,suma
0,ABCS Tournament,2010,4
1,ABCS Tournament,2011,4
2,ABCS Tournament,2012,4
3,ABCS Tournament,2013,4
4,ABCS Tournament,2015,4
...,...,...,...
1592,Windward Islands Tournament,2013,1
1593,Windward Islands Tournament,2014,2
1594,Windward Islands Tournament,2015,3
1595,Windward Islands Tournament,2017,6


In [236]:
fig = px.bar(partidos, x="year", y="suma", color="tournament", title="Partidos anuales por competición",labels={'suma':'Nº de partidos','year':'Años','tournament':'Torneo'})
fig.show()

Vaya, parece que hay muchas competiciones. Con el paso de los años es lógico que haya aumentado este número, ya que a parte de ser periódicas, muchas de ellas requieren jugar un clasificatorio para poder aceder a ellas, dejando sin opciones a cantidad de equipos. Vamos a ampliar un poco en un período de unos 4 años, que es el tiempo en el que se repiten los picos, y así echamos un vistazo.

In [192]:
partidos2 = total.groupby(['year', 'tournament']).size().loc[2015:2019].to_frame().set_axis(['partidos totales'],axis=1).reset_index()
partidos2

Unnamed: 0,year,tournament,partidos totales
0,2015,ABCS Tournament,4
1,2015,AFC Asian Cup,32
2,2015,African Cup of Nations,32
3,2015,African Cup of Nations qualification,45
4,2015,African Nations Championship,40
...,...,...,...
98,2019,Kirin Challenge Cup,6
99,2019,Pacific Games,22
100,2019,Superclásico de las Américas,1
101,2019,UEFA Euro qualification,250


In [238]:
fig = px.bar(partidos2, y="year", x="partidos totales", color="tournament", title="Partidos de competiciones de 2015 a 2019", orientation='h',
                labels={'partidos totales':'Nº de partidos','year':'Años','tournament':'Torneo'})
fig.show()

Las principales contribuciones a los partidos son los amistosos, todos los años generan una gran parte. Los siguientes que más aoprtan son los clasificatorios. Los mundiales y torneos no tienen tantos partidos, pero tiene mucho sentido, ya que en los clasificatorios hay bastantes más equipos que en los torneos en sí.

# Vamos a ver cuándo (y quién) empezaron a jugar partidos internacionales

In [194]:
primpart = total.loc[:,['home_team','away_team','year']] # nos interesan solo las columas del año y los respectivos equipos
primhome = primpart.groupby('home_team')['year'].min().to_frame().reset_index().rename(columns={'home_team':'team'})
primaway = primpart.groupby('away_team')['year'].min().to_frame().reset_index().rename(columns={'away_team':'team'})
primtot = pd.concat([primhome, primaway]) # concatenamos para trabajar solo con 1 df
first = primtot.groupby('team').min() # de aquí sacamos el año más pequeño y por lo tanto, el primero
first.sort_values(by='year',ascending=True).head(10) # ordenamos y tenemos las primeras selecciones


Unnamed: 0_level_0,year
team,Unnamed: 1_level_1
England,1872
Scotland,1872
Wales,1876
Northern Ireland,1882
Canada,1885
United States,1885
Austria,1902
Argentina,1902
Hungary,1902
Uruguay,1902


No sorprende ver que Inglaterra aparezca en primer lugar. También tiene todo el sentido del mundo que lo que forma ahora Gran Bretaña hayan sido los siguientes, vecinos a más no poder. Los dos siguientes si que pueden parecer raros: Estados Unidos y Canadá. Si nos fijamos en la historia y la relación que tienen esos países con Inglaterra tampoco es tan extraño, pero llama la atención que para lo pronto que empezaron a día de hoy no se aun deporte tan popular allí. Si observamos el resto de países de la lista vemos que es todo lo contrario, todos son selecciones que siempre aparecen en los grandes eventos.

## Nuevos equipos

¿Cómo habrá cambiado el número de equipos desde sus inicios? Vamos a hacer una suma acumulativa para comprobarlo. Para esta suma vamos a tener en cuenta también regiones de países que han jugado e incluso selecciones no reonocidad por la FIFA todavía. Pero como lo que nos interesa son los equipos que hayan jugado internacionalmente, no hay problema.

In [195]:
sumacumu = first.reset_index().groupby('year').count().cumsum() #suma acumulativa de las nuevas apariciones por año
sumacumu.head(10)

Unnamed: 0_level_0,team
year,Unnamed: 1_level_1
1872,2
1876,3
1882,4
1885,6
1902,10
1903,11
1904,13
1905,15
1908,18
1910,20


In [240]:
fig = px.line(sumacumu, title='Suma acumulativa de los equipos',labels={'value':'Equipos','year':'Años','variable':''})
fig.show()

Parece que la gráfica tiene una pendiente muy marcada. Los primeros años se vió un crecimiento rápido para pasar a uno mas estable. Igual que en el otro gráfico, podemos ver cuando sucedieron las guerras mundiales y como paró el crecimiento para dejar paso a un pequeño 'boom'.

## ¿Cuál serán los equipos que más partidos han jugado?

In [197]:
totpart = pd.concat([total['home_team'],total['away_team']]).to_frame() # de nuevo concatenamos las columnas de los equipos
totpart.reset_index(inplace=True)
totpart.set_axis(['partidos','team'],axis = 1, inplace=True)
totpart = totpart.groupby('team').count().sort_values(by='partidos',ascending=False).reset_index().head(10)


In [198]:
fig = px.bar(totpart,x='team', y='partidos', title="Selecciones con más nº de partidos jugados.",labels={'partidos':'Nº de partidos','team':'Equipo','variable':''})
fig.show()

# Si ha variado el número de equipos y de partidos con los años, ¿habrán variado también los goles?

In [199]:
mediagoles = total.groupby('year')['total_goals'].mean().to_frame().reset_index()
mediagoles

Unnamed: 0,year,total_goals
0,1872,0.000000
1,1873,6.000000
2,1874,3.000000
3,1875,4.000000
4,1876,3.500000
...,...,...
146,2018,2.609031
147,2019,2.869078
148,2020,2.471572
149,2021,2.735971


In [242]:
fig = px.line(mediagoles, x="year", y="total_goals", title='Media de goles por partido por año',labels={'total_goals':'Media de goles','year':'Años','variable':''})
fig.show()

Parece que los equipos han ido mejorando con los años. Ya no se marcan tantos goles como antes porque las defensas han demostrado su valor con el tiempo. Hasta el año 1900 era bastante irregular, pero la única competición que había era en Inglaterra, el resto de países no se habían animado mucho. La gráfica tiene a un valor de 2,5 de forma bastante clara, un valor bastante normal si sigues el fútbol.

## Vista la media de goles por partido, vamos a ver como se distribuyen estos

In [201]:
total_goals = total['total_goals']
home_goals = total['home_score']
away_goals = total['away_score']

In [244]:
trace0 = go.Box(x = total['total_goals'],
                name = 'Goles totales',
               marker = dict(color = 'rgb(12,12,140)'))

trace1 = go.Box(x = total['home_score'],
                name = 'Goles totales en casa',
               marker = dict(color = 'rgb(12,128,128)'))

trace2 = go.Box(x = total['away_score'],
                name = 'Goles totales fuera',
               marker = dict(color = 'rgb(12,128,12)'))


data = [trace0, trace1, trace2]
iplot(data)

No nos sorprende después de haber visto el gráfico anterior. La mayoría de goles están concentrados en valores bajos, salvo algún outlayer que se escapa, pero, ¿quién sería capaz de marcar más de 20 goles? También podemos apreciar que hay cierta diferencia entre jugar en casa y jugar fuera, ¿será esto un factor muy importante a la hora de jugar?

In [203]:
total.loc[total['home_score'] > 20]

Unnamed: 0,date,home_team,away_team,home_score,away_score,tournament,city,country,neutral,winner,year,month,total_goals
6134,1966-04-03,Libya,Oman,21.0,0.0,Arab Cup,Baghdad,Iraq,True,Libya,1966,April,21.0
8027,1971-09-13,Tahiti,Cook Islands,30.0,0.0,South Pacific Games,Papeete,French Polynesia,False,Tahiti,1971,September,30.0
11223,1979-08-30,Fiji,Kiribati,24.0,0.0,South Pacific Games,Nausori,Fiji,False,Fiji,1979,August,24.0
24121,2001-04-09,Australia,Tonga,22.0,0.0,FIFA World Cup qualification,Coffs Harbour,Australia,False,Australia,2001,April,22.0
24124,2001-04-11,Australia,American Samoa,31.0,0.0,FIFA World Cup qualification,Coffs Harbour,Australia,False,Australia,2001,April,31.0
29160,2006-11-24,Sápmi,Monaco,21.0,1.0,Viva World Cup,Hyères,France,True,Sápmi,2006,November,22.0


De los partidos en los que se han marcado más de 20 goles, 4 equipos pertenecen a la misma región, apareciendo 2 veces Australia. Parece que por esa zona hay equipos de poco nivel. Si vemos el último partido vemos que es entre dos equipos que provienen de regiones pequeñas, lo cuál explica que tengan menos nivel.

# Como hemos observado en el boxplot anterior, hay una diferencia entre jugar en casa y fuera a la hora de analizar los goles. Vamos a ver este fenómeno y si afecta tanto.

In [204]:
# vamos a definir una función que nos diga si gana el que juega en casa, fuera o es empate.
def winnerhad(row):
    if row['winner'] == row['home_team']:
        return 'Home'
    elif row['winner'] == row['away_team']:
        return 'Away'
    elif row['winner'] == 'Draw':
        return 'Draw'

In [205]:
total['winnerhad'] = total.apply(lambda row: winnerhad(row), axis=1)
total

Unnamed: 0,date,home_team,away_team,home_score,away_score,tournament,city,country,neutral,winner,year,month,total_goals,winnerhad
0,1872-11-30,Scotland,England,0.0,0.0,Friendly,Glasgow,Scotland,False,Draw,1872,November,0.0,Draw
1,1873-03-08,England,Scotland,4.0,2.0,Friendly,London,England,False,England,1873,March,6.0,Home
2,1874-03-07,Scotland,England,2.0,1.0,Friendly,Glasgow,Scotland,False,Scotland,1874,March,3.0,Home
3,1875-03-06,England,Scotland,2.0,2.0,Friendly,London,England,False,Draw,1875,March,4.0,Draw
4,1876-03-04,Scotland,England,3.0,0.0,Friendly,Glasgow,Scotland,False,Scotland,1876,March,3.0,Home
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
44054,2022-09-27,Albania,Iceland,1.0,1.0,UEFA Nations League,Tirana,Albania,False,Draw,2022,September,2.0,Draw
44055,2022-09-27,Norway,Serbia,0.0,2.0,UEFA Nations League,Oslo,Norway,False,Serbia,2022,September,2.0,Away
44056,2022-09-27,Sweden,Slovenia,1.0,1.0,UEFA Nations League,Stockholm,Sweden,False,Draw,2022,September,2.0,Draw
44057,2022-09-27,Kosovo,Cyprus,5.0,1.0,UEFA Nations League,Pristina,Kosovo,False,Kosovo,2022,September,6.0,Home


In [206]:
winratehome = total[total['country']==total['home_team']] # máscara booleana para ver quién juega en casa
winratehome

Unnamed: 0,date,home_team,away_team,home_score,away_score,tournament,city,country,neutral,winner,year,month,total_goals,winnerhad
0,1872-11-30,Scotland,England,0.0,0.0,Friendly,Glasgow,Scotland,False,Draw,1872,November,0.0,Draw
1,1873-03-08,England,Scotland,4.0,2.0,Friendly,London,England,False,England,1873,March,6.0,Home
2,1874-03-07,Scotland,England,2.0,1.0,Friendly,Glasgow,Scotland,False,Scotland,1874,March,3.0,Home
3,1875-03-06,England,Scotland,2.0,2.0,Friendly,London,England,False,Draw,1875,March,4.0,Draw
4,1876-03-04,Scotland,England,3.0,0.0,Friendly,Glasgow,Scotland,False,Scotland,1876,March,3.0,Home
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
44054,2022-09-27,Albania,Iceland,1.0,1.0,UEFA Nations League,Tirana,Albania,False,Draw,2022,September,2.0,Draw
44055,2022-09-27,Norway,Serbia,0.0,2.0,UEFA Nations League,Oslo,Norway,False,Serbia,2022,September,2.0,Away
44056,2022-09-27,Sweden,Slovenia,1.0,1.0,UEFA Nations League,Stockholm,Sweden,False,Draw,2022,September,2.0,Draw
44057,2022-09-27,Kosovo,Cyprus,5.0,1.0,UEFA Nations League,Pristina,Kosovo,False,Kosovo,2022,September,6.0,Home


In [207]:
winshome = winratehome.groupby('winnerhad').size().to_frame().set_axis(['total'], axis=1) # ahora con lo que hemos sacado antes analizamos
winshome['winperc'] = winshome.apply(lambda row: row/(winshome['total'].sum()), axis=1)
winshome

Unnamed: 0_level_0,total,winperc
winnerhad,Unnamed: 1_level_1,Unnamed: 2_level_1
Away,8451,0.261398
Draw,7506,0.232168
Home,16373,0.506434


In [208]:
winrateaway = total[total['country']!=total['home_team']] # ahora lo contrario
winrateaway

Unnamed: 0,date,home_team,away_team,home_score,away_score,tournament,city,country,neutral,winner,year,month,total_goals,winnerhad
19,1882-02-18,Northern Ireland,England,0.0,13.0,Friendly,Belfast,Ireland,False,England,1882,February,13.0,Away
28,1883-03-17,Northern Ireland,Wales,1.0,1.0,Friendly,Belfast,Ireland,False,Draw,1883,March,2.0,Draw
29,1884-01-26,Northern Ireland,Scotland,0.0,5.0,British Championship,Belfast,Ireland,False,Scotland,1884,January,5.0,Away
31,1884-02-23,Northern Ireland,England,1.0,8.0,British Championship,Belfast,Ireland,False,England,1884,February,9.0,Away
40,1885-04-11,Northern Ireland,Wales,2.0,8.0,British Championship,Belfast,Ireland,False,Wales,1885,April,10.0,Away
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
44044,2022-09-27,Peru,El Salvador,4.0,1.0,Friendly,Washington,United States,True,Peru,2022,September,5.0,Home
44045,2022-09-27,Qatar,Chile,2.0,2.0,Friendly,Vienna,Austria,True,Draw,2022,September,4.0,Draw
44046,2022-09-27,Saudi Arabia,United States,0.0,0.0,Friendly,Murcia,Spain,True,Draw,2022,September,0.0,Draw
44048,2022-09-27,United Arab Emirates,Venezuela,0.0,4.0,Friendly,Wiener Neustadt,Austria,True,Venezuela,2022,September,4.0,Away


In [209]:
winsaway = winrateaway.groupby('winnerhad').size().to_frame().set_axis(['total'], axis=1) # mismo procedimiento de antes
winsaway['winperc'] = winsaway.apply(lambda row: row/(winsaway['total'].sum()), axis=1)
winsaway

Unnamed: 0_level_0,total,winperc
winnerhad,Unnamed: 1_level_1,Unnamed: 2_level_1
Away,3982,0.3395
Draw,2648,0.225765
Home,5099,0.434734


Con los datos que hemos obtenido elaboramos una gráfica para poder comparar bien.

In [246]:

trace1 = go.Bar(x = winshome.index,
                y = winshome['winperc'],
                name = 'casa',
                marker = dict(color = 'rgba(255, 174, 255, 0.5)',
                line = dict(color='rgb(0,0,0)', width = 1.5)))
                #text = df2014['country'])

trace2 = go.Bar(x = winsaway.index,
               y = winsaway['winperc'],
               name = 'fuera',
               marker = dict(color = 'rgba(255, 255, 128, 0.5)',
                            line = dict(color='rgb(0,0,0)', width = 1.5)))
               #text = df2014['country'])


data = [trace1, trace2]

layout = go.Layout(barmode = "group")

fig = go.Figure(data = data, layout = layout)

iplot(fig)

Esta gráfica representa solo la columna de locales (home_team). Comparamos la diferencia entre jugar en casa y jugar un partido como local fuera de casa. (Por ejemplo en un partido oficial que se juegue en campo neutro hay un local y visitante para distinguir, aunque en realidad los dos juegan de 'visitantes')
Podemos apreciar que el porcentaje de partidos ganados en casa es mayor que el de ganados fuera de casa, lo cual era esperado, ya que tener a la afición animando aumenta mucho la moral. Lo más sorprendente es que si ambos equipos juegan fuera de casa sigue habiendo diferencia considerable, teniendo en cuenta que ambos están en las mismas condiciones.

## ¿Habrá cambiado este porcentaje mucho con los años?

In [211]:
winratehomeyear = winratehome.groupby(['year', 'winnerhad']).size().to_frame().set_axis(['total'], axis=1).reset_index()
winratehomeyear

Unnamed: 0,year,winnerhad,total
0,1872,Draw,1
1,1873,Home,1
2,1874,Home,1
3,1875,Draw,1
4,1876,Home,2
...,...,...,...
415,2021,Draw,170
416,2021,Home,396
417,2022,Away,121
418,2022,Draw,99


In [212]:
winrateawayyear = winrateaway.groupby(['year', 'winnerhad']).size().to_frame().set_axis(['total'], axis=1).reset_index()
winrateawayyear

Unnamed: 0,year,winnerhad,total
0,1882,Away,1
1,1883,Draw,1
2,1884,Away,2
3,1885,Away,1
4,1886,Away,2
...,...,...,...
341,2021,Draw,78
342,2021,Home,134
343,2022,Away,77
344,2022,Draw,67


In [248]:
fig = px.bar(winratehomeyear, x="year", y="total", color="winnerhad", title="Resultado en casa por año",labels={'total':'Nº de partidos','year':'Año','winnerhad':'Resultado'})
fig.show()

Parece que se mantiene en la misma tónica. Los equipos siempre han dominado en sus países.

In [214]:
fig = px.bar(winrateawayyear, x="year", y="total", color="winnerhad", title="Resultado fuera por año",labels={'total':'Nº de partidos','year':'Año','winnerhad':'Resultado'})
fig.show()

Más de lo mismo fuera, las victorias y derrotas son muy parecidas.

# Análisis de selecciones

Vista la gran pantalla ahora vamos a analizar quién han sido las mejores selecciones en lo suyo.

## Vamos a empezar analizando quién son las selecciones más letales a la hora de meter goles

In [44]:
pcasa = total.groupby(['home_team','year']).size().to_frame().reset_index().set_axis(['home_team','year','part'],axis=1) #partidos en casa
pfuera = total.groupby(['away_team','year']).size().to_frame().reset_index().set_axis(['away_team','year','part'],axis=1) #partidos fuera

gcasa = total.groupby(['home_team','year'])['home_score'].sum().to_frame() #goles marcados en casa
gfuera = total.groupby(['away_team','year'])['away_score'].sum().to_frame() #goles marcados fuera

In [45]:
pcasasum = pcasa.groupby('home_team')['part'].sum().to_frame().sort_values(ascending=False,by='part') # sumamos y ordenamos los partidos
pfuerasum = pfuera.groupby('away_team')['part'].sum().to_frame().sort_values(ascending=False,by='part')

pcasaanyo = pcasa.set_index(['home_team','year'])
pfueraanyo = pfuera.set_index(['away_team','year'])

In [46]:
gcasasum = total.groupby(['home_team','year'])['home_score'].sum().to_frame().reset_index().set_axis(['home_team','year','golcasa'],axis=1)
gcasasum = gcasasum.groupby('home_team')['golcasa'].sum().to_frame().sort_values(ascending=False,by='golcasa').rename({'home_team':'teams'})
gcasasum.head(10) # lo mismo de antes pero para los goles

Unnamed: 0_level_0,golcasa
home_team,Unnamed: 1_level_1
Brazil,1462.0
Germany,1300.0
Argentina,1236.0
England,1195.0
Sweden,1163.0
Hungary,1092.0
Mexico,1075.0
Netherlands,1034.0
France,1012.0
South Korea,993.0


Una lista esperada. Selecciones top de las que suman muchos títulos y que levan jugando bastante es de esperar que hayan marcado mucho también.

In [47]:
gfuerasum = total.groupby(['away_team','year'])['away_score'].sum().to_frame().reset_index().set_axis(['away_team','year','golfuera'],axis=1)
gfuerasum = gfuerasum.groupby('away_team')['golfuera'].sum().to_frame().sort_values(ascending=False,by='golfuera')
gfuerasum.head(10) # lo mismo de arriba pero para los goles fuera de casa

Unnamed: 0_level_0,golfuera
away_team,Unnamed: 1_level_1
England,1087.0
Germany,904.0
Sweden,895.0
Hungary,856.0
Uruguay,800.0
Brazil,766.0
Netherlands,660.0
Poland,647.0
Argentina,639.0
Scotland,637.0


Se repiten algunos de la lista anterior, siendo el único que repite posición Alemania, los más regulares.

## Vamos a ver la media de goles, a ver si encontramos lo esperado

In [48]:
casadata = pcasasum.merge(gcasasum, on='home_team')
casadata['golcasaavg']=casadata['golcasa']/casadata['part']
x1 = casadata[casadata['part']>30].sort_values(by='golcasaavg',ascending=False).head(10) 
# hemos filtrado los equipos con menos de 30 partidos para que aparezcan cosas con sentido
x1

Unnamed: 0_level_0,part,golcasa,golcasaavg
home_team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Tahiti,94,279.0,2.968085
New Caledonia,135,384.0,2.844444
Solomon Islands,80,226.0,2.825
Guernsey,37,103.0,2.783784
Fiji,151,411.0,2.721854
Jersey,48,129.0,2.6875
Basque Country,33,85.0,2.575758
Suriname,163,406.0,2.490798
Germany,525,1300.0,2.47619
Brazil,591,1462.0,2.473773


Menuda sorpresa, resulta que los que más goles suelen marcar en casa no son ningunos de los de antes. Los únicos que se asoman son Alemania y Brasil. Como hemos visto anteriormente, aparecen selecciones que han llegado a marcar +20 goles en un partido y algunos equipos regionales. Los primeros 5 equipos pertenecen a la misma zona, donde abundan los equipos pequeños y con poca experiencia, por eso pueden llegar a esos datos.

In [49]:
fueradata = pfuerasum.merge(gfuerasum, on='away_team')
fueradata['golfueraavg']=fueradata['golfuera']/fueradata['part']
x3 = fueradata[fueradata['part']>30].sort_values(by='golfueraavg',ascending=False).head(10)
x3

Unnamed: 0_level_0,part,golfuera,golfueraavg
away_team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Papua New Guinea,64,174.0,2.71875
Tahiti,118,286.0,2.423729
New Caledonia,102,242.0,2.372549
England,523,1087.0,2.078394
Vanuatu,111,223.0,2.009009
Germany,457,904.0,1.978118
Western Australia,31,60.0,1.935484
Brazil,425,766.0,1.802353
Réunion,40,71.0,1.775
Hungary,490,856.0,1.746939


Aunque ya hemos visto antes que nos podemos llevar alguna sorpresa, aquí aparecen equipos de los más top como Inglaterra, que se posiciona bastante alto. Y Tahiti repite como uno de los equipos que más marcan

## Vistos los ataques, vamos a pasar a las defensas ¿Veremos algún equipo de los de antes aquí?

In [50]:
gconcasasum = total.groupby(['home_team','year'])['away_score'].sum().to_frame().reset_index().set_axis(['home_team','year','golconcasa'],axis=1)
gconcasasum = gconcasasum.groupby('home_team')['golconcasa'].sum().to_frame().sort_values(ascending=False,by='golconcasa').rename({'home_team':'teams'})
gconcasasum #vamos a hacer exactamente lo mismo de antes pero ahora viendo cuantos goles recibe un equipo

Unnamed: 0_level_0,golconcasa
home_team,Unnamed: 1_level_1
Finland,650.0
Switzerland,588.0
Austria,582.0
Hungary,573.0
Sweden,571.0
...,...
Aymara,1.0
Biafra,1.0
Central Spain,0.0
Chameria,0.0


In [51]:
gconfuerasum = total.groupby(['away_team','year'])['home_score'].sum().to_frame().reset_index().set_axis(['away_team','year','golconfuera'],axis=1)
gconfuerasum = gconfuerasum.groupby('away_team')['golconfuera'].sum().to_frame().sort_values(ascending=False,by='golconfuera')
gconfuerasum # repetimos

Unnamed: 0_level_0,golconfuera
away_team,Unnamed: 1_level_1
Finland,951.0
Hungary,856.0
Uruguay,808.0
Norway,793.0
Switzerland,791.0
...,...
Parishes of Jersey,1.0
Andalusia,1.0
Biafra,0.0
Maule Sur,0.0


In [52]:
casadata2 = pcasasum.merge(gconcasasum, on='home_team')
casadata2['golconcasaavg']=casadata2['golconcasa']/casadata2['part']
x2 = casadata2[casadata2['part']>30].sort_values(by='golconcasaavg',ascending=True).head(10)
x2

Unnamed: 0_level_0,part,golconcasa,golconcasaavg
home_team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Morocco,309,195.0,0.631068
Iran,291,192.0,0.659794
Senegal,249,165.0,0.662651
Uzbekistan,131,92.0,0.70229
Nigeria,290,208.0,0.717241
South Africa,246,178.0,0.723577
Spain,377,276.0,0.732095
South Korea,496,369.0,0.743952
Ukraine,148,114.0,0.77027
Italy,466,365.0,0.783262


Parece que no hay ningún equipo de los que más marcan en esta ocasión. Quitando Uzbekistan y Sudáfrica las demás son selecciones que suelen estar en todos (o casi todos) los torneos importantes, aunque solo sea porque se hayan clasificado. Podemos sacar de conclusión que los equipos que más marcan cuando juegan en casa no son los que mejor defienden.

In [53]:
fueradata2 = pfuerasum.merge(gconfuerasum, on='away_team')
fueradata2['golconfueraavg']=fueradata2['golconfuera']/fueradata2['part']
x4 = fueradata2[fueradata2['part']>30].sort_values(by='golconfueraavg',ascending=True).head(10)
x4

Unnamed: 0_level_0,part,golconfuera,golconfueraavg
away_team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Iran,227,218.0,0.960352
Brazil,425,430.0,1.011765
England,523,553.0,1.057361
Spain,351,374.0,1.065527
Russia,405,432.0,1.066667
South Korea,404,439.0,1.086634
Morocco,263,286.0,1.087452
Iraq,287,313.0,1.090592
Czech Republic,171,191.0,1.116959
Australia,233,261.0,1.120172


Irán repite en entre lo más alto y en esta ocasión tenemos equipos de los que antes estaban entre los más goleadores fuera de casa. Los equipos anteriores se vuelven muros en su casa. La media de goles concedidos ha aumentado en una gran cantidad si lo comparamos con la diferencia entre los goles metidos.

In [54]:
x1.reset_index(inplace=True)
x2.reset_index(inplace=True)
x3.reset_index(inplace=True)
x4.reset_index(inplace=True)

In [55]:
trace1 = go.Bar(
    x=x1['home_team'],
    y=x1['golcasaavg'],
    xaxis='x1',
    yaxis='y1',
    name = "Media de goles marcados en casa"
)
trace2 = go.Bar(
    x=x2['home_team'],
    y=x2['golconcasaavg'],
    xaxis='x2',
    yaxis='y2',
    name = "Media de goles recibidos en casa"
)
trace3 = go.Bar(
    x=x3['away_team'],
    y=x3['golfueraavg'],
    xaxis='x3',
    yaxis='y3',
    name = "Media de goles marcados fuera"
)
trace4 = go.Bar(
    x=x4['away_team'],
    y=x4['golconfueraavg'],
    xaxis='x4',
    yaxis='y4',
    name = "Media de goles recibidos fuera"
)
data = [trace1, trace2, trace3, trace4]

layout = go.Layout(xaxis=dict(
        domain=[0, 0.45],
        anchor='y1'
    ),
    yaxis=dict(
        domain=[0, 0.45],
        anchor='x1'
    ),
    xaxis2=dict(
        domain=[0.55, 1],
        anchor='y2'
    ),
    xaxis3=dict(
        domain=[0, 0.45],
        anchor='y3'
    ),
    xaxis4=dict(
        domain=[0.55, 1],
        anchor='y4'
    ),
    yaxis2=dict(
        domain=[0, 0.45],
        anchor='x2'
    ),
    yaxis3=dict(
        domain=[0.55, 1],
        anchor='x3'
    ),
    yaxis4=dict(
        domain=[0.55, 1],
        anchor='x4'
    ),
    title = 'Media de goles por selección'
)
fig = go.Figure(data=data, layout=layout)
iplot(fig)

# Finalmente vamos a ver si podemos calcular cual ha sido la mejor selección

Para este apartado vamos a crear un ránking basado en la fórmula que utiliza la FIFA para el suyo propio. No nos van a salir los resultados iguales, pero nos va a servir para ver qué selecciones han sido las mejores y ver como se distribuyen los puntos entre todos. Nos guiaremos por la siguiente fórmula: https://en.wikipedia.org/wiki/World_Football_Elo_Ratings

In [57]:
conftorn = ['AFC Asian Cup','African Cup of Nations','UEFA Euro','Copa América','CONCACAF Championship',
                             'Oceania Nations Cup']
# clasificamos algunas competiciones

In [58]:
# k es un valor de peso de los torneos, porque no sería justo que ganar un partido del mundial valiese lo mismo que un amistoso.
def kval(tournament):
  k=30
  if tournament == 'Friendly':
      k=20
  elif tournament == 'FIFA World Cup qualification':
      k=40
  elif tournament in conftorn:
      k=50
  elif tournament == 'FIFA World Cup':
      k=60
  return k

In [59]:
# esta función nos da un 'resultado esperado' sin ser ninguna predicción. Simplemente una estimación para la modificación de puntos
def expres(home,away):
  dr=home-away
  we=(1/(10**(-dr/400)+1))
  return [np.round(we,3),1-np.round(we,3)]

In [60]:
# una función que dependiendo de quién gane o pierda devuelve un valor u otro para el cálculo de los puntos
def result(loc,aw):

    if loc<aw:
        wa=1
        wh=0
    elif loc>aw:
        wa=0
        wh=1
    elif loc==aw:
        wa=0.5
        wh=0.5
    return [wh,wa]

In [61]:
#la función que nos calcula el elo y junta todas las demás. Básicamente es la fórmula de antes.
def calculaelo(elo_l,elo_v,local_goals,away_goals,tournament):
  k=kval(tournament)
  wl,wv=result(local_goals,away_goals)
  wel,wev=expres(elo_l,elo_v)
  
  elo_ln=elo_l+k*(wl-wel)
  elo_vn=elo_v+k*(wv-wev)
  
  return elo_ln,elo_vn

In [62]:
current_elo={}

for idx,row in total.iterrows():

    # los datos necesarios
    local=row['home_team']
    away=row['away_team']
    local_goals=row['home_score']
    away_goals=row['away_score']
    tournament = row['tournament']
    
    #los cálculos de lo nuevo, si no hay ningún valor empiezan con 1500
    elo_l=current_elo.get(local, 1500)
    elo_v=current_elo.get(away, 1500)
    elo_ln,elo_vn=calculaelo(elo_l,elo_v,local_goals,away_goals,tournament)

    current_elo[local]=elo_ln
    current_elo[away]=elo_vn
    
    #Añadimos las columnas al dataframe
    total.loc[idx,'Elo_h_after']=elo_ln
    total.loc[idx,'Elo_a_after']=elo_vn 
    total.loc[idx,'Elo_h_before']=elo_l
    total.loc[idx,'Elo_a_before']=elo_v

Una vez hemos aplicado la fórmula a las columnas vamos a visualizar los datos

In [63]:
# vamos a unir todo en un dataframe en el que solo tendremos 3 columnas, el país, su elo y su año correspondiente
elo1 = pd.concat([total['home_team'],total['away_team']]).reset_index().drop('index',axis=1)
elo2 = pd.concat([total['year'],total['year']]).reset_index().drop('index',axis=1)
elo3 = pd.concat([total['Elo_h_after'],total['Elo_a_after']]).reset_index().drop('index',axis=1)
elo = pd.concat([elo1, elo2, elo3],axis = 'columns').set_axis(['country','year','elo'],axis=1)
elo

Unnamed: 0,country,year,elo
0,Scotland,1872,1500.00
1,England,1873,1510.00
2,Scotland,1874,1500.58
3,England,1875,1499.46
4,Scotland,1876,1510.50
...,...,...,...
88113,Iceland,2022,1596.83
88114,Serbia,2022,1823.59
88115,Slovenia,2022,1635.64
88116,Cyprus,2022,1415.54


In [66]:
elomax = elo.groupby(['country','year'])['elo'].max().sort_values(ascending=False).to_frame().reset_index().head(10)
elomax

Unnamed: 0,country,year,elo
0,Spain,2010,2090.62
1,Germany,2014,2077.49
2,Brazil,2022,2074.51
3,Spain,2012,2069.49
4,Spain,2011,2068.04
5,Spain,2013,2067.86
6,Belgium,2021,2066.31
7,Brazil,2021,2066.03
8,France,2018,2059.47
9,France,2021,2055.91


In [537]:
fig = px.scatter(elomax,x='year', y='elo', title="Top selecciones década 2010-actualidad", color = 'country')
fig.show()

Intentando visualizar nos damos cuenta de una cosa: solo salen las selecciones de la última década. Si pensamos un poc nos damos cuenta rápido. Al ser un cálculo acumulativo los equipos que más vayan ganando aparecerán arriba en la tabla. No es necesariamente un cálculo erróneo, ya que si nos fijamos los 2 primeros puestos los ocupan España y Alemania los años que ganaros sus respectivos mundiales, y aparece también España a principios de la década del 2010 que dominaba absolutamente en todo. Pero por ejemplo no vemos selecciones de hace más años que eran los reyes de su época. ¿Significa esto que sean peores? No, solamente que no se puede hacer una comparativa en base a esto. Lo que sí podemos hacer es ver en el mismo año lo que nos encontramos.

In [525]:
elo2022 = elo.loc[elo['year']==2022].groupby('country')['elo'].last().sort_values(ascending=False).to_frame().reset_index().head(10)
elo2022

Unnamed: 0,country,elo
0,Brazil,2071.07
1,Argentina,2043.29
2,Belgium,1974.23
3,Spain,1962.41
4,France,1958.33
5,Italy,1942.82
6,Netherlands,1935.86
7,Portugal,1926.69
8,England,1923.56
9,Germany,1903.61


In [533]:
fig = px.bar(elo2022,x='country', y='elo', title="Top selecciones 2022")
fig.show()

Entre las mejores selecciones de la actualidad no vemos nada que nos sorprenda. Todo son viejos conocidos que al final se acaban llevando todo.

In [530]:
elont = elo.loc[elo['year']==2022].groupby('country')['elo'].last().sort_values(ascending=False).to_frame().reset_index().tail(10)
elont

Unnamed: 0,country,elo
202,Liechtenstein,1132.34
203,Laos,1119.94
204,Djibouti,1106.76
205,British Virgin Islands,1102.69
206,Somalia,1092.96
207,Anguilla,1076.51
208,Sri Lanka,1060.87
209,Brunei,1057.31
210,Timor-Leste,1002.51
211,San Marino,972.39


In [531]:
fig = px.bar(elont,x='country', y='elo', title="Peores selecciones 2022")
fig.show()