# Autor: Aaron Frias Romero

# Futbol World Cup Dataset

En este proyecto vamos a trabajar con un conjunto de datos obtenido de [Kaggle](https://www.kaggle.com/abecklas/fifa-world-cup?select=WorldCupMatches.csv) que contiene los datos de la FIFA de la copa del mundo. Utilizaremos estos tres ficheros:

- WorldCupMatches.csv: Datos de los partidos disputados
- WorldCupPlayers.csv: Datos de los jugadores que han jugado en cada partido
- WorldCups.csv: Datos de las copas disputadas y los resultados

# Introducción

Mediante esta libreta vamos a explorar los datos almacenados en estos tres ficheros y a responder preguntas haciendo operaciones y transformaciones con la libreria pandas.

In [131]:
# Importamos la libreria pandas
import pandas as pd

In [132]:
# Cargamos el conjunto de datos WorldCupMatches
df_partidos = pd.read_csv("WorldCupMatches.csv")

## 1. Exploración


Hacemos una primera visualización de los datos para conocer sus columnas y valores.

In [133]:
df_partidos.head()

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
0,1930.0,13 Jul 1930 - 15:00,Group 1,Pocitos,Montevideo,France,4.0,1.0,Mexico,,4444.0,3.0,0.0,LOMBARDI Domingo (URU),CRISTOPHE Henry (BEL),REGO Gilberto (BRA),201.0,1096.0,FRA,MEX
1,1930.0,13 Jul 1930 - 15:00,Group 4,Parque Central,Montevideo,USA,3.0,0.0,Belgium,,18346.0,2.0,0.0,MACIAS Jose (ARG),MATEUCCI Francisco (URU),WARNKEN Alberto (CHI),201.0,1090.0,USA,BEL
2,1930.0,14 Jul 1930 - 12:45,Group 2,Parque Central,Montevideo,Yugoslavia,2.0,1.0,Brazil,,24059.0,2.0,0.0,TEJADA Anibal (URU),VALLARINO Ricardo (URU),BALWAY Thomas (FRA),201.0,1093.0,YUG,BRA
3,1930.0,14 Jul 1930 - 14:50,Group 3,Pocitos,Montevideo,Romania,3.0,1.0,Peru,,2549.0,1.0,0.0,WARNKEN Alberto (CHI),LANGENUS Jean (BEL),MATEUCCI Francisco (URU),201.0,1098.0,ROU,PER
4,1930.0,15 Jul 1930 - 16:00,Group 1,Parque Central,Montevideo,Argentina,1.0,0.0,France,,23409.0,0.0,0.0,REGO Gilberto (BRA),SAUCEDO Ulises (BOL),RADULESCU Constantin (ROU),201.0,1085.0,ARG,FRA


Ahora que hemos hecho una primera aproximación, observamos la tipologia de las variables con las que vamos a trabajar.

In [134]:
df_partidos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4572 entries, 0 to 4571
Data columns (total 20 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Year                  852 non-null    float64
 1   Datetime              852 non-null    object 
 2   Stage                 852 non-null    object 
 3   Stadium               852 non-null    object 
 4   City                  852 non-null    object 
 5   Home Team Name        852 non-null    object 
 6   Home Team Goals       852 non-null    float64
 7   Away Team Goals       852 non-null    float64
 8   Away Team Name        852 non-null    object 
 9   Win conditions        852 non-null    object 
 10  Attendance            850 non-null    float64
 11  Half-time Home Goals  852 non-null    float64
 12  Half-time Away Goals  852 non-null    float64
 13  Referee               852 non-null    object 
 14  Assistant 1           852 non-null    object 
 15  Assistant 2          

In [135]:
df_partidos.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Year,852.0,1985.089,22.44882,1930.0,1970.0,1990.0,2002.0,2014.0
Home Team Goals,852.0,1.811033,1.610255,0.0,1.0,2.0,3.0,10.0
Away Team Goals,852.0,1.0223,1.087573,0.0,0.0,1.0,2.0,7.0
Attendance,850.0,45164.8,23485.25,2000.0,30000.0,41579.5,61374.5,173850.0
Half-time Home Goals,852.0,0.7089202,0.9374141,0.0,0.0,0.0,1.0,6.0
Half-time Away Goals,852.0,0.4284038,0.6912519,0.0,0.0,0.0,1.0,5.0
RoundID,852.0,10661770.0,27296130.0,201.0,262.0,337.0,249722.0,97410600.0
MatchID,852.0,61346870.0,111057200.0,25.0,1188.75,2191.0,43950059.25,300186515.0


In [136]:
df_partidos.shape

(4572, 20)

In [137]:
df_partidos.size

91440

Podemos observar que disponemos de **4572 filas y 20 columnas.**
Disponemos de variables que se corresponden con la fecha de los partidos:

*   Year
*   Datetime

Columnas relacionadas con la localidad dónde se jugó el partido:

*   Stage
*   Stadium
*   City

Y otras variables relacionadas con el partido en sí, como los equipos implicados (Home Team Name y Away Team Name), sus iniciales (Home Team Name y Away Team Name) y el resultado del partido (Home Team Goals y Away Team Goals).

Un dato relevante es que vemos que disponemos de 4572 filas, pero tan solo un conteo de 852 partidos, es decir, 3720 filas con valores perdidos.

## 2. Limpieza de datos

Una de las cosas que llama la atención es la alta presencia de valores perdidos en el DataFrame `df_partidos`.

Para ello vamos a eliminar estos valores perdidos del conjunto del dataset.

In [138]:
# Observamos los valores nulos
df_partidos.isnull().sum()

Year                    3720
Datetime                3720
Stage                   3720
Stadium                 3720
City                    3720
Home Team Name          3720
Home Team Goals         3720
Away Team Goals         3720
Away Team Name          3720
Win conditions          3720
Attendance              3722
Half-time Home Goals    3720
Half-time Away Goals    3720
Referee                 3720
Assistant 1             3720
Assistant 2             3720
RoundID                 3720
MatchID                 3720
Home Team Initials      3720
Away Team Initials      3720
dtype: int64

Observamos que hay 3720 valores null en todas las columnas.
Para eliminarlas y limpiar el df realizaremos lo siguiente.

In [139]:
# Eliminamos las filas con algún valor perdido
df_partidos = df_partidos.dropna()
df_partidos

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
0,1930.0,13 Jul 1930 - 15:00,Group 1,Pocitos,Montevideo,France,4.0,1.0,Mexico,,4444.0,3.0,0.0,LOMBARDI Domingo (URU),CRISTOPHE Henry (BEL),REGO Gilberto (BRA),201.0,1096.0,FRA,MEX
1,1930.0,13 Jul 1930 - 15:00,Group 4,Parque Central,Montevideo,USA,3.0,0.0,Belgium,,18346.0,2.0,0.0,MACIAS Jose (ARG),MATEUCCI Francisco (URU),WARNKEN Alberto (CHI),201.0,1090.0,USA,BEL
2,1930.0,14 Jul 1930 - 12:45,Group 2,Parque Central,Montevideo,Yugoslavia,2.0,1.0,Brazil,,24059.0,2.0,0.0,TEJADA Anibal (URU),VALLARINO Ricardo (URU),BALWAY Thomas (FRA),201.0,1093.0,YUG,BRA
3,1930.0,14 Jul 1930 - 14:50,Group 3,Pocitos,Montevideo,Romania,3.0,1.0,Peru,,2549.0,1.0,0.0,WARNKEN Alberto (CHI),LANGENUS Jean (BEL),MATEUCCI Francisco (URU),201.0,1098.0,ROU,PER
4,1930.0,15 Jul 1930 - 16:00,Group 1,Parque Central,Montevideo,Argentina,1.0,0.0,France,,23409.0,0.0,0.0,REGO Gilberto (BRA),SAUCEDO Ulises (BOL),RADULESCU Constantin (ROU),201.0,1085.0,ARG,FRA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
847,2014.0,05 Jul 2014 - 17:00,Quarter-finals,Arena Fonte Nova,Salvador,Netherlands,0.0,0.0,Costa Rica,Netherlands win on penalties (4 - 3),51179.0,0.0,0.0,Ravshan IRMATOV (UZB),RASULOV Abduxamidullo (UZB),KOCHKAROV Bakhadyr (KGZ),255953.0,300186488.0,NED,CRC
848,2014.0,08 Jul 2014 - 17:00,Semi-finals,Estadio Mineirao,Belo Horizonte,Brazil,1.0,7.0,Germany,,58141.0,0.0,5.0,RODRIGUEZ Marco (MEX),TORRENTERA Marvin (MEX),QUINTERO Marcos (MEX),255955.0,300186474.0,BRA,GER
849,2014.0,09 Jul 2014 - 17:00,Semi-finals,Arena de Sao Paulo,Sao Paulo,Netherlands,0.0,0.0,Argentina,Argentina win on penalties (2 - 4),63267.0,0.0,0.0,C�neyt �AKIR (TUR),DURAN Bahattin (TUR),ONGUN Tarik (TUR),255955.0,300186490.0,NED,ARG
850,2014.0,12 Jul 2014 - 17:00,Play-off for third place,Estadio Nacional,Brasilia,Brazil,0.0,3.0,Netherlands,,68034.0,0.0,2.0,HAIMOUDI Djamel (ALG),ACHIK Redouane (MAR),ETCHIALI Abdelhak (ALG),255957.0,300186502.0,BRA,NED


## 3. Cargar datos

Al igual que hemos cargado los datos de los partidos en `df_partidos`, creamos las variables `df_jugadores` y `df_copas` que contengan los dataframes correspondientes a la lectura de los csv `WorldCupPlayers` y `WorldCups`.


In [140]:
df_jugadores = pd.read_csv("WorldCupPlayers.csv")
df_jugadores.head()

Unnamed: 0,RoundID,MatchID,Team Initials,Coach Name,Line-up,Shirt Number,Player Name,Position,Event
0,201,1096,FRA,CAUDRON Raoul (FRA),S,0,Alex THEPOT,GK,
1,201,1096,MEX,LUQUE Juan (MEX),S,0,Oscar BONFIGLIO,GK,
2,201,1096,FRA,CAUDRON Raoul (FRA),S,0,Marcel LANGILLER,,G40'
3,201,1096,MEX,LUQUE Juan (MEX),S,0,Juan CARRENO,,G70'
4,201,1096,FRA,CAUDRON Raoul (FRA),S,0,Ernest LIBERATI,,


In [141]:
df_copas = pd.read_csv("WorldCups.csv")
df_copas.head()

Unnamed: 0,Year,Country,Winner,Runners-Up,Third,Fourth,GoalsScored,QualifiedTeams,MatchesPlayed,Attendance
0,1930,Uruguay,Uruguay,Argentina,USA,Yugoslavia,70,13,18,590.549
1,1934,Italy,Italy,Czechoslovakia,Germany,Austria,70,16,17,363.000
2,1938,France,Italy,Hungary,Brazil,Sweden,84,15,18,375.700
3,1950,Brazil,Uruguay,Brazil,Sweden,Spain,88,13,22,1.045.246
4,1954,Switzerland,Germany FR,Hungary,Austria,Uruguay,140,16,26,768.607


---
# Conclusiones y preguntas a responder

---

## 4. Rango temporal

El dataframe `df_copas` contiene datos de todos los mundiales disputados. Podemos responder a distintas preguntas:
*  ¿Cuál es el año del mundial más antiguo disputado?
*  ¿Y el año del mundial más reciente?

In [142]:
print(f"El mundial más antiguo se jugó en el año {df_copas.Year.min()}, y el más reciente en el año {df_copas.Year.max()}")

El mundial más antiguo se jugó en el año 1930, y el más reciente en el año 2014


In [143]:
df_copas.loc[df_copas.Year == df_copas.Year.min()]

Unnamed: 0,Year,Country,Winner,Runners-Up,Third,Fourth,GoalsScored,QualifiedTeams,MatchesPlayed,Attendance
0,1930,Uruguay,Uruguay,Argentina,USA,Yugoslavia,70,13,18,590.549


In [144]:
df_copas.loc[df_copas.Year == df_copas.Year.max()]

Unnamed: 0,Year,Country,Winner,Runners-Up,Third,Fourth,GoalsScored,QualifiedTeams,MatchesPlayed,Attendance
19,2014,Brazil,Germany,Argentina,Netherlands,Brazil,171,32,64,3.386.810


## 5. Asistencia de público

La columna `Attendance` indica la asistencia de público en cada mundial. Pandas ha cargado esta columna como tipo string, ya que los valores indicados contienen puntos como separador de millares. En primer lugar vamos a transformar esta columna para que no contenga el caracter `.`. Posteriormente transformaremos esta columna a formato numérico.

In [145]:
df_copas = pd.read_csv("WorldCups.csv", thousands=".")

Teniendo en cuenta todos los datos de `df_copas`, ¿Cuál fué la mayor asistencia de un mundial?

In [146]:
df_copas.head()

Unnamed: 0,Year,Country,Winner,Runners-Up,Third,Fourth,GoalsScored,QualifiedTeams,MatchesPlayed,Attendance
0,1930,Uruguay,Uruguay,Argentina,USA,Yugoslavia,70,13,18,590549
1,1934,Italy,Italy,Czechoslovakia,Germany,Austria,70,16,17,363000
2,1938,France,Italy,Hungary,Brazil,Sweden,84,15,18,375700
3,1950,Brazil,Uruguay,Brazil,Sweden,Spain,88,13,22,1045246
4,1954,Switzerland,Germany FR,Hungary,Austria,Uruguay,140,16,26,768607


In [147]:
df_copas.agg(["max","min"])

Unnamed: 0,Year,Country,Winner,Runners-Up,Third,Fourth,GoalsScored,QualifiedTeams,MatchesPlayed,Attendance
max,2014,Uruguay,Uruguay,Sweden,USA,Yugoslavia,171,32,64,3587538
min,1930,Argentina,Argentina,Argentina,Austria,Austria,70,13,17,363000


In [148]:
df_copas['Attendance'].max()

3587538

In [149]:
df_copas['Attendance'].min()

363000

## 6. Asistencia de público en función del país

Sabemos que, dependiendo del país donde se celebre la copa del mundo, ésta tiene un mayor o menor impacto o relevancia. Vamos a calcular la media de asistencia agrupando por país. Finalmente, ordenar los resultados por orden decreciente de este número medio de asistentes.


In [150]:
Attend = df_copas.groupby("Country").mean().Attendance
Attend

  Attend = df_copas.groupby("Country").mean().Attendance


Country
Argentina       1545791.0
Brazil          2216028.0
Chile            893172.0
England         1563135.0
France          1580400.0
Germany         2612596.0
Italy           1439607.5
Korea/Japan     2705197.0
Mexico          1999003.0
South Africa    3178856.0
Spain           2109723.0
Sweden           819810.0
Switzerland      768607.0
USA             3587538.0
Uruguay          590549.0
Name: Attendance, dtype: float64

In [151]:
Attend.sort_values(ascending= False)

Country
USA             3587538.0
South Africa    3178856.0
Korea/Japan     2705197.0
Germany         2612596.0
Brazil          2216028.0
Spain           2109723.0
Mexico          1999003.0
France          1580400.0
England         1563135.0
Argentina       1545791.0
Italy           1439607.5
Chile            893172.0
Sweden           819810.0
Switzerland      768607.0
Uruguay          590549.0
Name: Attendance, dtype: float64

## 7. País con más victorias

Vamos a analizar el número de veces que un país ha ganado la copa del mundo. Transformar el DataFrame `df_copas` para que muestre los diferentes países que han ganado al menos una copa del mundo, y ordena el DataFrame por dicho número de forma descendente usando la función [sort_values](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html).

¿Ves algo extraño o digno de comentar? Pista: analiza Alemania. **Hazlo en una nueva celda de tipo markdown.**

In [152]:
df_copas["Winner"].value_counts().sort_values(ascending = False)

Brazil        5
Italy         4
Germany FR    3
Uruguay       2
Argentina     2
England       1
France        1
Spain         1
Germany       1
Name: Winner, dtype: int64

Como observamos Alemania (Germany) aparece dos veces.

Esto se deberá a que la última copa del mundo ganada Alemania ya era un país unificado, antes era una República Federal. Es por eso que existen dos valores de Alemania en este dataset.

## Creación de un nuevo DataFrame

A continuación vamos a trabajar con el DataFrame `df_partidos`. Vamos a centrarnos en la información a nivel de selección, siendo indiferente si el equipo juega en casa o fuera. En este sentido, la información disponible no es la mejor para trabajar cómodamente. Por ello, es habitual realizar transformaciones a los datos en función de las preguntas que le queramos hacer. A continuación crearemos un nuevo DataFrame llamado `df_paises`que contendrá todos los paises involucrados en la copa del mundo y el año en el que participaron. Es decir, un país que haya jugado varias copas del mundo aparecerá varias veces:


||Year|Country|
|---|---|---|
|0|1930|France|
|1|1930|USA|
|...|...|..|
|37|1938|France|
|...|...|..|


In [153]:
#alternativa 1
df_paises = (
    pd.concat([
        df_partidos[["Year", "Home Team Name"]].rename(columns={"Home Team Name": "Country"}),
        df_partidos[["Year", "Away Team Name"]].rename(columns={"Away Team Name": "Country"})
    ])
)
#alternativa 2
df_paises = (
    df_partidos
    .melt(id_vars=["Year"], value_vars=["Home Team Name", "Away Team Name"])
    .rename(columns={"value": "Country"})
    [["Year", "Country"]]
)

In [154]:
df_paises = df_paises.dropna()
df_paises

Unnamed: 0,Year,Country
0,1930.0,France
1,1930.0,USA
2,1930.0,Yugoslavia
3,1930.0,Romania
4,1930.0,Argentina
...,...,...
1695,2014.0,Costa Rica
1696,2014.0,Germany
1697,2014.0,Argentina
1698,2014.0,Netherlands


## 8. Número de países

Vamos a descubrir cuántos países han participado, al menos una vez, en una copa del mundo.

In [155]:
df_paises["Country"].nunique()

83

Con esta función observamos que hay 83 países que han participado al menos 1 vez en una copa del mundo de un total de 20 copas del mundo.

## 9. Número de partidos por país

Ahora vamos a descubrir cuántos partidos ha jugado cada país.

In [156]:
df_paises["Country"].value_counts().sort_values(ascending = False)

Brazil                        108
Italy                          83
Argentina                      81
Germany FR                     62
England                        62
                             ... 
Haiti                           3
rn">Bosnia and Herzegovina      3
Israel                          3
Iraq                            3
Dutch East Indies               1
Name: Country, Length: 83, dtype: int64

## 10. Partidos jugados por España

Vamos a trabajar a continuación con el DataFrame `df_partidos`. Analizaremos aquellos partidos (filas del dataframe) en los que España ha jugado como `Home Team`, es decir, donde la columna `Home Team` tiene el valor `España`.

A continuación, haremos una nueva selección en los que España ha jugado como `Away Team`, es decir, donde la columna `Away Team` tiene el valor `España`.


In [157]:
df_partidos = df_partidos.dropna()
df_partidos.sample(5)

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
358,1982.0,10 Jul 1982 - 20:00,Match for third place,Jose Rico Perez,Alicante,Poland,3.0,2.0,France,,28000.0,2.0,1.0,GARRIDO Antonio (POR),RUBIO VAZQUEZ Mario (MEX),LACARNE Belaid (ALG),676.0,921.0,POL,FRA
641,2002.0,26 Jun 2002 - 20:30,Semi-finals,Saitama Stadium 2002,Saitama,Brazil,1.0,0.0,Turkey,,61058.0,0.0,0.0,NIELSEN Kim Milton (DEN),WIERZBOWSKI Maciej (POL),SRAMKA Igor (SVK),43950400.0,43950062.0,BRA,TUR
544,1998.0,21 Jun 1998 - 17:30,Group H,Parc des Princes,Paris,Argentina,5.0,0.0,Jamaica,,45500.0,1.0,0.0,PEDERSEN Rune (NOR),NILSSON Mikael (SWE),MAZZEI Gennaro (ITA),1014.0,8752.0,ARG,JAM
159,1962.0,07 Jun 1962 - 15:00,Group 2,Nacional,Santiago De Chile,Italy,3.0,0.0,Switzerland,,59828.0,1.0,0.0,LATYCHEV Nikolaj (URS),DAVIDSON Bob (SCO),RUMENTCHEV Dimitar (BUL),231.0,1532.0,ITA,SUI
402,1986.0,18 Jun 1986 - 12:00,Round of 16,Estadio Azteca,Mexico City,England,3.0,0.0,Paraguay,,98728.0,1.0,0.0,AL SHARIF Jamal (SYR),PONNET Alexis (BEL),AL SHANAR Fallaj Khuzam (KSA),309.0,536.0,ENG,PAR


In [158]:
df_partidos.set_index("Home Team Name").loc["Spain"]

Unnamed: 0_level_0,Year,Datetime,Stage,Stadium,City,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
Home Team Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
Spain,1934.0,27 May 1934 - 16:30,Preliminary round,Luigi Ferraris,Genoa,3.0,1.0,Brazil,,21000.0,3.0,0.0,BIRLEM Alfred (GER),CARMINATI Ettore (ITA),IVANCSICS Mihaly (HUN),204.0,1111.0,ESP,BRA
Spain,1950.0,25 Jun 1950 - 15:00,Group 2,Durival de Brito,Curitiba,3.0,1.0,USA,,9511.0,0.0,1.0,VIANA Mario (BRA),DA COSTA VIEIRA Jose (POR),DE LA SALLE Charles (FRA),208.0,1208.0,ESP,USA
Spain,1950.0,29 Jun 1950 - 15:00,Group 2,Maracan� - Est�dio Jornalista M�rio Filho,Rio De Janeiro,2.0,0.0,Chile,,19790.0,2.0,0.0,MALCHER Alberto (BRA),MARINO Esteban (URU),ALVAREZ Alfredo (BOL),208.0,1193.0,ESP,CHI
Spain,1950.0,02 Jul 1950 - 15:00,Group 2,Maracan� - Est�dio Jornalista M�rio Filho,Rio De Janeiro,1.0,0.0,England,,74462.0,0.0,0.0,GALEATI Giovanni (ITA),LUTZ Jean (SUI),DATTILO Generoso (ITA),208.0,1199.0,ESP,ENG
Spain,1962.0,03 Jun 1962 - 15:00,Group 3,Estadio Sausalito,Vina Del Mar,1.0,0.0,Mexico,,11875.0,0.0,0.0,TESANIC Branko (YUG),VICUNA Claudio (CHI),VAN ROSBERG Walter Jose (CUW),231.0,1497.0,ESP,MEX
Spain,1966.0,15 Jul 1966 - 19:30,Group 2,Hillsborough,Sheffield,2.0,1.0,Switzerland,,32028.0,0.0,1.0,BAKHRAMOV Tofik (URS),ZSOLT Istvan (HUN),PHILLIPS Hugh (SCO),238.0,1641.0,ESP,SUI
Spain,1978.0,11 Jun 1978 - 13:45,Group 3,Jose Amalfitani,Buenos Aires,1.0,0.0,Sweden,,42132.0,0.0,0.0,BIWERSI Ferdinand (GER),ITHURRALDE Arturo Andres (ARG),PROKOP Adolf (GDR),278.0,2337.0,ESP,SWE
Spain,1982.0,16 Jun 1982 - 21:00,Group 5,Luis Casanova,Valencia,1.0,1.0,Honduras,,49562.0,0.0,1.0,ITHURRALDE Arturo Andres (ARG),DOTCHEV Bogdan (BUL),BARRANCOS Luis (BOL),293.0,901.0,ESP,HON
Spain,1982.0,20 Jun 1982 - 21:00,Group 5,Luis Casanova,Valencia,2.0,1.0,Yugoslavia,,48000.0,1.0,1.0,LUND-SORENSEN Henning (DEN),GARRIDO Antonio (POR),ITHURRALDE Arturo Andres (ARG),293.0,903.0,ESP,YUG
Spain,1982.0,05 Jul 1982 - 21:00,Group 2,Santiago Bernabeu,Madrid,0.0,0.0,England,,75000.0,0.0,0.0,PONNET Alexis (BEL),VAUTROT Michel (FRA),LACARNE Belaid (ALG),294.0,877.0,ESP,ENG


In [159]:
df_partidos.set_index("Away Team Name").loc["Spain"]

Unnamed: 0_level_0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
Away Team Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
Spain,1934.0,31 May 1934 - 16:30,Quarter-finals,Giovanni Berta,Florence,Italy,1.0,1.0,,35000.0,0.0,0.0,BAERT Louis (BEL),ZENISEK Bohumil (TCH),IVANCSICS Mihaly (HUN),418.0,1122.0,ITA,ESP
Spain,1934.0,01 Jun 1934 - 16:30,Quarter-finals,Giovanni Berta,Florence,Italy,1.0,0.0,,43000.0,1.0,0.0,MERCET Rene (SUI),IVANCSICS Mihaly (HUN),ZENISEK Bohumil (TCH),418.0,1123.0,ITA,ESP
Spain,1950.0,09 Jul 1950 - 15:00,Group 6,Pacaembu,Sao Paulo,Uruguay,2.0,2.0,,44802.0,1.0,2.0,GRIFFITHS Benjamin (WAL),DATTILO Generoso (ITA),ALVAREZ Alfredo (BOL),209.0,1207.0,URU,ESP
Spain,1950.0,13 Jul 1950 - 15:00,Group 6,Maracan� - Est�dio Jornalista M�rio Filho,Rio De Janeiro,Brazil,6.0,1.0,,152772.0,3.0,0.0,LEAFE Reginald (ENG),MITCHELL George (SCO),DA COSTA VIEIRA Jose (POR),209.0,1186.0,BRA,ESP
Spain,1950.0,16 Jul 1950 - 15:00,Group 6,Pacaembu,Sao Paulo,Sweden,3.0,1.0,,11227.0,2.0,0.0,VAN DER MEER Karel (NED),LUTZ Jean (SUI),GARCIA Prudencio (USA),209.0,1206.0,SWE,ESP
Spain,1962.0,31 May 1962 - 15:00,Group 3,Estadio Sausalito,Vina Del Mar,Czechoslovakia,1.0,0.0,,12700.0,0.0,0.0,STEINER Carl (AUT),MARINO Esteban (URU),VAN ROSBERG Walter Jose (CUW),231.0,1498.0,TCH,ESP
Spain,1962.0,06 Jun 1962 - 15:00,Group 3,Estadio Sausalito,Vina Del Mar,Brazil,2.0,1.0,,18715.0,0.0,1.0,BUSTAMANTE Sergio (CHI),MARINO Esteban (URU),SUNDHEIM Jose Antonio (COL),231.0,1460.0,BRA,ESP
Spain,1966.0,13 Jul 1966 - 19:30,Group 2,Villa Park,Birmingham,Argentina,2.0,1.0,,42738.0,0.0,0.0,RUMENTCHEV Dimitar (BUL),YAMASAKI MALDONADO Arturo (MEX),ZECEVIC Konstantin (YUG),238.0,1578.0,ARG,ESP
Spain,1966.0,20 Jul 1966 - 19:30,Group 2,Villa Park,Birmingham,Germany FR,2.0,1.0,,42187.0,1.0,1.0,MARQUES Armando (BRA),VICUNA Claudio (CHI),CHOI Duk Ryong (PRK),238.0,1637.0,FRG,ESP
Spain,1978.0,03 Jun 1978 - 13:45,Group 3,Jose Amalfitani,Buenos Aires,Austria,2.0,1.0,,40841.0,1.0,1.0,PALOTAI Karoly (HUN),BARRETO RUIZ Ramon (URU),IVANOV Anatoly (URS),278.0,2216.0,AUT,ESP


In [160]:
df_partidos.set_index("Home Team Name","Away Team Name").loc["Spain"]

  df_partidos.set_index("Home Team Name","Away Team Name").loc["Spain"]


Unnamed: 0_level_0,Year,Datetime,Stage,Stadium,City,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
Home Team Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
Spain,1934.0,27 May 1934 - 16:30,Preliminary round,Luigi Ferraris,Genoa,3.0,1.0,Brazil,,21000.0,3.0,0.0,BIRLEM Alfred (GER),CARMINATI Ettore (ITA),IVANCSICS Mihaly (HUN),204.0,1111.0,ESP,BRA
Spain,1950.0,25 Jun 1950 - 15:00,Group 2,Durival de Brito,Curitiba,3.0,1.0,USA,,9511.0,0.0,1.0,VIANA Mario (BRA),DA COSTA VIEIRA Jose (POR),DE LA SALLE Charles (FRA),208.0,1208.0,ESP,USA
Spain,1950.0,29 Jun 1950 - 15:00,Group 2,Maracan� - Est�dio Jornalista M�rio Filho,Rio De Janeiro,2.0,0.0,Chile,,19790.0,2.0,0.0,MALCHER Alberto (BRA),MARINO Esteban (URU),ALVAREZ Alfredo (BOL),208.0,1193.0,ESP,CHI
Spain,1950.0,02 Jul 1950 - 15:00,Group 2,Maracan� - Est�dio Jornalista M�rio Filho,Rio De Janeiro,1.0,0.0,England,,74462.0,0.0,0.0,GALEATI Giovanni (ITA),LUTZ Jean (SUI),DATTILO Generoso (ITA),208.0,1199.0,ESP,ENG
Spain,1962.0,03 Jun 1962 - 15:00,Group 3,Estadio Sausalito,Vina Del Mar,1.0,0.0,Mexico,,11875.0,0.0,0.0,TESANIC Branko (YUG),VICUNA Claudio (CHI),VAN ROSBERG Walter Jose (CUW),231.0,1497.0,ESP,MEX
Spain,1966.0,15 Jul 1966 - 19:30,Group 2,Hillsborough,Sheffield,2.0,1.0,Switzerland,,32028.0,0.0,1.0,BAKHRAMOV Tofik (URS),ZSOLT Istvan (HUN),PHILLIPS Hugh (SCO),238.0,1641.0,ESP,SUI
Spain,1978.0,11 Jun 1978 - 13:45,Group 3,Jose Amalfitani,Buenos Aires,1.0,0.0,Sweden,,42132.0,0.0,0.0,BIWERSI Ferdinand (GER),ITHURRALDE Arturo Andres (ARG),PROKOP Adolf (GDR),278.0,2337.0,ESP,SWE
Spain,1982.0,16 Jun 1982 - 21:00,Group 5,Luis Casanova,Valencia,1.0,1.0,Honduras,,49562.0,0.0,1.0,ITHURRALDE Arturo Andres (ARG),DOTCHEV Bogdan (BUL),BARRANCOS Luis (BOL),293.0,901.0,ESP,HON
Spain,1982.0,20 Jun 1982 - 21:00,Group 5,Luis Casanova,Valencia,2.0,1.0,Yugoslavia,,48000.0,1.0,1.0,LUND-SORENSEN Henning (DEN),GARRIDO Antonio (POR),ITHURRALDE Arturo Andres (ARG),293.0,903.0,ESP,YUG
Spain,1982.0,05 Jul 1982 - 21:00,Group 2,Santiago Bernabeu,Madrid,0.0,0.0,England,,75000.0,0.0,0.0,PONNET Alexis (BEL),VAUTROT Michel (FRA),LACARNE Belaid (ALG),294.0,877.0,ESP,ENG


## Calcular el vencedor de cada partido

El DataFrame `df_partidos` tiene la información de cada partido, incluyendo los goles marcados por cada equipo, pero no disponemos de una columna que indique si un equipo ganó o perdió. Vamos a crear una columna llamada `Ganador` que indique el nombre del equipo vencedor (con más goles).

In [161]:
df_partidos["Ganador"] = df_partidos["Home Team Name"]
df_partidos.loc[df_partidos["Home Team Goals"] < df_partidos["Away Team Goals"], "Ganador"] = df_partidos["Away Team Name"]
df_partidos.loc[df_partidos["Home Team Goals"] == df_partidos["Away Team Goals"], "Ganador"] = pd.NA
df_partidos.head()

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,...,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials,Ganador
0,1930.0,13 Jul 1930 - 15:00,Group 1,Pocitos,Montevideo,France,4.0,1.0,Mexico,,...,3.0,0.0,LOMBARDI Domingo (URU),CRISTOPHE Henry (BEL),REGO Gilberto (BRA),201.0,1096.0,FRA,MEX,France
1,1930.0,13 Jul 1930 - 15:00,Group 4,Parque Central,Montevideo,USA,3.0,0.0,Belgium,,...,2.0,0.0,MACIAS Jose (ARG),MATEUCCI Francisco (URU),WARNKEN Alberto (CHI),201.0,1090.0,USA,BEL,USA
2,1930.0,14 Jul 1930 - 12:45,Group 2,Parque Central,Montevideo,Yugoslavia,2.0,1.0,Brazil,,...,2.0,0.0,TEJADA Anibal (URU),VALLARINO Ricardo (URU),BALWAY Thomas (FRA),201.0,1093.0,YUG,BRA,Yugoslavia
3,1930.0,14 Jul 1930 - 14:50,Group 3,Pocitos,Montevideo,Romania,3.0,1.0,Peru,,...,1.0,0.0,WARNKEN Alberto (CHI),LANGENUS Jean (BEL),MATEUCCI Francisco (URU),201.0,1098.0,ROU,PER,Romania
4,1930.0,15 Jul 1930 - 16:00,Group 1,Parque Central,Montevideo,Argentina,1.0,0.0,France,,...,0.0,0.0,REGO Gilberto (BRA),SAUCEDO Ulises (BOL),RADULESCU Constantin (ROU),201.0,1085.0,ARG,FRA,Argentina


## 11. Número de victorias por país

Calcularemos para cada país el número de partidos ganados.

In [162]:
df_partidos = df_partidos.dropna()
df_partidos.head()

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,...,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials,Ganador
0,1930.0,13 Jul 1930 - 15:00,Group 1,Pocitos,Montevideo,France,4.0,1.0,Mexico,,...,3.0,0.0,LOMBARDI Domingo (URU),CRISTOPHE Henry (BEL),REGO Gilberto (BRA),201.0,1096.0,FRA,MEX,France
1,1930.0,13 Jul 1930 - 15:00,Group 4,Parque Central,Montevideo,USA,3.0,0.0,Belgium,,...,2.0,0.0,MACIAS Jose (ARG),MATEUCCI Francisco (URU),WARNKEN Alberto (CHI),201.0,1090.0,USA,BEL,USA
2,1930.0,14 Jul 1930 - 12:45,Group 2,Parque Central,Montevideo,Yugoslavia,2.0,1.0,Brazil,,...,2.0,0.0,TEJADA Anibal (URU),VALLARINO Ricardo (URU),BALWAY Thomas (FRA),201.0,1093.0,YUG,BRA,Yugoslavia
3,1930.0,14 Jul 1930 - 14:50,Group 3,Pocitos,Montevideo,Romania,3.0,1.0,Peru,,...,1.0,0.0,WARNKEN Alberto (CHI),LANGENUS Jean (BEL),MATEUCCI Francisco (URU),201.0,1098.0,ROU,PER,Romania
4,1930.0,15 Jul 1930 - 16:00,Group 1,Parque Central,Montevideo,Argentina,1.0,0.0,France,,...,0.0,0.0,REGO Gilberto (BRA),SAUCEDO Ulises (BOL),RADULESCU Constantin (ROU),201.0,1085.0,ARG,FRA,Argentina


In [168]:
(
    df_partidos
    .dropna(subset=["Ganador"])
    .groupby("Ganador")
    .count()
    .sort_values("Year", ascending=False)
)

Unnamed: 0_level_0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
Ganador,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
Brazil,71,71,71,71,71,71,71,71,71,71,71,71,71,71,71,71,71,71,71,71
Italy,45,45,45,45,45,45,45,45,45,45,45,45,45,45,45,45,45,45,45,45
Argentina,44,44,44,44,44,44,44,44,44,44,44,44,44,44,44,44,44,44,44,44
Germany FR,36,36,36,36,36,36,36,36,36,36,36,36,36,36,36,36,36,36,36,36
Germany,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Cuba,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1
Korea DPR,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1
Wales,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1
"rn"">Bosnia and Herzegovina",1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1


Ahora calcularemos para cada país el ratio de victorias, calculado como el número de partidos ganados dividido por el número de partidos jugados.

In [164]:
df_partidos["MatchID"].value_counts()

300186497.0    2
300186502.0    2
300186491.0    2
300186462.0    2
300186485.0    2
              ..
2170.0         1
2067.0         1
2065.0         1
2064.0         1
564.0          1
Name: MatchID, Length: 649, dtype: int64

Podemos observar que tenemos un total de 649 partidos. A continuación calcularemos el número de partidos por país y el número de paises ganados.

In [165]:
total_partidos = df_paises["Country"].value_counts().sort_values(ascending = False)
print(total_partidos)


Brazil                        108
Italy                          83
Argentina                      81
Germany FR                     62
England                        62
                             ... 
Haiti                           3
rn">Bosnia and Herzegovina      3
Israel                          3
Iraq                            3
Dutch East Indies               1
Name: Country, Length: 83, dtype: int64


In [166]:
total_ganados = df_partidos["Ganador"].value_counts().sort_values(ascending = False)
print(total_ganados)

Brazil                        71
Italy                         45
Argentina                     44
Germany FR                    36
Germany                       32
                              ..
Jamaica                        1
Wales                          1
Korea DPR                      1
Tunisia                        1
rn">Bosnia and Herzegovina     1
Name: Ganador, Length: 64, dtype: int64


In [169]:
# Ordenar por ratio
victorias = (
    df_partidos
    .dropna(subset=["Ganador"])
    .groupby("Ganador")
    .count()
    .rename(columns={"Year":"Victorias"})
    [["Victorias"]]
)

jugados = df_paises.groupby("Country").count().rename(columns={"Year": "Jugados"})[["Jugados"]]
ratio_victorias = pd.merge(jugados, victorias, left_index=True, right_index=True, how="inner")
ratio_victorias["Ratio"] = ratio_victorias["Victorias"] / ratio_victorias["Jugados"]

ratio_victorias.sort_values("Ratio", ascending=False)

Unnamed: 0,Jugados,Victorias,Ratio
Germany,46,32,0.695652
Brazil,108,71,0.657407
Germany FR,62,36,0.580645
Argentina,81,44,0.543210
Italy,83,45,0.542169
...,...,...,...
Morocco,13,2,0.153846
"rn"">Republic of Ireland",13,2,0.153846
Korea DPR,7,1,0.142857
Bulgaria,26,3,0.115385
