<img src="https://marketing4ecommerce.net/wp-content/uploads/2015/09/logo-iebs.jpg" style="float:right" width="400">

# Introducción a los lenguajes de programación

## Caso Práctico: Estudio de un dataset

### Javier Cózar


# Dataset

En esta libreta vamos a trabajar con un conjunto de datos obtenido de [Kaggle](https://www.kaggle.com/abecklas/fifa-world-cup?select=WorldCupMatches.csv) que contiene los datos de la FIFA de la copa del mundo. Recomendamos acceder a este enlace para descargar los ficheros a trabajar, aunque también disponéis de los archivos ya descargados en la sección de recursos. Utilizaremos estos tres ficheros:

- WorldCupMatches.csv: Datos de los partidos disputados
- WorldCupPlayers.csv: Datos de los jugadores que han jugado en cada partido
- WorldCups.csv: Datos de las copas disputadas y los resultados

# Introducción

Mediante esta libreta vamos a explorar los datos almacenados en estos tres ficheros y a responder preguntas haciendo operaciones y transformaciones con pandas. Además de completar las celdas de código para responder a los ejercicios, cuando así se indique se deberá añadir una celda de tipo _markdown_ explicando con texto enriquecido la información o las conclusiones extraídas.

In [1]:
import pandas as pd

In [2]:
# Cargamos el conjunto de datos WorldCupMatches
df_partidos = pd.read_csv("WorldCupMatches.csv")

**NOTA:** en una actividad anterior completamos los ejercicios del 1 al 3, copiar y pegar dicho trabajo en esta libreta con el fin de tener un report completo que analize los datos del problema. Es decir, **no es necesario volver a realizar estos 3 primeros ejercicios**.

## 1. Exploración

Usar las funciones `head`, `info` y `describe` para explorar el dataframe `df_partidos`. **Crear una celda de tipo markdown** y comentar brevemente la información almacenada en cada dataframe (columnas y tipo de datos).

_No es necesario hacer una documentación exhaustiva, tan solo comentar aspectos principales como qué tipo de información almacena el DataFrame, cuántas filas y columnas tiene, y comentar las columnas que se consideren más relevantes._

In [3]:
df_partidos.head()

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
0,1930.0,13 Jul 1930 - 15:00,Group 1,Pocitos,Montevideo,France,4.0,1.0,Mexico,,4444.0,3.0,0.0,LOMBARDI Domingo (URU),CRISTOPHE Henry (BEL),REGO Gilberto (BRA),201.0,1096.0,FRA,MEX
1,1930.0,13 Jul 1930 - 15:00,Group 4,Parque Central,Montevideo,USA,3.0,0.0,Belgium,,18346.0,2.0,0.0,MACIAS Jose (ARG),MATEUCCI Francisco (URU),WARNKEN Alberto (CHI),201.0,1090.0,USA,BEL
2,1930.0,14 Jul 1930 - 12:45,Group 2,Parque Central,Montevideo,Yugoslavia,2.0,1.0,Brazil,,24059.0,2.0,0.0,TEJADA Anibal (URU),VALLARINO Ricardo (URU),BALWAY Thomas (FRA),201.0,1093.0,YUG,BRA
3,1930.0,14 Jul 1930 - 14:50,Group 3,Pocitos,Montevideo,Romania,3.0,1.0,Peru,,2549.0,1.0,0.0,WARNKEN Alberto (CHI),LANGENUS Jean (BEL),MATEUCCI Francisco (URU),201.0,1098.0,ROU,PER
4,1930.0,15 Jul 1930 - 16:00,Group 1,Parque Central,Montevideo,Argentina,1.0,0.0,France,,23409.0,0.0,0.0,REGO Gilberto (BRA),SAUCEDO Ulises (BOL),RADULESCU Constantin (ROU),201.0,1085.0,ARG,FRA


In [4]:
df_partidos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4572 entries, 0 to 4571
Data columns (total 20 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Year                  852 non-null    float64
 1   Datetime              852 non-null    object 
 2   Stage                 852 non-null    object 
 3   Stadium               852 non-null    object 
 4   City                  852 non-null    object 
 5   Home Team Name        852 non-null    object 
 6   Home Team Goals       852 non-null    float64
 7   Away Team Goals       852 non-null    float64
 8   Away Team Name        852 non-null    object 
 9   Win conditions        852 non-null    object 
 10  Attendance            850 non-null    float64
 11  Half-time Home Goals  852 non-null    float64
 12  Half-time Away Goals  852 non-null    float64
 13  Referee               852 non-null    object 
 14  Assistant 1           852 non-null    object 
 15  Assistant 2          

In [5]:
df_partidos.describe()

Unnamed: 0,Year,Home Team Goals,Away Team Goals,Attendance,Half-time Home Goals,Half-time Away Goals,RoundID,MatchID
count,852.0,852.0,852.0,850.0,852.0,852.0,852.0,852.0
mean,1985.089202,1.811033,1.0223,45164.8,0.70892,0.428404,10661770.0,61346870.0
std,22.448825,1.610255,1.087573,23485.249247,0.937414,0.691252,27296130.0,111057200.0
min,1930.0,0.0,0.0,2000.0,0.0,0.0,201.0,25.0
25%,1970.0,1.0,0.0,30000.0,0.0,0.0,262.0,1188.75
50%,1990.0,2.0,1.0,41579.5,0.0,0.0,337.0,2191.0
75%,2002.0,3.0,2.0,61374.5,1.0,1.0,249722.0,43950060.0
max,2014.0,10.0,7.0,173850.0,6.0,5.0,97410600.0,300186500.0


### Comentarios a la exploración

- El dataframe de partidos tiene **20 columnas**, y hay 4572 registros pero solo hay **852 registros** que tienen datos, por lo que se requerirá una limpieza de datos.

- Los campos numéricos del dataframe son del tipo float64, los campos string son definidos como object.

- Los datos interesantes que podemos extraer de la función describe son los siguientes:

    - El número de partidos son 852, la media de asistencia es de 45164 personas por partido, siendo el partido con más asistencia registrada con 173850 personas, y el de menos asistencia 2000 personas.

    - La media de goles por partido para el equipo que juega como local es de 1.81, siendo esta media en la primera parte de 0.7 goles por partido.
    - La media de goles por partido para el equipo que juega como visitante es de 1.02, siendo esta media en la primera parte de 0.42 goles por partido.

    - El máximo de goles en un partido como local es de 10, y el máximo de goles en un partido como visitante es de 7.

## 2. Limpieza de datos

Una de las cosas que llama la atención es la alta presencia de valores perdidos en el DataFrame `df_partidos`. Cuando trabajamos con datos obtenidos del mundo real siempre nos toparemos con problemas relacionados con la medición, captura o almacenamiento de dicha información.

Localiza las filas con valores perdido. Analizar y **documentar en una nueva celda de tipo markdown** a qué se deben estos valores perdidos. Finalmente usar la función [dropna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html) sobre el DataFrame `df_partidos` para eliminar los valores perdidos del DataFrame, y almacena el resultado en `df_partidos` de nuevo.

In [6]:
df_partidos.isna().sum()

Year                    3720
Datetime                3720
Stage                   3720
Stadium                 3720
City                    3720
Home Team Name          3720
Home Team Goals         3720
Away Team Goals         3720
Away Team Name          3720
Win conditions          3720
Attendance              3722
Half-time Home Goals    3720
Half-time Away Goals    3720
Referee                 3720
Assistant 1             3720
Assistant 2             3720
RoundID                 3720
MatchID                 3720
Home Team Initials      3720
Away Team Initials      3720
dtype: int64

Hay un total de 3720 registros sin datos, y hay dos partidos donde no se ha recogido información respecto la asistencia.

Respecto a estos 3720 registros nulos, yo creo que es debido a un error a la creación del csv de datos.
Los dos registros sin asistencia, son debidos a que probablemente no se recogió esa información.

In [7]:
# Vuelvo a asignar la variable df_partidos de forma que eliminemos los registros vacíos
df_partidos = df_partidos.dropna()

In [8]:
df_partidos.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 850 entries, 0 to 851
Data columns (total 20 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Year                  850 non-null    float64
 1   Datetime              850 non-null    object 
 2   Stage                 850 non-null    object 
 3   Stadium               850 non-null    object 
 4   City                  850 non-null    object 
 5   Home Team Name        850 non-null    object 
 6   Home Team Goals       850 non-null    float64
 7   Away Team Goals       850 non-null    float64
 8   Away Team Name        850 non-null    object 
 9   Win conditions        850 non-null    object 
 10  Attendance            850 non-null    float64
 11  Half-time Home Goals  850 non-null    float64
 12  Half-time Away Goals  850 non-null    float64
 13  Referee               850 non-null    object 
 14  Assistant 1           850 non-null    object 
 15  Assistant 2           8

## 3. Cargar datos

Al igual que hemos cargado los datos de los partidos en `df_partidos`, crear las variables `df_jugadores` y `df_copas` que contengan los dataframes correspondientes a la lectura de los csv `WorldCupPlayers` y `WorldCups` (usar `pd.read_csv)`.


In [9]:
df_jugadores = pd.read_csv('WorldCupPlayers.csv')
df_copas = pd.read_csv('WorldCups.csv')

In [10]:
print(df_jugadores.head())
print(df_jugadores.info())
print(df_jugadores.describe())

   RoundID  MatchID Team Initials           Coach Name Line-up  Shirt Number  \
0      201     1096           FRA  CAUDRON Raoul (FRA)       S             0   
1      201     1096           MEX     LUQUE Juan (MEX)       S             0   
2      201     1096           FRA  CAUDRON Raoul (FRA)       S             0   
3      201     1096           MEX     LUQUE Juan (MEX)       S             0   
4      201     1096           FRA  CAUDRON Raoul (FRA)       S             0   

        Player Name Position Event  
0       Alex THEPOT       GK   NaN  
1   Oscar BONFIGLIO       GK   NaN  
2  Marcel LANGILLER      NaN  G40'  
3      Juan CARRENO      NaN  G70'  
4   Ernest LIBERATI      NaN   NaN  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 37784 entries, 0 to 37783
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   RoundID        37784 non-null  int64 
 1   MatchID        37784 non-null  int64 
 2   Team Initial

In [11]:
print(df_copas.head())
print(df_copas.info())
print(df_copas.describe())

   Year      Country      Winner      Runners-Up    Third      Fourth  \
0  1930      Uruguay     Uruguay       Argentina      USA  Yugoslavia   
1  1934        Italy       Italy  Czechoslovakia  Germany     Austria   
2  1938       France       Italy         Hungary   Brazil      Sweden   
3  1950       Brazil     Uruguay          Brazil   Sweden       Spain   
4  1954  Switzerland  Germany FR         Hungary  Austria     Uruguay   

   GoalsScored  QualifiedTeams  MatchesPlayed Attendance  
0           70              13             18    590.549  
1           70              16             17    363.000  
2           84              15             18    375.700  
3           88              13             22  1.045.246  
4          140              16             26    768.607  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Year       

## 4. Rango temporal

El dataframe `df_copas` contiene datos de todos los mundiales disputados. ¿Cuál es el año del mundial más antiguo disputado? ¿Y el año del mundial más reciente?

**Pista:** recuerda que podemos usar funciones de agregación (`count` para contar el número de casos, `mean` para calcular el valor medio, etc.) directamente sobre columnas o Series de pandas. Por ejemplo, el siguiente código nos muestra el mayor número de goles marcado en un mundial.

```python
df_copas["GoalsScored"].max()
```

**Opcional:** Una vez localizados los años de interés (más antiguo y más reciente) visualizar las filas completas correspondientes a cada año usando la función `.loc`.

Mundial más antigüo

In [12]:
print(f'El año del mundial más antigüo es: {df_copas["Year"].min()}')

El año del mundial más antigüo es: 1930


Mundial más reciente

In [13]:
print(f'El año del mundial más reciente es: {df_copas["Year"].max()}')

El año del mundial más reciente es: 2014


Registro del mundial más antigüo

In [14]:
df_copas.loc[df_copas['Year'] == df_copas["Year"].min()]

Unnamed: 0,Year,Country,Winner,Runners-Up,Third,Fourth,GoalsScored,QualifiedTeams,MatchesPlayed,Attendance
0,1930,Uruguay,Uruguay,Argentina,USA,Yugoslavia,70,13,18,590.549


Registro del mundial más reciente

In [15]:
df_copas.loc[df_copas['Year'] == df_copas["Year"].max()]

Unnamed: 0,Year,Country,Winner,Runners-Up,Third,Fourth,GoalsScored,QualifiedTeams,MatchesPlayed,Attendance
19,2014,Brazil,Germany,Argentina,Netherlands,Brazil,171,32,64,3.386.810


---
# Ejercicios a realizar

Los ejercicios a continuación amplian el reporte comenzado en una actividad semanal anterior. Algunos de ellos son más complejos y son opcionales, pero se recomienda que al menos se intente resolverlos pues puntuará positivamente.

---

## 5. Asistencia de público

La columna `Attendance` indica la asistencia de público en cada mundial. Pandas ha cargado esta columna como tipo string, ya que los valores indicados contienen puntos como separador de millares. En primer lugar vamos a transformar esta columna para que no contenga el caracter `.`. Posteriormente transformaremos esta columna a formato numérico usando la función [pd.to_numeric](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_numeric.html).

**Nota**: la función `pd.read_csv` también permite hacer este proceso de una forma mucho más transparente, usando el argumento `thousands`. Ver la documentación [aquí](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html).

In [16]:
df_copas["Attendance"] = pd.to_numeric(df_copas["Attendance"].str.replace(".", ""))
# df_copas = pd.read_csv("WorldCups.csv", thousands=".")

  df_copas["Attendance"] = pd.to_numeric(df_copas["Attendance"].str.replace(".", ""))


Teniendo en cuenta todos los datos de `df_copas`, ¿Cuál fué la mayor asistencia de un mundial? ¿Cuál es la asistencia media?

In [17]:
print(f'La mayor asistencia en un mundial es: {df_copas["Attendance"].max()}')
print(f'La asistencia media en los mundiales es: {df_copas["Attendance"].mean()}')

La mayor asistencia en un mundial es: 3587538
La asistencia media en los mundiales es: 1872882.35


## 6. Asistencia de público en función del país

Sabemos que, dependiendo del país donde se celebre la copa del mundo, ésta tiene un mayor o menor impacto o relevancia. Vamos a calcular la media de asistencia agrupando por país. Finalmente, ordenar los resultados por orden decreciente de este número medio de asistentes.

**Pista 1:** Como se muestra en el siguiente ejemplo, recuerda que podemos combinar la función [groupby](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html) con otras funciones de agregación como `mean`.

**Pista 2:** Recuerda que podemos usar la función [sort_values](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html) para ordenar un DataFrame por una de sus columnas. Por ejemplo, el siguiente código muestra los mundiales ordenados de forma decreciente por el número de goles marcados:

```python
df_copas.sort_values("GoalsScored", ascending=False)
```

In [18]:
df_personas = pd.DataFrame(
    [
        ("Juan", "male", 56),
        ("Laura", "female", 23),
        ("José", "male", 46),
        ("Rosa", "female", 26)
    ], columns=["name", "gender", "age"])

# edad media de todas las personas
edad_media = df_personas["age"].mean()
# edad media agrupando por género
edad_media_por_genero = df_personas.groupby("gender").mean()[["age"]]

print(f"La edad media de las {len(df_personas)} es de {edad_media} años.")
print(f"La edad media agrupada por género es:")
edad_media_por_genero

La edad media de las 4 es de 37.75 años.
La edad media agrupada por género es:


  edad_media_por_genero = df_personas.groupby("gender").mean()[["age"]]


Unnamed: 0_level_0,age
gender,Unnamed: 1_level_1
female,24.5
male,51.0


In [19]:
print('La media de asistencia por país es:')


# La razón por la que calculo la agregacion es para poder poner el título de la columna para identificar claramente que
# es lo que se está calculando, finalmente, lo convierto a entero para que no aparezca con decimales, ya que la legibilidad es mayor
# y los decimales no aportan nada
df_copas.groupby('Country').agg(avg_attendace=('Attendance', 'mean')).sort_values(by='avg_attendace', ascending=False).astype(int)

La media de asistencia por país es:


Unnamed: 0_level_0,avg_attendace
Country,Unnamed: 1_level_1
USA,3587538
South Africa,3178856
Korea/Japan,2705197
Germany,2612596
Brazil,2216028
Spain,2109723
Mexico,1999003
France,1580400
England,1563135
Argentina,1545791


## 7. País con más victorias

Vamos a analizar el número de veces que un país ha ganado la copa del mundo. Transformar el DataFrame `df_copas` para que muestre los diferentes países que han ganado al menos una copa del mundo, y ordena el DataFrame por dicho número de forma descendente usando la función [sort_values](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html).

¿Ves algo extraño o digno de comentar? Pista: analiza Alemania. **Hazlo en una nueva celda de tipo markdown.**

In [20]:
df_campeones = df_copas.groupby('Winner').agg(num_wins=('Winner', 'count')).sort_values(by='num_wins', ascending=False)
df_campeones

Unnamed: 0_level_0,num_wins
Winner,Unnamed: 1_level_1
Brazil,5
Italy,4
Germany FR,3
Argentina,2
Uruguay,2
England,1
France,1
Germany,1
Spain,1


In [21]:
df_copas.loc[(df_copas['Winner'] == 'Germany FR') | (df_copas['Winner'] == 'Germany')]

Unnamed: 0,Year,Country,Winner,Runners-Up,Third,Fourth,GoalsScored,QualifiedTeams,MatchesPlayed,Attendance
4,1954,Switzerland,Germany FR,Hungary,Austria,Uruguay,140,16,26,768607
9,1974,Germany,Germany FR,Netherlands,Poland,Brazil,97,16,38,1865753
13,1990,Italy,Germany FR,Argentina,Italy,England,115,24,52,2516215
19,2014,Brazil,Germany,Argentina,Netherlands,Brazil,171,32,64,3386810


Alemania aparece como ganadora de 4 mundiales, en tres de ellos aparece como `Germany FR` y en uno como `Germany`. Esto se debe a que después de la segunda guerra mundial, Alemania se separo en dos paises, Alemania del Oeste (FR) y Alemania del Este (RDA). En 1990, Alemania del Oeste y Alemania del Este se unieron en un solo pais, Alemania. Por lo tanto, los tres primeros mundiales fueron ganados por Alemania del Oeste, y el cuarto por Alemania unida.

---
# Parte opcional

Los ejercicios anteriores son obligatorios y puntuan hasta un máximo de 80 puntos sobre 100.

Los siguientes ejercicios trabajan con los dataframes cargados para extraer información concreta a partir de los datos. 
Estos ejercicios son opcionales, pero es recomendable intentar resolverlos para adquirir habilidades.

---

## Creación de un nuevo DataFrame

A continuación vamos a trabajar con el DataFrame `df_partidos`. Vamos a centrarnos en la información a nivel de selección, siendo indiferente si el equipo juega en casa o fuera. En este sentido, la información disponible no es la mejor para trabajar cómodamente. Por ello, es habitual realizar transformaciones a los datos en función de las preguntas que le queramos hacer. A continuación crearemos un nuevo DataFrame llamado `df_paises`que contendrá todos los paises involucrados en la copa del mundo y el año en el que participaron. Es decir, un país que haya jugado varias copas del mundo aparecerá varias veces:


||Year|Country|
|---|---|---|
|0|1930|France|
|1|1930|USA|
|...|...|..|
|37|1938|France|
|...|...|..|

**Nota:** este problema se puede afrontar como mínimo de dos maneras diferentes

1. Generando dos dataframes, uno donde la columna `Country` se corresponde con `Home Team Name`, y otro donde la columna `Country` se corresponde con `Away Team Name`. Finalmente, combinar ambos DataFrames en uno solo.
2. Usar la función [melt](https://pandas.pydata.org/docs/reference/api/pandas.melt.html) que nos permite convertir N columnas en un par de columnas llamadas `variable` y `value`, donde la primera es el nombre de una de las columnas y `value` el valor que tomó dicha variable.


In [22]:
#alternativa 1
df_paises = (
    pd.concat([
        df_partidos[["Year", "Home Team Name"]].rename(columns={"Home Team Name": "Country"}),
        df_partidos[["Year", "Away Team Name"]].rename(columns={"Away Team Name": "Country"})
    ])
)
#alternativa 2
df_paises = (
    df_partidos
    .melt(id_vars=["Year"], value_vars=["Home Team Name", "Away Team Name"])
    .rename(columns={"value": "Country"})
    [["Year", "Country"]]
)

In [23]:
df_paises.head()

Unnamed: 0,Year,Country
0,1930.0,France
1,1930.0,USA
2,1930.0,Yugoslavia
3,1930.0,Romania
4,1930.0,Argentina


## 8. Número de países

Vamos a descubrir cuántos países han participado, al menos una vez, en una copa del mundo. Para ello vamos a trabajar con el DataFrame construido anteriormente y a usar la función de agregación [nunique](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.nunique.html).

In [24]:
print(f'El número de paises que almenos han participado en un mundial es: {len(df_paises["Country"].unique())}')

El número de paises que almenos han participado en un mundial es: 83


## 9. Número de partidos por país

Ahora vamos a descubrir cuántos partidos ha jugado cada país. Operar con el DataFrame para que muestre un país por fila y una columna que indique el número de partidos que ha jugado. Ordenar el DataFrame por dicha columna de forma descendente.

In [25]:
df_num_partidos_por_pais = df_paises.groupby('Country').agg(num_partidos=('Country', 'count')).sort_values(by='num_partidos', ascending=False)
df_num_partidos_por_pais

Unnamed: 0_level_0,num_partidos
Country,Unnamed: 1_level_1
Brazil,108
Italy,83
Argentina,81
Germany FR,62
England,62
...,...
Iraq,3
Kuwait,3
Serbia,3
"rn"">United Arab Emirates",3


## 10. Partidos jugados por España

Vamos a trabajar a continuación con el DataFrame `df_partidos`. Seleccionar aquellos partidos (filas del dataframe) en los que España ha jugado como `Home Team`, es decir, donde la columna `Home Team` tiene el valor `España`. Recuerda que para la operación de filtrado hay que usar la función [.loc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html).


A continuación, haz una nueva selección en los que España ha jugado como `Away Team`, es decir, donde la columna `Away Team` tiene el valor `España`.

**Opcional:** ¿Podrías hacer una sola selección donde España haya jugado como `Home Team` o como `Away Team`?. Pista: consulta la documentación del operador de [disyunción](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#boolean-indexing).

In [35]:
df_spain_home_team = df_partidos.loc[df_partidos['Home Team Name'] == 'Spain']
print(f'El número de partidos que ha jugado España como equipo local es: {len(df_spain_home_team)}')

El número de partidos que ha jugado España como equipo local es: 23


In [36]:
df_spain_away_team = df_partidos.loc[df_partidos['Away Team Name'] == 'Spain']
print(f'El número de partidos que ha jugado España como equipo visitante es: {len(df_spain_away_team)}')

El número de partidos que ha jugado España como equipo visitante es: 24


Selccionamos todos los partidos de España como local o visitante

In [37]:
df_spain_matches = df_partidos.loc[(df_partidos['Home Team Name'] == 'Spain') | (df_partidos['Away Team Name'] == 'Spain')]
print(f'El número total de partidos que ha jugado España es: {len(df_spain_matches)}')

El número total de partidos que ha jugado España es: 47


Vemos que nos coincide con la suma de los partidos de España como local y como visitante

## Calcular el vencedor de cada partido

El DataFrame `df_partidos` tiene la información de cada partido, incluyendo los goles marcados por cada equipo, pero no disponemos de una columna que indique si un equipo ganó o perdió. Vamos a crear una columna llamada `Ganador` que indique el nombre del equipo vencedor (con más goles). También podemos encontrar empates, en cuyo caso usaremos `pd.NA` para indicar que desconocemos el vencedor de dicho partido.

**Nota:** Se puede resolver realizando varias asignaciones, o una sola utilizando la función [pd.where](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.where.html).

In [29]:
# alternativa 1
df_partidos["Ganador"] = df_partidos["Home Team Name"]
df_partidos.loc[df_partidos["Home Team Goals"] < df_partidos["Away Team Goals"], "Ganador"] = df_partidos["Away Team Name"]
df_partidos.loc[df_partidos["Home Team Goals"] == df_partidos["Away Team Goals"], "Ganador"] = pd.NA

# alternativa 2
df_partidos["Ganador"] = (
    df_partidos["Home Team Name"].where(
        df_partidos["Home Team Goals"] > df_partidos["Away Team Goals"],
        df_partidos["Away Team Name"].where(df_partidos["Home Team Goals"] < df_partidos["Away Team Goals"], pd.NA)
    )
)

## 11. Número de victorias por país

Calcular para cada país el número de partidos ganados. Para ello, usar la función [dropna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html) para eliminar las filas correspondientes a partidos donde la columna `Ganador` es un valor perdido (`na`). Ordenar los países por número de victorias de forma descendente.

In [30]:
df_partidos.dropna(subset=["Ganador"], inplace=True)

In [31]:

df_victorias_por_pais = df_partidos.groupby("Ganador").agg(num_victorias=("Ganador", "count")).sort_values(by="num_victorias", ascending=False)
df_victorias_por_pais

Unnamed: 0_level_0,num_victorias
Ganador,Unnamed: 1_level_1
Brazil,71
Italy,45
Argentina,44
Germany FR,36
Germany,32
...,...
Cuba,1
Korea DPR,1
Wales,1
"rn"">Bosnia and Herzegovina",1


## Opcional 1

Calcular para cada país el ratio de victorias, calculado como el número de partidos ganados dividido por el número de partidos jugados. Ordenar los países por ratio de forma descendente.

**Pista:** Si obtenemos dos dataframes, uno con las victorias por cada país y otro con el número total de partidos jugados, podemos utilizar la función [pd.merge](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html) para combinar ambos en un solo DataFrame, y despues crear una nueva columna que sea el ratio.

In [32]:
# En df_num_partidos_por_pais tenemos el número de partidos jugados por cada país y n df_victorias_por_pais tenemos el número de victorias por cada país
# Hay más países que han jugado partidos que los que han ganado partidos, por lo que no podemos hacer un merge directamente

# Hacemos un merge que una los dos datasets, incluyendo los países que no han ganado ningún partido
df_partidos_por_pais = df_num_partidos_por_pais.merge(df_victorias_por_pais, how="left", left_index=True, right_index=True).fillna(0)

df_partidos_por_pais

Unnamed: 0_level_0,num_partidos,num_victorias
Country,Unnamed: 1_level_1,Unnamed: 2_level_1
Brazil,108,71.0
Italy,83,45.0
Argentina,81,44.0
Germany FR,62,36.0
England,62,26.0
...,...,...
Iraq,3,0.0
Kuwait,3,0.0
Serbia,3,1.0
"rn"">United Arab Emirates",3,0.0


In [33]:
# Craemos una nueva columna con el porcentaje de victorias
df_partidos_por_pais["ratio_victorias"] = df_partidos_por_pais["num_victorias"] / df_partidos_por_pais["num_partidos"]
df_partidos_por_pais

Unnamed: 0_level_0,num_partidos,num_victorias,ratio_victorias
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Brazil,108,71.0,0.657407
Italy,83,45.0,0.542169
Argentina,81,44.0,0.543210
Germany FR,62,36.0,0.580645
England,62,26.0,0.419355
...,...,...,...
Iraq,3,0.0,0.000000
Kuwait,3,0.0,0.000000
Serbia,3,1.0,0.333333
"rn"">United Arab Emirates",3,0.0,0.000000


## Opcional 2

¿Se te ocurre alguna pregunta adicional que hacerle a los datos? Utiliza una celda de tipo markdown para documentarla y otra de código para implementarla y ver así la respuesta.

Un dato que me parece interesante es, ¿cual es el pais que tiene más victorias en la historia de la copa del mundo sin haber ganado nunca la copa? 

Para ello, en el dataframe `df_victorias_por_pais`, tenemos el dataframe con el número de victorias de cada pais, en el dataframe `df_campeones` tenemos los campeones de cada pais, por lo tanto, si borramos del primer dataframe los paises que han sido alguna vez campeones, obtendremos el dataframe con los paises que han ganado más partidos sin haber ganado nunca la copa del mundo.

In [34]:
# Borramos de df_partidos_por_pais los países que han ganado alguna copa del mundo
df_mas_victoris_sin_copa = df_victorias_por_pais.drop(df_campeones.index)
df_mas_victoris_sin_copa.nlargest(10, "num_victorias")

Unnamed: 0_level_0,num_victorias
Ganador,Unnamed: 1_level_1
Netherlands,29
Yugoslavia,16
Sweden,16
Poland,15
Belgium,15
Soviet Union,15
Hungary,15
Mexico,14
Portugal,13
Austria,12


Podemos observar, que con gran diferencia, el pais con más victorias sin haber ganado nunca la copa del mundo es Netherlands.