<img src="https://marketing4ecommerce.net/wp-content/uploads/2015/09/logo-iebs.jpg" style="float:right" width="400">

# Introducción a los lenguajes de programación

## Caso Práctico: Estudio de un dataset

### Javier Cózar


# Dataset

En esta libreta vamos a trabajar con un conjunto de datos obtenido de [Kaggle](https://www.kaggle.com/abecklas/fifa-world-cup?select=WorldCupMatches.csv) que contiene los datos de la FIFA de la copa del mundo. Recomendamos acceder a este enlace para descargar los ficheros a trabajar, aunque también disponéis de los archivos ya descargados en la sección de recursos. Utilizaremos estos tres ficheros:

- WorldCupMatches.csv: Datos de los partidos disputados
- WorldCupPlayers.csv: Datos de los jugadores que han jugado en cada partido
- WorldCups.csv: Datos de las copas disputadas y los resultados

# Introducción

Mediante esta libreta vamos a explorar los datos almacenados en estos tres ficheros y a responder preguntas haciendo operaciones y transformaciones con pandas. Además de completar las celdas de código para responder a los ejercicios, cuando así se indique se deberá añadir una celda de tipo _markdown_ explicando con texto enriquecido la información o las conclusiones extraídas.

In [2]:
import pandas as pd



In [3]:
# Cargamos el conjunto de datos WorldCupMatches
df_partidos = pd.read_csv("WorldCupMatches.csv")

**NOTA:** en una actividad anterior completamos los ejercicios del 1 al 3, copiar y pegar dicho trabajo en esta libreta con el fin de tener un report completo que analize los datos del problema. Es decir, **no es necesario volver a realizar estos 3 primeros ejercicios**.

## 1. Exploración

Usar las funciones `head`, `info` y `describe` para explorar el dataframe `df_partidos`. **Crear una celda de tipo markdown** y comentar brevemente la información almacenada en cada dataframe (columnas y tipo de datos).

_No es necesario hacer una documentación exhaustiva, tan solo comentar aspectos principales como qué tipo de información almacena el DataFrame, cuántas filas y columnas tiene, y comentar las columnas que se consideren más relevantes._

In [221]:
# Copiar solución de la actividad semanal correspondiente

## 2. Limpieza de datos

Una de las cosas que llama la atención es la alta presencia de valores perdidos en el DataFrame `df_partidos`. Cuando trabajamos con datos obtenidos del mundo real siempre nos toparemos con problemas relacionados con la medición, captura o almacenamiento de dicha información.

Localiza las filas con valores perdido. Analizar y **documentar en una nueva celda de tipo markdown** a qué se deben estos valores perdidos. Finalmente usar la función [dropna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html) sobre el DataFrame `df_partidos` para eliminar los valores perdidos del DataFrame, y almacena el resultado en `df_partidos` de nuevo.

In [221]:
# Copiar solución de la actividad semanal correspondiente

## 3. Cargar datos

Al igual que hemos cargado los datos de los partidos en `df_partidos`, crear las variables `df_jugadores` y `df_copas` que contengan los dataframes correspondientes a la lectura de los csv `WorldCupPlayers` y `WorldCups` (usar `pd.read_csv)`.


In [1]:
# Copiar solución de la actividad semanal correspondiente

## 4. Rango temporal

El dataframe `df_copas` contiene datos de todos los mundiales disputados. ¿Cuál es el año del mundial más antiguo disputado? ¿Y el año del mundial más reciente?

**Pista:** recuerda que podemos usar funciones de agregación (`count` para contar el número de casos, `mean` para calcular el valor medio, etc.) directamente sobre columnas o Series de pandas. Por ejemplo, el siguiente código nos muestra el mayor número de goles marcado en un mundial.

```python
df_copas["GoalsScored"].max()
```

**Opcional:** Una vez localizados los años de interés (más antiguo y más reciente) visualizar las filas completas correspondientes a cada año usando la función `.loc`.

In [221]:
# Copiar solución de la actividad semanal correspondiente

---
# Ejercicios a realizar

Los ejercicios a continuación amplian el reporte comenzado en una actividad semanal anterior. Algunos de ellos son más complejos y son opcionales, pero se recomienda que al menos se intente resolverlos pues puntuará positivamente.

---

## 5. Asistencia de público

La columna `Attendance` indica la asistencia de público en cada mundial. Pandas ha cargado esta columna como tipo string, ya que los valores indicados contienen puntos como separador de millares. En primer lugar vamos a transformar esta columna para que no contenga el caracter `.`. Posteriormente transformaremos esta columna a formato numérico usando la función [pd.to_numeric](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_numeric.html).

**Nota**: la función `pd.read_csv` también permite hacer este proceso de una forma mucho más transparente, usando el argumento `thousands`. Ver la documentación [aquí](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html).

In [284]:
df_copas["Attendance"] = pd.to_numeric(df_copas["Attendance"].str.replace(".", ""))
# df_copas = pd.read_csv("WorldCups.csv", thousands=".")

Teniendo en cuenta todos los datos de `df_copas`, ¿Cuál fué la mayor asistencia de un mundial? ¿Cuál es la asistencia media?

In [221]:
# Completar

## 6. Asistencia de público en función del país

Sabemos que, dependiendo del país donde se celebre la copa del mundo, ésta tiene un mayor o menor impacto o relevancia. Vamos a calcular la media de asistencia agrupando por país. Finalmente, ordenar los resultados por orden decreciente de este número medio de asistentes.

**Pista 1:** Como se muestra en el siguiente ejemplo, recuerda que podemos combinar la función [groupby](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html) con otras funciones de agregación como `mean`.

**Pista 2:** Recuerda que podemos usar la función [sort_values](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html) para ordenar un DataFrame por una de sus columnas. Por ejemplo, el siguiente código muestra los mundiales ordenados de forma decreciente por el número de goles marcados:

```python
df_copas.sort_values("GoalsScored", ascending=False)
```

In [5]:
df_personas = pd.DataFrame(
    [
        ("Juan", "male", 56),
        ("Laura", "female", 23),
        ("José", "male", 46),
        ("Rosa", "female", 26)
    ], columns=["name", "gender", "age"])

# edad media de todas las personas
edad_media = df_personas["age"].mean()
# edad media agrupando por género
edad_media_por_genero = df_personas.groupby("gender").mean()[["age"]]

print(f"La edad media de las {len(df_personas)} es de {edad_media} años.")
print(f"La edad media agrupada por género es:")
edad_media_por_genero

La edad media de las 4 es de 37.75 años.
La edad media agrupada por género es:


Unnamed: 0_level_0,age
gender,Unnamed: 1_level_1
female,24.5
male,51.0


In [221]:
# Completar

## 7. País con más victorias

Vamos a analizar el número de veces que un país ha ganado la copa del mundo. Transformar el DataFrame `df_copas` para que muestre los diferentes países que han ganado al menos una copa del mundo, y ordena el DataFrame por dicho número de forma descendente usando la función [sort_values](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html).

¿Ves algo extraño o digno de comentar? Pista: analiza Alemania. **Hazlo en una nueva celda de tipo markdown.**

In [221]:
# Completar

---
# Parte opcional

Los ejercicios anteriores son obligatorios y puntuan hasta un máximo de 80 puntos sobre 100.

Los siguientes ejercicios trabajan con los dataframes cargados para extraer información concreta a partir de los datos. 
Estos ejercicios son opcionales, pero es recomendable intentar resolverlos para adquirir habilidades.

---

## Creación de un nuevo DataFrame

A continuación vamos a trabajar con el DataFrame `df_partidos`. Vamos a centrarnos en la información a nivel de selección, siendo indiferente si el equipo juega en casa o fuera. En este sentido, la información disponible no es la mejor para trabajar cómodamente. Por ello, es habitual realizar transformaciones a los datos en función de las preguntas que le queramos hacer. A continuación crearemos un nuevo DataFrame llamado `df_paises`que contendrá todos los paises involucrados en la copa del mundo y el año en el que participaron. Es decir, un país que haya jugado varias copas del mundo aparecerá varias veces:


||Year|Country|
|---|---|---|
|0|1930|France|
|1|1930|USA|
|...|...|..|
|37|1938|France|
|...|...|..|

**Nota:** este problema se puede afrontar como mínimo de dos maneras diferentes

1. Generando dos dataframes, uno donde la columna `Country` se corresponde con `Home Team Name`, y otro donde la columna `Country` se corresponde con `Away Team Name`. Finalmente, combinar ambos DataFrames en uno solo.
2. Usar la función [melt](https://pandas.pydata.org/docs/reference/api/pandas.melt.html) que nos permite convertir N columnas en un par de columnas llamadas `variable` y `value`, donde la primera es el nombre de una de las columnas y `value` el valor que tomó dicha variable.


In [221]:
#alternativa 1
df_paises = (
    pd.concat([
        df_partidos[["Year", "Home Team Name"]].rename(columns={"Home Team Name": "Country"}),
        df_partidos[["Year", "Away Team Name"]].rename(columns={"Away Team Name": "Country"})
    ])
)
#alternativa 2
df_paises = (
    df_partidos
    .melt(id_vars=["Year"], value_vars=["Home Team Name", "Away Team Name"])
    .rename(columns={"value": "Country"})
    [["Year", "Country"]]
)

## 8. Número de países

Vamos a descubrir cuántos países han participado, al menos una vez, en una copa del mundo. Para ello vamos a trabajar con el DataFrame construido anteriormente y a usar la función de agregación [nunique](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.nunique.html).

In [221]:
# Completar

## 9. Número de partidos por país

Ahora vamos a descubrir cuántos partidos ha jugado cada país. Operar con el DataFrame para que muestre un país por fila y una columna que indique el número de partidos que ha jugado. Ordenar el DataFrame por dicha columna de forma descendente.

In [221]:
# Completar

## 10. Partidos jugados por España

Vamos a trabajar a continuación con el DataFrame `df_partidos`. Seleccionar aquellos partidos (filas del dataframe) en los que España ha jugado como `Home Team`, es decir, donde la columna `Home Team` tiene el valor `España`. Recuerda que para la operación de filtrado hay que usar la función [.loc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html).


A continuación, haz una nueva selección en los que España ha jugado como `Away Team`, es decir, donde la columna `Away Team` tiene el valor `España`.

**Opcional:** ¿Podrías hacer una sola selección donde España haya jugado como `Home Team` o como `Away Team`?. Pista: consulta la documentación del operador de [disyunción](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#boolean-indexing).

In [221]:
# Completar

## Calcular el vencedor de cada partido

El DataFrame `df_partidos` tiene la información de cada partido, incluyendo los goles marcados por cada equipo, pero no disponemos de una columna que indique si un equipo ganó o perdió. Vamos a crear una columna llamada `Ganador` que indique el nombre del equipo vencedor (con más goles). También podemos encontrar empates, en cuyo caso usaremos `pd.NA` para indicar que desconocemos el vencedor de dicho partido.

**Nota:** Se puede resolver realizando varias asignaciones, o una sola utilizando la función [pd.where](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.where.html).

In [28]:
# alternativa 1
df_partidos["Ganador"] = df_partidos["Home Team Name"]
df_partidos.loc[df_partidos["Home Team Goals"] < df_partidos["Away Team Goals"], "Ganador"] = df_partidos["Away Team Name"]
df_partidos.loc[df_partidos["Home Team Goals"] == df_partidos["Away Team Goals"], "Ganador"] = pd.NA

# alternativa 2
df_partidos["Ganador"] = (
    df_partidos["Home Team Name"].where(
        df_partidos["Home Team Goals"] > df_partidos["Away Team Goals"],
        df_partidos["Away Team Name"].where(df_partidos["Home Team Goals"] < df_partidos["Away Team Goals"], pd.NA)
    )
)

## 11. Número de victorias por país

Calcular para cada país el número de partidos ganados. Para ello, usar la función [dropna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html) para eliminar las filas correspondientes a partidos donde la columna `Ganador` es un valor perdido (`na`). Ordenar los países por número de victorias de forma descendente.

In [221]:
# Completar

## Opcional 1

Calcular para cada país el ratio de victorias, calculado como el número de partidos ganados dividido por el número de partidos jugados. Ordenar los países por ratio de forma descendente.

**Pista:** Si obtenemos dos dataframes, uno con las victorias por cada país y otro con el número total de partidos jugados, podemos utilizar la función [pd.merge](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html) para combinar ambos en un solo DataFrame, y despues crear una nueva columna que sea el ratio.

In [221]:
# Completar

## Opcional 2

¿Se te ocurre alguna pregunta adicional que hacerle a los datos? Utiliza una celda de tipo markdown para documentarla y otra de código para implementarla y ver así la respuesta.