<img src="https://marketing4ecommerce.net/wp-content/uploads/2015/09/logo-iebs.jpg" style="float:right" width="400">

# Introducción a los lenguajes de programación

## Caso Práctico: Estudio de un dataset

### Javier Cózar


# Notas antes de iniciar
Al realizar esta práctica es necesario estar cargando los dataframes cada cierto tiempo debido a que se van modificando línea con línea y en las indicaciones nos marca el original.

De igual manera lo más recomendable es tener el archivo py junto con las hojas de Excel u archivos csv a importar dentro de la misma carpeta para no estar especificando el directorio


# Dataset

En esta libreta vamos a trabajar con un conjunto de datos obtenido de [Kaggle](https://www.kaggle.com/abecklas/fifa-world-cup?select=WorldCupMatches.csv) que contiene los datos de la FIFA de la copa del mundo. Recomendamos acceder a este enlace para descargar los ficheros a trabajar, aunque también disponéis de los archivos ya descargados en la sección de recursos. Utilizaremos estos tres ficheros:

- WorldCupMatches.csv: Datos de los partidos disputados
- WorldCupPlayers.csv: Datos de los jugadores que han jugado en cada partido
- WorldCups.csv: Datos de las copas disputadas y los resultados

# Introducción

Mediante esta libreta vamos a explorar los datos almacenados en estos tres ficheros y a responder preguntas haciendo operaciones y transformaciones con pandas. Además de completar las celdas de código para responder a los ejercicios, cuando así se indique se deberá añadir una celda de tipo _markdown_ explicando con texto enriquecido la información o las conclusiones extraídas.

In [1]:
import pandas as pd

Cargamos el conjunto de datos WorldCupMatches, para esto hay que tener en una carpeta este archivo y la hoja de csv, 
de lo contrario, tendremos que usar r"ruta del archivo"

In [2]:
df_partidos = pd.read_csv("WorldCupMatches.csv")

## 1. Exploración

Usar las funciones `head`, `info` y `describe` para explorar el dataframe `df_partidos`. **Crear una celda de tipo markdown** y comentar brevemente la información almacenada en cada dataframe (columnas y tipo de datos).

_No es necesario hacer una documentación exhaustiva, tan solo comentar aspectos principales como qué tipo de información almacena el DataFrame, cuántas filas y columnas tiene, y comentar las columnas que se consideren más relevantes._

In [3]:
df_partidos.describe(include="all")

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
count,852.0,852,852,852,852,852,852.0,852.0,852,852.0,850.0,852.0,852.0,852,852,852,852.0,852.0,852,852
unique,,602,23,181,151,78,,,83,43.0,,,,366,387,408,,,77,82
top,,27 May 1934 - 16:30,Round of 16,Estadio Azteca,Mexico City,Brazil,,,Mexico,,,,,Ravshan IRMATOV (UZB),GONZALEZ ARCHUNDIA Alfonso (MEX),KOCHKAROV Bakhadyr (KGZ),,,BRA,MEX
freq,,8,72,19,23,82,,,38,787.0,,,,10,7,10,,,82,38
mean,1985.089202,,,,,,1.811033,1.0223,,,45164.8,0.70892,0.428404,,,,10661770.0,61346870.0,,
std,22.448825,,,,,,1.610255,1.087573,,,23485.249247,0.937414,0.691252,,,,27296130.0,111057200.0,,
min,1930.0,,,,,,0.0,0.0,,,2000.0,0.0,0.0,,,,201.0,25.0,,
25%,1970.0,,,,,,1.0,0.0,,,30000.0,0.0,0.0,,,,262.0,1188.75,,
50%,1990.0,,,,,,2.0,1.0,,,41579.5,0.0,0.0,,,,337.0,2191.0,,
75%,2002.0,,,,,,3.0,2.0,,,61374.5,1.0,1.0,,,,249722.0,43950060.0,,


head() - Al explorar los datos con head() nos muetras principalmente el encabezado de la tabla, es decir el nombre de las columnas, donde podemos observar manualmente haciendo scroll a la nbarra cuantas hay y unos datos de ellas, estos datos o filas que aprecen por defecto son 5, sin embargo, podemos especificar cuantas filas queremos ver poniendo un numero dentro del parentesis
ejemplo: df_partidos.head(10) e iniciara del 0 al 9 

info() - se puede observar que hay un total de 20 columnas donde algunas son de tipo float64 u object es decir de tipo flotante o string correspondientemente 
 
 0   Year                  852 non-null    float64
 1   Datetime              852 non-null    object 
 2   Stage                 852 non-null    object 
 3   Stadium               852 non-null    object 
 4   City                  852 non-null    object 
 5   Home Team Name        852 non-null    object 
 6   Home Team Goals       852 non-null    float64
 7   Away Team Goals       852 non-null    float64
 8   Away Team Name        852 non-null    object 
 9   Win conditions        852 non-null    object 
 10  Attendance            850 non-null    float64
 11  Half-time Home Goals  852 non-null    float64
 12  Half-time Away Goals  852 non-null    float64
 13  Referee               852 non-null    object 
 14  Assistant 1           852 non-null    object 
 15  Assistant 2           852 non-null    object 
 16  RoundID               852 non-null    float64
 17  MatchID               852 non-null    float64
 18  Home Team Initials    852 non-null    object 
 19  Away Team Initials

describe(include="all") -Lo destacable aqui es que podemos ver que hay 852 datos en cada columna, dentro de los datos mas repetidos estan 
Datetime 27 May 1934 - 16:30 con 8
Stage Round of 16 con 72
Stadium Estadio Azteca con 19
City Mexico con 23 
Home Team Name Brazil con 82
Away Team Name Mexico  con 38
Referee Ravshan IRMATOV (UZB) con 10 
Assistant 1 BERANEK Alois (AUT) con 7 
Assistant 2 KOCHKAROV Bakhadyr (KGZ) con 10 	
Home Team Initials BRA	con 82
Away Team Initials Mex con 38

## 2. Limpieza de datos

Una de las cosas que llama la atención es la alta presencia de valores perdidos en el DataFrame `df_partidos`. Cuando trabajamos con datos obtenidos del mundo real siempre nos toparemos con problemas relacionados con la medición, captura o almacenamiento de dicha información.

Localiza las filas con valores perdido. Analizar y **documentar en una nueva celda de tipo markdown** a qué se deben estos valores perdidos. Finalmente usar la función [dropna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html) sobre el DataFrame `df_partidos` para eliminar los valores perdidos del DataFrame, y almacena el resultado en `df_partidos` de nuevo.

In [4]:
df_partidos.isnull().sum()

Year                    0
Datetime                0
Stage                   0
Stadium                 0
City                    0
Home Team Name          0
Home Team Goals         0
Away Team Goals         0
Away Team Name          0
Win conditions          0
Attendance              2
Half-time Home Goals    0
Half-time Away Goals    0
Referee                 0
Assistant 1             0
Assistant 2             0
RoundID                 0
MatchID                 0
Home Team Initials      0
Away Team Initials      0
dtype: int64

In [5]:
df_partidos[df_partidos.Attendance.isnull()]

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
823,2014,30 Jun 2014 - 17:00,Round of 16,Estadio Beira-Rio,Porto Alegre,Germany,2,1,Algeria,Germany win after extra time,,0,0,RICCI Sandro (BRA),DE CARVALHO Emerson (BRA),VAN GASSE Marcelo (BRA),255951,300186460,GER,ALG
841,2014,30 Jun 2014 - 17:00,Round of 16,Estadio Beira-Rio,Porto Alegre,Germany,2,1,Algeria,Germany win after extra time,,0,0,RICCI Sandro (BRA),DE CARVALHO Emerson (BRA),VAN GASSE Marcelo (BRA),255951,300186460,GER,ALG


Al ejecutar isnull().sum() podemos observar que hay dos valores perdidos en la columna attendance y para poder visualizar estas columnas se usa df_partidos[df_partidos.Attendance.isnull()]. Como no hay valor alguno marca NaN, esto se puede veridicar en el excell, donde tendremos que buscar la celda agregando dos , es decir 823+2 y 841+2, est debido al encabezado y a que la numeracion en python corre desde 0 y no 1 como excell  

Nota: Antes de correr isnull().sum() es recomendable editar y eliminar en un block de notas los valores que estan completamente vacios, los que solo tienen comas para ver el numero real de valores perdiddos y no las celdas completas de excell


In [6]:
df_partidos_corregidos=df_partidos.dropna(axis=0)
df_partidos_corregidos

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
0,1930,13 Jul 1930 - 15:00,Group 1,Pocitos,Montevideo,France,4,1,Mexico,,4444.0,3,0,LOMBARDI Domingo (URU),CRISTOPHE Henry (BEL),REGO Gilberto (BRA),201,1096,FRA,MEX
1,1930,13 Jul 1930 - 15:00,Group 4,Parque Central,Montevideo,USA,3,0,Belgium,,18346.0,2,0,MACIAS Jose (ARG),MATEUCCI Francisco (URU),WARNKEN Alberto (CHI),201,1090,USA,BEL
2,1930,14 Jul 1930 - 12:45,Group 2,Parque Central,Montevideo,Yugoslavia,2,1,Brazil,,24059.0,2,0,TEJADA Anibal (URU),VALLARINO Ricardo (URU),BALWAY Thomas (FRA),201,1093,YUG,BRA
3,1930,14 Jul 1930 - 14:50,Group 3,Pocitos,Montevideo,Romania,3,1,Peru,,2549.0,1,0,WARNKEN Alberto (CHI),LANGENUS Jean (BEL),MATEUCCI Francisco (URU),201,1098,ROU,PER
4,1930,15 Jul 1930 - 16:00,Group 1,Parque Central,Montevideo,Argentina,1,0,France,,23409.0,0,0,REGO Gilberto (BRA),SAUCEDO Ulises (BOL),RADULESCU Constantin (ROU),201,1085,ARG,FRA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
847,2014,05 Jul 2014 - 17:00,Quarter-finals,Arena Fonte Nova,Salvador,Netherlands,0,0,Costa Rica,Netherlands win on penalties (4 - 3),51179.0,0,0,Ravshan IRMATOV (UZB),RASULOV Abduxamidullo (UZB),KOCHKAROV Bakhadyr (KGZ),255953,300186488,NED,CRC
848,2014,08 Jul 2014 - 17:00,Semi-finals,Estadio Mineirao,Belo Horizonte,Brazil,1,7,Germany,,58141.0,0,5,RODRIGUEZ Marco (MEX),TORRENTERA Marvin (MEX),QUINTERO Marcos (MEX),255955,300186474,BRA,GER
849,2014,09 Jul 2014 - 17:00,Semi-finals,Arena de Sao Paulo,Sao Paulo,Netherlands,0,0,Argentina,Argentina win on penalties (2 - 4),63267.0,0,0,C�neyt �AKIR (TUR),DURAN Bahattin (TUR),ONGUN Tarik (TUR),255955,300186490,NED,ARG
850,2014,12 Jul 2014 - 17:00,Play-off for third place,Estadio Nacional,Brasilia,Brazil,0,3,Netherlands,,68034.0,0,2,HAIMOUDI Djamel (ALG),ACHIK Redouane (MAR),ETCHIALI Abdelhak (ALG),255957,300186502,BRA,NED


Como se puede ver en la informacion, se han eliminado dos filas

## 3. Cargar datos

Al igual que hemos cargado los datos de los partidos en `df_partidos`, crear las variables `df_jugadores` y `df_copas` que contengan los dataframes correspondientes a la lectura de los csv `WorldCupPlayers` y `WorldCups` (usar `pd.read_csv)`.


In [7]:
df_jugadores = pd.read_csv("WorldCupPlayers.csv")
df_copas = pd.read_csv("WorldCups.csv")

## 4. Rango temporal

El dataframe `df_copas` contiene datos de todos los mundiales disputados. ¿Cuál es el año del mundial más antiguo disputado? ¿Y el año del mundial más reciente?

**Pista:** recuerda que podemos usar funciones de agregación (`count` para contar el número de casos, `mean` para calcular el valor medio, etc.) directamente sobre columnas o Series de pandas. Por ejemplo, el siguiente código nos muestra el mayor número de goles marcado en un mundial.

```python
df_copas["GoalsScored"].max()
```

**Opcional:** Una vez localizados los años de interés (más antiguo y más reciente) visualizar las filas completas correspondientes a cada año usando la función `.loc`.

In [8]:
df_copas["Year"].min()


1930

In [9]:
df_copas["Year"].max()

2014

In [10]:
# df_copas.describe(include="all")

In [11]:
df_copas

Unnamed: 0,Year,Country,Winner,Runners-Up,Third,Fourth,GoalsScored,QualifiedTeams,MatchesPlayed,Attendance
0,1930,Uruguay,Uruguay,Argentina,USA,Yugoslavia,70,13,18,590.549
1,1934,Italy,Italy,Czechoslovakia,Germany,Austria,70,16,17,363.000
2,1938,France,Italy,Hungary,Brazil,Sweden,84,15,18,375.700
3,1950,Brazil,Uruguay,Brazil,Sweden,Spain,88,13,22,1.045.246
4,1954,Switzerland,Germany FR,Hungary,Austria,Uruguay,140,16,26,768.607
5,1958,Sweden,Brazil,Sweden,France,Germany FR,126,16,35,819.810
6,1962,Chile,Brazil,Czechoslovakia,Chile,Yugoslavia,89,16,32,893.172
7,1966,England,England,Germany FR,Portugal,Soviet Union,89,16,32,1.563.135
8,1970,Mexico,Brazil,Italy,Germany FR,Uruguay,95,16,32,1.603.975
9,1974,Germany,Germany FR,Netherlands,Poland,Brazil,97,16,38,1.865.753


In [12]:
df_copas.iloc[[0,-1]]
#df_copas.set_index("Year",inplace=True)
#df_copas.loc[[1930,2014]]

Unnamed: 0,Year,Country,Winner,Runners-Up,Third,Fourth,GoalsScored,QualifiedTeams,MatchesPlayed,Attendance
0,1930,Uruguay,Uruguay,Argentina,USA,Yugoslavia,70,13,18,590.549
19,2014,Brazil,Germany,Argentina,Netherlands,Brazil,171,32,64,3.386.810


El año del mundial mas antiguo es de 1930 y el mas actual registrado es de 2014,
si bien se puede usar df_copas["Year"].min() y df_copas["Year"].max() para obtener el año mas antiguo y mas reciente de igual manera se puede usar describe y describe nos da mayor informacion ademas de estas dos juntas.

En lugar de usar la funcion loc, en esta ocasion es mas facil usar iloc especificando los indices para imprimir el mas antiguo y el mas actual (0,-1) porque la tabla original registra los mundiales consecutivamente.

si se quiere usar loc es necesario especificar en que columna buscaremos el dato 
df_copas.set_index("Year",inplace=True)
y usar la funcion loc para buscar las filas corresponidnetes a esos datos 
df_copas.loc[[1930,2014]]

---
# Parte opcional

Los ejercicios anteriores son obligatorios y puntuan hasta un máximo de 80 puntos sobre 100.

Los siguientes ejercicios trabajan con los dataframes cargados para extraer información concreta a partir de los datos. 
Estos ejercicios son opcionales, pero es recomendable intentar resolverlos para adquirir habilidades.

---

## 5. Asistencia de público

La columna `Attendance` indica la asistencia de público en cada mundial. Pandas ha cargado esta columna como tipo string, ya que los valores indicados contienen puntos como separador de millares. En primer lugar vamos a transformar esta columna para que no contenga el caracter `.`. Posteriormente transformaremos esta columna a formato numérico usando la función [pd.to_numeric](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_numeric.html).

**Nota**: la función `pd.read_csv` también permite hacer este proceso de una forma mucho más transparente, usando el argumento `thousands`. Ver la documentación [aquí](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html).

In [13]:
#df_copas["Attendance"] = pd.to_numeric(df_copas["Attendance"].str.replace(".", ""))
df_copas = pd.read_csv("WorldCups.csv", thousands=".")

In [14]:
type(df_copas.Attendance[1])

numpy.int64

Teniendo en cuenta todos los datos de `df_copas`, ¿Cuál fué la mayor asistencia de un mundial? ¿Cuál es la asistencia media?

In [15]:
df_copas.sort_values("Attendance",ascending=False)

Unnamed: 0,Year,Country,Winner,Runners-Up,Third,Fourth,GoalsScored,QualifiedTeams,MatchesPlayed,Attendance
14,1994,USA,Brazil,Italy,Sweden,Bulgaria,141,24,52,3587538
19,2014,Brazil,Germany,Argentina,Netherlands,Brazil,171,32,64,3386810
17,2006,Germany,Italy,France,Germany,Portugal,147,32,64,3359439
18,2010,South Africa,Spain,Netherlands,Germany,Uruguay,145,32,64,3178856
15,1998,France,France,Brazil,Croatia,Netherlands,171,32,64,2785100
16,2002,Korea/Japan,Brazil,Germany,Turkey,Korea Republic,161,32,64,2705197
13,1990,Italy,Germany FR,Argentina,Italy,England,115,24,52,2516215
12,1986,Mexico,Argentina,Germany FR,France,Belgium,132,24,52,2394031
11,1982,Spain,Italy,Germany FR,Poland,France,146,24,52,2109723
9,1974,Germany,Germany FR,Netherlands,Poland,Brazil,97,16,38,1865753


In [16]:
 pd.set_option('float_format', '{:.2f}'.format)

In [17]:
df_copas.describe(include="all")

Unnamed: 0,Year,Country,Winner,Runners-Up,Third,Fourth,GoalsScored,QualifiedTeams,MatchesPlayed,Attendance
count,20.0,20,20,20,20,20,20.0,20.0,20.0,20.0
unique,,15,9,10,14,16,,,,
top,,Germany,Brazil,Argentina,Germany,Uruguay,,,,
freq,,2,5,3,3,3,,,,
mean,1974.8,,,,,,118.95,21.25,41.8,1872882.35
std,25.58,,,,,,32.97,7.27,17.22,1071842.15
min,1930.0,,,,,,70.0,13.0,17.0,363000.0
25%,1957.0,,,,,,89.0,16.0,30.5,874831.5
50%,1976.0,,,,,,120.5,16.0,38.0,1734864.0
75%,1995.0,,,,,,145.25,26.0,55.0,2725172.75


La mayor asistencia ha sido de 3587538 en el munidal de 1994,USA.

La asistencia media ha sido de 1872882.35

## 6. Asistencia de público en función del país

Sabemos que, dependiendo del país donde se celebre la copa del mundo, ésta tiene un mayor o menor impacto o relevancia. Vamos a calcular la media de asistencia agrupando por país. Finalmente, ordenar los resultados por orden decreciente de este número medio de asistentes.

**Pista 1:** Como se muestra en el siguiente ejemplo, recuerda que podemos combinar la función [groupby](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html) con otras funciones de agregación como `mean`.

**Pista 2:** Recuerda que podemos usar la función [sort_values](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html) para ordenar un DataFrame por una de sus columnas. Por ejemplo, el siguiente código muestra los mundiales ordenados de forma decreciente por el número de goles marcados:

```python
df_copas.sort_values("GoalsScored", ascending=False)
```

In [18]:
df_personas = pd.DataFrame(
    [
        ("Juan", "male", 56),
        ("Laura", "female", 23),
        ("José", "male", 46),
        ("Rosa", "female", 26)
    ], columns=["name", "gender", "age"])

# edad media de todas las personas
edad_media = df_personas["age"].mean()
# edad media agrupando por género
edad_media_por_genero = df_personas.groupby("gender").mean()[["age"]]

print(f"La edad media de las {len(df_personas)} es de {edad_media} años.")
print(f"La edad media agrupada por género es:")
edad_media_por_genero

La edad media de las 4 es de 37.75 años.
La edad media agrupada por género es:


Unnamed: 0_level_0,age
gender,Unnamed: 1_level_1
female,24.5
male,51.0


In [19]:
df_copas = pd.read_csv("WorldCups.csv")
df_copas = pd.read_csv("WorldCups.csv", thousands=".")
edad_media = df_copas["Attendance"].mean()
df_copas = df_copas.groupby("Country").mean()[["Attendance"]]
print(f"La asistencia media registrada en los {len(df_copas)} paises diferentes que se ha jugado la copa mundial, es de {edad_media} personas.")
print(f"La asistencia media agrupada por pais es:")
df_copas.sort_values("Attendance",ascending=False)

La asistencia media registrada en los 15 paises diferentes que se ha jugado la copa mundial, es de 1872882.35 personas.
La asistencia media agrupada por pais es:


Unnamed: 0_level_0,Attendance
Country,Unnamed: 1_level_1
USA,3587538.0
South Africa,3178856.0
Korea/Japan,2705197.0
Germany,2612596.0
Brazil,2216028.0
Spain,2109723.0
Mexico,1999003.0
France,1580400.0
England,1563135.0
Argentina,1545791.0


## 7. País con más victorias

Vamos a analizar el número de veces que un país ha ganado la copa del mundo. Transformar el DataFrame `df_copas` para que muestre los diferentes países que han ganado al menos una copa del mundo, y ordena el DataFrame por dicho número de forma descendente usando la función [sort_values](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html).

¿Ves algo extraño o digno de comentar? Pista: analiza Alemania. **Hazlo en una nueva celda de tipo markdown.**

In [20]:
df_copas = pd.read_csv("WorldCups.csv")
df_copas.describe(include="all")

Unnamed: 0,Year,Country,Winner,Runners-Up,Third,Fourth,GoalsScored,QualifiedTeams,MatchesPlayed,Attendance
count,20.0,20,20,20,20,20,20.0,20.0,20.0,20
unique,,15,9,10,14,16,,,,20
top,,Germany,Brazil,Argentina,Germany,Uruguay,,,,3.178.856
freq,,2,5,3,3,3,,,,1
mean,1974.8,,,,,,118.95,21.25,41.8,
std,25.58,,,,,,32.97,7.27,17.22,
min,1930.0,,,,,,70.0,13.0,17.0,
25%,1957.0,,,,,,89.0,16.0,30.5,
50%,1976.0,,,,,,120.5,16.0,38.0,
75%,1995.0,,,,,,145.25,26.0,55.0,


In [21]:
df_copas["Winner"].value_counts(ascending=True)

Germany       1
England       1
Spain         1
France        1
Argentina     2
Uruguay       2
Germany FR    3
Italy         4
Brazil        5
Name: Winner, dtype: int64

El pais con que mayor veces ha ganado la copa es Brazil, sin contar alemania occidental y Alemania como distintos, estos tienen la mismas copas que italia, tan solo una menos que Brazil

## Creación de un nuevo DataFrame

A continuación vamos a trabajar con el DataFrame `df_partidos`. Vamos a centrarnos en la información a nivel de selección, siendo indiferente si el equipo juega en casa o fuera. En este sentido, la información disponible no es la mejor para trabajar cómodamente. Por ello, es habitual realizar transformaciones a los datos en función de las preguntas que le queramos hacer. A continuación crearemos un nuevo DataFrame llamado `df_paises`que contendrá todos los paises involucrados en la copa del mundo y el año en el que participaron. Es decir, un país que haya jugado varias copas del mundo aparecerá varias veces:


||Year|Country|
|---|---|---|
|0|1930|France|
|1|1930|USA|
|...|...|..|
|37|1938|France|
|...|...|..|

**Nota:** este problema se puede afrontar como mínimo de dos maneras diferentes

1. Generando dos dataframes, uno donde la columna `Country` se corresponde con `Home Team Name`, y otro donde la columna `Country` se corresponde con `Away Team Name`. Finalmente, combinar ambos DataFrames en uno solo.
2. Usar la función [melt](https://pandas.pydata.org/docs/reference/api/pandas.melt.html) que nos permite convertir N columnas en un par de columnas llamadas `variable` y `value`, donde la primera es el nombre de una de las columnas y `value` el valor que tomó dicha variable.


In [22]:
#alternativa 1
df_paises = (
    pd.concat([
        df_partidos[["Year", "Home Team Name"]].rename(columns={"Home Team Name": "Country"}),
        df_partidos[["Year", "Away Team Name"]].rename(columns={"Away Team Name": "Country"})
    ])
)
#alternativa 2
df_paises = (
    df_partidos
    .melt(id_vars=["Year"], value_vars=["Home Team Name", "Away Team Name"])
    .rename(columns={"value": "Country"})
    [["Year", "Country"]]
)

In [23]:
df_paises

Unnamed: 0,Year,Country
0,1930,France
1,1930,USA
2,1930,Yugoslavia
3,1930,Romania
4,1930,Argentina
...,...,...
1699,2014,Costa Rica
1700,2014,Germany
1701,2014,Argentina
1702,2014,Netherlands


## 8. Número de países

Vamos a descubrir cuántos países han participado, al menos una vez, en una copa del mundo. Para ello vamos a trabajar con el DataFrame construido anteriormente y a usar la función de agregación [nunique](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.nunique.html).

In [24]:
df_paises.nunique()

Year       20
Country    83
dtype: int64

Para saber unicamente cuantos paises han participado se ejecuta la siguinete linea de codigo

In [25]:
#df_paises["Country"].nunique()

Para obtener los nombres de los paises que han participado 

In [26]:
#df_paises["Country"].unique()

Han participado 83 paises en los 20 mundiaes registrados.

La lista de paises que han participado al menos en un mundial son:

'France', 'USA', 'Yugoslavia', 'Romania', 'Argentina', 'Chile','Uruguay', 'Brazil', 'Paraguay', 'Austria', 'Hungary','Switzerland', 'Sweden', 'Germany', 'Spain', 'Italy','Czechoslovakia', 'Cuba', 'England', 'Germany FR', 'Turkey','Soviet Union', 'Northern Ireland', 'Mexico', 'Wales', 'Portugal','Korea DPR', 'Peru', 'Belgium', 'Bulgaria', 'German DR', 'Zaire','Poland', 'Australia', 'Scotland', 'Netherlands', 'Haiti','Tunisia', 'Algeria', 'Honduras', 'Canada', 'Morocco','Korea Republic', 'Iraq', 'Denmark', 'rn">United Arab Emirates','Costa Rica', 'Cameroon', 'rn">Republic of Ireland', 'Colombia','Norway', 'Nigeria', 'Saudi Arabia', 'Bolivia', 'Russia', 'Greece','Jamaica', 'South Africa', 'Japan', 'Croatia', 'China PR','Senegal', 'Slovenia', 'Ecuador', 'rn">Trinidad and Tobago','rn">Serbia and Montenegro', 'Angola', 'Czech Republic', 'Togo','Iran', "C�te d'Ivoire", 'Ghana', 'Ukraine', 'Serbia','New Zealand', 'Slovakia', 'IR Iran', 'rn">Bosnia and Herzegovina','Egypt', 'Dutch East Indies', 'Israel', 'El Salvador', 'Kuwait'

## 9. Número de partidos por país

Ahora vamos a descubrir cuántos partidos ha jugado cada país. Operar con el DataFrame para que muestre un país por fila y una columna que indique el número de partidos que ha jugado. Ordenar el DataFrame por dicha columna de forma descendente.

In [27]:
pd.set_option("max_rows", 83)
df_paises["Country"].value_counts(ascending=False)

Brazil                        108
Italy                          83
Argentina                      81
Germany FR                     62
England                        62
France                         61
Spain                          59
Netherlands                    54
Mexico                         54
Uruguay                        52
Germany                        48
Sweden                         46
Belgium                        43
Yugoslavia                     37
USA                            34
Switzerland                    34
Chile                          34
Hungary                        32
Poland                         31
Korea Republic                 31
Soviet Union                   31
Czechoslovakia                 30
Austria                        29
Paraguay                       27
Bulgaria                       26
Portugal                       26
Scotland                       23
Cameroon                       23
Romania                        21
Colombia      

El pais que mas veces ha jugado partidos es Brazil con 108, mientras que el que menos ha jugado es Dutch East Indies  con 1, cabe mencionar que ya no existe, ahora es indonecia.

Si omitimos este pais, hay varios que solo han jugado 3 partidos en los que se encuentran Canada,Israel,Cuba,Haiti,Iraq, entre otros.


## 10. Partidos jugados por España

Vamos a trabajar a continuación con el DataFrame `df_partidos`. Seleccionar aquellos partidos (filas del dataframe) en los que España ha jugado como `Home Team`, es decir, donde la columna `Home Team` tiene el valor `España`. Recuerda que para la operación de filtrado hay que usar la función [.loc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html).


A continuación, haz una nueva selección en los que España ha jugado como `Away Team`, es decir, donde la columna `Away Team` tiene el valor `España`.

**Opcional:** ¿Podrías hacer una sola selección donde España haya jugado como `Home Team` o como `Away Team`?. Pista: consulta la documentación del operador de [disyunción](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#boolean-indexing).

In [28]:
df_partidos.set_index("Away Team Name",inplace=True)
df_partidos.loc[["Spain"]]

Unnamed: 0_level_0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
Away Team Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
Spain,1934,31 May 1934 - 16:30,Quarter-finals,Giovanni Berta,Florence,Italy,1,1,,35000.0,0,0,BAERT Louis (BEL),ZENISEK Bohumil (TCH),IVANCSICS Mihaly (HUN),418,1122,ITA,ESP
Spain,1934,01 Jun 1934 - 16:30,Quarter-finals,Giovanni Berta,Florence,Italy,1,0,,43000.0,1,0,MERCET Rene (SUI),IVANCSICS Mihaly (HUN),ZENISEK Bohumil (TCH),418,1123,ITA,ESP
Spain,1950,09 Jul 1950 - 15:00,Group 6,Pacaembu,Sao Paulo,Uruguay,2,2,,44802.0,1,2,GRIFFITHS Benjamin (WAL),DATTILO Generoso (ITA),ALVAREZ Alfredo (BOL),209,1207,URU,ESP
Spain,1950,13 Jul 1950 - 15:00,Group 6,Maracan� - Est�dio Jornalista M�rio Filho,Rio De Janeiro,Brazil,6,1,,152772.0,3,0,LEAFE Reginald (ENG),MITCHELL George (SCO),DA COSTA VIEIRA Jose (POR),209,1186,BRA,ESP
Spain,1950,16 Jul 1950 - 15:00,Group 6,Pacaembu,Sao Paulo,Sweden,3,1,,11227.0,2,0,VAN DER MEER Karel (NED),LUTZ Jean (SUI),GARCIA Prudencio (USA),209,1206,SWE,ESP
Spain,1962,31 May 1962 - 15:00,Group 3,Estadio Sausalito,Vina Del Mar,Czechoslovakia,1,0,,12700.0,0,0,STEINER Carl (AUT),MARINO Esteban (URU),VAN ROSBERG Walter Jose (CUW),231,1498,TCH,ESP
Spain,1962,06 Jun 1962 - 15:00,Group 3,Estadio Sausalito,Vina Del Mar,Brazil,2,1,,18715.0,0,1,BUSTAMANTE Sergio (CHI),MARINO Esteban (URU),SUNDHEIM Jose Antonio (COL),231,1460,BRA,ESP
Spain,1966,13 Jul 1966 - 19:30,Group 2,Villa Park,Birmingham,Argentina,2,1,,42738.0,0,0,RUMENTCHEV Dimitar (BUL),YAMASAKI MALDONADO Arturo (MEX),ZECEVIC Konstantin (YUG),238,1578,ARG,ESP
Spain,1966,20 Jul 1966 - 19:30,Group 2,Villa Park,Birmingham,Germany FR,2,1,,42187.0,1,1,MARQUES Armando (BRA),VICUNA Claudio (CHI),CHOI Duk Ryong (PRK),238,1637,FRG,ESP
Spain,1978,03 Jun 1978 - 13:45,Group 3,Jose Amalfitani,Buenos Aires,Austria,2,1,,40841.0,1,1,PALOTAI Karoly (HUN),BARRETO RUIZ Ramon (URU),IVANOV Anatoly (URS),278,2216,AUT,ESP


In [29]:
df_partidos.set_index("Home Team Name",inplace=True)
df_partidos.loc[["Spain"]]

Unnamed: 0_level_0,Year,Datetime,Stage,Stadium,City,Home Team Goals,Away Team Goals,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
Home Team Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
Spain,1934,27 May 1934 - 16:30,Preliminary round,Luigi Ferraris,Genoa,3,1,,21000.0,3,0,BIRLEM Alfred (GER),CARMINATI Ettore (ITA),IVANCSICS Mihaly (HUN),204,1111,ESP,BRA
Spain,1950,25 Jun 1950 - 15:00,Group 2,Durival de Brito,Curitiba,3,1,,9511.0,0,1,VIANA Mario (BRA),DA COSTA VIEIRA Jose (POR),DE LA SALLE Charles (FRA),208,1208,ESP,USA
Spain,1950,29 Jun 1950 - 15:00,Group 2,Maracan� - Est�dio Jornalista M�rio Filho,Rio De Janeiro,2,0,,19790.0,2,0,MALCHER Alberto (BRA),MARINO Esteban (URU),ALVAREZ Alfredo (BOL),208,1193,ESP,CHI
Spain,1950,02 Jul 1950 - 15:00,Group 2,Maracan� - Est�dio Jornalista M�rio Filho,Rio De Janeiro,1,0,,74462.0,0,0,GALEATI Giovanni (ITA),LUTZ Jean (SUI),DATTILO Generoso (ITA),208,1199,ESP,ENG
Spain,1962,03 Jun 1962 - 15:00,Group 3,Estadio Sausalito,Vina Del Mar,1,0,,11875.0,0,0,TESANIC Branko (YUG),VICUNA Claudio (CHI),VAN ROSBERG Walter Jose (CUW),231,1497,ESP,MEX
Spain,1966,15 Jul 1966 - 19:30,Group 2,Hillsborough,Sheffield,2,1,,32028.0,0,1,BAKHRAMOV Tofik (URS),ZSOLT Istvan (HUN),PHILLIPS Hugh (SCO),238,1641,ESP,SUI
Spain,1978,11 Jun 1978 - 13:45,Group 3,Jose Amalfitani,Buenos Aires,1,0,,42132.0,0,0,BIWERSI Ferdinand (GER),ITHURRALDE Arturo Andres (ARG),PROKOP Adolf (GDR),278,2337,ESP,SWE
Spain,1982,16 Jun 1982 - 21:00,Group 5,Luis Casanova,Valencia,1,1,,49562.0,0,1,ITHURRALDE Arturo Andres (ARG),DOTCHEV Bogdan (BUL),BARRANCOS Luis (BOL),293,901,ESP,HON
Spain,1982,20 Jun 1982 - 21:00,Group 5,Luis Casanova,Valencia,2,1,,48000.0,1,1,LUND-SORENSEN Henning (DEN),GARRIDO Antonio (POR),ITHURRALDE Arturo Andres (ARG),293,903,ESP,YUG
Spain,1982,05 Jul 1982 - 21:00,Group 2,Santiago Bernabeu,Madrid,0,0,,75000.0,0,0,PONNET Alexis (BEL),VAUTROT Michel (FRA),LACARNE Belaid (ALG),294,877,ESP,ENG


Como se puede observar en cada dataframe tenemos la indormacion delos aprtidos que ha jugado España tanto local como visitante 

Parte opcional, para correr el siguiente codigo se necesitaba limpiar el kernel debido a que las clumnas son tomadas como indices, por lo cual, preferi poner esta parte opcional antes para que corra todo el codigo sin intervenir

In [30]:
df_partidos = pd.read_csv("WorldCupMatches.csv")
df_partidos[(df_partidos['Home Team Name']=='Spain') | (df_partidos['Away Team Name']=='Spain') ]

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
23,1934,27 May 1934 - 16:30,Preliminary round,Luigi Ferraris,Genoa,Spain,3,1,Brazil,,21000.0,3,0,BIRLEM Alfred (GER),CARMINATI Ettore (ITA),IVANCSICS Mihaly (HUN),204,1111,ESP,BRA
28,1934,31 May 1934 - 16:30,Quarter-finals,Giovanni Berta,Florence,Italy,1,1,Spain,,35000.0,0,0,BAERT Louis (BEL),ZENISEK Bohumil (TCH),IVANCSICS Mihaly (HUN),418,1122,ITA,ESP
30,1934,01 Jun 1934 - 16:30,Quarter-finals,Giovanni Berta,Florence,Italy,1,0,Spain,,43000.0,1,0,MERCET Rene (SUI),IVANCSICS Mihaly (HUN),ZENISEK Bohumil (TCH),418,1123,ITA,ESP
55,1950,25 Jun 1950 - 15:00,Group 2,Durival de Brito,Curitiba,Spain,3,1,USA,,9511.0,0,1,VIANA Mario (BRA),DA COSTA VIEIRA Jose (POR),DE LA SALLE Charles (FRA),208,1208,ESP,USA
60,1950,29 Jun 1950 - 15:00,Group 2,Maracan� - Est�dio Jornalista M�rio Filho,Rio De Janeiro,Spain,2,0,Chile,,19790.0,2,0,MALCHER Alberto (BRA),MARINO Esteban (URU),ALVAREZ Alfredo (BOL),208,1193,ESP,CHI
64,1950,02 Jul 1950 - 15:00,Group 2,Maracan� - Est�dio Jornalista M�rio Filho,Rio De Janeiro,Spain,1,0,England,,74462.0,0,0,GALEATI Giovanni (ITA),LUTZ Jean (SUI),DATTILO Generoso (ITA),208,1199,ESP,ENG
69,1950,09 Jul 1950 - 15:00,Group 6,Pacaembu,Sao Paulo,Uruguay,2,2,Spain,,44802.0,1,2,GRIFFITHS Benjamin (WAL),DATTILO Generoso (ITA),ALVAREZ Alfredo (BOL),209,1207,URU,ESP
71,1950,13 Jul 1950 - 15:00,Group 6,Maracan� - Est�dio Jornalista M�rio Filho,Rio De Janeiro,Brazil,6,1,Spain,,152772.0,3,0,LEAFE Reginald (ENG),MITCHELL George (SCO),DA COSTA VIEIRA Jose (POR),209,1186,BRA,ESP
73,1950,16 Jul 1950 - 15:00,Group 6,Pacaembu,Sao Paulo,Sweden,3,1,Spain,,11227.0,2,0,VAN DER MEER Karel (NED),LUTZ Jean (SUI),GARCIA Prudencio (USA),209,1206,SWE,ESP
141,1962,31 May 1962 - 15:00,Group 3,Estadio Sausalito,Vina Del Mar,Czechoslovakia,1,0,Spain,,12700.0,0,0,STEINER Carl (AUT),MARINO Esteban (URU),VAN ROSBERG Walter Jose (CUW),231,1498,TCH,ESP


## Calcular el vencedor de cada partido

El DataFrame `df_partidos` tiene la información de cada partido, incluyendo los goles marcados por cada equipo, pero no disponemos de una columna que indique si un equipo ganó o perdió. Vamos a crear una columna llamada `Ganador` que indique el nombre del equipo vencedor (con más goles). También podemos encontrar empates, en cuyo caso usaremos `pd.NA` para indicar que desconocemos el vencedor de dicho partido.

**Nota:** Se puede resolver realizando varias asignaciones, o una sola utilizando la función [pd.where](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.where.html).

In [31]:
df_partidos = pd.read_csv("WorldCupMatches.csv")
# alternativa 1
df_partidos["Ganador"] = df_partidos["Home Team Name"]
df_partidos.loc[df_partidos["Home Team Goals"] < df_partidos["Away Team Goals"], "Ganador"] = df_partidos["Away Team Name"]
df_partidos.loc[df_partidos["Home Team Goals"] == df_partidos["Away Team Goals"], "Ganador"] = pd.NA

# alternativa 2
df_partidos["Ganador"] = (
    df_partidos["Home Team Name"].where(
        df_partidos["Home Team Goals"] > df_partidos["Away Team Goals"],
        df_partidos["Away Team Name"].where(df_partidos["Home Team Goals"] < df_partidos["Away Team Goals"], pd.NA)
    )
)

## 11. Número de victorias por país

Calcular para cada país el número de partidos ganados. Para ello, usar la función [dropna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html) para eliminar las filas correspondientes a partidos donde la columna `Ganador` es un valor perdido (`na`). Ordenar los países por número de victorias de forma descendente.

Antes de comenzar a a plicar funciones es bueno saber cuantso datos perdidos o na hay en la fila columnas 

In [32]:
df_partidos.isnull().sum()

Year                      0
Datetime                  0
Stage                     0
Stadium                   0
City                      0
Home Team Name            0
Home Team Goals           0
Away Team Goals           0
Away Team Name            0
Win conditions            0
Attendance                2
Half-time Home Goals      0
Half-time Away Goals      0
Referee                   0
Assistant 1               0
Assistant 2               0
RoundID                   0
MatchID                   0
Home Team Initials        0
Away Team Initials        0
Ganador                 190
dtype: int64

Una vez que tengamos los datos pasamos a eliminar las filas que tengan na en la columna ganadores 

In [33]:
df_partidos = df_partidos[df_partidos["Ganador"].notna()]
df_partidos.isnull().sum()

Year                    0
Datetime                0
Stage                   0
Stadium                 0
City                    0
Home Team Name          0
Home Team Goals         0
Away Team Goals         0
Away Team Name          0
Win conditions          0
Attendance              2
Half-time Home Goals    0
Half-time Away Goals    0
Referee                 0
Assistant 1             0
Assistant 2             0
RoundID                 0
MatchID                 0
Home Team Initials      0
Away Team Initials      0
Ganador                 0
dtype: int64

Una vez hecho lo anterior pasamos a contar cuantas veces ha ganado el equipo con la funcion values_counts y especificamos el orden, en este caso descentente 

In [34]:
df_partidos["Ganador"].value_counts(ascending=False)

Brazil                        71
Italy                         45
Argentina                     44
Germany FR                    36
Germany                       34
France                        29
Netherlands                   29
Spain                         29
England                       26
Uruguay                       20
Yugoslavia                    16
Sweden                        16
Soviet Union                  15
Poland                        15
Belgium                       15
Hungary                       15
Mexico                        14
Portugal                      13
Austria                       12
Czechoslovakia                11
Chile                         11
Switzerland                   11
USA                            8
Romania                        8
Denmark                        8
Colombia                       8
Paraguay                       7
Croatia                        7
Costa Rica                     5
Korea Republic                 5
Nigeria   

## Opcional 1

Calcular para cada país el ratio de victorias, calculado como el número de partidos ganados dividido por el número de partidos jugados. Ordenar los países por ratio de forma descendente.

**Pista:** Si obtenemos dos dataframes, uno con las victorias por cada país y otro con el número total de partidos jugados, podemos utilizar la función [pd.merge](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html) para combinar ambos en un solo DataFrame, y despues crear una nueva columna que sea el ratio.

In [35]:
df_victorias=pd.Series(df_partidos["Ganador"].value_counts())
df_victorias = df_victorias.to_frame()
df_victorias

Unnamed: 0,Ganador
Brazil,71
Italy,45
Argentina,44
Germany FR,36
Germany,34
France,29
Netherlands,29
Spain,29
England,26
Uruguay,20


In [36]:
df_victorias.columns

Index(['Ganador'], dtype='object')

In [37]:
df_jugados = pd.Series( df_paises["Country"].value_counts())
df_jugados = df_jugados.to_frame()
df_jugados

Unnamed: 0,Country
Brazil,108
Italy,83
Argentina,81
Germany FR,62
England,62
France,61
Spain,59
Netherlands,54
Mexico,54
Uruguay,52


In [38]:
df_ratio=df_jugados.join(df_victorias,rsuffix=" ")
df_ratio

Unnamed: 0,Country,Ganador
Brazil,108,71.0
Italy,83,45.0
Argentina,81,44.0
Germany FR,62,36.0
England,62,26.0
France,61,29.0
Spain,59,29.0
Netherlands,54,29.0
Mexico,54,14.0
Uruguay,52,20.0


In [40]:
df_ratio.assign(Ratio=df_ratio["Ganador"]/df_ratio["Country"])

Unnamed: 0,Country,Ganador,Ratio
Brazil,108,71.0,0.66
Italy,83,45.0,0.54
Argentina,81,44.0,0.54
Germany FR,62,36.0,0.58
England,62,26.0,0.42
France,61,29.0,0.48
Spain,59,29.0,0.49
Netherlands,54,29.0,0.54
Mexico,54,14.0,0.26
Uruguay,52,20.0,0.38


Para sacar el ratio se tuco que crear dos 3 dataframes, dos con la infomacion que recopilamos de sus antecesores y uno donde se agrego la columna de ratio con sus respectivos valores, es decir con la operacion necesaria

## Opcional 2

¿Se te ocurre alguna pregunta adicional que hacerle a los datos? Utiliza una celda de tipo markdown para documentarla y otra de código para implementarla y ver así la respuesta.