# Seminario de Lenguajes - Python
## Cursada 2023
### Clase 11: seguimos con pandas

# Repasamos analizando  la Copa América

- Vamos a trabajar con dataset generados a partir de datos de páginas HTML.
Para leer  documentos HTML hay varias opciones: 
- Con pandas, con la función **read_html**,
- También hay otras librerías tales como [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/)

En todos los casos, se requiere instalar un **parser HTML**. En nuestro caso estoy usando [lxml](https://lxml.de/) que se instala con pip.

# Desafíos de hoy ...


> Vamos a analizar los resultados de la Copa América, a partir de la [página de la Wikipedia](https://es.wikipedia.org/wiki/Copa_Am%C3%A9rica) sobre este torneo.
 

In [None]:
import pandas as pd

In [None]:
url = "https://es.wikipedia.org/wiki/Copa_Am%C3%A9rica"
result = pd.read_html(url)

In [None]:
#url = "https://es.wikipedia.org/wiki/Copa_Am%C3%A9rica"
result = pd.read_csv("tabla_general.csv")

- La función **read_html** lee las tablas HTML.
- Veamos el tipo de **result**.

In [None]:
type(result)

# Exploramos la tabla general

- Esta tabla, con la información de los torneos, se encuentra en **result[1]**.

- Observemos cómo está compuesto el dataframe. ¿Cuáles son los nombres de las columnas? ¿Todas tienen valores válidos?

In [None]:
result[1]

# Empecemos a "limpiar" el dataframe: columnas no válidas

In [None]:
ediciones = result[1]

In [None]:
#ediciones = pd.read_csv("tabla_general.csv")

In [None]:
ediciones.info()

In [None]:
#ediciones.to_csv("tabla_general.csv")

In [None]:
ediciones

# Empecemos a "limpiar" el dataframe: ¿qué representan los valores NaN?

- Con este valor indicamos que **el valor no está o es nulo**. 
- En nuestro dataset, tenemos columnas con estos valores. Vamos a eliminar estas columnas: ¿cuáles son las columnas que deberíamos eliminar?

- Para esto, usamos el método [drop](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html), indicando que los labels que estamos mencionando se refieren a la columna. 
El parámetro **axis** puede contener: 
    - para indicar **filas: 0 o ‘index’**
    - para indicar **columnas: 1 o ‘columns’**



In [None]:
ediciones = ediciones.drop([4, 8, 12, 13], axis='columns')

In [None]:
ediciones

# Observemos los nombres de las columnas

In [None]:
ediciones.columns

- ¿Dónde se encuentran los nombres reales de las columnas?

Vamos a renombrar los labels de las columnas con los elementos de la primera fila:

In [None]:
ediciones.columns = ediciones.iloc[0]

In [None]:
ediciones

Vemos que las dos primeras filas no tienen datos válidos para nuestro análisis. Por lo tanto, las vamos a eliminar antes de seguir:

In [None]:
ediciones = ediciones[2:]

In [None]:
ediciones

# Observemos la columna año ...
Si observamos la columna año, vemos que todas terminan con la cadena "Detalle". Vamos a eliminar esto y dejar sólo el año.

In [None]:
ediciones["Año"].head()

In [None]:
#ediciones["Año"].str[0:4]  
ediciones["Año"] = ediciones["Año"].str[0:4]  

In [None]:
#ediciones["Año"] = ediciones.loc[:, "Año"].str[0:4]  

In [None]:
ediciones["Año"]

Esta operación genera **SettingWithCopyWarning**, ¿por qué?


# SettingWithCopyWarning

- Algunas acciones en pandas retornan una **vista** de los datos y otras una **copia**.

<center>
<img src="imagenes/warning1.png" alt="Vistas vs. copias" style="width:550px;"/>
</center>
Imagen sacada de https://www.dataquest.io/blog/settingwithcopywarning/

# SettingWithCopyWarning


- Por lo tanto, ante una modificación: 

<center>
<img src="imagenes/warning2.png" alt="Vistas vs. copias" style="width:550px;"/>
</center>
Imagen sacada de https://www.dataquest.io/blog/settingwithcopywarning/

# Por lo tanto ...

In [None]:
ediciones = ediciones.copy()

# Más info en 

- https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
- https://www.dataquest.io/blog/settingwithcopywarning/

- O en el [video](https://www.youtube.com/watch?v=F37fV0uFf60)  de [Marc Garcia](https://datapythonista.me/)

# Observemos ahora  
- Vemos que la columna Año quedó como queríamos, pero...
- ¿Qué notamos de la fila 31? ¿Y en la última?

In [None]:
ediciones.tail(2)

Si observamos los datos, podemos ver que hay dos filas con datos que no nos sirven: las filas 31 y 50. 

Si el dataset es muy grande, ¿cómo podemos darnos cuenta de estas cosas?

In [None]:
ediciones["Equipos"].unique()

Eliminemos las filas 31 y 50. 

In [None]:
#ediciones = ediciones.drop([31, 50], axis="rows")
ediciones

# Observemos la columna Campeón ...

Otro dato que podríamos "limpiar" es la columna Campeón. Si observamos, todos los países terminan con una cadena similar a: "(x)". Si queremos utilizar esta columna para nuestras consultas, esto podría traernos poblemas. 

Vamos a eliminar estos caracteres de los valores de esta columna:

In [None]:
#ediciones["Campeón"].str[:-4]  
ediciones["Campeón"] = ediciones["Campeón"].str[:-4]  

In [None]:
ediciones

# Ahora si, vamos a comenzar a analizar los datos

## Desafío 1

> Si queremos ver cuándo el país que es sede salió campeón, podría comenzar ordenando los datos y visualizarlos.  Ordenamos por **dos criterios**: Sede y Campeón


In [None]:
#ediciones.sort_values(by=['Sede', 'Campeón'])
ediciones.sort_values(by=['Sede', 'Campeón'])[['Año', 'Sede', 'Campeón']]

Más adelante completaremos este desafío.

# Ahora si, vamos a realizar algunas consultas

## Desafío 2

> ¿En qué torneos salimos campeones?


In [None]:
nuestras_copas = ediciones[ediciones["Campeón"] == "Argentina"]

In [None]:
len(nuestras_copas)

In [None]:
nuestras_copas[["Año"]]

# Mmm ... Esto NO es correcto!!

In [None]:
ediciones["Campeón"].unique()

In [None]:
nuestras_copas = ediciones[(ediciones["Campeón"] == "Argentina") | (ediciones["Campeón"] == "Argentina ")]

In [None]:
len(nuestras_copas)

In [None]:
nuestras_copas[["Año"]]


# Desafío 2

> Los 5 países que más veces salieron campeones

# Usamos groupby

Vamos  usar el método  [groupby](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html) para crear **agrupamientos**.

> El agrupamiento es una operación que permite dividir un DataFrame en grupos basados en una o más columnas y luego aplicar cálculos o funciones a cada grupo de forma independiente.

# ¿Cuál sería el criterio acá para formar los grupos?

Podríamos dividir por la columna "Campeón" y luego ver qué grupos tienen más elementos. 

**IMPORTANTE:**  sobre los datos agrupados podemos aplicar funciones de agregación tales como **size(), sum(), mean(), max(), min(), entre otras**.

In [None]:
ediciones.groupby("Campeón").size()

# ¿Algo raro? 

Observemos que hay países que aparecen varias veces: ¿por qué?

In [None]:
ediciones["Campeón"].unique()

Si observamos los datos, "Argentina" y "Uruguay" aparecen dos veces. 

# Vamos a resolver esto:

- Vamos a realizar algunos reemplazoss en nuestros datos.

In [None]:
paises = {'Argentina ': 'Argentina',
          'Uruguay ': 'Uruguay',}

ediciones = ediciones.copy()
ediciones['Campeón'] = ediciones['Campeón'].replace(paises)

In [None]:
ediciones["Campeón"].unique()

In [None]:
ediciones.groupby("Campeón").size()

# Pero nosotros queríamos los 5 con más campeonatos

In [None]:
ediciones.groupby("Campeón").size().sort_values(ascending=False).head(5)

# También podemos ver esto en forma más gráfica

In [None]:
campeonatos_por_equipo = ediciones.groupby("Campeón").size().sort_values(ascending=False).head(5)
campeonatos_por_equipo.plot(kind='pie')

# Desafío 3

>  Países organizadores que salieron campeones

Acá retomamos el desafío 1...

#  La primera solución que nos podríamos plantear es:

In [None]:
campeones_organizadores = ediciones[ediciones["Sede"] == ediciones["Campeón"]]

In [None]:
campeones_organizadores[["Año", "Sede", "Campeón"]]

# Pero esto no es correcto

Exploremos los datos:

In [None]:
ediciones.groupby('Sede')['Campeón'].unique()

# Tarea para el hogar

> Resolver el problema anterior reemplazando los valores de la columna "Sede" por los adecuados.

# Desafío 4

> Queremos saber qué países fueron los campeones por sede.

Para esto podemos agrupar por  **Sede** y  **Campeón** y ver cuántos elementos hay.  

Observamos que aún no resolvimos el problema de los valores "malos" detectados anteriormente, así que seguramente aparecerán en estos resultados.

In [None]:
ediciones.groupby(['Sede', 'Campeón'])['Sede'].count()

# Ahora vamos a trabajar con la tabla de goleadores

- Deberíamos ver cuál es el dataframe que la representa en la lista **result**.

In [None]:
goleadores_x_edicion = result[12]

In [None]:
#goleadores_x_edicion = pd.read_csv("goleadores_x_edicion.csv")

In [None]:
#goleadores_x_edicion.to_csv("goleadores_x_edicion.csv")

In [None]:
goleadores_x_edicion.tail()

# Desafío 5

> Queremos saber cuándo el goleador del torneo pertenece a la selección campeona

¿Podemos obtener este dato trabajando con la tabla de goleadores?


In [None]:
goleadores_x_edicion

En este dataframe sólo tenemos el año del torneo, no el país que fue sede.  Para esto, podemos agregar la sede (el país) en la tabla de goleadores. 

Esto implica **unir** dos dataframes podemos usarel método [merge](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.htm).


In [None]:
ediciones_recortada = ediciones[["Año", "Campeón"]]

In [None]:
ediciones_recortada

Hagamos el siguiente cambio:

In [None]:
ediciones_recortada.columns = ["Edición", "Campeón"]

In [None]:
ediciones_recortada.columns

¿Por qué creen que cambiamos el nombre de la columna?

In [None]:
goleadores_completa = pd.merge(goleadores_x_edicion, ediciones_recortada, on='Edición')
goleadores_completa

Y ahora si, obtenemos el dato pedido: goleadores del torneo pertenecientes a la selección sede.

¿La siguiente consulta resuelve nuestro problema?

In [None]:
goleadores_completa[goleadores_completa["Campeón"] == goleadores_completa["Selección"]]

No es correcta, ya que hay ediciones donde hay más de un goleador de distintas selecciones.

Una solución podría ser:

In [None]:
goleadores_completa[goleadores_completa.apply(lambda x: x["Campeón"] in x["Selección"], axis="columns")].tail()

# ¿apply?


- El método [apply](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html) permite aplicar una función a uno de los ejes del dataFrame. 

- Los objetos pasados a la función son objetos de la fila (axis=0 o index) o columna (axis=1 o column) dependiendo del eje con el que estemos trabajando. 


En nuestro caso: ¿qué función aplicamos? ¿A qué objetos?

# Seguimos con la Copa América

## Veamos la tabla histórica

In [None]:
tabla_h = result[4]

In [None]:
#tabla_h.to_csv("tabla_h.csv")

In [None]:
#tabla_h.read_csv("tabla_h.csv")

In [None]:
tabla_h

In [None]:
tabla_h.info()

Vemos que pandas reconoció las columnas cuyos valores son números y los convirtió automáticamente.   Por lo tanto, podríamos sumar sus valores sin necesidad de convertir.

Por ejemplo: si queremos saber cuántos torneos hubo:

In [None]:
tabla_h["Títulos"].sum()

O la cantidad de goles en todos los torneos:


In [None]:
tabla_h.sum()

- ¿Qué hizo **sum**?
¿Qué pasó con las columnas Equipo y  Dif.?

# ¿Cuáles son los países con más diferencia de goles a favor - goles en contra?

¿El siguiente código es una posible solución?

In [None]:
tabla_h.sort_values("Dif.")

# Una posible solución ...

In [None]:
tabla_h["Dif_en_num"] = tabla_h["Dif."].apply(lambda x: int(x[1:]) if x[0]=="+" else (-1)*int(x[1:]))

**IMPORTANTE:** acabamos de crear una nueva columna.

In [None]:
tabla_h

In [None]:
tabla_h.sort_values("Dif_en_num", ascending=False)

En la clase de 2022, vimos que había un problema en la conversión a **int**. Esto no tiene que ver con Python ni pandas sino con una codificación del signo "-" en la Wikipedia. Acá hay una solución alternativa (¡gracias Daniel!).

In [None]:
tabla_h["Dif_correcta"] = tabla_h["Dif."].apply(lambda x: x.replace('–','-'))
tabla_h["Dif_correcta"] = tabla_h["Dif_correcta"].apply(lambda x: int(x))
tabla_h

In [None]:
goles_x_equipo = tabla_h.sort_values("Dif_en_num", ascending=False)[["Equipo", "Dif_en_num"]]

In [None]:
goles_x_equipo

# Y ahora... Argentina vs Brasil :)

## Goles argentinos vs. brasileros

Retomamos la tabla de goleadores...

In [None]:
goleadores_completa.head()

In [None]:
gol_argentinos = goleadores_completa[goleadores_completa["Selección"].str.contains("Argentina")]
gol_argentinos["Goles"].sum()

In [None]:
gol_brasileros = goleadores_completa[goleadores_completa["Selección"].str.contains("Brasil")]
gol_brasileros["Goles"].sum()

In [None]:
from matplotlib import pyplot as plt

In [None]:
etiquetas = ["Argentina", "Brasil"]

#data_dibujo = [len(gol_argentinos),len(gol_brasileros) ]
data_dibujo = [gol_argentinos["Goles"].sum(), gol_brasileros["Goles"].sum()]
explode = (0.1, 0)

plt.pie(data_dibujo, explode=explode, labels=etiquetas, autopct='%1.2f%%',
        shadow=True, startangle=90, labeldistance= 1.1)

#plt.axis('auto')    #ver https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.axis.html
plt.axis('equal') 

plt.legend(etiquetas)

plt.title("Esaaaaa!!!!")
plt.show()

# Tipos de gráficos

- https://matplotlib.org/stable/plot_types/index.html
- https://www.python-graph-gallery.com/


Usando matplotlibe, puede ver muchos ejemplos en:

- https://matplotlib.org/stable/gallery/index.html





# Con esto finalizamos el trabajo con la Copa América 