# Seminario de Lenguajes - Python
## Cursaa 2022
### Introducción al análisis de datos

# Ciencia de datos:

<h2 style="text-align:center;">En pocas palabras: se refiere al análisis de datos aplicando  técnicas de programación.</h3>
<center>
<img src="imagenes/analisis_de_datos.png" alt="analisis de datos" style="width:750px;"/>
</center>

Sacado de [Ciencia de Datos para Gente Sociable](https://bitsandbricks.github.io/ciencia_de_datos_gente_sociable/index.html), aunque trabaja con lenguaje R la introducción es un buen punto de partida.

# Análisis de datos

- Algo muy básico hicimos cuando procesamos datasets en formato csv.
- Ahora veremos una de las librerías más utilizadas en Python: [pandas](https://pandas.pydata.org/)
- Vamos a graficar resultados con [matplotlib](https://matplotlib.org/)


# pandas y matplotlib

- Se instalan con pip.
- Hay muchos ejemplos con Jupyter lab / Jupyter notebook.


# Recordemos este ejemplo 



In [None]:
import csv
import os

archivo_netflix = os.path.join(os.getcwd(), "archivos", "netflix_titles.csv")
data_set = open(archivo_netflix, encoding='utf-8')

In [None]:
reader = csv.reader(data_set, delimiter=',')
shows_ar = filter(lambda x:  x[5] == "Argentina" and x[1] == "TV Show", reader)

for elem in shows_ar:
    print(f"{elem[2]:<40} {elem[3]}")

# Ahora vamos a usar pandas

In [None]:
import pandas as pd

data_set = pd.read_csv(archivo_netflix, encoding='utf-8')

In [None]:
data_set

# ¿De qué tipo de datos es data_set?

In [None]:
type(data_set)

- Un **dataframe** es una de las estructuras más importantes con las que trabaja pandas. 
- Es una **"estructura tabular bidimensional, de tamaño mutable y potencialmente heterogénea"**.

- Un dataframe contiene:
    - datos: organizados en filas y columnas
    - labels: asociados a las filas y a las columnas
- En nuestro ejemplo: ¿cuáles son los datos? ¿Y los labels?

# Algunas operaciones sencillas

¿Cuántas filas?

In [None]:
len(data_set)

¿Cuántas filas y columnas?

In [None]:
data_set.shape

# ¿Cuáles son las columnas?

In [None]:
data_set.columns

# Queremos saber los tipos de contenidos que hay en el data set de Netflix

- Deberíamos filtrar por la columna **"type"**.

In [None]:
data_set["type"]
#data_set.type

# ¿Y si queremos que no aparezcan valores repetidos?

In [None]:
data_set["type"].unique()

# Podemos profundizar un poquito más, y ver cuántos contenidos hay de cada tipo:

In [None]:
data_set["type"].value_counts()

# ¿De qué tipo son las columnas?

In [None]:
columna = data_set["type"]

In [None]:
type(columna)

# Series

- Es la otra estructura de datos básica  con las que trabaja pandas.
- **Poseen un índice que se define implícitamente**. Este índice implícito indica la **posición del elemento en la Serie**.

In [None]:
print(columna[1])

- También es posible definir un índice de otro tipo.

In [None]:
# Top 3 de TIOBE: https://www.tiobe.com/tiobe-index/
top_3 = pd.Series(
       [13.92, 12.71, 10.82],
       index=["Python", "C", "Java"]
       )
top_3

In [None]:
top_3["Python"]

# Otras formas de crear un DataFrame
Fuente de los datos: https://es.wikipedia.org/wiki/Anexo:R%C3%A9cords_del_ATP_World_Tour

In [None]:
datos = {
        'tenista': ['Novak Djokovic', 'Rafael Nadal', 'Roger Federer', 'Ivan Lendl', 'Pete Sampras', 'John McEnroe', 'Bjorn Borg'],
        'pais': ['Serbia', 'España', 'Suiza', 'República Checa','Estados Unidos', 'Estados Unidos', 'Suecia'],
        'gran_slam': [20, 21, 20, 8, 14, 7, 11],
        'master_1000': [37, 36, 28, 22, 11, 19, 15],
        'otros': [5, 1, 6, 5, 5, 3, 2]
         }
labels_filas = ["H01", "H02", "H03", "H04", "H05", "H06", "H07"]

In [None]:
df = pd.DataFrame(data=datos, index=labels_filas)

In [None]:
df

In [None]:
tenistas = df["tenista"]
tenistas

<img src="imagenes/basicos_pandas.png" alt="analisis de datos" style="width:750px;"/>


# Podemos acceder a una fila del dataframe

In [None]:
fila = df.loc["H03"]
fila

¿De qué tipo es fila?

In [None]:
type(fila)

<img src="imagenes/basicos_pandas1.png" alt="analisis de datos" style="width:750px;"/>

In [None]:
print(fila["tenista"])

# Queremos ver  los datos de la  primera fila:

In [None]:
df.iloc[0]
x = df.iloc[0]
x["tenista"]

# O a un conjunto:

In [None]:
# Por filas 
#df.iloc[2:4]
df.loc["H03":"H06"]

In [None]:
# Por columnas
df[["tenista","master_1000"]]

# O a un dato específico:

In [None]:
el_mejor = df.at["H03","tenista"]
el_mejor

# Probar en casa...

In [None]:
# Por filas y columnas
df.iloc[[0, 2],[2, 3]]
#df.iloc[:,[2, 3]]
#df.iloc[[x for x in range(0,len(df)) if x % 2 == 0], [0,1]]
#df.iloc[:,[True, True, False, False, True]]
#df.iloc[lambda x: x.index == "H02", [0,2]]

- Más info en la [documentación oficial](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html#pandas.DataFrame.iloc)

# Queremos saber qué tenistas ganaron más de 20 Gran Slam

In [None]:
df[df["gran_slam"] >= 20]

## ¿Y si queremos sólo a  Roger? 

In [None]:
df[(df["gran_slam"] >= 20) & (df["pais"] == "Suiza")]

# Retomemos el trabajo con nuestro dataset de Netflix

- ¿Cómo obtenemos el resultado que buscábamos? 
    - "Todos los TV Shows de Argentina"    

In [None]:
# Recordemos la estructura del dataset
data_set.columns

# Empecemos por filtrar los programas catalogados como "TV Show"

In [None]:
tv_shows = data_set[data_set["type"] == "TV Show"]
tv_shows

# Ahora agregamos  la otra condición: que sean de Argentina

In [None]:
tv_shows_ar = tv_shows[tv_shows["country"] == "Argentina"]
tv_shows_ar["title"]

# O podemos hacerlo todo junto

In [None]:
tv_shows_ar = data_set[(data_set["type"] == "TV Show") &  (data_set["country"] == "Argentina")]
tv_shows_ar["title"]

# Podemos guardar el dataframe en archivos

In [None]:
# En formato csv
tv_shows_ar.to_csv("ShowsAR.csv")

In [None]:
# En formato json
tv_shows_ar.to_json("ShowsAR.json")

# Algunas cosas más interesantes

- Queremos saber cuántos títulos hay por tipo y año:

In [None]:
data_set.groupby(["type", "release_year"])["title"].count()

O también: 

In [None]:
data_set.groupby(["type", "release_year"]).size()

# ¿Cuántos de tipo Movie?

In [None]:
grupos = data_set.groupby(["type", "release_year"]).size()
len(grupos["Movie"])

# Y si queremos saber los 10 años con más títulos en el dataset?

## Primero vamos a agrupar por año:

In [None]:
cantidad_por_año = data_set.groupby(["release_year"]).size()

In [None]:
cantidad_por_año

¿Cómo obtengo la cantidad de títulos de 2021?

In [None]:
cantidad_por_año[2021]

# Y, ¿cómo podemos obtener los 10 años con más títulos publicados?

In [None]:
cantidad_por_año.sort_values(ascending=False).head(10)

In [None]:
cantidad_por_año.sort_values().tail(10)

# Y ahora graficamos

In [None]:
top10 = cantidad_por_año.sort_values(ascending=False).head(10)
top10

In [None]:
top10.plot(kind="bar")

# Usamos matplotlib

In [None]:
from matplotlib import pyplot as plt
%matplotlib inline

# Un poco más detallado

In [None]:
titulos_x_tipo = data_set.groupby(["type"]).size()
#titulos_x_tipo

In [None]:
etiquetas = ["Movies", "TV Shows"]
cantidad_peliculas = titulos_x_tipo["Movie"]
cantidad_shows = titulos_x_tipo["TV Show"]

data_dibujo = [cantidad_peliculas, cantidad_shows]
explode = (0.1, 0)

plt.pie(data_dibujo, explode=explode, labels=etiquetas, autopct='%1.2f%%',
        shadow=True, startangle=120, labeldistance= 1.2)
plt.axis('equal') 
plt.legend(etiquetas)

plt.title("Cantidad de contenidos por año")
plt.show()

# ¿Cómo podemos guardar el gráfico en un png?

In [None]:
plt.savefig('grafico.png', format="png")

- Revisemos: ¿se grabó bien?

In [None]:
plt.pie(data_dibujo, explode=explode, labels=etiquetas, autopct='%1.1f%%',
        shadow=True, startangle=90, labeldistance= 1.1)
plt.axis('equal') 
plt.legend(etiquetas)

plt.title("Cantidad de contenidos por año")
plt.savefig('grafico.png', format="png")

plt.show()

# Resumimos hasta acá

- pandas me permite acceder y procesar datasets.
- Las dos estructuras más importantes: Series y DataFrame.
- Si bien podemos realizar algunos gráficos con pandas, matplotlib nos permite visualizar gráficos más complejos.

# Podemos obtener el dataframe desde tablas de HTML

Vamos a analizar los mundiales de futbol. 

In [None]:
url = "https://es.wikipedia.org/wiki/Copa_Mundial_de_F%C3%BAtbol"
result = pd.read_html(url)

La función **read_html** lee las tablas HTML  y retorna una list de dataframes.

Para leer  documentos HTML hay varias opciones: 
- Con pandas, con la función read_html,
- También hay otras librerías tales como [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/)

En todos los casos, se requiere instalar un parser HTML. En nuestro caso estoy usando [lxml](https://lxml.de/) que se instala con pip.

In [None]:
type(result)

Podemos explorar los dataframes leidos.
La tabla general con la información de los torneos se encuentra en **result[1]**.

### Observemos cómo está compuesto el dataframe. ¿Cuáles son los nombres de las columnas? ¿Todas tienen valores válidos?

In [None]:
result[1]

# ¿Cómo sabemos cuántas tablas se leyeron?

In [None]:
len(result)

# Buscamos la tabla con el resumen de las mundiales

In [None]:
ediciones = result[1]
ediciones.columns

# Una primera depuración

- Si analizamos los datos, vemos que hay columnas con valor **NaN**. 
- Con este valor indicamos que el valor no está o es nulo.
- Vamos a eliminar estas columnas: ¿cuáles son las columnas que deberíamos eliminar?

In [None]:
ediciones = ediciones.drop([2, 6], axis='columns')

In [None]:
ediciones

# Obervemos los nombres de las columnas

¿dónde se encuentran realmente los nombres de las columnas?

In [None]:
ediciones.iloc[0]

# Renombremos entonces las columnas

In [None]:
ediciones.columns = ediciones.iloc[0]

In [None]:
ediciones

# Ahora queremos eliminar esa primera fila

In [None]:
ediciones = ediciones[1:]

In [None]:
ediciones

#  Obervemos nuevamente los datos

Hay algunas filas que deberíamos eliminar también.

In [None]:
ediciones = ediciones.drop([4, 5, 24, 25], axis="rows")
ediciones

# Ahora si, vamos a realizar algunas consultas

## Desafío 1: países organizadores que salieron campeones

In [None]:
campeones_organizadores = ediciones[ediciones["Sede"] == ediciones["Campeón"]]
campeones_organizadores

## Desafío 2: los 5 países que más veces salieron campeones

In [None]:
ediciones.groupby("Campeón").size().sort_values(ascending=False).head(5)

# Tarea para el hogar...

## Desafío 3: ¿cómo puedo procesar la tabla de goleadores? Quiero saber qué goleadores hicieron más de 5 goles.

# Seguimos el próximo martes