# Seminario de Lenguajes - Python
## Cursada 2023
### Clase 11: analizamos películas


El material de esta clase fue desarrollado en el marco del proyecto **"Ciencia de Datos en la escuela"**.

Se puede descargar desde https://ciencia_datos_escuela.gitlab.io/, donde también hay más ejemplos. 

Vamos a mostrar otra herramienta para graficar: [plotly](https://plotly.com/python/)



Vamos a trabajar con:
- https://www.kaggle.com/datasets/shivamb/netflix-shows

## Preparando el dataset de Netflix
<a name= preparando-el-dataset-de-netflix ></a>


In [None]:
import pandas as pd
import plotly.express as px

In [None]:
netflix_completo = pd.read_csv("netflix_titles.csv")

In [None]:
netflix_completo.columns

In [None]:
netflix_completo.head()

Vemos que hay  filas que tienen valores NaN, lo que significa que no hay un valor, para lo cual usamos el método [dropna](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html) que elimina las filas que contienen este tipo de valores. 

In [None]:
netflix_completo_sin_na = netflix_completo.dropna()

In [None]:
netflix_completo_sin_na.head()

# Desafío 1

> ¿Cuál es la cantidad de películas y/o series estrenadas por año, que contiene la plataforma Netflix?

In [None]:
contenido_por_anio = netflix_completo[["show_id","type","release_year"]]
contenido_por_anio.head()

Podemos agrupar por año de estreno y tipo (si es Película o show de TV) y contar la cantidad de elementos en cada subgrupo con **count**.

In [None]:
contenido_por_anio = contenido_por_anio.groupby(["release_year","type"])["show_id"].count()
contenido_por_anio.head(10)

# Graficando con matplotlib

In [None]:
contenido_por_anio.plot(figsize=(10,10), xlabel="Año de estreno", ylabel="Cantidad de estrenos", marker="o")

# Graficando con Plotly

En el caso de Plotly, usamos **plotly express**, una versión simplificada, muy parecida a matplotLib pero nos permite tener **gráficos interactivos**.

In [None]:
fig= px.line(contenido_por_anio)
fig.show()

# ¿Qué pasó?

"**TypeError:** Data frame index is a pandas MultiIndex. **pandas MultiIndex is not supported** by plotly express at the moment."


La operación de agrupamiento genera un dataframe con más de un índice y esto no es soportado por plotly express.

Usamos el método [unstack](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.unstack.html)  que retorna un nuevo dataframe con nuevos índice: ¿cuáles?

In [None]:
contenido_por_anio = contenido_por_anio.unstack()
contenido_por_anio.head()

# Esto genera un nuevo problema

Hay valores NaN en aquellas interecciones que no faltan datos. 

Por lo tando, podemos usar [fillna](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html) con el valor 0,  para indicar qué valores NaN o null deben ser llenados con 0.

In [None]:
contenido_por_anio = contenido_por_anio.fillna(0)
contenido_por_anio.head()

# Ahora si podemos graficar

In [None]:
fig= px.line(contenido_por_anio)
fig.show()

# Seguimos la próxima ...