## 💻ETL para Movies Dataset 🎥
En el siguiente notebook se presentan las transformaciones requeridas para obtener un dataset limpio y confiable el cual va ser cargado a un modelo de recomendación.


### Importación librerias 📜

Las librerias importadas son las necesarias para realizar con exito el proceso ETL, algunas librerias se eligen debido a las caracteristicas del dataset, por ejemplo el modulo **literal_eval** de la libreria **ast** se usa debido a que los datos de algunas columnas vienen como string pero en realidad representan una estructura de datos más compleja como un dict o un list.

In [19]:
# Importación de librerías requeridas.
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
from ast import literal_eval # Importamos este modulo para convertir String a Dict y a List.

Ahora leemos los datos desde un archivo CSV usando el metodo read_csv que provee pandas. En este paso hay que tener cuidado con la ruta donde se encuentra almacenado el archivos csv, para este caso accedemos de forma local.

In [52]:
# Usando la función read_csv de Pandas leemos y almacenamos movies_dataset como un dataframe con el nombre movies_data.
movies_data = pd.read_csv('../datasets/movies_dataset.csv', low_memory=False)

Previsualizamos las 5 primeras filas del dataframe así cómo las 5 últimas.

In [None]:
# Con la ayuda del metodo head echamos un vistazo preeliminar al dataframe creado.
movies_data.head()

In [None]:
# Con la ayuda del metodo tail echamos un vistazo preeliminar al dataframe creado.
movies_data.tail()

### Desanidando 🪹

Se procede a desanidar los campos de las columnas 'belongs_to_collection', 'genres', 'production_companies', 'production_countries' y 'spoken_languages'. El metodo usado es el resultado de varios pruebas realizadas con anterioridad para determinar cual es el mejor, inicialmente durante la exploración preeliminar se evidencia que los datos anidados vienen en tipo **str** y con el modulo **literal_eval** de la libreria **ast** se logra convertir a la forma ya sea **dict** o **list**, posteriormente se procede a desanidar y almacenar en dataframes independientes usando el modulo **json_normalize** de Pandas, este metodo se elige ya que se debe cumplir con rapidez con la tarea asignada y no vamos a reinventar la rueda, simplemente usamos lo que ya existe.

In [None]:
# Imprimimos un campo para cada columna que dice el diccionario de datos que están anidados para visualizar su estructura, luego imprimimos el typo de dato para evidenciar cómo viene formateado.
print(movies_data['belongs_to_collection'][2])
print(movies_data['genres'][2])
print(movies_data['production_companies'][2])
print(movies_data['production_countries'][2])

In [53]:
movies_data['belongs_to_collection'] = movies_data['belongs_to_collection'].apply(lambda x: literal_eval(x) if pd.notna(x) else float('nan'))

In [None]:
movies_data['belongs_to_collection'].info()

In [None]:
movies_data['belongs_to_collection'].head()