# Proyecto Individual 01 de Henry por Guillermo Fernandez

#### Importar librerías necesarias

In [2]:
# Librería para trabajar con los datasets
import pandas as pd
import numpy as np

# Módulo para trabajar con rutas de archivo
from pathlib import Path

# Librería para identificar encondings
import chardet

# Librería y módulos para cargar datasets en MySQL
import pymysql
from sqlalchemy.engine import create_engine
from urllib.parse import quote_plus as urlquote
from Pass_SQL import contraseña

#### Crear una función para importar los datasets

In [3]:
def upload(filepath):
    with open(filepath, 'rb') as file:
        result = chardet.detect(file.read())
        # Para importar archivos csv, detectando encoding
        if Path(filepath).suffix == ".csv": 
            DF = pd.read_csv(filepath, encoding=result['encoding'])
        # Para importar archivos json
        elif Path(filepath).suffix == ".json": 
            DF = pd.read_json(filepath) 
    return DF

#### Cargar los datasets y explorarlos (EDA)

##### Comenzar con amazon

In [4]:
# Cargamos el dataset
amazon_df = upload(r'C:\Users\eugen\Documents\Guille\Bootcamp\PI01_API_Docker\Datasets\amazon_prime_titles.csv')

In [5]:
# Tomamos una fila al azar para analizarlo
amazon_df.sample(1)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
9573,s9574,Movie,The Shadow,Juan Antonio Chavero Briones,"Rafa Blanes, Silvia Navarro, Carla Córdoba",,,2021,16+,114 min,"Science Fiction, Suspense",Juan and Lucía are two survivors in a post-apo...


In [6]:
# Eliminamos los datos duplicados
amazon_df.drop_duplicates();

In [7]:
# Evaluamos información del dataset, como Dtype y nulos
amazon_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9668 entries, 0 to 9667
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       9668 non-null   object
 1   type          9668 non-null   object
 2   title         9668 non-null   object
 3   director      7586 non-null   object
 4   cast          8435 non-null   object
 5   country       672 non-null    object
 6   date_added    155 non-null    object
 7   release_year  9668 non-null   int64 
 8   rating        9331 non-null   object
 9   duration      9668 non-null   object
 10  listed_in     9668 non-null   object
 11  description   9668 non-null   object
dtypes: int64(1), object(11)
memory usage: 906.5+ KB


##### Seguir con Disney

In [8]:
# Realizamos los mismos pasos que en amazon
disney_df = upload(r'C:\Users\eugen\Documents\Guille\Bootcamp\PI01_API_Docker\Datasets\disney_plus_titles.csv')

In [9]:
disney_df.drop_duplicates();

In [10]:
disney_df.sample(1)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
1328,s1329,Movie,The Rescuers Down Under,"Hendel Butoy, Mike Gabriel","Bob Newhart, Eva Gabor, John Candy, Tristan Ro...",United States,"November 12, 2019",1990,G,78 min,"Action-Adventure, Animation, Family",Bernard and Bianca race to Australia to save a...


In [11]:
disney_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1450 entries, 0 to 1449
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       1450 non-null   object
 1   type          1450 non-null   object
 2   title         1450 non-null   object
 3   director      977 non-null    object
 4   cast          1260 non-null   object
 5   country       1231 non-null   object
 6   date_added    1447 non-null   object
 7   release_year  1450 non-null   int64 
 8   rating        1447 non-null   object
 9   duration      1450 non-null   object
 10  listed_in     1450 non-null   object
 11  description   1450 non-null   object
dtypes: int64(1), object(11)
memory usage: 136.1+ KB


##### Seguir con Hulu

In [12]:
# Nuevamente, con Hulu
hulu_df = upload(r'C:\Users\eugen\Documents\Guille\Bootcamp\PI01_API_Docker\Datasets\hulu_titles.csv')

In [13]:
hulu_df.sample(1)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
1140,s1141,Movie,Rebuilding Paradise,,,United States,"December 2, 2020",2020,TV-14,88 min,Documentaries,Ron Howard’s Rebuilding Paradise follows the P...


In [14]:
hulu_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3073 entries, 0 to 3072
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   show_id       3073 non-null   object 
 1   type          3073 non-null   object 
 2   title         3073 non-null   object 
 3   director      3 non-null      object 
 4   cast          0 non-null      float64
 5   country       1620 non-null   object 
 6   date_added    3045 non-null   object 
 7   release_year  3073 non-null   int64  
 8   rating        2553 non-null   object 
 9   duration      2594 non-null   object 
 10  listed_in     3073 non-null   object 
 11  description   3069 non-null   object 
dtypes: float64(1), int64(1), object(10)
memory usage: 288.2+ KB


##### Por último, cargar Netflix

In [15]:
# Finalizamos con Netflix
netflix_df = upload(r'C:\Users\eugen\Documents\Guille\Bootcamp\PI01_API_Docker\Datasets\netflix_titles.json')

In [16]:
netflix_df.sample(1)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
6384,s6385,Movie,Bruno and Boots: This Can't Be Happening at Ma...,Vivieno Caldinelli,"Jonny Gray, Callan Potter, Peter Keleghan, Car...",Canada,"June 24, 2017",2017,TV-PG,90 min,"Children & Family Movies, Comedies",The biggest troublemakers at Macdonald Hall ar...


In [17]:
netflix_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   title         8807 non-null   object
 3   director      6173 non-null   object
 4   cast          7982 non-null   object
 5   country       7976 non-null   object
 6   date_added    8797 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8803 non-null   object
 9   duration      8804 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 894.5+ KB


##### Buscamos completar los datos faltantes de algunos datasets, con los datos de otros

In [18]:
# Ponemos el título como índice
amazon_df.set_index('title', drop=True, inplace=True)
disney_df.set_index('title', drop=True, inplace=True)
hulu_df.set_index('title', drop=True, inplace=True)
netflix_df.set_index('title', drop=True, inplace=True)


In [19]:
# Completamos campos nulos que coincidan en el nombre del título
amazon_df.fillna(disney_df, inplace=True)
amazon_df.fillna(hulu_df, inplace=True)
amazon_df.fillna(netflix_df, inplace=True)

disney_df.fillna(amazon_df, inplace=True)
disney_df.fillna(hulu_df, inplace=True)
disney_df.fillna(netflix_df, inplace=True)

hulu_df.fillna(amazon_df, inplace=True)
hulu_df.fillna(disney_df, inplace=True)
hulu_df.fillna(netflix_df, inplace=True)

netflix_df.fillna(amazon_df, inplace=True)
netflix_df.fillna(disney_df, inplace=True)
netflix_df.fillna(hulu_df, inplace=True)

#### Unir los 4 datasets

In [20]:
# Crear una columna con el nombre de la plataforma en cada Dataset
amazon_df['Platform'] = 'Amazon'
disney_df['Platform'] = 'Disney'
hulu_df['Platform'] = 'Hulu'
netflix_df['Platform'] = 'Netflix'

In [21]:
# Crear un dataset que una todos los otros datasets
Platform = [disney_df, hulu_df, netflix_df]
Titles_df = amazon_df
for element in Platform:
    Titles_df = pd.concat([Titles_df, element])
del Platform

In [22]:
# Exploramos el dataset que incluye a todos
Titles_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 22998 entries, The Grand Seduction to Zubaan
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       22998 non-null  object
 1   type          22998 non-null  object
 2   director      15058 non-null  object
 3   cast          18123 non-null  object
 4   country       12078 non-null  object
 5   date_added    14017 non-null  object
 6   release_year  22998 non-null  int64 
 7   rating        22188 non-null  object
 8   duration      22571 non-null  object
 9   listed_in     22998 non-null  object
 10  description   22994 non-null  object
 11  Platform      22998 non-null  object
dtypes: int64(1), object(11)
memory usage: 2.3+ MB


In [23]:
# Reseteamos indices, para evitar errores
Titles_df.reset_index(inplace=True)

#### Realizar una parte del ETL en Python

In [24]:
# Tomamos todas las columnas del Dataset, excepto duration
Columnas = list(Titles_df.columns)
Columnas.remove('duration')
Columnas

['title',
 'show_id',
 'type',
 'director',
 'cast',
 'country',
 'date_added',
 'release_year',
 'rating',
 'listed_in',
 'description',
 'Platform']

In [25]:
# Rellenamos los valores nulos
for _, e in enumerate(Columnas):
    Titles_df[e].fillna("Sin_datos", inplace=True)

In [26]:
# En la columna duration, lo llenamos con ceros
Titles_df.duration.fillna(0, inplace=True)

In [27]:
# Eliminamos espacios al principio y al final de las celdas
Titles_df = Titles_df.apply(lambda x: x.strip() if type(x) == str else x)

#### Realizar la carga de los datos en MySQL

###### Primero debemos crear la Base de Datos, con el archivo ETL_Script.sql

In [None]:
# Utilizamos la conexion al servidor de MySQL para cargar los datasets a la base de datos
str_conexion = 'mysql+pymysql://root:%s@localhost:3306/PI01' % urlquote(contraseña())
conexion = create_engine(str_conexion)

In [None]:
# Cargamos el dataset en una tabla
Titles_df.to_sql(name='title', con=conexion);

In [None]:
# Cargamos los actores en un nuevo dataframe
Actors_df = Titles_df[["title", "cast"]]
# Separamos cada valor
Actors_df.cast = Actors_df.cast.str.split(",")
# Los colocamos en una fila nueva
Actors_df = Actors_df.explode("cast")
# Eliminamos espacios vacíos
Actors_df.cast = Actors_df.cast.str.strip()
# Cargamos el df en una tabla
Actors_df.to_sql(name='actor', con=conexion);

In [None]:
# Cargamos los géneros en un nuevo dataframe
Genre_df = Titles_df[["title", "listed_in"]]
# Separamos cada valor
Genre_df.listed_in = Genre_df.listed_in.str.split(",")
# Los colocamos en una fila nueva
Genre_df = Genre_df.explode("listed_in")
# Eliminamos espacios vacíos
Genre_df.listed_in = Genre_df.listed_in.str.strip()
# Cargamos el df en una tabla
Genre_df.to_sql(name='genre', con=conexion);

###### Ejecutamos las querys del archivo ETL_Script.sql para realizar transformaciones

#### Luego de realizar transformaciones en SQL, cargar la Base de datos limpia

In [None]:
# Cargamos el Dataframe limpio
sql_query = pd.read_sql_query('SELECT * FROM title', conexion)
Titles_df = pd.DataFrame(sql_query);

In [None]:
# Pasamos a CSV para consumirlo con la API
Titles_df.to_csv(r'C:\Users\eugen\Documents\Guille\Bootcamp\PI01_DATA05\Datasets\All_titles.csv', index=False)

Teniendo el CSV limpio, ya está listo para que la API lo cargue y se puedan realizar las consultas