# <h1 align=center>**ETL DE PELÍCULAS Y USUARIOS**</h1>

----------------------------------------------------------------------------------------------------------------------------------------

***I. DATOS DE PELÍCULAS***

1. EXTRACCCIÓN

In [2]:
#Instalamos las Librerías de arranque
import pandas as pd     #Pandas para manejo de Dataframes
import datetime         #datetime para manejo de formatos fecha


In [3]:
# Importamos archivos csv de Títulos de películas divididos por plataforma
amazon = pd.read_csv('Datasets/amazon_prime_titles.csv')    #Cargamos la data de amazon con pandas
disney = pd.read_csv('Datasets/disney_plus_titles.csv')     #Cargamos la data de disney con pandas
hulu = pd.read_csv('Datasets/hulu_titles.csv')              #Cargamos la data de hulu con pandas
netflix = pd.read_csv('Datasets/netflix_titles.csv')        #Cargamos la data de netflix con pandas

2. TRANSFORMACIÓN

In [4]:
#Generar nuevo campo id (la primera letra del nombre de la plataforma, seguido del show_id)
amazon['id'] ='a'+ amazon['show_id'].astype(str)        #Concatenamos la letra incial 'a' de la plataforma y el 'show_id'
disney['id'] ='d'+ disney['show_id'].astype(str)        #Concatenamos la letra incial 'd' de la plataforma y el 'show_id'
hulu['id'] ='h'+ hulu['show_id'].astype(str)            #Concatenamos la letra incial 'h' de la plataforma y el 'show_id'
netflix['id'] ='n'+ netflix['show_id'].astype(str)      #Concatenamos la letra incial 'n' de la plataforma y el 'show_id'

In [5]:
#Concatenamos los dataframes de películas
plataformas = pd.concat([amazon, disney, hulu, netflix])    #Concatenamos la información de las diferentes plataformas para convertirlas en un solo dataframe

In [6]:
#Revisamos que no exista valores duplicados
duplicados_concatenación=plataformas[plataformas.duplicated()]  #Extraemos los duplicados en el dataframe duplicados_concatenación
duplicados_concatenación.value_counts().sum()                   #Contamos los duplicados

0

In [7]:
#Reemplazamos valores Columna 'rating' en el dataframe Amazon
plataformas['rating'].fillna('G', inplace=True)     #Reemplazamos con un string 'G' los valores Nulos de la Columna 'rating' en el dataframe Amazon

In [8]:
#Cambio de formato a las columna de fecha
plataformas['date_added'] = plataformas['date_added'].str.strip()                                                   #removemos la sangría de la columna 'date_added'
plataformas['date_added'] = pd.to_datetime(plataformas['date_added'], format='%B %d, %Y').dt.strftime('%Y-%m-%d')   #Cambiamos el formato de la columna 'date_added' a '%Y-%m-%d'

In [9]:
#Cambiamos los campos de texto a minúsculas, sin excepciones
plataformas['show_id'] = plataformas['show_id'].str.lower()         #Cambiamos a minúsculas la columna 'show_id'
plataformas['type'] = plataformas['type'].str.lower()               #Cambiamos a minúsculas la columna 'type'
plataformas['title'] = plataformas['title'].str.lower()             #Cambiamos a minúsculas la columna 'title'
plataformas['director'] = plataformas['director'].str.lower()       #Cambiamos a minúsculas la columna 'director'
plataformas['cast'] = plataformas['cast'].str.lower()               #Cambiamos a minúsculas la columna 'cast'
plataformas['country'] = plataformas['country'].str.lower()         #Cambiamos a minúsculas la columna 'country'
plataformas['rating'] = plataformas['rating'].str.lower()           #Cambiamos a minúsculas la columna 'rating'
plataformas['duration'] = plataformas['duration'].str.lower()       #Cambiamos a minúsculas la columna 'duration'
plataformas['listed_in'] = plataformas['listed_in'].str.lower()     #Cambiamos a minúsculas la columna 'listed_in'
plataformas['description'] = plataformas['description'].str.lower() #Cambiamos a minúsculas la columna 'description'
plataformas['id'] = plataformas['id'].str.lower()                   #Cambiamos a minúsculas la columna 'id'

In [10]:
#Separamos la columna 'duration' en 'duration_int' y 'duration_type'
plataformas['duration_int'] = plataformas['duration'].str.extract('(\d+)')          #Construimos la columna 'duration_int' con el segmento entero
plataformas['duration_type'] = plataformas['duration'].str.extract('([A-Za-z]+)')   #Construimos la columna 'duration_int' con el segmento string

In [11]:
#Convertimos la columna 'duration_int' en valores enteros
plataformas['duration_int'] = plataformas['duration_int'].fillna(0)     #Reemplazamos los valores nulos por 0 en la columna 'duration_int'
plataformas['duration_int'] = plataformas['duration_int'].astype(int)   #Cambiamos el tipo de dato de la columna 'duration_int' a entero

In [12]:
#Convertimos la columna 'duration_type' en string
plataformas['duration_type'] = plataformas['duration_type'].fillna(0)   #Reemplazamos los valores nulos por 0 en la columna 'duration_type'
plataformas['duration_type'] = plataformas['duration_type'].astype(str) #Cambiamos el tipo de dato de la columna 'duration_type' a string

In [13]:
#Reemplazamos la terminología en la columna 'duration_type'
plataformas['duration_type'] = plataformas['duration_type'].replace('min', 'minutos')           #Reemplazamos el string 'min'por 'minutos'
plataformas['duration_type'] = plataformas['duration_type'].replace('season', 'temporadas')     #Reemplazamos el string 'season' por 'temporadas'
plataformas['duration_type'] = plataformas['duration_type'].replace('seasons', 'temporadas')    #Reemplazamos el string 'seasons'por 'temporadas'

***II. DATOS DE SCORE SEGÚN ID USUARIO***

1. EXTRACCIÓN

In [14]:
# Importamos archivos csv de los Ratings de películas por usuario
r1 = pd.read_csv('MLOpsReviews/ratings/1.csv')      #Importamos la primera hoja de Ratings 1
r2 = pd.read_csv('MLOpsReviews/ratings/2.csv')      #Importamos la primera hoja de Ratings 2
r3 = pd.read_csv('MLOpsReviews/ratings/3.csv')      #Importamos la primera hoja de Ratings 3
r4 = pd.read_csv('MLOpsReviews/ratings/4.csv')      #Importamos la primera hoja de Ratings 4
r5 = pd.read_csv('MLOpsReviews/ratings/5.csv')      #Importamos la primera hoja de Ratings 5
r6 = pd.read_csv('MLOpsReviews/ratings/6.csv')      #Importamos la primera hoja de Ratings 6
r7 = pd.read_csv('MLOpsReviews/ratings/7.csv')      #Importamos la primera hoja de Ratings 7
r8 = pd.read_csv('MLOpsReviews/ratings/8.csv')      #Importamos la primera hoja de Ratings 8

2. TRANSFORMACIÓN

In [38]:
#Concatenamos la data
rating = pd.concat([r1, r2, r3, r4,r5,r6,r7,r8])    #Concatenamos la información de las diferentes plataformas para convertirlas en un solo dataframe

In [16]:
#Revisamos que no exista valores duplicados
#duplicados_concatenación_rating=rating[rating.duplicated()]  #Extraemos los duplicados en el dataframe duplicados_concatenación de rating
#duplicados_concatenación_rating.value_counts().sum()         #Contamos los duplicados

124

In [39]:
#Renombramos columnas
rating.rename(columns={'rating': 'score'}, inplace=True)    # renombrar la columna 'rating' a 'score'
rating.rename(columns={'movieId': 'id'}, inplace=True)  #renombrar la columna 'movieId' a 'id'

In [40]:
#Cambiamos el formato de la columna 'datetime' a '%Y-%m-%d' y lo guardamos como 'date'
rating['fecha'] = pd.to_datetime(rating['timestamp'], unit='s')             # Convertimos la columna a formato de fecha y hora
rating['date'] = rating['fecha'].dt.strftime('%Y-%m-%d')                    # Formatear la columna en formato AAAA-MM-DD
rating = rating.drop(['timestamp', 'fecha'], axis=1)                        # dropeamos la columna auxiliar y la original

***III. CARGA GLOBAL***

1. CARGA_ETL

In [41]:
#Unimos el dataframe de plataformas y rating
movies = pd.merge(plataformas, rating, on='id')     #Unimos la el dataframe plataformas y rating mediante la columna 'id'

In [22]:
#Exportamos toda la información en .csv
movies.to_csv('movies_ETL.csv')     #Exportamos la información en .csv

2. CARGA_API

In [55]:
# Creamos una nueva columna 'promedio'
rating_auxiliar=rating      # Generamos una copia del dataframe original para no alterar los datos
rating_auxiliar['promedio'] = rating_auxiliar.groupby('id')['score'].transform('mean')  #Sacamos los promedio de la rating basado en la película
rating_API = rating_auxiliar.drop_duplicates(subset='id')   #Eliminamos duplicados basado en la columna ID

In [None]:
#Unimos los dataframes: plataformas y rating_API
movies_API = pd.merge(plataformas, rating_API, on='id') # Concatenamos el dataframe plataforma y el dataframe ratios

In [61]:
#Revisamos las nuevas dimensiones de los dataframes
print(plataformas.shape)   # Medimos las dimensiones del dataframe plataforma
print(rating_API.shape)    # Medimos las dimensiones del dataframe rating_API
print(movies_API.shape)    #Tomamos las dimensiones y lo comparamos con los dataframes anteriores

(22998, 19)

In [62]:
#Exportamos toda la información para la API en .csv
movies_API.to_csv('movies_API.csv')     #Exportamos la información en .csv