In [2]:
# Importamos las librerias que usaremos
!pip install pandas
import pandas as pd
import sqlalchemy as db
from sqlalchemy import text



In [3]:
# Creamos el engine y la conexión a la BD. Aunque el engine puede emplearse directamente en consultas 
# read_sql, la conexión se crea para tener un mayor manejo de la misma. Cuando se emplea engine, la conexión
# se abre y cierra automáticamente. En cambio, con read_sql, el cierre es manual (se debe especificar con un
# query luego del read_sql).
engine = db.create_engine("mysql://root:root@127.0.0.1:3310/db_movies_netflix_transact")
conn = engine.connect()

# Cargamos datos a la dimension Movie

In [4]:
# Armamos la consulta para seleccionar 6 campos de 4 entidades (tablas) diferentes.
query = """
SELECT 
    movie.movieID as movieID, movie.movieTitle as title, movie.releaseDate as releaseDate, 
    gender.name as gender , person.name as participantName, participant.participantRole as roleparticipant 
FROM movie 
INNER JOIN participant 
ON movie.movieID=participant.movieID
INNER JOIN person
ON person.personID = participant.personID
INNER JOIN movie_gender 
ON movie.movieID = movie_gender.movieID
INNER JOIN gender 
ON movie_gender.genderID = gender.genderID
"""

In [5]:
# Con readsql corremos el query en la BD a la que nos conectamos con conn.
movies_data=pd.read_sql(query, conn) 
# Especificamos que el campo movieID es entero.
movies_data["movieID"]=movies_data["movieID"].astype('int')
movies_data

Unnamed: 0,movieID,title,releaseDate,gender,participantName,roleparticipant
0,80192187,Triple Frontier,2019-04-12,Action,Joseph Chavez Pineda,Actor
1,80210920,The Mother,2023-01-05,Drama,Maria Alejandra Navarro,Actor
2,81157374,Run,2021-05-21,Adventure,aria Lopez Gutierrez,Director


In [6]:
# Leemos el archivo csv con la función read_csv 
movies_award=pd.read_csv("./data/Awards_movie.csv")
# Especificamos que los datos de la columna movieID son enteros con el método astype
movies_award["movieID"]=movies_award["movieID"].astype('int')
# Cambiamos el nombre de la columna "Aware" por "Award" con el método rename y especificamos que el cambio
# se realice sobre el dataframe original con el parámetro inplace y argumento True.
movies_award.rename(columns={"Aware":"Award"}, inplace=True)
movies_award

Unnamed: 0,movieID,IdAward,Award
0,80210920,0,Oscar
1,81157374,1,Grammy
2,80192187,2,Oscar


In [7]:
# Unimos las tablas movies_data y movies_award empleando la función merge y los especificando el argumento
# "movieID" en los parámetros left_on y right_on
movie_data=pd.merge(movies_data,movies_award, left_on="movieID", right_on="movieID")
movie_data

Unnamed: 0,movieID,title,releaseDate,gender,participantName,roleparticipant,IdAward,Award
0,80192187,Triple Frontier,2019-04-12,Action,Joseph Chavez Pineda,Actor,2,Oscar
1,80210920,The Mother,2023-01-05,Drama,Maria Alejandra Navarro,Actor,0,Oscar
2,81157374,Run,2021-05-21,Adventure,aria Lopez Gutierrez,Director,1,Grammy


In [8]:
# Creamos el engine y la conexión a la BD "dw_netflix" que es donde colocaremos los datos del CSV y la
# BD "db_movies_netflix_transact".
engine = db.create_engine("mysql://root:root@127.0.0.1:3310/dw_netflix")
conn = engine.connect()

In [9]:
# Cambiamos los nombres de las columnas releaseDate y award del dataframe movie_data con el método rename
movie_data = movie_data.rename(columns={'releaseDate': 'releaseMovie', 'Award': 'awardMovie'})

In [10]:
# Eliminamos la columna IdAward del dataframe movie_data con el método drop
movie_data = movie_data.drop(columns=['IdAward'])

In [11]:
movie_data.head()

Unnamed: 0,movieID,title,releaseMovie,gender,participantName,roleparticipant,awardMovie
0,80192187,Triple Frontier,2019-04-12,Action,Joseph Chavez Pineda,Actor,Oscar
1,80210920,The Mother,2023-01-05,Drama,Maria Alejandra Navarro,Actor,Oscar
2,81157374,Run,2021-05-21,Adventure,aria Lopez Gutierrez,Director,Grammy


In [12]:
# Con el método to_sql pasamos los datos del dataframe movie_data a la tabla dimMovie de la BD dw_netflix
# establecida en la conexión conn. En caso exista una tabla dimMovie, añadimos los datos de movie_data (sin)
# considerar la columna del índice.
movie_data.to_sql('dimMovie',conn,if_exists='append', index=False)

3

In [13]:
# Verificamos que los datos se hayan trasladado. Para esto, leemos la tabla dimMovie empleando el método
# read_sql.
pd.read_sql('dimMovie', con=conn)

Unnamed: 0,movieID,title,releaseMovie,gender,participantName,roleparticipant,awardMovie
0,80192187,Triple Frontier,2019-04-12,Action,Joseph Chavez Pineda,Actor,Oscar
1,80210920,The Mother,2023-01-05,Drama,Maria Alejandra Navarro,Actor,Oscar
2,81157374,Run,2021-05-21,Adventure,aria Lopez Gutierrez,Director,Grammy


# Cargamos datos a la dimension USER

In [14]:
# Leemos y escribimos los datos del archivo csv user.csv en el dataframe users. Especificamos que el
# separador es |.
users = pd.read_csv("./data/users.csv", sep='|')
users

Unnamed: 0,idUser,username,country,subscription
0,1002331,user123,USA,Premium
1,1002332,gamerGirl97,Canada,Basic
2,1002333,techMaster,UK,Premium
3,1002334,soccerFan,Brazil,Basic
4,1002335,travelBug,Australia,Premium
5,1002336,musicLover,France,Basic
6,1002337,foodie88,Italy,Premium
7,1002338,bookWorm23,Germany,Basic
8,1002339,fitnessJunk,Mexico,Premium
9,10023310,movieBuff,Japan,Basic


In [15]:
# Renombramos la columna idUser del dataframe users, y guardamos los cambios en el dataframe en mención.
users = users.rename(columns={'idUser': 'userID'})
users

Unnamed: 0,userID,username,country,subscription
0,1002331,user123,USA,Premium
1,1002332,gamerGirl97,Canada,Basic
2,1002333,techMaster,UK,Premium
3,1002334,soccerFan,Brazil,Basic
4,1002335,travelBug,Australia,Premium
5,1002336,musicLover,France,Basic
6,1002337,foodie88,Italy,Premium
7,1002338,bookWorm23,Germany,Basic
8,1002339,fitnessJunk,Mexico,Premium
9,10023310,movieBuff,Japan,Basic


In [16]:
# Mediante el método to_sql escribimos los datos del dataframe users en la tabla dimUser de la BD dw_netflix
# establecida en la conexión conn. En caso exista la tabla en mención, los datos se añaden a los existentes.
# No se escribe el índice del dataframe.
users.to_sql('dimUser',conn,if_exists='append', index=False)

20

# Cargamos datos a la tabla de hechos

In [17]:
# Creamos los dataframes users_id y movies_id que contienen respectivamente los datos de la columna userID
# del dataframe users y de la columna movieID del dataframe movies_data.
users_id=users["userID"]
movies_id=movies_data["movieID"]

In [18]:
# Unimos dataframes creados empleando una unión de tipo cross empleando la función merge. Los datos
# producidos se guardan en un nuevo dataframe llamado watchs_data.
watchs_data=pd.merge(users_id,movies_id, how="cross")
watchs_data

Unnamed: 0,userID,movieID
0,1002331,80192187
1,1002331,80210920
2,1002331,81157374
3,1002332,80192187
4,1002332,80210920
5,1002332,81157374
6,1002333,80192187
7,1002333,80210920
8,1002333,81157374
9,1002334,80192187


In [19]:
# Importamos los módulos random y datetime. En el módulo datetime, importamos las clases datetime y
# timedelta a fin de nombrarlas sin necesidad de mencionar primero el módulo.
import random
from datetime import datetime, timedelta
import random

# Creamos la función gen_rating
def gen_rating():
    # Generar un número aleatorio entre 0 y 5 con 1 solo decimal
    numero_aleatorio = round(random.uniform(0, 5), 1)
    # Mostrar el número aleatorio
    return numero_aleatorio

#Creamos la función gen_timestamp para generar un timestamp aleatorio dentro de un rango específico
def gen_timestamp():
    # Creamos las variables que contienen la fecha de inicio y término de nuestro rango.
    start_date = datetime(2024, 1, 15)
    end_date = datetime(2024, 4, 6)

    # Calcular un timestamp aleatorio a partir de la suma entre la fecha de inicio y una cantidad aleatoria de segundos transcurridos entre start_date y una fecha dentro del rango.
    random_date = start_date + timedelta(seconds=random.randint(0, int((end_date - start_date).total_seconds())))

    # Mostrar el timestamp aleatorio
    return random_date

In [20]:
# Para cada registro de la columna movieID del df watchs_data, la función lambda genera un rating aleatorio
# con ayuda de la función gen_rating(). Los datos se almacenan en la columna rating del df watchs_data.
watchs_data["rating"]=watchs_data["movieID"].apply(lambda x: gen_rating())
# Para cada registro de la columna userID del df watchs_data, la función lambda genera un timestamp aleatorio
# con ayuda de la función gen_timestamp(). Los datos se almacenan en la columna timestamp del df watchs_data.
watchs_data["timestamp"]=watchs_data["userID"].apply(lambda x: gen_timestamp())

In [21]:
# Verificamos los cambios aplicados en el df watchs_data
watchs_data

Unnamed: 0,userID,movieID,rating,timestamp
0,1002331,80192187,4.7,2024-01-29 06:34:21
1,1002331,80210920,3.2,2024-01-17 00:42:21
2,1002331,81157374,1.7,2024-02-11 00:17:05
3,1002332,80192187,2.0,2024-02-07 09:39:32
4,1002332,80210920,3.6,2024-02-10 09:56:54
5,1002332,81157374,5.0,2024-02-06 13:41:17
6,1002333,80192187,3.7,2024-03-08 21:28:20
7,1002333,80210920,1.3,2024-01-27 10:56:30
8,1002333,81157374,0.8,2024-04-03 06:45:17
9,1002334,80192187,4.0,2024-03-23 07:06:12


In [22]:
# Mediante el método to_sql escribimos los datos del dataframe watchs_data en la tabla FactWatchs de la BD 
# dw_netflix establecida en la conexión conn. En caso exista la tabla en mención, los datos se añaden a los 
# existentes. No se escribe el índice del dataframe.
watchs_data.to_sql("FactWatchs", conn, if_exists='append', index=False)

60

In [23]:
### SET FOREIGN_KEY_CHECKS = 0;
### SET FOREIGN_KEY_CHECKS = 1;

