## Cargamos las Librerías

In [1]:
import pandas as pd
import sqlalchemy as db
from sqlalchemy import text
import pandas as pd

## Iniciamos la Conexión a "db_movies_netflix_transact"

In [2]:
engine = db.create_engine("mysql://root:root@172.16.5.4:3310/db_movies_netflix_transact")
conn = engine.connect()

## Cargamos datos a la dimension Movie

Escribimos la query para la base de datos.

In [3]:
query = """
SELECT 
    movie.movieID as movieID, movie.movieTitle as title, movie.releaseDate as releaseDate, 
    gender.name as gender , person.name as participantName, participant.participantRole as roleparticipant 
FROM movie 
INNER JOIN participant 
ON movie.movieID=participant.movieID
INNER JOIN person
ON person.personID = participant.personID
INNER JOIN movie_gender 
ON movie.movieID = movie_gender.movieID
INNER JOIN gender 
ON movie_gender.genderID = gender.genderID
"""

Leemos la base de datos utilizando la conexión y la query anteriores.

In [4]:
movies_data=pd.read_sql(query, con=conn) 
movies_data.head()

Unnamed: 0,movieID,title,releaseDate,gender,participantName,roleparticipant
0,80192187,Triple Frontier,2019-04-12,Action,Joseph Chavez Pineda,Actor
1,80210920,The Mother,2023-01-05,Drama,Maria Alejandra Navarro,Actor
2,81157374,Run,2021-05-21,Adventure,aria Lopez Gutierrez,Director


A continuación modificamos el tipo de data de la columna "movieID" a int para facilitar la manipulación de la información.

In [5]:
movies_data["movieID"]=movies_data["movieID"].astype('int')
movies_data.head()

Unnamed: 0,movieID,title,releaseDate,gender,participantName,roleparticipant
0,80192187,Triple Frontier,2019-04-12,Action,Joseph Chavez Pineda,Actor
1,80210920,The Mother,2023-01-05,Drama,Maria Alejandra Navarro,Actor
2,81157374,Run,2021-05-21,Adventure,aria Lopez Gutierrez,Director


Para insertar información en la dimensión Movie, leemos un archivo externo "Awards_movie.csv" y arreglamos la información que contiene.

In [6]:
movies_award=pd.read_csv("./data/Awards_movie.csv")
movies_award["movieID"]=movies_award["movieID"].astype('int')
movies_award.rename(columns={"Aware":"Award"}, inplace=True)
movies_award.head()

Unnamed: 0,movieID,IdAward,Award
0,80210920,0,Oscar
1,81157374,1,Grammy
2,80192187,2,Oscar


Luego, creamos la tabla que será la dimensión Movie, dentro del data warehouse, haciendo un merge entre las tablas movies_data y movies_award.

In [7]:
movie_data=pd.merge(movies_data,movies_award, left_on="movieID", right_on="movieID")
movie_data.head()

Unnamed: 0,movieID,title,releaseDate,gender,participantName,roleparticipant,IdAward,Award
0,80192187,Triple Frontier,2019-04-12,Action,Joseph Chavez Pineda,Actor,2,Oscar
1,80210920,The Mother,2023-01-05,Drama,Maria Alejandra Navarro,Actor,0,Oscar
2,81157374,Run,2021-05-21,Adventure,aria Lopez Gutierrez,Director,1,Grammy


A continuación, cambiamos la conexión a la data warehouse "dw_netflix".

In [8]:
engine = db.create_engine("mysql://root:root@172.16.5.4:3310/dw_netflix")
conn = engine.connect()

Renombramos las llaves "releaseDate" y "Award" para que coincidan con la dimensión Movie del data warehouse.

In [9]:
movie_data = movie_data.rename(columns={'releaseDate': 'releaseMovie', 'Award': 'awardMovie'})
movie_data.head()

Unnamed: 0,movieID,title,releaseMovie,gender,participantName,roleparticipant,IdAward,awardMovie
0,80192187,Triple Frontier,2019-04-12,Action,Joseph Chavez Pineda,Actor,2,Oscar
1,80210920,The Mother,2023-01-05,Drama,Maria Alejandra Navarro,Actor,0,Oscar
2,81157374,Run,2021-05-21,Adventure,aria Lopez Gutierrez,Director,1,Grammy


Eliminamos una columna que no será necesaria.

In [10]:
movie_data = movie_data.drop(columns=['IdAward'])
movie_data.head()

Unnamed: 0,movieID,title,releaseMovie,gender,participantName,roleparticipant,awardMovie
0,80192187,Triple Frontier,2019-04-12,Action,Joseph Chavez Pineda,Actor,Oscar
1,80210920,The Mother,2023-01-05,Drama,Maria Alejandra Navarro,Actor,Oscar
2,81157374,Run,2021-05-21,Adventure,aria Lopez Gutierrez,Director,Grammy


Actualizamos la dimensión Movie de la data warehouse con la tabla que creamos "movie_data", haciendo uso del método .to_sql()

Donde los parámetros son: 
1) El nombre de la dimensión en el data warehouse "dimMovie"
2) La conexión conn
3) El parámetro if_exists="append" - Agrega la información de "movie_data" a "dimMovie", en el caso en el que ya exista dicha dimensión.
4) El parámetro index=False - Elimina la columna de índices, ya que no será necesaria.

In [14]:
#movie_data.to_sql('dimMovie', conn, if_exists='append', index=False)

from django.db import IntegrityError

for i in range(len(movie_data)):
    try:
        movie_data.iloc[i:i+1].to_sql('dimMovie', conn, if_exists='append', index=False)
    except IntegrityError:
        pass #or any other action

IntegrityError: (MySQLdb.IntegrityError) (1062, "Duplicate entry '80192187' for key 'dimMovie.PRIMARY'")
[SQL: INSERT INTO `dimMovie` (`movieID`, title, `releaseMovie`, gender, `participantName`, roleparticipant, `awardMovie`) VALUES (%s, %s, %s, %s, %s, %s, %s)]
[parameters: (80192187, 'Triple Frontier', datetime.date(2019, 4, 12), 'Action', 'Joseph Chavez Pineda', 'Actor', 'Oscar')]
(Background on this error at: https://sqlalche.me/e/20/gkpj)

## Cargamos datos a la dimension USER

Al igual que con la dimensión Movie, procedemos a realizar el mismo procedimiento.

In [15]:
users = pd.read_csv("./data/users.csv", sep='|')
users.head()

Unnamed: 0,idUser,username,country,subscription
0,1002331,user123,USA,Premium
1,1002332,gamerGirl97,Canada,Basic
2,1002333,techMaster,UK,Premium
3,1002334,soccerFan,Brazil,Basic
4,1002335,travelBug,Australia,Premium


In [17]:
users = users.rename(columns={'idUser': 'userID'})
users.head()

Unnamed: 0,userID,username,country,subscription
0,1002331,user123,USA,Premium
1,1002332,gamerGirl97,Canada,Basic
2,1002333,techMaster,UK,Premium
3,1002334,soccerFan,Brazil,Basic
4,1002335,travelBug,Australia,Premium


In [18]:
users.to_sql('dimUser',conn,if_exists='append', index=False)

IntegrityError: (MySQLdb.IntegrityError) (1062, "Duplicate entry '1002331' for key 'dimUser.PRIMARY'")
[SQL: INSERT INTO `dimUser` (`userID`, username, country, subscription) VALUES (%s, %s, %s, %s)]
[parameters: [(1002331, 'user123', 'USA', 'Premium'), (1002332, 'gamerGirl97', 'Canada', 'Basic'), (1002333, 'techMaster', 'UK', 'Premium'), (1002334, 'soccerFan', 'Brazil', 'Basic'), (1002335, 'travelBug', 'Australia', 'Premium'), (1002336, 'musicLover', 'France', 'Basic'), (1002337, 'foodie88', 'Italy', 'Premium'), (1002338, 'bookWorm23', 'Germany', 'Basic')  ... displaying 10 of 20 total bound parameter sets ...  (10023319, 'homeChef', 'NewZealand', 'Premium'), (10023320, 'yogiMaster', 'Thailand', 'Basic')]]
(Background on this error at: https://sqlalche.me/e/20/gkpj)

# Cargamos datos a la tabla de hechos

Iniciamos tomando los datos necesarios de las dimensiones User y Movie.

In [34]:
users_id=users["userID"]
users_id.head()

0    1002331
1    1002332
2    1002333
3    1002334
4    1002335
Name: userID, dtype: int64

In [35]:
movies_id=movies_data["movieID"]
movies_id.head()

0    80192187
1    80210920
2    81157374
Name: movieID, dtype: int64

Hacemos un merge de ambas columnas en una tabla de forma distributiva; tal que a cada item del conjunto A se le asocie un item del conjunto B.

In [20]:
watchs_data=pd.merge(users_id,movies_id, how="cross")
watchs_data.head()

Unnamed: 0,userID,movieID
0,1002331,80192187
1,1002331,80210920
2,1002331,81157374
3,1002332,80192187
4,1002332,80210920


Creamos funciones que generen puntuaciones y fechas aleatorias.

In [21]:
import random
from datetime import datetime, timedelta

def gen_rating():
    # Generar un número aleatorio entre 0 y 5 con 1 solo decimal
    numero_aleatorio = round(random.uniform(0, 5), 1)
    # Mostrar el número aleatorio
    return numero_aleatorio

def gen_timestamp():
    # Generar un timestamp aleatorio dentro de un rango específico
    start_date = datetime(2024, 1, 15)
    end_date = datetime(2024, 4, 6)

    # Calcular un valor aleatorio entre start_date y end_date
    random_date = start_date + timedelta(seconds=random.randint(0, int((end_date - start_date).total_seconds())))

    # Mostrar el timestamp aleatorio
    return random_date

Depués creamos 2 columnas distintas en la tabla de hechos, una de puntaciones y otra de fechas, haciendo uso de las funciones anteriores.

In [36]:
watchs_data["rating"]=watchs_data["movieID"].apply(lambda x: gen_rating())
watchs_data["timestamp"]=watchs_data["userID"].apply(lambda x: gen_timestamp())

watchs_data.head()

Unnamed: 0,userID,movieID,rating,timestamp
0,1002331,80192187,3.3,2024-01-21 14:21:59
1,1002331,80210920,4.3,2024-02-25 07:58:28
2,1002331,81157374,1.5,2024-02-14 14:27:40
3,1002332,80192187,4.8,2024-03-07 04:50:48
4,1002332,80210920,0.4,2024-02-05 15:23:22


Finalmente, cargamos la carga de hechos al data warehouse.

In [37]:
# Cargamos tabla de hechos
watchs_data.to_sql("FactWatchs", conn, if_exists='append', index=False)

60

In [None]:
### SET FOREIGN_KEY_CHECKS = 0;
### SET FOREIGN_KEY_CHECKS = 1;

