ETL

In [1]:

# Se importan las librerias a utilizar
import pandas as pd
import sqlalchemy as db
from sqlalchemy import text
from pymongo import MongoClient


In [2]:
#Creamos la conexion a Base datos transaccional de netflix para cargar los datos 
engine = db.create_engine("mysql://root:root@172.16.5.4:3310/db_movies_netflix_transact")
conn = engine.connect()

# Cargamos datos a la dimension Movie

In [3]:
#Hacemos un query donde traemos informacion de la peliculas guardadas en la base de datos transaccional de Netflix
#Asignamos un nombre para la tabla donde almacenaremoslos datos tomados de la base de datos 
#Agrupamos los datos 

query = """
SELECT 
    movie.movieID as movieID, movie.movieTitle as title, movie.releaseDate as releaseDate, 
    gender.name as gender , person.name as participantName, participant.participantRole as roleparticipant 
FROM movie 
INNER JOIN participant 
ON movie.movieID=participant.movieID
INNER JOIN person
ON person.personID = participant.personID
INNER JOIN movie_gender 
ON movie.movieID = movie_gender.movieID
INNER JOIN gender 
ON movie_gender.genderID = gender.genderID
"""

In [4]:
#Leemos los datos que obtuvimps del query anterior 
movies_data=pd.read_sql(query, con=conn) #Hacemos la lactura del query 
movies_data["movieID"]=movies_data["movieID"].astype('int') #Cambiamos el tipo de datos de "MovieID" para que sean de tipo entero
movies_data

Unnamed: 0,movieID,title,releaseDate,gender,participantName,roleparticipant
0,80192187,Triple Frontier,2019-04-12,Action,Joseph Chavez Pineda,Actor
1,80210920,The Mother,2023-01-05,Drama,Maria Alejandra Navarro,Actor
2,81157374,Run,2021-05-21,Adventure,aria Lopez Gutierrez,Director


In [8]:
#Leemos datos de un archivo csv 
movies_award=pd.read_csv("./data/Awards_movie.csv") #creamos un archivo y jalamos la informacion en el archivo .csv
movies_award["movieID"]=movies_award["movieID"].astype('int') #Cambio el tipo de dato de MovieID a tipo INT
movies_award.rename(columns={"Aware":"Award"}, inplace=True) #renombramos la columna "Aware" con el nombre de "Award" 
movies_award

Unnamed: 0,movieID,IdAward,Award
0,80210920,0,Oscar
1,81157374,1,Grammy
2,80192187,2,Oscar


In [9]:
#Con los dos tablas obtenidas de diferentes fuentes creamos un Merge entre las tablas 
movie_data=pd.merge(movies_data,movies_award, left_on="movieID", right_on="movieID") 
movie_data

Unnamed: 0,movieID,title,releaseDate,gender,participantName,roleparticipant,IdAward,Award
0,80192187,Triple Frontier,2019-04-12,Action,Joseph Chavez Pineda,Actor,2,Oscar
1,80210920,The Mother,2023-01-05,Drama,Maria Alejandra Navarro,Actor,0,Oscar
2,81157374,Run,2021-05-21,Adventure,aria Lopez Gutierrez,Director,1,Grammy


In [10]:
#Creamos una nueva conexion con el warehouse dw_Netflix para guardar informacion en mysql.
 
engine = db.create_engine("mysql://root:root@172.16.5.4:3310/dw_netflix")
conn = engine.connect()

In [14]:
#Renombramos las columnas como la tablas que se encuentran en dw_netflix para evitar que nos de errores 
movie_data = movie_data.rename(columns={'releaseDate': 'releaseMovie', 'Award': 'awardMovie'})

In [12]:
#Eliminamos la columna IdAward
movie_data = movie_data.drop(columns=['IdAward'])

In [13]:
movie_data

Unnamed: 0,movieID,title,releaseMovie,gender,participantName,roleparticipant,awardMovie
0,80192187,Triple Frontier,2019-04-12,Action,Joseph Chavez Pineda,Actor,Oscar
1,80210920,The Mother,2023-01-05,Drama,Maria Alejandra Navarro,Actor,Oscar
2,81157374,Run,2021-05-21,Adventure,aria Lopez Gutierrez,Director,Grammy


In [16]:
#Insertamos los registro en la Dimension Movie de la BD de Netflix 
movie_data.to_sql('dimMovie',conn, if_exists='append', index=False)

# Cargamos datos a la dimension USER

In [20]:
#Cargamos los datos de la dimension usuario de un archivo csv 
users = pd.read_csv("./data/users.csv", sep='|')
users

Unnamed: 0,idUser,username,country,subscription
0,1002331,user123,USA,Premium
1,1002332,gamerGirl97,Canada,Basic
2,1002333,techMaster,UK,Premium
3,1002334,soccerFan,Brazil,Basic
4,1002335,travelBug,Australia,Premium
5,1002336,musicLover,France,Basic
6,1002337,foodie88,Italy,Premium
7,1002338,bookWorm23,Germany,Basic
8,1002339,fitnessJunk,Mexico,Premium
9,10023310,movieBuff,Japan,Basic


In [21]:
#De igual manera renombramos las columnas 
users = users.rename(columns={'idUser': 'userID'})
users


Unnamed: 0,userID,username,country,subscription
0,1002331,user123,USA,Premium
1,1002332,gamerGirl97,Canada,Basic
2,1002333,techMaster,UK,Premium
3,1002334,soccerFan,Brazil,Basic
4,1002335,travelBug,Australia,Premium
5,1002336,musicLover,France,Basic
6,1002337,foodie88,Italy,Premium
7,1002338,bookWorm23,Germany,Basic
8,1002339,fitnessJunk,Mexico,Premium
9,10023310,movieBuff,Japan,Basic


In [17]:
#Cargamos los datos a la Dimesion USer ID
users.to_sql('dimUser',conn,if_exists='append', index=False)

# Cargamos datos a la tabla de hechos

In [22]:
#Copiamos los valores de userID y movieID para poder crear una tabla de hechos 
users_id=users["userID"]
movies_id=movie_data["movieID"]

In [23]:
#Hacemos un merge de los 20 usuarios con las 3 peliculas
# el cross permite crear 3 registro de cada UserId, uno por cada movieID.
#Esta será nuestra tabla de hechos  |
watchs_data=pd.merge(users_id,movies_id, how="cross")
watchs_data

Unnamed: 0,userID,movieID
0,1002331,80192187
1,1002331,80210920
2,1002331,81157374
3,1002332,80192187
4,1002332,80210920
5,1002332,81157374
6,1002333,80192187
7,1002333,80210920
8,1002333,81157374
9,1002334,80192187


In [24]:
#Generamos datos aleatorios de rating y de fechas

import random
from datetime import datetime, timedelta
import random

def gen_rating():
    # Generar un número aleatorio entre 0 y 5 con 1 solo decimal
    numero_aleatorio = round(random.uniform(0, 5), 1)
    # Mostrar el número aleatorio
    return numero_aleatorio

def gen_timestamp():
    # Generar un timestamp aleatorio dentro de un rango específico
    start_date = datetime(2024, 1, 15)
    end_date = datetime(2024, 4, 6)

    # Calcular un valor aleatorio entre start_date y end_date
    random_date = start_date + timedelta(seconds=random.randint(0, int((end_date - start_date).total_seconds())))

    # Mostrar el timestamp aleatorio
    return random_date

In [23]:
#Con los datos aleatorios generados agregamos una columna de rating y una columna de fecha 
# y se los agregamos a nuestra tabla de hechos. 
#watchs_data["rating"]=watchs_data["movieID"].apply(lambda x: gen_rating())
#watchs_data["timestamp"]=watchs_data["userID"].apply(lambda x: gen_timestamp())

In [28]:
#Generacion de dos listas con 60 datos aleatorios obtenidos con la funcion get_rating y gen_timestamp
rating=[]
date=[]
for i in range(60):
    rating.append(gen_rating())
    date.append(gen_timestamp())


In [29]:
#Se genera un Dataframe con las listas creadas. 
randf=pd.DataFrame((zip(rating,date)),columns=['rating','timestamp'])
randf

Unnamed: 0,rating,timestamp
0,4.5,2024-02-24 19:25:38
1,1.6,2024-03-24 04:08:23
2,3.8,2024-02-04 14:32:37
3,3.3,2024-02-08 07:28:54
4,4.2,2024-02-20 03:37:16
5,1.8,2024-01-17 18:46:04
6,0.8,2024-01-26 05:20:25
7,0.6,2024-02-03 20:30:00
8,2.7,2024-02-25 20:45:15
9,0.6,2024-01-15 08:49:36


CONEXION CON MONGO 

In [30]:
CONNECTION_STRING = "mongodb+srv://andreigaled3:txmnM3oUgWMsnxFy@cluster0.qdxwmr6.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"
client = MongoClient(CONNECTION_STRING)

In [31]:
#Se genera el nombre de la base de datos en mongo, 
#Se convierte el dataframe al tipo de dato de diccionario y se le asigna el nombre "records"
#Se envia a Mongo 
dbname=client["ramdon_data"]
randf_to_dict = randf.to_dict("records")
dbname["random"].insert_many(randf_to_dict)

InsertManyResult([ObjectId('668ba3f3314d478cabd84651'), ObjectId('668ba3f3314d478cabd84652'), ObjectId('668ba3f3314d478cabd84653'), ObjectId('668ba3f3314d478cabd84654'), ObjectId('668ba3f3314d478cabd84655'), ObjectId('668ba3f3314d478cabd84656'), ObjectId('668ba3f3314d478cabd84657'), ObjectId('668ba3f3314d478cabd84658'), ObjectId('668ba3f3314d478cabd84659'), ObjectId('668ba3f3314d478cabd8465a'), ObjectId('668ba3f3314d478cabd8465b'), ObjectId('668ba3f3314d478cabd8465c'), ObjectId('668ba3f3314d478cabd8465d'), ObjectId('668ba3f3314d478cabd8465e'), ObjectId('668ba3f3314d478cabd8465f'), ObjectId('668ba3f3314d478cabd84660'), ObjectId('668ba3f3314d478cabd84661'), ObjectId('668ba3f3314d478cabd84662'), ObjectId('668ba3f3314d478cabd84663'), ObjectId('668ba3f3314d478cabd84664'), ObjectId('668ba3f3314d478cabd84665'), ObjectId('668ba3f3314d478cabd84666'), ObjectId('668ba3f3314d478cabd84667'), ObjectId('668ba3f3314d478cabd84668'), ObjectId('668ba3f3314d478cabd84669'), ObjectId('668ba3f3314d478cabd846

LEECTURA DE DATOS DE MONGO 

In [32]:
rating_collection = dbname['random']
random_rating = rating_collection.find({})
random_rating

<pymongo.cursor.Cursor at 0x7177fe4162f0>

In [33]:
df_random_rating = pd.DataFrame(random_rating)
df_random_rating

Unnamed: 0,_id,rating,timestamp
0,6680f7de2c5e16c1d35d6ddf,3.4,2024-03-01 10:34:50
1,6680f7de2c5e16c1d35d6dc8,1.9,2024-04-03 14:54:18
2,6680f7de2c5e16c1d35d6dd4,4.4,2024-02-15 14:56:33
3,6680f7de2c5e16c1d35d6dc1,0.3,2024-02-20 23:32:58
4,6680f7de2c5e16c1d35d6df9,4.0,2024-02-07 13:11:28
...,...,...,...
115,668ba3f3314d478cabd84688,2.0,2024-02-02 11:32:53
116,668ba3f3314d478cabd84689,3.1,2024-03-15 17:27:28
117,668ba3f3314d478cabd8468a,0.9,2024-03-19 20:47:48
118,668ba3f3314d478cabd8468b,3.7,2024-03-27 03:49:20


In [37]:
df_random_rating = df_random_rating.drop(columns=['_id'])
df_random_rating

KeyError: "['_id'] not found in axis"

In [50]:
#watchs_data

In [35]:
watchs_data = pd.concat([watchs_data,df_random_rating],axis=1)
watchs_data

Unnamed: 0,userID,movieID,rating,timestamp
0,1002331.0,80192187.0,3.4,2024-03-01 10:34:50
1,1002331.0,80210920.0,1.9,2024-04-03 14:54:18
2,1002331.0,81157374.0,4.4,2024-02-15 14:56:33
3,1002332.0,80192187.0,0.3,2024-02-20 23:32:58
4,1002332.0,80210920.0,4.0,2024-02-07 13:11:28
...,...,...,...,...
115,,,2.0,2024-02-02 11:32:53
116,,,3.1,2024-03-15 17:27:28
117,,,0.9,2024-03-19 20:47:48
118,,,3.7,2024-03-27 03:49:20


In [36]:
# Cargamos los datos a la tabla de hechos
watchs_data.to_sql("FactWatchs", conn, if_exists='append', index=False)
watchs_data

Unnamed: 0,userID,movieID,rating,timestamp
0,1002331.0,80192187.0,3.4,2024-03-01 10:34:50
1,1002331.0,80210920.0,1.9,2024-04-03 14:54:18
2,1002331.0,81157374.0,4.4,2024-02-15 14:56:33
3,1002332.0,80192187.0,0.3,2024-02-20 23:32:58
4,1002332.0,80210920.0,4.0,2024-02-07 13:11:28
...,...,...,...,...
115,,,2.0,2024-02-02 11:32:53
116,,,3.1,2024-03-15 17:27:28
117,,,0.9,2024-03-19 20:47:48
118,,,3.7,2024-03-27 03:49:20


In [None]:
### SET FOREIGN_KEY_CHECKS = 0;
### SET FOREIGN_KEY_CHECKS = 1;

