In [1]:
import pandas as pd
import yaml
from sqlalchemy import create_engine

In [2]:
# Abrimos el archivo YAML de configuracion para conectarse a las bases de datos.
with open("../config.yml", "r") as f:
    # Cargamos el archivo YAML usando la función safe_load de la librería 'yaml'.
    # Esto convierte el contenido del archivo en un diccionario de Python.
    config = yaml.safe_load(f)
    # Cargamos el archivo correspondiente a la base de datos origen.
    config_origen = config["ORIGEN"]
    # Cargamos el archivo correspondiente a la base de datos destino.
    config_bodega = config["BODEGA"]

# Verificamos que se haya realizado la carga correctamente.
config_origen

{'drivername': 'postgresql',
 'dbname': 'oltp_proyecto',
 'user': 'postgres',
 'password': 'Berlin2020',
 'host': 'localhost',
 'port': 5432}

In [3]:
# Construimos la URL de conexión a la base de datos origen usando los parámetros extraídos del archivo YAML.
url_origen = (f"{config_origen['drivername']}://{config_origen['user']}:{config_origen['password']}@{config_origen['host']}:"
          f"{config_origen['port']}/{config_origen['dbname']}")

# Verificamos que se haya generado la url correctamente.
url_origen

'postgresql://postgres:Berlin2020@localhost:5432/oltp_proyecto'

In [4]:
# Construimos la URL de conexión a la base de datos destino usando los parámetros extraídos del archivo YAML.
url_bodega = (f"{config_bodega['drivername']}://{config_bodega['user']}:{config_bodega['password']}@{config_bodega['host']}:"
          f"{config_bodega['port']}/{config_bodega['dbname']}")

# Verificamos que se haya generado la url correctamente.
url_bodega

'postgresql://postgres:Berlin2020@localhost:5432/olap_proyecto'

In [5]:
# Creamos el motor de conexión a la base de datos usando SQLAlchemy.
# El motor de conexión se usa para ejecutar consultas y transacciones en la base de datos.
mensajero_origen  = create_engine(url_origen)
mensajero_bodega = create_engine(url_bodega)

In [6]:
# Cargar la tabla "clientes_mensajeroaquitoy" desde la base de datos origen a un dataFrame de pandas utilizando la conexión.
mensajero = pd.read_sql_table("clientes_mensajeroaquitoy", mensajero_origen)

# Cargar la tabla "auth_user" desde la base de datos origen a un dataFrame de pandas utilizando la conexión.
usuario_mensajero = pd.read_sql_table("auth_user", mensajero_origen)

# Combinar el dataFrame 'mensajero' con 'usuario_mensajero' utilizando la columna "user_id" y "id"
datos_mensajero = mensajero.merge(usuario_mensajero[['id', 'first_name', 'last_name', 'email']], left_on='user_id', right_on='id', how='left')

# Seleccionamos las columnas con información importante y descartamos las restantes.
columnas_importantes = ['id_x', 'first_name', 'last_name', 'telefono', 'email']
dim_mensajero = datos_mensajero[columnas_importantes]

# Renombramos las columnas al español para una mejor organización.
dim_mensajero.rename(columns={"id_x": "mensajero_id"}, inplace=True)
dim_mensajero.rename(columns={"first_name": "nombre"}, inplace=True)
dim_mensajero.rename(columns={"last_name": "apellido"}, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dim_mensajero.rename(columns={"id_x": "mensajero_id"}, inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dim_mensajero.rename(columns={"first_name": "nombre"}, inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dim_mensajero.rename(columns={"last_name": "apellido"}, inplace=True)


In [7]:
# Cargamos la dimensión a la base de datos destino.
dim_mensajero.to_sql('dim_mensajero', con=mensajero_bodega, index_label='key_dim_mensajero', if_exists='replace')

50

In [8]:
# Visualizamos las primeras filas de la dimensión.
loaded_dim_mensajero = pd.read_sql_table('dim_mensajero', mensajero_bodega)
print(loaded_dim_mensajero.head())

   key_dim_mensajero  mensajero_id            nombre           apellido  \
0                  0             1  pepito_el_rapido  pepito_el_furioso   
1                  1            42  pepito_el_rapido  pepito_el_furioso   
2                  2            48  pepito_el_rapido  pepito_el_furioso   
3                  3            41  pepito_el_rapido  pepito_el_furioso   
4                  4            13  pepito_el_rapido  pepito_el_furioso   

     telefono                       email  
0  310-300000  rapidos-furiosos@gmail.com  
1  310-300000  rapidos-furiosos@gmail.com  
2  310-300000  rapidos-furiosos@gmail.com  
3  310-300000  rapidos-furiosos@gmail.com  
4  310-300000  rapidos-furiosos@gmail.com  
