In [1]:
import pandas as pd
import yaml
from sqlalchemy import create_engine

In [2]:
# Abrimos el archivo YAML de configuracion para conectarse a las bases de datos.
with open("../config.yml", "r") as f:
    # Cargamos el archivo YAML usando la función safe_load de la librería 'yaml'.
    # Esto convierte el contenido del archivo en un diccionario de Python.
    config = yaml.safe_load(f)
    # Cargamos el archivo correspondiente a la base de datos origen.
    config_origen = config["ORIGEN"]
    # Cargamos el archivo correspondiente a la base de datos destino.
    config_bodega = config["BODEGA"]

# Verificamos que se haya realizado la carga correctamente.
config_origen

{'drivername': 'postgresql',
 'dbname': 'oltp_proyecto',
 'user': 'postgres',
 'password': 'Berlin2020',
 'host': 'localhost',
 'port': 5432}

In [3]:
# Construimos la URL de conexión a la base de datos origen usando los parámetros extraídos del archivo YAML.
url_origen = (f"{config_origen['drivername']}://{config_origen['user']}:{config_origen['password']}@{config_origen['host']}:"
          f"{config_origen['port']}/{config_origen['dbname']}")

# Verificamos que se haya generado la url correctamente.
url_origen

'postgresql://postgres:Berlin2020@localhost:5432/oltp_proyecto'

In [4]:
# Construimos la URL de conexión a la base de datos destino usando los parámetros extraídos del archivo YAML.
url_bodega = (f"{config_bodega['drivername']}://{config_bodega['user']}:{config_bodega['password']}@{config_bodega['host']}:"
          f"{config_bodega['port']}/{config_bodega['dbname']}")

# Verificamos que se haya generado la url correctamente.
url_bodega

'postgresql://postgres:Berlin2020@localhost:5432/olap_proyecto'

In [5]:
# Creamos el motor de conexión a la base de datos usando SQLAlchemy.
# El motor de conexión se usa para ejecutar consultas y transacciones en la base de datos.
cliente_origen  = create_engine(url_origen)
cliente_bodega = create_engine(url_bodega)

In [6]:
# Cargar la tabla "cliente" desde la base de datos origen a un dataFrame de pandas utilizando la conexión.
cliente = pd.read_sql_table("cliente", cliente_origen)

# Mostrar las primeras filas del DataFrame 'cliente'.
cliente.head()

Unnamed: 0,cliente_id,nit_cliente,nombre,email,direccion,telefono,nombre_contacto,ciudad_id,tipo_cliente_id,activo,coordinador_id,sector
0,1,25,Cliente 2,algo.com,Calle 100 No 25-18,327-00000,Cristiano Ronaldo,1,1,True,,S
1,2,123,Cliente 1,algo.com,Calle 100 No 25-18,327-00000,Cristiano Ronaldo,1,1,True,2.0,industrial
2,6,24390-3,CLINICA DEPORTIVA DEL SUR,algo.com,Calle 100 No 25-18,327-00000,Cristiano Ronaldo,1,1,True,1.0,salud
3,19,8301821,HOSPITAL ORTOPEDICO DE COLOMBIA,algo.com,Calle 100 No 25-18,327-00000,Cristiano Ronaldo,1,1,True,,salud
4,8,5017350-8,CLINICA NEFROLOGOS DE CALI,algo.com,Calle 100 No 25-18,327-00000,Cristiano Ronaldo,1,1,True,,salud


In [7]:
# Seleccionamos las columnas con información importante y descartamos las restantes.
columnas_importantes = ['cliente_id', 'nombre', 'nit_cliente',  'email', 'direccion', 'telefono']
dim_cliente = cliente[columnas_importantes]

In [8]:
# Cargamos la dimensión a la base de datos destino.
dim_cliente.to_sql('dim_cliente', con=cliente_bodega, index_label='key_dim_cliente', if_exists='replace')

27

In [9]:
# Visualizamos las primeras filas de la dimensión.
loaded_dim_cliente = pd.read_sql_table('dim_cliente', cliente_bodega)
print(loaded_dim_cliente.head())

   key_dim_cliente  cliente_id                           nombre nit_cliente  \
0                0           1                        Cliente 2          25   
1                1           2                        Cliente 1         123   
2                2           6       CLINICA  DEPORTIVA DEL SUR     24390-3   
3                3          19  HOSPITAL ORTOPEDICO DE COLOMBIA     8301821   
4                4           8      CLINICA NEFROLOGOS  DE CALI   5017350-8   

      email           direccion   telefono  
0  algo.com  Calle 100 No 25-18  327-00000  
1  algo.com  Calle 100 No 25-18  327-00000  
2  algo.com  Calle 100 No 25-18  327-00000  
3  algo.com  Calle 100 No 25-18  327-00000  
4  algo.com  Calle 100 No 25-18  327-00000  
