Importaciones

In [2]:
import pandas as pd
import yaml
from sqlalchemy import create_engine

Paquetes Python


In [1]:
# Instala SQLAlchemy para manejar la conexión a bases de datos y mapear datos tabulares en Python.
!pip install sqlalchemy

# Instala pandas para cargar, manipular, transformar y analizar los datos.
!pip install pandas

# Instala psycopg2 para interactuar con bases de datos PostgreSQL.
!pip install psycopg2

# Instala psycopg2-binary, la versión binaria, para facilitar la interacción con PostgreSQL.
!pip install psycopg2-binary

# Instala la biblioteca yaml
!pip install pyyaml


Collecting sqlalchemy
  Using cached SQLAlchemy-2.0.36-cp312-cp312-win_amd64.whl.metadata (9.9 kB)
Collecting typing-extensions>=4.6.0 (from sqlalchemy)
  Using cached typing_extensions-4.12.2-py3-none-any.whl.metadata (3.0 kB)
Collecting greenlet!=0.4.17 (from sqlalchemy)
  Using cached greenlet-3.1.1-cp312-cp312-win_amd64.whl.metadata (3.9 kB)
Using cached SQLAlchemy-2.0.36-cp312-cp312-win_amd64.whl (2.1 MB)
Using cached greenlet-3.1.1-cp312-cp312-win_amd64.whl (299 kB)
Using cached typing_extensions-4.12.2-py3-none-any.whl (37 kB)
Installing collected packages: typing-extensions, greenlet, sqlalchemy
Successfully installed greenlet-3.1.1 sqlalchemy-2.0.36 typing-extensions-4.12.2
Collecting pandas
  Using cached pandas-2.2.3-cp312-cp312-win_amd64.whl.metadata (19 kB)
Collecting numpy>=1.26.0 (from pandas)
  Using cached numpy-2.1.2-cp312-cp312-win_amd64.whl.metadata (59 kB)
Collecting pytz>=2020.1 (from pandas)
  Using cached pytz-2024.2-py2.py3-none-any.whl.metadata (22 kB)
Collect

: 

Agregar conexión a la base de datos

In [4]:
# Abrimos el archivo YAML de configuración ubicado en el directorio '../../configBD/config.yml'.
# Este archivo contiene los parámetros de conexión a la base de datos.
with open('../../configBD/config.yml', 'r') as f:
    # Cargamos el archivo YAML usando la función safe_load de la librería 'yaml'.
    # Esto convierte el contenido del archivo en un diccionario de Python.
    config = yaml.safe_load(f)

    # Extraemos la configuración específica para la base de datos 'rapidofuriosos'.
    # Se asume que el archivo YAML tiene una sección llamada 'rapidofuriosos' con los detalles de conexión.
    config_etl = config['bodega']
    config_bd  = config['rapidofuriosos']
    
config_etl

{'driver': 'postgresql',
 'port': 5432,
 'user': 'postgres',
 'db': 'bodega_etl',
 'password': 'root',
 'host': 'localhost'}

In [5]:
# Construimos la URL de conexión a la base de datos usando los parámetros extraídos del archivo YAML.
# Esta URL sigue el formato estándar de SQLAlchemy: 'driver://user:password@host:port/dbname'.
url_bd = (f"{config_bd['driver']}://{config_bd['user']}:{config_bd['password']}@{config_bd['host']}:"
          f"{config_bd['port']}/{config_bd['db']}")
url_bd

'postgresql://postgres:root@localhost:5432/rapidofuriosos'

In [6]:
url_etl = (f"{config_etl['driver']}://{config_etl['user']}:{config_etl['password']}@{config_etl['host']}:"
           f"{config_etl['port']}/{config_etl['db']}")
url_etl

'postgresql://postgres:root@localhost:5432/bodega_etl'

In [7]:
# Creamos el motor de conexión a la base de datos usando SQLAlchemy.
# El motor de conexión se usa para ejecutar consultas y transacciones en la base de datos.
cliente_bd  = create_engine(url_bd)
cliente_etl = create_engine(url_etl)

Tabla de cargas

In [8]:
# Cargar la tabla "cliente" desde la base de datos a un DataFrame de pandas utilizando la conexión 'co_sa'
cliente = pd.read_sql_table("cliente", cliente_bd)

# Mostrar las primeras filas del DataFrame 'cliente' para revisar su contenido
cliente.head()


Unnamed: 0,cliente_id,nit_cliente,nombre,email,direccion,telefono,nombre_contacto,ciudad_id,tipo_cliente_id,activo,coordinador_id,sector
0,1,25,Cliente 2,algo.com,Calle 100 No 25-18,327-00000,Cristiano Ronaldo,1,1,True,,S
1,2,123,Cliente 1,algo.com,Calle 100 No 25-18,327-00000,Cristiano Ronaldo,1,1,True,2.0,industrial
2,6,24390-3,CLINICA DEPORTIVA DEL SUR,algo.com,Calle 100 No 25-18,327-00000,Cristiano Ronaldo,1,1,True,1.0,salud
3,19,8301821,HOSPITAL ORTOPEDICO DE COLOMBIA,algo.com,Calle 100 No 25-18,327-00000,Cristiano Ronaldo,1,1,True,,salud
4,8,5017350-8,CLINICA NEFROLOGOS DE CALI,algo.com,Calle 100 No 25-18,327-00000,Cristiano Ronaldo,1,1,True,,salud


Remplazar campos

In [9]:
cliente['coordinador_id'] = cliente['coordinador_id'].fillna(0)
cliente.head()


Unnamed: 0,cliente_id,nit_cliente,nombre,email,direccion,telefono,nombre_contacto,ciudad_id,tipo_cliente_id,activo,coordinador_id,sector
0,1,25,Cliente 2,algo.com,Calle 100 No 25-18,327-00000,Cristiano Ronaldo,1,1,True,0.0,S
1,2,123,Cliente 1,algo.com,Calle 100 No 25-18,327-00000,Cristiano Ronaldo,1,1,True,2.0,industrial
2,6,24390-3,CLINICA DEPORTIVA DEL SUR,algo.com,Calle 100 No 25-18,327-00000,Cristiano Ronaldo,1,1,True,1.0,salud
3,19,8301821,HOSPITAL ORTOPEDICO DE COLOMBIA,algo.com,Calle 100 No 25-18,327-00000,Cristiano Ronaldo,1,1,True,0.0,salud
4,8,5017350-8,CLINICA NEFROLOGOS DE CALI,algo.com,Calle 100 No 25-18,327-00000,Cristiano Ronaldo,1,1,True,0.0,salud


Cargar

In [10]:
cliente.to_sql('dim_cliente',con=cliente_etl,index_label='key_dim_cliente',if_exists='replace')


27