Importaciones


In [1]:
import pandas as pd
import yaml
from sqlalchemy import create_engine

Paquetes Python


In [2]:
# Instala SQLAlchemy para manejar la conexión a bases de datos y mapear datos tabulares en Python.
!pip install sqlalchemy

# Instala pandas para cargar, manipular, transformar y analizar los datos.
!pip install pandas

# Instala psycopg2 para interactuar con bases de datos PostgreSQL.
!pip install psycopg2

# Instala psycopg2-binary, la versión binaria, para facilitar la interacción con PostgreSQL.
!pip install psycopg2-binary

# Instala la biblioteca yaml
!pip install pyyaml




Agregar conexión a la base de datos

In [3]:
# Abrimos el archivo YAML de configuración ubicado en el directorio '../../configBD/config.yml'.
# Este archivo contiene los parámetros de conexión a la base de datos.
with open('../../configBD/config.yml', 'r') as f:
    # Cargamos el archivo YAML usando la función safe_load de la librería 'yaml'.
    # Esto convierte el contenido del archivo en un diccionario de Python.
    config = yaml.safe_load(f)

    # Extraemos la configuración específica para la base de datos 'rapidofuriosos'.
    # Se asume que el archivo YAML tiene una sección llamada 'rapidofuriosos' con los detalles de conexión.
    config_etl = config['bodega']
    config_bd  = config['rapidofuriosos']
    
config_etl

{'driver': 'postgresql',
 'port': 5432,
 'user': 'postgres',
 'db': 'bodega_etl',
 'password': 'root',
 'host': 'localhost'}

In [4]:
# Construimos la URL de conexión a la base de datos usando los parámetros extraídos del archivo YAML.
# Esta URL sigue el formato estándar de SQLAlchemy: 'driver://user:password@host:port/dbname'.
url_bd = (f"{config_bd['driver']}://{config_bd['user']}:{config_bd['password']}@{config_bd['host']}:"
          f"{config_bd['port']}/{config_bd['db']}")


url_etl = (f"{config_etl['driver']}://{config_etl['user']}:{config_etl['password']}@{config_etl['host']}:"
           f"{config_etl['port']}/{config_etl['db']}")


# Creamos el motor de conexión a la base de datos usando SQLAlchemy.
# El motor de conexión se usa para ejecutar consultas y transacciones en la base de datos.
cliente_bd  = create_engine(url_bd)
cliente_etl = create_engine(url_etl)

In [5]:
# Cargar la tabla 'clientes_mensajeroaquitoy' a un DataFrame
mensajeros = pd.read_sql_table("clientes_mensajeroaquitoy", cliente_bd)

# Cargar la tabla 'auth_user' a un DataFrame
usuarios = pd.read_sql_table("auth_user", cliente_bd)

# Unir el DataFrame 'mensajeros' con 'usuarios' utilizando la columna 'user_id' en 'mensajeros' y 'id' en 'usuarios'
mensajero_nombre = mensajeros.merge(usuarios[['id', 'first_name', 'last_name', 'email']], left_on='user_id', right_on='id', how='left')



# Seleccionar las columnas que deseas conservar: 'user_id', 'first_name', 'last_name', 'telefono', y 'email'
mensajero_final = mensajero_nombre[['id_x', 'first_name', 'last_name', 'telefono', 'email']]

mensajero_final =  mensajero_final.rename(columns={'id_x': 'user_id'})

In [6]:
#Se agrega valores a los campos nulos
mensajero_final.fillna('NO APLICA', inplace=True)
print(mensajero_final)

    user_id        first_name          last_name    telefono  \
0         1  pepito_el_rapido  pepito_el_furioso  310-300000   
1        42  pepito_el_rapido  pepito_el_furioso  310-300000   
2        48  pepito_el_rapido  pepito_el_furioso  310-300000   
3        41  pepito_el_rapido  pepito_el_furioso  310-300000   
4        13  pepito_el_rapido  pepito_el_furioso  310-300000   
5        28  pepito_el_rapido  pepito_el_furioso  310-300000   
6        33  pepito_el_rapido  pepito_el_furioso  310-300000   
7        36  pepito_el_rapido  pepito_el_furioso  310-300000   
8         8  pepito_el_rapido  pepito_el_furioso  310-300000   
9        21  pepito_el_rapido  pepito_el_furioso  310-300000   
10       46  pepito_el_rapido  pepito_el_furioso  310-300000   
11       35  pepito_el_rapido  pepito_el_furioso  310-300000   
12        6  pepito_el_rapido  pepito_el_furioso  310-300000   
13        7  pepito_el_rapido  pepito_el_furioso  310-300000   
14       34  pepito_el_rapido  pepito_el

In [7]:
mensajero_final.to_sql('dim_mensajero',con=cliente_etl,index_label='key_dim_mensajero',if_exists='replace')

50