In [1]:
import pandas as pd
import yaml
from sqlalchemy import create_engine

In [2]:
# Instala SQLAlchemy para manejar la conexión a bases de datos y mapear datos tabulares en Python.
%pip install sqlalchemy

# Instala pandas para cargar, manipular, transformar y analizar los datos.
%pip install pandas

# Instala psycopg2 para interactuar con bases de datos PostgreSQL.
%pip install psycopg2

# Instala psycopg2-binary, la versión binaria, para facilitar la interacción con PostgreSQL.
%pip install psycopg2-binary

# Instala la biblioteca holidays para considerar feriados en el análisis de datos o procesamiento de fechas.
%pip install holidays

Note: you may need to restart the kernel to use updated packages.


Note: you may need to restart the kernel to use updated packages.


Note: you may need to restart the kernel to use updated packages.


Note: you may need to restart the kernel to use updated packages.


Note: you may need to restart the kernel to use updated packages.


In [3]:
# Abrimos el archivo YAML de configuración ubicado en el directorio '../../configBD/config.yml'.
# Este archivo contiene los parámetros de conexión a la base de datos.
with open('../../configBD/config.yml', 'r') as f:
    # Cargamos el archivo YAML usando la función safe_load de la librería 'yaml'.
    # Esto convierte el contenido del archivo en un diccionario de Python.
    config = yaml.safe_load(f)

    # Extraemos la configuración específica para la base de datos 'rapidofuriosos'.
    # Se asume que el archivo YAML tiene una sección llamada 'rapidofuriosos' con los detalles de conexión.
    config_etl = config['bodega']
    config_bd  = config['rapidofuriosos']

config_etl

{'driver': 'postgresql',
 'port': 19631,
 'user': 'avnadmin',
 'db': 'defaultdb',
 'password': 'AVNS_bioEowem03jhWeZ2biq',
 'host': 'etluv-etluv.k.aivencloud.com'}

In [4]:
# Construimos la URL de conexión a la base de datos usando los parámetros extraídos del archivo YAML.
# Esta URL sigue el formato estándar de SQLAlchemy: 'driver://user:password@host:port/dbname'.
url_bd = (f"{config_bd['driver']}://{config_bd['user']}:{config_bd['password']}@{config_bd['host']}:"
          f"{config_bd['port']}/{config_bd['db']}")
url_bd

'postgresql://postgres:root@localhost:5432/rapidofuriosos'

In [5]:
url_etl = (f"{config_etl['driver']}://{config_etl['user']}:{config_etl['password']}@{config_etl['host']}:"
           f"{config_etl['port']}/{config_etl['db']}")
url_etl

'postgresql://avnadmin:AVNS_bioEowem03jhWeZ2biq@etluv-etluv.k.aivencloud.com:19631/defaultdb'

In [6]:
dim_fecha = pd.read_sql_table('dim_fecha', url_etl)
dim_cliente = pd.read_sql_table('dim_cliente', url_etl)
#dim_sede = pd.read_sql_table('dm_sede', url_etl)

In [7]:
solicitudes = pd.read_sql_table('mensajeria_servicio', url_bd)


In [8]:
dim_fecha['date'] = pd.to_datetime(dim_fecha['date'])
solicitudes['fecha_solicitud'] = pd.to_datetime(solicitudes['fecha_solicitud'])

In [9]:
fact_mensajeria = (solicitudes
                   .groupby(['fecha_solicitud', 'cliente_id'])  # Ajusta según los nombres de las columnas
                   .size()
                   .reset_index(name='total_solicitudes'))
fact_mensajeria

Unnamed: 0,fecha_solicitud,cliente_id,total_solicitudes
0,2023-09-19,5,12
1,2023-09-23,5,5
2,2023-09-23,6,3
3,2023-09-26,5,1
4,2023-10-03,5,1
...,...,...,...
1804,2024-08-31,8,4
1805,2024-08-31,9,2
1806,2024-08-31,11,45
1807,2024-08-31,12,1


In [10]:
fact_mensajeria = (
    fact_mensajeria
    .merge(dim_fecha[['key_dim_fecha', 'date']], how='left', left_on='fecha_solicitud', right_on='date')
    .merge(dim_cliente[['key_dim_cliente', 'cliente_id']], how='left', on='cliente_id')
    #.merge(dim_sede[['key_dm_sede', 'cliente_id', 'sede_id']], how='left', on='cliente_id')  # Asegúrate de incluir 'sede_id'
)

fact_mensajeria

Unnamed: 0,fecha_solicitud,cliente_id,total_solicitudes,key_dim_fecha,date,key_dim_cliente
0,2023-09-19,5,12,8662,2023-09-19,7
1,2023-09-23,5,5,8666,2023-09-23,7
2,2023-09-23,6,3,8666,2023-09-23,2
3,2023-09-26,5,1,8669,2023-09-26,7
4,2023-10-03,5,1,8676,2023-10-03,7
...,...,...,...,...,...,...
1804,2024-08-31,8,4,9009,2024-08-31,4
1805,2024-08-31,9,2,9009,2024-08-31,9
1806,2024-08-31,11,45,9009,2024-08-31,11
1807,2024-08-31,12,1,9009,2024-08-31,12


In [11]:
fact_mensajeria_final = fact_mensajeria[['key_dim_fecha', 'key_dim_cliente', 'total_solicitudes']]


In [12]:
fact_mensajeria_final.to_sql('fact_mensajeria_cliente_diaria', url_etl, if_exists='replace', index=False)


809

In [13]:
print(fact_mensajeria_final.info())
print(fact_mensajeria_final.head())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1809 entries, 0 to 1808
Data columns (total 3 columns):
 #   Column             Non-Null Count  Dtype
---  ------             --------------  -----
 0   key_dim_fecha      1809 non-null   int64
 1   key_dim_cliente    1809 non-null   int64
 2   total_solicitudes  1809 non-null   int64
dtypes: int64(3)
memory usage: 42.5 KB
None
   key_dim_fecha  key_dim_cliente  total_solicitudes
0           8662                7                 12
1           8666                7                  5
2           8666                2                  3
3           8669                7                  1
4           8676                7                  1
