In [2]:
import pandas as pd
import yaml
from sqlalchemy import create_engine

In [2]:
# Instala SQLAlchemy para manejar la conexión a bases de datos y mapear datos tabulares en Python.
!pip install sqlalchemy

# Instala pandas para cargar, manipular, transformar y analizar los datos.
!pip install pandas

# Instala psycopg2 para interactuar con bases de datos PostgreSQL.
!pip install psycopg2

# Instala psycopg2-binary, la versión binaria, para facilitar la interacción con PostgreSQL.
!pip install psycopg2-binary

# Instala la biblioteca holidays para considerar feriados en el análisis de datos o procesamiento de fechas.
!pip install holidays



In [3]:
# Abrimos el archivo YAML de configuración ubicado en el directorio '../../configBD/config.yml'.
# Este archivo contiene los parámetros de conexión a la base de datos.
with open('../../configBD/config.yml', 'r') as f:
    # Cargamos el archivo YAML usando la función safe_load de la librería 'yaml'.
    # Esto convierte el contenido del archivo en un diccionario de Python.
    config = yaml.safe_load(f)

    # Extraemos la configuración específica para la base de datos 'rapidofuriosos'.
    # Se asume que el archivo YAML tiene una sección llamada 'rapidofuriosos' con los detalles de conexión.
    config_etl = config['bodega']
    config_bd  = config['rapidofuriosos']

config_etl

{'driver': 'postgresql',
 'port': 5432,
 'user': 'postgres',
 'db': 'bodega_etl',
 'password': 'root',
 'host': 'localhost'}

In [4]:
# Construimos la URL de conexión a la base de datos usando los parámetros extraídos del archivo YAML.
# Esta URL sigue el formato estándar de SQLAlchemy: 'driver://user:password@host:port/dbname'.
url_bd = (f"{config_bd['driver']}://{config_bd['user']}:{config_bd['password']}@{config_bd['host']}:"
          f"{config_bd['port']}/{config_bd['db']}")
url_bd

'postgresql://postgres:root@localhost:5432/rapidofuriosos'

In [5]:
url_etl = (f"{config_etl['driver']}://{config_etl['user']}:{config_etl['password']}@{config_etl['host']}:"
           f"{config_etl['port']}/{config_etl['db']}")
url_etl

'postgresql://postgres:root@localhost:5432/bodega_etl'

In [6]:
dim_fecha = pd.read_sql_table('dim_fecha', url_etl)
dim_cliente = pd.read_sql_table('dim_cliente', url_etl)
dim_sede = pd.read_sql_table('dm_sede', url_etl)

In [7]:
solicitudes = pd.read_sql_table('mensajeria_servicio', url_bd)


In [8]:
dim_fecha['date'] = pd.to_datetime(dim_fecha['date'])
solicitudes['fecha_solicitud'] = pd.to_datetime(solicitudes['fecha_solicitud'])

In [21]:
fact_mensajeria = (solicitudes
                   .groupby(['fecha_solicitud', 'cliente_id'])  # Ajusta según los nombres de las columnas
                   .size()
                   .reset_index(name='total_solicitudes'))

In [22]:
fact_mensajeria = (
    fact_mensajeria
    .merge(dim_fecha[['key_dim_fecha', 'date']], how='left', left_on='fecha_solicitud', right_on='date')
    .merge(dim_cliente[['key_dim_cliente', 'cliente_id']], how='left', on='cliente_id')
    .merge(dim_sede[['key_dm_sede', 'cliente_id']], how='left', on='cliente_id')
)


In [25]:
fact_mensajeria_final = fact_mensajeria[['key_dim_fecha', 'key_dim_cliente', 'key_dm_sede', 'total_solicitudes']]


In [26]:
fact_mensajeria_final.to_sql('Fact_Mensajeria_Cliente_Diaria', url_etl, if_exists='replace', index=False)


206

In [27]:
print(fact_mensajeria_final.info())
print(fact_mensajeria_final.head())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7206 entries, 0 to 7205
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype
---  ------             --------------  -----
 0   key_dim_fecha      7206 non-null   int64
 1   key_dim_cliente    7206 non-null   int64
 2   key_dm_sede        7206 non-null   int64
 3   total_solicitudes  7206 non-null   int64
dtypes: int64(4)
memory usage: 225.3 KB
None
   key_dim_fecha  key_dim_cliente  key_dm_sede  total_solicitudes
0           8662                7           16                 12
1           8662                7           17                 12
2           8662                7           19                 12
3           8662                7           24                 12
4           8662                7           49                 12
