In [1]:
import pandas as pd
import yaml
from sqlalchemy import create_engine

In [None]:
# Instala SQLAlchemy para manejar la conexión a bases de datos y mapear datos tabulares en Python.
!pip install sqlalchemy

# Instala pandas para cargar, manipular, transformar y analizar los datos.
!pip install pandas

# Instala psycopg2 para interactuar con bases de datos PostgreSQL.
!pip install psycopg2

# Instala psycopg2-binary, la versión binaria, para facilitar la interacción con PostgreSQL.
!pip install psycopg2-binary

# Instala la biblioteca holidays para considerar feriados en el análisis de datos o procesamiento de fechas.
!pip install holidays



In [2]:
# Abrimos el archivo YAML de configuración ubicado en el directorio '../../configBD/config.yml'.
# Este archivo contiene los parámetros de conexión a la base de datos.
with open('../../configBD/config.yml', 'r') as f:
    # Cargamos el archivo YAML usando la función safe_load de la librería 'yaml'.
    # Esto convierte el contenido del archivo en un diccionario de Python.
    config = yaml.safe_load(f)

    # Extraemos la configuración específica para la base de datos 'rapidofuriosos'.
    # Se asume que el archivo YAML tiene una sección llamada 'rapidofuriosos' con los detalles de conexión.
    config_etl = config['bodega']
    config_bd  = config['rapidofuriosos']

config_etl

{'driver': 'postgresql',
 'port': 5432,
 'user': 'postgres',
 'db': 'bodega_etl',
 'password': 'root',
 'host': 'localhost'}

In [58]:
# Construimos la URL de conexión a la base de datos usando los parámetros extraídos del archivo YAML.
# Esta URL sigue el formato estándar de SQLAlchemy: 'driver://user:password@host:port/dbname'.
url_bd = (f"{config_bd['driver']}://{config_bd['user']}:{config_bd['password']}@{config_bd['host']}:"
          f"{config_bd['port']}/{config_bd['db']}")
url_bd

'postgresql://postgres:root@localhost:5432/rapidofuriosos'

In [59]:
url_etl = (f"{config_etl['driver']}://{config_etl['user']}:{config_etl['password']}@{config_etl['host']}:"
           f"{config_etl['port']}/{config_etl['db']}")
url_etl

'postgresql://postgres:root@localhost:5432/bodega_etl'

In [None]:
# Creamos el motor de conexión a la base de datos usando SQLAlchemy.
# El motor de conexión se usa para ejecutar consultas y transacciones en la base de datos.
cliente_bd  = create_engine(url_bd)
cliente_etl = create_engine(url_etl)

In [60]:
dim_fecha = pd.read_sql_table('dim_fecha', url_etl)

In [61]:
novedades = pd.read_sql_table('mensajeria_novedadesservicio', url_bd)

In [67]:
novedades['fecha_novedad'] = pd.to_datetime(novedades['fecha_novedad']).dt.date


In [None]:

# Fechas únicas en `dim_fecha`
print("Fechas en `dim_fecha`:", dim_fecha['date'].unique())


Fechas en `novedades_diarias`: [datetime.date(2023, 11, 30) datetime.date(2023, 12, 7)
 datetime.date(2023, 12, 9) datetime.date(2023, 12, 28)
 datetime.date(2024, 1, 3) datetime.date(2024, 1, 4)
 datetime.date(2024, 1, 11) datetime.date(2024, 1, 19)
 datetime.date(2024, 1, 23) datetime.date(2024, 1, 24)
 datetime.date(2024, 1, 25) datetime.date(2024, 1, 26)
 datetime.date(2024, 1, 27) datetime.date(2024, 1, 29)
 datetime.date(2024, 1, 30) datetime.date(2024, 1, 31)
 datetime.date(2024, 2, 1) datetime.date(2024, 2, 2)
 datetime.date(2024, 2, 3) datetime.date(2024, 2, 4)
 datetime.date(2024, 2, 5) datetime.date(2024, 2, 6)
 datetime.date(2024, 2, 7) datetime.date(2024, 2, 8)
 datetime.date(2024, 2, 9) datetime.date(2024, 2, 10)
 datetime.date(2024, 2, 12) datetime.date(2024, 2, 13)
 datetime.date(2024, 2, 14) datetime.date(2024, 2, 15)
 datetime.date(2024, 2, 16) datetime.date(2024, 2, 17)
 datetime.date(2024, 2, 19) datetime.date(2024, 2, 20)
 datetime.date(2024, 2, 21) datetime.date(2

In [53]:
novedades

Unnamed: 0,id,fecha_novedad,tipo_novedad_id,descripcion,servicio_id,es_prueba,mensajero_id
0,4,2023-11-30,1,A,51,True,7
1,5,2023-11-30,1,Halo,51,True,7
2,6,2023-11-30,1,A,51,True,7
3,7,2023-11-30,1,B,51,True,7
4,8,2023-11-30,1,A,51,True,7
...,...,...,...,...,...,...,...
5203,5246,2024-08-31,1,"Facturaron el refrigerante equivocado, se hará...",28455,True,27
5204,5247,2024-08-31,2,Edte drrvicio lo hace angelo,28464,True,25
5205,5248,2024-08-31,2,Edte lo hace csrlos,28467,True,25
5206,5249,2024-08-31,2,Este lohace csrlos,28466,True,25


In [68]:
novedades_diarias = (
    novedades.groupby(['fecha_novedad', 'tipo_novedad_id'])
    .size()
    .unstack(fill_value=0)
    .rename(columns={1: 'tipo_novedades_servicio', 2: 'tipo_sin_continuar'})
    .reset_index()
)

In [69]:
novedades_diarias

tipo_novedad_id,fecha_novedad,tipo_novedades_servicio,tipo_sin_continuar
0,2023-11-30,6,3
1,2023-12-07,2,1
2,2023-12-09,0,1
3,2023-12-28,1,3
4,2024-01-03,2,1
...,...,...,...
198,2024-08-27,62,8
199,2024-08-28,19,6
200,2024-08-29,70,10
201,2024-08-30,41,9


In [70]:
dim_fecha['date'] = pd.to_datetime(dim_fecha['date']).dt.date
dim_fecha

Unnamed: 0,key_dim_fecha,date,Fecha_id,Año,Mes,Dia,Dia_Semana,Nombre_dia,Nombre_mes
0,0,2000-01-01,1,2000,1,1,6,Sabado,Enero
1,1,2000-01-02,2,2000,1,2,7,Domingo,Enero
2,2,2000-01-03,3,2000,1,3,1,Lunes,Enero
3,3,2000-01-04,4,2000,1,4,2,Martes,Enero
4,4,2000-01-05,5,2000,1,5,3,Miercoles,Enero
...,...,...,...,...,...,...,...,...,...
9492,9492,2025-12-27,9493,2025,12,27,6,Sabado,Diciembre
9493,9493,2025-12-28,9494,2025,12,28,7,Domingo,Diciembre
9494,9494,2025-12-29,9495,2025,12,29,1,Lunes,Diciembre
9495,9495,2025-12-30,9496,2025,12,30,2,Martes,Diciembre


In [47]:
novedades_diarias = novedades_diarias[novedades_diarias['fecha_novedad'].isin(dim_fecha["date"])]


In [71]:
novedades_diarias = novedades_diarias.merge(
    dim_fecha[['key_dim_fecha', 'date']],  # Utilizando `key_dim_fecha` como clave de fecha
    how='left',
    left_on='fecha_novedad',
    right_on='date'
)


In [72]:
novedades_diarias

Unnamed: 0,fecha_novedad,tipo_novedades_servicio,tipo_sin_continuar,key_dim_fecha,date
0,2023-11-30,6,3,8734,2023-11-30
1,2023-12-07,2,1,8741,2023-12-07
2,2023-12-09,0,1,8743,2023-12-09
3,2023-12-28,1,3,8762,2023-12-28
4,2024-01-03,2,1,8768,2024-01-03
...,...,...,...,...,...
198,2024-08-27,62,8,9005,2024-08-27
199,2024-08-28,19,6,9006,2024-08-28
200,2024-08-29,70,10,9007,2024-08-29
201,2024-08-30,41,9,9008,2024-08-30


In [73]:
novedades_diarias = novedades_diarias.drop(columns=['date', 'fecha_novedad'])
novedades_diarias

Unnamed: 0,tipo_novedades_servicio,tipo_sin_continuar,key_dim_fecha
0,6,3,8734
1,2,1,8741
2,0,1,8743
3,1,3,8762
4,2,1,8768
...,...,...,...
198,62,8,9005
199,19,6,9006
200,70,10,9007
201,41,9,9008


In [None]:
novedades_diarias.to_sql('Fact_Novedades', cliente_etl, if_exists='replace', index_label='key_dim_fecha')

In [51]:
del novedades_diarias


NameError: name 'novedades_diarias' is not defined