In [1]:
import pandas as pd
import yaml
from sqlalchemy import create_engine

In [2]:
# Instala SQLAlchemy para manejar la conexión a bases de datos y mapear datos tabulares en Python.
%pip install sqlalchemy

# Instala pandas para cargar, manipular, transformar y analizar los datos.
%pip install pandas

# Instala psycopg2 para interactuar con bases de datos PostgreSQL.
%pip install psycopg2

# Instala psycopg2-binary, la versión binaria, para facilitar la interacción con PostgreSQL.
%pip install psycopg2-binary

# Instala la biblioteca holidays para considerar feriados en el análisis de datos o procesamiento de fechas.
%pip install holidays





Note: you may need to restart the kernel to use updated packages.






Note: you may need to restart the kernel to use updated packages.




Note: you may need to restart the kernel to use updated packages.




Note: you may need to restart the kernel to use updated packages.


Collecting holidays
  Using cached holidays-0.75-py3-none-any.whl.metadata (41 kB)


Using cached holidays-0.75-py3-none-any.whl (1.0 MB)


Installing collected packages: holidays


Successfully installed holidays-0.75


Note: you may need to restart the kernel to use updated packages.


In [3]:
# Abrimos el archivo YAML de configuración ubicado en el directorio '../../configBD/config.yml'.
# Este archivo contiene los parámetros de conexión a la base de datos.
with open('../../configBD/config.yml', 'r') as f:
    # Cargamos el archivo YAML usando la función safe_load de la librería 'yaml'.
    # Esto convierte el contenido del archivo en un diccionario de Python.
    config = yaml.safe_load(f)

    # Extraemos la configuración específica para la base de datos 'bodega'.
    # Se asume que el archivo YAML tiene una sección llamada 'bodega' con los detalles de conexión.
    config_etl = config['bodega']
    config_bd  = config['mensajeria']

config_etl

{'driver': 'postgresql+psycopg2',
 'host': 'proyectobodega.postgres.database.azure.com',
 'port': 5432,
 'user': 'adminbodega',
 'password': 'Goddess9039',
 'db': 'proyectobodega'}

In [4]:
# Construimos la URL de conexión a la base de datos usando los parámetros extraídos del archivo YAML.
# Esta URL sigue el formato estándar de SQLAlchemy: 'driver://user:password@host:port/dbname'.
url_bd = (f"{config_bd['driver']}://{config_bd['user']}:{config_bd['password']}@{config_bd['host']}:"
          f"{config_bd['port']}/{config_bd['db']}")
url_bd

'postgresql://postgres:Ec94@localhost:5432/proyecto'

In [5]:
url_etl = (f"{config_etl['driver']}://{config_etl['user']}:{config_etl['password']}@{config_etl['host']}:"
           f"{config_etl['port']}/{config_etl['db']}")
url_etl

'postgresql+psycopg2://adminbodega:Goddess9039@proyectobodega.postgres.database.azure.com:5432/proyectobodega'

In [6]:
# Creamos el motor de conexión a la base de datos usando SQLAlchemy.
# El motor de conexión se usa para ejecutar consultas y transacciones en la base de datos.
cliente_bd  = create_engine(url_bd)
cliente_etl = create_engine(url_etl)

In [7]:
dim_mensajero = pd.read_sql_table('dim_mensajero', url_etl)
dim_cliente = pd.read_sql_table('dim_cliente', url_etl)
dim_sede = pd.read_sql_table('dim_sede', url_etl)
dim_tiempo = pd.read_sql_table('dim_tiempo', url_etl)
# Catálogo y tablas operativas
cat_tipo_nov = pd.read_sql_table('mensajeria_tiponovedad', url_bd)
servicios = pd.read_sql_table('mensajeria_servicio', url_bd)
destinos = pd.read_sql_table('mensajeria_destinoservicio', url_bd) 
medidas_tiempo = pd.read_sql_table('clientes_mensajeroaquitoy', url_bd)
# si tu servicio apunta a destino\n


In [8]:
novedades = pd.read_sql_table('mensajeria_novedadesservicio', url_bd)
novedades['fecha_novedad'] = pd.to_datetime(novedades['fecha_novedad']).dt.date


In [9]:
# Copia base
fact_novedades = novedades.copy()

# -------- 1) TiempoKey --------
fact_novedades['TiempoReporte'] = pd.to_datetime(fact_novedades['fecha_novedad'])
fact_novedades['FechaReporteStr'] = fact_novedades['TiempoReporte'].dt.strftime('%Y-%m-%d')

# Renombrar para que pandas las detecte bien
dim_tiempo = dim_tiempo.rename(columns={"Año": "year", "Mes": "month", "Dia": "day"})

# Crear columna de fecha
dim_tiempo["fecha"] = pd.to_datetime(dim_tiempo[["year", "month", "day"]])
dim_tiempo['FechaStr'] = dim_tiempo['fecha'].dt.strftime('%Y-%m-%d')

fact_novedades = fact_novedades.merge(
    dim_tiempo[['tiempo_key', 'FechaStr']], 
    left_on='FechaReporteStr', 
    right_on='FechaStr', how='left'
).rename(columns={'tiempo_key':'TiempoKey'}).drop(columns=['FechaStr', 'FechaReporteStr'])

# -------- 2) Atributos del tipo de novedad --------
# Si 'categoria' y 'gravedad' NO existen en 'mensajeria_tiponovedad', primero verifica nombres
print("Columnas en cat_tipo_nov:", cat_tipo_nov.columns.tolist())

fact_novedades = fact_novedades.merge(
    servicios[['id', 'destino_id', 'cliente_id']],
    left_on='servicio_id', right_on='id', how='left'
).rename(columns={'destino_id':'destino_id_lookup','cliente_id':'cliente_id_serv'}) 
print(fact_novedades.columns.tolist())


# Merge con destinos
fact_novedades = fact_novedades.merge(
    destinos[['id', 'ciudad_id', 'cliente_id']],
    left_on='destino_id_lookup', right_on='id', how='left'
).rename(columns={'ciudad_id':'ciudad_id_lookup','cliente_id':'cliente_id_lookup'})
print(fact_novedades.columns.tolist())

# Justo antes del merge con cat_tipo_nov
tipo_dict = cat_tipo_nov.set_index('id')['nombre']
fact_novedades['TipoNovedad'] = fact_novedades['tipo_novedad_id'].map(tipo_dict)


# fact_novedades['CategoriaNovedad'] = pd.NA




# fact_novedades['Gravedad'] = pd.NA

# Define un diccionario de gravedad
grav_map = {
    1: 'alta',
    2: 'baja'
}

# Mapea según tipo_novedad_id
fact_novedades['Gravedad'] = fact_novedades['tipo_novedad_id'].map(grav_map)



# Usar el cliente asociado al servicio (cliente_id_serv)
fact_novedades = fact_novedades.merge(
    dim_cliente[['ClienteKey', 'cliente_id']],
    left_on='cliente_id_serv',     # <— Lado izquierdo
    right_on='cliente_id',         # <— Lado derecho en la dimensión
    how='left'
).drop(columns=['cliente_id'])     # Elimina duplicado si no lo necesitas
print(fact_novedades.columns.tolist())


fact_novedades = fact_novedades.merge(
    dim_sede[['SedeKey', 'ciudad_id', 'cliente_id']],
    left_on=['ciudad_id_lookup', 'cliente_id_lookup'],
    right_on=['ciudad_id',       'cliente_id'],
    how='left'
).drop(columns=['ciudad_id', 'cliente_id'])  # ya no los necesitas del lado derecho
print(fact_novedades.columns.tolist())


# -------- 4) MensajeroKey --------
fact_novedades = fact_novedades.merge(dim_mensajero[['MensajeroKey','user_id']],
                                      left_on='mensajero_id', right_on='user_id', how='left')
print(fact_novedades.columns.tolist())


# -------- 5) Campos faltantes (por ahora NULL / default) --------
# fact_novedades['TiempoResolucion'] = pd.NaT
# 0) Asegúrate de tener cargada la tabla de medidas de tiempo:
# medidas_tiempo = pd.read_sql_table('clientes_mensajeroaquitoy', url_bd)

# 1) Merge de las fechas de entrada y salida (ajusta la llave si no es 'servicio_id')
fact_novedades = fact_novedades.merge(
    medidas_tiempo[['user_id', 'fecha_entrada', 'fecha_salida', 'salario']],
    on='user_id',
    how='left'
)

# 2) Convierte a datetime
fact_novedades['fecha_entrada'] = pd.to_datetime(fact_novedades['fecha_entrada'])
fact_novedades['fecha_salida']  = pd.to_datetime(fact_novedades['fecha_salida'])
fact_novedades['year_entrada'] = fact_novedades['fecha_entrada'].dt.year


# 3) Calcula el delta (queda NaT si falta alguna fecha)
fact_novedades['TiempoResolucion'] = (
    fact_novedades['fecha_salida'] - fact_novedades['fecha_entrada']
)

porc_map = {year: 0.10 + 0.02*(year - 2015) for year in range(2015, 2025)}

fact_novedades['CostoAdicional'] = (
    fact_novedades['salario'] * 
    fact_novedades['year_entrada'].map(porc_map)
)

# 4) Reemplaza los NaT por los mensajes según el caso
cond_both_null   = fact_novedades['fecha_entrada'].isna() & fact_novedades['fecha_salida'].isna()
cond_ent_null    = fact_novedades['fecha_entrada'].isna() & fact_novedades['fecha_salida'].notna()
cond_sal_null    = fact_novedades['fecha_entrada'].notna() & fact_novedades['fecha_salida'].isna()

fact_novedades.loc[cond_both_null, 'TiempoResolucion'] = 'fecha entrada y salida son nulas'
fact_novedades.loc[cond_ent_null,  'TiempoResolucion'] = 'fecha de entrada es nula'
fact_novedades.loc[cond_sal_null,  'TiempoResolucion'] = 'fecha de salida es nula'



# 4) Si ya no necesitas las columnas originales, las puedes eliminar
fact_novedades = fact_novedades.drop(
    columns=['fecha_entrada', 'fecha_salida','salario', 'year_entrada'],
    errors='ignore'
)

# fact_novedades['DuracionMinutos'] = pd.NA
# fact_novedades['ImpactoEntrega'] = pd.NA
# fact_novedades['RetrasoMinutos'] = pd.NA
fact_novedades['Solucion'] = pd.NA


# Asigna texto según Gravedad
fact_novedades.loc[
    fact_novedades['Gravedad'] == 'alta',
    'Solucion'
] = 'Escalar inmediatamente al equipo de soporte y priorizar resolución.'

fact_novedades.loc[
    fact_novedades['Gravedad'] == 'baja',
    'Solucion'
] = 'Registrar y programar en el próximo mantenimiento rutinario.'

# 5) Contador de novedades por servicio y tipo
fact_novedades['ContadorNovedad'] = (
    fact_novedades
      .groupby(['servicio_id','TipoNovedad'])['TipoNovedad']
      .transform('count')
)


# — Renombra la descripción para que case con tu esquema —
fact_novedades = fact_novedades.rename(
    columns={'descripcion': 'Descripcion'}
)

# — Borra todo lo que sobró de los merges —
to_drop = [
    'id_x','id_y','id','user_id',
    'ciudad_id_lookup','cliente_id_lookup','cliente_id_serv','destino_id_lookup'
]
fact_novedades = fact_novedades.drop(columns=to_drop, errors='ignore')


# -------- 6) Columnas finales --------
# cols = [
#     'TiempoKey', 'MensajeroKey', 'ClienteKey', 'SedeKey',
#     'TipoNovedad', 'CategoriaNovedad', 'Gravedad', 'Descripcion',
#     'TiempoReporte', 'TiempoResolucion', 'DuracionMinutos',
#     'ImpactoEntrega', 'RetrasoMinutos', 'Solucion', 'CostoAdicional',
#     'ContadorNovedad'
# ]
# fact_novedades = fact_novedades[cols]

cols = [
    'TiempoKey', 'MensajeroKey', 'ClienteKey', 'SedeKey',
    'TipoNovedad', 'Gravedad', 'Descripcion',
    'TiempoReporte', 'TiempoResolucion', 'Solucion', 'CostoAdicional',
    'ContadorNovedad'
]
fact_novedades = fact_novedades[cols]


Columnas en cat_tipo_nov: ['id', 'nombre']
['id_x', 'fecha_novedad', 'tipo_novedad_id', 'descripcion', 'servicio_id', 'es_prueba', 'mensajero_id', 'TiempoReporte', 'TiempoKey', 'id_y', 'destino_id_lookup', 'cliente_id_serv']
['id_x', 'fecha_novedad', 'tipo_novedad_id', 'descripcion', 'servicio_id', 'es_prueba', 'mensajero_id', 'TiempoReporte', 'TiempoKey', 'id_y', 'destino_id_lookup', 'cliente_id_serv', 'id', 'ciudad_id_lookup', 'cliente_id_lookup']
['id_x', 'fecha_novedad', 'tipo_novedad_id', 'descripcion', 'servicio_id', 'es_prueba', 'mensajero_id', 'TiempoReporte', 'TiempoKey', 'id_y', 'destino_id_lookup', 'cliente_id_serv', 'id', 'ciudad_id_lookup', 'cliente_id_lookup', 'TipoNovedad', 'Gravedad', 'ClienteKey']
['id_x', 'fecha_novedad', 'tipo_novedad_id', 'descripcion', 'servicio_id', 'es_prueba', 'mensajero_id', 'TiempoReporte', 'TiempoKey', 'id_y', 'destino_id_lookup', 'cliente_id_serv', 'id', 'ciudad_id_lookup', 'cliente_id_lookup', 'TipoNovedad', 'Gravedad', 'ClienteKey', 'SedeK

  fact_novedades.loc[cond_both_null, 'TiempoResolucion'] = 'fecha entrada y salida son nulas'


In [10]:
novedades

Unnamed: 0,id,fecha_novedad,tipo_novedad_id,descripcion,servicio_id,es_prueba,mensajero_id
0,4,2023-11-30,1,A,51,True,7
1,5,2023-11-30,1,Halo,51,True,7
2,6,2023-11-30,1,A,51,True,7
3,7,2023-11-30,1,B,51,True,7
4,8,2023-11-30,1,A,51,True,7
...,...,...,...,...,...,...,...
5203,5246,2024-08-31,1,"Facturaron el refrigerante equivocado, se hará...",28455,True,27
5204,5247,2024-08-31,2,Edte drrvicio lo hace angelo,28464,True,25
5205,5248,2024-08-31,2,Edte lo hace csrlos,28467,True,25
5206,5249,2024-08-31,2,Este lohace csrlos,28466,True,25


In [11]:
# 7) Volcar fact_novedades al Data Warehouse
fact_novedades.to_sql(
    'fact_novedades',    # nombre de la tabla destino
    cliente_etl,          # engine de SQLAlchemy apuntando al DW
    if_exists='replace',  # reemplaza la tabla si ya existía
    index=False           # no escribir el índice de pandas
)


946