In [1]:
import datetime

import numpy as np
import pandas as pd
import yaml
from sqlalchemy import create_engine
from datetime import  timedelta

In [2]:
# Abrimos el archivo YAML de configuración ubicado en el directorio '../../configBD/config.yml'.
# Este archivo contiene los parámetros de conexión a la base de datos.
with open('../../configBD/config.yml', 'r') as f:
    # Cargamos el archivo YAML usando la función safe_load de la librería 'yaml'.
    # Esto convierte el contenido del archivo en un diccionario de Python.
    config = yaml.safe_load(f)

    # Extraemos la configuración específica para la base de datos 'rapidofuriosos'.
    # Se asume que el archivo YAML tiene una sección llamada 'rapidofuriosos' con los detalles de conexión.
    config_rp = config['rapidofuriosos']
    config_etl = config['bodega']

# Construimos la URL de conexión a la base de datos usando los parámetros extraídos del archivo YAML.
# Esta URL sigue el formato estándar de SQLAlchemy: 'driver://user:password@host:port/dbname'.
url_rp = (f"{config_rp['driver']}://{config_rp['user']}:{config_rp['password']}@{config_rp['host']}:"
          f"{config_rp['port']}/{config_rp['db']}")
url_etl = (f"{config_etl['driver']}://{config_etl['user']}:{config_etl['password']}@{config_etl['host']}:"
           f"{config_etl['port']}/{config_etl['db']}")
# Create the SQLAlchemy Engine

etl_conn = create_engine(url_etl)
# Creamos el motor de conexión a la base de datos usando SQLAlchemy.
# El motor de conexión se usa para ejecutar consultas y transacciones en la base de datos.
rf_db = create_engine(url_rp)

In [3]:
dim_mensajero = pd.read_sql_table('dim_mensajero', etl_conn)
dim_fecha = pd.read_sql_table('dim_fecha', etl_conn)
dim_tiempo = pd.read_sql_table('dim_tiempo', etl_conn)

Obteniendo el mensajero y relacionando con Key de la dim mensajero

In [4]:
# # Extraer las columnas necesarias de mensajeria_servicio
# mensajeria_servicio = pd.read_sql_table('mensajeria_servicio', rf_db, columns=['id', 'mensajero_id', 'mensajero2_id', 'mensajero3_id'])


# # Cargar la tabla mensajeria_estadosservicio completa
# mensajeria_servicio_estado = pd.read_sql_table('mensajeria_estadosservicio', rf_db)

# mensajeria_servicio_estado.head()

# # Filtrar mensajeria_servicio_estado para quedarnos solo con los registros con estado_id 5
# estado_filtrado = mensajeria_servicio_estado[mensajeria_servicio_estado['estado_id'] == 5]





# # # Unir mensajeria_servicio con estado_filtrado usando la columna 'id' como referencia
# # # Esto deja solo los registros de mensajeria_servicio que tienen un estado_id de 5 en mensajeria_servicio_estado
# mensajeria_servicio_filtrado = estado_filtrado.merge(
#     mensajeria_servicio,
#     left_on='servicio_id',  # Columna de estado_filtrado que deseas usar para la unión
#     right_on='id',          # Columna de mensajeria_servicio que deseas comparar
#     how='inner'             # Solo mantiene las coincidencias
# )

# mensajeria_servicio_filtrado.head()

# # mensajeria_servicio_filtrado.head()


# # mensajeria_servicio_filtrado = mensajeria_servicio_filtrado.assign(
# #     mensajero_id=(
# #         mensajeria_servicio_filtrado['mensajero3_id']
# #         .fillna(mensajeria_servicio_filtrado['mensajero2_id'])
# #         .fillna(mensajeria_servicio_filtrado['mensajero_id'])
# #     )
# # )


# # mensajeria_servicio_filtrado = pd.merge(
# #     mensajeria_servicio_filtrado[['id', 'mensajero_id']], 
# #     dim_mensajero[['key_dim_mensajero', 'user_id']],
# #     left_on='mensajero_id',  
# #     right_on='user_id',        
# #     how='inner'
# # )
# # mensajeria_servicio_filtrado = mensajeria_servicio_filtrado[['id', 'key_dim_mensajero']]
# # mensajeria_servicio_filtrado.head()




In [5]:
# Cargar ambas tablas
mensajeria_servicio = pd.read_sql_table('mensajeria_servicio', rf_db, columns=['id', 'mensajero_id', 'mensajero2_id', 'mensajero3_id'])
mensajeria_servicio_estado = pd.read_sql_table('mensajeria_estadosservicio', rf_db)

# Filtrar servicios que tienen exactamente los estados 1, 2, 4, y 5
estados_requeridos = {1, 2, 4, 5}
servicios_con_estados_requeridos = (
    mensajeria_servicio_estado[mensajeria_servicio_estado['estado_id'].isin(estados_requeridos)]
    .groupby('servicio_id')['estado_id']
    .apply(set)
    .reset_index()
)

# Filtrar solo aquellos servicios que contienen todos los estados requeridos
servicios_completos = servicios_con_estados_requeridos[servicios_con_estados_requeridos['estado_id'] == estados_requeridos]['servicio_id']

# Filtrar la tabla `mensajeria_servicio_estado` para incluir solo los registros de estos servicios completos
servicios_estados = mensajeria_servicio_estado[mensajeria_servicio_estado['servicio_id'].isin(servicios_completos)]

# Pivotar los datos para que cada servicio tenga una fila con columnas para cada estado,
servicios_pivot = servicios_estados.pivot_table(
    index='servicio_id',
    columns='estado_id',
    values=['fecha', 'hora'],
    aggfunc='last'
)

# Aplanar el índice de columnas, concatenando 'fecha' y 'hora' con el `estado_id`
servicios_pivot.columns = [f'{col[0]}_estado_{col[1]}' for col in servicios_pivot.columns]
servicios_pivot = servicios_pivot.reset_index()

# Eliminar las columnas de novedad (estado_id = 3) antes de proceder
servicios_pivot = servicios_pivot.drop(columns=['fecha_estado_3', 'hora_estado_3'], errors='ignore')

# Unir con `mensajeria_servicio` para obtener el `mensajero_id`
mensajeria_servicio = mensajeria_servicio.assign(
    mensajero_id=(
        mensajeria_servicio['mensajero3_id']
        .fillna(mensajeria_servicio['mensajero2_id'])
        .fillna(mensajeria_servicio['mensajero_id'])
    )
)

# Unir las columnas `mensajero_id` al DataFrame pivotado
resultado = pd.merge(
    servicios_pivot,
    mensajeria_servicio[['id', 'mensajero_id']],
    left_on='servicio_id',
    right_on='id',
    how='inner'
)

# Eliminar columnas redundantes y renombrar si es necesario
resultado = resultado.drop(columns=['id']).rename(columns={'servicio_id': 'id_servicio'})

# Renombramiento de columnas excluyendo el estado de novedad
nuevos_nombres = {
    'fecha_estado_1': 'key_fecha_iniciado',
    'hora_estado_1': 'key_hora_iniciado',
    'fecha_estado_2': 'key_fecha_con_mensajero_asignado',
    'hora_estado_2': 'key_hora_con_mensajero_asignado',
    'fecha_estado_4': 'key_fecha_recogido_por_mensajero',
    'hora_estado_4': 'key_hora_recogido_por_mensajero',
    'fecha_estado_5': 'key_fecha_entregado_en_destino',
    'hora_estado_5': 'key_hora_entregado_en_destino',
    'fecha_estado_6': 'key_fecha_terminado_completo',
    'hora_estado_6': 'key_hora_terminado_completo',
    'mensajero_id': 'key_dim_mensajero'
}
resultado.rename(columns=nuevos_nombres, inplace=True)

# Convertir las columnas de hora a formato "HH:MM:SS", eliminando fracciones de segundos
for col in [col for col in resultado.columns if col.startswith('key_hora_')]:
    resultado[col] = pd.to_datetime(resultado[col].astype(str).str.split('.').str[0], format='%H:%M:%S').dt.time

# Contar valores no nulos en cada columna para ver el resultado final
resultado.head()



Unnamed: 0,id_servicio,key_fecha_iniciado,key_fecha_con_mensajero_asignado,key_fecha_recogido_por_mensajero,key_fecha_entregado_en_destino,key_fecha_terminado_completo,key_hora_iniciado,key_hora_con_mensajero_asignado,key_hora_recogido_por_mensajero,key_hora_entregado_en_destino,key_hora_terminado_completo,key_dim_mensajero
0,7,2023-09-19,2023-10-13,2023-10-31,2023-10-31,2023-10-31,16:22:18,17:51:20,12:02:48,17:07:55,12:16:00,7.0
1,8,2023-09-19,2023-12-20,2024-02-14,2024-04-09,NaT,16:30:05,20:14:43,15:34:18,16:08:35,NaT,7.0
2,10,2023-09-19,2023-12-28,2024-02-18,2024-03-10,NaT,16:35:52,19:33:07,00:21:47,09:58:27,NaT,7.0
3,12,2023-09-19,2023-10-07,2023-10-29,2023-10-29,2023-10-29,16:49:17,13:47:47,00:41:36,00:44:22,00:46:00,7.0
4,13,2023-09-19,2023-10-07,2023-10-13,2024-01-02,2024-01-02,16:52:14,13:08:30,23:55:07,03:32:02,03:32:31,7.0


In [6]:

# Definir los estados en el orden que ocurren
nombres_estados = [
    'iniciado',
    'con_mensajero_asignado',
    'recogido_por_mensajero',
    'entregado_en_destino',
    'terminado_completo'
]

# Reemplazar valores nulos en 'terminado_completo' con 'entregado_en_destino' antes de los cálculos
resultado['key_fecha_terminado_completo'] = resultado['key_fecha_terminado_completo'].fillna(resultado['key_fecha_entregado_en_destino'])
resultado['key_hora_terminado_completo'] = resultado['key_hora_terminado_completo'].fillna(resultado['key_hora_entregado_en_destino'])

# Marcar registros con tiempos negativos para su eliminación
registros_a_eliminar = []

for i in range(len(nombres_estados) - 1):
    estado_actual = nombres_estados[i]
    estado_siguiente = nombres_estados[i + 1]
    
    # Definir nombres de las columnas de fecha y hora para el estado actual y el siguiente
    fecha_actual = f'key_fecha_{estado_actual}'
    hora_actual = f'key_hora_{estado_actual}'
    fecha_siguiente = f'key_fecha_{estado_siguiente}'
    hora_siguiente = f'key_hora_{estado_siguiente}'
    
    # Calcular tiempo entre estados
    tiempo_actual = pd.to_datetime(resultado[fecha_actual], errors='coerce') + pd.to_timedelta(resultado[hora_actual].astype(str), errors='coerce')
    tiempo_siguiente = pd.to_datetime(resultado[fecha_siguiente], errors='coerce') + pd.to_timedelta(resultado[hora_siguiente].astype(str), errors='coerce')
    diferencia_tiempo = tiempo_siguiente - tiempo_actual

    # Identificar filas con tiempos negativos
    registros_con_tiempo_negativo = diferencia_tiempo[diferencia_tiempo < pd.Timedelta(0)].index.tolist()
    registros_a_eliminar.extend(registros_con_tiempo_negativo)

# Filtrar registros con tiempo total negativo
tiempo_inicio = pd.to_datetime(resultado['key_fecha_iniciado'], errors='coerce') + pd.to_timedelta(resultado['key_hora_iniciado'].astype(str), errors='coerce')
tiempo_final = pd.to_datetime(resultado['key_fecha_terminado_completo'], errors='coerce') + pd.to_timedelta(resultado['key_hora_terminado_completo'].astype(str), errors='coerce')
diferencia_total = tiempo_final - tiempo_inicio

registros_con_tiempo_total_negativo = diferencia_total[diferencia_total < pd.Timedelta(0)].index.tolist()
registros_a_eliminar.extend(registros_con_tiempo_total_negativo)

# Eliminar filas con problemas de tiempo negativo
resultado_filtrado = resultado.drop(index=set(registros_a_eliminar)).reset_index(drop=True)

# Realizar los cálculos de tiempos restantes con el DataFrame filtrado
for i in range(len(nombres_estados) - 1):
    estado_actual = nombres_estados[i]
    estado_siguiente = nombres_estados[i + 1]
    
    # Definir nombres de las columnas de fecha y hora para el estado actual y el siguiente
    fecha_actual = f'key_fecha_{estado_actual}'
    hora_actual = f'key_hora_{estado_actual}'
    fecha_siguiente = f'key_fecha_{estado_siguiente}'
    hora_siguiente = f'key_hora_{estado_siguiente}'
    
    # Calcular tiempo entre estados
    tiempo_actual = pd.to_datetime(resultado_filtrado[fecha_actual], errors='coerce') + pd.to_timedelta(resultado_filtrado[hora_actual].astype(str), errors='coerce')
    tiempo_siguiente = pd.to_datetime(resultado_filtrado[fecha_siguiente], errors='coerce') + pd.to_timedelta(resultado_filtrado[hora_siguiente].astype(str), errors='coerce')
    diferencia_tiempo = tiempo_siguiente - tiempo_actual

    # Convertir la diferencia a "HH:MM:SS" y agregarla al DataFrame
    resultado_filtrado[f'tiempo_espera_{estado_actual}_a_{estado_siguiente}'] = diferencia_tiempo.apply(
        lambda x: f"{int(x.components.hours):02}:{int(x.components.minutes):02}:{int(x.components.seconds):02}" if pd.notnull(x) and x >= pd.Timedelta(0) else "00:01:00"
    )

# Calcular tiempo total del servicio
diferencia_total = tiempo_final - tiempo_inicio
resultado_filtrado['tiempo_total_servicio'] = diferencia_total.apply(
    lambda x: f"{int(x.components.hours + x.components.days * 24):02}:{int(x.components.minutes):02}:{int(x.components.seconds):02}" if pd.notnull(x) and x >= pd.Timedelta(0) else "00:01:00"
)

# Exportar el resultado filtrado
resultado_filtrado.head()

Unnamed: 0,id_servicio,key_fecha_iniciado,key_fecha_con_mensajero_asignado,key_fecha_recogido_por_mensajero,key_fecha_entregado_en_destino,key_fecha_terminado_completo,key_hora_iniciado,key_hora_con_mensajero_asignado,key_hora_recogido_por_mensajero,key_hora_entregado_en_destino,key_hora_terminado_completo,key_dim_mensajero,tiempo_espera_iniciado_a_con_mensajero_asignado,tiempo_espera_con_mensajero_asignado_a_recogido_por_mensajero,tiempo_espera_recogido_por_mensajero_a_entregado_en_destino,tiempo_espera_entregado_en_destino_a_terminado_completo,tiempo_total_servicio
0,8,2023-09-19,2023-12-20,2024-02-14,2024-04-09,2024-04-09,16:30:05,20:14:43,15:34:18,16:08:35,16:08:35,7.0,03:44:38,19:19:35,00:34:17,00:00:00,1003:53:42
1,10,2023-09-19,2023-12-28,2024-02-18,2024-03-10,2024-03-10,16:35:52,19:33:07,00:21:47,09:58:27,09:58:27,7.0,02:57:15,04:48:40,09:36:40,00:00:00,4871:38:30
2,12,2023-09-19,2023-10-07,2023-10-29,2023-10-29,2023-10-29,16:49:17,13:47:47,00:41:36,00:44:22,00:46:00,7.0,20:58:30,10:53:49,00:02:46,00:01:38,4145:22:35
3,13,2023-09-19,2023-10-07,2023-10-13,2024-01-02,2024-01-02,16:52:14,13:08:30,23:55:07,03:32:02,03:32:31,7.0,20:16:16,10:46:37,03:36:55,00:00:29,943:56:43
4,14,2023-09-19,2023-10-07,2024-02-22,2024-02-23,2024-03-26,16:59:50,13:07:23,16:00:36,12:09:52,16:22:36,7.0,20:07:33,02:53:13,20:09:16,04:12:44,2506:40:17


In [7]:
#FECHA INICIADO
resultado_filtrado['key_fecha_iniciado'] = pd.to_datetime(resultado_filtrado['key_fecha_iniciado']).dt.date
dim_fecha['date'] = pd.to_datetime(dim_fecha['date']).dt.date

resultado_filtrado = resultado_filtrado.merge(dim_fecha, how='left', left_on='key_fecha_iniciado', right_on='date')

resultado_filtrado.rename(columns={'key_dim_fecha': 'id_fecha_iniciado'}, inplace=True)
resultado_filtrado.drop(columns=['date', 'Fecha_id', 'ano', 'mes', 'dia', 'dia_semana', 'nombre_dia', 'nombre_mes', 'key_fecha_iniciado'], inplace=True)

#FECHA MENSAJERO ASIGNADO

resultado_filtrado['key_fecha_con_mensajero_asignado'] = pd.to_datetime(resultado_filtrado['key_fecha_con_mensajero_asignado']).dt.date

resultado_filtrado = resultado_filtrado.merge(dim_fecha, how='left', left_on='key_fecha_con_mensajero_asignado', right_on='date')

resultado_filtrado.rename(columns={'key_dim_fecha': 'id_fecha_con_mensajero_asignado'}, inplace=True)

resultado_filtrado.drop(columns=['date', 'Fecha_id', 'ano', 'mes', 'dia', 'dia_semana', 'nombre_dia', 'nombre_mes', 'key_fecha_con_mensajero_asignado'], inplace=True)

#FECHA RECOGIDO
resultado_filtrado['key_fecha_recogido_por_mensajero'] = pd.to_datetime(resultado_filtrado['key_fecha_recogido_por_mensajero']).dt.date
dim_fecha['date'] = pd.to_datetime(dim_fecha['date']).dt.date

resultado_filtrado = resultado_filtrado.merge(dim_fecha, how='left', left_on='key_fecha_recogido_por_mensajero', right_on='date')

resultado_filtrado.rename(columns={'key_dim_fecha': 'id_fecha_recogido_por_mensajero'}, inplace=True)
resultado_filtrado.drop(
    columns=['date', 'Fecha_id', 'ano', 'mes', 'dia', 'dia_semana', 'nombre_dia', 'nombre_mes', 'key_fecha_recogido_por_mensajero'],
    inplace=True)

#FECHA ENTREGADO

resultado_filtrado['key_fecha_entregado_en_destino'] = pd.to_datetime(
    resultado_filtrado['key_fecha_entregado_en_destino']).dt.date

resultado_filtrado = resultado_filtrado.merge(dim_fecha, how='left', left_on='key_fecha_entregado_en_destino',
                                              right_on='date')

resultado_filtrado.rename(columns={'key_dim_fecha': 'id_fecha_entregado_en_destino'}, inplace=True)

resultado_filtrado.drop(columns=['date', 'Fecha_id', 'ano', 'mes', 'dia', 'dia_semana', 'nombre_dia', 'nombre_mes',
                                 'key_fecha_entregado_en_destino'], inplace=True)

#FECHA TERMINADO
resultado_filtrado['key_fecha_terminado_completo'] = pd.to_datetime(
    resultado_filtrado['key_fecha_terminado_completo']).dt.date

resultado_filtrado = resultado_filtrado.merge(dim_fecha, how='left', left_on='key_fecha_terminado_completo',
                                              right_on='date')

resultado_filtrado.rename(columns={'key_dim_fecha': 'id_fecha_terminado_completo'}, inplace=True)

resultado_filtrado.drop(columns=['date', 'Fecha_id', 'ano', 'mes', 'dia', 'dia_semana', 'nombre_dia', 'nombre_mes',
                                 'key_fecha_terminado_completo'], inplace=True)


resultado_filtrado

Unnamed: 0,id_servicio,key_hora_iniciado,key_hora_con_mensajero_asignado,key_hora_recogido_por_mensajero,key_hora_entregado_en_destino,key_hora_terminado_completo,key_dim_mensajero,tiempo_espera_iniciado_a_con_mensajero_asignado,tiempo_espera_con_mensajero_asignado_a_recogido_por_mensajero,tiempo_espera_recogido_por_mensajero_a_entregado_en_destino,tiempo_espera_entregado_en_destino_a_terminado_completo,tiempo_total_servicio,id_fecha_iniciado,id_fecha_con_mensajero_asignado,id_fecha_recogido_por_mensajero,id_fecha_entregado_en_destino,id_fecha_terminado_completo
0,8,16:30:05,20:14:43,15:34:18,16:08:35,16:08:35,7.0,03:44:38,19:19:35,00:34:17,00:00:00,1003:53:42,8662,8754,8810,8865,8865
1,10,16:35:52,19:33:07,00:21:47,09:58:27,09:58:27,7.0,02:57:15,04:48:40,09:36:40,00:00:00,4871:38:30,8662,8762,8814,8835,8835
2,12,16:49:17,13:47:47,00:41:36,00:44:22,00:46:00,7.0,20:58:30,10:53:49,00:02:46,00:01:38,4145:22:35,8662,8680,8702,8702,8702
3,13,16:52:14,13:08:30,23:55:07,03:32:02,03:32:31,7.0,20:16:16,10:46:37,03:36:55,00:00:29,943:56:43,8662,8680,8686,8767,8767
4,14,16:59:50,13:07:23,16:00:36,12:09:52,16:22:36,7.0,20:07:33,02:53:13,20:09:16,04:12:44,2506:40:17,8662,8680,8818,8819,8851
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
26371,28462,12:30:21,12:31:24,12:31:47,13:02:27,13:02:27,16.0,00:01:03,00:00:23,00:30:40,00:00:00,01:59:39,9009,9009,9009,9009,9009
26372,28463,12:35:44,12:38:07,12:45:19,13:17:06,13:17:06,25.0,00:02:23,00:07:12,00:31:47,00:00:00,01:15:05,9009,9009,9009,9009,9009
26373,28464,12:48:13,13:25:01,13:38:22,13:57:35,13:57:35,18.0,00:36:48,00:13:21,00:19:13,00:00:00,01:13:47,9009,9009,9009,9009,9009
26374,28465,13:31:15,13:41:25,14:33:49,15:22:35,15:22:35,32.0,00:10:10,00:52:24,00:48:46,00:00:00,19:40:26,9009,9009,9009,9009,9009


In [8]:
#KEY HORA INICIADO

# Asegúrate de que 'hora_solicitud' sea un objeto datetime.time
resultado_filtrado['key_hora_iniciado'] = resultado_filtrado['key_hora_iniciado'].apply(lambda x: f"{x.hour:02}:00:00")
dim_tiempo['hora'] = dim_tiempo['hora'].astype(str)
dim_tiempo['id'] = dim_tiempo.index
# Hacer un merge para obtener el id correspondiente
resultado_filtrado = resultado_filtrado.merge(dim_tiempo, how='left', left_on='key_hora_iniciado', right_on='hora')
resultado_filtrado.rename(columns={'id': 'id_hora_iniciado'}, inplace=True)
resultado_filtrado.drop(columns=['key_hora_iniciado', 'key_hora_iniciado', 'hora', 'tiempo_id'], inplace=True)
#resultado_filtrado.rename(columns={'hora': 'key_hora_iniciado'})

#KEY MENSAJERO ASIGNADO
resultado_filtrado['key_hora_con_mensajero_asignado'] = resultado_filtrado['key_hora_con_mensajero_asignado'].apply(lambda x: f"{x.hour:02}:00:00")

# Hacer un merge para obtener el id correspondiente
resultado_filtrado = resultado_filtrado.merge(dim_tiempo, how='left', left_on='key_hora_con_mensajero_asignado', right_on='hora')
resultado_filtrado.rename(columns={'id': 'id_hora_con_mensajero_asignado'}, inplace=True)
resultado_filtrado.drop(columns=['key_hora_con_mensajero_asignado', 'hora', 'tiempo_id'], inplace=True)


#KEY RECOGIDO MENSAJERO
resultado_filtrado['key_hora_recogido_por_mensajero'] = resultado_filtrado['key_hora_recogido_por_mensajero'].apply(lambda x: f"{x.hour:02}:00:00")
resultado_filtrado = resultado_filtrado.merge(dim_tiempo, how='left', left_on='key_hora_recogido_por_mensajero', right_on='hora')
resultado_filtrado.rename(columns={'id': 'id_hora_recogido_por_mensajero'}, inplace=True)
resultado_filtrado.drop(columns=['key_hora_recogido_por_mensajero', 'hora', 'tiempo_id'], inplace=True)


#KEY HORA ENTREGADO
resultado_filtrado['key_hora_entregado_en_destino'] = resultado_filtrado['key_hora_entregado_en_destino'].apply(lambda x: f"{x.hour:02}:00:00")
resultado_filtrado = resultado_filtrado.merge(dim_tiempo, how='left', left_on='key_hora_entregado_en_destino', right_on='hora')
resultado_filtrado.rename(columns={'id': 'id_hora_entregado_en_destino'}, inplace=True)
resultado_filtrado.drop(columns=['key_hora_entregado_en_destino', 'hora', 'tiempo_id'], inplace=True)

#KEY HORA TERMINADO
resultado_filtrado['key_hora_terminado_completo'] = resultado_filtrado['key_hora_terminado_completo'].apply(lambda x: f"{x.hour:02}:00:00")
resultado_filtrado = resultado_filtrado.merge(dim_tiempo, how='left', left_on='key_hora_terminado_completo', right_on='hora')
resultado_filtrado.rename(columns={'id': 'id_hora_terminado_completo'}, inplace=True)
resultado_filtrado.drop(columns=['key_hora_terminado_completo', 'hora', 'tiempo_id'], inplace=True)

resultado_filtrado



Unnamed: 0,id_servicio,key_dim_mensajero,tiempo_espera_iniciado_a_con_mensajero_asignado,tiempo_espera_con_mensajero_asignado_a_recogido_por_mensajero,tiempo_espera_recogido_por_mensajero_a_entregado_en_destino,tiempo_espera_entregado_en_destino_a_terminado_completo,tiempo_total_servicio,id_fecha_iniciado,id_fecha_con_mensajero_asignado,id_fecha_recogido_por_mensajero,id_fecha_entregado_en_destino,id_fecha_terminado_completo,id_hora_iniciado,id_hora_con_mensajero_asignado,id_hora_recogido_por_mensajero,id_hora_entregado_en_destino,id_hora_terminado_completo
0,8,7.0,03:44:38,19:19:35,00:34:17,00:00:00,1003:53:42,8662,8754,8810,8865,8865,16,20,15,16,16
1,10,7.0,02:57:15,04:48:40,09:36:40,00:00:00,4871:38:30,8662,8762,8814,8835,8835,16,19,0,9,9
2,12,7.0,20:58:30,10:53:49,00:02:46,00:01:38,4145:22:35,8662,8680,8702,8702,8702,16,13,0,0,0
3,13,7.0,20:16:16,10:46:37,03:36:55,00:00:29,943:56:43,8662,8680,8686,8767,8767,16,13,23,3,3
4,14,7.0,20:07:33,02:53:13,20:09:16,04:12:44,2506:40:17,8662,8680,8818,8819,8851,16,13,16,12,16
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
26371,28462,16.0,00:01:03,00:00:23,00:30:40,00:00:00,01:59:39,9009,9009,9009,9009,9009,12,12,12,13,13
26372,28463,25.0,00:02:23,00:07:12,00:31:47,00:00:00,01:15:05,9009,9009,9009,9009,9009,12,12,12,13,13
26373,28464,18.0,00:36:48,00:13:21,00:19:13,00:00:00,01:13:47,9009,9009,9009,9009,9009,12,13,13,13,13
26374,28465,32.0,00:10:10,00:52:24,00:48:46,00:00:00,19:40:26,9009,9009,9009,9009,9009,13,13,14,15,15


In [9]:
resultado_filtrado.to_sql('Fact_Mensajeria_Cliente_Snapshot', url_etl, if_exists='replace', index=False)


376