In [2]:
import datetime

import numpy as np
import pandas as pd
import yaml
from sqlalchemy import create_engine
from datetime import  timedelta

In [3]:
# Abrimos el archivo YAML de configuración ubicado en el directorio '../../configBD/config.yml'.
# Este archivo contiene los parámetros de conexión a la base de datos.
with open('../../configBD/config.yml', 'r') as f:
    # Cargamos el archivo YAML usando la función safe_load de la librería 'yaml'.
    # Esto convierte el contenido del archivo en un diccionario de Python.
    config = yaml.safe_load(f)

    # Extraemos la configuración específica para la base de datos 'rapidofuriosos'.
    # Se asume que el archivo YAML tiene una sección llamada 'rapidofuriosos' con los detalles de conexión.
    config_rp = config['rapidofuriosos']
    config_etl = config['bodega']

# Construimos la URL de conexión a la base de datos usando los parámetros extraídos del archivo YAML.
# Esta URL sigue el formato estándar de SQLAlchemy: 'driver://user:password@host:port/dbname'.
url_rp = (f"{config_rp['driver']}://{config_rp['user']}:{config_rp['password']}@{config_rp['host']}:"
          f"{config_rp['port']}/{config_rp['db']}")
url_etl = (f"{config_etl['driver']}://{config_etl['user']}:{config_etl['password']}@{config_etl['host']}:"
           f"{config_etl['port']}/{config_etl['db']}")
# Create the SQLAlchemy Engine

etl_conn = create_engine(url_etl)
# Creamos el motor de conexión a la base de datos usando SQLAlchemy.
# El motor de conexión se usa para ejecutar consultas y transacciones en la base de datos.
rf_db = create_engine(url_rp)

In [4]:
dim_mensajero = pd.read_sql_table('dim_mensajero', etl_conn)
dim_fecha = pd.read_sql_table('dim_fecha', etl_conn)
dim_tiempo = pd.read_sql_table('dim_tiempo', etl_conn)

In [5]:
# Extraer las columnas necesarias de mensajeria_servicio
mensajeria_servicio = pd.read_sql_table('mensajeria_servicio', rf_db, columns=['id', 'mensajero_id', 'mensajero2_id', 'mensajero3_id'])


# Cargar la tabla mensajeria_estadosservicio completa
mensajeria_servicio_estado = pd.read_sql_table('mensajeria_estadosservicio', rf_db)

# Filtrar mensajeria_servicio_estado para quedarnos solo con los registros con estado_id 5
estado_filtrado = mensajeria_servicio_estado[mensajeria_servicio_estado['estado_id'] == 5]



# Unir mensajeria_servicio con estado_filtrado usando la columna 'id' como referencia
# Esto deja solo los registros de mensajeria_servicio que tienen un estado_id de 5 en mensajeria_servicio_estado
mensajeria_servicio_filtrado = mensajeria_servicio[mensajeria_servicio['id'].isin(estado_filtrado['servicio_id'])]



mensajeria_servicio_filtrado = mensajeria_servicio_filtrado.assign(
    mensajero_id=(
        mensajeria_servicio_filtrado['mensajero3_id']
        .fillna(mensajeria_servicio_filtrado['mensajero2_id'])
        .fillna(mensajeria_servicio_filtrado['mensajero_id'])
    )
)


mensajeria_servicio_filtrado = pd.merge(
    mensajeria_servicio_filtrado[['id', 'mensajero_id']], 
    dim_mensajero[['key_dim_mensajero', 'user_id']],
    left_on='mensajero_id',  
    right_on='user_id',        
    how='inner'
)
mensajeria_servicio_filtrado = mensajeria_servicio_filtrado[['id', 'key_dim_mensajero']]
mensajeria_servicio_filtrado.head()




Unnamed: 0,id,key_dim_mensajero
0,73,13
1,124,37
2,113,37
3,102,37
4,158,37


In [37]:
hecho_snapshot = pd.read_sql_table('mensajeria_servicio', rf_db, columns=['id', 'hora_solicitud'])

# Asegúrate de que 'hora_solicitud' sea un objeto datetime.time
hecho_snapshot['hora'] = hecho_snapshot['hora_solicitud'].apply(lambda x: f"{x.hour:02}:00:00")
hecho_snapshot_original = hecho_snapshot
# Imprimir el resultado
hecho_snapshot.head()


Unnamed: 0,id,hora_solicitud,hora
0,34,09:46:03,09:00:00
1,35,11:18:14,11:00:00
2,36,19:21:01,19:00:00
3,41,09:46:09,09:00:00
4,42,09:46:10,09:00:00


In [38]:
#dim_tiempo = pd.DataFrame({
 #   "hora": pd.date_range("00:00", "23:00", freq="H").time
#})
dim_tiempo['hora'] = dim_tiempo['hora'].astype(str)
dim_tiempo['id'] = dim_tiempo.index
# Hacer un merge para obtener el id correspondiente
hecho_snapshot = hecho_snapshot.merge(dim_tiempo, how='left', left_on='hora', right_on='hora', suffixes=('', 'key_hora_iniciado'))

hecho_snapshot = hecho_snapshot[['id', 'hora', 'key_hora_iniciado']]
# Revisar el resultado del merge
hecho_snapshot.head()

Unnamed: 0,id,hora,key_hora_iniciado
0,34,09:00:00,9
1,35,11:00:00,11
2,36,19:00:00,19
3,41,09:00:00,9
4,42,09:00:00,9


In [36]:
dim_tiempo['hora'] = dim_tiempo['hora'].astype(str)
dim_tiempo['id'] = dim_tiempo.index

hecho_snapshot = hecho_snapshot_original.copy()
dim_tiempo['key_hora_iniciado'] = dim_tiempo.index
# Hacer el merge para obtener el id correspondiente
hecho_snapshot = hecho_snapshot.merge(dim_tiempo[['hora', 'id']], how='left', on='hora')

# Renombrar la columna id de dim_tiempo a key_hora_iniciado
hecho_snapshot.rename(columns={'id': 'key_hora_iniciado'}, inplace=True)
hecho_snapshot = hecho_snapshot[['hora', 'key_hora_iniciado']]
hecho_snapshot

Unnamed: 0,hora,key_hora_iniciado,key_hora_iniciado.1
0,09:00:00,9,9
1,11:00:00,11,11
2,19:00:00,19,19
3,09:00:00,9,9
4,09:00:00,9,9
...,...,...,...
28425,10:00:00,10,10
28426,16:00:00,16,16
28427,07:00:00,7,7
28428,10:00:00,10,10


In [None]:
#key_hora_con_mensajero_asignado