# Hecho servicios acumulados

In [161]:
from datetime import date
from sqlalchemy import create_engine, text
from sqlalchemy.exc import SQLAlchemyError
import pandas as pd
import numpy as np
import holidays
import yaml

### Conexión con la base de datos

In [162]:
# Cargar configuraciones
with open('../config.yml', 'r') as f:
  config = yaml.safe_load(f)
  config_oltp = config['fuente']
  config_olap = config['bodega']

# Crear URLs de conexión
url_oltp = (f"{config_oltp['drivername']}://{config_oltp['user']}:{config_oltp['password']}@{config_oltp['host']}:"f"{config_oltp['port']}/{config_oltp['dbname']}")
url_olap = (f"{config_olap['drivername']}://{config_olap['user']}:{config_olap['password']}@{config_olap['host']}:"f"{config_olap['port']}/{config_olap['dbname']}")

# Crear las conexiones
oltp_conn = create_engine(url_oltp)
olap_conn = create_engine(url_olap)

# Función para probar la conexión con las bases de datos
def comprobar_conexionBD(db_engine, db_name):
  try:
    with db_engine.connect() as connection:
      if connection.execute(text("SELECT 1")).fetchone() is not None:
        print(f"Conexión exitosa a base de datos {db_name}")
      else:
        print(f"No se pudo conectar a {db_name}")
  except SQLAlchemyError as e:
    print(f"Error al conectar a base de datos {db_name}: {e}")

comprobar_conexionBD(oltp_conn, config_oltp['dbname'])
comprobar_conexionBD(olap_conn, config_olap['dbname'])


Conexión exitosa a base de datos mensajeriaOLTP
Conexión exitosa a base de datos mensajeriaOLAP


### Módulo de extracción

In [None]:
table_servicio = pd.read_sql_table('mensajeria_servicio', oltp_conn)
table_estadosservicio = pd.read_sql_table('mensajeria_estadosservicio', oltp_conn)
table_estados = pd.read_sql_table('mensajeria_estado', oltp_conn)
dimension_fecha = pd.read_sql('dim_fecha', olap_conn)
dimension_fecha['hora'] = dimension_fecha['hora'].astype(str).str[:5]
hecho_servicios = table_servicio[['id', 'cliente_id', 'mensajero_id', 'ciudad_destino_id', 'ciudad_origen_id', 'mensajero2_id', 'mensajero3_id']]

estados = [
  (1, 'id_fecha_iniciado'),
  (2, 'id_fecha_mensajero'),
  (3, 'id_fecha_recogida'),
  (4, 'id_fecha_entrega'),
  (5, 'id_fecha_terminado')]


for estado_id, nombre in estados: # genera todas las llaves con la dimensión fecha 
  filtered_estados = (table_estadosservicio[['estado_id', 'servicio_id', 'fecha', 'hora']]
    .query(f"estado_id == {estado_id}")
    .drop(columns=['estado_id'])
    .drop_duplicates(subset=['servicio_id']))
  
  filtered_estados['hora'] = filtered_estados['hora'].astype(str).str[:5]

  filtered_estados = (pd.merge(filtered_estados, dimension_fecha[['fecha', 'hora', 'id']],
    how='left', 
    on=['fecha', 'hora'])
    .rename(columns={'id': nombre})
    .drop(columns=['fecha', 'hora']))

  """
  """
  #print(filtered_estados.sort_values(by=['servicio_id']).head(2))

  hecho_servicios = (hecho_servicios
    .merge(filtered_estados, how='left', left_on='id', right_on='servicio_id')
    .drop(columns=['servicio_id'])
    .astype('Int32')
    .replace({pd.NA: None}))

# Definir DataFrame para almacenar los cálculos de tiempo entre estados
#calculo_tiempos = pd.DataFrame(columns=['servicio_id', 'estado_anterior', 'estado_siguiente', 'tiempo_diferencia_horas', 'tiempo_diferencia_minutos'])

for i in range(len(estados) - 1):
  estado_actual = estados[i][1]
  estado_siguiente = estados[i + 1][1]
    
  tiempos_estados = hecho_servicios[['id', estado_actual, estado_siguiente]].rename(columns={'id': 'id_servicio'})
    
  tiempos_estados = (pd.merge(tiempos_estados, dimension_fecha[['id', 'fecha_hora']], 
    how='left', left_on=estado_actual, right_on='id')
    .rename(columns={'fecha_hora': estado_actual.replace("id_", "")})
    .drop(columns=['id', estado_actual]))

  tiempos_estados = (pd.merge(tiempos_estados, dimension_fecha[['id', 'fecha_hora']], 
    how='left', left_on=estado_siguiente, right_on='id')
    .rename(columns={'fecha_hora': estado_siguiente.replace("id_", "")})
    .drop(columns=['id', estado_siguiente]))

  # diferencia de tiempo entre los pares de estados
  tiempos_estados['diferencia_tiempo'] = tiempos_estados[estado_siguiente.replace("id_", "")] - tiempos_estados[estado_actual.replace("id_", "")]

  # diferencia en horas y minutos
  tiempos_estados[f'horas{estado_actual.replace("id_fecha", "")}_{estado_siguiente.replace("id_fecha_", "")}'] = ((
    tiempos_estados['diferencia_tiempo'].dt.total_seconds() / 3600)
    .round()
    .astype('Int32')
    .replace({pd.NA: None}))
    
  tiempos_estados.drop(columns=[estado_actual.replace("id_", ""), estado_siguiente.replace("id_", ""), 'diferencia_tiempo'])

  hecho_servicios = pd.merge(
    hecho_servicios, 
    tiempos_estados.drop(columns=[estado_actual.replace("id_", ""), estado_siguiente.replace("id_", ""), 'diferencia_tiempo']),
    how='left',
    left_on='id',
    right_on='id_servicio').drop(columns=['id_servicio'])

hecho_servicios.sort_values(by=['id']).head()
#print(hecho_servicios.shape[0])
#tiempos_estados.head(2)


Unnamed: 0,id,cliente_id,mensajero_id,ciudad_destino_id,ciudad_origen_id,mensajero2_id,mensajero3_id,id_fecha_iniciado,id_fecha_mensajero,id_fecha_recogida,id_fecha_entrega,id_fecha_terminado,horas_iniciado_mensajero,horas_mensajero_recogida,horas_recogida_entrega,horas_entrega_terminado
28324,7,5,1,1,1,7.0,,301,624,,642.0,643.0,577,,,5.0
16,8,5,7,1,1,,,302,735,,4779.0,23045.0,2212,,,1321.0
2112,9,5,7,1,1,,,302,770,,,,2403,,,
28386,10,5,7,1,1,,,304,770,,5799.0,12814.0,2403,,,514.0
28385,11,5,7,1,1,,,305,711,,1862.0,,1941,,,


### Módulo de transformación

### Módulo de carga a la bodega de datos

In [110]:
hecho_servicios.set_index('id', inplace=True)
try:
  filtered_estados.to_sql('hecho_servicios', olap_conn, if_exists='replace')
except Exception as e:
  print(f"Error al cargar datos: {e}")