In [1]:
import datetime
import numpy as np
import pandas as pd
import yaml
from sqlalchemy import create_engine
from datetime import  timedelta
from sqlalchemy import Time

In [2]:
# Abrimos el archivo YAML de configuracion para conectarse a las bases de datos.
with open("../../config.yml", "r") as f:
    # Cargamos el archivo YAML usando la función safe_load de la librería 'yaml'.
    # Esto convierte el contenido del archivo en un diccionario de Python.
    config = yaml.safe_load(f)
    # Cargamos el archivo correspondiente a la base de datos origen.
    config_origen = config["ORIGEN"]
    # Cargamos el archivo correspondiente a la base de datos destino.
    config_bodega = config["BODEGA"]

# Verificamos que se haya realizado la carga correctamente.
config_origen

{'drivername': 'postgresql',
 'dbname': 'oltp_proyecto',
 'user': 'postgres',
 'password': 'Berlin2020',
 'host': 'localhost',
 'port': 5432}

In [3]:
# Construimos la URL de conexión a la base de datos origen usando los parámetros extraídos del archivo YAML.
url_origen = (f"{config_origen['drivername']}://{config_origen['user']}:{config_origen['password']}@{config_origen['host']}:"
          f"{config_origen['port']}/{config_origen['dbname']}")

# Verificamos que se haya generado la url correctamente.
url_origen

'postgresql://postgres:Berlin2020@localhost:5432/oltp_proyecto'

In [4]:
# Construimos la URL de conexión a la base de datos destino usando los parámetros extraídos del archivo YAML.
url_bodega = (f"{config_bodega['drivername']}://{config_bodega['user']}:{config_bodega['password']}@{config_bodega['host']}:"
          f"{config_bodega['port']}/{config_bodega['dbname']}")

# Verificamos que se haya generado la url correctamente.
url_bodega

'postgresql://postgres:Berlin2020@localhost:5432/olap_proyecto'

In [5]:
# Creamos el motor de conexión a la base de datos usando SQLAlchemy.
# El motor de conexión se usa para ejecutar consultas y transacciones en la base de datos.
origen  = create_engine(url_origen)
bodega = create_engine(url_bodega)

In [6]:
# Obtenemos las dimensiones relacionadas al hecho_servicio
dim_cliente = pd.read_sql_table('dim_cliente', bodega)
dim_sede = pd.read_sql_table('dim_sede', bodega)
dim_mensajero = pd.read_sql_table('dim_mensajero', bodega)
dim_fecha = pd.read_sql_table('dim_fecha', bodega)
dim_tiempo = pd.read_sql_table('dim_tiempo', bodega)

In [7]:
# Obtenemos la tabla de la bd de origen a utilizar
mensajeria_servicio = pd.read_sql_table('mensajeria_servicio', origen)
mensajeria_estado_servicio = pd.read_sql_table('mensajeria_estadosservicio', origen)

In [8]:
# Convertimos la columna de fecha_solicitud en mensajeria_servicio a datetime
mensajeria_servicio["fecha_solicitud"] = pd.to_datetime(mensajeria_servicio["fecha_solicitud"])

In [9]:
# Generar las claves foráneas para dim_fecha y dim_tiempo
mensajeria_servicio['fecha_id'] = mensajeria_servicio['fecha_solicitud'].dt.strftime('%Y%m%d').astype(int)
mensajeria_servicio['tiempo_id'] = mensajeria_servicio['fecha_solicitud'].dt.strftime('%H%M%S').astype(int)

mensajeria_estado_servicio['fecha_id'] = pd.to_datetime(mensajeria_estado_servicio ['fecha']).dt.strftime('%Y%m%d').astype(int)
mensajeria_estado_servicio['tiempo_id'] = mensajeria_estado_servicio['hora'].apply(lambda x: int(x.strftime('%H%M%S')))

In [10]:
# Seleccionamos los estados requeridos
estados = {1: "iniciado", 
           2: 'asignado',
           4: 'recogido',
           5: 'entregado',
           6: 'cerrado'}

# Filtrar solo los estados requeridos
mensajeria_estado_servicio = mensajeria_estado_servicio[mensajeria_estado_servicio['estado_id'].isin(estados.keys()) ]
mensajeria_estado_servicio['estado_nombre'] = mensajeria_estado_servicio['estado_id'].map(estados)

In [11]:
# Pivotear para tener cada estado como columna
estados_pivot = mensajeria_estado_servicio.pivot_table(
    index='servicio_id',
    columns='estado_nombre',
    values=['fecha_id', 'tiempo_id'],
    aggfunc='first'
)

# Aplanar columnas jerárquicas
estados_pivot.columns = [f"{tipo}_estado_{estado}_id" for tipo, estado in estados_pivot.columns]
estados_pivot.reset_index(inplace=True)

In [12]:
hecho_servicio_inicial = pd.DataFrame({
    'id': mensajeria_servicio['id'],
    'cliente_id': mensajeria_servicio['cliente_id'],
    'mensajero_id': mensajeria_servicio['mensajero_id'],
})

hecho_servicio = hecho_servicio_inicial.merge(
    estados_pivot,
    left_on='id',
    right_on='servicio_id',
    how='left'
)

hecho_servicio.drop(columns=['servicio_id', 'id'], inplace=True)

hecho_servicio.head()


Unnamed: 0,cliente_id,mensajero_id,fecha_id_estado_asignado_id,fecha_id_estado_cerrado_id,fecha_id_estado_entregado_id,fecha_id_estado_iniciado_id,fecha_id_estado_recogido_id,tiempo_id_estado_asignado_id,tiempo_id_estado_cerrado_id,tiempo_id_estado_entregado_id,tiempo_id_estado_iniciado_id,tiempo_id_estado_recogido_id
0,5,,,,,20231026.0,,,,,94603.0,
1,5,7.0,20231028.0,,20231207.0,20231026.0,20231028.0,144308.0,,12534.0,111814.0,194518.0
2,5,,,,,20231028.0,,,,,192101.0,
3,5,,,,,20231107.0,,,,,94609.0,
4,5,,,,,20231107.0,,,,,94610.0,


In [13]:
# Extraer mes y año de la fecha de solicitud (fecha_estado_iniciado_id)
hecho_servicio['fecha_estado_iniciado'] = pd.to_datetime(hecho_servicio["fecha_id_estado_iniciado_id"], format='%Y%m%d')
hecho_servicio['mes_año'] = hecho_servicio['fecha_estado_iniciado'].dt.to_period('M')

servicios_por_mes = hecho_servicio.groupby('mes_año').size().sort_values(ascending=False)
print(servicios_por_mes)

mes_año
2024-05    4725
2024-07    4549
2024-04    4480
2024-08    4304
2024-06    4184
2024-03    3337
2024-02    2479
2024-01     296
2023-12      25
2023-09      21
2023-11      17
2023-10      12
Freq: M, dtype: int64


In [14]:
hecho_servicio['dia'] = hecho_servicio['fecha_estado_iniciado'].dt.date

servicios_por_dia = hecho_servicio.groupby('dia').size().sort_values(ascending=False)
print(servicios_por_dia)

dia
2024-05-14    247
2024-05-17    230
2024-08-26    227
2024-08-30    220
2024-05-21    218
             ... 
2024-01-19      1
2023-12-27      1
2023-12-26      1
2023-11-17      1
2024-01-09      1
Length: 258, dtype: int64


In [15]:
# Convertir tiempo_id_estado_asignado_id a datetime.time o formato HHMMSS
hecho_servicio['hora_asignado'] = pd.to_datetime(hecho_servicio['tiempo_id_estado_asignado_id'].fillna(0).astype(int).astype(str).str.zfill(6), format='%H%M%S').dt.hour

ocupacion_por_hora = hecho_servicio.groupby('hora_asignado').size().sort_values(ascending=False)
print(ocupacion_por_hora)


hora_asignado
9     3256
8     3129
11    3010
10    2991
14    2619
15    2543
16    1996
12    1872
13    1409
7     1293
0      871
17     847
18     456
6      365
19     362
20     286
23     187
1      164
22     154
2      153
21     151
3      118
4      108
5       90
dtype: int64


In [16]:
servicios_cliente_mes = hecho_servicio.groupby(['cliente_id', 'mes_año']).size().reset_index(name='num_servicios')
print(servicios_cliente_mes)

     cliente_id  mes_año  num_servicios
0             2  2024-01              1
1             2  2024-02             16
2             2  2024-03              5
3             2  2024-04              2
4             2  2024-05              2
..          ...      ...            ...
102          25  2024-05            155
103          25  2024-06            155
104          25  2024-07            178
105          25  2024-08            175
106          27  2024-08              1

[107 rows x 3 columns]


In [17]:
servicios_por_mensajero = hecho_servicio.groupby('mensajero_id').size().sort_values(ascending=False)
print(servicios_por_mensajero)

mensajero_id
30.0    2439
29.0    1553
15.0    1514
25.0    1456
31.0    1352
16.0    1333
41.0    1329
42.0    1254
22.0    1252
28.0    1228
11.0    1101
27.0    1068
8.0     1059
18.0     920
3.0      917
44.0     849
32.0     732
34.0     727
45.0     686
38.0     622
4.0      604
36.0     562
24.0     558
12.0     436
48.0     396
5.0      185
23.0     179
47.0     164
40.0     137
49.0     129
19.0     127
33.0     120
46.0     112
83.0      94
43.0      91
17.0      87
21.0      78
39.0      73
7.0       68
37.0      65
13.0      30
9.0       13
1.0        2
2.0        1
84.0       1
dtype: int64
