In [1]:
import datetime
import numpy as np
import pandas as pd
import yaml
from sqlalchemy import create_engine
from datetime import  timedelta
from sqlalchemy import Time

In [2]:
# Abrimos el archivo YAML de configuracion para conectarse a las bases de datos.
with open("../../config.yml", "r") as f:
    # Cargamos el archivo YAML usando la función safe_load de la librería 'yaml'.
    # Esto convierte el contenido del archivo en un diccionario de Python.
    config = yaml.safe_load(f)
    # Cargamos el archivo correspondiente a la base de datos origen.
    config_origen = config["ORIGEN"]
    # Cargamos el archivo correspondiente a la base de datos destino.
    config_bodega = config["BODEGA"]

# Verificamos que se haya realizado la carga correctamente.
config_origen

{'drivername': 'postgresql',
 'host': 'localhost',
 'port': 5432,
 'user': 'postgres',
 'password': 'Pinito11',
 'dbname': 'bd_cienciadatos_proy'}

In [3]:
# Construimos la URL de conexión a la base de datos origen usando los parámetros extraídos del archivo YAML.
url_origen = (f"{config_origen['drivername']}://{config_origen['user']}:{config_origen['password']}@{config_origen['host']}:"
          f"{config_origen['port']}/{config_origen['dbname']}")

# Verificamos que se haya generado la url correctamente.
url_origen

'postgresql://postgres:Pinito11@localhost:5432/bd_cienciadatos_proy'

In [4]:
# Construimos la URL de conexión a la base de datos destino usando los parámetros extraídos del archivo YAML.
url_bodega = (f"{config_bodega['drivername']}://{config_bodega['user']}:{config_bodega['password']}@{config_bodega['host']}:"
          f"{config_bodega['port']}/{config_bodega['dbname']}")

# Verificamos que se haya generado la url correctamente.
url_bodega

'postgresql://postgres:Pinito11@localhost:5432/dw_cienciadatos_proy'

In [5]:
# Creamos el motor de conexión a la base de datos usando SQLAlchemy.
# El motor de conexión se usa para ejecutar consultas y transacciones en la base de datos.
origen  = create_engine(url_origen)
bodega = create_engine(url_bodega)

In [6]:
# Obtenemos las dimensiones relacionadas al hecho_servicio
dim_cliente = pd.read_sql_table('dim_cliente', bodega)
dim_sede = pd.read_sql_table('dim_sede', bodega)
dim_mensajero = pd.read_sql_table('dim_mensajero', bodega)
dim_fecha = pd.read_sql_table('dim_fecha', bodega)
dim_tiempo = pd.read_sql_table('dim_tiempo', bodega)

In [7]:
# Obtenemos la tabla de la bd de origen a utilizar
mensajeria_servicio = pd.read_sql_table('mensajeria_servicio', origen)
mensajeria_estado_servicio = pd.read_sql_table('mensajeria_estadosservicio', origen)

In [8]:
# Convertimos la columna de fecha_solicitud en mensajeria_servicio a datetime
mensajeria_servicio["fecha_solicitud"] = pd.to_datetime(mensajeria_servicio["fecha_solicitud"])

In [9]:
# Generar las claves foráneas para dim_fecha y dim_tiempo
mensajeria_servicio['fecha_id'] = mensajeria_servicio['fecha_solicitud'].dt.strftime('%Y%m%d').astype(int)
mensajeria_servicio['tiempo_id'] = mensajeria_servicio['fecha_solicitud'].dt.strftime('%H%M%S%f').astype(int)

mensajeria_estado_servicio['fecha_id'] = pd.to_datetime(mensajeria_estado_servicio ['fecha']).dt.strftime('%Y%m%d').astype(int)
mensajeria_estado_servicio['tiempo_id'] = mensajeria_estado_servicio['hora'].apply(lambda x: int(x.strftime('%H%M%S%f')))

In [10]:
# Seleccionamos los estados requeridos
estados = {1: "iniciado", 
           2: 'asignado',
           4: 'recogido',
           5: 'entregado',
           6: 'cerrado'}

# Filtrar solo los estados requeridos
mensajeria_estado_servicio = mensajeria_estado_servicio[mensajeria_estado_servicio['estado_id'].isin(estados.keys()) ]
mensajeria_estado_servicio['estado_nombre'] = mensajeria_estado_servicio['estado_id'].map(estados)

In [11]:
# Crear una columna de timestamp completo para cada estado en mensajeria_estado_servicio

# Definimos una función auxiliar para combinar la fecha y hora
def get_full_timestamp(row):
    date_str = str(int(row['fecha_id'])) # Manejamos fecha_id sin '.0'

    time_str = str(int(row['tiempo_id'])).zfill(12) # Manejamos tiempo_id en formato (HHMMSSffffff) 12 digitos

    combined_dt_str = date_str + time_str

    return pd.to_datetime(combined_dt_str, format='%Y%m%d%H%M%S%f', errors='coerce')

# Aplicar la función a cada fila para crear la columna de timestamp completo
mensajeria_estado_servicio['timestamp_completo_estado'] = mensajeria_estado_servicio.apply(
    get_full_timestamp, axis=1
)

# Ordenamos el dataframe
# Ordenar por servicio_id y luego por el timestamp_completo_estado de forma ascendente
# para usar el registro más antiguo para cada estado dentro de un servicio
mensajeria_estado_servicio_ordenado = mensajeria_estado_servicio.sort_values(
    by=['servicio_id', 'estado_nombre', 'timestamp_completo_estado'],
    ascending=True
)

# Pivotear para tener cada estado como columna
estados_pivot = mensajeria_estado_servicio_ordenado.pivot_table(
    index='servicio_id',
    columns='estado_nombre',
    values=['fecha_id', 'tiempo_id'],
    aggfunc='first' # Selecciona el estado más antiguo
)

# Aplanar columnas jerárquicas
estados_pivot.columns = [f"{tipo}_estado_{estado}_id" for tipo, estado in estados_pivot.columns]
estados_pivot.reset_index(inplace=True)

In [12]:
hecho_servicio_inicial = pd.DataFrame({
    'id': mensajeria_servicio['id'],
    'cliente_id': mensajeria_servicio['cliente_id'],
    'mensajero_id': mensajeria_servicio['mensajero_id'],
    'fecha_solicitud': mensajeria_servicio['fecha_solicitud'].dt.strftime('%Y%m%d').astype(int)
})

hecho_servicio = hecho_servicio_inicial.merge(
    estados_pivot,
    left_on='id',
    right_on='servicio_id',
    how='left'
)

hecho_servicio.head()


Unnamed: 0,id,cliente_id,mensajero_id,fecha_solicitud,servicio_id,fecha_id_estado_asignado_id,fecha_id_estado_cerrado_id,fecha_id_estado_entregado_id,fecha_id_estado_iniciado_id,fecha_id_estado_recogido_id,tiempo_id_estado_asignado_id,tiempo_id_estado_cerrado_id,tiempo_id_estado_entregado_id,tiempo_id_estado_iniciado_id,tiempo_id_estado_recogido_id
0,34,5,,20231026,34,,,,20231026.0,,,,,94603000000.0,
1,35,5,7.0,20231026,35,20231028.0,,20231207.0,20231026.0,20231028.0,144308000000.0,,12534000000.0,111814000000.0,194518000000.0
2,36,5,,20231028,36,,,,20231028.0,,,,,192101000000.0,
3,41,5,,20231107,41,,,,20231107.0,,,,,94609000000.0,
4,42,5,,20231107,42,,,,20231107.0,,,,,94610000000.0,


Respuestas a las preguntas

In [28]:
# En qué meses del año los clientes solicitan más servicios de mensajería

hecho_servicio_1 = hecho_servicio.rename(columns={"fecha_solicitud": "fecha_id"})
servicios_por_mes = hecho_servicio_1.merge(dim_fecha, on="fecha_id")

servicios_por_mes.groupby("nombre_mes")["cliente_id"].count().sort_values(ascending=False)

nombre_mes
Mayo          4725
Julio         4550
Abril         4480
Agosto        4304
Junio         4184
Marzo         3337
Febrero       2479
Enero          296
Diciembre       25
Septiembre      21
Noviembre       17
Octubre         12
Name: cliente_id, dtype: int64

In [26]:
#  Cuáles son los días donde más solicitudes hay

hecho_servicio_2 = hecho_servicio.rename(columns={"fecha_solicitud": "fecha_id"})
servicios_por_dia = hecho_servicio_2.merge(dim_fecha, on="fecha_id")
servicios_por_dia.groupby("nombre_dia")["cliente_id"].count().sort_values(ascending=False)

nombre_dia
Martes       5398
Viernes      5281
Jueves       5161
Miercoles    4961
Lunes        4308
Sabado       2481
Domingo       840
Name: cliente_id, dtype: int64

In [25]:
# A qué hora los mensajeros están más ocupados
hecho_servicio_3 = hecho_servicio

# Definimos las columnas de los timestamps de interés
timestamp_columns = ['tiempo_id_estado_asignado_id', 'tiempo_id_estado_recogido_id', 'tiempo_id_estado_entregado_id']

# .stack() convierte las columnas en filas, creando una Serie.
todos_los_tiempos_apilados = hecho_servicio_3[timestamp_columns].stack().dropna()

# Si los timestamps apilados todavía son flotantes (ej. 75642000000.0)
todos_los_tiempos_apilados_int = todos_los_tiempos_apilados.astype('Int64')

# Extraemos la hora del día de estos timestamps apilados
horas_combinadas = (
    todos_los_tiempos_apilados_int
    .astype(str).str    # Convertir a cadena
    .zfill(12)          # Rellena con ceros a la izquierda (ej. '075348000000')
    .str[:2]            # Extrae los primeros dos dígitos (ej. '07')
    .astype(int)        # Convierte a entero (ej. 7)
)

# Contar cuántos registros hay para cada hora del día
conteo_por_hora = horas_combinadas.value_counts().reindex(range(24), fill_value=0).sort_values(ascending=False)
print(conteo_por_hora)

11    9373
9     9155
10    8935
15    7919
16    7131
8     7073
14    6661
12    6536
13    4482
17    4238
7     2027
18    1401
19    1141
20     899
21     663
6      607
0      508
1      480
23     459
3      450
2      447
22     388
5      365
4      332
Name: count, dtype: int64


In [24]:
# Número de servicios solicitados por cliente y por mes

hecho_servicio_4 = hecho_servicio.rename(columns={"fecha_solicitud": "fecha_id"})

hecho_servicio_4 = hecho_servicio_4.merge(dim_cliente, on="cliente_id").merge(dim_fecha, on="fecha_id")
hecho_servicio_4.groupby(["cliente_id", "nombre_mes"]).size()

cliente_id  nombre_mes
2           Abril           2
            Agosto          2
            Enero           1
            Febrero        16
            Julio           1
                         ... 
25          Julio         178
            Junio         155
            Marzo         124
            Mayo          155
27          Agosto          1
Length: 107, dtype: int64

In [23]:
# Mensajeros más eficientes (Los que más servicios prestan)
hecho_servicio_5 = hecho_servicio.merge(dim_mensajero, on="mensajero_id")
hecho_servicio_5.groupby("mensajero_id").size().sort_values(ascending=False)

mensajero_id
30.0    2439
29.0    1553
15.0    1514
25.0    1456
31.0    1352
16.0    1333
41.0    1329
42.0    1254
22.0    1252
28.0    1228
11.0    1101
27.0    1068
8.0     1059
18.0     920
3.0      917
44.0     849
32.0     732
34.0     727
45.0     686
38.0     622
4.0      604
36.0     562
24.0     558
12.0     436
48.0     396
5.0      185
23.0     179
47.0     164
40.0     137
49.0     129
19.0     127
33.0     120
46.0     112
83.0      94
43.0      91
17.0      87
21.0      78
39.0      73
7.0       68
37.0      65
13.0      30
9.0       13
1.0        2
2.0        1
84.0       1
dtype: int64

In [20]:
# 6. Promedio de duración por Fase

# Combina las columnas de fecha_id y tiempo_id en una sola columna datetime
def combine_date_time(df, date_col_prefix, time_col_prefix):
    date_col = f'{date_col_prefix}_id'
    time_col = f'{time_col_prefix}_id'

    dates_str = df[date_col].fillna(0).astype('Int64').astype(str).str.strip()

    times_str_raw = df[time_col].astype(str).str.strip()
    times_str_cleaned = times_str_raw.apply(
        lambda x: str(int(float(x))) if pd.notna(x) and 'e+' in str(x) else str(x) # maneja notación científica y floats
    ).str.replace(r'\.0$', '', regex=True) # Quitar .0

    # Rellenar a 12 dígitos para microsegundos
    times_str_padded = times_str_cleaned.apply(
        lambda x: x.zfill(12) if pd.notna(x) else x
    )

    combined_dt_str = dates_str + times_str_padded # Combinar fecha y tiempo

    # Convertir a datetime con formato para milisegundos
    return pd.to_datetime(combined_dt_str, format='%Y%m%d%H%M%S%f', errors='coerce')

# Reconstruir los timestamps completos para cada estado
estados_timestamps = {}

estados_timestamps['ts_iniciado'] = combine_date_time(hecho_servicio, 'fecha_id_estado_iniciado', 'tiempo_id_estado_iniciado')
estados_timestamps['ts_asignado'] = combine_date_time(hecho_servicio, 'fecha_id_estado_asignado', 'tiempo_id_estado_asignado')
estados_timestamps['ts_recogido'] = combine_date_time(hecho_servicio, 'fecha_id_estado_recogido', 'tiempo_id_estado_recogido')
estados_timestamps['ts_entregado'] = combine_date_time(hecho_servicio, 'fecha_id_estado_entregado', 'tiempo_id_estado_entregado')
estados_timestamps['ts_cerrado'] = combine_date_time(hecho_servicio, 'fecha_id_estado_cerrado', 'tiempo_id_estado_cerrado')

# Calculamos las duraciones en segundos (incluyendo los milisegundos)
estados_duraciones = pd.DataFrame()

estados_duraciones['duracion_iniciado_asignado_seg'] = (estados_timestamps['ts_asignado'] - estados_timestamps['ts_iniciado']).dt.total_seconds()
estados_duraciones['duracion_asignado_recogido_seg'] = (estados_timestamps['ts_recogido'] - estados_timestamps['ts_asignado']).dt.total_seconds()
estados_duraciones['duracion_recogido_entregado_seg'] = (estados_timestamps['ts_entregado'] - estados_timestamps['ts_recogido']).dt.total_seconds()
estados_duraciones['duracion_entregado_cerrado_seg'] = (estados_timestamps['ts_cerrado'] - estados_timestamps['ts_entregado']).dt.total_seconds()

columnas_duracion = [
    'duracion_iniciado_asignado_seg',
    'duracion_asignado_recogido_seg',
    'duracion_recogido_entregado_seg',
    'duracion_entregado_cerrado_seg'
]

# Filtramos las filas donde CUALQUIERA de las columnas de duración sea NaN
hecho_filtrado = estados_duraciones.dropna(subset=columnas_duracion)

# Filtramos filas donde CUALQUIERA de las duraciones sea negativa
filtro_duraciones_positivas = (hecho_filtrado[columnas_duracion] > 0).all(axis=1)
hecho_filtrado = hecho_filtrado[filtro_duraciones_positivas]

# Calculamos el promedio en minutos para cada columna de duración
promedios_duracion = hecho_filtrado.mean() / 60

print("\n--- Promedio de Duración por Fase (en minutos) ---")
promedios_duracion


--- Promedio de Duración por Fase (en minutos) ---


duracion_iniciado_asignado_seg     197.526816
duracion_asignado_recogido_seg     145.644119
duracion_recogido_entregado_seg     93.188462
duracion_entregado_cerrado_seg     294.741787
dtype: float64