![image.png](attachment:image.png)

## Importar librerías

In [44]:
import pandas as pd
import sqlalchemy as sa
import utils.conn_tools as ct
from datetime import datetime
import numpy as np

## Conexión con base de datos

In [2]:
config = ct.readConfig("../config/config-postgres.yaml")

config_src = config["source"]
config_etl = config["warehouse"]

engine_src = sa.create_engine(ct.generateConnUrl(config_src))
engine_etl = sa.create_engine(ct.generateConnUrl(config_etl))

## Extract

In [3]:
# Leer los datos de las tablas

# De la fuente
definicion_estados_df = pd.read_sql_table("mensajeria_estado", con=engine_src)
estados_servicio = pd.read_sql_table("mensajeria_estadosservicio", con=engine_src)

# Del Warehouse
dim_fecha = pd.read_sql_table("dim_fecha", con=engine_etl)
dim_hora = pd.read_sql_table("dim_hora", con=engine_etl)

In [4]:
# Comprobar los campos
definicion_estados_df.info()
definicion_estados_df.head(10)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   id           6 non-null      int64 
 1   nombre       6 non-null      object
 2   descripcion  6 non-null      object
dtypes: int64(1), object(2)
memory usage: 272.0+ bytes


Unnamed: 0,id,nombre,descripcion
0,4,Recogido por mensajero,Recogido por mensajero
1,5,Entregado en destino,Entregado en destino
2,3,Con novedad,Tiene novedad
3,6,Terminado completo,Terminado completo
4,1,Iniciado,Creado por el usuario
5,2,Con mensajero Asignado,Con mensajero Asignado


In [5]:
# Comprobar los campos
estados_servicio.info()
estados_servicio.head(3)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 128402 entries, 0 to 128401
Data columns (total 9 columns):
 #   Column         Non-Null Count   Dtype         
---  ------         --------------   -----         
 0   id             128402 non-null  int64         
 1   fecha          128402 non-null  datetime64[ns]
 2   hora           128402 non-null  object        
 3   foto           128402 non-null  object        
 4   observaciones  128401 non-null  object        
 5   estado_id      128402 non-null  int64         
 6   servicio_id    128402 non-null  int64         
 7   es_prueba      128402 non-null  bool          
 8   foto_binary    270 non-null     object        
dtypes: bool(1), datetime64[ns](1), int64(3), object(4)
memory usage: 8.0+ MB


Unnamed: 0,id,fecha,hora,foto,observaciones,estado_id,servicio_id,es_prueba,foto_binary
0,1014,2024-01-29,01:13:32,foto,4 tubos,4,226,False,
1,1484,2024-01-30,18:45:12,foto,Demora,3,79,True,
2,2829,2024-02-06,11:34:04,foto,Compra exitosa,5,613,False,


In [6]:
# Comprobar los campos
dim_fecha.info()
dim_fecha.head(3)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 669 entries, 0 to 668
Data columns (total 14 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   key_fecha      669 non-null    int64         
 1   date           669 non-null    datetime64[ns]
 2   date_mmdd      669 non-null    object        
 3   date_yyyymmdd  669 non-null    object        
 4   day            669 non-null    int64         
 5   day_of_week    669 non-null    int64         
 6   month          669 non-null    int64         
 7   month_name     669 non-null    object        
 8   year           669 non-null    int64         
 9   week_of_month  669 non-null    int64         
 10  quarter        669 non-null    int64         
 11  is_holiday     669 non-null    bool          
 12  holiday_name   32 non-null     object        
 13  is_leap_year   669 non-null    bool          
dtypes: bool(2), datetime64[ns](1), int64(7), object(4)
memory usage: 64.2+ KB


Unnamed: 0,key_fecha,date,date_mmdd,date_yyyymmdd,day,day_of_week,month,month_name,year,week_of_month,quarter,is_holiday,holiday_name,is_leap_year
0,0,2023-01-01,01/01,2023/01/01,1,6,1,january,2023,1,1,True,Año Nuevo,False
1,1,2023-01-02,01/02,2023/01/02,2,0,1,january,2023,1,1,False,,False
2,2,2023-01-03,01/03,2023/01/03,3,1,1,january,2023,1,1,False,,False


In [7]:
# Comprobar los campos
dim_hora.info()
dim_hora.head(3)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1440 entries, 0 to 1439
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   key_hora     1440 non-null   int64 
 1   hour_HHMMSS  1440 non-null   object
 2   hour_24      1440 non-null   int64 
 3   hour_12      1440 non-null   int64 
 4   minute       1440 non-null   int64 
 5   am_pm        1440 non-null   object
 6   day_section  1440 non-null   object
dtypes: int64(4), object(3)
memory usage: 78.9+ KB


Unnamed: 0,key_hora,hour_HHMMSS,hour_24,hour_12,minute,am_pm,day_section
0,0,00:00:00,0,12,0,AM,Madrugada
1,1,00:01:00,0,12,1,AM,Madrugada
2,2,00:02:00,0,12,2,AM,Madrugada


## Transform: Ajustes de la dimensión

### Extraer solo los datos necesarios de la fuente

In [8]:
# Copia los datos necesarios en el DataFrame
servicio_df = estados_servicio[
    [
        "servicio_id",
        "estado_id" ,
        "fecha",
        "hora",
    ]
].copy()

# Convertir 'fecha' a formato de solo fecha
servicio_df["fecha"] = pd.to_datetime(servicio_df["fecha"]).dt.date

# Asegurar que los segundos sean '00' y formatear 'hora' en formato de 24 horas
servicio_df["hora"] = servicio_df["hora"].apply(
    lambda x: x.replace(second=0).strftime("%H:%M:%S") if pd.notnull(x) else None
)

servicio_df.head(3)

Unnamed: 0,servicio_id,estado_id,fecha,hora
0,226,4,2024-01-29,01:13:00
1,79,3,2024-01-30,18:45:00
2,613,5,2024-02-06,11:34:00


### Realizar JOIN con dimensiones para cada tipo de fecha y hora del `hecho`

In [9]:
definicion_estados_df.head(10)

Unnamed: 0,id,nombre,descripcion
0,4,Recogido por mensajero,Recogido por mensajero
1,5,Entregado en destino,Entregado en destino
2,3,Con novedad,Tiene novedad
3,6,Terminado completo,Terminado completo
4,1,Iniciado,Creado por el usuario
5,2,Con mensajero Asignado,Con mensajero Asignado


In [10]:
# Combinar las tablas para obtener los textos de los estados
merged_df = servicio_df.merge(
    definicion_estados_df,
    how="left",
    left_on="estado_id",
    right_on="id",
    suffixes=("", "_estado"),
)

merged_df.head(3)

Unnamed: 0,servicio_id,estado_id,fecha,hora,id,nombre,descripcion
0,226,4,2024-01-29,01:13:00,4,Recogido por mensajero,Recogido por mensajero
1,79,3,2024-01-30,18:45:00,3,Con novedad,Tiene novedad
2,613,5,2024-02-06,11:34:00,5,Entregado en destino,Entregado en destino


In [11]:
# Limpiar para obtener solo los campos necesarios
merged_df = merged_df[["servicio_id", "nombre", "fecha", "hora"]]
merged_df.rename(columns={"nombre": "nombre_estado"}, inplace=True)

merged_df.head(3)

Unnamed: 0,servicio_id,nombre_estado,fecha,hora
0,226,Recogido por mensajero,2024-01-29,01:13:00
1,79,Con novedad,2024-01-30,18:45:00
2,613,Entregado en destino,2024-02-06,11:34:00


In [12]:
dim_fecha.head(1)

Unnamed: 0,key_fecha,date,date_mmdd,date_yyyymmdd,day,day_of_week,month,month_name,year,week_of_month,quarter,is_holiday,holiday_name,is_leap_year
0,0,2023-01-01,01/01,2023/01/01,1,6,1,january,2023,1,1,True,Año Nuevo,False


In [13]:
# Asegúrate de que 'fecha' en merged_df sea del mismo tipo que 'date' en dim_fecha
merged_df["fecha"] = pd.to_datetime(
    merged_df["fecha"], format="%Y-%m-%d", errors="coerce"
)
dim_fecha["date"] = pd.to_datetime(
    dim_fecha["date"], format="%Y-%m-%d", errors="coerce"
)

# Combina con dim_fecha
merged_df = merged_df.merge(
    dim_fecha, how="left", left_on="fecha", right_on="date", suffixes=("", "_fecha")
)

# Nos quedamos solo con los campos de fecha relevantes
merged_df = merged_df[["servicio_id", "nombre_estado", "key_fecha", "date", "hora"]]
merged_df.rename(columns={"date": "dim_fecha_date"}, inplace=True)

merged_df.head(10)

Unnamed: 0,servicio_id,nombre_estado,key_fecha,dim_fecha_date,hora
0,226,Recogido por mensajero,393,2024-01-29,01:13:00
1,79,Con novedad,394,2024-01-30,18:45:00
2,613,Entregado en destino,401,2024-02-06,11:34:00
3,376,Recogido por mensajero,396,2024-02-01,14:50:00
4,7164,Con novedad,461,2024-04-06,16:11:00
5,377,Con novedad,399,2024-02-04,11:15:00
6,10910,Con novedad,488,2024-05-03,06:11:00
7,746,Con mensajero Asignado,402,2024-02-07,16:26:00
8,842,Terminado completo,404,2024-02-09,13:25:00
9,930,Con mensajero Asignado,405,2024-02-10,13:46:00


In [14]:
dim_hora.head(1)

Unnamed: 0,key_hora,hour_HHMMSS,hour_24,hour_12,minute,am_pm,day_section
0,0,00:00:00,0,12,0,AM,Madrugada


In [16]:
# Combina con dim_hora
merged_df = merged_df.merge(
    dim_hora,
    how="left",
    left_on="hora",
    right_on="hour_HHMMSS",
    suffixes=("", "_hora"),
)

# Nos quedamos solo con los campos de fecha relevantes
merged_df = merged_df[
    [
        "servicio_id",
        "nombre_estado",
        "key_fecha",
        "dim_fecha_date",
        "key_hora",
        "hour_HHMMSS",
    ]
]
merged_df.rename(columns={"hour_HHMMSS": "dim_hora_hour_HHMMSS"}, inplace=True)

merged_df.head(10)

Unnamed: 0,servicio_id,nombre_estado,key_fecha,dim_fecha_date,key_hora,dim_hora_hour_HHMMSS
0,226,Recogido por mensajero,393,2024-01-29,73,01:13:00
1,79,Con novedad,394,2024-01-30,1125,18:45:00
2,613,Entregado en destino,401,2024-02-06,694,11:34:00
3,376,Recogido por mensajero,396,2024-02-01,890,14:50:00
4,7164,Con novedad,461,2024-04-06,971,16:11:00
5,377,Con novedad,399,2024-02-04,675,11:15:00
6,10910,Con novedad,488,2024-05-03,371,06:11:00
7,746,Con mensajero Asignado,402,2024-02-07,986,16:26:00
8,842,Terminado completo,404,2024-02-09,805,13:25:00
9,930,Con mensajero Asignado,405,2024-02-10,826,13:46:00


In [None]:
definicion_estados_df.head(10)

Unnamed: 0,id,nombre,descripcion
0,4,Recogido por mensajero,Recogido por mensajero
1,5,Entregado en destino,Entregado en destino
2,3,Con novedad,Tiene novedad
3,6,Terminado completo,Terminado completo
4,1,Iniciado,Creado por el usuario
5,2,Con mensajero Asignado,Con mensajero Asignado


In [49]:
# Ejemplo de un servicio ya completado
merged_df[merged_df["servicio_id"] == 842].head()

Unnamed: 0,servicio_id,nombre_estado,key_fecha,dim_fecha_date,key_hora,dim_hora_hour_HHMMSS
8,842,Terminado completo,404,2024-02-09,805,13:25:00
4316,842,Iniciado,404,2024-02-09,589,09:49:00
4386,842,Con mensajero Asignado,404,2024-02-09,680,11:20:00
4387,842,Recogido por mensajero,404,2024-02-09,681,11:21:00
4432,842,Entregado en destino,404,2024-02-09,799,13:19:00


In [54]:
# Inicializar una lista para almacenar los datos del hecho
data_hecho = []

# Obtener todos los servicios únicos
servicios_unicos = merged_df["servicio_id"].unique()
total_servicios = len(servicios_unicos)
print(f"Servicios únicos encontrados: {total_servicios}")

class Estado:
    def __init__(self, nombre, fecha, hora):
        self.nombre = nombre
        self.fecha = fecha
        self.hora = hora


# Lista de estados
estados = [
    Estado("Iniciado", "id_fecha_iniciado", "id_hora_iniciado"),
    Estado("Con mensajero Asignado", "id_fecha_asignado", "id_hora_asignado"),
    Estado("Recogido por mensajero", "id_fecha_recogido", "id_hora_recogido"),
    Estado("Entregado en destino", "id_fecha_entregado", "id_hora_entregado"),
    Estado("Terminado completo", "id_fecha_cerrado", "id_hora_cerrado"),
]

# Iterar sobre cada servicio único
for index, servicio_id in enumerate(servicios_unicos, start=1):
    print(f"Procesando servicio_id: {servicio_id} ({index} de {total_servicios})")
    servicio_data = {}
    registros_servicio = merged_df[merged_df["servicio_id"] == servicio_id]

    if registros_servicio.empty:
        continue  # Saltar a la siguiente iteración si no hay registros

    servicio_data["id_servicio"] = servicio_id

    # Crear diccionario de fechas y horas
    fecha_hora_dict = {}
    for estado in estados:
        fecha = registros_servicio[
            registros_servicio["nombre_estado"] == estado.nombre
        ]["key_fecha"].values
        hora = registros_servicio[registros_servicio["nombre_estado"] == estado.nombre][
            "key_hora"
        ].values

        fecha_hora_dict[estado.nombre] = {
            "fecha": fecha[0] if len(fecha) > 0 else np.nan,
            "hora": hora[0] if len(hora) > 0 else np.nan,
        }

    # Llenar servicio_data
    for estado in estados:
        servicio_data[estado.fecha] = fecha_hora_dict[estado.nombre]["fecha"]
        servicio_data[estado.hora] = fecha_hora_dict[estado.nombre]["hora"]

    data_hecho.append(servicio_data)

# Imprimir el tamaño del resultado final
print(f"Total de datos procesados: {len(data_hecho)}")

# Si deseas convertirlo a DataFrame
# data_hecho_df = pd.DataFrame(data_hecho)

Servicios únicos encontrados: 28430
Procesando servicio_id: 226 (1 de 28430)
Procesando servicio_id: 79 (2 de 28430)
Procesando servicio_id: 613 (3 de 28430)
Procesando servicio_id: 376 (4 de 28430)
Procesando servicio_id: 7164 (5 de 28430)
Procesando servicio_id: 377 (6 de 28430)
Procesando servicio_id: 10910 (7 de 28430)
Procesando servicio_id: 746 (8 de 28430)
Procesando servicio_id: 842 (9 de 28430)
Procesando servicio_id: 930 (10 de 28430)
Procesando servicio_id: 974 (11 de 28430)
Procesando servicio_id: 991 (12 de 28430)
Procesando servicio_id: 1093 (13 de 28430)
Procesando servicio_id: 1123 (14 de 28430)
Procesando servicio_id: 1160 (15 de 28430)
Procesando servicio_id: 1324 (16 de 28430)
Procesando servicio_id: 1424 (17 de 28430)
Procesando servicio_id: 1670 (18 de 28430)
Procesando servicio_id: 1691 (19 de 28430)
Procesando servicio_id: 1735 (20 de 28430)
Procesando servicio_id: 1884 (21 de 28430)
Procesando servicio_id: 1902 (22 de 28430)
Procesando servicio_id: 2028 (23 de 2

In [57]:
data_hecho_df = pd.DataFrame(data_hecho)

data_hecho_df.head(5)

Unnamed: 0,id_servicio,id_fecha_iniciado,id_hora_iniciado,id_fecha_asignado,id_hora_asignado,id_fecha_recogido,id_hora_recogido,id_fecha_entregado,id_hora_entregado,id_fecha_cerrado,id_hora_cerrado
0,226,392.0,1437.0,393.0,27.0,393.0,73.0,393.0,99.0,,
1,79,364.0,820.0,367.0,977.0,367.0,1179.0,394.0,1124.0,394.0,1125.0
2,613,401.0,635.0,401.0,642.0,401.0,660.0,401.0,694.0,401.0,706.0
3,376,395.0,1252.0,396.0,890.0,396.0,890.0,396.0,890.0,,
4,7164,461.0,961.0,461.0,970.0,461.0,1036.0,461.0,1117.0,,


## Load: Ejecución de ETL

In [None]:
# hecho_servicio_accumulating_snap = pd.merge(mensajeria_estadosservicio_df, mensajeria_estado_df, on="id", how="left")