In [1]:
# Celda 0.1 ‚Äì Imports y configuraci√≥n de paths correctos

import os
import random
from datetime import date, timedelta

import numpy as np
import pandas as pd
import yaml

# -------------------------------------------------------------------
# Rutas REALES seg√∫n tu proyecto:
# notebooks/
#   ‚îî‚îÄ‚îÄ 01_generate_stde_v3.ipynb
# data/
#     ‚îú‚îÄ‚îÄ oms/
#     ‚îú‚îÄ‚îÄ ontology/
#     ‚îî‚îÄ‚îÄ synthetic/
# -------------------------------------------------------------------

RUTA_OMS = "../data/oms/99_oms_stde_v3.yaml"

# Cat√°logos en ontology/
PATH_ROLES     = "../data/ontology/10_catalogo_roles_v3.yaml"
PATH_TAREAS    = "../data/ontology/12_catalogo_tareas_v1.yaml"
PATH_AREAS     = "../data/ontology/13_catalogo_areas_operacionales_v1.yaml"
PATH_RIESGOS   = "../data/ontology/01_catalogo_riesgos_v8.yaml"
PATH_CONTROLES = "../data/ontology/02_catalogo_controles_v6.yaml"

# Modelo proactivo en oms/
PATH_PROACTIVO = "../data/oms/stde_proactivo_semanal_v4_4.csv"

# Directorio de salida (synthetic/)
OUTPUT_DIR = "../data/synthetic/"
os.makedirs(OUTPUT_DIR, exist_ok=True)

# Configuraci√≥n de aleatoriedad
RANDOM_SEED = 42
random.seed(RANDOM_SEED)
np.random.seed(RANDOM_SEED)



In [None]:
# Celda 0.2 ‚Äì Cargar OMS v3

def cargar_yaml(path):
    with open(path, "r", encoding="utf-8") as f:
        return yaml.safe_load(f)

oms = cargar_yaml(RUTA_OMS)

# Accesos r√°pidos a secciones relevantes de la OMS v3
meta = oms.get("meta", {})
stde_cfg = oms.get("stde", {})
fdo_cfg = oms.get("fdo", {})
escenario_cfg = oms.get("escenario_operacion", {})
mapeos_operacionales = oms.get("mapeos_operacionales", {})
proactivo_cfg = oms.get("proactivo", {})

lunes_critico_cfg = escenario_cfg.get("lunes_critico", {})
eventos_lunes_critico = lunes_critico_cfg.get("eventos_sinteticos", [])

print("Versi√≥n OMS:", meta.get("version"))
print("Fecha inicio escenario:", escenario_cfg.get("fecha_inicio"))
print("N√∫mero de semanas:", escenario_cfg.get("numero_semanas"))
print("Eventos del lunes cr√≠tico:", len(eventos_lunes_critico))


In [None]:
# Celda 0.3 ‚Äì Cargar cat√°logos de ontolog√≠a (roles, tareas, √°reas, riesgos, controles)

# Celda 0.3 ‚Äì Cargar cat√°logos oficiales (funci√≥n √∫nica)

def cargar_catalogo(path):
    """
    Carga cat√°logos YAML que pueden estar en dos formatos:
    1) Una lista directamente en la ra√≠z.
    2) Un diccionario cuya primera clave contiene una lista.

    Retorna siempre un DataFrame.
    """
    data = cargar_yaml(path)

    # Caso 1: El archivo es directamente una lista
    if isinstance(data, list):
        return pd.DataFrame(data)

    # Caso 2: El archivo es un diccionario con una lista dentro
    if isinstance(data, dict):
        for k, v in data.items():
            if isinstance(v, list):
                return pd.DataFrame(v)

    raise ValueError(f"Formato no reconocido en cat√°logo: {path}")


# ======================
# CARGA DE CAT√ÅLOGOS
# ======================

df_roles     = cargar_catalogo(PATH_ROLES)
df_tareas    = cargar_catalogo(PATH_TAREAS)
df_areas     = cargar_catalogo(PATH_AREAS)
df_riesgos   = cargar_catalogo(PATH_RIESGOS)
df_controles = cargar_catalogo(PATH_CONTROLES)

print("Cat√°logos cargados correctamente:")
print("Roles:", df_roles.shape)
print("Tareas:", df_tareas.shape)
print("√Åreas:", df_areas.shape)
print("Riesgos:", df_riesgos.shape)
print("Controles:", df_controles.shape)




In [None]:
# Celda 1.1 ‚Äì Generar calendario diario del escenario STDE (12 semanas) + marca de lunes cr√≠tico

def generar_calendario(escenario_cfg):
    fecha_inicio_str = escenario_cfg["fecha_inicio"]
    numero_semanas = escenario_cfg["numero_semanas"]
    fecha_lunes_critico_str = escenario_cfg["lunes_critico"]["fecha"]

    fecha_inicio = date.fromisoformat(fecha_inicio_str)
    dias_totales = numero_semanas * 7  # 12 semanas ‚Üí 84 d√≠as (sin lunes cr√≠tico)
    fecha_lunes_critico = date.fromisoformat(fecha_lunes_critico_str)

    registros = []
    for i in range(dias_totales):
        fecha = fecha_inicio + timedelta(days=i)
        semana = (i // 7) + 1  # semana 1..12
        dia_semana = fecha.weekday()  # 0 = lunes, 6 = domingo

        registros.append(
            {
                "id_dia": i + 1,
                "fecha": fecha,
                "semana": semana,
                "dia_semana": dia_semana,
                "es_lunes_critico": (fecha == fecha_lunes_critico),
            }
        )

    calendario = pd.DataFrame(registros)
    return calendario

calendario = generar_calendario(escenario_cfg)
print("D√≠as calendario:", len(calendario))
calendario.head()


In [None]:
# Celda 1.2 ‚Äì Generar FDO diario (7 factores) con patrones suaves

fdo_factores = fdo_cfg.get("factores", [])

# Creamos un √≠ndice de factores por id para referencia si se requiere despu√©s
FDO_IDS = [f["id"] for f in fdo_factores]

def generar_fdo_diario(calendario):
    registros = []
    for _, row in calendario.iterrows():
        fecha = row["fecha"]
        semana = row["semana"]
        id_dia = row["id_dia"]

        # Base de variaci√≥n semanal: degradaci√≥n leve hacia semana 12
        # Normalizamos semana 1..12 a 0..1
        t = (semana - 1) / (calendario["semana"].max() - 1)

        # Definimos patrones simplificados coherentes con la narrativa:
        # - Producci√≥n: crece con el tiempo (m√°s presi√≥n)
        # - Backlog: crece (mantenimiento atrasado)
        # - Congesti√≥n: crece con producci√≥n
        # - Fatiga: crece, modulada por d√≠a de la semana (m√°s alta al final de la semana)
        # - Clima: variaci√≥n aleatoria suave
        # - Dotaci√≥n: algo decreciente (baja levemente)
        # - Variabilidad: aumenta moderadamente
        dow = row["dia_semana"]  # 0 lunes, 6 domingo

        fdo_produccion = np.clip(0.3 + 0.6 * t + np.random.normal(0, 0.05), 0.0, 1.0)
        fdo_backlog = np.clip(0.2 + 0.7 * t + np.random.normal(0, 0.05), 0.0, 1.0)
        fdo_congestion = np.clip(0.25 + 0.6 * t + np.random.normal(0, 0.05), 0.0, 1.0)

        # Fatiga: m√°s alta jueves-viernes (3,4)
        fatiga_semana = 0.2 + 0.6 * t
        ajuste_dow = 0.1 if dow in (3, 4) else 0.0
        fdo_fatiga = np.clip(fatiga_semana + ajuste_dow + np.random.normal(0, 0.05), 0.0, 1.0)

        # Clima: ruido con tendencia leve
        fdo_clima = np.clip(0.4 + 0.2 * np.sin(2 * np.pi * t) + np.random.normal(0, 0.1), 0.0, 1.0)

        # Dotaci√≥n: leve ca√≠da con el tiempo (renuncias, licencias, etc.)
        fdo_dotacion = np.clip(0.9 - 0.3 * t + np.random.normal(0, 0.05), 0.0, 1.0)

        # Variabilidad: aumenta hacia el final (m√°s cambios de plan)
        fdo_variabilidad = np.clip(0.2 + 0.6 * t + np.random.normal(0, 0.05), 0.0, 1.0)

        registros.append(
            {
                "id_dia": id_dia,
                "fecha": fecha,
                "semana": semana,
                "fdo_produccion": fdo_produccion,
                "fdo_backlog": fdo_backlog,
                "fdo_congestion": fdo_congestion,
                "fdo_fatiga": fdo_fatiga,
                "fdo_clima": fdo_clima,
                "fdo_dotacion": fdo_dotacion,
                "fdo_variabilidad": fdo_variabilidad,
            }
        )

    df_fdo = pd.DataFrame(registros)
    return df_fdo

df_fdo_diario = generar_fdo_diario(calendario)
print("FDO diario generado:", df_fdo_diario.shape)
df_fdo_diario.head()
df_fdo = df_fdo_diario.copy()



In [None]:
# Celda 2.1 ‚Äì Generar trayectorias diarias de criticidad para R01, R02, R03

RIESGOS_FOCO = ["R01", "R02", "R03"]

def generar_trayectorias_riesgo(calendario):
    registros = []
    max_semana = calendario["semana"].max()

    for _, row in calendario.iterrows():
        fecha = row["fecha"]
        semana = row["semana"]
        id_dia = row["id_dia"]

        # Normalizaci√≥n temporal 0..1 sobre las 12 semanas
        t = (semana - 1) / (max_semana - 1)

        # -------------------------------
        # R02 ‚Äì Degradaci√≥n acumulada fuerte
        # -------------------------------
        base_R02 = 0.35 + 0.5 * t  # crece fuertemente hacia el final
        ruido_R02 = np.random.normal(0, 0.03)
        criticidad_R02 = np.clip(base_R02 + ruido_R02, 0.0, 1.0)

        # -------------------------------
        # R01 ‚Äì Controlado pero con se√±ales d√©biles
        # -------------------------------
        base_R01 = 0.25 + 0.25 * t  # leve pendiente
        ruido_R01 = np.random.normal(0, 0.03)
        criticidad_R01 = np.clip(base_R01 + ruido_R01, 0.0, 1.0)

        # -------------------------------
        # R03 ‚Äì Estable con variaciones leves
        # -------------------------------
        base_R03 = 0.18  # valor central estable
        ruido_R03 = np.random.uniform(-0.03, 0.03)
        pico_R03 = 0.02 if random.random() < 0.05 else 0.0
        criticidad_R03 = np.clip(base_R03 + ruido_R03 + pico_R03, 0.0, 1.0)


        registros.append(
            {
                "id_dia": id_dia,
                "fecha": fecha,
                "semana": semana,
                "criticidad_R01": criticidad_R01,
                "criticidad_R02": criticidad_R02,
                "criticidad_R03": criticidad_R03,
            }
        )

    df_tray = pd.DataFrame(registros)
    return df_tray

df_trayectorias = generar_trayectorias_riesgo(calendario)
print("Trayectorias generadas:", df_trayectorias.shape)
df_trayectorias.head()


In [None]:
df_trayectorias.tail(10)


In [None]:
# Celda 2.2 ‚Äì Trayectoria ponderada global por d√≠a y agregados por semana

PESOS_RIESGO_GLOBAL = {
    "R01": 0.25,
    "R02": 0.5,
    "R03": 0.25,
}

def agregar_trayectoria_global(df_tray):
    df = df_tray.copy()

    df["criticidad_global"] = (
        df["criticidad_R01"] * PESOS_RIESGO_GLOBAL["R01"]
        + df["criticidad_R02"] * PESOS_RIESGO_GLOBAL["R02"]
        + df["criticidad_R03"] * PESOS_RIESGO_GLOBAL["R03"]
    )

    # Agregados semanales para facilitar gr√°ficos en la demo (medias por semana)
    df_semana = (
        df.groupby("semana", as_index=False)[
            [
                "criticidad_R01",
                "criticidad_R02",
                "criticidad_R03",
                "criticidad_global",
            ]
        ]
        .mean()
        .rename(
            columns={
                "criticidad_R01": "criticidad_R01_media",
                "criticidad_R02": "criticidad_R02_media",
                "criticidad_R03": "criticidad_R03_media",
                "criticidad_global": "criticidad_global_media",
            }
        )
    )

    return df, df_semana

df_trayectorias, df_trayectorias_semana = agregar_trayectoria_global(df_trayectorias)

print("df_trayectorias:", df_trayectorias.shape)
print("df_trayectorias_semana:", df_trayectorias_semana.shape)
df_trayectorias_semana.head()


In [None]:
# ------------------------------------------------------------
# Celda 3.1a ‚Äî Funciones base de probabilidad (PD, NMS, IMEN)
# Versi√≥n FINAL calibrada (mining-realistic) para STDE v3
# ------------------------------------------------------------

def base_PD(criticidad, fdo_row):
    """
    HAZARD (Peligro Detectado)
    Debe ser el evento m√°s frecuente en miner√≠a (~70‚Äì80% del total).
    """
    p = (
        0.18                       # antes 0.10
        + 0.12 * criticidad        # antes 0.05
    )

    p *= (1 + 0.20 * fdo_row["fdo_congestion"])

    return min(p, 0.40)            # antes 0.25



def base_NM(criticidad, fdo_row):
    """
    NMS (Near Miss)
    Frecuencia intermedia (ideal 15‚Äì25%), solo sube con criticidad alta.
    """
    p = (
        0.04                      # base antes 0.02 ‚Üí duplicamos
        + 0.06 * criticidad       # antes 0.04 ‚Üí m√°s sensibilidad
    )

    # fdo_clima sube efecto realista
    p *= (1 + 0.10 * fdo_row["fdo_clima"])

    return min(p, 0.12)           # antes 0.07 ‚Üí l√≠mite mayor
          # hard cap 7%


def base_IM(criticidad, fdo_row):
    """
    IMEN (Incidente Menor)
    RARO: 0.3‚Äì1.5% normalmente.
    """
    p = (
        0.003                      # base 0.3%
        + 0.01 * criticidad        # criticidad aporta hasta 1%
    )

    p *= (1 + 0.05 * fdo_row["fdo_fatiga"])

    return min(p, 0.02)            # l√≠mite duro 2%


print("Funciones PD / NMS / IM recalibradas (versi√≥n final).")


In [None]:
# Celda 3.1b ‚Äì Versi√≥n corregida de modular_por_fdo (redefine solo esta funci√≥n)

def modular_por_fdo(prob, fdo_row):
    """
    Ajusta la probabilidad con los FDO diarios.
    Reglas STDE v3:
      - producci√≥n, congesti√≥n y fatiga aumentan prob. de eventos
      - dotaci√≥n baja ‚Üí aumenta riesgo
      - clima extremo ‚Üí altera probabilidad
    """
    factor = (
        1.0
        + 0.30 * fdo_row["fdo_produccion"]
        + 0.20 * fdo_row["fdo_congestion"]
        + 0.20 * fdo_row["fdo_fatiga"]
        + 0.10 * (1.0 - fdo_row["fdo_dotacion"])   # menos dotaci√≥n ‚Üí m√°s riesgo
        + 0.10 * abs(fdo_row["fdo_clima"] - 0.5)   # clima muy bueno o muy malo altera el riesgo
    )

    prob_mod = np.clip(prob * factor, 0.0, 0.99)
    return prob_mod


In [None]:
# --------------------------------------------------------------------
# 3.2a Preprocesar roles y tareas agrupados por √°rea (usando 'area_operacional')
# --------------------------------------------------------------------

# Validar columnas reales
assert "area_operacional" in df_roles.columns, "El cat√°logo de roles no contiene 'area_operacional'"
assert "area_operacional" in df_tareas.columns, "El cat√°logo de tareas no contiene 'area_operacional'"

# Crear diccionarios √°rea ‚Üí lista de roles / tareas
roles_por_area = (
    df_roles
    .groupby("area_operacional")["id"]
    .apply(list)
    .to_dict()
)

tareas_por_area = (
    df_tareas
    .groupby("area_operacional")["id"]
    .apply(list)
    .to_dict()
)

print("Roles por √°rea:", {k: len(v) for k,v in roles_por_area.items()})
print("Tareas por √°rea:", {k: len(v) for k,v in tareas_por_area.items()})


In [None]:
# ------------------------------------------------------------
# Celda 3.2 ‚Äî Generar eventos diarios (HAZARD / NMS / IMEN)
# ------------------------------------------------------------

def generar_eventos_v3(
    calendario, df_trayectorias, df_fdo, oms,
    roles_por_area, tareas_por_area
):
    eventos = []

    # Extraer mapeo riesgo_por_area desde OMS v3
    riesgo_por_area = oms.get("mapeos_operacionales", {}).get("riesgo_por_area", {})

    for _, row in calendario.iterrows():
        fecha = row["fecha"]
        semana = row["semana"]
        id_dia = row["id_dia"]

        # FDO y trayectoria para ese d√≠a
        fdo_row = df_fdo[df_fdo["id_dia"] == id_dia].iloc[0]
        tra_row = df_trayectorias[df_trayectorias["id_dia"] == id_dia].iloc[0]

        # Recorrer cada √°rea definida en la OMS
        for area_id, riesgos_area in riesgo_por_area.items():

            # 1) Elegir riesgo dominante del √°rea seg√∫n pesos
            riesgos = [x["riesgo_id"] for x in riesgos_area]
            pesos = [x["peso_relativo"] for x in riesgos_area]
            riesgo_elegido = random.choices(riesgos, weights=pesos, k=1)[0]

            # 2) Obtener criticidad del riesgo elegido
            criticidad = float(tra_row[f"criticidad_{riesgo_elegido}"])

            # 3) Calcular probabilidad de evento
            p_pd = base_PD(criticidad, fdo_row)
            p_nm = base_NM(criticidad, fdo_row)
            p_im = base_IM(criticidad, fdo_row)

            # 4) Selecci√≥n del tipo narrativo
            evento_tipo = None
            r = random.random()

            # Orden l√≥gico PD ‚Üí NMS ‚Üí IMEN
            # Probabilidad total
            p_total = p_pd + p_nm + p_im
            r = random.random()

            evento_tipo = None
            if r < p_pd:
                evento_tipo = "HAZARD"
            elif r < p_pd + p_nm:
                evento_tipo = "NMS"
            elif r < p_pd + p_nm + p_im:
                evento_tipo = "IMEN"


            # 5) Si no ocurri√≥ evento, pasar al siguiente √°rea
            if not evento_tipo:
                continue

            # 6) Seleccionar rol/tarea v√°lidos del √°rea
            roles_area = roles_por_area.get(area_id, [])
            tareas_area = tareas_por_area.get(area_id, [])

            if not roles_area or not tareas_area:
                continue  # Seguridad

            rol_id = random.choice(roles_area)
            tarea_id = random.choice(tareas_area)

            # 7) Registrar evento
            eventos.append({
                "id_dia": id_dia,
                "fecha": fecha,
                "semana": semana,
                "id_area": area_id,
                "riesgo_id": riesgo_elegido,
                "tipo_evento": evento_tipo,
                "criticidad": criticidad,
                "rol_id": rol_id,
                "tarea_id": tarea_id,
            })

    return pd.DataFrame(eventos)


# Ejecutar
df_eventos = generar_eventos_v3(
    calendario, df_trayectorias, df_fdo, oms,
    roles_por_area, tareas_por_area
)

print("Eventos generados:", df_eventos.shape)
df_eventos.head()


In [None]:
df_eventos["tipo_evento"].value_counts()


In [None]:
df_eventos["riesgo_id"].value_counts()


In [None]:
df_eventos.groupby("semana")["tipo_evento"].count()


In [None]:
# ------------------------------------------------------------
# Celda 3.3 ‚Äî Inyecci√≥n del lunes cr√≠tico (versi√≥n C.3 ‚Äî √°rea fija MRA)
# ------------------------------------------------------------

def inyectar_lunes_critico(df_eventos, df_trayectorias, oms,
                           roles_por_area, tareas_por_area):
    """
    Inyecta el lunes cr√≠tico como un evento compuesto:
      - LC_EVT_00 (evento maestro)
      - LC_EVT_01 (NMS R01)
      - LC_EVT_02 (NMS R02)

    NOTA:
    Para mantener la coherencia narrativa, el lunes cr√≠tico
    siempre ocurre en el √°rea MRA, independientemente del
    mapeo operacional general.
    """

    # Fecha del LC definida en OMS v3
    fecha_lc = pd.to_datetime(
        oms["escenario_operacion"]["lunes_critico"]["fecha"]
    ).date()

    semana_lc = 13
    id_dia_lc = -1

    # Criticidad real (√∫ltimo d√≠a semana 12)
    def criticidad_real(riesgo_id):
        try:
            fila = df_trayectorias[df_trayectorias["semana"] == 12].iloc[-1]
            return float(fila[f"criticidad_{riesgo_id}"])
        except:
            return 0.8

    # Forzar √°rea = MRA
    area_lc = "MRA"

    # Selecci√≥n de rol/tarea solo para MRA
    def elegir_rol_tarea_MRA():
        roles = roles_por_area.get(area_lc, [])
        tareas = tareas_por_area.get(area_lc, [])
        if not roles or not tareas:
            return None, None
        return random.choice(roles), random.choice(tareas)

    rol_R01, tarea_R01 = elegir_rol_tarea_MRA()
    rol_R02, tarea_R02 = elegir_rol_tarea_MRA()

    registros = []

    # ------------------------------------------------------------
    # Evento Maestro (compuesto)
    # ------------------------------------------------------------
    registros.append({
        "id_evento": "LC_EVT_00",
        "id_evento_compuesto": None,
        "id_dia": id_dia_lc,
        "fecha": fecha_lc,
        "semana": semana_lc,

        "id_area": area_lc,
        "rol_id": None,
        "tarea_id": None,

        "riesgo_id": None,
        "tipo_evento": "NMS_COMPUESTO",
        "criticidad": max(criticidad_real("R01"), criticidad_real("R02")),
        "es_lunes_critico": True,

        "descripcion_evento": (
            "Durante una inspecci√≥n rutinaria en un andamio m√≥vil, un trabajador perdi√≥ "
            "el equilibrio y simult√°neamente se le cay√≥ una llave desde altura. "
            "El arn√©s detuvo la ca√≠da y la herramienta no impact√≥ a nadie."
        ),
        "evento_principal_ocurrido": (
            "P√©rdida de equilibrio en andamio que activa ca√≠da detenida (R01) "
            "y ca√≠da de objeto (R02)."
        )
    })

    # ------------------------------------------------------------
    # Sub-evento R01 (Ca√≠da detenida)
    # ------------------------------------------------------------
    registros.append({
        "id_evento": "LC_EVT_01",
        "id_evento_compuesto": "LC_EVT_00",
        "id_dia": id_dia_lc,
        "fecha": fecha_lc,
        "semana": semana_lc,

        "id_area": area_lc,
        "rol_id": rol_R01,
        "tarea_id": tarea_R01,

        "riesgo_id": "R01",
        "tipo_evento": "NMS",
        "criticidad": criticidad_real("R01"),
        "es_lunes_critico": True,

        "descripcion_evento": (
            "Ca√≠da detenida por arn√©s al perder equilibrio en el andamio."
        ),
        "evento_principal_ocurrido": "Ca√≠da detenida."
    })

    # ------------------------------------------------------------
    # Sub-evento R02 (Ca√≠da de herramienta)
    # ------------------------------------------------------------
    registros.append({
        "id_evento": "LC_EVT_02",
        "id_evento_compuesto": "LC_EVT_00",
        "id_dia": id_dia_lc,
        "fecha": fecha_lc,
        "semana": semana_lc,

        "id_area": area_lc,
        "rol_id": rol_R02,
        "tarea_id": tarea_R02,

        "riesgo_id": "R02",
        "tipo_evento": "NMS",
        "criticidad": criticidad_real("R02"),
        "es_lunes_critico": True,

        "descripcion_evento": (
            "Ca√≠da de herramienta desde el andamio sin impacto en personas."
        ),
        "evento_principal_ocurrido": "Ca√≠da de objeto."
    })

    df_lc = pd.DataFrame(registros)

    df_final = (
        pd.concat([df_eventos, df_lc], ignore_index=True)
        .sort_values(["fecha", "id_area"])
        .reset_index(drop=True)
    )

    print("‚Üí Lunes cr√≠tico inyectado correctamente (√°rea=MRA).")
    return df_final


# Reinyectar LC
df_eventos = inyectar_lunes_critico(
    df_eventos, df_trayectorias, oms,
    roles_por_area, tareas_por_area
)

df_eventos[df_eventos["es_lunes_critico"] == True]


In [None]:
# ------------------------------------------------------------
# Celda 4.1 ‚Äî Observaciones OPG¬± (ruido operacional por √°rea)
# ------------------------------------------------------------

def generar_observaciones_opg(calendario, df_fdo, roles_por_area, tareas_por_area):
    registros = []

    # Reglas de carga por √°rea
    OPG_AREA = {
        "MRA": (2, 4),   # Rango por d√≠a
        "CHP": (1, 3),
        "PLC": (1, 3),
        "STM": (1, 3),
        "TME": (1, 3),
    }

    for _, row in calendario.iterrows():
        fecha = row["fecha"]
        semana = row["semana"]
        id_dia = row["id_dia"]

        # FDO del d√≠a
        fdo_row = df_fdo[df_fdo["id_dia"] == id_dia].iloc[0]
        fatiga = fdo_row["fdo_fatiga"]
        congestion = fdo_row["fdo_congestion"]

        for area_id, (lo, hi) in OPG_AREA.items():

            # Cantidad de observaciones del d√≠a en esa √°rea
            n_opg = random.randint(lo, hi)

            for _ in range(n_opg):

                # Selecci√≥n de roles/tareas v√°lidos
                roles_area = roles_por_area.get(area_id, [])
                tareas_area = tareas_por_area.get(area_id, [])

                if not roles_area or not tareas_area:
                    continue

                rol_id = random.choice(roles_area)
                tarea_id = random.choice(tareas_area)

                # Estado OPG+ / OPG‚àí
                # Congesti√≥n y fatiga aumentan probabilidad de OPG‚àí
                p_neg = 0.03 + 0.10 * congestion + 0.07 * fatiga
                p_neg = min(p_neg, 0.20)  # l√≠mite duro: 20%

                estado = "OPG-" if random.random() < p_neg else "OPG+"

                registros.append({
                    "id_observacion": None,  # se completa luego en consolidaci√≥n
                    "fecha": fecha,
                    "semana": semana,
                    "id_area": area_id,
                    "rol_observador_id": rol_id,
                    "rol_observado_id": rol_id,  # simplificaci√≥n STDE v3
                    "tarea_id": tarea_id,
                    "tipo_observacion": "OPG",
                    "estado": estado,
                    "riesgo_id": None,
                    "is_control_critico": False,
                    "control_critico_id": None,
                })

    return pd.DataFrame(registros)


# Ejecutar OPG¬±
df_opg = generar_observaciones_opg(
    calendario, df_fdo, roles_por_area, tareas_por_area
)

print("OPG generadas:", df_opg.shape)
df_opg.head()


In [None]:
# ------------------------------------------------------------
# Celda 4.2 ‚Äì OCC¬± planificadas/espont√°neas seg√∫n ranking proactivo
#   - Total objetivo ‚âà 200 OCC en 12 semanas (~16/semana)
#   - Solo riesgos R01‚ÄìR03
#   - Distribuci√≥n semanal:
#       50% riesgo top entre R01‚ÄìR03
#       30% segundo
#       20% tercero
#   - NO dependen de eventos, solo de:
#       - ranking semanal (modelo proactivo)
#       - mapeos_operacionales.riesgo_por_area (OMS v3)
#       - cat√°logos de roles/tareas/controles
# ------------------------------------------------------------

def generar_occ_planificadas(
    calendario,
    oms,
    roles_por_area,
    tareas_por_area,
    df_controles,
    path_proactivo=PATH_PROACTIVO,
    occ_totales_por_semana=16,
):
    """
    Genera OCC¬± para 12 semanas, usando el ranking proactivo v4.4:
    - Se lee el CSV del modelo proactivo (stde_proactivo_semanal_v4_4.csv)
    - Para cada semana se determina el orden relativo de R01, R02, R03.
    - Se asignan ~16 OCC semanales distribuidas 50/30/20 seg√∫n ese orden.
    - Las OCC se distribuyen en d√≠as y √°reas usando mapeos_operacionales.
    """

    # ------------------------------
    # 1) Cargar ranking proactivo
    # ------------------------------
    df_pro = pd.read_csv(path_proactivo)

    # Normalizar nombres de columnas si fuese necesario
    # Se espera: "semana_id", "riesgo_id", "score_proactivo", "rank_proactivo"
    cols_lower = {c.lower(): c for c in df_pro.columns}
    if "semana_id" not in df_pro.columns and "semana_id" in cols_lower:
        df_pro.rename(columns={cols_lower["semana_id"]: "semana_id"}, inplace=True)
    if "riesgo_id" not in df_pro.columns and "riesgo_id" in cols_lower:
        df_pro.rename(columns={cols_lower["riesgo_id"]: "riesgo_id"}, inplace=True)
    if "rank_proactivo" not in df_pro.columns and "rank_proactivo" in cols_lower:
        df_pro.rename(columns={cols_lower["rank_proactivo"]: "rank_proactivo"}, inplace=True)

    # Nos quedamos solo con R01‚ÄìR03
    df_pro_3 = df_pro[df_pro["riesgo_id"].isin(["R01", "R02", "R03"])].copy()

    # ------------------------------
    # 2) Mapeos de √°reas por riesgo (OMS v3)
    # ------------------------------
    riesgo_por_area = oms.get("mapeos_operacionales", {}).get("riesgo_por_area", {})

    def elegir_area_para_riesgo(riesgo_id):
        """Elige un √°rea para el riesgo dado, usando los pesos de mapeos_operacionales."""
        areas = []
        pesos = []

        for area_id, lista_riesgos in riesgo_por_area.items():
            for item in lista_riesgos:
                if item["riesgo_id"] == riesgo_id:
                    areas.append(area_id)
                    pesos.append(item["peso_relativo"])
        if not areas:
            return None
        return random.choices(areas, weights=pesos, k=1)[0]

    # ------------------------------
    # 3) Controles cr√≠ticos por riesgo
    # ------------------------------
    # El cat√°logo de controles tiene "riesgo_asociado" y "id"
    controles_por_riesgo = (
        df_controles.groupby("riesgo_asociado")["id"]
        .apply(list).to_dict()
    )

    def elegir_control_critico(riesgo_id):
        ids = controles_por_riesgo.get(riesgo_id, [])
        if not ids:
            return None
        return random.choice(ids)

    # ------------------------------
    # 4) Bucle por semana (1‚Äì12)
    # ------------------------------
    registros = []

    semanas_unicas = sorted(calendario["semana"].unique())
    # asumimos 12 semanas numeradas 1..12
    for semana in semanas_unicas:
        # Ranking para esa semana (solo R01‚ÄìR03)
        df_sem = df_pro_3[df_pro_3["semana_id"] == semana]

        if df_sem.empty:
            continue

        # Ordenar por rank_proactivo (1 = m√°s cr√≠tico)
        df_sem_ordenado = df_sem.sort_values("rank_proactivo")
        riesgos_ordenados = df_sem_ordenado["riesgo_id"].tolist()

        # Si faltan riesgos, rellenar orden con los que falten
        for r in ["R01", "R02", "R03"]:
            if r not in riesgos_ordenados:
                riesgos_ordenados.append(r)

        # Tomar solo los 3 en orden
        r_top, r_mid, r_low = riesgos_ordenados[:3]

        # Cantidades por riesgo (50% / 30% / 20%)
        n_total = occ_totales_por_semana
        n_top = int(round(n_total * 0.50))
        n_mid = int(round(n_total * 0.30))
        n_low = n_total - n_top - n_mid  # lo que falta

        plan_semana = [
            (r_top, n_top),
            (r_mid, n_mid),
            (r_low, n_low),
        ]

        # D√≠as de esta semana en el calendario
        dias_sem = calendario[calendario["semana"] == semana]["fecha"].tolist()
        if not dias_sem:
            continue

        # ------------------------------
        # 5) Generar OCC para esta semana
        # ------------------------------
        for riesgo_id, n_occ in plan_semana:

            for _ in range(n_occ):
                # Elegir d√≠a
                fecha = random.choice(dias_sem)

                # Elegir √°rea seg√∫n mapeo OMS
                area_id = elegir_area_para_riesgo(riesgo_id)
                if area_id is None:
                    continue

                # Roles / tareas del √°rea
                roles_area = roles_por_area.get(area_id, [])
                tareas_area = tareas_por_area.get(area_id, [])

                if not roles_area or not tareas_area:
                    continue

                # OCC+ / OCC‚àí (por defecto 70% positivas, 30% negativas)
                estado = "OCC+" if random.random() < 0.7 else "OCC-"

                # Control cr√≠tico (si existe)
                control_id = elegir_control_critico(riesgo_id)
                is_cc = control_id is not None

                # Buscar semana/id_dia consistentes con calendario
                row_dia = calendario[calendario["fecha"] == fecha]
                if row_dia.empty:
                    continue

                semana_real = int(row_dia["semana"].iloc[0])

                registros.append({
                    "id_observacion": None,
                    "fecha": fecha,
                    "semana": semana_real,
                    "id_area": area_id,
                    "rol_observador_id": random.choice(roles_area),
                    "rol_observado_id": random.choice(roles_area),
                    "tarea_id": random.choice(tareas_area),

                    "tipo_observacion": "OCC",
                    "estado": estado,

                    "riesgo_id": riesgo_id,
                    "is_control_critico": is_cc,
                    "control_critico_id": control_id,

                    # OCC no vienen de eventos ‚Üí sin v√≠nculo a df_eventos
                    "id_evento_origen": None,
                    "tipo_evento_origen": None,
                })

    df_occ = pd.DataFrame(registros)
    return df_occ


# Ejecutar generaci√≥n OCC planificadas
df_occ = generar_occ_planificadas(
    calendario,
    oms,
    roles_por_area,
    tareas_por_area,
    df_controles,
    path_proactivo=PATH_PROACTIVO,
    occ_totales_por_semana=16,   # 16 x 12 semanas ‚âà 192 OCC (rango cercano a 200)
)

print("OCC generadas:", df_occ.shape)
print(df_occ["riesgo_id"].value_counts(dropna=False))
print(df_occ["estado"].value_counts(dropna=False))
df_occ.head()


In [None]:
# ------------------------------------------------------------
# Celda 4.3 ‚Äî Consolidar OPG y OCC en un solo dataframe final
# ------------------------------------------------------------

def consolidar_observaciones(df_opg, df_occ):
    """
    Une OPG y OCC en un √∫nico DF y asigna IDs √∫nicos.
    Se mantiene completamente alineado al STDE_SCHEMA v3.
    """

    # --------------------------------------------------------
    # 1) Unir dataframes (si OCC est√° vac√≠o no rompe nada)
    # --------------------------------------------------------
    df_obs = pd.concat([df_opg, df_occ], ignore_index=True)

    if df_obs.empty:
        print("‚ö† No se generaron observaciones.")
        return df_obs

    # --------------------------------------------------------
    # 2) Generar ID √∫nico para cada observaci√≥n
    # Formato: OBS_000001
    # --------------------------------------------------------
    df_obs["id_observacion"] = [
        f"OBS_{i:06d}" for i in range(1, len(df_obs) + 1)
    ]

    # --------------------------------------------------------
    # 3) Asegurar tipos finales para consistencia
    # --------------------------------------------------------
    df_obs["is_control_critico"] = df_obs["is_control_critico"].astype(bool)

    # --------------------------------------------------------
    # 4) Ordenar columnas seg√∫n STDE_SCHEMA
    # --------------------------------------------------------
    columnas_finales = [
        "id_observacion",
        "fecha",
        "semana",
        "id_area",
        "rol_observador_id",
        "rol_observado_id",
        "tarea_id",
        "tipo_observacion",     # OPG / OCC
        "estado",               # OPG+, OPG‚àí, OCC+, OCC‚àí
        "riesgo_id",
        "is_control_critico",
        "control_critico_id",
    ]

    # Algunas columnas pueden faltar (ej: OCC vac√≠o)
    columnas_presentes = [c for c in columnas_finales if c in df_obs.columns]

    df_obs = df_obs[columnas_presentes]

    # --------------------------------------------------------
    # 5) Ordenar por fecha y √°rea (m√°s ordenado para an√°lisis)
    # --------------------------------------------------------
    df_obs = df_obs.sort_values(by=["fecha", "id_area"]).reset_index(drop=True)

    return df_obs


# Ejecutar consolidaci√≥n
df_observaciones = consolidar_observaciones(df_opg, df_occ)

print("Observaciones totales:", df_observaciones.shape)
df_observaciones.head()


In [None]:
# ------------------------------------------------------------
# Celda 5.1 ‚Äî Auditor√≠as AUF reactivas (solo NMS e IMEN)
# ------------------------------------------------------------

def generar_auditorias_reactivas(df_eventos, roles_por_area):
    """
    Genera auditor√≠as reactivas cuando existen:
      - Near Miss (NMS)
      - Incidente Menor (IMEN)

    Regla STDE v3:
      ‚Üí auditor√≠a en ‚â§48 horas
      ‚Üí √°rea del evento
      ‚Üí riesgo focal del evento
    """

    registros = []
    id_counter = 1

    eventos_reactivos = df_eventos[
        df_eventos["tipo_evento"].isin(["NMS", "IMEN"])
    ]

    for _, ev in eventos_reactivos.iterrows():

        # Fecha AUDIT entre el mismo d√≠a y 2 d√≠as despu√©s
        fecha_ev = ev["fecha"]
        delta = random.choice([0, 1, 2])
        fecha_aud = fecha_ev + timedelta(days=delta)

        # Rol auditor aleatorio del √°rea
        area = ev["id_area"]
        posibles_roles = roles_por_area.get(area, [])
        rol_auditor = random.choice(posibles_roles) if posibles_roles else None

        registros.append({
            "id_auditoria": f"AUF_R_{id_counter:05d}",
            "fecha": fecha_aud,
            "semana": ev["semana"],
            "id_area": ev["id_area"],
            "riesgo_focal": ev["riesgo_id"],
            "tipo_auditoria": "AUF",        # √∫nica categor√≠a en STDE v3
            "origen": "reactiva",
            "rol_auditor_id": rol_auditor,
            "id_evento_asociado": ev.get("id_evento", None),
        })

        id_counter += 1

    return pd.DataFrame(registros)


# Ejecutar AUF REACTIVAS
df_auf_reactivas = generar_auditorias_reactivas(df_eventos, roles_por_area)

print("AUF reactivas generadas:", df_auf_reactivas.shape)
df_auf_reactivas.head()


In [None]:
# ------------------------------------------------------------
# Celda 5.2 ‚Äî Auditor√≠as AUF planificadas (corregida)
# ------------------------------------------------------------

def generar_auditorias_planificadas(calendario, roles_por_area, riesgos=["R01","R02","R03"]):
    """
    Genera ~5 auditor√≠as por riesgo por mes (~15 por mes total),
    distribuidas aleatoriamente dentro de cada mes.
    """

    registros = []
    id_counter = 1

    # ---------------------------------------------------------
    # üî• FIX: asegurar que 'fecha' sea datetime
    # ---------------------------------------------------------
    calendario["fecha"] = pd.to_datetime(calendario["fecha"])

    # Determinar meses presentes en el calendario
    calendario["mes"] = calendario["fecha"].dt.to_period("M")
    meses = calendario["mes"].unique()

    for mes in meses:
        df_mes = calendario[calendario["mes"] == mes]

        for riesgo in riesgos:
            # generar 5 auditor√≠as planificadas para este riesgo
            for _ in range(5):

                row = df_mes.sample(1).iloc[0]
                fecha = row["fecha"]
                semana = row["semana"]

                # seleccionar √°rea y rol auditor
                area = random.choice(list(roles_por_area.keys()))
                rol = random.choice(roles_por_area[area])

                registros.append({
                    "id_auditoria": f"AUF_P_{id_counter:05d}",
                    "fecha": fecha,
                    "semana": semana,
                    "id_area": area,
                    "riesgo_focal": riesgo,
                    "tipo_auditoria": "AUF",
                    "origen": "planificada",
                    "rol_auditor_id": rol,
                })

                id_counter += 1

    return pd.DataFrame(registros)


# Ejecutar AUF PLANIFICADAS
df_auf_planificadas = generar_auditorias_planificadas(calendario, roles_por_area)

print("AUF planificadas:", df_auf_planificadas.shape)
df_auf_planificadas.head()


In [None]:
# ------------------------------------------------------------
# Celda 5.3 ‚Äî Consolidar Auditor√≠as AUF (reactivas + planificadas)
# ------------------------------------------------------------

def consolidar_auditorias(df_auf_reactivas, df_auf_planificadas):
    """
    Une AUF reactivas y planificadas en un √∫nico dataframe,
    asigna IDs √∫nicos finales y ordena columnas seg√∫n STDE_SCHEMA v3.
    """

    # --------------------------------------------------------
    # 1) Unir ambos dataframes
    # --------------------------------------------------------
    df_aud = pd.concat(
        [df_auf_reactivas, df_auf_planificadas],
        ignore_index=True
    )

    if df_aud.empty:
        print("‚ö† No se generaron auditor√≠as.")
        return df_aud

    # --------------------------------------------------------
    # 2) Asegurar fecha como datetime (FIX del error)
    # --------------------------------------------------------
    df_aud["fecha"] = pd.to_datetime(df_aud["fecha"])

    # --------------------------------------------------------
    # 3) Asignaci√≥n de ID final √∫nico
    #    Formato: AUF_000001
    # --------------------------------------------------------
    df_aud["id_auditoria_final"] = [
        f"AUF_{i:06d}" for i in range(1, len(df_aud) + 1)
    ]

    # --------------------------------------------------------
    # 4) Reordenar columnas seg√∫n STDE_SCHEMA v3
    # --------------------------------------------------------
    columnas_finales = [
        "id_auditoria_final",
        "fecha",
        "semana",
        "id_area",
        "riesgo_focal",
        "tipo_auditoria",
        "origen",
        "rol_auditor_id",
        "id_evento_asociado",
    ]

    columnas_presentes = [c for c in columnas_finales if c in df_aud.columns]
    df_aud = df_aud[columnas_presentes]

    # --------------------------------------------------------
    # 5) Ordenar (ya no fallar√°)
    # --------------------------------------------------------
    df_aud = df_aud.sort_values(by=["fecha", "id_area"]).reset_index(drop=True)

    return df_aud


# Ejecutar consolidaci√≥n final
df_auditorias = consolidar_auditorias(df_auf_reactivas, df_auf_planificadas)

print("AUDITOR√çAS TOTALES:", df_auditorias.shape)
df_auditorias.head()


In [None]:
# Celda 6.1 ‚Äì Cargar ranking proactivo v4.4 (archivo final)

df_proactivo = pd.read_csv(PATH_PROACTIVO)

# Validaciones base
print("Proactivo v4.4 cargado correctamente:", df_proactivo.shape)
print("Columnas:", list(df_proactivo.columns))

# Vista r√°pida
df_proactivo.head(12)


In [None]:
# Celda 6.2 ‚Äì Calcular thresholds por semana y riesgo

def calcular_thresholds(df_proactivo):

    registros = []

    for semana in sorted(df_proactivo["semana_id"].unique()):
        df_sem = df_proactivo[df_proactivo["semana_id"] == semana]

        scores = df_sem["score_proactivo"].values

        # Thresholds basados en percentiles (modelo real)
        thr_alerta  = np.round(np.percentile(scores, 60), 2)
        thr_critico = np.round(np.percentile(scores, 80), 2)

        for _, row in df_sem.iterrows():
            registros.append({
                "semana_id": semana,
                "riesgo_id": row["riesgo_id"],
                "score_proactivo": row["score_proactivo"],
                "rank_proactivo": row["rank_proactivo"],
                "threshold_alerta": thr_alerta,
                "threshold_critico": thr_critico
            })

    return pd.DataFrame(registros)


df_proactivo_thresholds = calcular_thresholds(df_proactivo)
print("Thresholds generados:", df_proactivo_thresholds.shape)
df_proactivo_thresholds.head(15)


In [None]:
# Celda 6.1 ‚Äî Cargar ranking semanal del modelo proactivo (CSV)

PATH_PROACTIVO = os.path.join(BASE_PATH, "stde_proactivo_semanal_v4_4.csv")

df_proactivo = pd.read_csv(PATH_PROACTIVO)

print("Ranking proactivo cargado:", df_proactivo.shape)
df_proactivo.head()


In [None]:
# Celda 6.2 ‚Äî Quedarnos solo con los riesgos modelados (R01‚ÄìR03)

def filtrar_top3_proactivo(df):
    """
    Mantiene solo los riesgos R01‚ÄìR03 del ranking semanal.
    Cada fila representa semana + riesgo + ranking_pos.
    """
    df2 = df[df["riesgo_id"].isin(["R01", "R02", "R03"])].copy()
    return df2

df_proactivo_top3 = filtrar_top3_proactivo(df_proactivo)

print("Ranking filtrado a R01‚ÄìR03:", df_proactivo_top3.shape)
df_proactivo_top3.head()


In [None]:
# Celda 6.3 ‚Äî Integrar trayectorias reales vs ranking semanal

# Trayectorias promedio por semana (ya las ten√≠as en df_trayectorias_semana)
df_tray_sem.rename(columns={"semana": "semana_id"}, inplace=True)

df_compare = df_proactivo_top3.merge(
    df_tray_sem,
    left_on="semana",
    right_on="semana_id",
    how="left"
)

print("Comparaci√≥n ranking + trayectoria:", df_compare.shape)
df_compare.head()


In [None]:
# Celda 6.4 ‚Äî Clasificaci√≥n K9 basada en criticidad y tendencia

def clasificacion_k9(criticidad_actual, criticidad_prev):
    """
    Solo 2 colores:
    - ROJO     = alta criticidad + tendencia fuerte
    - AMARILLO = moderado + tendencia leve
    """
    tendencia = criticidad_actual - criticidad_prev if criticidad_prev is not None else 0.0

    if criticidad_actual > 0.70 and tendencia > 0.05:
        return "ROJO"

    if criticidad_actual > 0.50 or tendencia > 0.02:
        return "AMARILLO"

    return "AMARILLO"  # Por dise√±o K9 (no usamos VERDE)


# ---------------------------------------------------
# Aplicar clasificaci√≥n por riesgo / semana
# ---------------------------------------------------
clasificaciones = []

for _, row in df_compare.iterrows():
    riesgo = row["riesgo_id"]
    semana = row["semana"]

    crit_col = f"criticidad_{riesgo}_media"

    criticidad_actual = row.get(crit_col, None)

    # Criticidad semana anterior
    if semana > 1:
        prev = df_compare[
            (df_compare["riesgo_id"] == riesgo) &
            (df_compare["semana"] == semana - 1)
        ]
        criticidad_prev = float(prev[crit_col]) if len(prev) > 0 else None
    else:
        criticidad_prev = None

    color = clasificacion_k9(criticidad_actual, criticidad_prev)

    clasificaciones.append(color)

df_compare["k9_color"] = clasificaciones

print("Clasificaci√≥n aplicada.")
df_compare.head()


In [None]:
# Celda 6.5 ‚Äî Output final del bloque 6.x

df_resultado_6x = df_compare[[
    "semana",
    "riesgo_id",
    "ranking_pos",
    "criticidad_R01_media",
    "criticidad_R02_media",
    "criticidad_R03_media",
    "criticidad_global_media",
    "k9_color"
]].sort_values(["semana", "ranking_pos"])

print("Resultado final 6.x:", df_resultado_6x.shape)
df_resultado_6x.head(10)


In [None]:
# Celda 6.6 ‚Äî Se√±ales individuales por riesgo

def calcular_senales_individuales(df_compare):

    registros = []

    for semana in sorted(df_compare["semana"].unique()):
        df_sem = df_compare[df_compare["semana"] == semana]

        # Ordenar riesgos por ranking_pos
        df_sem_sorted = df_sem.sort_values("ranking_pos")

        # Obtener criticidad del top1 para la se√±al ‚Äúdistancia‚Äù
        riesgo_top1 = df_sem_sorted.iloc[0]["riesgo_id"]
        crit_top1 = df_sem_sorted.iloc[0][f"criticidad_{riesgo_top1}_media"]

        for _, row in df_sem_sorted.iterrows():
            riesgo = row["riesgo_id"]

            crit_actual = row[f"criticidad_{riesgo}_media"]

            # Criticidad previa
            if semana > 1:
                df_prev = df_compare[
                    (df_compare["riesgo_id"] == riesgo) &
                    (df_compare["semana"] == semana - 1)
                ]
                crit_prev = float(df_prev[f"criticidad_{riesgo}_media"]) if len(df_prev) > 0 else None
            else:
                crit_prev = None

            tendencia = (crit_actual - crit_prev) if crit_prev is not None else 0.0

            # Severidad interna K9 (SEV1/2/3)
            if row["k9_color"] == "ROJO":
                sev = "SEV3"
            else:
                sev = "SEV2" if tendencia > 0.03 else "SEV1"

            # Distancia al top 1
            dist_top1 = crit_actual - crit_top1

            # Shock del lunes cr√≠tico (solo aparece en semana 13 en el CSV final)
            lc_shock = 1 if semana == 13 and riesgo in ["R01", "R02"] else 0
            lc_delta = tendencia if lc_shock == 1 else 0.0

            registros.append({
                "semana": semana,
                "riesgo_id": riesgo,
                "ranking_pos": row["ranking_pos"],

                # Se√±ales STDE
                "criticidad": crit_actual,
                "tendencia": tendencia,
                "dist_top1": dist_top1,

                # Se√±al interna K9
                "sev_k9": sev,

                # Se√±ales lunes cr√≠tico
                "lc_shock": lc_shock,
                "lc_delta": lc_delta,
            })

    return pd.DataFrame(registros)


df_senales = calcular_senales_individuales(df_compare)

print("Se√±ales individuales generadas:", df_senales.shape)
df_senales.head(10)


In [None]:
# ------------------------------------------------------------
# Celda 7.1 ‚Äì Extraer se√±ales del lunes cr√≠tico para recalibraci√≥n
# ------------------------------------------------------------

def extraer_senales_lunes_critico(df_eventos, df_tray_sem):
    """
    Extrae el impacto del lunes cr√≠tico para R01 y R02:
    - criticidad previa (semana 12)
    - shock (criticidad del LC_evento)
    - delta (shock - criticidad_previa)
    Retorna un diccionario estructurado.
    """

    # Eventos R01 / R02 del LC
    df_lc = df_eventos[df_eventos["es_lunes_critico"] == True].copy()

    senales = {}

    for riesgo in ["R01", "R02"]:
        df_r = df_lc[df_lc["riesgo_id"] == riesgo]
        if df_r.empty:
            continue

        criticidad_lc = float(df_r["criticidad"].iloc[0])

        # criticidad promedio semana 12
        crit_prev = float(
            df_tray_sem[df_tray_sem["semana"] == 12][f"criticidad_{riesgo}_media"]
        )

        senales[riesgo] = {
            "criticidad_previa": round(crit_prev, 4),
            "criticidad_lc": round(criticidad_lc, 4),
            "delta": round(criticidad_lc - crit_prev, 4)
        }

    return senales


senales_lc = extraer_senales_lunes_critico(df_eventos, df_tray_semana)

print("Se√±ales del lunes cr√≠tico extra√≠das:")
senales_lc


In [None]:
# ------------------------------------------------------------
# Celda 7.2 ‚Äì Funci√≥n conceptual de recalibraci√≥n del modelo proactivo
# ------------------------------------------------------------

def recalibrar_proactivo(df_proactivo, senales_lc):
    """
    K9 recalibra su interpretaci√≥n del modelo proactivo posterior al LC.

    No cambia los scores del modelo proactivo.
    Genera 'pesos cognitivos' para ajustar qu√© tan relevante
    se vuelve un riesgo despu√©s del shock del lunes cr√≠tico.

    F√≥rmula:
        peso_k9 = 1 + (delta * 1.5)         si delta > 0
        peso_k9 = 1                         en otros casos

    Retorna DataFrame con columna nueva 'peso_k9'.
    """

    df = df_proactivo.copy()
    df["peso_k9"] = 1.0

    for riesgo, datos in senales_lc.items():
        delta = datos["delta"]
        if delta > 0:
            incremento = 1 + (1.5 * delta)
            df.loc[df["riesgo_id"] == riesgo, "peso_k9"] = incremento

    return df


df_proactivo_recal = recalibrar_proactivo(df_proactivo_thresholds, senales_lc)

print("Recalibraci√≥n conceptual aplicada (peso_k9):")
df_proactivo_recal.head(10)


In [None]:
# ------------------------------------------------------------
# Celda 7.3 ‚Äì Se√±ales recalibradas finales para AnalystNode K9
# ------------------------------------------------------------

def generar_senales_k9(df_tray_sem, df_proactivo_recal):
    """
    Genera para cada semana y riesgo (R01-R03):

    - ranking_pos
    - score_proactivo
    - threshold_norm
    - peso_k9
    - criticidad_media
    - tendencia
    - dist_top1
    - sev_k9 (SEV1‚ÄìSEV3)
    """

    registros = []

    semanas = sorted(df_tray_sem["semana"].unique())

    for semana in semanas:
        for riesgo in ["R01", "R02", "R03"]:

            # criticidad media
            crit = float(
                df_tray_sem[df_tray_sem["semana"] == semana][f"criticidad_{riesgo}_media"]
            )

            # tendencia semana a semana
            if semana == 1:
                tendencia = 0.0
            else:
                crit_prev = float(
                    df_tray_sem[df_tray_sem["semana"] == semana - 1][f"criticidad_{riesgo}_media"]
                )
                tendencia = crit - crit_prev

            # ranking del proactivo
            df_rk = df_proactivo_recal[
                (df_proactivo_recal["semana_id"] == semana) &
                (df_proactivo_recal["riesgo_id"] == riesgo)
            ]

            if df_rk.empty:
                continue

            rank_pos = int(df_rk["rank_proactivo"].iloc[0])
            score = float(df_rk["threshold_norm"].iloc[0])
            peso_k9 = float(df_rk["peso_k9"].iloc[0])

            # distancia al top1 de esa semana
            score_top1 = float(
                df_proactivo_recal[df_proactivo_recal["semana_id"] == semana]
                .sort_values("rank_proactivo")
                .iloc[0]["threshold_norm"]
            )
            dist_top1 = score - score_top1

            # severidad K9
            if score >= 0.8:
                sev = "SEV3"
            elif score >= 0.5:
                sev = "SEV2"
            else:
                sev = "SEV1"

            registros.append({
                "semana": semana,
                "riesgo_id": riesgo,
                "criticidad_media": round(crit, 4),
                "tendencia": round(tendencia, 4),
                "rank_pos": rank_pos,
                "score": round(score, 4),
                "dist_top1": round(dist_top1, 4),
                "sev_k9": sev,
                "peso_k9": round(peso_k9, 4),
            })

    return pd.DataFrame(registros)


df_senales_k9 = generar_senales_k9(df_tray_semana, df_proactivo_recal)

print("Se√±ales K9 generadas:", df_senales_k9.shape)
df_senales_k9.head(15)


In [None]:
# ------------------------------------------------------------
# Celda 8.1 ‚Äì Exportaci√≥n de datasets STDE v3 a CSV
# ------------------------------------------------------------

import os

# Usamos la ruta que definiste al inicio
OUTPUT_DIR = "../data/synthetic/"

os.makedirs(OUTPUT_DIR, exist_ok=True)

files_to_export = {
    "stde_trayectorias_diarias.csv": df_trayectorias,
    "stde_trayectorias_semanales.csv": df_tray_semana,
    "stde_eventos.csv": df_eventos,
    "stde_observaciones.csv": df_observaciones,
    "stde_auditorias.csv": df_auditorias,
    "stde_fdo_diario.csv": df_fdo_diario,
    "stde_proactivo_semanal_v4_4_thresholds.csv": df_proactivo_thresholds,
    "stde_senales_k9.csv": df_senales_k9,
}

for filename, df in files_to_export.items():
    path = os.path.join(OUTPUT_DIR, filename)
    df.to_csv(path, index=False, encoding="utf-8")
    print(f"‚úì Exportado: {filename} ‚Üí {path}")

print("\nExportaci√≥n STDE v3 completada.")


In [None]:
# ------------------------------------------------------------
# Celda 8.2 ‚Äì Checks de consistencia STDE v3
# ------------------------------------------------------------

print("------------------------------------------------------------")
print("CHECKS DE CONSISTENCIA ‚Äì STDE v3")
print("------------------------------------------------------------")

errores = []

# 1) Validar que todos los riesgos usados existan en la ontolog√≠a
riesgos_validos = set(df_riesgos["id_riesgo"].unique())

riesgos_eventos = set(df_eventos["riesgo_id"].dropna().unique())
riesgos_observ = set(df_observaciones["riesgo_id"].dropna().unique())

if not riesgos_eventos.issubset(riesgos_validos):
    errores.append("‚ùå Riesgos desconocidos en eventos.")
else:
    print("‚úì Riesgos v√°lidos en eventos.")

if not riesgos_observ.issubset(riesgos_validos):
    errores.append("‚ùå Riesgos desconocidos en observaciones.")
else:
    print("‚úì Riesgos v√°lidos en observaciones.")


# 2) Validar √°reas
areas_validas = set(df_areas["id_area"].unique())

areas_eventos = set(df_eventos["id_area"].unique())
areas_observ = set(df_observaciones["id_area"].unique())

if not areas_eventos.issubset(areas_validas):
    errores.append("‚ùå √Åreas desconocidas en eventos.")
else:
    print("‚úì √Åreas v√°lidas en eventos.")

if not areas_observ.issubset(areas_validas):
    errores.append("‚ùå √Åreas desconocidas en observaciones.")
else:
    print("‚úì √Åreas v√°lidas en observaciones.")


# 3) Validar roles y tareas
roles_validos = set(df_roles["id_rol"].unique())
tareas_validas = set(df_tareas["id_tarea"].unique())

roles_eventos = set(df_eventos["rol_id"].dropna().unique())
tareas_eventos = set(df_eventos["tarea_id"].dropna().unique())

if not roles_eventos.issubset(roles_validos):
    errores.append("‚ùå Roles desconocidos en eventos.")
else:
    print("‚úì Roles v√°lidos en eventos.")

if not tareas_eventos.issubset(tareas_validas):
    errores.append("‚ùå Tareas desconocidas en eventos.")
else:
    print("‚úì Tareas v√°lidas en eventos.")


# 4) Validar que exista lunes cr√≠tico y con EXACTAMENTE 3 registros (compuesto + 2 NMS)
df_lc = df_eventos[df_eventos["es_lunes_critico"] == True]

if df_lc.shape[0] != 3:
    errores.append(f"‚ùå Lunes cr√≠tico incorrecto: {df_lc.shape[0]} registros.")
else:
    print("‚úì Lunes cr√≠tico correcto (3 registros).")


# 5) Validar proporciones de OPG ¬± y OCC ¬±
if "estado" in df_observaciones.columns:
    pct_opg = (df_observaciones["tipo_observacion"] == "OPG").mean()
    pct_occ = (df_observaciones["tipo_observacion"] == "OCC").mean()

    print(f"Proporci√≥n OPG: {pct_opg:.2f} | OCC: {pct_occ:.2f}")

    if pct_occ > 0.40:
        errores.append("‚ùå OCC demasiado altas (deben ser ~10‚Äì25%).")
else:
    print("‚ö† df_observaciones no tiene columna 'estado'.")


# 6) Validar n√∫mero de AUF respecto a NMS/IMEN
n_nms = (df_eventos["tipo_evento"] == "NMS").sum()
n_imen = (df_eventos["tipo_evento"] == "IMEN").sum()
n_auf = df_auditorias.shape[0]

if n_auf < n_nms:
    errores.append("‚ùå AUF insuficientes frente a NMS.")
else:
    print("‚úì AUF coherentes con eventos reales.")


# 7) Resultado final
print("------------------------------------------------------------")

if errores:
    print("‚ùå Se detectaron problemas:")
    for e in errores:
        print("   -", e)
else:
    print("‚úì Todos los checks STDE v3 se cumplen correctamente.")

print("------------------------------------------------------------")


In [None]:
# ------------------------------------------------------------
# Celda 8.3 ‚Äî DataFrame semanal unificado: k9_weekly_signals.parquet
# ------------------------------------------------------------

import pyarrow as pa
import pyarrow.parquet as pq

# ------------------------------------------------------------
# 1) Partir del df_senales_k9 ya generado (secci√≥n 6.x)
# ------------------------------------------------------------

df_weekly = df_senales_k9.copy()

# ------------------------------------------------------------
# 2) Agregar columnas indicadoras √∫tiles para el AnalystNode
# ------------------------------------------------------------

df_weekly["is_top3"] = df_weekly["rank_proactivo"].apply(lambda r: r <= 3)
df_weekly["riesgo_dominante"] = df_weekly.groupby("semana")["criticidad"].transform(
    lambda x: x == x.max()
)

# Marcamos semana del lunes cr√≠tico
semana_lc = int(df_eventos[df_eventos["es_lunes_critico"] == True]["semana"].iloc[0])
df_weekly["es_semana_lunes_critico"] = df_weekly["semana"] == semana_lc

# ------------------------------------------------------------
# 3) Guardar en parquet
# ------------------------------------------------------------

path_parquet = os.path.join(OUTPUT_DIR, "k9_weekly_signals.parquet")

table = pa.Table.from_pandas(df_weekly)
pq.write_table(table, path_parquet)

print(f"‚úì Archivo semanal unificado exportado: {path_parquet}")
df_weekly.head()


In [None]:
# ------------------------------------------------------------
# Celda 8.4 ‚Äî Generar payload JSON para AnalystNode (por semana y global)
# ------------------------------------------------------------

import json

def build_week_payload(semana, df_weekly, df_eventos, df_observaciones, df_auditorias):
    df_w = df_weekly[df_weekly["semana"] == semana]

    # Eventos de esa semana
    eventos_w = df_eventos[df_eventos["semana"] == semana]
    observ_w = df_observaciones[df_observaciones["semana"] == semana]
    auf_w = df_auditorias[df_auditorias["semana"] == semana]

    payload = {
        "semana": int(semana),
        "riesgos": [],
        "eventos": eventos_w.to_dict(orient="records"),
        "observaciones": observ_w.to_dict(orient="records"),
        "auditorias": auf_w.to_dict(orient="records"),
        "es_semana_lunes_critico": bool((df_w["es_semana_lunes_critico"]).any())
    }

    for _, row in df_w.iterrows():
        payload["riesgos"].append({
            "riesgo_id": row["riesgo_id"],
            "criticidad_media": float(row["criticidad"]),
            "criticidad_ponderada": float(row["criticidad_ponderada"]),
            "zona_alerta": row["zona_alerta"],         # None / "amarilla" / "roja"
            "tendencia": row["tendencia"],            # "estable" / "leve_subida" / "acelerada"
            "rank_proactivo": int(row["rank_proactivo"]),
            "is_top3": bool(row["is_top3"]),
            "riesgo_dominante": bool(row["riesgo_dominante"]),
        })

    return payload


# ------------------------------------------------------------
# Generar payloads por semana
# ------------------------------------------------------------
payloads_semanales = {}
for semana in df_weekly["semana"].unique():
    payloads_semanales[f"semana_{int(semana)}"] = build_week_payload(
        semana,
        df_weekly,
        df_eventos,
        df_observaciones,
        df_auditorias
    )

# ------------------------------------------------------------
# Payload global (para precontexto del AnalystNode)
# ------------------------------------------------------------

payload_global = {
    "descripcion": "STDE v3 ‚Äì Se√±ales cruzadas completas para el AnalystNode",
    "periodo": f"{calendario['fecha'].iloc[0]} ‚Üí {calendario['fecha'].iloc[-1]}",
    "k9_signals_parquet": "k9_weekly_signals.parquet",
    "semanas": payloads_semanales
}

# Guardar JSON
json_path = os.path.join(OUTPUT_DIR, "k9_weekly_payloads.json")
with open(json_path, "w", encoding="utf-8") as f:
    json.dump(payload_global, f, ensure_ascii=False, indent=2)

print(f"‚úì Payload JSON exportado: {json_path}")


In [None]:
# ------------------------------------------------------------
# Celda 8.7 ‚Äî Payloads JSON para AnalystNode y PredictorNode
# ------------------------------------------------------------

import json

# ------------------------------------------------------------
# Payload PredictorNode ‚Äî formato pensado para K9 v3.1
# ------------------------------------------------------------

predictor_payload = {
    "descripcion": "STDE v3 ‚Äì Se√±ales completas para PredictorNode",
    "periodo": {
        "inicio": str(calendario["fecha"].iloc[0]),
        "fin": str(calendario["fecha"].iloc[-1]),
        "semanas": int(calendario["semana"].max())
    },

    "riesgos_modelados": ["R01", "R02", "R03"],

    "trayectorias": df_trayectorias_semana.to_dict(orient="records"),

    "eventos": {
        "totales": int(df_eventos.shape[0]),
        "por_semana": df_eventos.groupby("semana").size().to_dict(),
        "por_riesgo": df_eventos["riesgo_id"].value_counts().to_dict(),
        "near_miss": int((df_eventos["tipo_evento"] == "NMS").sum()),
        "incident_menor": int((df_eventos["tipo_evento"] == "IMEN").sum()),
        "lunes_critico": df_eventos[df_eventos["es_lunes_critico"] == True].to_dict(orient="records")
    },

    "observaciones": {
        "totales": int(df_observaciones.shape[0]),
        "opg": int((df_observaciones["tipo_observacion"] == "OPG").sum()),
        "occ": int((df_observaciones["tipo_observacion"] == "OCC").sum()),
        "occ_negativas": int((df_observaciones["estado"] == "OCC-").sum())
    },

    "auditorias": {
        "totales": int(df_auditorias.shape[0]),
        "por_semana": df_auditorias.groupby("semana").size().to_dict(),
        "reactivas": int((df_auditorias["tipo"] == "AUF").sum()),
        "planificadas": int((df_auditorias["tipo"] == "PLANIFICADA").sum()
                            if "PLANIFICADA" in df_auditorias["tipo"].unique()
                            else 0)
    },

    "modelo_proactivo": {
        "archivo_fuente": "stde_proactivo_semanal_v4_4.csv",
        "ranking": df_proactivo_thresholds.to_dict(orient="records"),
    },

    "k9_signals": {
        "por_semana": df_senales_k9.to_dict(orient="records"),
        "ruta_parquet": "k9_weekly_signals.parquet"
    },

    "fdo": df_fdo_diario.to_dict(orient="records")
}

# Guardar JSON PredictorNode
predictor_json_path = os.path.join(OUTPUT_DIR, "k9_predictor_payload.json")
with open(predictor_json_path, "w", encoding="utf-8") as f:
    json.dump(predictor_payload, f, ensure_ascii=False, indent=2)

print(f"‚úì Payload PredictorNode exportado: {predictor_json_path}")
