# Definition of Thresholds

In [27]:
import pandas as pd
import numpy as np
import glob, os
from sklearn.metrics import confusion_matrix, classification_report
import matplotlib.pyplot as plt

In [50]:
# 1. Cargar todos los archivos CCM (.pkl) en un solo DataFrame
file_pattern = "/home/arya/Projects/wayra_sat/causal_matrix/ccm_*.pkl" 
file_paths = glob.glob(file_pattern)

dfs = []
for fp in file_paths:
    df = pd.read_pickle(fp)
    base     = os.path.splitext(os.path.basename(fp))[0]
    prov_tag = base.replace("ccm_", "")
    province = prov_tag.replace("_pr", "")
    df["province"] = province
    df["fecha"]    = pd.to_datetime(df["fecha"])
    dfs.append(df)

df_ccm = pd.concat(dfs, ignore_index=True)


# 2) Definir dinámicamente los cortes (percentiles) para cada variable

def make_levels(series, quantile_edges, labels):
    """
    series: pd.Series de anomalías
    quantile_edges: lista de percentiles en [0,1], ej [0, .25, .5, .75, 1]
    labels: lista de etiquetas, len(labels) = len(quantile_edges)-1
    """
    # calcular valores de corte
    bins = series.quantile(quantile_edges).values
    # pd.cut requiere que bins sea estricto creciente,
    # include_lowest=True para incluir el mínimo
    return pd.cut(series, bins=bins, labels=labels, include_lowest=True)

# Ejemplo para 4 niveles
q = [0, .85, .90, .95, 1.0]
q_p = [0, 0.25, 0.50, 0.75, 1.0]
sst_labels  = ["leve", "moderado", "fuerte", "extremo"]
temp_labels = ["leve", "moderado", "fuerte", "extremo"]
pr_labels   = ["leve", "moderada", "fuerte", "extrema"]

df_ccm["sst_level"]  = make_levels(df_ccm["sst_anomaly"],  q, sst_labels)
df_ccm["temp_level"] = make_levels(df_ccm["temp_anomaly"], q, temp_labels)
df_ccm["pr_level"] = make_levels(df_ccm["pr_anomaly"], q, pr_labels)

# 3) Umbral mínimo para semilla SST y rho
T1_SST  = df_ccm["sst_anomaly"].quantile(0.50) 
rho_min = df_ccm["rho"].quantile(0.25)

sst_seeds = df_ccm[
    (df_ccm["sst_anomaly"] >= T1_SST) &
    (df_ccm["rho"]         >= rho_min)
].copy()


# 4) Generar alertas con nivel incluido
alerts = []
for _, row in sst_seeds.iterrows():
    alert_date = row["fecha"] + pd.Timedelta(days=row["time_lead"])
    # temperatura
    if pd.notna(row["temp_level"]):
        alerts.append({
            "province":       row["province"],
            "alert_date":     alert_date,
            "alert_type":     f"Evento Extremo de Temperatura {row['temp_level']}",
            "lead_time_days": row["time_lead"]
        })
    # precipitación
    if pd.notna(row["pr_level"]):
        alerts.append({
            "province":       row["province"],
            "alert_date":     alert_date,
            "alert_type":     f"Evento Extremo de Precipitación {row['pr_level']}",
            "lead_time_days": row["time_lead"]
        })

df_alerts = pd.DataFrame(alerts)


# 5) Exportar resultados
df_alerts.to_csv("alertas_ccm_niveles_dinámicos.csv", index=False)

summary = (
    df_alerts
    .groupby(["province","alert_date","alert_type"])
    .size()
    .reset_index(name="count")
)
summary.to_csv("resumen_alertas_ccm_niveles_dinámicos.csv", index=False)

print("→ Archivos generados:")
print("- alertas_ccm_niveles_dinámicos.csv")
print("- resumen_alertas_ccm_niveles_dinámicos.csv")
print("\nPrimeras filas del resumen:")
print(summary.head(10))


→ Archivos generados:
- alertas_ccm_niveles_dinámicos.csv
- resumen_alertas_ccm_niveles_dinámicos.csv

Primeras filas del resumen:
  province alert_date                              alert_type  count
0    azuay 1990-06-30      Evento Extremo de Temperatura leve      1
1    azuay 1990-07-01      Evento Extremo de Temperatura leve      1
2    azuay 1990-07-02      Evento Extremo de Temperatura leve      1
3    azuay 1990-07-03      Evento Extremo de Temperatura leve      1
4    azuay 1990-07-04      Evento Extremo de Temperatura leve      1
5    azuay 1990-07-05      Evento Extremo de Temperatura leve      1
6    azuay 1990-07-06      Evento Extremo de Temperatura leve      1
7    azuay 1990-07-07      Evento Extremo de Temperatura leve      1
8    azuay 1990-07-16      Evento Extremo de Temperatura leve      1
9    azuay 1990-08-01  Evento Extremo de Temperatura moderado      1


In [51]:
df_alerts

Unnamed: 0,province,alert_date,alert_type,lead_time_days
0,azuay,1990-07-16,Evento Extremo de Temperatura leve,17
1,azuay,1990-06-30,Evento Extremo de Temperatura leve,0
2,azuay,1990-07-01,Evento Extremo de Temperatura leve,0
3,azuay,1990-07-02,Evento Extremo de Temperatura leve,0
4,azuay,1990-07-03,Evento Extremo de Temperatura leve,0
...,...,...,...,...
26865,bolivar,2000-09-16,Evento Extremo de Temperatura leve,51
26866,bolivar,2000-09-17,Evento Extremo de Temperatura leve,51
26867,bolivar,2000-09-18,Evento Extremo de Temperatura leve,51
26868,bolivar,2000-09-21,Evento Extremo de Temperatura leve,53


In [52]:
# 1) Conteo por cada nivel de alerta (te muestra, p.ej., cuántas "Temp leve", "Pr extremo", etc.)
print(df_alerts["alert_type"].value_counts())

# 2) Si lo que quieres es el total por variable (Temperatura vs. Precipitación),
# extraemos la primera palabra de alert_type ("Temp" o "Pr") y contamos:
df_alerts["variable"] = df_alerts["alert_type"].str.split().str[0]

print("\nConteo de alertas por variable:")
print(df_alerts["variable"].value_counts())

alert_type
Evento Extremo de Temperatura leve          20718
Evento Extremo de Temperatura extremo        2120
Evento Extremo de Temperatura fuerte         1843
Evento Extremo de Temperatura moderado       1648
Evento Extremo de Precipitación leve          453
Evento Extremo de Precipitación extrema        34
Evento Extremo de Precipitación moderada       29
Evento Extremo de Precipitación fuerte         25
Name: count, dtype: int64

Conteo de alertas por variable:
variable
Evento    26870
Name: count, dtype: int64
