In [14]:
import pandas as pd
import numpy as np
import re
import ast
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go
from plotly.io import to_html
from pathlib import Path


import re
from datetime import datetime

# Carpeta donde se guardarán los HTML por gráfica
EXPORT_DIR = Path("Punto4_HTML_por_grafica")
EXPORT_DIR.mkdir(parents=True, exist_ok=True)

def _slugify(text: str) -> str:
    """Convierte un título a nombre de archivo seguro."""
    text = (text or "").strip().lower()
    text = re.sub(r"[^\w\s-]", "", text, flags=re.UNICODE)
    text = re.sub(r"[\s_-]+", "_", text)
    return text[:90] if len(text) > 90 else text

def save_plotly_figure_html(fig, filename_hint: str, out_dir: Path = EXPORT_DIR) -> str:
    """
    Guarda 1 HTML independiente por figura Plotly (con plotlyjs incluido).
    Devuelve la ruta del archivo generado.
    """
    safe = _slugify(filename_hint)
    ts = datetime.now().strftime("%Y%m%d_%H%M%S")
    out_path = out_dir / f"{safe}_{ts}.html"

    fig.write_html(
        str(out_path),
        full_html=True,              # HTML completo y autónomo
        include_plotlyjs=True,      # CDN (ligero). Si quieres standalone 100%: True
        config={
            "displaylogo": False,
            "toImageButtonOptions": {
                "format": "png",
                "filename": safe,
                "height": 900,
                "width": 1400,
                "scale": 2
            }
        }
    )
    return str(out_path)

# ============================================================
# PUNTO 4 – DASHBOARD JUPYTER + HTML (TODO EN 1)
# - Matplotlib: imprimible 
# - Plotly: HTML interactivo (descarga imagen por imagen)
# - Agrega: Nº datasets vs categoría
# ============================================================

# =========================
# 0) CONFIG
# =========================

# PUEDES CAMBIAR LOS NOMBRES DE LOS ARCHIVOS RESULTADOS
FILE = "Punto3_NOMBREDELARCHIVO_USARPARARESULTADOS.xlsx"   # <-- cambia si aplica
OUT_HTML = "Punto4_RESULTADO.html"

PORTAL_COL = "portal"
plt.rcParams["figure.dpi"] = 120

# Cortes de madurez (TU DEFINICIÓN)
LEVELS = [
    ("bajo", 0, 30),
    ("medio", 30, 60),
    ("alto", 60, 100.0001),
]

OPEN_FORMATS = {"CSV","JSON","GEOJSON","XML","RDF","TTL","TURTLE","N-TRIPLES","NT","JSON-LD","JSONLD"}

COMPONENT_COLORS = {
    # trazabilidad
    "Origen": "#1f77b4",
    "Temporal": "#2ca02c",
    "Reutilizable (DOI)": "#d62728",

    # semántica
    "DCAT/DCAT-AP": "#1f77b4",
    "API type presente": "#9467bd",
    "Vocabulario controlado": "#2ca02c",
    "Serialización semántica": "#ff7f0e",

    # técnica
    "Licencia abierta": "#1f77b4",
    "Formato abierto": "#ff7f0e",

    # accesibilidad
    "API REST": "#1f77b4",
    "Formato permitido": "#ff7f0e",
    "Licencia presente": "#2ca02c",
    "URL descarga": "#d62728",

    # calidad
    "Diccionario de datos": "#1f77b4",
    "Descripción presente": "#ff7f0e",

    # formatos/licencias
    "Abiertos": "#1f77b4",
    "Cerrados/Propietarios": "#ff7f0e",
    "Apertura total": "#1f77b4",
    "Restringida": "#d62728",
    "Vacío legal": "#7f7f7f",
}

DIMENSIONS = {
    "Trazabilidad Resumen": {
        "cols": {
            "Origen": "traceable_origen",
            "Temporal": "traceable_temporal",
            "Reutilizable (DOI)": "traceable_reutilizable",
        }
    },
    "Métrica Interoperabilidad semántica": {
        "cols": {
            "DCAT/DCAT-AP": "portal_supports_dcat_dcatap",
            "API type presente": "api_type",  # texto/no vacío => presente
            "Vocabulario controlado": "uses_controlled_vocab",
            "Serialización semántica": "has_semantic_serialization",
        }
    },
    "Métrica Interoperabilidad técnica": {
        "cols": {
            "Licencia abierta": "license_open",
            "Formato abierto": "has_open_format",
        }
    },
    "Métrica de Accesibilidad": {
        "cols": {
            "API REST": "portal_has_api_rest",
            "Formato permitido": "has_allowed_format",
            "Licencia presente": "license_present",
            "URL descarga": "download_url_present",
        }
    },
    "Métrica de Calidad": {
        "cols": {
            "Diccionario de datos": "has_data_dictionary",
            "Descripción presente": "description",  # texto/no vacío => presente
        }
    },
}

GLOBAL_INDEX_NAME = "Índice Global de Madurez del Portal"


# =========================
# 1) LOAD
# =========================
if FILE.lower().endswith((".xlsx",".xls")):
    df = pd.read_excel(FILE)
else:
    df = pd.read_csv(FILE)

if PORTAL_COL not in df.columns:
    df[PORTAL_COL] = "Barcelona"

print("Cargado:", df.shape)
print("Portales:", df[PORTAL_COL].unique().tolist())


# =========================
# 2) HELPERS
# =========================
def parse_list_cell(x):
    if isinstance(x, (list, tuple, set)):
        return list(x)
    if pd.isna(x):
        return []
    s = str(x).strip()
    if s == "":
        return []
    try:
        v = ast.literal_eval(s)
        if isinstance(v, list):
            return v
    except:
        pass
    return [t.strip() for t in re.split(r"[;,|\s]+", s) if t.strip()]

def present_binary(series: pd.Series) -> pd.Series:
    """0/1: numérica>0 => 1, texto no vacío => 1, NaN => 0."""
    s = series.copy()
    if s.dtype == "object":
        s = s.astype(str).str.strip().replace({"nan":"", "NaN":"", "None":""})
        return (s != "").astype(int)
    s = pd.to_numeric(s, errors="coerce").fillna(0)
    return (s > 0).astype(int)


def presence_count(series: pd.Series) -> int:
    return int(present_binary(series).sum())

def get_level(score_0_100: float) -> str:
    if pd.isna(score_0_100):
        return "no definido"
    for name, lo, hi in LEVELS:
        if lo <= score_0_100 < hi:
            return name
    return "no definido"

def pick_first_existing(candidates):
    for c in candidates:
        if c in df.columns:
            return c
    return None

def mat_barh_with_labels(title, ylabels, values, colors, xlabel, right_labels=None, xlim=(0,105)):
    plt.figure(figsize=(12, 6))
    y = np.arange(len(ylabels))
    bars = plt.barh(y, values, color=colors)
    plt.yticks(y, ylabels, fontsize=12)
    plt.gca().invert_yaxis()
    plt.xlim(*xlim)
    plt.xlabel(xlabel, fontsize=12)
    plt.title(title, fontsize=16, fontweight="bold", pad=12)
    for b, v in zip(bars, values):
        plt.text(v + 1, b.get_y() + b.get_height()/2, f"{v:.1f}", va="center", fontsize=11, fontweight="bold")
    if right_labels is not None:
        for b, lab in zip(bars, right_labels):
            w = b.get_width()
            plt.text(w + 1, b.get_y() + b.get_height()/2, lab, va="center", ha="left",
                     fontsize=11, fontweight="bold")
    plt.grid(axis="x", alpha=0.25)
    plt.tight_layout()
    plt.show()




# =========================
# 3) PREP FORMATS LISTS
# =========================
if "open_formats_list" not in df.columns:
    df["open_formats_list"] = [[] for _ in range(len(df))]
if "non_open_formats_list" not in df.columns:
    df["non_open_formats_list"] = [[] for _ in range(len(df))]

df["open_formats_list_parsed"] = df["open_formats_list"].apply(parse_list_cell)
df["non_open_formats_list_parsed"] = df["non_open_formats_list"].apply(parse_list_cell)


# =========================
# 4) LICENSE BUCKET
# =========================
if "license" not in df.columns:
    df["license"] = np.nan
if "license_present" not in df.columns:
    df["license_present"] = df["license"].notna().astype(int)
if "license_open" not in df.columns:
    df["license_open"] = 0

df["license_present"] = pd.to_numeric(df["license_present"], errors="coerce").fillna(0).astype(int)
df["license_open"] = pd.to_numeric(df["license_open"], errors="coerce").fillna(0).astype(int)

def license_bucket(row):
    lic = str(row.get("license","") if pd.notna(row.get("license",np.nan)) else "").lower()
    present = int(row.get("license_present", 0) or 0)
    open_flag = int(row.get("license_open", 0) or 0)

    if (
        present == 0 or lic.strip() == ""
        or "no definido" in lic or "sin definir" in lic
        or "consultar" in lic or "consulte" in lic
        or "permiso" in lic or "autoriz" in lic
    ):
        return "Vacío legal"

    if (
        "noncommercial" in lic or "no comercial" in lic or "no-comercial" in lic
        or re.search(r"\bby[-\s]?nc\b", lic)
        or "noderivatives" in lic or "sin deriv" in lic
        or re.search(r"\bby[-\s]?nd\b", lic)
    ):
        return "Restringida"

    if "avisolegal" in lic or "/aviso-legal" in lic or "aviso legal" in lic:
        return "Apertura total"

    if (
        "cc0" in lic
        or (
            (("creative commons" in lic) or re.search(r"\bcc\b", lic))
            and ("nc" not in lic and "nd" not in lic)
        )
    ):
        return "Apertura total"

    if open_flag == 1:
        return "Apertura total"

    return "Vacío legal"

df["license_bucket"] = df.apply(license_bucket, axis=1)


# =========================
# 5) PORTAL-LEVEL SCORES (defendibles)
# =========================
portal_results = {}
for portal, g in df.groupby(PORTAL_COL):
    g = g.copy()
    n = len(g)

    dim_scores = {}
    dim_comp_pct = {}
    dim_comp_count = {}

    for dim_name, dim_info in DIMENSIONS.items():
        cols_map = dim_info["cols"]
        comp_pcts = {}
        comp_counts = {}

        for comp_label, col in cols_map.items():
            if col not in g.columns:
                pres = pd.Series([0]*n)
            else:
                pres = present_binary(g[col])

            count = int(pres.sum())
            pct = (count / n * 100) if n else 0.0
            comp_counts[comp_label] = count
            comp_pcts[comp_label] = pct

        score = float(np.mean(list(comp_pcts.values()))) if len(comp_pcts) else np.nan
        dim_scores[dim_name] = score
        dim_comp_pct[dim_name] = comp_pcts
        dim_comp_count[dim_name] = comp_counts

    global_score = float(np.mean(list(dim_scores.values()))) if dim_scores else np.nan
    global_level = get_level(global_score)

    portal_results[portal] = {
        "n": n,
        "dim_scores": dim_scores,
        "dim_comp_pct": dim_comp_pct,
        "dim_comp_count": dim_comp_count,
        "global_score": global_score,
        "global_level": global_level
    }

print("\nResumen portal-level:")
for p, r in portal_results.items():
    print(f"- {p}: N={r['n']}, {GLOBAL_INDEX_NAME}={r['global_score']:.1f} ({r['global_level']})")


# =========================
# 6) EXTRA: datasets vs categoría
# =========================
CATEGORY_COL = pick_first_existing(["category", "categoría", "categoria", "theme", "themes", "tematica", "temática", "tags"])
# Si no existe, igual lo dejamos controlado
print("\nColumna categoría detectada:", CATEGORY_COL)


# =========================
# 7) MATPLOTLIB (JUPYTER IMPRESIÓN)
# =========================
def plot_matplotlib_base():
    # 7.1 Formatos (tipos)
    format_counts = []
    for f in sorted(list(OPEN_FORMATS)):
        cnt = int(df["open_formats_list_parsed"].apply(lambda lst: 1 if f in lst else 0).sum())
        if cnt > 0:
            format_counts.append((f, cnt, "Abierto"))
    others_cnt = int(df["non_open_formats_list_parsed"].apply(lambda lst: 1 if len(lst) > 0 else 0).sum())
    format_counts.append(("Otros formatos (cerrados)", others_cnt, "Cerrado"))

    fmt_df = pd.DataFrame(format_counts, columns=["Formato","Datasets","Tipo"]).sort_values("Datasets", ascending=True)
    colors = ["#1f77b4" if t=="Abierto" else "#ff7f0e" for t in fmt_df["Tipo"]]

    plt.figure(figsize=(12, 6))
    bars = plt.barh(fmt_df["Formato"], fmt_df["Datasets"], color=colors)
    plt.title("Clasificación de formatos para interoperabilidad técnica", fontsize=16, fontweight="bold")
    plt.xlabel("Nº de datasets")
    for b, v in zip(bars, fmt_df["Datasets"]):
        plt.text(v + 1, b.get_y() + b.get_height()/2, f"{int(v)}", va="center", fontsize=11, fontweight="bold")
    plt.grid(axis="x", alpha=0.25)
    plt.tight_layout()
    plt.show()

    # 7.2 % abiertos vs cerrados
    open_total = float(df.get("open_format_count", df["open_formats_list_parsed"].apply(len)).fillna(0).sum())
    non_open_total = float(df.get("non_open_format_count", df["non_open_formats_list_parsed"].apply(len)).fillna(0).sum())
    den = (open_total + non_open_total) if (open_total + non_open_total) > 0 else 1
    pct_open = 100 * open_total / den
    pct_closed = 100 * non_open_total / den

    plt.figure(figsize=(8, 4))
    labels = ["Abiertos", "Cerrados/Propietarios"]
    vals = [pct_open, pct_closed]
    colors = [COMPONENT_COLORS["Abiertos"], COMPONENT_COLORS["Cerrados/Propietarios"]]
    bars = plt.bar(labels, vals, color=colors)
    plt.title("Distribución porcentual de formatos (dimensión técnica)", fontsize=15, fontweight="bold")
    plt.ylabel("Porcentaje (%)")
    plt.ylim(0, 105)
    for b, v in zip(bars, vals):
        plt.text(b.get_x()+b.get_width()/2, v + 1, f"{v:.1f}%", ha="center", fontsize=11, fontweight="bold")
    plt.grid(axis="y", alpha=0.25)
    plt.tight_layout()
    plt.show()

    # 7.3 Licencias
    lic_vc = df["license_bucket"].value_counts().reindex(["Apertura total","Restringida","Vacío legal"]).fillna(0)
    plt.figure(figsize=(8, 4))
    labels = lic_vc.index.tolist()
    vals = lic_vc.values.tolist()
    colors = [COMPONENT_COLORS.get(x, "#7f7f7f") for x in labels]
    bars = plt.bar(labels, vals, color=colors)
    plt.title("Licenciamiento permitido (dimensión legal)", fontsize=15, fontweight="bold")
    plt.ylabel("Nº de datasets")
    for b, v in zip(bars, vals):
        plt.text(b.get_x()+b.get_width()/2, v + 1, f"{int(v)}", ha="center", fontsize=11, fontweight="bold")
    plt.grid(axis="y", alpha=0.25)
    plt.tight_layout()
    plt.show()


def plot_matplotlib_portal(portal: str):
    r = portal_results[portal]
    n = r["n"]

    # 1) Índice global (una sola barra)
    score = r["global_score"]
    level = r["global_level"]
    color = "#2ca02c" if level=="alto" else "#ff7f0e" if level=="medio" else "#d62728"
    plt.figure(figsize=(10, 2.4))
    plt.barh([portal], [score], color=color)
    plt.xlim(0, 105)
    plt.xlabel("Índice Global de Madurez del Portal (0–100)")
    plt.title(f"{GLOBAL_INDEX_NAME} — {portal} (N={n})", fontsize=14, fontweight="bold")
    plt.text(score + 1, 0, f"{score:.1f}/100 ({level})", va="center", fontsize=12, fontweight="bold")
    plt.grid(axis="x", alpha=0.25)
    plt.tight_layout()
    plt.show()

    # 2) Scorecard dimensiones (5)
    dim_scores = r["dim_scores"]
    tmp = pd.DataFrame({"Dimensión": list(dim_scores.keys()), "Score": list(dim_scores.values())}).sort_values("Score", ascending=True)
    mat_barh_with_labels(
        title=f"Componentes de Madurez del Portal — {portal} (N={n})",
        ylabels=tmp["Dimensión"].tolist(),
        values=tmp["Score"].tolist(),
        colors=["#1f77b4"]*len(tmp),
        xlabel="Score promedio (0–100)"
    )

    # 3) Componentes por dimensión (% + conteo) + score real indicado
    for dim_name in DIMENSIONS.keys():
        comp_pct = r["dim_comp_pct"][dim_name]
        comp_cnt = r["dim_comp_count"][dim_name]
        dim_score = r["dim_scores"][dim_name]
        dim_level = get_level(dim_score)

        labels = list(comp_pct.keys())
        values = [comp_pct[k] for k in labels]
        counts = [comp_cnt[k] for k in labels]
        colors = [COMPONENT_COLORS.get(k, "#1f77b4") for k in labels]

        order = np.argsort(values)[::-1]
        labels = [labels[i] for i in order]
        values = [values[i] for i in order]
        counts = [counts[i] for i in order]
        colors = [colors[i] for i in order]

        plt.figure(figsize=(12, 6))
        y = np.arange(len(labels))
        bars = plt.barh(y, values, color=colors)
        plt.yticks(y, labels, fontsize=12)
        plt.gca().invert_yaxis()
        plt.xlim(0, 105)
        plt.xlabel("Presencia en datasets (%)", fontsize=12)
        
        
        # ---- EXPLICACIÓN DEL SCORE (PESO + FÓRMULA) PARA EL TÍTULO ----
        k = len(labels)  # nº de componentes en la dimensión
        w = 100.0 / k if k else np.nan

        # fórmula explícita: promedio simple de los % de presencia
        # (ej: trazabilidad: (Origen% + Temporal% + DOI%)/3)
        formula = f"Score = (Σ presencia_componentes%)/{k}  |  peso={w:.1f}% c/u (1/{k})"

        extra_trace = ""
        if "Trazabilidad" in dim_name or "Traceability" in dim_name:
            # ejemplo típico: 100 + 100 + 0 = 66.7
            extra_trace = " | Ej: (100+100+0)/3 = 66.7"

        plt.title(
            f"{dim_name} — {portal} (N={n})\n"
            f"{formula}{extra_trace}\n"
            f"Resultado: {dim_score:.1f}/100 ({dim_level})",
            fontsize=15, fontweight="bold", pad=14
        )

        for b, v, c in zip(bars, values, counts):
            plt.text(v + 1, b.get_y()+b.get_height()/2, f"{v:.1f}% ({int(c)})", va="center",
                     fontsize=11, fontweight="bold")

        plt.axvline(dim_score, linewidth=2)
        plt.text(dim_score + 1, -0.6, f"Score={dim_score:.1f} (peso={w:.1f}%)", fontsize=10, fontweight="bold")

        plt.grid(axis="x", alpha=0.25)
        plt.tight_layout()
        plt.show()

    # 4) Nº datasets vs categoría
    if CATEGORY_COL:
        cat = g = df[df[PORTAL_COL] == portal].copy()
        s = cat[CATEGORY_COL].astype(str).str.strip().replace({"nan":"", "None":"", "NaN":""})
        s = s.replace("", "No definido")

        vc = s.value_counts().head(20)  # top 20 para que sea legible
        plt.figure(figsize=(12, 7))
        bars = plt.barh(vc.index[::-1], vc.values[::-1], color="#1f77b4")
        plt.title(f"Nº de datasets vs categoría (Top 20) — {portal}", fontsize=16, fontweight="bold")
        plt.xlabel("Nº de datasets")
        for b, v in zip(bars, vc.values[::-1]):
            plt.text(v + 1, b.get_y()+b.get_height()/2, f"{int(v)}", va="center", fontsize=11, fontweight="bold")
        plt.grid(axis="x", alpha=0.25)
        plt.tight_layout()
        plt.show()

    # 5) Trazabilidad temporal (¿qué % se actualiza?)
    g = df[df[PORTAL_COL] == portal].copy()
    m = pd.to_numeric(g.get("age_months_modified", np.nan), errors="coerce")

    # Si no hay age_months_modified, no se puede calcular
    if m.notna().any():
        # buckets de recencia
        recent = (m <= 3).sum()
        mid = ((m > 3) & (m <= 12)).sum()
        old = (m > 12).sum()
        total = int(m.notna().sum())

        pct_recent = recent / total * 100 if total else 0
        pct_mid = mid / total * 100 if total else 0
        pct_old = old / total * 100 if total else 0
        mean_months = float(m.dropna().mean())

        labels = ["≤ 3 meses", "3–12 meses", "> 12 meses"]
        values = [pct_recent, pct_mid, pct_old]
        colors = ["#2ca02c", "#ff7f0e", "#d62728"]

        plt.figure(figsize=(10, 4))
        bars = plt.bar(labels, values, color=colors)
        plt.ylim(0, 105)
        plt.title(
            f"Trazabilidad Temporal Actualización promedio — {portal}\n"
            f"% reciente (≤3m) = {pct_recent:.1f}% | Promedio antigüedad = {mean_months:.1f} meses",
            fontsize=14, fontweight="bold"
        )
        plt.ylabel("Porcentaje de datasets (%)")
        for b, v in zip(bars, values):
            plt.text(b.get_x()+b.get_width()/2, v+1, f"{v:.1f}%", ha="center", fontsize=11, fontweight="bold")
        plt.grid(axis="y", alpha=0.25)
        plt.tight_layout()
        plt.show()

        # Opcional PRO: ¿cumple lo declarado? (si existe update_freq_months)
        if "update_freq_months" in g.columns:
            ufm = pd.to_numeric(g["update_freq_months"], errors="coerce")
            mask = m.notna() & ufm.notna()
            if mask.any():
                tol = 1.5
                ok = (m[mask] <= ufm[mask] * tol).mean() * 100
                plt.figure(figsize=(8, 2.6))
                plt.barh([portal], [ok], color="#1f77b4")
                plt.xlim(0, 105)
                plt.title(f"Cumplimiento de actualización declarada (tolerancia {tol}×) — {portal}", fontsize=13, fontweight="bold")
                plt.xlabel("% datasets que cumplen")
                plt.text(ok+1, 0, f"{ok:.1f}%", va="center", fontsize=12, fontweight="bold")
                plt.grid(axis="x", alpha=0.25)
                plt.tight_layout()
                plt.show()

# =========================
# 8) PLOTLY (HTML INTERACTIVO)
# =========================
# CONFIG Plotly (para botón de descargar imagen)
PLOTLY_CONFIG = {
    "displaylogo": False,
    "toImageButtonOptions": {
        "format": "png",
        "height": 900,
        "width": 1400,
        "scale": 2
    }
}

def plotly_polish(fig, height=520):
    fig.update_layout(
        height=height,
        margin=dict(l=70, r=30, t=90, b=70),  # más aire arriba
        title=dict(x=0.02, y=0.97),
        font=dict(size=14),
    )
    return fig


def plotly_caption(text):
    return f"<div class='cap'>{text}</div>"

def save_plotly_png(fig, filename_hint: str, out_dir: Path = Path("Punto4_PNG_por_grafica")):
    out_dir.mkdir(parents=True, exist_ok=True)
    safe = _slugify(filename_hint)
    out_path = out_dir / f"{safe}.png"
    fig.write_image(str(out_path), scale=2, width=1400, height=900)
    return str(out_path)

def plotly_fig_block(fig, caption_html, export_name=None, export_png=False):
    """
    - Exporta HTML individual por figura (siempre)
    - NO muestra rutas (para que no salga el recuadro)
    - PNG opcional y silencioso (requiere kaleido)
    """
    # Nombre exportación
    if export_name is None:
        export_name = (
            fig.layout.title.text
            if fig.layout.title and fig.layout.title.text
            else "figura"
        )

    # 1) HTML individual (siempre)
    _ = save_plotly_figure_html(fig, export_name)

    # 2) PNG opcional (silencioso)
    if export_png:
        try:
            _ = save_plotly_png(fig, export_name)
        except:
            pass  # NO mostramos error en pantalla

    # HTML embebido en el dashboard (sin plotlyjs duplicado)
    fig_html = to_html(fig, full_html=False, include_plotlyjs=False, config=PLOTLY_CONFIG)

    return f"""
    <div class="card">
      {fig_html}
      {caption_html}
    </div>
    """
def _polish_plotly(fig, height=500):
    """Aplica un estilo visual estándar a los objetos de Plotly."""
    fig.update_layout(
        template="plotly_white",
        height=height,
        margin=dict(l=20, r=20, t=50, b=20),
        font=dict(family="Arial, sans-serif", size=12)
    )
    return fig

def present_binary(series):
    # Retorna 1 si hay contenido (no nulo ni vacío), 0 si no
    return series.apply(lambda x: 1 if pd.notnull(x) and str(x).strip() != "" else 0)


def plotly_base_figs():
    blocks = []

    # 1) Formatos (tipos)
    format_counts = []
    for f in sorted(list(OPEN_FORMATS)):
        cnt = int(df["open_formats_list_parsed"].apply(lambda lst: 1 if f in lst else 0).sum())
        if cnt > 0:
            format_counts.append({"Formato": f, "Datasets": cnt, "Tipo": "Abierto"})
    
    others_cnt = int(df["non_open_formats_list_parsed"].apply(lambda lst: 1 if len(lst) > 0 else 0).sum())
    format_counts.append({"Formato": "Otros formatos (cerrados)", "Datasets": others_cnt, "Tipo": "Cerrado"})
    fmt_df = pd.DataFrame(format_counts).sort_values("Datasets", ascending=False)

    fig1 = px.bar(fmt_df, x="Formato", y="Datasets", color="Tipo",
                  title="Clasificación de formatos para interoperabilidad técnica",
                  color_discrete_map={"Abierto":"#1f77b4", "Cerrado":"#ff7f0e"},
                  text="Datasets")
    
    fig1.update_traces(textposition="outside", cliponaxis=False)
    fig1.update_layout(yaxis_title="Nº de datasets", xaxis_tickangle=-25, height=520)
    blocks.append(plotly_fig_block(
        fig1,
        plotly_caption("<b>Interpretación.</b> Conteo de datasets por formato abierto detectado. "
                       "La barra <i>Otros formatos (cerrados)</i> agrupa datasets con al menos un formato propietario/no estándar.")
    ))

    # 2) % abiertos vs cerrados
    open_total = float(df["open_formats_list_parsed"].apply(len).sum())
    non_open_total = float(df["non_open_formats_list_parsed"].apply(len).sum())
    den = (open_total + non_open_total) if (open_total + non_open_total) > 0 else 1
    pct_df = pd.DataFrame({
        "Clasificación": ["Abiertos", "Cerrados/Propietarios"],
        "Porcentaje": [100*open_total/den, 100*non_open_total/den]
    })
    
    fig2 = px.bar(pct_df, x="Clasificación", y="Porcentaje", color="Clasificación",
                  title="Distribución porcentual de formatos (dimensión técnica)",
                  color_discrete_map={"Abiertos":COMPONENT_COLORS["Abiertos"], "Cerrados/Propietarios":COMPONENT_COLORS["Cerrados/Propietarios"]},
                  text=pct_df["Porcentaje"].round(1))
    
    fig2.update_traces(textposition="outside", cliponaxis=False)
    fig2.update_layout(yaxis_range=[0,105], yaxis_title="Porcentaje (%)", height=420)
    blocks.append(plotly_fig_block(
        fig2,
        plotly_caption("<b>Interpretación.</b> Proporción calculada sobre el total de formatos reportados en metadatos.")
    ))

    # 3) Licencias
    lic_vc = df["license_bucket"].value_counts().reindex(["Apertura total","Restringida","Vacío legal"]).fillna(0).reset_index()
    lic_vc.columns = ["Categoría","Datasets"]
    
    fig3 = px.bar(lic_vc, x="Categoría", y="Datasets", color="Categoría",
                  title="Licenciamiento permitido (dimensión legal)",
                  color_discrete_map={
                      "Apertura total": COMPONENT_COLORS["Apertura total"],
                      "Restringida": COMPONENT_COLORS["Restringida"],
                      "Vacío legal": COMPONENT_COLORS["Vacío legal"],
                  },
                  text="Datasets")
    
    fig3.update_traces(textposition="outside", cliponaxis=False)
    fig3.update_layout(yaxis_title="Nº de datasets", height=420)
    blocks.append(plotly_fig_block(
        fig3,
        plotly_caption("<b>Interpretación.</b> <i>Apertura total</i>: CC BY/CC0. <i>Restringida</i>: NC/ND. <i>Vacío legal</i>: licencia ausente.")
    ))

    return blocks # <-- Ahora está correctamente alineado

def plotly_portal_blocks(portal: str):
    r = portal_results[portal]
    n = r["n"]
    blocks = []

    # A) Global (una barra) + nivel único
    score = r["global_score"]
    level = r["global_level"]
    color = "#2ca02c" if level=="alto" else "#ff7f0e" if level=="medio" else "#d62728"
    fig = go.Figure()
    fig.add_trace(go.Bar(x=[score], y=[portal], orientation="h", marker_color=color,
                         text=[f"{score:.1f}/100 ({level})"], textposition="outside"))
    fig.update_layout(
        title=f"{GLOBAL_INDEX_NAME} — {portal} (N={n})",
        xaxis=dict(range=[0,105], title="Índice Global de Madurez del Portal (0–100)"),
        yaxis=dict(title=""),
        height=220
    )
    blocks.append(plotly_fig_block(
        fig,
        plotly_caption("<b>Interpretación.</b> Índice global calculado como el promedio (peso por igual) de 5 Componentes:"
                       "Trazabilidad, Interoperabilidad semántica, Interoperabilidad técnica, Accesibilidad y Calidad. "
                       "Nivel único según cortes: Bajo 0–30, Medio 30–60, Alto 60–100.")
    ))
    
     #return blocks

    # B) Scorecard dimensiones
    dim_scores = r["dim_scores"]
    tmp = pd.DataFrame({"Dimensión": list(dim_scores.keys()), "Score": list(dim_scores.values())}).sort_values("Score", ascending=False)
    fig = px.bar(tmp, x="Dimensión", y="Score", text=tmp["Score"].round(1),
                 title=f"Componentes de Madurez del Portal (0–100) — {portal}")
    fig.update_traces(textposition="outside", cliponaxis=False)
    fig.update_layout(yaxis_range=[0,105], xaxis_tickangle=-25, height=520, yaxis_title="Score promedio (0–100)")
    blocks.append(plotly_fig_block(
        fig,
        plotly_caption("<b>Interpretación.</b> Cada score de dimensión se calcula como promedio del cumplimiento de sus componentes "
                       "(peso igual por componente). Los 5 componentes construyen el Indice de Madurez del Portal.")
    ))

    # C) Dimensión: componentes (% + conteo) + línea score real
    for dim_name in DIMENSIONS.keys():
        comp_pct = r["dim_comp_pct"][dim_name]
        comp_cnt = r["dim_comp_count"][dim_name]
        dim_score = r["dim_scores"][dim_name]
        dim_level = get_level(dim_score)

        t = pd.DataFrame({
            "Componente": list(comp_pct.keys()),
            "Porcentaje": list(comp_pct.values()),
            "Conteo": [comp_cnt[k] for k in comp_pct.keys()]
        }).sort_values("Porcentaje", ascending=True)

        t["Etiqueta"] = t.apply(lambda rr: f"{rr['Porcentaje']:.1f}% ({int(rr['Conteo'])})", axis=1)

        fig = px.bar(t, x="Porcentaje", y="Componente", orientation="h", text="Etiqueta",
                     title=f"{dim_name} — componentes (% y conteo) | {portal}",
                     color="Componente",
                     color_discrete_map={k: COMPONENT_COLORS.get(k, "#1f77b4") for k in t["Componente"].unique()})
        fig.update_traces(textposition="outside", cliponaxis=False)
        fig.add_vline(x=dim_score, line_width=3)
        fig.update_layout(xaxis=dict(range=[0,105], title="Presencia en datasets (%)"),
                          yaxis=dict(title=""),
                          height=520,
                          showlegend=False)

        k = len(t)  # nº de componentes de la dimensión
        w = 100.0 / k if k else np.nan

        # texto base (sirve para todas)
        formula_txt = f"Score = (Σ presencia_componentes%)/{k} (promedio simple)."
        weights_txt = f"Cada componente pesa {w:.1f}% (1/{k})."

        # extra explicativo SOLO para trazabilidad (porque suele preguntar el jurado)
        extra_trace = ""
        if "Trazabilidad" in dim_name or "Traceability" in dim_name:
            vals = t.sort_values("Componente")["Porcentaje"].tolist()
            # si quieres que se vea explícito el ejemplo con números reales:
            extra_trace = (
                " En trazabilidad, si 2 componentes están al 100% y el DOI está al 0%, "
                "entonces: (100 + 100 + 0)/3 = 66.7."
            )

        blocks.append(plotly_fig_block(
            fig,
            plotly_caption(
                f"<b>Interpretación.</b> {weights_txt} {formula_txt}"
                f"{extra_trace} "
                f"La línea vertical marca el resultado final: <b>{dim_score:.1f}/100</b> (<b>{dim_level}</b>)."
            )
        ))


    # D) Traceability score niveles (0/33/66/100) si existe
    if "traceability_score" in df.columns:
        g = df[df[PORTAL_COL] == portal].copy()
        s = pd.to_numeric(g["traceability_score"], errors="coerce").dropna()

        def snap(v):
            levels = np.array([0, 33.33, 66.67, 100.0])
            return float(levels[np.argmin(np.abs(levels - v))])

        snapped = s.apply(snap)
        counts = snapped.value_counts().reindex([0.0, 33.33, 66.67, 100.0]).fillna(0).astype(int)

        lvl_df = pd.DataFrame({"Nivel": ["0","33","66","100"], "Datasets": counts.values})
        fig = px.bar(lvl_df, x="Nivel", y="Datasets", text="Datasets",
                     title=f"Traceability score — niveles (0/33/66/100) | {portal}")
        fig.update_traces(textposition="outside", cliponaxis=False)
        fig.update_layout(height=420, yaxis_title="Nº de datasets", xaxis_title="Nivel (0–100)")
        blocks.append(plotly_fig_block(
            fig,
            plotly_caption("<b>Interpretación.</b> Distribución por niveles discretos esperados del score de trazabilidad. "
                           "Es útil para explicar rápidamente cuántos datasets alcanzan 0/33/66/100 según cumplan 0/1/2/3 componentes.")
        ))
        
        
        # E) Trazabilidad temporal: % que se actualiza (recencia por modified)
    if "age_months_modified" in df.columns:
        g = df[df[PORTAL_COL] == portal].copy()
        m = pd.to_numeric(g["age_months_modified"], errors="coerce")
        m = m.dropna()
        if len(m) > 0:
            recent = int((m <= 3).sum())
            mid = int(((m > 3) & (m <= 12)).sum())
            old = int((m > 12).sum())
            total = int(len(m))

            tmp = pd.DataFrame({
                "Recencia": ["≤ 3 meses", "3–12 meses", "> 12 meses"],
                "Datasets": [recent, mid, old]
            })
            tmp["Porcentaje"] = (tmp["Datasets"] / total * 100).round(1)
            tmp["Etiqueta"] = tmp.apply(lambda r: f"{int(r['Datasets'])} ({r['Porcentaje']}%)", axis=1)

            mean_months = float(m.mean())

            fig = px.bar(tmp, x="Recencia", y="Porcentaje", text="Etiqueta",
                         title=f"Trazabilidad Temporal - Promedio Antiguedad (por modified) | {portal} — promedio={mean_months:.1f} meses")
            fig.update_traces(textposition="outside", cliponaxis=False)
            fig.update_layout(yaxis_range=[0,105], height=520, yaxis_title="Porcentaje de datasets (%)")

            blocks.append(plotly_fig_block(
                fig,
                plotly_caption(
                    "<b>Interpretación.</b> Esta gráfica estima qué porcentaje del catálogo se ha actualizado recientemente, "
                    "usando <i>age_months_modified</i> (meses desde la última actualización hasta la fecha del sistema). "
                    "Cortes: ≤3 meses (reciente), 3–12 meses (moderado), >12 meses (antiguo)."
                )
            ))

        # E2) Antigüedad desde publicación (issued) — usando age_month_issued
    if "age_month_issued" in df.columns:
        g = df[df[PORTAL_COL] == portal].copy()
        issued_m = pd.to_numeric(g["age_month_issued"], errors="coerce").dropna()

        if len(issued_m) > 0:
            # RANGOS que mantienen meses al inicio y luego pasan a años
            bins = [-0.1, 3, 12, 24, 60, 10**9]
            labels = ["≤ 3 meses", "3–12 meses", "1–2 años", "2–5 años", "> 5 años"]

            b = pd.cut(issued_m, bins=bins, labels=labels)
            counts = b.value_counts().reindex(labels).fillna(0).astype(int)

            tmp = pd.DataFrame({
                "Rango": labels,
                "Datasets": counts.values
            })
            tmp["Porcentaje"] = (tmp["Datasets"] / tmp["Datasets"].sum() * 100).round(1)
            tmp["Etiqueta"] = tmp.apply(lambda r: f"{int(r['Datasets'])} ({r['Porcentaje']}%)", axis=1)

            mean_months = float(issued_m.mean())
            mean_years = mean_months / 12.0

            fig = px.bar(
                tmp, x="Rango", y="Porcentaje", text="Etiqueta",
                title=f"Trazabilidad Temporal - Antigüedad dataset desde publicación | {portal} — promedio={mean_months:.1f} meses ({mean_years:.1f} años)"
            )
            fig.update_traces(textposition="outside", cliponaxis=False)
            fig.update_layout(yaxis_range=[0,105], yaxis_title="Porcentaje de datasets (%)")
            plotly_polish(fig, height=520)

            blocks.append(plotly_fig_block(
                fig,
                plotly_caption(
                    "<b>Interpretación.</b> Antigüedad calculada desde la publicacion del dataset<i>issued</i> hasta la fecha del sistema "
                    "(columna <i>age_month_issued</i>). Se conservan rangos en meses al inicio y luego se agrupa en años "
                    "(1–2, 2–5, &gt;5 años) para facilitar la lectura."
                )
            ))
            

    # F) Update frequency (vacíos -> No definido)
    if "update_frequency" in df.columns:
        g = df[df[PORTAL_COL] == portal].copy()
        uf = g["update_frequency"].astype(str).str.strip().replace({"nan":"", "NaN":"", "None":""})
        uf = uf.replace("", "No definido").str.lower().replace({
            "mensual":"monthly","semanal":"weekly","diaria":"daily","anual":"annual",
            "trimestral":"quarterly","semestral":"semiannual"
        })
        vc = uf.value_counts()
        tmp = pd.DataFrame({"Frecuencia": vc.index, "Datasets": vc.values})
        tmp["Porcentaje"] = (tmp["Datasets"]/len(g)*100).round(1)
        tmp["Etiqueta"] = tmp.apply(lambda rr: f"{int(rr['Datasets'])} ({rr['Porcentaje']:.1f}%)", axis=1)

        fig = px.bar(tmp, x="Frecuencia", y="Datasets", text="Etiqueta",
                     title=f"Trazabilidad Temporal - Frecuencia de Actualización | {portal}")
        fig.update_traces(textposition="outside", cliponaxis=False)
        fig.update_layout(height=520, xaxis_tickangle=-25, yaxis_title="Nº de datasets")
        blocks.append(plotly_fig_block(
            fig,
            plotly_caption("<b>Interpretación.</b> Frecuencia de actualizacion reportada en metadatos. Los vacíos/ausentes se agrupan como <i>No definido</i>. "
                           "Cada barra incluye conteo y porcentaje sobre el total del portal.")
        ))
        
        
    # FA--- EXTRA: Trazabilidad ORIGEN explícita (Sí/No) ---
    # (traceable_origen = 1 si publisher + dataset_uri/url_dataset + identifier están presentes)
 
    # 4) Trazabilidad ORIGEN
    # =========================
# ORIGEN – componentes (Publisher / Dataset URL / Identificador)
# =========================
    g = df[df[PORTAL_COL] == portal].copy()

    ORIGEN_PARTS = {
        "Publisher": "publisher",     # <-- cambia si tu columna se llama distinto
        "Dataset URL": "dataset_uri",     # <-- cambia si tu columna se llama distinto
        "Identificador": "identifier",    # <-- cambia si tu columna se llama distinto
    }

    rows = []
    for lab, col in ORIGEN_PARTS.items():
        if col in g.columns:
            pres = present_binary(g[col])
            cnt = int(pres.sum())
        else:
            cnt = 0
        rows.append({"Componente": lab, "Datasets": cnt})

    t_origen = pd.DataFrame(rows)
    t_origen["Porcentaje"] = (t_origen["Datasets"] / (n if n else 1) * 100).round(1)
    t_origen["Etiqueta"] = t_origen.apply(lambda r: f"{int(r['Datasets'])} ({r['Porcentaje']}%)", axis=1)

    # Colores por barra (mismos que vienes usando)
    color_map = {
        "Publisher": "#1f77b4",
        "Dataset URL": "#ff7f0e",
        "Identificador": "#2ca02c",
    }

    fig_origen = px.bar(
        t_origen.sort_values("Datasets", ascending=True),
        x="Datasets", y="Componente",
        orientation="h",
        text="Etiqueta",
        title=f"Trazabilidad Origen — Componentes de Identificación | {portal}",
        color="Componente",
        color_discrete_map=color_map,
    )
    fig_origen.update_traces(textposition="outside", cliponaxis=False)
    fig_origen.update_layout(
        xaxis_title="Nº de datasets",
        yaxis_title="",
        showlegend=False,
    )
    fig_origen = _polish_plotly(fig_origen, height=460)
     #blocks = []
    blocks.append(plotly_fig_block(
        fig_origen,
        plotly_caption(
            "<b>Interpretación.</b> Se reportan cuántos datasets informan cada componente de origen: "
            "<i>publisher</i>, <i>dataset_url/URI</i> e <i>identificador</i>. "
            "Estos componentes componen la Trazabilidad de Origen."
        ),
        export_name=f"origen_componentes_{portal}"
    ))


    # G) Nº datasets vs categoría (Top 20)
    if CATEGORY_COL:
        g = df[df[PORTAL_COL] == portal].copy()
        s = g[CATEGORY_COL].astype(str).str.strip().replace({"nan":"", "NaN":"", "None":""})
        s = s.replace("", "No definido")
        vc = s.value_counts().head(20).reset_index()
        vc.columns = ["Categoría", "Datasets"]
        fig = px.bar(vc.sort_values("Datasets", ascending=True),
                     x="Datasets", y="Categoría", orientation="h", text="Datasets",
                     title=f"Distribución de Datasets por Categorias del Portal | {portal}")
        fig.update_traces(textposition="outside", cliponaxis=False)
        fig.update_layout(height=650, xaxis_title="Nº de datasets", yaxis_title="")
        blocks.append(plotly_fig_block(
            fig,
            plotly_caption("<b>Interpretación.</b> Distribución temática del portal según la categoría disponible en metadatos. "
                           "Se muestran como se han extraido del portal segun criterios de selección.")
        ))

    return blocks


# =========================
# 9) GENERAR HTML
# =========================
def build_html(blocks):
    return f"""
<!doctype html>
<html lang="es">
<head>
  <meta charset="utf-8"/>
  <title>Dashboard Interactivo – Madurez Open Data</title>
  <script src="https://cdn.plot.ly/plotly-2.27.0.min.js"></script>
  <style>
    body {{ font-family: Arial, sans-serif; margin: 22px; background: #fafafa; }}
    h1 {{ margin-bottom: 6px; }}
    h2 {{ margin-top: 26px; margin-bottom: 10px; }}
    .sub {{ color: #555; margin-bottom: 18px; }}
    .card {{
      background: white;
      border: 1px solid #ddd;
      border-radius: 14px;
      padding: 12px;
      margin-bottom: 16px;
      box-shadow: 0 1px 6px rgba(0,0,0,0.04);
    }}
    .cap {{
      margin-top: 10px;
      font-size: 13.5px;
      color: #222;
      line-height: 1.35;
      background: #f6f6f6;
      border: 1px solid #eee;
      border-radius: 12px;
      padding: 10px 12px;
    }}
  </style>
</head>
<body>
  <h1>Dashboard Interactivo – Madurez del ecosistema de datos abiertos</h1>
  <div class="sub">
    Interactivo (Plotly): usa el icono de cámara en cada gráfico para descargar la imagen.
  </div>

  {''.join(blocks)}

</body>
</html>
"""

# --- EJECUCIÓN PRINCIPAL ---
final_blocks = []

# 1. Gráficos Base (Globales)
final_blocks.append("<h1>Dashboard Global de Formatos y Licencias</h1>")
final_blocks += plotly_base_figs()

# 2. Gráficos por Portal
for portal in portal_results.keys():
    final_blocks.append(f"<h2>Portal: {portal}</h2>")
    # Asegúrate de que esta función termine con 'return blocks'
    portal_content = plotly_portal_blocks(portal)
    if portal_content:
        final_blocks += portal_content

# 3. Guardar
html_final = build_html(final_blocks)
Path(OUT_HTML).write_text(html_final, encoding="utf-8")
print(f"Archivo generado exitosamente: {OUT_HTML}")


# =========================
# 10) EJECUCIÓN
# =========================
# A) Jupyter (Matplotlib)

#plot_matplotlib_base()
#for portal in portal_results.keys():
#    plot_matplotlib_portal(portal)
    

# B) HTML interactivo (Plotly)
#blocks = []
#blocks += plotly_base_figs()
#for portal in portal_results.keys():
#    blocks.append(f"<h2>Portal: {portal}</h2>")
#    blocks += plotly_portal_blocks(portal)

#html = build_html(blocks)
#Path(OUT_HTML).write_text(html, encoding="utf-8")
#print("\n✅ HTML interactivo generado2:", OUT_HTML)





Cargado: (552, 54)
Portales: ['Ayuntamiento de Barcelona']

Resumen portal-level:
- Ayuntamiento de Barcelona: N=552, Índice Global de Madurez del Portal=71.7 (alto)

Columna categoría detectada: category
Archivo generado exitosamente: Punto4_Dashboard_Interactivo10.html
