In [5]:
# -*- coding: utf-8 -*-
"""
flow_diagram_chapter1_mermaid.py
================================
Genera un diagrama de flujo (PNG y PDF) en estilo profesional usando Mermaid.

Requiere tener instalado Mermaid CLI:
    npm install -g @mermaid-js/mermaid-cli

Salidas:
  ./figures/data_pipeline_flowchart_mermaid.png
  ./figures/data_pipeline_flowchart_mermaid.pdf
"""

import os
import subprocess
from textwrap import dedent

FIG_DIR = os.path.join(".", "figures")
FILE_BASENAME = "data_pipeline_flowchart_mermaid"


def build_mermaid_flowchart():
    os.makedirs(FIG_DIR, exist_ok=True)

    mermaid_code = dedent(r"""
    ---
    title: Flujo de Preprocesamiento de Datos
    config:
      theme: base
      themeVariables:
        fontSize: 12px
        primaryColor: "#F5F7FF"
        primaryTextColor: "#111827"
        primaryBorderColor: "#1f2937"
        lineColor: "#6b7280"
        nodeBorder: "#1f2937"
        edgeLabelBackground: "#ffffff"
    ---

    flowchart TD
        A0["**0) RAW DATA**<br/>• panel diario (train/sales.csv)<br/>• items.csv, stores.csv<br/>• transactions.csv<br/>• oil.csv<br/>• holidays_events.csv"]
        A1["**1) Data Quality**<br/>• tipos/fechas y zonas horarias<br/>• duplicados (store,item,date)<br/>• nulls / cobertura<br/>• outliers básicos"]
        A2["**2) Tratamiento H<sup>ist</sup> (exposición competitiva)**<br/>• Proporción de ítems en promoción en el vecindario del SKU-tiempo<br/>• Ej.: H<sup>ist</sup><sub>s,t</sub> = #promo_vecindario / #items_vecindario"]
        A3["**3) Selección de episodios**<br/>• Ventanas: pre / tratamiento / post<br/>• Ítems: caníbales (i), víctimas (j)<br/>• Donantes top-k por víctima (rank, donor_kind)"]
        A4["**4) Variables de control (confounders)**<br/>• Festivos jerárquicos y tipos (Bridge, Work Day, etc.)<br/>• Petróleo semanal (Ow), transacciones tienda (Fsw_log1p)<br/>• Lags {7,14,28,56} + Fourier anual (K)<br/>• Dummies {type, cluster, state} + mes<br/>• A_it, T_it (STL) + Q_store_t"]

        subgraph cluster_algos["5) Preprocesamiento específico por algoritmo"]
            A5a["**GSC (Control Sintético Generalizado)**<br/>• Panel por episodio: víctima + donantes filtrados<br/>• Etiquetas: treated_unit, treated_time<br/>• Filtros: promo_share ≤ 0.02, availability ≥ 0.90<br/>• Salida: data/processed/gsc/&lt;episode_id&gt;.parquet"]
            A5b["**Meta-learners (series temporales)**<br/>• Stack de unidades (víctimas + donantes)<br/>• D_t = 1{treated_unit & treated_time}<br/>• Salida: data/processed/meta/all_units.parquet"]
        end

        Note["**pre_algorithm.py (CLI)**<br/>• orquesta lectura, controles y features<br/>• construye datasets GSC y Meta<br/>• aplica filtros de calidad"]:::noteStyle

        %% conexiones principales
        A0 --> A1 --> A2 --> A3 --> A4 --> A5a
        A4 --> A5b
        A4 -.-> Note
        Note -.-> A5a
        Note -.-> A5b

        classDef noteStyle fill:#FFFDF0,stroke:#b45309,color:#78350f;
    """)

    mmd_path = os.path.join(FIG_DIR, FILE_BASENAME + ".mmd")
    png_path = os.path.join(FIG_DIR, FILE_BASENAME + ".png")
    pdf_path = os.path.join(FIG_DIR, FILE_BASENAME + ".pdf")

    with open(mmd_path, "w", encoding="utf-8") as f:
        f.write(mermaid_code.strip())

    # Renderiza PNG y PDF
    subprocess.run(["mmdc", "-i", mmd_path, "-o", png_path, "-b", "transparent"], check=True)
    subprocess.run(["mmdc", "-i", mmd_path, "-o", pdf_path, "-b", "transparent"], check=True)

    print(f"Diagramas creados:\n- {png_path}\n- {pdf_path}")


if __name__ == "__main__":
    build_mermaid_flowchart()


FileNotFoundError: [WinError 2] El sistema no puede encontrar el archivo especificado

In [4]:
build_flowchart_matplotlib() 

✅ Diagrama generado:
- .\figures\data_pipeline_flowchart_clean.png
- .\figures\data_pipeline_flowchart_clean.pdf
