In [11]:
import os
import json
from pathlib import Path
import pandas as pd
import numpy as np
import math
from google import genai

EXCEL_PATH = Path("BIA_clean.xlsx")
BASE_DIR = Path("bia_txt")
RAW_DIR = BASE_DIR / "raw"
PREP_DIR = BASE_DIR / "prepared"
OUT_DIR = Path("bsde_out")
MODEL = "gemini-2.5-flash"
API_KEY = "AIzaSyAndvZufK3ms-pYx8DO7vBGJjaxsfS-Ecs"
CHUNK_SIZE = 8192

CFG = {
    "timezone": "Asia/Bangkok",
    "dt_hours": 1,
    "r": 0.03,
    "eta": 0.5,
    "x0": 0.0,
    "k1": 1.2,
    "k2": 1.0,
    "c1_a": 0.0,
    "c1_b": 2.0e5,
    "c2_a": 0.0,
    "c2_b": 1.0e5,
    "n_paths": 4000,
    "u_grid": 11,
    "severity_proxy": {2: 2_000_000.0, 3: 500_000.0}
}

RAW_DIR.mkdir(parents=True, exist_ok=True)
PREP_DIR.mkdir(parents=True, exist_ok=True)
OUT_DIR.mkdir(parents=True, exist_ok=True)

def _safe_name(name: str) -> str:
    return "".join(c if c.isalnum() or c in "-_. " else "_" for c in str(name)).strip().replace(" ", "_")

def excel_to_tsvs(xlsx: Path, out_dir: Path):
    sheets = pd.read_excel(xlsx, sheet_name=None, dtype=str, engine="openpyxl")
    fps = []
    for sheet, df in sheets.items():
        df = df.fillna("")
        fp = out_dir / f"{_safe_name(sheet)}.raw.txt"
        df.to_csv(fp, sep="\t", index=False, lineterminator="\n")
        fps.append(fp)
    return fps

def _manual_events_df():
    rows = [
        {"วันเดือนปีที่เกิดเหตุ":"9-Mar-20","รายละเอียด":"ABCT breaker 5YB-01 trip by relay 87L operate","ระดับความรุนแรง":"2","ความสำคัญในการประเมิน BIA":"สำคัญ"},
        {"วันเดือนปีที่เกิดเหตุ":"24-May-20","รายละเอียด":"Plant islanding due to ban chang substation switching line to bay spare (inter trip not support this function)","ระดับความรุนแรง":"3","ความสำคัญในการประเมิน BIA":"ไม่สำคัญ"},
        {"วันเดือนปีที่เกิดเหตุ":"22-Jun-20","รายละเอียด":"GTG-11 trip by 1391VA979HH and PEA 1YB-01 OPEN plant Islanding by relay 21/21N Zone1","ระดับความรุนแรง":"3","ความสำคัญในการประเมิน BIA":"ไม่สำคัญ"},
        {"วันเดือนปีที่เกิดเหตุ":"27-Jun-20","รายละเอียด":"GTG-14 was tripped by Load GEAR#1&2 AXIS VIBRAT.high","ระดับความรุนแรง":"3","ความสำคัญในการประเมิน BIA":"ไม่สำคัญ"},
        {"วันเดือนปีที่เกิดเหตุ":"13-Aug-20","รายละเอียด":"GTG-11 was tripped by alarm TAHH 534-541 Brg.Metal Temp high trip","ระดับความรุนแรง":"3","ความสำคัญในการประเมิน BIA":"ไม่สำคัญ"},
        {"วันเดือนปีที่เกิดเหตุ":"1-Sep-20","รายละเอียด":"GTG11 was tripped by Generator Vibration high trip","ระดับความรุนแรง":"3","ความสำคัญในการประเมิน BIA":"ไม่สำคัญ"},
        {"วันเดือนปีที่เกิดเหตุ":"26-Nov-20","รายละเอียด":"Close 52Aux (GTG-12) 87T operate 52L1 Open,52G Open and GTG-12 trip","ระดับความรุนแรง":"3","ความสำคัญในการประเมิน BIA":"ไม่สำคัญ"},
        {"วันเดือนปีที่เกิดเหตุ":"25-Feb-21","รายละเอียด":"Aux Boiler trip by burner inlet fuel gas pressure low low","ระดับความรุนแรง":"3","ความสำคัญในการประเมิน BIA":"ไม่สำคัญ"},
        {"วันเดือนปีที่เกิดเหตุ":"19-Feb-21 16:00","รายละเอียด":"Plant islanding, 1YB01 open by inter trip 5YB01 operate from Banchang substation","ระดับความรุนแรง":"3","ความสำคัญในการประเมิน BIA":"ไม่สำคัญ"},
        {"วันเดือนปีที่เกิดเหตุ":"13-Apr-21 02:39","รายละเอียด":"PEA Maptaphut3 substation tripped. This event impacted to customers (MIGP ,ABCT, LLDPE2) tripped.","ระดับความรุนแรง":"3","ความสำคัญในการประเมิน BIA":"ไม่สำคัญ"},
        {"วันเดือนปีที่เกิดเหตุ":"14-Apr-21 11:15","รายละเอียด":"GTG11&HRSG11 and GTG12&HRSG12 tripped.","ระดับความรุนแรง":"3","ความสำคัญในการประเมิน BIA":"ไม่สำคัญ"},
        {"วันเดือนปีที่เกิดเหตุ":"14-Apr-21 11:28","รายละเอียด":"GTG15&HRSG15 tripped.","ระดับความรุนแรง":"3","ความสำคัญในการประเมิน BIA":"ไม่สำคัญ"},
        {"วันเดือนปีที่เกิดเหตุ":"20-Apr-21 14:33","รายละเอียด":"CUP1 plant blackout.","ระดับความรุนแรง":"2","ความสำคัญในการประเมิน BIA":"สำคัญ"},
        {"วันเดือนปีที่เกิดเหตุ":"29-Apr-21 18:24","รายละเอียด":"GTG12 tripped.","ระดับความรุนแรง":"3","ความสำคัญในการประเมิน BIA":"ไม่สำคัญ"},
        {"วันเดือนปีที่เกิดเหตุ":"6-May-21 23:55","รายละเอียด":"GTG16 tripped.","ระดับความรุนแรง":"3","ความสำคัญในการประเมิน BIA":"ไม่สำคัญ"},
        {"วันเดือนปีที่เกิดเหตุ":"10-May-21 11:44","รายละเอียด":"Plant islanding by external fault.(distance relay operated)  12:17 Synchronize to PEA.","ระดับความรุนแรง":"3","ความสำคัญในการประเมิน BIA":"ไม่สำคัญ"},
        {"วันเดือนปีที่เกิดเหตุ":"16-May-21 23:55","รายละเอียด":"GTG13 GEN Breaker 52G opened by lost of power 400 V supply to ACC. Motors","ระดับความรุนแรง":"3","ความสำคัญในการประเมิน BIA":"ไม่สำคัญ"},
        {"วันเดือนปีที่เกิดเหตุ":"28-May-21 04:27","รายละเอียด":"Plant islanding from external fault (distance relay Z1 operated) impact to customers some load trip","ระดับความรุนแรง":"3","ความสำคัญในการประเมิน BIA":"ไม่สำคัญ"},
        {"วันเดือนปีที่เกิดเหตุ":"9-Jul-21 10:29","รายละเอียด":"GTG11 was tripped by alarm seismic vibration GEN HH trip (39VT) & GTG16 was trip by alarm 77HT module speed signal loss","ระดับความรุนแรง":"3","ความสำคัญในการประเมิน BIA":"ไม่สำคัญ"},
        {"วันเดือนปีที่เกิดเหตุ":"15-Jul-21 01:05","รายละเอียด":"GTG11 was tripped by alarm seismic vibration GEN HH trip","ระดับความรุนแรง":"3","ความสำคัญในการประเมิน BIA":"ไม่สำคัญ"},
        {"วันเดือนปีที่เกิดเหตุ":"19-Aug-21 01:05","รายละเอียด":"GTG11 was tripped by alarm vibration 1391VAHH729X HH trip","ระดับความรุนแรง":"3","ความสำคัญในการประเมิน BIA":"ไม่สำคัญ"},
        {"วันเดือนปีที่เกิดเหตุ":"22-Sep-21 04:45","รายละเอียด":"Aux Boiler trip by burner inlet fuel gas pressure low low","ระดับความรุนแรง":"3","ความสำคัญในการประเมิน BIA":"ไม่สำคัญ"},
        {"วันเดือนปีที่เกิดเหตุ":"21-Oct-21 17:01","รายละเอียด":"GTG11 was tripped by alarm vibration 1391VAHH729X HH trip","ระดับความรุนแรง":"3","ความสำคัญในการประเมิน BIA":"ไม่สำคัญ"},
        {"วันเดือนปีที่เกิดเหตุ":"9-Nov-21 17:01","รายละเอียด":"GTG15 was tripped by alarm VPRO Diagnostic","ระดับความรุนแรง":"3","ความสำคัญในการประเมิน BIA":"ไม่สำคัญ"},
        {"วันเดือนปีที่เกิดเหตุ":"27-Nov-21 11:42","รายละเอียด":"PTTAC 115 kV CB 7YB-01 opened to PTTAC was tripped by alarm reverse power relay","ระดับความรุนแรง":"2","ความสำคัญในการประเมิน BIA":"สำคัญ"},
    ]
    return pd.DataFrame(rows, columns=["วันเดือนปีที่เกิดเหตุ","รายละเอียด","ระดับความรุนแรง","ความสำคัญในการประเมิน BIA"]).fillna("")

def write_manual_raw(out_dir: Path):
    df = _manual_events_df()
    fp = out_dir / "Manual_Events.raw.txt"
    df.to_csv(fp, sep="\t", index=False, lineterminator="\n")
    return fp

def _tsv_chunks(text: str, size: int):
    lines = text.splitlines()
    if not lines:
        return
    header = lines[0]
    cur = [header]
    total = len(header)
    for r in lines[1:]:
        ln = len(r) + 1
        if total + ln > size and len(cur) > 1:
            yield "\n".join(cur)
            cur = [header]
            total = len(header)
        cur.append(r)
        total += ln
    if len(cur) > 1:
        yield "\n".join(cur)

def _prep_prompt(sheet_name: str, tsv_chunk: str) -> str:
    return (
        "Convert TSV to JSON Lines. One JSON object per line with fields: sheet:string, row_index:int (1-based inside chunk), "
        "data:object with snake_case keys. Trim leading/trailing spaces, collapse internal newlines to a single space, drop rows with all-empty columns, "
        "preserve dates as-is when uncertain, output JSON Lines only (no markdown, no commentary). "
        f"sheet={sheet_name}\nTSV:\n{tsv_chunk}"
    )

def _strip_fence(s: str) -> str:
    s = s.strip()
    if s.startswith("```"):
        parts = s.split("```")
        if len(parts) >= 3:
            return parts[1].strip()
        return s.replace("```", "").strip()
    return s

def transform_raw_with_gemini(raw_path: Path, out_dir: Path, client: genai.Client, chunk_size: int = CHUNK_SIZE):
    out_dir.mkdir(parents=True, exist_ok=True)
    src = raw_path.stem.replace(".raw", "")
    text = raw_path.read_text(encoding="utf-8-sig")
    parts = []
    for chunk in _tsv_chunks(text, chunk_size):
        prompt = _prep_prompt(src, chunk)
        resp = client.models.generate_content(model=MODEL, contents=prompt)
        parts.append(_strip_fence(getattr(resp, "text", str(resp))))
    prepared_fp = out_dir / f"{src}.prepared.txt"
    prepared_text = "\n".join([p for p in parts if p]).strip()
    prepared_fp.write_text(prepared_text + ("\n" if prepared_text else ""), encoding="utf-8")
    return prepared_fp

def convert_bia_to_raw_and_prepare():
    fps = []
    if EXCEL_PATH.exists():
        fps += excel_to_tsvs(EXCEL_PATH, RAW_DIR)
    fps.append(write_manual_raw(RAW_DIR))
    client = genai.Client(api_key=API_KEY)
    prepared = []
    for rp in sorted(RAW_DIR.glob("*.raw.txt")):
        prepared.append(transform_raw_with_gemini(rp, PREP_DIR, client, CHUNK_SIZE))
    return prepared

def _read_json_lines(path: Path):
    for line in path.read_text(encoding="utf-8", errors="ignore").splitlines():
        line = line.strip()
        if not line:
            continue
        if line.startswith("{") and line.endswith("}"):
            j = json.loads(line)
            yield j

def _coerce_claim(obj: dict):
    if "type" in obj and obj["type"] == "claim":
        return {"t": obj.get("t"), "desc": obj.get("desc"), "severity_level": obj.get("severity_level"), "bia_importance": obj.get("bia_importance"), "z": obj.get("z"), "z_proxy_thb": obj.get("z_proxy_thb")}
    if "data" in obj:
        d = obj["data"]
        t = d.get("วันเดือนปีที่เกิดเหตุ") or d.get("date") or d.get("t")
        desc = d.get("รายละเอียด") or d.get("desc") or d.get("event")
        sev = d.get("ระดับความรุนแรง") or d.get("severity") or d.get("severity_level")
        bia = d.get("ความสำคัญในการประเมิน_bia") or d.get("ความสำคัญในการประเมิน bia") or d.get("bia_importance")
        z = d.get("z") or d.get("loss") or None
        zpx = d.get("z_proxy_thb") or None
        return {"t": t, "desc": desc, "severity_level": sev, "bia_importance": bia, "z": z, "z_proxy_thb": zpx}
    return None

def load_claims_df(prep_dir: Path, severity_proxy: dict, tz: str) -> pd.DataFrame:
    rows = []
    for fp in sorted(prep_dir.glob("*.prepared.txt")):
        for obj in _read_json_lines(fp):
            r = _coerce_claim(obj)
            if r:
                rows.append(r)
    df = pd.DataFrame(rows)
    if df.empty:
        return df
    s = df.get("bia_importance").astype(str).str.strip()
    df["bia_importance"] = np.where(s.str.contains("สำคัญ"), "critical", "non_critical")
    df["severity_level"] = pd.to_numeric(df.get("severity_level"), errors="coerce").astype("Int64")
    df["z"] = pd.to_numeric(df.get("z"), errors="coerce")
    df["z_proxy_thb"] = pd.to_numeric(df.get("z_proxy_thb"), errors="coerce")
    m = df["z"].isna()
    df.loc[m & df["severity_level"].notna(), "z"] = df.loc[m & df["severity_level"].notna(), "severity_level"].map(severity_proxy)
    df.loc[m & df["z_proxy_thb"].notna(), "z"] = df.loc[m & df["z_proxy_thb"].notna(), "z_proxy_thb"]
    df["t"] = pd.to_datetime(df.get("t"), errors="coerce", utc=True)
    df = df.dropna(subset=["t","z"]).sort_values("t").reset_index(drop=True)
    return df[["t","z","severity_level","bia_importance"]]

def build_time_grid(df: pd.DataFrame, dt_hours: int):
    t_series = pd.to_datetime(df["t"], errors="coerce", utc=True).dropna()
    if t_series.empty:
        return pd.DatetimeIndex([], tz="UTC")
    t0 = pd.Timestamp(t_series.min()).floor(f"{dt_hours}h")
    t1 = pd.Timestamp(t_series.max()).ceil(f"{dt_hours}h")
    return pd.date_range(t0, t1, freq=f"{dt_hours}H", tz="UTC")

def estimate_lambda0(df: pd.DataFrame, grid: pd.DatetimeIndex, dt_hours: int) -> np.ndarray:
    if len(grid) < 2:
        return np.array([], dtype=float)
    cuts = pd.cut(df["t"], bins=grid, right=False, include_lowest=True)
    counts = df.groupby(cuts, observed=False).size().reindex(pd.IntervalIndex.from_breaks(grid), fill_value=0).values
    lam = counts.astype(float) / float(dt_hours)
    return lam

def fit_severity_lognormal(z: np.ndarray):
    z = np.asarray(z, dtype=float)
    z = z[z > 0]
    logz = np.log(z)
    mu = float(np.mean(logz))
    sigma = float(np.std(logz, ddof=1)) if len(logz) > 1 else 1e-6
    def sample(n):
        return np.exp(np.random.normal(mu, sigma, size=n))
    def moment(func, n_mc=20000):
        x = sample(n_mc)
        return float(np.mean(func(x)))
    return {"mu": mu, "sigma": sigma, "sample": sample, "moment": moment}

def gamma1(u1: float, k1: float):
    return math.exp(-k1 * max(0.0, min(1.0, u1)))

def gamma2(u2: float, k2: float):
    return math.exp(-k2 * max(0.0, min(1.0, u2)))

def cost1(u1: float, a: float, b: float):
    u1 = max(0.0, min(1.0, u1))
    return a * u1 + 0.5 * b * u1 * u1

def cost2(u2: float, a: float, b: float):
    u2 = max(0.0, min(1.0, u2))
    return a * u2 + 0.5 * b * u2 * u2

def simulate_value(lambda_series: np.ndarray, F, u1: float, u2: float, cfg: dict):
    dt = cfg["dt_hours"]
    r = cfg["r"]
    eta = cfg["eta"]
    x = cfg["x0"]
    g1 = gamma1(u1, cfg["k1"])
    g2 = gamma2(u2, cfg["k2"])
    cdt = cost1(u1, cfg["c1_a"], cfg["c1_b"]) + cost2(u2, cfg["c2_a"], cfg["c2_b"])
    n_paths = cfg["n_paths"]
    lam_u = g1 * lambda_series
    T_steps = len(lambda_series)
    vals = np.empty(n_paths, dtype=float)
    for p in range(n_paths):
        X = x
        for k in range(T_steps):
            X += r * X * dt
            N = np.random.poisson(max(0.0, lam_u[k]) * dt)
            if N > 0:
                loss = float(np.sum(g2 * F["sample"](N)))
                X -= loss
            X -= cdt * dt
        vals[p] = math.exp(-eta * X)
    return float(np.mean(vals))

def grid_search_controls(lambda_series: np.ndarray, F, cfg: dict):
    grid = np.linspace(0.0, 1.0, cfg["u_grid"])
    best = {"u1": 0.0, "u2": 0.0, "objective": float("inf")}
    for u1 in grid:
        for u2 in grid:
            val = simulate_value(lambda_series, F, u1, u2, cfg)
            if val < best["objective"]:
                best = {"u1": float(u1), "u2": float(u2), "objective": float(val)}
    return best

def run_bsde_pipeline_and_report(budget_total_thb: float = 10_000_000.0):
    convert_bia_to_raw_and_prepare()
    claims_df = load_claims_df(PREP_DIR, CFG["severity_proxy"], CFG["timezone"])
    if claims_df.empty:
        (OUT_DIR / "status.txt").write_text("no_claims_rows", encoding="utf-8")
        return
    grid = build_time_grid(claims_df, CFG["dt_hours"])
    lam0 = estimate_lambda0(claims_df, grid, CFG["dt_hours"])
    F = fit_severity_lognormal(claims_df["z"].values)
    baseline = simulate_value(lam0, F, 0.0, 0.0, CFG)
    best = grid_search_controls(lam0, F, CFG)
    report = {
        "config": {k: v for k, v in CFG.items() if k not in ("severity_proxy",)},
        "time_grid_start": grid[0].isoformat() if len(grid) else None,
        "time_grid_end": grid[-1].isoformat() if len(grid) else None,
        "steps": int(len(lam0)),
        "lambda0_avg_per_dt": float(np.mean(lam0)) if len(lam0) else 0.0,
        "severity_lognormal": {"mu": F["mu"], "sigma": F["sigma"]},
        "baseline_E_exp_minus_eta_XT": baseline,
        "optimal": best,
        "improvement_ratio": (baseline / best["objective"]) if best["objective"] > 0 else None
    }
    (OUT_DIR / "policy.json").write_text(json.dumps(report, ensure_ascii=False, indent=2), encoding="utf-8")
    series = pd.DataFrame({
        "t_bin_start_utc": grid[:-1].astype("datetime64[ns]") if len(grid) > 1 else pd.to_datetime([]),
        "lambda0_per_hour": lam0 if len(lam0) else np.array([]),
    })
    series.to_csv(OUT_DIR / "lambda_series.csv", index=False, encoding="utf-8")
    ctx = {
        "baseline": report.get("baseline_E_exp_minus_eta_XT"),
        "optimal_objective": report.get("optimal", {}).get("objective"),
        "improvement_ratio": report.get("improvement_ratio"),
        "steps": report.get("steps"),
        "avg_lambda": report.get("lambda0_avg_per_dt"),
        "u1": report.get("optimal", {}).get("u1"),
        "u2": report.get("optimal", {}).get("u2"),
        "r": report.get("config", {}).get("r"),
        "eta": report.get("config", {}).get("eta"),
        "budget": float(budget_total_thb),
        "lambda_table": _compact_table(series.head(24))
    }
    prompt = _render_llm_prompt(ctx)
    client = genai.Client(api_key=API_KEY)
    resp = client.models.generate_content(model=MODEL, contents=prompt)
    text = getattr(resp, "text", str(resp)).strip()
    (OUT_DIR / "llm_report.md").write_text(text, encoding="utf-8")

def _compact_table(df: pd.DataFrame, max_rows: int = 50):
    if df.empty:
        return ""
    df = df.copy().iloc[:max_rows]
    cols = df.columns.astype(str).tolist()
    lines = []
    lines.append("|" + "|".join(cols) + "|")
    lines.append("|" + "|".join(["---"] * len(cols)) + "|")
    for _, row in df.iterrows():
        lines.append("|" + "|".join("" if pd.isna(v) else str(v) for v in row.tolist()) + "|")
    return "\n".join(lines)

def _render_llm_prompt(ctx: dict) -> str:
    return (
        "คุณคือ Data/Quant strategist ภาษาไทย ทำหน้าที่แปลผลลัพธ์เชิงตัวเลขจาก BSDE framework ให้กลายเป็นนโยบายที่ปฏิบัติได้จริง "
        "ให้ตอบเป็นภาษาไทยแบบ dev/data expert ทับศัพท์และคงชื่อเทคนิค เช่น BSDE, intensity, severity, utility\n\n"
        "## BSDE Framework (Quantitative Engine)\n"
        "- Input: Loss Data, Cost Data, Agent Profile\n"
        "- Process: backward loop จาก t=T → t=0 เพื่อหา optimal control u(t,X_t)\n"
        "- Output: Optimal Control Process u*(t)\n\n"
        "## ผลลัพธ์จาก solver\n"
        f"- baseline_E_exp_minus_eta_XT: {ctx['baseline']}\n"
        f"- optimal_objective: {ctx['optimal_objective']}\n"
        f"- improvement_ratio: {ctx['improvement_ratio']}\n"
        f"- horizon_steps: {ctx['steps']}\n"
        f"- avg_lambda0_per_dt: {ctx['avg_lambda']}\n"
        f"- optimal_controls: u1*={ctx['u1']}, u2*={ctx['u2']}\n"
        f"- discount_rate_r: {ctx['r']}, risk_aversion_eta: {ctx['eta']}\n"
        f"- budget_total_THB: {ctx['budget']}\n\n"
        "## ตาราง intensity (ย่อ)\n"
        f"{ctx['lambda_table']}\n\n"
        "## โจทย์การสรุปผล\n"
        "1) Executive summary 5–8 บรรทัด อธิบาย baseline vs optimal และความหมายของ improvement_ratio\n"
        "2) เสนอ Static Strategy: ระบุสัดส่วน u1,u2 เป็นตัวเลข 0–1 และบริบทการใช้\n"
        "3) เสนอ Dynamic Strategy: if–then rules อิง λ_t และ proxy ของ size พร้อม thresholds\n"
        "4) จัดแผน Budget allocation ให้สอดคล้องกับ u1/u2* ภายใต้งบประมาณที่กำหนด พร้อมเหตุผลด้าน expected utility\n"
        "5) Roadmap 3 เฟส: Quick win (≤90 วัน), Mid-term (≤12 เดือน), Long-term (>12 เดือน) ผูกกับ control และ data requirement\n"
        "6) สรุป Assumptions และข้อจำกัดที่สำคัญ\n"
        "ห้ามตอบเป็นโค้ดหรือครอบด้วย code fence"
    )

run_bsde_pipeline_and_report(10_000_000.0)

  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  return pd.date_range(t0, t1, freq=f"{dt_hours}H", tz="UTC")


OverflowError: math range error

In [23]:
# BSDE mock + dynamic policy (backward recursion) + Gemini reporting
# - จำลอง λ0(t) และ severity (lognormal)
# - คำนวณ “นโยบายแบบไดนามิก” ด้วย BSDE-style backward recursion (risk-sensitive CE)
# - เทียบกับ “นโยบายคงที่” แบบ grid search เบา ๆ
# - ใช้ Gemini สร้างรายงานเชิงกลยุทธ์จากผลลัพธ์ (mock)

import os
import json
from pathlib import Path
import numpy as np
import pandas as pd
from google import genai

# ------------------- CONFIG -------------------
OUT_DIR = Path("bsde_out_bsde_mock")
OUT_DIR.mkdir(parents=True, exist_ok=True)

CFG = {
    "timezone": "Asia/Bangkok",
    "dt_hours": 1,
    "r_annual": 0.03,             # ไม่ใช้ใน mock BSDE นี้ (โฟกัส cost+loss)
    "eta_per_million": 0.5,       # risk aversion บนหน่วยล้านบาท
    "scale": "Million THB",
    "budget_total_thb": 10_000_000.0,

    # horizon (mock 7 วัน hourly)
    "horizon_start_utc": "2021-04-01T00:00:00Z",
    "horizon_end_utc": "2021-04-07T00:00:00Z",

    # mock λ0(t) และ severity
    "lam0_base_per_hour": 0.03,
    "lam0_amp": 0.02,
    "severity_lognormal_mu": float(np.log(1.2)),
    "severity_lognormal_sigma": 0.6,  # บนหน่วย "ล้านบาท"

    # control effectiveness
    "k1": 1.2,  # u1 ลดความถี่: gamma1(u1)=exp(-k1*u1)
    "k2": 1.0,  # u2 ลดความรุนแรง: gamma2(u2)=exp(-k2*u2)

    # cost ต่อชั่วโมง (หน่วยบาท) → แปลงเป็นล้านบาทภายใน
    "c1_b_thb_per_hour": 2.0e5,   # quadratic: 0.5*b*u^2
    "c2_b_thb_per_hour": 1.0e5,

    # grid และ sample
    "u_grid_bsde": 5,             # 0.0..1.0 แบ่ง 5 ค่า (0.0, 0.25, 0.5, 0.75, 1.0)
    "samples_per_step": 300,      # จำลองต่อสเต็ปเพื่อคำนวณ E[exp(eta*(cost+loss))]
    "u_grid_static": 5,           # สำหรับ static policy เทียบกัน
}

MODEL = "gemini-2.5-flash"
API_KEY = "AIzaSyAndvZufK3ms-pYx8DO7vBGJjaxsfS-Ecs"

# ------------------- HELPERS -------------------
def _to_md_table(df: pd.DataFrame) -> str:
    if df.empty:
        return ""
    cols = [str(c) for c in df.columns]
    lines = []
    lines.append("|" + "|".join(cols) + "|")
    lines.append("|" + "|".join(["---"] * len(cols)) + "|")
    for _, row in df.iterrows():
        lines.append("|" + "|".join("" if pd.isna(v) else str(v) for v in row.tolist()) + "|")
    return "\n".join(lines)

def gamma1(u1: float, k1: float) -> float:
    u1 = float(min(max(u1, 0.0), 1.0))
    return float(np.exp(-k1 * u1))

def gamma2(u2: float, k2: float) -> float:
    u2 = float(min(max(u2, 0.0), 1.0))
    return float(np.exp(-k2 * u2))

def hourly_cost_million(u1: float, u2: float, cfg: dict) -> float:
    c1 = 0.5 * cfg["c1_b_thb_per_hour"] * (u1 ** 2)
    c2 = 0.5 * cfg["c2_b_thb_per_hour"] * (u2 ** 2)
    return (c1 + c2) * 1e-6  # บาท → ล้านบาท

def make_horizon_grid(cfg: dict):
    start = pd.Timestamp(cfg["horizon_start_utc"])
    end = pd.Timestamp(cfg["horizon_end_utc"])
    grid = pd.date_range(start, end, freq=f"{cfg['dt_hours']}h", tz="UTC")
    return grid

def mock_lambda_series(grid: pd.DatetimeIndex, cfg: dict) -> np.ndarray:
    n = max(len(grid) - 1, 1)
    x = np.linspace(0, 4 * np.pi, n)
    lam = cfg["lam0_base_per_hour"] + cfg["lam0_amp"] * np.sin(x)
    lam = np.clip(lam, 0.001, None)
    return lam

def severity_sampler_million(n: int, mu: float, sigma: float) -> np.ndarray:
    return np.exp(np.random.normal(mu, sigma, size=int(n)))  # หน่วยล้านบาท

# ------------------- STATIC POLICY (อ้างอิง) -------------------
def static_objective_logU(lam_per_hour: np.ndarray, mu: float, sigma: float, u1: float, u2: float, cfg: dict) -> float:
    """
    คำนวณ log U0 สำหรับนโยบายคงที่: U0 = Π_k E[exp(eta*(cost_k+loss_k(u)))]
    (CE แบบ risk-sensitive) แบบรวดเร็วด้วย Monte Carlo ต่อสเต็ป
    """
    eta = cfg["eta_per_million"]
    dt_h = cfg["dt_hours"]
    g1 = gamma1(u1, cfg["k1"])
    g2 = gamma2(u2, cfg["k2"])
    cost_h = hourly_cost_million(u1, u2, cfg)

    logU = 0.0
    for k in range(len(lam_per_hour)):
        lam_u = max(0.0, g1 * lam_per_hour[k]) * dt_h
        # draw N claims per sample
        Ns = np.random.poisson(lam_u, size=cfg["samples_per_step"])
        losses = []
        for N in Ns:
            if N <= 0:
                losses.append(0.0)
            else:
                losses.append(float(np.sum(g2 * severity_sampler_million(N, mu, sigma))))
        losses = np.asarray(losses, dtype=float)
        y = eta * (cost_h * dt_h + losses)
        m = float(np.max(y))
        log_eexp = m + np.log(np.mean(np.exp(np.clip(y - m, -1000.0, 0.0))))
        logU += float(np.clip(log_eexp, -745.0, 709.0))
    return float(logU)

def find_static_policy(lam_per_hour: np.ndarray, mu: float, sigma: float, cfg: dict):
    grid = np.linspace(0.0, 1.0, cfg["u_grid_static"])
    best = {"u1": 0.0, "u2": 0.0, "logU0": float("+inf")}
    for u1 in grid:
        for u2 in grid:
            logU = static_objective_logU(lam_per_hour, mu, sigma, float(u1), float(u2), cfg)
            if logU < best["logU0"]:
                best = {"u1": float(u1), "u2": float(u2), "logU0": float(logU)}
    return best

# ------------------- BSDE-STYLE BACKWARD POLICY -------------------
def bsde_backward_policy(lam_per_hour: np.ndarray, mu: float, sigma: float, cfg: dict):
    """
    Backward recursion (risk-sensitive):
      U_T = 1  → logU_T = 0
      เลือก u_k เพื่อลด U_k = E[exp(eta*(cost_k+loss_k(u)))] * U_{k+1}
      ⇒ logU_k = min_u { log E[exp(eta*(cost_k+loss_k(u)))] + logU_{k+1} }
    คืนค่าลิสต์ u1*, u2* ต่อเวลา และ logU0
    """
    eta = cfg["eta_per_million"]
    dt_h = cfg["dt_hours"]
    grid_u = np.linspace(0.0, 1.0, cfg["u_grid_bsde"])

    T = len(lam_per_hour)
    u1_star = np.zeros(T, dtype=float)
    u2_star = np.zeros(T, dtype=float)

    logU_next = 0.0  # logU_T
    # เดินย้อนเวลา
    for k in reversed(range(T)):
        lam_k = lam_per_hour[k]
        best_log = float("+inf")
        best_u1, best_u2 = 0.0, 0.0

        for u1 in grid_u:
            g1 = gamma1(float(u1), cfg["k1"])
            lam_u_dt = max(0.0, g1 * lam_k) * dt_h
            for u2 in grid_u:
                g2 = gamma2(float(u2), cfg["k2"])
                cost_h = hourly_cost_million(float(u1), float(u2), cfg)

                # MC สำหรับ log E[exp(eta*(cost+loss))]
                Ns = np.random.poisson(lam_u_dt, size=cfg["samples_per_step"])
                losses = []
                for N in Ns:
                    if N <= 0:
                        losses.append(0.0)
                    else:
                        losses.append(float(np.sum(g2 * severity_sampler_million(N, mu, sigma))))
                losses = np.asarray(losses, dtype=float)
                y = eta * (cost_h * dt_h + losses)

                m = float(np.max(y))
                log_eexp = m + np.log(np.mean(np.exp(np.clip(y - m, -1000.0, 0.0))))
                log_eexp = float(np.clip(log_eexp, -745.0, 709.0))

                cand = log_eexp + logU_next
                if cand < best_log:
                    best_log = cand
                    best_u1, best_u2 = float(u1), float(u2)

        u1_star[k] = best_u1
        u2_star[k] = best_u2
        logU_next = best_log  # ใช้เป็น logU_{k} สำหรับสเต็ปก่อนหน้า

    return {
        "u1_series": u1_star.tolist(),
        "u2_series": u2_star.tolist(),
        "logU0": float(logU_next)
    }

# ------------------- PIPELINE (MOCK BSDE + REPORT) -------------------
def run_bsde_mock_and_report():
    grid = make_horizon_grid(CFG)
    lam0 = mock_lambda_series(grid, CFG)
    mu = CFG["severity_lognormal_mu"]
    sigma = CFG["severity_lognormal_sigma"]

    # Static (อ้างอิง)
    best_static = find_static_policy(lam0, mu, sigma, CFG)
    static_obj = float(np.exp(np.clip(best_static["logU0"], -745.0, 709.0)))

    # BSDE dynamic policy
    dyn = bsde_backward_policy(lam0, mu, sigma, CFG)
    dyn_obj = float(np.exp(np.clip(dyn["logU0"], -745.0, 709.0)))

    # Compose policy object (mock-friendly แต่มีผลลัพธ์จากตัวแกน)
    policy = {
        "config": {
            "timezone": CFG["timezone"],
            "dt_hours": CFG["dt_hours"],
            "r_annual": CFG["r_annual"],
            "eta_per_million": CFG["eta_per_million"],
            "k1": CFG["k1"], "k2": CFG["k2"],
            "scale": CFG["scale"]
        },
        "time_grid_start": grid[0].isoformat(),
        "time_grid_end": grid[-1].isoformat(),
        "steps": int(len(lam0)),
        "lambda0_avg_per_hour": float(np.mean(lam0)),
        "severity_lognormal": {"mu": mu, "sigma": sigma, "unit": "Million THB"},
        # อ้างอิง baseline = policy คงที่ที่ u1=u2=0
        "baseline_E_exp_eta_cost": float(np.exp(static_objective_logU(lam0, mu, sigma, 0.0, 0.0, CFG))),
        "static_optimal": {"u1": best_static["u1"], "u2": best_static["u2"], "objective": static_obj},
        "bsde_dynamic": {
            "objective": dyn_obj,
            "u1_series": dyn["u1_series"],
            "u2_series": dyn["u2_series"]
        },
        "improvement_ratio_static_vs_dyn": (static_obj / dyn_obj) if dyn_obj > 0 else None
    }

    # Preview λ0 (24 ชั่วโมงแรก)
    preview = pd.DataFrame({
        "t_bin_start_utc": grid[:-1][:24],
        "lambda0_per_hour": lam0[:24]
    })
    md_table = _to_md_table(preview)

    # Budget mock
    interventions = {
        "candidates": [
            {"id": "U12.1", "name": "ทีม GTG 24ชม.", "map": "u1"},
            {"id": "U17.1", "name": "ซ่อมบำรุง Sub station", "map": "u2"},
            {"id": "RESERVE", "name": "งบสำรอง", "map": "reserve"}
        ],
        "target_allocation": {
            "total_budget_thb": CFG["budget_total_thb"],
            "U12.1_thb": 5_000_000.0,
            "U17.1_thb": 3_000_000.0,
            "RESERVE_thb": 2_000_000.0
        }
    }

    # Persist JSONs
    (OUT_DIR / "policy_bsde.json").write_text(json.dumps(policy, ensure_ascii=False, indent=2), encoding="utf-8")
    (OUT_DIR / "interventions.json").write_text(json.dumps(interventions, ensure_ascii=False, indent=2), encoding="utf-8")

    # ------------------- Gemini Reporting -------------------
    prompt = (
        "คุณคือ Data/Quant strategist ภาษาไทย ทำหน้าที่แปลผลลัพธ์จาก BSDE-style dynamic policy ให้เป็นนโยบายที่ปฏิบัติได้จริง "
        "ตอบแบบ dev/data expert ทับศัพท์เทคนิค เช่น BSDE, intensity, severity, utility โดยมีตัวเลขอ้างอิงชัดเจน\n\n"
        "## โมเดล/ฮอไรซอน (Mock)\n"
        f"- Horizon: {policy['time_grid_start']} → {policy['time_grid_end']} | steps={policy['steps']}\n"
        f"- avg λ₀/ชั่วโมง: {policy['lambda0_avg_per_hour']:.4f}\n"
        f"- Severity lognormal(mu={mu:.4f}, sigma={sigma:.2f}, unit={CFG['scale']})\n"
        f"- eta(per {CFG['scale']}): {CFG['eta_per_million']}\n\n"
        "## วัตถุประสงค์ (risk-sensitive, CE of cost)\n"
        f"- baseline (u1=0,u2=0): {policy['baseline_E_exp_eta_cost']:.4f}\n"
        f"- static optimal: u1={policy['static_optimal']['u1']:.2f}, u2={policy['static_optimal']['u2']:.2f}, "
        f"objective={policy['static_optimal']['objective']:.4f}\n"
        f"- BSDE dynamic: objective={policy['bsde_dynamic']['objective']:.4f}, "
        "ได้ลำดับ u1*(t), u2*(t) ตามเวลา\n"
        f"- improvement(static→dynamic): {policy['improvement_ratio_static_vs_dyn']:.4f}\n\n"
        "## λ_t (ย่อ – 24 ชม.แรก)\n"
        f"{md_table}\n\n"
        "## โจทย์เพื่อสรุปกลยุทธ์\n"
        "- เปรียบเทียบ Static vs Dynamic ว่าควรใช้เมื่อไร พร้อม if–then rule บน threshold ของ λ_t\n"
        "- ผูกงบประมาณ 10 ล้านบาท/ปีเข้ากับ u1 (ลดความถี่) และ u2 (ลดความรุนแรง)\n"
        "- สรุป Budget Allocation ตามตัวอย่าง: "
        f"U12.1 {interventions['target_allocation']['U12.1_thb']:.0f} บาท, "
        f"U17.1 {interventions['target_allocation']['U17.1_thb']:.0f} บาท, "
        f"สำรอง {interventions['target_allocation']['RESERVE_thb']:.0f} บาท\n"
        "- ใส่เหตุผลเชิงปริมาณ: แม้บาง risk severity สูง แต่เหตุการณ์ GTG Trip เกิดถี่กว่า → expected loss สูงกว่า → u1 priority\n"
        "- ห้ามส่งโค้ด/ห้าม code fence"
    )

    client = genai.Client(api_key=API_KEY)
    resp = client.models.generate_content(model=MODEL, contents=prompt)
    text = getattr(resp, "text", str(resp)).strip()
    (OUT_DIR / "final_output_bsde.md").write_text(text, encoding="utf-8")

# เรียก pipeline (ไม่ต้องใช้ if __main__)
run_bsde_mock_and_report()