In [None]:
# # ติดตั้งก่อน (ครั้งเดียวพอ)
!pip install pytesseract pillow langchain-google-genai pymupdf transformers accelerate sentencepiece gspread gspread-dataframe bs4 PyMuPDF
!apt-get install -y tesseract-ocr tesseract-ocr-tha

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
tesseract-ocr is already the newest version (4.1.1-2.1build1).
tesseract-ocr-tha is already the newest version (1:4.00~git30-7274cfa-1.1).
0 upgraded, 0 newly installed, 0 to remove and 38 not upgraded.


# **SETTING UP**

In [None]:
import bs4
from bs4 import BeautifulSoup
import gspread
from google.colab import auth
from google.auth import default
from gspread_dataframe import get_as_dataframe,set_with_dataframe
import pytesseract
from PIL import Image
from datetime import datetime
import json
from langchain_google_genai import ChatGoogleGenerativeAI
import fitz  # PyMuPDF
import requests
import io
import re
import unicodedata
import pandas as pd
import re, json, gc, time
from collections import Counter, defaultdict
from urllib.parse import urljoin

# --- การตั้งค่า ---
GOOGLE_API_KEY = "AIzaSyBOhEb--Ri7jzOxpaRZPF-0u9T_5yLqu98"


def log_message(message):
    print(f"[{datetime.now().isoformat()}] {message}")

try:
    llm = ChatGoogleGenerativeAI(model="gemini-2.0-flash", google_api_key=GOOGLE_API_KEY)
    log_message("✅ AI Model initialized successfully.")
except Exception as e:
    log_message(f"❌ Critical Error: Failed to initialize AI model: {e}")
    print(json.dumps({"success": False, "message": f"Failed to initialize AI model: {e}"}))


def find_pdf_link_on_page(html_content, base_url):
    log_message("   - Note: Content is HTML. Searching for PDF link...")
    soup = BeautifulSoup(html_content, 'html.parser')

    for link in soup.find_all('a', href=True):
        href = link['href']
        if href.lower().endswith('.pdf'):
            return urljoin(base_url, href)

    return None

# Authenticate with Google
auth.authenticate_user()

# Authorize with Google Drive and Sheets
creds, _ = default()
gc = gspread.authorize(creds)
sheet = gc.open_by_url('https://docs.google.com/spreadsheets/d/1lLxi-ziBMBhYzcI4ilnXG4IVkcQbwzV4k9xCRzrmh_w/edit')
# Select the Lv3Law/RegulationName:กฎหมาย/กฎเกณฑ์/ประกาศ worksheet
worksheet_DBR3 = sheet.worksheet('Lv3Law/RegulationName:กฎหมาย/กฎเกณฑ์/ประกาศ')

# Step 1: Load existing data from the sheet into a DataFrame
data_DBR3 = get_as_dataframe(worksheet_DBR3).dropna(how='all') # Drop completely empty rows

[2025-10-16T00:51:20.697012] ✅ AI Model initialized successfully.


# **Read PDF(Text-Base & OCR) + Clean_output**

In [None]:
def _open_pdf(pdf_content):
    """รองรับทั้ง bytes และ path"""
    if isinstance(pdf_content, (bytes, bytearray)):
        return fitz.open(stream=pdf_content, filetype="pdf")
    elif isinstance(pdf_content, str):
        return fitz.open(pdf_content)
    else:
        raise TypeError("pdf_content ต้องเป็น bytes/bytearray หรือ path (str)")

def _page_to_pil(page, dpi=300):
    """เรนเดอร์หน้า PDF เป็น PIL.Image (ใช้ matrix เพื่อรองรับทุกเวอร์ชันของ PyMuPDF)"""
    zoom = dpi / 72.0
    mat = fitz.Matrix(zoom, zoom)
    pix = page.get_pixmap(matrix=mat, alpha=False)
    return Image.open(io.BytesIO(pix.tobytes("png")))

def extract_text_per_page_hybrid(pdf_content, langs="tha+eng", dpi=300, min_chars_page=60, ocr_psm=6):
    """
    อ่านแบบผสมรายหน้า:
      1) page.get_text("text")
      2) ถ้าสั้นกว่า min_chars_page -> OCR เฉพาะหน้านั้น
    คืนค่า: (text รวมทั้งไฟล์, "hybrid")
    """
    doc = _open_pdf(pdf_content)
    parts = []
    try:
        for i, page in enumerate(doc, start=1):
            log_message(f"     - Processing page {i}/{len(doc)}...")
            # 1) text-first
            txt = (page.get_text("text") or "").strip()

            if len(txt) < min_chars_page:
                # 2) OCR เฉพาะหน้านี้
                img = _page_to_pil(page, dpi=dpi)
                cfg = f"--oem 1 --psm {ocr_psm}"
                txt = pytesseract.image_to_string(img, lang=langs, config=cfg).strip()

            parts.append(f"\n--- Page {i} ---\n{txt}")
        full_text = "".join(parts).strip()
        log_message("✅ Extract with hybrid")
        return full_text, "hybrid"
    finally:
        doc.close()

def extract_text_with_fallback_mixed(pdf_content, min_chars_total=100, **kwargs):
    """
    Wrapper สไตล์เดิม แต่ภายในใช้ per-page hybrid
    """
    text, method = extract_text_per_page_hybrid(pdf_content, **kwargs)
    if not text or len(text) < min_chars_total:
        # เผื่อเอกสารหนักรูป/เบลอมากๆ จะลอง OCR ทุกหน้าอีกที (optional)
        text_ocr_all = ocr_whole_pdf(pdf_content, **kwargs)
        if len(text_ocr_all.strip()) > len(text.strip()):
            log_message("✅ Extract with OCR")
            return text_ocr_all, "ocr"
    log_message("✅ Extract with OCR")
    return text, method

def ocr_whole_pdf(pdf_content, langs="tha+eng", dpi=300, ocr_psm=6):
    """OCR ทุกหน้า (ใช้เมื่ออยากบังคับ OCR ทั้งไฟล์)"""
    doc = _open_pdf(pdf_content)
    out = []
    try:
        for page_num, page in enumerate(doc, start=1):
            img = _page_to_pil(page, dpi=dpi)
            cfg = f"--oem 1 --psm {ocr_psm}"
            out.append(f"\n--- Page {page_num} ---\n" + pytesseract.image_to_string(img, lang=langs, config=cfg))
            log_message(f"     - OCR processing page {page_num + 1}/{len(doc)}...")
        return "".join(out)
    finally:
        doc.close()

import re, unicodedata, io

# อักขระไทยพื้นฐาน
THAI = r"\u0E00-\u0E7F"
THAI_CONS = "กขฃคฅฆงจฉชซฌญฎฏฐฑฒณดตถทธนบปผพภมยรฤลฦวศษสหฬอฮ"

# ----- 1) รายการคำ/พยางค์ที่ 'ควรเป็น ำ' (safe list) -----
#   - จัดเฉพาะคำสั้น ๆ หรือพยางค์ต้นที่เจอบ่อยและแน่ใจว่าเป็น ำ
SAFE_AM_WORDS = {
    "ทำ", "จำ", "นำ", "ขำ", "คำ", "งำ", "ชำ", "ดำ", "ตำ",
    "รำ", "ลำ", "หำ", "อำ", "บำ", "ปำ", "ผำ", "พำ", "ภำ", "มำ", "ยำ", "วำ",
}

# พยางค์นำแบบ “สำ-” ที่มักถูก OCR เป็น “สา-” แต่ควรเป็น “สำ-” (ระวัง "สาขา")
SAFE_SAM_PREFIXES = {
    # ใส่เฉพาะส่วนหลัง “สำ” (ไม่ต้องใส่ “สำ” เอง) ที่เจอบ่อย
    "คัญ", "นัก", "รวจ", "นิท", "นวน", "รอง", "เนา", "เร็", "หรับ", "ผัส", "มะโน", "หรั", "ราญ",
    "นักงาน", "นักที่", "นักบัญชี", "นวนความ", "เนียง", "นึก", "นาก", "นาม", "นาอง"  # เติม/แก้ตามงานจริงได้
}

# ----- 2) รายการ "ยกเว้น" ที่ต้องเป็น 'า' ไม่ใช่ 'ำ' (fix over-AM) -----
#   - สำหรับคำที่มักโดน OCR เป็น ำ ทั้งที่ควรเป็น า
OVERRIDE_TO_A = {
    # ที่ผู้ใช้ยกตัวอย่าง
    "เทำ": "เทา",
    "สาขำ": "สาขา",

    # คำพื้นฐานที่พบบ่อยในเอกสารราชการ/ธุรกิจ
    "กำร": "การ",
    "ควำม": "ความ",
    "สถำ": "สถา",
    "ประกำศ": "ประกาศ",
    "ประกำศ": "ประกาศ",
    "พฤศจิกำยน": "พฤศจิกายน",
    "ตำม": "ตาม",         # เจอบ่อยมากในเอกสาร -> “ตาม”
    "หน้ำที่": "หน้าที่",  # บางครั้ง ้ เพี้ยนร่วมด้วย (ถ้าไม่อยากแตะ ให้ลบอันนี้ออก)
}

# สำหรับ “พยางค์” ภายในคำ (ไม่ใช่คำเต็ม) ที่มักเพี้ยนเป็น ำ แต่ควรเป็น า
OVERRIDE_SUBWORD_TO_A = {
    "ปฏิบัติกำร": "ปฏิบัติการ",
    "ธนำคำร": "ธนาคาร",
    "กำลัง": "กำลัง",      # ตัวอย่างคงเดิม (กันการเผลอแก้กลับ)
    "คำสั่ง": "คำสั่ง",     # คงเดิม (กันการเผลอแก้กลับ)
}

# ----- 3) regex ลัดสำหรับเคสมีช่องว่างแทรก เช่น “จ า/ท า/น า/ก าหนด” -----
#    - จัดเป็น “จำ/ทำ/นำ/กำหนด” เฉพาะเคสที่ปลอดภัยและที่ผู้ใช้เจอจริง
SPACEY_SAFE_FIXES = [
    (re.compile(rf"(?<![{THAI}])\s*จ\s*า(?![{THAI}])"), "จำ"),
    (re.compile(rf"(?<![{THAI}])\s*ท\s*า(?![{THAI}])"), "ทำ"),
    (re.compile(rf"(?<![{THAI}])\s*น\s*า(?![{THAI}])"), "นำ"),
    # “ก าหนด” → “กำหนด”
    (re.compile(r"ก\s*า(?=หนด)"), "กำ"),
]

# ตัวช่วย: รวม ํ + า → ำ
COMBINE_MAITAIKHU_A = (re.compile(r"\u0E4D\s*\u0E32"), "\u0E33")  # ํ + า → ำ

def _normalize(text: str) -> str:
    text = unicodedata.normalize("NFC", text or "")
    # รวม ํ + า → ำ
    text = re.sub(*COMBINE_MAITAIKHU_A, text)
    # เก็บกวาดช่องว่างซ้ำ
    text = re.sub(r"[ \t]{2,}", " ", text)
    text = re.sub(r"\n[ \t]+", "\n", text)
    return text

def _apply_spacey_safe_fixes(text: str) -> str:
    for rx, rep in SPACEY_SAFE_FIXES:
        text = rx.sub(rep, text)
    return text

def _apply_safe_am_words(text: str) -> str:
    # แก้เฉพาะ “คำสั้นๆ” ที่อยู่โดด ๆ:  (จ\s*า) → จำ   (มีขอบเขตคำแบบหยาบ)
    for w in SAFE_AM_WORDS:
        cons = w[0]
        # จับทั้งแบบมีช่องว่าง “จ า” และไม่มีช่องว่าง “จา” เมื่อเป็น ‘คำโดด’
        # \b แบบ unicode ไม่นิ่งกับไทย ใช้ lookaround แทน
        pat = re.compile(rf"(?<![{THAI}]){cons}\s*า(?![{THAI}])")
        text = pat.sub(w, text)
    return text

def _apply_safe_sam_prefix(text: str) -> str:
    # แก้เฉพาะ “สา + <prefix จากลิสต์>” → “สำ + <prefix>”
    for tail in sorted(SAFE_SAM_PREFIXES, key=len, reverse=True):
        pat = re.compile(rf"ส\s*า\s*{re.escape(tail)}")
        text = pat.sub(f"สำ{tail}", text)
    return text

def _apply_overrides(text: str) -> str:
    # ยกเว้นแบบ “ทั้งคำ”
    for wrong, right in OVERRIDE_TO_A.items():
        # ยกเว้นแบบคำเต็ม (ขอบเขตโดยใช้ lookaround)
        pat = re.compile(rf"(?<![{THAI}]){re.escape(wrong)}(?![{THAI}])")
        text = pat.sub(right, text)
    # ยกเว้นแบบ “ซับเวิร์ด” (แก้เป็นรายวลี)
    for wrong, right in OVERRIDE_SUBWORD_TO_A.items():
        text = text.replace(wrong, right)
    return text

def fix_thai_ocr(text: str) -> str:
    """
    กลยุทธ์:
      1) normalize + รวม ํ+า → ำ
      2) แก้เคสมีช่องว่างแทรก (จ า/ท า/น า/ก าหนด)
      3) เติม 'ำ' ให้คำ/พยางค์ที่ควรเป็น ำ (safe only)
      4) เติม 'สำ-' ให้ prefix ที่ whitelist ไว้
      5) ยกเว้น: แก้คำที่โดนใส่ ำ เกินเหตุ → กลับเป็น 'า'
    """
    if not text:
        return text

    text = _normalize(text)

    # 2) เคสมีช่องว่างแทรก
    text = _apply_spacey_safe_fixes(text)

    # 3) เติม ำ ให้คำสั้นๆที่รู้ว่าใช่แน่
    text = _apply_safe_am_words(text)

    # 4) เติม “สำ-” ให้พยางค์นำที่ whitelist (เลี่ยง “สาขา” เพราะไม่อยู่ในลิสต์)
    text = _apply_safe_sam_prefix(text)

    # 5) คำยกเว้นที่ต้องกลับเป็น 'า'
    text = _apply_overrides(text)

    return text

# **Multiple llm**

In [None]:
import os
import re
import json
import time
import random
from datetime import datetime
from typing import List, Tuple, Optional, Dict, Any
from langchain_google_genai import ChatGoogleGenerativeAI

# ====== CONFIG ======
FALLBACK_MODELS = [
    "gemini-2.5-flash",       # ตัวหลัก เริ่มจากตัวนี้เสมอทุกครั้งที่เรียก
    "gemini-2.5-flash-lite",
    "gemini-2.0-flash"
]
DEFAULT_MAX_RETRIES_PER_MODEL = 1         # เราเลือกลองสั้น ๆ แล้วข้ามไปตัวถัดไป
DEFAULT_GLOBAL_TIMEOUT_SEC = 180

def log_message(msg: str):
    print(f"[{datetime.now().isoformat()}] {msg}")

# ====== ERROR / RETRY HELPERS ======
def parse_retry_delay_seconds(error_text: str) -> Optional[int]:
    m = re.search(r"retry_delay\s*\{\s*seconds:\s*(\d+)", error_text)
    if m: return int(m.group(1))
    m = re.search(r'"retry_delay"\s*:\s*\{\s*"seconds"\s*:\s*(\d+)', error_text)
    if m: return int(m.group(1))
    try:
        d = json.loads(error_text)
        if isinstance(d, dict):
            rd = d.get("retry_delay") or {}
            secs = rd.get("seconds")
            if isinstance(secs, int): return secs
    except Exception:
        pass
    return None

def is_quota_or_rate_limit_error(e: Exception) -> bool:
    txt = str(e)
    keys = ["429", "ResourceExhausted", "rate limit", "quota", "exceeded"]
    return any(k.lower() in txt.lower() for k in keys)

# ====== COOLDOWN REGISTRY (ข้ามคำสั่งเรียกได้ในโปรเซสเดียว) ======
_MODEL_COOLDOWN_UNTIL: Dict[str, float] = {}

def _now() -> float:
    return time.time()

def _is_on_cooldown(model: str) -> bool:
    return _MODEL_COOLDOWN_UNTIL.get(model, 0) > _now()

def _set_cooldown(model: str, seconds: float):
    _MODEL_COOLDOWN_UNTIL[model] = max(_MODEL_COOLDOWN_UNTIL.get(model, 0), _now() + seconds)

def _soonest_cooldown_remaining(models: List[str]) -> float:
    if not models: return 0
    t = min((_MODEL_COOLDOWN_UNTIL.get(m, 0) for m in models), default=0)
    remain = t - _now()
    return remain if remain > 0 else 0

# ====== LLM INIT (ครั้งที่ต้องการ instance ถาวร) ======
def init_llm_with_fallback(api_key: str, models: List[str] = FALLBACK_MODELS) -> Tuple[ChatGoogleGenerativeAI, str]:
    last_err = None
    for model in models:
        try:
            llm = ChatGoogleGenerativeAI(model=model, google_api_key=api_key)
            log_message(f"✅ Initialized model: {model}")
            return llm, model
        except Exception as e:
            last_err = e
            log_message(f"⚠️ Init failed for {model}: {e}")
    raise RuntimeError(f"❌ No available model. Last error: {last_err}")

# ====== CIRCULAR INVOKE (เริ่มที่ตัวหลักเสมอ + คูลดาวน์ + วนลูป) ======
def circular_invoke_with_cooldown(
    api_key: str,
    prompt: str,
    models: List[str] = FALLBACK_MODELS,
    max_retries_per_model: int = DEFAULT_MAX_RETRIES_PER_MODEL,
    global_timeout_sec: int = DEFAULT_GLOBAL_TIMEOUT_SEC,
    no_model_sleep_floor: float = 1.5,
    no_model_sleep_cap: float = 30.0,
):
    """
    พฤติกรรม:
      - ทุกครั้งเริ่มจาก models[0] เสมอ (ตัวหลัก)
      - ถ้าเจอโควต้า/429 แล้วมี retry_delay → set cooldown ให้โมเดลนั้น แล้ว 'ข้ามไปตัวถัดไป'
      - ถ้าลองครบทุกตัวและทุกตัวอยู่ในคูลดาวน์ → รอจนตัวที่ใกล้หมดคูลดาวน์ที่สุด (ไม่ต่ำกว่า floor และไม่เกิน cap) แล้วเริ่มใหม่จากตัวหลัก
      - เกิน global timeout → โยน TimeoutError
    """
    start = time.time()
    last_error = None
    n = len(models)

    def _try_model(m: str):
        nonlocal last_error
        if _is_on_cooldown(m):
            return None, "cooldown"

        try:
            llm = ChatGoogleGenerativeAI(model=m, google_api_key=api_key)
        except Exception as e:
            last_error = e
            log_message(f"⚠️ Cannot init {m}: {e}")
            _set_cooldown(m, 5)  # กันลูป
            return None, "init-fail"

        for attempt in range(1, max_retries_per_model + 1):
            if time.time() - start > global_timeout_sec:
                raise TimeoutError("⏱️ Global timeout exceeded")
            try:
                log_message(f"🎯 Using model: {m} (attempt {attempt})")
                resp = llm.invoke(prompt)
                return resp, "ok"
            except Exception as e:
                last_error = e
                if is_quota_or_rate_limit_error(e):
                    delay = parse_retry_delay_seconds(str(e))
                    if delay is None:
                        delay = min(2 ** (attempt - 1), 16) + random.uniform(0, 0.5)
                    _set_cooldown(m, delay)
                    log_message(f"⏳ {m} quota/rate-limit → cooldown {delay:.1f}s, move on")
                    return None, "rate-limit"
                else:
                    log_message(f"❌ {m} non-rate-limit error: {e}")
                    _set_cooldown(m, 3)
                    return None, "non-quota-error"
        return None, "exhausted"

    while True:
        if time.time() - start > global_timeout_sec:
            raise TimeoutError(f"⏱️ Global timeout exceeded. Last error: {last_error}")

        made_any_attempt = False
        for m in models:  # เริ่มจากตัวแรกเสมอ
            resp, status = _try_model(m)
            if status == "ok":
                return resp, m
            if status != "cooldown":
                made_any_attempt = True

        if not made_any_attempt:
            wait_for = _soonest_cooldown_remaining(models)
            wait_for = max(wait_for, no_model_sleep_floor)
            wait_for = min(wait_for, no_model_sleep_cap)
            log_message(f"😴 all models cooling down → sleep {wait_for:.1f}s")
            time.sleep(wait_for)
        else:
            # มีความพยายามแล้วแต่ยังไม่สำเร็จ → วนใหม่เริ่มที่ตัวหลัก
            continue

# ====== JSON-SAFE WRAPPER (ใช้ circular fallback) ======
def _clean_json_block(text: str) -> str:
    cleaned = text.strip()
    cleaned = cleaned.replace("```json", "```").strip()
    cleaned = cleaned.strip("`").strip()
    if cleaned.lower().startswith("json"):
        cleaned = cleaned[4:].strip()
    return cleaned

def call_llm_json_with_circular_fallback(api_key: str, prompt: str):
    resp, model_used = circular_invoke_with_cooldown(api_key, prompt)
    raw = resp.content if hasattr(resp, "content") else str(resp)
    cleaned = _clean_json_block(raw)
    try:
        return json.loads(cleaned), model_used
    except Exception as e:
        raise ValueError(
            f"JSON parse failed from model {model_used}: {e}\nRaw (first 600 chars): {cleaned[:600]}"
        )

# ====== CHUNKING ======
def split_into_chunks(text: str, max_chars: int = 7000, overlap: int = 300) -> List[str]:
    chunks = []
    start = 0
    n = len(text)
    while start < n:
        end = min(start + max_chars, n)
        chunks.append(text[start:end])
        if end >= n:
            break
        start = max(0, end - overlap)
    return chunks

# ====== PROMPTS LV3 ======
MAP_PROMPT_LV3 = """คุณคือผู้ช่วยสกัดข้อมูลกฎหมาย/ประกาศ จงอ่านข้อความต่อไปนี้แล้วสกัดข้อมูลเป็น JSON เท่านั้น

--- TEXT START ---
{chunk}
--- TEXT END ---

จงตอบกลับเป็น JSON object ที่มีคีย์ดังนี้:
  - "Law/Regulation Name": เลขของประกาศตามด้วย เรื่องของประกาศ (เช่น การปรับปรุงหลักเกณฑ์...)
  - "Source Type": ประเภทของประกาศ (ระบุได้แค่ "กฎเกณฑ์" หรือ "กฎหมาย" เท่านั้น)
  - "Regulator Name": หน่วยงานที่ออกประกาศ (เช่น ธนาคารแห่งประเทศไทย, สำนักงาน ก.ล.ต.)
  - "วันที่ประกาศ": วันที่ประกาศ (ถ้าไม่พบ ให้ระบุว่า "ไม่ระบุ")
  - "วันที่มีผลบังคับใช้": วันที่มีผลบังคับใช้ (ถ้าไม่พบ ให้ระบุว่า "ไม่ระบุ")
  - "วัตถุประสงค์ของกฎหมาย/กฎเกณฑ์/ประกาศ": สรุปสาระสำคัญของประกาศ
  - "สรุปสาระสำคัญที่เปลี่ยนแปลง": สรุปสาระสำคัญที่มีการเปลี่ยนแปลง (สรุปเป็นข้อๆ ถ้ามี)
  - "ผลกระทบ/สิ่งที่ธนาคารต้องดาเนินการ":(ระบุได้แค่ "มีผลกระทบ/มีสิ่งที่ธนาคารต้องดาเนินการ", "ไม่มีผลกระทบ/ไม่มีสิ่งที่ธนาคารต้องดำเนินการ" หรือ "ธนาคารยังไม่มีธุรกิจ/ธุรกรรม" เท่านั้น)
  - "รายละเอียดผลกระทบ/สิ่งที่ธนาคารต้องดำเนินการ (เมื่อมีผลกระทบ/มีสิ่งที่ธนาคารต้องดาเนินการ)":ระบุรายละเอียดผลกระทบ/สิ่งที่ธนาคารต้องดำเนินการ เมื่อมีผลกระทบ/มีสิ่งที่ธนาคารต้องดาเนินการ
ข้อกำหนด:
- ถ้าไม่พบข้อมูลบางคีย์ ให้ใส่ "ไม่พบข้อมูล"
- ต้องเป็น JSON ที่ parse ได้เท่านั้น ห้ามมีข้อความอื่นปะปน
"""

# ====== PROMPTS LV4======
MAP_PROMPT_LV4 = """คุณคือผู้ช่วยสกัดข้อมูลกฎหมาย/ประกาศ จงอ่านข้อความต่อไปนี้แล้วสกัดข้อมูลเป็น JSON เท่านั้น

--- TEXT START ---
{chunk}
--- TEXT END ---

จงตอบกลับเป็น JSON object ที่มีคีย์ดังนี้:
  - "Law/Regulation Name": เลขของประกาศตามด้วย เรื่องของประกาศ (เช่น การปรับปรุงหลักเกณฑ์...)
  - "Citation Name": หลักเกณฑ์ในประกาศ (สรุปเป็นข้อๆ ถ้ามี ถ้าไม่พบ ให้ระบุว่า 'ไม่ระบุ')
  - "Citation Description": รายละเอียดของหลักเกณฑ์ (ถ้ามีระบุ)
  - "วันที่กฎหมาย/กฎเกณฑ์กำหนดให้ดาเนินการแล้วเสร็จ": วันที่กฎหมาย/กฎเกณฑ์กาหนดให้ดาเนินการแล้วเสร็จ
  - "โทษ/ผลกระทบกรณีไม่ปฏิบัติตามกฎหมาย/กฎเกณฑ์": (ระบุได้แค่ "Composite Rating", " โทษปรับ", "โทษอาญา/จำคุก", "ระงับใบอนุญาตประกอบธุรกิจชั่วคราว", "ยกเลิก/เพิกถอนใบอนุญาตประกอบธุรกิจ", "ไม่มีโทษ/ผลกระทบ" หรือ "อื่นๆ" เท่านั้น)
  - "โทษปรับสูงสุด (เมื่อเลือกโทษ/ผลกระทบกรณีไม่ปฏิบัติตามกฎหมาย/กฎเกณฑ์ เป็น "โทษปรับ")": โทษปรับสูงสุด (เมื่อเลือกโทษ/ผลกระทบกรณีไม่ปฏิบัติตามกฎหมาย/กฎเกณฑ์ เป็น "โทษปรับ") (ถ้าไม่พบ ให้ระบุว่า "ไม่ระบุ")
  - "โทษปรับรายวัน (เมื่อเลือกโทษ/ผลกระทบกรณีไม่ปฏิบัติตามกฎหมาย/กฎเกณฑ์ เป็น "โทษปรับ")": โทษปรับรายวัน (เมื่อเลือกโทษ/ผลกระทบกรณีไม่ปฏิบัติตามกฎหมาย/กฎเกณฑ์ เป็น "โทษปรับ") (ถ้าไม่พบ ให้ระบุว่า "ไม่ระบุ")
  - "โทษจำคุกสูงสุด (เมื่อเลือกโทษ/ผลกระทบกรณีไม่ปฏิบัติตามกฎหมาย/กฎเกณฑ์ เป็น "โทษอาญา/จำคุก ")": โทษจำคุกสูงสุด (เดือน) (เมื่อเลือกโทษ/ผลกระทบกรณีไม่ปฏิบัติตามกฎหมาย/กฎเกณฑ์ เป็น "โทษอาญา/จำคุก ") (ถ้าไม่พบ ให้ระบุว่า "ไม่ระบุ")
  - "โทษจำคุกสูงสุด (เมื่อเลือกโทษ/ผลกระทบกรณีไม่ปฏิบัติตามกฎหมาย/กฎเกณฑ์ เป็น "โทษอาญา/จำคุก ")": โทษจำคุกสูงสุด (ปี) (เมื่อเลือกโทษ/ผลกระทบกรณีไม่ปฏิบัติตามกฎหมาย/กฎเกณฑ์ เป็น "โทษอาญา/จำคุก ") (ถ้าไม่พบ ให้ระบุว่า "ไม่ระบุ")
  - "สิ่งที่ Risk Owner ต้องดำเนินการ": (ระบุได้แค่ "ประเมิน Gap Analysis และจัดทำ Action Plan (ถ้ามี)", "ทบทวน Gap Analysis และ/หรือ Action Plan เนื่องจากมีการเปลี่ยนแปลง/ยกเลิกกฎเกณฑ์" หรือ "ไม่ต้องดำเนินการ" เท่านั้น)

ข้อกำหนด:
- ถ้าไม่พบข้อมูลบางคีย์ ให้ใส่ "ไม่พบข้อมูล"
- ต้องเป็น JSON ที่ parse ได้เท่านั้น ห้ามมีข้อความอื่นปะปน
"""

REDUCE_PROMPT = """รวมผล JSON หลายชิ้นให้เป็น JSON เดียว โดยคง schema เดิมทุก Keys
กฏการรวม:
- สำหรับฟิลด์ตัวอักษร: เลือกค่าที่ให้ภาพรวมดีที่สุด ถ้าหลายค่าไม่ขัดแย้งให้รวมสั้น ๆ เป็นข้อความเดียว
- สำหรับ list เช่น "Citation Name", "Citation Description", "สรุปสาระสำคัญที่เปลี่ยนแปลง", "รายละเอียดผลกระทบ/สิ่งที่ธนาคารต้องดำเนินการ (เมื่อมีผลกระทบ/มีสิ่งที่ธนาคารต้องดาเนินการ)"
  รวมและลบรายการซ้ำ
- สรุปใจความสำคัญของแต่ละ Field อีกครั้งเพื่อความกระชับ และเพื่อประหยัดพื้นที่ในการจัดเก็บ
- ถ้าฟิลด์ใดทั้งหมดเป็น "ไม่พบข้อมูล" ให้คง "ไม่พบข้อมูล"

จงตอบกลับเป็น JSON เท่านั้น

--- PARTS START ---
{parts}
--- PARTS END ---
"""

def merge_lists_unique(*lists) -> List[str]:
    out = []
    seen = set()
    for lst in lists:
        if isinstance(lst, list):
            for item in lst:
                if isinstance(item, str):
                    key = item.strip()
                    if key and key not in seen:
                        seen.add(key)
                        out.append(key)
    return out

def reduce_chunks(parts: List[Dict[str, Any]]) -> Dict[str, Any]:
    fields_text = [
        "Law/Regulation Name",
        "Source Type",
        "Regulator Name",
        "Sequenced Number of Regulation",
        "Effective Date",
        "Objectives of the Law/Regulation/Announcements",
        "Citation Description",
    ]
    fields_list = [
        "Summary of Important Changes",
        "Citation Name",
        "สิ่งที่ธนาคารต้องดำเนินการ",
    ]

    agg: Dict[str, Any] = {k: "ไม่พบข้อมูล" for k in fields_text}
    for k in fields_list:
        agg[k] = []

    candidates: Dict[str, List[str]] = {k: [] for k in fields_text}

    for p in parts:
        for k in fields_text:
            v = p.get(k)
            if isinstance(v, str) and v.strip() and v.strip() != "ไม่พบข้อมูล":
                candidates[k].append(v.strip())
        for k in fields_list:
            v = p.get(k)
            if isinstance(v, list):
                agg[k] = merge_lists_unique(agg[k], v)

    for k in fields_text:
        if candidates[k]:
            agg[k] = max(candidates[k], key=len)
    return agg

# ====== CASE 1: ข้อความสั้น → ขอ JSON ตรง ๆ (ใช้วงกลม) ======
def get_structured_data_from_ai(text: str) -> Dict[str, Any]:
    prompt_LV3 = f"""
    วิเคราะห์ข้อความจากเอกสารกฎหมายต่อไปนี้ และสกัดข้อมูลเพื่อเติมลงในช่องว่างเพื่อจัดเก็บประกาศ:

    --- TEXT START ---
    {text}
    --- TEXT END ---

  จงตอบกลับเป็น JSON object ที่มีคีย์ดังนี้:
  - "Law/Regulation Name": เลขของประกาศตามด้วย เรื่องของประกาศ (เช่น การปรับปรุงหลักเกณฑ์...)
  - "Source Type": ประเภทของประกาศ (ระบุได้แค่ "กฎเกณฑ์" หรือ "กฎหมาย" เท่านั้น)
  - "Regulator Name": หน่วยงานที่ออกประกาศ (เช่น ธนาคารแห่งประเทศไทย, สำนักงาน ก.ล.ต.)
  - "วันที่ประกาศ": วันที่ประกาศ (ถ้าไม่พบ ให้ระบุว่า "ไม่ระบุ")
  - "วันที่มีผลบังคับใช้": วันที่มีผลบังคับใช้ (ถ้าไม่พบ ให้ระบุว่า "ไม่ระบุ")
  - "วัตถุประสงค์ของกฎหมาย/กฎเกณฑ์/ประกาศ": สรุปสาระสำคัญของประกาศ
  - "สรุปสาระสำคัญที่เปลี่ยนแปลง": สรุปสาระสำคัญที่มีการเปลี่ยนแปลง (สรุปเป็นข้อๆ ถ้ามี)
  - "ผลกระทบ/สิ่งที่ธนาคารต้องดาเนินการ":(ระบุได้แค่ "มีผลกระทบ/มีสิ่งที่ธนาคารต้องดำเนินการ", "ไม่มีผลกระทบ/ไม่มีสิ่งที่ธนาคารต้องดำเนินการ" หรือ "ธนาคารยังไม่มีธุรกิจ/ธุรกรรม" เท่านั้น)
  - "รายละเอียดผลกระทบ/สิ่งที่ธนาคารต้องดำเนินการ (เมื่อมีผลกระทบ/มีสิ่งที่ธนาคารต้องดาเนินการ)":ระบุรายละเอียดผลกระทบ/สิ่งที่ธนาคารต้องดำเนินการ เมื่อมีผลกระทบ/มีสิ่งที่ธนาคารต้องดาเนินการ
ข้อกำหนด:
- ถ้าไม่พบข้อมูลบางคีย์ ให้ใส่ "ไม่พบข้อมูล"
- ต้องเป็น JSON ที่ parse ได้เท่านั้น ห้ามมีข้อความอื่นปะปน
"""
    prompt_LV4 = f"""
    วิเคราะห์ข้อความจากเอกสารกฎหมายต่อไปนี้ และสกัดข้อมูลเพื่อเติมลงในช่องว่างเพื่อจัดเก็บประกาศ:

    --- TEXT START ---
    {text}
    --- TEXT END ---

  จงตอบกลับเป็น JSON object ที่มีคีย์ดังนี้:
  - "Law/Regulation Name": เลขของประกาศตามด้วย เรื่องของประกาศ (เช่น การปรับปรุงหลักเกณฑ์...)
  - "Citation Name": หลักเกณฑ์ในประกาศ (สรุปเป็นข้อๆ ถ้ามี ถ้าไม่พบ ให้ระบุว่า 'ไม่ระบุ')
  - "Citation Description": รายละเอียดของหลักเกณฑ์ (ถ้ามีระบุ)
  - "วันที่กฎหมาย/กฎเกณฑ์กำหนดให้ดาเนินการแล้วเสร็จ": วันที่กฎหมาย/กฎเกณฑ์กาหนดให้ดาเนินการแล้วเสร็จ
  - "โทษ/ผลกระทบกรณีไม่ปฏิบัติตามกฎหมาย/กฎเกณฑ์": (ระบุได้แค่ "Composite Rating", " โทษปรับ", "โทษอาญา/จำคุก", "ระงับใบอนุญาตประกอบธุรกิจชั่วคราว", "ยกเลิก/เพิกถอนใบอนุญาตประกอบธุรกิจ", "ไม่มีโทษ/ผลกระทบ" หรือ "อื่นๆ" เท่านั้น)
  - "โทษปรับสูงสุด (เมื่อเลือกโทษ/ผลกระทบกรณีไม่ปฏิบัติตามกฎหมาย/กฎเกณฑ์ เป็น "โทษปรับ")": โทษปรับสูงสุด (เมื่อเลือกโทษ/ผลกระทบกรณีไม่ปฏิบัติตามกฎหมาย/กฎเกณฑ์ เป็น "โทษปรับ") (ถ้าไม่พบ ให้ระบุว่า "ไม่ระบุ")
  - "โทษปรับรายวัน (เมื่อเลือกโทษ/ผลกระทบกรณีไม่ปฏิบัติตามกฎหมาย/กฎเกณฑ์ เป็น "โทษปรับ")": โทษปรับรายวัน (เมื่อเลือกโทษ/ผลกระทบกรณีไม่ปฏิบัติตามกฎหมาย/กฎเกณฑ์ เป็น "โทษปรับ") (ถ้าไม่พบ ให้ระบุว่า "ไม่ระบุ")
  - "โทษจำคุกสูงสุด (เมื่อเลือกโทษ/ผลกระทบกรณีไม่ปฏิบัติตามกฎหมาย/กฎเกณฑ์ เป็น "โทษอาญา/จำคุก ")": โทษจำคุกสูงสุด (เดือน) (เมื่อเลือกโทษ/ผลกระทบกรณีไม่ปฏิบัติตามกฎหมาย/กฎเกณฑ์ เป็น "โทษอาญา/จำคุก ") (ถ้าไม่พบ ให้ระบุว่า "ไม่ระบุ")
  - "โทษจำคุกสูงสุด (เมื่อเลือกโทษ/ผลกระทบกรณีไม่ปฏิบัติตามกฎหมาย/กฎเกณฑ์ เป็น "โทษอาญา/จำคุก ")": โทษจำคุกสูงสุด (ปี) (เมื่อเลือกโทษ/ผลกระทบกรณีไม่ปฏิบัติตามกฎหมาย/กฎเกณฑ์ เป็น "โทษอาญา/จำคุก ") (ถ้าไม่พบ ให้ระบุว่า "ไม่ระบุ")
  - "สิ่งที่ Risk Owner ต้องดำเนินการ": (ระบุได้แค่ "ประเมิน Gap Analysis และจัดทำ Action Plan (ถ้ามี)", "ทบทวน Gap Analysis และ/หรือ Action Plan เนื่องจากมีการเปลี่ยนแปลง/ยกเลิกกฎเกณฑ์" หรือ "ไม่ต้องดำเนินการ" เท่านั้น)

ข้อกำหนด:
- ถ้าไม่พบข้อมูลบางคีย์ ให้ใส่ "ไม่พบข้อมูล"
- ต้องเป็น JSON ที่ parse ได้เท่านั้น ห้ามมีข้อความอื่นปะปน
"""

    data_LV3, model_used = call_llm_json_with_circular_fallback(GOOGLE_API_KEY, prompt_LV3)
    data_LV4, model_used = call_llm_json_with_circular_fallback(GOOGLE_API_KEY, prompt_LV4)
    log_message(f"✅ Short-text processed by {model_used}")
    return data_LV3,data_LV4

# ====== CASE 2: ข้อความยาว → map-reduce (ใช้วงกลมในแต่ละ chunk) ======
def get_structured_data_from_ai_large(text: str, max_chars=7000, overlap=500) -> Dict[str, Any]:
    map_results_LV3 = []
    map_results_LV4 = []
    for i, chunk in enumerate(split_into_chunks(text, max_chars=max_chars, overlap=overlap), start=1):
        prompt_LV3 = MAP_PROMPT_LV3.format(chunk=chunk)
        try:
            data_LV3, model_used_LV3 = call_llm_json_with_circular_fallback(GOOGLE_API_KEY, prompt_LV3)
            data_LV3["chunk_id"] = i
            data_LV3["_model"] = model_used_LV3
            map_results_LV3.append(data_LV3)

            log_message(f"🧩 mapped chunk {i} via {model_used_LV3}")
        except Exception as e:
            log_message(f"❌ chunk {i} error: {e}")
            map_results_LV4.append({"chunk_id": i, "error": str(e)})

        prompt_LV4 = MAP_PROMPT_LV4.format(chunk=chunk)
        try:
            data_LV4, model_used_LV4 = call_llm_json_with_circular_fallback(GOOGLE_API_KEY, prompt_LV4)
            data_LV4["chunk_id"] = i
            data_LV4["_model"] = model_used_LV4
            map_results_LV4.append(data_LV4)
            log_message(f"🧩 mapped chunk {i} via {model_used_LV4}")
        except Exception as e:
            log_message(f"❌ chunk {i} error: {e}")
            map_results_LV4.append({"chunk_id": i, "error": str(e)})

    clean_results_LV3 = [x for x in map_results_LV3 if "error" not in x]
    if not clean_results_LV3:
        return {"error": "AI ไม่สามารถสกัดข้อมูลได้เลย"}

    merged_LV3 = reduce_chunks(clean_results_LV3)

    clean_results_LV4 = [x for x in map_results_LV4 if "error" not in x]
    if not clean_results_LV4:
        return {"error": "AI ไม่สามารถสกัดข้อมูลได้เลย"}

    merged_LV4 = reduce_chunks(clean_results_LV4)

    # OPTIONAL: ให้ LLM ช่วยรวมขั้นสุดท้าย
    try:
        reduce_prompt_LV3 = REDUCE_PROMPT.format(parts=json.dumps(clean_results_LV3, ensure_ascii=False, indent=2))
        final_json_LV3, model_used_LV3 = call_llm_json_with_circular_fallback(GOOGLE_API_KEY, reduce_prompt)
        log_message(f"✅ Reduced via {model_used_LV3}")
        reduce_prompt_LV4 = REDUCE_PROMPT.format(parts=json.dumps(clean_results_LV4, ensure_ascii=False, indent=2))
        final_json_LV4, model_used_LV4 = call_llm_json_with_circular_fallback(GOOGLE_API_KEY, reduce_prompt)
        return final_json_LV3,final_json_LV4
    except Exception as e:
        log_message(f"⚠️ Reduce by LLM failed, fallback to programmatic merge: {e}")
        return merged_LV3,merged_LV4

# ====== CASE SELECTOR ======
def extract_structured_data(text: str, *, llm=None, threshold: int = 8000) -> Dict[str, Any]:
    if len(text) <= threshold:
        return get_structured_data_from_ai(text)
    else:
        return get_structured_data_from_ai_large(text)

# **Converse Json to PD**


In [None]:
import json
import pandas as pd
from typing import Any, Dict, List

# --- ตัวช่วยหลัก: แปลงค่าเป็นสตริงปลอดภัยสำหรับใส่ชีต ---
def _to_safe_str(x: Any) -> str:
    """แปลงค่าให้เป็นสตริงปลอดภัย: None -> "", dict -> JSON, อย่างอื่น -> str().strip()"""
    if x is None:
        return ""
    if isinstance(x, dict):
        # serialize dict เป็น JSON เพื่อเลี่ยงการ .strip() กับ dict
        return json.dumps(x, ensure_ascii=False)
    return str(x).strip()

def _to_sheet_bullets_formula(items: List[Any]) -> str:
    """
    แปลง list ให้เป็นสูตร Google Sheet แบบขึ้นบรรทัด:
    ="• ข้อ1" & CHAR(10) & "• ข้อ2"
    """
    # แปลงทุกรายการเป็นข้อความเรียบก่อน
    parts = [f'• {_to_safe_str(it)}' for it in items]
    # ต่อด้วย " & CHAR(10) & "
    return '="' + '" & CHAR(10) & "'.join(parts) + '"'

def _to_sheet_cell(x: Any, bullets_as_formula: bool = False) -> str:
    """
    แปลงค่าหนึ่งช่องให้เหมาะกับ Google Sheet:
    - None -> ""
    - list -> bullet:
        * ถ้า bullets_as_formula=True -> สูตร ="• ..." & CHAR(10) & ...
        * ถ้า False -> ข้อความหลายบรรทัดด้วย \n (ชีตจะแสดงเมื่อเปิด Wrap)
    - dict -> JSON string
    - อื่นๆ -> string.strip()
    """
    if x is None:
        return ""
    if isinstance(x, list):
        if len(x) == 0:
            return ""
        if bullets_as_formula:
            return _to_sheet_bullets_formula(x)
        # เป็นข้อความหลายบรรทัดธรรมดา (ต้องเปิด Wrap ในชีต)
        return "\n".join([f'• {_to_safe_str(it)}' for it in x])
    if isinstance(x, dict):
        return json.dumps(x, ensure_ascii=False)
    return str(x).strip()

# --- ฟังก์ชัน normalize record ตาม REQUIRED_KEYS ---
def _normalize_record(rec: dict, REQUIRED_KEYS: List[str], bullets_as_formula: bool = True) -> Dict[str, str]:
    """
    - ให้ครบทุกคีย์ (ถ้าไม่มีให้ใส่ "")
    - ถ้าค่าเป็น list ให้รวมเป็นบรรทัดละข้อด้วย '•'
      * ถ้า bullets_as_formula=True จะได้เป็นสูตรชีต ="…" & CHAR(10) & "…"
      * ถ้า False จะเป็นข้อความหลายบรรทัดคั่นด้วย \n
    - ค่าประเภทอื่นแปลงเป็นสตริงปลอดภัย
    """
    out: Dict[str, str] = {}
    for k in REQUIRED_KEYS:
        v = rec.get(k, "")
        out[k] = _to_sheet_cell(v, bullets_as_formula=bullets_as_formula)
    return out

# --- ตัวหลักที่คุณเรียกใช้ใน main ---
def json_to_dataframe(data: Any, required_keys: List[str] = None, bullets_as_formula: bool = True) -> pd.DataFrame:
    """
    รับได้ทั้ง dict เดียว หรือ list ของ dicts
    - รวมคีย์ทั้งหมด หรือใช้ required_keys ที่กำหนด
    - บังคับค่าส่งออกเป็นสตริงที่ปลอดภัยต่อการอัปโหลดขึ้นชีต
    """
    # จัดให้อยู่ในรูป list ของแถว
    rows: List[dict]
    if isinstance(data, list):
        rows = data
    elif isinstance(data, dict):
        rows = [data]
    else:
        # ถ้า AI คืนอย่างอื่นมา (เช่น string) ก็ห่อเป็นคอลัมน์เดียว
        rows = [{"value": data}]

    # รวมคีย์ทั้งหมดถ้าไม่ได้กำหนด REQUIRED_KEYS
    if required_keys is None:
        keyset = set()
        for r in rows:
            if isinstance(r, dict):
                keyset.update(r.keys())
        REQUIRED_KEYS = sorted(keyset) if keyset else ["value"]
    else:
        REQUIRED_KEYS = list(required_keys)

    # normalize ทุกแถว
    norm_rows: List[Dict[str, str]] = []
    for r in rows:
        if not isinstance(r, dict):
            r = {"value": r}
        norm_rows.append(_normalize_record(r, REQUIRED_KEYS, bullets_as_formula=bullets_as_formula))

    df = pd.DataFrame(norm_rows, columns=REQUIRED_KEYS)

    # กันเหนียว: แปลงทุกช่องเป็น string อีกชั้น เผื่อมีหลุด
    df = df.applymap(lambda x: "" if x is None else str(x))
    return df

# **Main Function**

In [None]:
def main(initial_url, llm=llm):
    log_message(f"🚀 Starting PDF processing for URL: {initial_url}")
    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
        }

        log_message(" - Stage: Checking initial URL content type...")
        response = requests.get(initial_url, timeout=30, headers=headers, stream=True)
        response.raise_for_status()

        content_type = response.headers.get('Content-Type', '').lower()
        pdf_content = None

        if 'text/html' in content_type:
            log_message("   - Note: Content is HTML. Searching for PDF link...")
            html_content = response.content
            found_url = find_pdf_link_on_page(html_content, initial_url)

            if found_url:
                pdf_url = found_url
                log_message(f"   - ✔️ Found PDF link: {pdf_url}. Downloading...")
                pdf_response = requests.get(pdf_url, timeout=30, headers=headers)
                pdf_response.raise_for_status()
                pdf_content = pdf_response.content
            else:
                raise ValueError("ไม่สามารถค้นหาลิงก์ PDF ในหน้าเว็บที่ระบุได้")

        elif 'application/pdf' in content_type or 'application/octet-stream' in content_type:
            log_message(f"   - Note: Direct download link found (Content-Type: {content_type}). Downloading content...")
            pdf_content = response.content
        else:
            raise ValueError(f"Unsupported Content-Type: {content_type}")

        log_message(" - ✔️ PDF content acquired.")

        text, method = extract_text_with_fallback_mixed(pdf_content)
        log_message(f" - ✔️ Text extracted with Method: {method}")

        Processed_text=fix_thai_ocr(text)
        log_message(f" - ✔️ Clean the output text")

        structured_data_LV3,structured_data_LV4 = extract_structured_data(Processed_text,llm=llm)
        log_message("✅ Getting Answer LV3 from llm")

        # structured_data_LV4 = extract_structured_data_LV4(Processed_text,llm=llm)
        # structured_data=json_to_dataframe(data)
        if "error" in structured_data_LV3:
             raise ValueError(f"AI Error: {structured_data_LV3.get('details', structured_data_LV3['error'])}")

        if "error" in structured_data_LV4:
             raise ValueError(f"AI Error: {structured_data_LV4.get('details', structured_data_LV4['error'])}")

        log_message("✅ Processing finished successfully.")

        return structured_data_LV3,structured_data_LV4

    except ValueError as ve:
        error_message = str(ve)
        log_message(f"❌ A ValueError occurred: {error_message}")
        print(json.dumps({"success": False, "message": error_message}))

    except requests.exceptions.RequestException as re:
        error_message = f"ไม่สามารถดาวน์โหลดไฟล์ PDF ได้: {re}"
        log_message(f"❌ A RequestException occurred: {error_message}")
        print(json.dumps({"success": False, "message": error_message}))

    except Exception as e:
        error_message = str(e)
        log_message(f"❌ An unexpected error occurred in main function: {error_message}")
        print(json.dumps({"success": False, "message": f"เกิดข้อผิดพลาดที่ไม่คาดคิด: {error_message}"}))

IMplement

In [None]:
# All_sum = [] # Initialize as a list to store dataframes
# Reference = data_DBR3["URL(Source of reference for regulation change)"]
# Reference = Reference[1:]
# for url in Reference:
#     data = main(url)
#     if data is not None: # Check if data is not None before processing
#         data["URL_Ref."] = url
#         summary_AI = json_to_dataframe(data)
#         All_sum.append(summary_AI) # Append the dataframe to the list
#     else:
#         log_message(f"Skipping URL due to processing error: {url}")

# # Concatenate all dataframes in the list outside the loop
# if All_sum:
#     DF_All = pd.concat(All_sum, ignore_index=True)
# else:
#     DF_All = pd.DataFrame() # Create an empty DataFrame if no dataframes were processed

In [None]:
# AI_lawreg = gc.open_by_url('https://docs.google.com/spreadsheets/d/1iJNbZTiqc5Ty1g-dbEALI4w8l2vYpRhBi2P1k_tksWQ/edit')
# # Select the Lv3Law/RegulationName:กฎหมาย/กฎเกณฑ์/ประกาศ worksheet
# worksheet_AIfill = AI_lawreg.worksheet('Data')

# # Step 1: Load existing data from the sheet into a DataFrame
# set_with_dataframe(worksheet_AIfill, DF_All)

In [None]:
#------------------------------------------
#. for Test on record
#------------------------------------------


# อ่าน PDF และแปลงเป็นภาพ
# url = "https://www.bot.or.th/content/dam/bot/fipcs/documents/FOG/2566/ThaiPDF/25660202.pdf"
url = "https://www.bot.or.th/content/dam/bot/fipcs/documents/FPG/2560/ThaiPDF/25600025.pdf"
resp = requests.get(url)
pdf_content = resp.content   # bytes จาก response

text, method = extract_text_with_fallback_mixed(pdf_content)
clean_text = fix_thai_ocr(text)
print(clean_text)
# -------------------------
# ตัวอย่างใช้งาน:
Processed_text=fix_thai_ocr(text)
structured_data_LV3,structured_data_LV4 = extract_structured_data(Processed_text, llm=llm)
summary_LV3_AI=json_to_dataframe(structured_data_LV3)
summary_LV4_AI=json_to_dataframe(structured_data_LV4)

[2025-10-16T00:51:24.905566]      - Processing page 1/2...
[2025-10-16T00:51:51.898386]      - Processing page 2/2...
[2025-10-16T00:52:03.741235] ✅ Extract with hybrid
[2025-10-16T00:52:03.741633] ✅ Extract with OCR
--- Page 1 ---
ธนาคารแทห่งประเทศไทย |
— 27 มกราคม 2560
เรียน ผู้จัดการ
ธนาคารพาณิชย์ทุกธนาคาร
สถาบันการเงินเฉพาะกิจทุกแห่ง
ที่ ธูปท.ฝตท.ว. /! /2560 เรื่อง แนวปฏิบัติในการรับลงทะเบียนพร้อมเพย์สำหรับนิติบุคคล
ตามที่ธนาคารแห่งประเทศไทยได้ออกหนังสือเวียน ที่ ธปท.ฝตส.(03) ว807/2559 เรื่อง
แนวปฏิบัติในการรับลงทะเบียนพร้อมเพย์ ลงวันที่ 29 มิถุนายน 2559 ซึ่งครอบคลุมการลงทะเบียนพร้อมเพย์
สำหรับบุคคลธรรมดา และสถาบันการเงินจะเปิดให้บริการรับลงทะเบียนเพื่อใช้บริการโอนเงินและรับโอนเงิน
แบบพร้อมเพย์สำหรับนิติบุคคลต่อไป นั้น
เพื่อให้การรับลงทะเบียนนิติบุคคลมีความรัดกุม ปลอดภัย และถูกต้องเชื่อถือได้ อันจะช่วยลด
ความเสี่ยงในการให้บริการของสถาบันการเงิน และเสริมสร้างความเชื่อมั่นแก่ผู้ใช้บริการ ธนาคารแห่งประเทศไทย
จึงได้กำหนดแนวปฏิบัติอันเป็นมาตรฐานขั้นตำสำหรับกระบวนการรับลงทะเบียนนิติบุคคล

* Quota exceeded for metric: generativelanguage.googleapis.com/generate_content_free_tier_requests, limit: 250
Please retry in 56.148498115s. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 56
}
].
* Quota exceeded for metric: generativelanguage.googleapis.com/generate_content_free_tier_requests, limit: 250
Please retry in 53.998091277s. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"


[2025-10-16T00:53:06.599943] ⏳ gemini-2.5-flash quota/rate-limit → cooldown 53.0s, move on
[2025-10-16T00:53:06.603505] 🎯 Using model: gemini-2.5-flash-lite (attempt 1)
[2025-10-16T00:53:09.106315] 🎯 Using model: gemini-2.5-flash-lite (attempt 1)
[2025-10-16T00:53:13.200941] ✅ Short-text processed by gemini-2.5-flash-lite


  df = df.applymap(lambda x: "" if x is None else str(x))


In [None]:
summary_LV4_AI

Unnamed: 0,Citation Description,Citation Name,Law/Regulation Name,วันที่กฎหมาย/กฎเกณฑ์กำหนดให้ดำเนินการแล้วเสร็จ,สิ่งที่ Risk Owner ต้องดำเนินการ,โทษ/ผลกระทบกรณีไม่ปฏิบัติตามกฎหมาย/กฎเกณฑ์,"โทษจำคุกสูงสุด (เมื่อเลือกโทษ/ผลกระทบกรณีไม่ปฏิบัติตามกฎหมาย/กฎเกณฑ์ เป็น ""โทษอาญา/จำคุก "")","โทษปรับรายวัน (เมื่อเลือกโทษ/ผลกระทบกรณีไม่ปฏิบัติตามกฎหมาย/กฎเกณฑ์ เป็น ""โทษปรับ"")","โทษปรับสูงสุด (เมื่อเลือกโทษ/ผลกระทบกรณีไม่ปฏิบัติตามกฎหมาย/กฎเกณฑ์ เป็น ""โทษปรับ"")"
0,ธนาคารแห่งประเทศไทยกำหนดแนวปฏิบัติอันเป็นมาตรฐ...,ไม่ระบุ,ที่ ธูปท.ฝตท.ว. /! /2560 เรื่อง แนวปฏิบัติในกา...,ไม่พบข้อมูล,ประเมิน Gap Analysis และจัดทำ Action Plan (ถ้ามี),อื่นๆ,ไม่ระบุ,ไม่ระบุ,ไม่ระบุ


# **Chunking for big PDF**

In [None]:
# def split_into_chunks(text, max_chars=3000, overlap=300):
#     i = 0
#     n = len(text)
#     while i < n:
#         j = min(i + max_chars, n)
#         # พยายามตัดที่ขอบบรรทัด/ช่องว่าง เพื่อลดการตัดกลางประโยค
#         slice_ = text[i:j]
#         cut = max(slice_.rfind("\n"), slice_.rfind(" "))
#         if cut < int(max_chars * 0.5):  # ถ้าหาไม่ได้ ยอมตัดตรง ๆ
#             cut = len(slice_)
#         yield slice_[:cut]
#         i += cut - overlap if (i + cut) < n else n

# MAP_PROMPT = """คุณเป็นระบบสกัดข้อมูลกฎหมาย/ประกาศ
# จงอ่านข้อความต่อไปนี้ (ส่วนหนึ่งของเอกสารใหญ่) แล้วส่งคืนเฉพาะ JSON *เพียว ๆ* ที่มีเฉพาะคีย์ที่พบจริง ไม่ต้องส่งคีย์ที่ไม่พบ

# ข้อกำหนด:
# - ห้ามมีข้อความอื่นนอกจาก JSON
# - ถ้าข้อมูลเป็น “รายการ” ให้คืนเป็นลิสต์ของ string
# - ใส่ "chunk_id" ด้วย

# ต้องการคีย์ดังนี้ (ส่งเฉพาะที่พบ):
#     - "Law/Regulation Name": เรื่องของประกาศ (เช่น การปรับปรุงหลักเกณฑ์...)
#     - "Source Type": ประเภทของประกาศ (กฎเกณฑ์/กฎหมาย)
#     - "Regulator Name": หน่วยงานที่ออกประกาศ (เช่น ธนาคารแห่งประเทศไทย, สำนักงาน ก.ล.ต.)
#     - "Sequenced Number of Regulation": เลขของประกาศ (เช่น ประกาศธนาคารแห่งปรเทศไทยที่ 19/2568)
#     - "Effective Date": วันที่มีผลบังคับใช้ (ถ้าไม่พบ ให้ระบุว่า 'ไม่ระบุ')
#     - "Objectives of the Law/Regulation/Announcements": สรุปสาระสำคัญของประกาศ
#     - "Summary of Important Changes": สรุปสาระสำคัญที่มีการเปลี่ยนแปลง (สรุปเป็นข้อๆ ถ้ามี)
#     - "Citation Name": หลักเกณฑ์ในประกาศ (สรุปเป็นข้อๆ ถ้ามี ถ้าไม่พบ ให้ระบุว่า 'ไม่ระบุ')
#     - "Citation Description": รายละเอียดของหลักเกณฑ์ (ถ้ามีระบุ)
#     - "สิ่งที่ธนาคารต้องดำเนินการ": สรุปสาระสำคัญที่ธนาคารพาณิชย์ต้องดำเนินการเพื่อให้สอดคล้องกับประกาศฉบับนี้  (สรุปเป็นข้อๆ ถ้ามี)

# === TEXT START ===
# {chunk}
# === TEXT END ===
# คืนค่าเป็น JSON เพียว ๆ เท่านั้น"""

# def call_llm_json(llm, prompt, max_retries=2, sleep=1.0):
#     last_err = None
#     for _ in range(max_retries+1):
#         try:
#             resp = llm.invoke(prompt)
#             txt = resp.content if hasattr(resp, "content") else str(resp)
#             # ล้างโค้ดเฟนซ์/ป้าย json ที่ชอบติดมา
#             txt = txt.strip()
#             if txt.startswith("```"):
#                 txt = txt.strip("`")
#                 txt = re.sub(r"^json", "", txt, flags=re.I).strip()
#             # ดึงเฉพาะ { ... } ก้อนแรก/สุดท้าย เผื่อมี noise
#             m1 = txt.find("{"); m2 = txt.rfind("}")
#             if m1 != -1 and m2 != -1 and m2 > m1:
#                 txt = txt[m1:m2+1]
#             data = json.loads(txt)
#             return data
#         except Exception as e:
#             last_err = e
#             time.sleep(sleep)
#     raise last_err

# DATE_PAT = re.compile(r"(\d{1,2}\s*[/-]\s*\d{1,2}\s*[/-]\s*\d{2,4}|\d{1,2}\s*[ก-ฮ]+\s*\d{4}|[0-3]?\d\s*(Jan|Feb|Mar|Apr|May|Jun|Jul|Aug|Sep|Oct|Nov|Dec)[a-z]*\s*\d{4})", re.I)

# def parse_date_any(s):
#     s = s.strip()
#     # ลองหลายรูปแบบแบบหลวม ๆ
#     for fmt in ["%d/%m/%Y", "%d-%m-%Y", "%d/%m/%y", "%d-%m-%y", "%d %b %Y", "%d %B %Y"]:
#         try:
#             return datetime.strptime(s, fmt)
#         except:
#             pass
#     # ถ้าจับไทย เช่น "1 มกราคม 2567" → ข้ามไว้หรือต้องใช้ lib เพิ่ม
#     return None

# def reduce_chunks(json_list):
#     # รวบรวมสถิติ
#     single_keys = [
#         "Law/Regulation Name", "Source Type", "Regulator Name", "Sequenced Number of Regulation"
#     ]
#     list_keys = [
#         "Objectives of the Law/Regulation/Announcements",
#         "Summary of Important Changes",
#         "Citation Name",
#         "Citation Description",
#         "สิ่งที่ธนาคารต้องดำเนินการ"
#     ]
#     singles = {k: Counter() for k in single_keys}
#     lists = {k: [] for k in list_keys}
#     dates = []

#     for obj in json_list:
#         if not isinstance(obj, dict):
#             continue
#         # singles
#         for k in single_keys:
#             v = obj.get(k)
#             if v and isinstance(v, str) and v.strip() and v.strip() != "ไม่พบข้อมูล":
#                 singles[k][v.strip()] += 1
#         # lists
#         for k in list_keys:
#             v = obj.get(k)
#             if isinstance(v, list):
#                 for item in v:
#                     if isinstance(item, str):
#                         s = item.strip()
#                         if s:
#                             lists[k].append(s)
#         # date
#         v = obj.get("Effective Date")
#         if isinstance(v, str) and v.strip() and v.strip() != "ไม่พบข้อมูล":
#             # เก็บทั้ง raw และ parsed
#             dt = parse_date_any(v) or None
#             dates.append((v.strip(), dt))

#     # เลือกค่าที่พบบ่อยสุด
#     final = {}
#     for k in single_keys:
#         if singles[k]:
#             final[k] = singles[k].most_common(1)[0][0]
#         else:
#             final[k] = "ไม่พบข้อมูล"

#     # Effective Date: ถ้ามีหลายแบบ เลือกที่ parse ได้และเก่าสุด; ถ้า parse ไม่ได้เลย เลือก raw ตัวที่พบบ่อยสุด
#     if dates:
#         parsed = [d for d in dates if d[1] is not None]
#         if parsed:
#             parsed.sort(key=lambda x: x[1])
#             final["Effective Date"] = parsed[0][0]
#         else:
#             raw_counter = Counter([d[0] for d in dates])
#             final["Effective Date"] = raw_counter.most_common(1)[0][0]
#     else:
#         final["Effective Date"] = "ไม่พบข้อมูล"

#     # รวมลิสต์ + ลบซ้ำ (preserve order)
#     def dedup(seq):
#         seen = set()
#         out = []
#         for s in seq:
#             if s not in seen:
#                 seen.add(s)
#                 out.append(s)
#         return out

#     for k in list_keys:
#         val = dedup(lists[k])
#         final[k] = val if val else ["ไม่พบข้อมูล"]

#     return final

# **LLM Calling**

In [None]:
# # ========= CASE 1: ใช้กับข้อความสั้น =========
# def get_structured_data_from_ai(text, llm):
#     prompt = f"""
#     วิเคราะห์ข้อความจากเอกสารกฎหมายต่อไปนี้ และสกัดข้อมูลเพื่อเติมลงในช่องว่างของหนังสือเวียน:

#     --- TEXT START ---
#     {text}
#     --- TEXT END ---

#     กรุณาสกัดข้อมูลสำหรับหัวข้อต่อไปนี้ และตอบกลับเป็นรูปแบบ JSON ที่ถูกต้องเท่านั้น:
#     - "Law/Regulation Name": เรื่องของประกาศ (เช่น การปรับปรุงหลักเกณฑ์...)
#     - "Source Type": ประเภทของประกาศ (กฎเกณฑ์/กฎหมาย)
#     - "Regulator Name": หน่วยงานที่ออกประกาศ (เช่น ธนาคารแห่งประเทศไทย, สำนักงาน ก.ล.ต.)
#     - "Sequenced Number of Regulation": เลขของประกาศ (เช่น ประกาศธนาคารแห่งปรเทศไทยที่ 19/2568)
#     - "Effective Date": วันที่มีผลบังคับใช้ (ถ้าไม่พบ ให้ระบุว่า 'ไม่ระบุ')
#     - "Objectives of the Law/Regulation/Announcements": สรุปสาระสำคัญของประกาศ
#     - "Summary of Important Changes": สรุปสาระสำคัญที่มีการเปลี่ยนแปลง (สรุปเป็นข้อๆ ถ้ามี)
#     - "Citation Name": หลักเกณฑ์ในประกาศ (สรุปเป็นข้อๆ ถ้ามี ถ้าไม่พบ ให้ระบุว่า 'ไม่ระบุ')
#     - "Citation Description": รายละเอียดของหลักเกณฑ์ (ถ้ามีระบุ)
#     - "สิ่งที่ธนาคารต้องดำเนินการ": สรุปสาระสำคัญที่ธนาคารพาณิชย์ต้องดำเนินการเพื่อให้สอดคล้องกับประกาศฉบับนี้  (สรุปเป็นข้อๆ ถ้ามี)

#     ถ้าหาข้อมูลส่วนไหนไม่เจอจริงๆ ให้ใส่ค่าเป็น "ไม่พบข้อมูล" ใน JSON.
#     """

#     response = llm.invoke(prompt)
#     cleaned = response.content.strip().replace('```','').replace('json','')
#     log_message("✅ Processing finished successfully.")
#     return json.loads(cleaned)


# # ========= CASE 2: ใช้กับข้อความยาว =========
# # (ต้องมีฟังก์ชัน split_into_chunks, call_llm_json, reduce_chunks ตามที่ผมให้ไปก่อนหน้า)

# def get_structured_data_from_ai_large(text, llm):
#     map_results = []
#     for i, chunk in enumerate(split_into_chunks(text, max_chars=3000, overlap=300), start=1):
#         prompt = MAP_PROMPT.format(chunk=chunk)
#         try:
#             data = call_llm_json(llm, prompt)
#             data["chunk_id"] = i
#             map_results.append(data)
#         except Exception as e:
#             map_results.append({"chunk_id": i, "error": str(e)})

#     clean_results = [x for x in map_results if "error" not in x]
#     if not clean_results:
#         return {"error": "AI ไม่สามารถสกัดข้อมูลได้เลย"}

#     final_json = reduce_chunks(clean_results)
#     log_message("✅ Processing finished successfully.")
#     return final_json


# # ========= CASE SELECTOR =========
# def extract_structured_data(text, llm, threshold=5000):
#     """
#     ถ้า text ยาวเกิน threshold ตัวอักษร -> ใช้ map-reduce
#     ถ้า text สั้น -> ใช้แบบปกติ
#     """
#     if len(text) <= threshold:
#         return get_structured_data_from_ai(text, llm)
#     else:
#         return get_structured_data_from_ai_large(text, llm)


Backup create Keyword

In [None]:
# import os
# import re
# import json
# import time
# import random
# from datetime import datetime
# from typing import List, Tuple, Optional, Dict, Any
# from langchain_google_genai import ChatGoogleGenerativeAI

# # ====== CONFIG ======
# FALLBACK_MODELS = [
#     "gemini-2.5-flash",       # ตัวหลัก เริ่มจากตัวนี้เสมอทุกครั้งที่เรียก
#     "gemini-2.5-flash-lite",
#     "gemini-2.0-flash",
#     "gemini-2.0-flash-lite",
#     "gemini-1.5-flash",
# ]
# DEFAULT_MAX_RETRIES_PER_MODEL = 1         # เราเลือกลองสั้น ๆ แล้วข้ามไปตัวถัดไป
# DEFAULT_GLOBAL_TIMEOUT_SEC = 180

# def log_message(msg: str):
#     print(f"[{datetime.now().isoformat()}] {msg}")

# # ====== ERROR / RETRY HELPERS ======
# def parse_retry_delay_seconds(error_text: str) -> Optional[int]:
#     m = re.search(r"retry_delay\s*\{\s*seconds:\s*(\d+)", error_text)
#     if m: return int(m.group(1))
#     m = re.search(r'"retry_delay"\s*:\s*\{\s*"seconds"\s*:\s*(\d+)', error_text)
#     if m: return int(m.group(1))
#     try:
#         d = json.loads(error_text)
#         if isinstance(d, dict):
#             rd = d.get("retry_delay") or {}
#             secs = rd.get("seconds")
#             if isinstance(secs, int): return secs
#     except Exception:
#         pass
#     return None

# def is_quota_or_rate_limit_error(e: Exception) -> bool:
#     txt = str(e)
#     keys = ["429", "ResourceExhausted", "rate limit", "quota", "exceeded"]
#     return any(k.lower() in txt.lower() for k in keys)

# # ====== COOLDOWN REGISTRY (ข้ามคำสั่งเรียกได้ในโปรเซสเดียว) ======
# _MODEL_COOLDOWN_UNTIL: Dict[str, float] = {}

# def _now() -> float:
#     return time.time()

# def _is_on_cooldown(model: str) -> bool:
#     return _MODEL_COOLDOWN_UNTIL.get(model, 0) > _now()

# def _set_cooldown(model: str, seconds: float):
#     _MODEL_COOLDOWN_UNTIL[model] = max(_MODEL_COOLDOWN_UNTIL.get(model, 0), _now() + seconds)

# def _soonest_cooldown_remaining(models: List[str]) -> float:
#     if not models: return 0
#     t = min((_MODEL_COOLDOWN_UNTIL.get(m, 0) for m in models), default=0)
#     remain = t - _now()
#     return remain if remain > 0 else 0

# # ====== LLM INIT (ครั้งที่ต้องการ instance ถาวร) ======
# def init_llm_with_fallback(api_key: str, models: List[str] = FALLBACK_MODELS) -> Tuple[ChatGoogleGenerativeAI, str]:
#     last_err = None
#     for model in models:
#         try:
#             llm = ChatGoogleGenerativeAI(model=model, google_api_key=api_key)
#             log_message(f"✅ Initialized model: {model}")
#             return llm, model
#         except Exception as e:
#             last_err = e
#             log_message(f"⚠️ Init failed for {model}: {e}")
#     raise RuntimeError(f"❌ No available model. Last error: {last_err}")

# # ====== CIRCULAR INVOKE (เริ่มที่ตัวหลักเสมอ + คูลดาวน์ + วนลูป) ======
# def circular_invoke_with_cooldown(
#     api_key: str,
#     prompt: str,
#     models: List[str] = FALLBACK_MODELS,
#     max_retries_per_model: int = DEFAULT_MAX_RETRIES_PER_MODEL,
#     global_timeout_sec: int = DEFAULT_GLOBAL_TIMEOUT_SEC,
#     no_model_sleep_floor: float = 1.5,
#     no_model_sleep_cap: float = 30.0,
# ):
#     """
#     พฤติกรรม:
#       - ทุกครั้งเริ่มจาก models[0] เสมอ (ตัวหลัก)
#       - ถ้าเจอโควต้า/429 แล้วมี retry_delay → set cooldown ให้โมเดลนั้น แล้ว 'ข้ามไปตัวถัดไป'
#       - ถ้าลองครบทุกตัวและทุกตัวอยู่ในคูลดาวน์ → รอจนตัวที่ใกล้หมดคูลดาวน์ที่สุด (ไม่ต่ำกว่า floor และไม่เกิน cap) แล้วเริ่มใหม่จากตัวหลัก
#       - เกิน global timeout → โยน TimeoutError
#     """
#     start = time.time()
#     last_error = None
#     n = len(models)

#     def _try_model(m: str):
#         nonlocal last_error
#         if _is_on_cooldown(m):
#             return None, "cooldown"

#         try:
#             llm = ChatGoogleGenerativeAI(model=m, google_api_key=api_key)
#         except Exception as e:
#             last_error = e
#             log_message(f"⚠️ Cannot init {m}: {e}")
#             _set_cooldown(m, 5)  # กันลูป
#             return None, "init-fail"

#         for attempt in range(1, max_retries_per_model + 1):
#             if time.time() - start > global_timeout_sec:
#                 raise TimeoutError("⏱️ Global timeout exceeded")
#             try:
#                 log_message(f"🎯 Using model: {m} (attempt {attempt})")
#                 resp = llm.invoke(prompt)
#                 return resp, "ok"
#             except Exception as e:
#                 last_error = e
#                 if is_quota_or_rate_limit_error(e):
#                     delay = parse_retry_delay_seconds(str(e))
#                     if delay is None:
#                         delay = min(2 ** (attempt - 1), 16) + random.uniform(0, 0.5)
#                     _set_cooldown(m, delay)
#                     log_message(f"⏳ {m} quota/rate-limit → cooldown {delay:.1f}s, move on")
#                     return None, "rate-limit"
#                 else:
#                     log_message(f"❌ {m} non-rate-limit error: {e}")
#                     _set_cooldown(m, 3)
#                     return None, "non-quota-error"
#         return None, "exhausted"

#     while True:
#         if time.time() - start > global_timeout_sec:
#             raise TimeoutError(f"⏱️ Global timeout exceeded. Last error: {last_error}")

#         made_any_attempt = False
#         for m in models:  # เริ่มจากตัวแรกเสมอ
#             resp, status = _try_model(m)
#             if status == "ok":
#                 return resp, m
#             if status != "cooldown":
#                 made_any_attempt = True

#         if not made_any_attempt:
#             wait_for = _soonest_cooldown_remaining(models)
#             wait_for = max(wait_for, no_model_sleep_floor)
#             wait_for = min(wait_for, no_model_sleep_cap)
#             log_message(f"😴 all models cooling down → sleep {wait_for:.1f}s")
#             time.sleep(wait_for)
#         else:
#             # มีความพยายามแล้วแต่ยังไม่สำเร็จ → วนใหม่เริ่มที่ตัวหลัก
#             continue

# # ====== JSON-SAFE WRAPPER (ใช้ circular fallback) ======
# def _clean_json_block(text: str) -> str:
#     cleaned = text.strip()
#     cleaned = cleaned.replace("```json", "```").strip()
#     cleaned = cleaned.strip("`").strip()
#     if cleaned.lower().startswith("json"):
#         cleaned = cleaned[4:].strip()
#     return cleaned

# def call_llm_json_with_circular_fallback(api_key: str, prompt: str):
#     resp, model_used = circular_invoke_with_cooldown(api_key, prompt)
#     raw = resp.content if hasattr(resp, "content") else str(resp)
#     cleaned = _clean_json_block(raw)
#     try:
#         return json.loads(cleaned), model_used
#     except Exception as e:
#         raise ValueError(
#             f"JSON parse failed from model {model_used}: {e}\nRaw (first 600 chars): {cleaned[:600]}"
#         )

# # ====== CHUNKING ======
# def split_into_chunks(text: str, max_chars: int = 7000, overlap: int = 300) -> List[str]:
#     chunks = []
#     start = 0
#     n = len(text)
#     while start < n:
#         end = min(start + max_chars, n)
#         chunks.append(text[start:end])
#         if end >= n:
#             break
#         start = max(0, end - overlap)
#     return chunks

# # ====== PROMPTS ======
# MAP_PROMPT = """คุณคือผู้ช่วยสกัดข้อมูลกฎหมาย/ประกาศ จงอ่านข้อความต่อไปนี้แล้วสกัดข้อมูลเป็น JSON เท่านั้น

# --- TEXT START ---
# {chunk}
# --- TEXT END ---

# จงตอบกลับเป็น JSON object ที่มีคีย์ดังนี้:
#   - "Law/Regulation Name": เลขของประกาศตามด้วย เรื่องของประกาศ (เช่น การปรับปรุงหลักเกณฑ์...)
#   - "Source Type": ประเภทของประกาศ (ระบุได้แค่ "กฎเกณฑ์" หรือ "กฎหมาย" เท่านั้น)
#   - "Regulator Name": หน่วยงานที่ออกประกาศ (เช่น ธนาคารแห่งประเทศไทย, สำนักงาน ก.ล.ต.)
#   - "Sequenced Number of Regulation": เลขของประกาศ (เช่น "ประกาศธนาคารแห่งประเทศไทยที่ 19/2568" หรือ "สนส. 12/2555")
#   - "Effective Date": วันที่มีผลบังคับใช้ (ถ้าไม่พบ ให้ระบุว่า "ไม่ระบุ")
#   - "Objectives of the Law/Regulation/Announcements": สรุปสาระสำคัญของประกาศ
#   - "Summary of Important Changes": สรุปสาระสำคัญที่มีการเปลี่ยนแปลง (สรุปเป็นข้อๆ ถ้ามี)
#   - "Citation Name": หลักเกณฑ์ในประกาศ (สรุปเป็นข้อๆ ไม่เกิน 100 ตัวอักษร ถ้าไม่พบ ให้ "ไม่ระบุ")
#   - "Citation Description": รายละเอียดของหลักเกณฑ์ (ถ้ามี)
#   - "สิ่งที่ธนาคารต้องดำเนินการ": สิ่งที่ธนาคารพาณิชย์ต้องทำให้สอดคล้องกับประกาศ (สรุปเป็นข้อๆ ถ้ามี)
#   - "Keyword": อาร์เรย์ของคำสำคัญเชิงกฎเกณฑ์/ความเสี่ยง/กระบวนการ/เอนทิตี (อย่างน้อย 8 คำ สูงสุด 20 คำ) เช่น ["ธนาคาร","banking","สินเชื่อ","credit","เงินกองทุน","capital","กลุ่มธุรกิจ","การกำกับดูแล"]

# กติกาการทำ "Keyword":
#   1) ให้คัดคำที่สื่อถึงหัวข้อกฎเกณฑ์ ประเภทความเสี่ยง ชื่อมาตรการ ชื่อกระบวนการ คำย่อ และเอนทิตี (เช่น หน่วยงาน มาตรา/ข้อ)
#   2) ใช้ทั้งไทยและอังกฤษเมื่อพบในเอกสาร (อังกฤษให้เป็นตัวพิมพ์เล็ก ยกเว้นคำย่อให้คงรูปพิมพ์ใหญ่ เช่น KYC, AML)
#   3) คำแต่ละตัวสั้น กระชับ ไม่เกิน 3 คำ (เช่น "การยืนยันตัวตน", "risk management", "consent")
#   4) ตัดคำซ้ำและคำทั่วๆไปที่ไม่ช่วยค้นหา (เช่น “และ”, “หรือ”)
#   5) จัดลำดับจากสำคัญสุด -> รองลงมา ตามเนื้อหาเอกสาร

# ข้อกำหนด:
# - ถ้าไม่พบข้อมูลบางคีย์ ให้ใส่ "ไม่พบข้อมูล"
# - ต้องเป็น JSON ที่ parse ได้เท่านั้น ห้ามมีข้อความอื่นปะปน
# """

# REDUCE_PROMPT = """รวมผล JSON หลายชิ้นให้เป็น JSON เดียว โดยคง schema เดิมทุก Keys
# กฏการรวม:
# - สำหรับฟิลด์ตัวอักษร: เลือกค่าที่ให้ภาพรวมดีที่สุด ถ้าหลายค่าไม่ขัดแย้งให้รวมสั้น ๆ เป็นข้อความเดียว
# - สำหรับ list เช่น "Summary of Important Changes", "Citation Name", "สิ่งที่ธนาคารต้องดำเนินการ":
#   รวมและลบรายการซ้ำ
# - สรุปใจความสำคัญของแต่ละ Field อีกครั้งเพื่อความกระชับ และเพื่อประหยัดพื้นที่ในการจัดเก็บ
# - ถ้าฟิลด์ใดทั้งหมดเป็น "ไม่พบข้อมูล" ให้คง "ไม่พบข้อมูล"

# จงตอบกลับเป็น JSON เท่านั้น

# --- PARTS START ---
# {parts}
# --- PARTS END ---
# """

# def merge_lists_unique(*lists) -> List[str]:
#     out = []
#     seen = set()
#     for lst in lists:
#         if isinstance(lst, list):
#             for item in lst:
#                 if isinstance(item, str):
#                     key = item.strip()
#                     if key and key not in seen:
#                         seen.add(key)
#                         out.append(key)
#     return out

# def reduce_chunks(parts: List[Dict[str, Any]]) -> Dict[str, Any]:
#     fields_text = [
#         "Law/Regulation Name",
#         "Source Type",
#         "Regulator Name",
#         "Sequenced Number of Regulation",
#         "Effective Date",
#         "Objectives of the Law/Regulation/Announcements",
#         "Citation Description",
#     ]
#     fields_list = [
#         "Summary of Important Changes",
#         "Citation Name",
#         "สิ่งที่ธนาคารต้องดำเนินการ",
#     ]

#     agg: Dict[str, Any] = {k: "ไม่พบข้อมูล" for k in fields_text}
#     for k in fields_list:
#         agg[k] = []

#     candidates: Dict[str, List[str]] = {k: [] for k in fields_text}

#     for p in parts:
#         for k in fields_text:
#             v = p.get(k)
#             if isinstance(v, str) and v.strip() and v.strip() != "ไม่พบข้อมูล":
#                 candidates[k].append(v.strip())
#         for k in fields_list:
#             v = p.get(k)
#             if isinstance(v, list):
#                 agg[k] = merge_lists_unique(agg[k], v)

#     for k in fields_text:
#         if candidates[k]:
#             agg[k] = max(candidates[k], key=len)
#     return agg

# # ====== CASE 1: ข้อความสั้น → ขอ JSON ตรง ๆ (ใช้วงกลม) ======
# def get_structured_data_from_ai(text: str) -> Dict[str, Any]:
#     prompt = f"""
#     วิเคราะห์ข้อความจากเอกสารกฎหมายต่อไปนี้ และสกัดข้อมูลเพื่อเติมลงในช่องว่างเพื่อจัดเก็บประกาศ:

#     --- TEXT START ---
#     {text}
#     --- TEXT END ---

#     จงตอบกลับเป็น JSON object ที่มีคีย์ดังนี้:
#   - "Law/Regulation Name": เลขของประกาศตามด้วย เรื่องของประกาศ (เช่น การปรับปรุงหลักเกณฑ์...)
#   - "Source Type": ประเภทของประกาศ (ระบุได้แค่ "กฎเกณฑ์" หรือ "กฎหมาย" เท่านั้น)
#   - "Regulator Name": หน่วยงานที่ออกประกาศ (เช่น ธนาคารแห่งประเทศไทย, สำนักงาน ก.ล.ต.)
#   - "Sequenced Number of Regulation": เลขของประกาศ (เช่น "ประกาศธนาคารแห่งประเทศไทยที่ 19/2568" หรือ "สนส. 12/2555")
#   - "Effective Date": วันที่มีผลบังคับใช้ (ถ้าไม่พบ ให้ระบุว่า "ไม่ระบุ")
#   - "Objectives of the Law/Regulation/Announcements": สรุปสาระสำคัญของประกาศ
#   - "Summary of Important Changes": สรุปสาระสำคัญที่มีการเปลี่ยนแปลง (สรุปเป็นข้อๆ ถ้ามี)
#   - "Citation Name": หลักเกณฑ์ในประกาศ (สรุปเป็นข้อๆ ไม่เกิน 100 ตัวอักษร ถ้าไม่พบ ให้ "ไม่ระบุ")
#   - "Citation Description": รายละเอียดของหลักเกณฑ์ (ถ้ามี)
#   - "สิ่งที่ธนาคารต้องดำเนินการ": สิ่งที่ธนาคารพาณิชย์ต้องทำให้สอดคล้องกับประกาศ (สรุปเป็นข้อๆ ถ้ามี)
#   - "Keyword": อาร์เรย์ของคำสำคัญเชิงกฎเกณฑ์/ความเสี่ยง/กระบวนการ/เอนทิตี (อย่างน้อย 8 คำ สูงสุด 20 คำ) เช่น ["ธนาคาร","banking","สินเชื่อ","credit","เงินกองทุน","capital","กลุ่มธุรกิจ","การกำกับดูแล"]

# กติกาการทำ "Keyword":
#   1) ให้คัดคำที่สื่อถึงหัวข้อกฎเกณฑ์ ประเภทความเสี่ยง ชื่อมาตรการ ชื่อกระบวนการ คำย่อ และเอนทิตี (เช่น หน่วยงาน มาตรา/ข้อ)
#   2) ใช้ทั้งไทยและอังกฤษเมื่อพบในเอกสาร (อังกฤษให้เป็นตัวพิมพ์เล็ก ยกเว้นคำย่อให้คงรูปพิมพ์ใหญ่ เช่น KYC, AML)
#   3) คำแต่ละตัวสั้น กระชับ ไม่เกิน 3 คำ (เช่น "การยืนยันตัวตน", "risk management", "consent")
#   4) ตัดคำซ้ำและคำทั่วๆไปที่ไม่ช่วยค้นหา (เช่น “และ”, “หรือ”)
#   5) จัดลำดับจากสำคัญสุด -> รองลงมา ตามเนื้อหาเอกสาร

# ข้อกำหนด:
# - ถ้าไม่พบข้อมูลบางคีย์ ให้ใส่ "ไม่พบข้อมูล"
# - ต้องเป็น JSON ที่ parse ได้เท่านั้น ห้ามมีข้อความอื่นปะปน
#     """
#     data, model_used = call_llm_json_with_circular_fallback(GOOGLE_API_KEY, prompt)
#     log_message(f"✅ Short-text processed by {model_used}")
#     return data

# # ====== CASE 2: ข้อความยาว → map-reduce (ใช้วงกลมในแต่ละ chunk) ======
# def get_structured_data_from_ai_large(text: str, max_chars=7000, overlap=300) -> Dict[str, Any]:
#     map_results = []
#     for i, chunk in enumerate(split_into_chunks(text, max_chars=max_chars, overlap=overlap), start=1):
#         prompt = MAP_PROMPT.format(chunk=chunk)
#         try:
#             data, model_used = call_llm_json_with_circular_fallback(GOOGLE_API_KEY, prompt)
#             data["chunk_id"] = i
#             data["_model"] = model_used
#             map_results.append(data)
#             log_message(f"🧩 mapped chunk {i} via {model_used}")
#         except Exception as e:
#             log_message(f"❌ chunk {i} error: {e}")
#             map_results.append({"chunk_id": i, "error": str(e)})

#     clean_results = [x for x in map_results if "error" not in x]
#     if not clean_results:
#         return {"error": "AI ไม่สามารถสกัดข้อมูลได้เลย"}

#     merged = reduce_chunks(clean_results)

#     # OPTIONAL: ให้ LLM ช่วยรวมขั้นสุดท้าย
#     try:
#         reduce_prompt = REDUCE_PROMPT.format(parts=json.dumps(clean_results, ensure_ascii=False, indent=2))
#         final_json, model_used = call_llm_json_with_circular_fallback(GOOGLE_API_KEY, reduce_prompt)
#         log_message(f"✅ Reduced via {model_used}")
#         return final_json
#     except Exception as e:
#         log_message(f"⚠️ Reduce by LLM failed, fallback to programmatic merge: {e}")
#         return merged

# # ====== CASE SELECTOR ======
# def extract_structured_data(text: str, *, llm=None, threshold: int = 8000) -> Dict[str, Any]:
#     if len(text) <= threshold:
#         return get_structured_data_from_ai(text)
#     else:
#         return get_structured_data_from_ai_large(text)