# PDF Batch Ingestion + JSONL Export (Thai/English)

ประมวลผลเอกสาร PDF ทั้งโฟลเดอร์: ดึงข้อความ (PyMuPDF) + OCR fallback (pdf2image + Tesseract) + ทำความสะอาด และส่งออกเป็น JSONL ต่อหน้า พร้อม .txt ต่อไฟล์

- ใช้ร่วมกับสมุดโน้ต: `pdf_ingest_normalize.ipynb` (โหมดเดี่ยวไฟล์)
- โน้ตบุ๊กนี้โฟกัสแบบ batch + JSONL/ข้อความต่อไฟล์

Dependencies: pymupdf, pdf2image, pytesseract, pillow, unidecode (ตัวเลือก: pythainlp)

Windows Notes:
- ติดตั้ง Tesseract-OCR และกำหนด path ในโค้ดถ้าไม่อยู่ใน PATH
- ติดตั้ง Poppler for Windows และตั้งค่าโฟลเดอร์ `.../Library/bin` ในตัวแปร `POPPLER_BIN` หรือในโค้ด

In [None]:
# ติดตั้งแพ็กเกจที่จำเป็น (รันครั้งแรก)
import sys, subprocess

def pip_install(pkgs):
    try:
        subprocess.check_call([sys.executable, '-m', 'pip', 'install', '--upgrade', *pkgs])
    except Exception as e:
        print('Package install finished with message:', e)

pkgs = [
    'pymupdf',
    'pdf2image',
    'pytesseract',
    'pillow',
    'unidecode',
    'pythainlp',  # optional
    'requests',   # AksonOCR HTTP client
    'pandas',     # Excel/CSV ingestion
    'openpyxl',   # Excel engine (.xlsx)
    'xlrd',       # Legacy Excel (.xls)
]
#pip_install(pkgs)  # ยกเลิกคอมเมนต์ถ้าต้องการติดตั้งจากโน้ตบุ๊ก

In [4]:
# Imports และการตั้งค่า Tesseract / Poppler (Windows)
import os, re, unicodedata, shutil, mimetypes, time
from pathlib import Path
from typing import Optional, Tuple, List
import fitz  # PyMuPDF
from pdf2image import convert_from_path
import pytesseract
from PIL import Image
import requests
from tempfile import NamedTemporaryFile

def ensure_tesseract_cmd() -> Optional[str]:
    cmd = getattr(pytesseract.pytesseract, 'tesseract_cmd', None)
    if cmd and os.path.exists(cmd):
        return cmd
    if os.name == 'nt':
        for c in [
            r'C:\\Program Files\\Tesseract-OCR\\tesseract.exe',
            r'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe',
        ]:
            if os.path.exists(c):
                pytesseract.pytesseract.tesseract_cmd = c
                return c
        print('WARNING: ไม่พบ Tesseract-OCR บน Windows. ดู https://github.com/UB-Mannheim/tesseract/wiki')
        return None
    return shutil.which('tesseract')

def guess_poppler_bin() -> Optional[str]:
    if os.name != 'nt':
        return None
    for c in [
            r'C:\\Program Files\\poppler-24.08.0\\Library\\bin',
            r'C:\\Program Files\\poppler-25.07.0\\Library\\bin',
            r'C:\\Program Files\\poppler-0.68.0\\bin',
        ]:
        if os.path.exists(c):
            return c
    env = os.getenv('POPPLER_BIN') or os.getenv('POPPLER_PATH')
    if env and os.path.exists(env):
        return env
    return None

POPPLER_BIN = guess_poppler_bin()
TESS_CMD = ensure_tesseract_cmd()
# ใช้ตัวแปรแวดล้อมมาตรฐาน 'AKSONOCR_API_KEY'
AKSONOCR_API_KEY = os.environ.get('AKSONOCR_API_KEY')  # ใช้ถ้าต้องการ OCR ผ่าน AksonOCR
print('Tesseract :', TESS_CMD or 'not found')
print('Poppler bin:', POPPLER_BIN or 'not set (Windows requires this for pdf2image)')
print('AksonOCR  :', 'enabled' if AKSONOCR_API_KEY else 'disabled')

Tesseract : C:\\Program Files\\Tesseract-OCR\\tesseract.exe
Poppler bin: C:\\Program Files\\poppler-25.07.0\\Library\\bin
AksonOCR  : disabled


In [7]:
# ฟังก์ชันหลัก: extract (MuPDF/OCR), normalize, Thai tidy, paragraphing, header/footer
import json
from collections import Counter
import pandas as _pd

def extract_text_mupdf(pdf_path: str) -> str:
    texts: List[str] = []
    with fitz.open(str(pdf_path)) as doc:
        for page in doc:
            try:
                txt = page.get_text('text')
            except Exception:
                txt = page.get_text()
            texts.append(txt or '')
    return '\n'.join(texts)

def ocr_pdf(pdf_path: str, dpi: int = 300, lang: str = 'tha+eng', poppler_bin: Optional[str] = None) -> str:
    kwargs = {}
    if (poppler_bin or POPPLER_BIN) and os.name == 'nt':
        kwargs['poppler_path'] = poppler_bin or POPPLER_BIN
    images = convert_from_path(pdf_path, dpi=dpi, **kwargs)
    texts = [pytesseract.image_to_string(img, lang=lang) for img in images]
    return '\n'.join(texts)

def ocr_request_with_retry(image_path: str, api_key: str, max_retries: int = 3) -> dict:
    """
    ส่ง OCR ไปที่ AksonOCR พร้อม retry เมื่อโดน rate limit (HTTP 429)
    """
    url = 'https://backend.aksonocr.com/api/v1/ocr'
    headers = {'X-API-Key': api_key}
    mime_type = mimetypes.guess_type(image_path)[0] or 'image/png'
    for attempt in range(max_retries):
        try:
            with open(image_path, 'rb') as f:
                files = {'file': (image_path, f, mime_type)}
                data = {'model': 'AksonOCR-preview'}
                resp = requests.post(url, headers=headers, files=files, data=data, timeout=60)
            if 'X-RateLimit-Remaining' in resp.headers:
                print(f"Rate limit remaining: {resp.headers['X-RateLimit-Remaining']}")
            if resp.status_code == 429:
                retry_after = int(resp.headers.get('Retry-After', 60))
                print(f'Rate limit exceeded. Retrying after {retry_after} seconds...')
                time.sleep(retry_after)
                continue
            result = resp.json()
            if result.get('success', True):
                return {'success': True, 'text': (result.get('data') or {}).get('text', ''), 'data': result.get('data')}
            return {'success': False, 'error': result.get('error') or {'message': 'Unknown error'}}
        except requests.exceptions.RequestException as e:
            print(f"Request failed: {e}")
            if attempt < max_retries - 1:
                time.sleep(2 ** attempt)
                continue
            return {'success': False, 'error': {'message': str(e)}}
    return {'success': False, 'error': {'message': 'Max retries exceeded'}}

def akson_ocr_image_pil(img: Image.Image, api_key: str) -> str:
    """OCR ภาพหนึ่งหน้าผ่าน AksonOCR โดยบันทึกเป็นไฟล์ชั่วคราว"""
    with NamedTemporaryFile(suffix='.png', delete=True) as tmp:
        img.save(tmp.name, format='PNG')
        res = ocr_request_with_retry(tmp.name, api_key)
        return res.get('text', '') if res.get('success') else ''

def ocr_pdf_akson(pdf_path: str, dpi: int = 450, api_key: str | None = None, poppler_bin: Optional[str] = None) -> str:
    """OCR ทั้งไฟล์ผ่าน AksonOCR (render ด้วย pdf2image)"""
    if not api_key:
        return ''
    kwargs = {}
    if (poppler_bin or POPPLER_BIN) and os.name == 'nt':
        kwargs['poppler_path'] = poppler_bin or POPPLER_BIN
    images = convert_from_path(pdf_path, dpi=dpi, **kwargs)
    texts = [akson_ocr_image_pil(img, api_key) for img in images]
    return '\n'.join(texts)

def normalize_text(text: str, preserve_newlines: bool = True) -> str:
    if text is None:
        return ''
    t = text.replace('\r\n', '\n').replace('\r', '\n')
    t = unicodedata.normalize('NFC', t)
    t = t.replace('\u00A0', ' ')
    t = re.sub(r'[\u200B-\u200D\uFEFF]', '', t)
    t = re.sub(r'[\x00-\x08\x0B-\x0C\x0E-\x1F\x7F]', '', t)
    if preserve_newlines:
        lines = [re.sub(r'[ \t]+', ' ', ln).strip() for ln in t.split('\n')]
        t = '\n'.join(lines)
        t = re.sub(r'\n{3,}', '\n\n', t)
    else:
        t = re.sub(r'\s+', ' ', t).strip()
    return t

def text_quality_score(text: str) -> float:
    if not text:
        return 0.0
    chars = [c for c in text if not c.isspace()]
    if not chars:
        return 0.0
    signal = sum(1 for c in chars if c.isalpha() or c.isdigit())
    return signal / max(1, len(chars))

# Thai tidy + optional PyThaiNLP normalize
try:
    from pythainlp.util import normalize as th_normalize
    _HAS_THAI = True
except Exception:
    _HAS_THAI = False
    def th_normalize(x: str) -> str: return x
_TH_CHR = r'\u0E00-\u0E7F'
_TH_PAIR = re.compile(rf'([{_TH_CHR}])\s+([{_TH_CHR}])')

def tidy_thai_spacing(text: str) -> str:
    if not text: return text
    t = _TH_PAIR.sub(r'\1\2', text)
    return re.sub(r'[ \t]+', ' ', t)

def thai_postprocess(text: str) -> str:
    t = tidy_thai_spacing(text)
    if _HAS_THAI:
        try: t = th_normalize(t)
        except Exception: pass
    return t

# ยูทิลตรวจสัดส่วนสคริปต์ไทย/ละติน เพื่อเลือกภาษา OCR
_TH_RANGE = re.compile(r'[\u0E00-\u0E7F]')
_LATIN_RANGE = re.compile(r'[A-Za-z]')

def script_ratios(text: str) -> tuple[float, float]:
    if not text:
        return 0.0, 0.0
    th = len(_TH_RANGE.findall(text))
    la = len(_LATIN_RANGE.findall(text))
    total = th + la
    if total == 0:
        return 0.0, 0.0
    return th / total, la / total

def choose_ocr_lang_for_text(text: str, default: str = 'tha', latin_threshold: float = 0.15) -> str:
    th_r, la_r = script_ratios(text)
    if la_r >= latin_threshold:
        return 'tha+eng'
    return default

# แบ่งย่อหน้าอย่างชาญฉลาดจากเนื้อหาหน้า (เพิ่มจำนวนย่อหน้าให้ละเอียดขึ้น)
_BULLET_START = re.compile(r"^([\-\•\–\*]|\d+[\.)]|[ก-ฮ]\)|\([0-9]+\)|\([ก-ฮ]\))\s+")
_SENT_SPLIT = re.compile(r"(?<=[\.!?…\u0E2F\u0E5B\u0E46])\s+")

def split_paragraphs_smart(text: str) -> List[str]:
    if not text:
        return []
    t = text.strip()
    # 1) break by blank lines first
    blocks = [b.strip() for b in re.split(r"\n\s*\n+", t) if b.strip()]
    out: List[str] = []
    for b in blocks:
        lines = [ln.rstrip() for ln in b.split('\n')]
        buf: List[str] = []
        for ln in lines:
            if _BULLET_START.search(ln):
                if buf:
                    out.append('\n'.join(buf).strip())
                    buf = []
                out.append(ln.strip())
            else:
                buf.append(ln)
        if buf:
            para = '\n'.join(buf).strip()
            # 2) if too long, split by sentences into ~400-600 chars groups
            if len(para) > 1200:
                sents = [s.strip() for s in _SENT_SPLIT.split(para) if s.strip()]
                pack: List[str] = []
                cur = ''
                for s in sents:
                    if len(cur) + 1 + len(s) > 600:
                        if cur:
                            pack.append(cur.strip())
                        cur = s
                    else:
                        cur = (cur + ' ' + s).strip()
                if cur:
                    pack.append(cur.strip())
                out.extend(pack)
            else:
                out.append(para)
    # safety: drop tiny noise
    out = [p for p in out if len(p.strip()) >= 2]
    return out

def _edge_nonempty_lines(text: str, take_top=2, take_bottom=2) -> tuple:
    lines = [ln.strip() for ln in text.split('\n')]
    top, bottom = [], []
    for ln in lines:
        if ln: top.append(ln)
        if len(top) >= take_top: break
    for ln in reversed(lines):
        if ln: bottom.append(ln)
        if len(bottom) >= take_bottom: break
    return top, list(reversed(bottom))

def _detect_headers_footers(page_texts: list, top_k=2, bottom_k=2, min_occ: int = 3) -> tuple[set, set]:
    top_counter, bot_counter = Counter(), Counter()
    for txt in page_texts:
        t, b = _edge_nonempty_lines(txt, top_k, bottom_k)
        t = [re.sub(r'\s+', ' ', x) for x in t]
        b = [re.sub(r'\s+', ' ', x) for x in b]
        top_counter.update(t); bot_counter.update(b)
    headers = {s for s, c in top_counter.items() if c >= min_occ and len(s) >= 5}
    footers = {s for s, c in bot_counter.items() if c >= min_occ and len(s) >= 3}
    return headers, footers

def _strip_headers_footers(text: str, headers: set, footers: set, window: int = 4) -> tuple[str, str | None, str | None]:
    lines = [ln.rstrip() for ln in text.split('\n')]
    header, footer = None, None
    for i in range(min(window, len(lines))):
        cand = re.sub(r'\s+', ' ', lines[i].strip())
        if cand in headers:
            header = lines[i]; lines[i] = ''; break
    for i in range(len(lines)-1, max(-1, len(lines)-1-window), -1):
        cand = re.sub(r'\s+', ' ', lines[i].strip())
        if cand in footers:
            footer = lines[i]; lines[i] = ''; break
    cleaned = '\n'.join(lines)
    cleaned = re.sub(r'\n{3,}', '\n\n', cleaned)
    return cleaned, header, footer

def extract_pages_with_fallback_to_jsonl(
    pdf_path: str, out_jsonl_path: str, dpi: int = 300, ocr_lang: str = 'tha+eng',
    ocr_dpi: int = 450, min_length: int = 50, min_score: float = 0.2, poppler_bin: str | None = None,
    use_dynamic_lang: bool = True,
) -> str:
    doc = fitz.open(str(pdf_path))
    n_pages = doc.page_count
    mupdf_texts = []
    for p in range(n_pages):
        try: txt = doc.load_page(p).get_text('text') or ''
        except Exception: txt = doc.load_page(p).get_text() or ''
        mupdf_texts.append(txt)
    doc.close()

    # ประเมินระดับเอกสารสำหรับภาษาสำรอง (กรณีหน้านั้นว่าง/คุณภาพต่ำ)
    doc_preview = '\n'.join(mupdf_texts[:min(3, len(mupdf_texts))])
    doc_default_lang = choose_ocr_lang_for_text(doc_preview, default='tha', latin_threshold=0.15) if use_dynamic_lang else ocr_lang

    decisions, need_ocr_indices = [], []
    for i, txt in enumerate(mupdf_texts):
        score = text_quality_score(txt)
        decide_ocr = (not txt.strip()) or (len(txt.strip()) < min_length) or (score < min_score)
        decisions.append(('ocr' if decide_ocr else 'mupdf', score, len(txt.strip())))
        if decide_ocr: need_ocr_indices.append(i)
    ocr_texts = {}
    if need_ocr_indices:
        kwargs = {}
        if (poppler_bin or POPPLER_BIN) and os.name == 'nt':
            kwargs['poppler_path'] = poppler_bin or POPPLER_BIN
        for i in need_ocr_indices:
            imgs = convert_from_path(pdf_path, dpi=ocr_dpi, first_page=i+1, last_page=i+1, **kwargs)
            if imgs:
                if 'AKSONOCR_API_KEY' in globals() and AKSONOCR_API_KEY:
                    # AksonOCR โดยทั่วไป auto-detect ภาษา ไม่ต้องส่งพารามิเตอร์
                    ocr_texts[i] = akson_ocr_image_pil(imgs[0], AKSONOCR_API_KEY) or ''
                else:
                    # เลือกภาษา OCR ต่อหน้าแบบไดนามิก (เริ่มจากไทยก่อน หากเจออักษรละตินมากพอ → tha+eng)
                    lang_page = ocr_lang
                    if use_dynamic_lang:
                        lang_page = choose_ocr_lang_for_text(mupdf_texts[i] or '', default=doc_default_lang, latin_threshold=0.15)
                        if lang_page != ocr_lang:
                            print(f"[page {i+1}] OCR lang override: {ocr_lang} -> {lang_page}")
                    ocr_texts[i] = pytesseract.image_to_string(imgs[0], lang=lang_page) or ''
            else:
                ocr_texts[i] = ''
    chosen_texts, methods = [], []
    for i in range(n_pages):
        method = decisions[i][0]; methods.append(method)
        raw = ocr_texts.get(i, mupdf_texts[i]) if method == 'ocr' else mupdf_texts[i]
        norm = clean_for_index(raw)
        chosen_texts.append(norm)
    headers, footers = _detect_headers_footers(chosen_texts, 2, 2, min_occ=max(3, n_pages // 4 or 1))
    stripped, page_headers, page_footers = [], [], []
    for txt in chosen_texts:
        body, h, f = _strip_headers_footers(txt, headers, footers, window=4)
        stripped.append(body); page_headers.append(h); page_footers.append(f)
    paragraphs_per_page = [split_paragraphs_smart(t) for t in stripped]
    out_path = Path(out_jsonl_path)
    out_path.parent.mkdir(parents=True, exist_ok=True)
    with out_path.open('w', encoding='utf-8') as f:
        for i in range(n_pages):
            rec = {'source': str(Path(pdf_path).resolve()), 'page_no': i+1, 'method': methods[i], 'text': stripped[i], 'paragraphs': paragraphs_per_page[i]}
            if page_headers[i]: rec['header'] = page_headers[i]
            if page_footers[i]: rec['footer'] = page_footers[i]
            f.write(json.dumps(rec, ensure_ascii=False) + '\n')
    ocr_pages = len([m for m in methods if m == "ocr"])
    print(f'Wrote JSONL: {out_path.resolve()} (pages={n_pages}, ocr_pages={ocr_pages}, ocr_dpi={ocr_dpi}, ocr_lang={"dynamic" if use_dynamic_lang and not ("AKSONOCR_API_KEY" in globals() and AKSONOCR_API_KEY) else (ocr_lang if not ("AKSONOCR_API_KEY" in globals() and AKSONOCR_API_KEY) else "aksonocr")})')
    return str(out_path)

# Excel/CSV ingestion → JSONL ต่อชีต และ .txt รวมทั้งไฟล์

def _df_to_sheet_text(df) -> str:
    # แปลงแถวเป็นบรรทัด: รวมแต่ละแถวด้วย " | " แล้วรวมทุกแถวด้วย "\n"
    if df is None or df.empty:
        return ''
    df = df.fillna('')
    df = df.astype(str)
    lines = [' | '.join(c.strip() for c in row if str(c).strip()) for row in df.values.tolist()]
    lines = [ln for ln in lines if ln.strip()]
    return '\n'.join(lines)

def extract_excel_to_jsonl(xl_path: str, out_jsonl_path: str) -> str:
    p = Path(xl_path)
    out_path = Path(out_jsonl_path)
    out_path.parent.mkdir(parents=True, exist_ok=True)

    texts_per_sheet = []
    try:
        if p.suffix.lower() in ['.csv', '.tsv']:
            sep = '\t' if p.suffix.lower() == '.tsv' else ','
            try:
                df = _pd.read_csv(p, sep=sep, encoding='utf-8-sig')
            except Exception:
                df = _pd.read_csv(p, sep=sep, encoding='cp874', errors='ignore')
            sheets = {'CSV': df}
        else:
            sheets = _pd.read_excel(p, sheet_name=None, engine=None)
    except Exception as e:
        print(f'WARN: อ่านไฟล์ตารางไม่สำเร็จ {p.name}: {e}')
        sheets = {}

    with out_path.open('w', encoding='utf-8') as f:
        for idx, (sheet_name, df) in enumerate(sheets.items(), start=1):
            raw = _df_to_sheet_text(df)
            clean = clean_for_index(raw)
            paras = split_paragraphs_smart(clean)
            rec = {
                'source': str(p.resolve()),
                'page_no': idx,            # map ชีต -> page_no ให้ chunker ใช้งานต่อได้
                'sheet': str(sheet_name),
                'method': 'excel',
                'text': clean,
                'paragraphs': paras,
            }
            f.write(json.dumps(rec, ensure_ascii=False) + '\n')
            texts_per_sheet.append(clean)

    print(f'Wrote JSONL (excel): {out_path.resolve()} (sheets={len(texts_per_sheet)})')
    txt_out = out_path.with_suffix('.txt') if out_path.name.endswith('.jsonl') else (out_path.parent / (p.stem + '.txt'))
    txt_out.write_text('\n\n'.join(texts_per_sheet), encoding='utf-8')
    return str(out_path)

In [8]:
# Batch runner: ประมวลผลทุกไฟล์ PDF และ Excel/CSV ในโฟลเดอร์
INPUT_DIR = Path('Source')          # ใช้โฟลเดอร์ฐานข้อมูลที่ให้มา
OUTPUT_DIR = Path('Database')       # โฟลเดอร์ผลลัพธ์ฐานข้อมูลรวม
INPUT_DIR.mkdir(parents=True, exist_ok=True)
OUTPUT_DIR.mkdir(parents=True, exist_ok=True)

# เพิ่มตัวช่วยทำความสะอาดข้อความสำหรับการทำดัชนี
def clean_for_index(text: str) -> str:
    """
    ทำความสะอาดข้อความก่อนเขียนออก/ทำดัชนี:
    - normalize unicode และเว้นบรรทัด
    - รวมคำที่ถูกตัดด้วย hyphen ตอนขึ้นบรรทัดใหม่ (ภาษาอังกฤษ/ตัวเลข)
    - ลดช่องว่างซ้ำและบรรทัดว่างเกินจำเป็น
    - tidy ภาษาไทย (เว้นวรรค/normalize)
    """
    if text is None:
        return ''
    t = normalize_text(text, preserve_newlines=True)
    # รวมคำแบบ hyphen-break เฉพาะอักษรละติน/ตัวเลข
    t = re.sub(r'([A-Za-z0-9])-\n([A-Za-z0-9])', r'\1\2', t)
    # ตัดช่องว่างหัวท้ายของแต่ละบรรทัด
    t = '\n'.join(ln.strip() for ln in t.split('\n'))
    # ลดบรรทัดว่างติดกัน
    t = re.sub(r'\n{3,}', '\n\n', t)
    # tidy ภาษาไทย
    t = thai_postprocess(t)
    return t.strip()

# ตั้งค่าภาษาและ DPI สำหรับ OCR เท่านั้น (MuPDF ยังใช้ได้ตามปกติ)
OCR_LANG = 'tha'     # ตั้งค่าเริ่มต้นเป็นไทย; ระบบจะสลับเป็น 'tha+eng' รายหน้าอัตโนมัติถ้าพบอักษรอังกฤษมากพอ
OCR_DPI = 450        # ปรับเป็น 450/500 หากจำเป็น

pdf_files = sorted([p for p in INPUT_DIR.glob('**/*.pdf')])
excel_globs = ['**/*.xlsx', '**/*.xls', '**/*.csv', '**/*.tsv']
excel_files = []
for patt in excel_globs:
    excel_files.extend(INPUT_DIR.glob(patt))
excel_files = sorted(set(excel_files))

print(f'Found {len(pdf_files)} PDF(s) and {len(excel_files)} table file(s) in {INPUT_DIR.resolve()}')

results = []

# PDFs → JSONL per-page + .txt
for pdf in pdf_files:
    print(f'\nProcessing PDF: {pdf}')
    # 1) JSONL per-page
    jsonl_path = OUTPUT_DIR / (pdf.stem + '.jsonl')
    extract_pages_with_fallback_to_jsonl(
        pdf_path=str(pdf),
        out_jsonl_path=str(jsonl_path),
        dpi=300,
        ocr_lang=OCR_LANG,
        ocr_dpi=OCR_DPI,
        min_length=50,
        min_score=0.2,
        poppler_bin=POPPLER_BIN,
        use_dynamic_lang=True,  # เปิดโหมดเลือกภาษาอัตโนมัติรายหน้า
    )
    # 2) รวมข้อความทั้งไฟล์ และบันทึก .txt (เพื่ออ่านง่าย)
    raw = extract_text_mupdf(str(pdf))
    if not raw.strip():
        if 'AKSONOCR_API_KEY' in globals() and AKSONOCR_API_KEY:
            print('Using AksonOCR for full-file OCR…')
            raw = ocr_pdf_akson(str(pdf), dpi=OCR_DPI, api_key=AKSONOCR_API_KEY, poppler_bin=POPPLER_BIN)
        else:
            # เลือกภาษา OCR ระดับไฟล์: ดูจาก 2-3 หน้าแรก ถ้ามีอักษรละตินมากพอ → tha+eng
            try:
                kwargs = {}
                if (POPPLER_BIN) and os.name == 'nt':
                    kwargs['poppler_path'] = POPPLER_BIN
                _ = convert_from_path(str(pdf), dpi=200, first_page=1, last_page=min(3, 9999), **kwargs)
                preview_text = extract_text_mupdf(str(pdf))[:5000]
                doc_lang = choose_ocr_lang_for_text(preview_text, default='tha', latin_threshold=0.15)
            except Exception:
                doc_lang = OCR_LANG
            print(f'Full-file OCR lang = {doc_lang}')
            raw = ocr_pdf(str(pdf), dpi=OCR_DPI, lang=doc_lang, poppler_bin=POPPLER_BIN)
    clean = clean_for_index(raw)
    txt_out = OUTPUT_DIR / (pdf.stem + '.txt')
    txt_out.write_text(clean, encoding='utf-8')
    results.append((pdf.name, len(clean)))

# Excel/CSV → JSONL per-sheet + .txt
for xf in excel_files:
    print(f'\nProcessing EXCEL: {xf}')
    jsonl_path = OUTPUT_DIR / (xf.stem + '.jsonl')
    extract_excel_to_jsonl(str(xf), str(jsonl_path))
    try:
        total_txt = (OUTPUT_DIR / (xf.stem + '.txt')).read_text(encoding='utf-8')
        results.append((xf.name, len(total_txt)))
    except Exception:
        pass

print('\nDone.')
for name, n in results:
    print(f'- {name}: {n} chars')

Found 61 PDF(s) and 2 table file(s) in C:\Users\KritChaJ\OneDrive\Documents\Project CPE\notebooks\Source

Processing PDF: Source\129.pdf
Wrote JSONL: C:\Users\KritChaJ\OneDrive\Documents\Project CPE\notebooks\Database\129.jsonl (pages=2, ocr_pages=2, ocr_dpi=450, ocr_lang=dynamic)
Full-file OCR lang = tha

Processing PDF: Source\131.pdf
Wrote JSONL: C:\Users\KritChaJ\OneDrive\Documents\Project CPE\notebooks\Database\131.jsonl (pages=2, ocr_pages=2, ocr_dpi=450, ocr_lang=dynamic)
Full-file OCR lang = tha

Processing PDF: Source\133.pdf
Wrote JSONL: C:\Users\KritChaJ\OneDrive\Documents\Project CPE\notebooks\Database\133.jsonl (pages=2, ocr_pages=2, ocr_dpi=450, ocr_lang=dynamic)
Full-file OCR lang = tha

Processing PDF: Source\135.pdf
Wrote JSONL: C:\Users\KritChaJ\OneDrive\Documents\Project CPE\notebooks\Database\135.jsonl (pages=2, ocr_pages=2, ocr_dpi=450, ocr_lang=dynamic)
Full-file OCR lang = tha

Processing PDF: Source\137.pdf
Wrote JSONL: C:\Users\KritChaJ\OneDrive\Documents\Proje

In [9]:
# Aggregator: รวม JSONL ทั้งหมดเป็น index.jsonl และสร้าง manifest.json\nfrom datetime import datetime\n\njsonl_files = sorted(OUTPUT_DIR.glob('*.jsonl'))\nindex_path = OUTPUT_DIR / 'index.jsonl'\nmanifest_path = OUTPUT_DIR / 'manifest.json'\n\n# รวมไฟล์ JSONL เข้าด้วยกัน พร้อมเติมข้อมูลไฟล์ต้นทาง\nrecords = 0\nwith index_path.open('w', encoding='utf-8') as out_f:\n    for jf in jsonl_files:\n        try:\n            for line in jf.read_text(encoding='utf-8').splitlines():\n                if not line.strip():\n                    continue\n                obj = json.loads(line)\n                # enrich metadata\n                obj['file_jsonl'] = str(jf.resolve())\n                obj['file_name'] = jf.stem\n                out_f.write(json.dumps(obj, ensure_ascii=False) + '\n')\n                records += 1\n        except Exception as e:\n            print(f'WARN: skip {jf.name}: {e}')\n\n# สร้าง manifest ของฐานข้อมูล\nmanifest = {\n    'created_at': datetime.utcnow().isoformat() + 'Z',\n    'input_dir': str(INPUT_DIR.resolve()),\n    'output_dir': str(OUTPUT_DIR.resolve()),\n    'files_count': len(jsonl_files),\n    'records': records,\n    'notes': 'index.jsonl รวมทุกหน้า ทุกเอกสาร; แต่ละบรรทัดมี fields เช่น source(ไฟล์ PDF), page_no, method, text, paragraphs',\n}\nmanifest_path.write_text(json.dumps(manifest, ensure_ascii=False, indent=2), encoding='utf-8')\nprint(f'Wrote index: {index_path.resolve()} (records={records})')\nprint(f'Wrote manifest: {manifest_path.resolve()}')

In [12]:
# Semantic-first chunker: จาก Database/index.jsonl → Database/chunks.jsonl
# เป้าหมาย: ชิ้นข้อความ 400–800 โทเคน (ไทย ~ 1 โทเคน ≈ 4 ตัวอักษร), overlap 10–15%, รักษาโครงสร้าง
import math, json, re, time
from datetime import datetime
from pathlib import Path

# ค่าตั้งต้น (ปรับได้)
TARGET_MIN_TOKENS = 400
TARGET_MAX_TOKENS = 800
OVERLAP_RATIO     = 0.12   # 12%
SIM_BREAK_THRESHOLD = 0.5   # ทางเลือก (ยังไม่ใช้ embedding หนัก)
CHAR_PER_TOKEN    = 4.0     # ไทย: ประมาณ 1 โทเคน ≈ 4 ตัวอักษร

# Metadata เริ่มต้นสำหรับ RAG/ACL
DEFAULT_OWNER = "owner:unknown"
DEFAULT_SENSITIVITY = "internal"  # public|internal|confidential

# ยูทิลนับโทเคนคร่าว ๆ (ไทย)
def est_tokens(text: str) -> int:
    return max(1, int(math.ceil(len(text) / CHAR_PER_TOKEN)))

# แปลงชื่อไฟล์/เอกสารให้เป็นรูปแบบ normalized (เช่น policy_2024.txt)
def normalize_doc_name(src_path: str) -> str:
    name = Path(src_path).stem.lower()
    # อนุญาต a-z0-9 และตัวอักษรไทย; ที่เหลือแทนด้วย _
    name = re.sub(r"[^0-9A-Za-z\u0E00-\u0E7F]+", "_", name).strip("_")
    if not name:
        name = "document"
    if not name.endswith(".txt"):
        name = f"{name}.txt"
    return name

# ตรวจหัวข้อ/หัวเรื่อง
_HEADING_PATTS = [
    r"^บท\s*ที่\s*\d+", r"^หมวด\s*ที่?\s*\d+", r"^ภาคผนวก", r"^บท\s*\d+",
    r"^(?:\d+\.)+\s+",  # 1. , 1.1. , 2.3.4.
    r"^\d+\)\s+",       # 1)
    r"^[A-Za-zก-๙]+\s*:\s+",  # Topic:
]
_HEADING_RE = re.compile("|".join(_HEADING_PATTS))

# ตรวจรายการ (bullet/ข้อ/อนุข้อ)
_BULLET_PATTS = [
    r"^[\-\•\–]\s+", r"^\u0E51\.|^๑\.",  # - , • , – , ๑.
    r"^[ก-ฮ]\)\s+",    # ก) ข) ค)
    r"^\([ก-ฮ]\)\s+", r"^\([0-9]+\)\s+",
]
_BULLET_RE = re.compile("|".join(_BULLET_PATTS))

# แบ่งประโยคแบบคร่าว ๆ (ไทย/อังกฤษปน)
_SENT_SPLIT_RE = re.compile(r"(?<=[\.!?…\u0E2F\u0E5B\u0E46\u0E2E])\s+")

def is_heading(text: str) -> bool:
    t = text.strip()
    return bool(_HEADING_RE.search(t))

def is_bullet(text: str) -> bool:
    t = text.strip()
    return bool(_BULLET_RE.search(t))

def split_sentences(text: str) -> list[str]:
    # พยายามตัดตามเครื่องหมายวรรคตอนก่อน ถ้าไม่ได้ผลค่อย fallback
    t = text.strip()
    parts = _SENT_SPLIT_RE.split(t)
    if len(parts) > 1:
        return [p.strip() for p in parts if p.strip()]
    # fallback: ตัดทุก ~300–500 ตัวอักษรเพื่อเลี่ยงชิ้นยาวเกินไป (ไทยไม่มีช่องว่าง)
    max_chars = int(TARGET_MAX_TOKENS * CHAR_PER_TOKEN * 0.6)
    if max_chars < 300:
        max_chars = 300
    out = []
    i = 0
    while i < len(t):
        out.append(t[i:i+max_chars])
        i += max_chars
    return out

def group_bullets(paragraphs: list[dict]) -> list[dict]:
    """รวมบรรทัด bullet ติดกันเป็นบล็อกเดียว เพื่อเลี่ยงการตัดกลางข้อ"""
    grouped = []
    buf = []
    for p in paragraphs:
        if is_bullet(p['text']):
            buf.append(p)
        else:
            if buf:
                # รวม bullets ก่อนหน้าเป็นหนึ่งย่อหน้า
                merged = {**buf[0]}
                merged['text'] = "\n".join(x['text'] for x in buf)
                grouped.append(merged)
                buf = []
            grouped.append(p)
    if buf:
        merged = {**buf[0]}
        merged['text'] = "\n".join(x['text'] for x in buf)
        grouped.append(merged)
    return grouped

def load_index(index_path: Path) -> list[dict]:
    recs = []
    with index_path.open('r', encoding='utf-8') as f:
        for line in f:
            line = line.strip()
            if not line:
                continue
            recs.append(json.loads(line))
    # ควรเรียงตาม source, page_no เพื่อคงลำดับ
    recs.sort(key=lambda r: (r.get('source',''), r.get('page_no', 0)))
    return recs

def paragraphs_from_records(recs: list[dict]) -> list[dict]:
    """สร้างลิสต์ย่อหน้าโดยคง page_no และตรวจหัวข้อ"""
    out = []
    for r in recs:
        page_raw = r.get('page_no')
        try:
            page = int(page_raw) if page_raw is not None else 0
        except (ValueError, TypeError):
            page = 0
        paras = r.get('paragraphs') or [r.get('text','')]
        for t in paras:
            if not t or not t.strip():
                continue
            out.append({
                'page': page,
                'text': t.strip(),
                'is_heading': is_heading(t),
            })
    return group_bullets(out)

def make_chunks(paragraphs: list[dict], source_path: str) -> list[dict]:
    """
    เขียนชิ้นข้อมูลด้วยเมทาดาทาตามสคีมาแนะนำ:
    - source: ชื่อไฟล์/ชื่อเอกสารหลัง normalize (เช่น policy_2024.txt)
    - path  : พาธเต็มของไฟล์บนระบบ
    - page  : หน้าอ้างอิงหลัก (ถ้าคร่อมหลายหน้า ให้เป็นหน้าแรก)
    - owner : เจ้าของเอกสาร/ทีม
    - sensitivity: public|internal|confidential
    - updated_at: unix epoch (วินาที)
    - page_start/page_end: ระบุช่วงหน้า (ยังคง page = page_start)
    """
    chunks = []
    cur_texts = []
    cur_pages = []
    cur_tokens = 0
    cur_section = None

    src_name = normalize_doc_name(source_path)
    full_path = str(Path(source_path).resolve())

    def add_paragraph(p):
        nonlocal cur_tokens
        cur_texts.append(p['text'])
        cur_pages.append(p['page'])
        cur_tokens += est_tokens(p['text'])

    def finalize_chunk(overlap_tail: str | None = None):
        nonlocal cur_texts, cur_pages, cur_tokens
        if not cur_texts:
            return
        text = (overlap_tail + "\n" if overlap_tail else "") + "\n\n".join(cur_texts).strip()
        # ป้องกันกรณี page_no เป็น None หรือไม่ใช่ตัวเลข
        valid_pages = []
        for pg in cur_pages:
            try:
                if pg is not None:
                    valid_pages.append(int(pg))
            except (ValueError, TypeError):
                pass
        page_start = min(valid_pages) if valid_pages else 0
        page_end   = max(valid_pages) if valid_pages else 0
        chunk = {
            'source': src_name,
            'path': full_path,
            'page': page_start,
            'page_start': page_start,
            'page_end': page_end,
            'owner': DEFAULT_OWNER,
            'sensitivity': DEFAULT_SENSITIVITY,
            'updated_at': int(time.time()),  # unix epoch seconds
            'text': text,
            'tokens_est': est_tokens(text),
        }
        chunks.append(chunk)
        cur_texts = []
        cur_pages = []
        cur_tokens = 0

    i = 0
    n = len(paragraphs)
    while i < n:
        p = paragraphs[i]
        # พบหัวข้อ: ปิดชิ้นก่อนหน้า (ถ้าชิ้นมีเนื้อหา) เพื่อรักษาโครงสร้าง
        if p['is_heading']:
            if cur_texts:
                text_joined = "\n\n".join(cur_texts)
                overlap_chars = int(OVERLAP_RATIO * len(text_joined))
                tail = text_joined[-overlap_chars:] if overlap_chars > 0 else None
                finalize_chunk()
                carry_tail = tail
            else:
                carry_tail = None
            cur_section = p['text']
            add_paragraph(p)
            # หากหัวข้อยาวมาก ให้ซอยด้วยประโยค
            if cur_tokens > TARGET_MAX_TOKENS:
                sents = split_sentences(p['text'])
                cur_texts = []
                cur_pages = [p['page']]
                cur_tokens = 0
                buf = []
                for s in sents:
                    if est_tokens("\n".join(buf + [s])) > TARGET_MAX_TOKENS:
                        finalize_chunk(carry_tail)
                        carry_tail = None
                        buf = [s]
                    else:
                        buf.append(s)
                if buf:
                    joined = " ".join(buf)
                    cur_texts = [joined]
                    cur_tokens = est_tokens(joined)
            # บันทึก tail เมื่อ finalize ครั้งถัดไป
            _pending_tail = carry_tail
            def _finalize_with_pending():
                nonlocal _pending_tail
                finalize_chunk(_pending_tail)
                _pending_tail = None
            finalize_current = _finalize_with_pending  # not used elsewhere but kept for clarity
        else:
            # ย่อหน้าทั่วไป
            if cur_tokens + est_tokens(p['text']) <= TARGET_MAX_TOKENS:
                add_paragraph(p)
            else:
                # เกิน TARGET_MAX → ปิดชิ้นที่มีอยู่ พร้อม overlap
                text_joined = "\n\n".join(cur_texts)
                overlap_chars = int(OVERLAP_RATIO * len(text_joined))
                tail = text_joined[-overlap_chars:] if overlap_chars > 0 else None
                finalize_chunk(tail)
                # เริ่มชิ้นใหม่ด้วยย่อหน้าปัจจุบัน ถ้ายังยาวไป ให้ซอยเป็นประโยค
                if est_tokens(p['text']) > TARGET_MAX_TOKENS:
                    sents = split_sentences(p['text'])
                    buf = []
                    for s in sents:
                        if est_tokens("\n".join(buf + [s])) > TARGET_MAX_TOKENS:
                            finalize_chunk()  # ไม่มี overlap ในกลางย่อหน้า
                            buf = [s]
                        else:
                            buf.append(s)
                    if buf:
                        joined = " ".join(buf)
                        cur_texts = [joined]
                        cur_pages = [p['page']]
                        cur_tokens = est_tokens(joined)
                    else:
                        cur_texts, cur_pages, cur_tokens = [], [], 0
                else:
                    cur_texts, cur_pages, cur_tokens = [p['text']], [p['page']], est_tokens(p['text'])
        i += 1

    # ปิดชิ้นสุดท้าย
    finalize_chunk()
    return chunks

# สร้าง chunks.jsonl จาก index.jsonl
INDEX_PATH = OUTPUT_DIR / 'index.jsonl'
CHUNKS_PATH = OUTPUT_DIR / 'chunks.jsonl'

# Fallback: ถ้า index.jsonl ยังไม่มี ให้รวมจากไฟล์ .jsonl ต่อไฟล์ก่อน (เหมือน aggregator ย่อส่วน)
def _build_index_if_missing(output_dir: Path, index_path: Path) -> int:
    if index_path.exists():
        return 0
    jsonl_files = [p for p in sorted(output_dir.glob('*.jsonl')) if p.name not in ('index.jsonl', 'manifest.json')]
    records = 0
    index_path.parent.mkdir(parents=True, exist_ok=True)
    with index_path.open('w', encoding='utf-8') as out_f:
        for jf in jsonl_files:
            try:
                for line in jf.read_text(encoding='utf-8').splitlines():
                    if not line.strip():
                        continue
                    obj = json.loads(line)
                    obj['file_jsonl'] = str(jf.resolve())
                    obj['file_name']  = jf.stem
                    out_f.write(json.dumps(obj, ensure_ascii=False) + '\n')
                    records += 1
            except Exception as e:
                print(f'WARN: skip {jf.name}: {e}')
    if records:
        print(f'Built missing index.jsonl (records={records})')
    return records

# สร้าง index ถ้ายังไม่มี
_build_index_if_missing(OUTPUT_DIR, INDEX_PATH)

if INDEX_PATH.exists():
    recs = load_index(INDEX_PATH)
    # จัดกลุ่มตามไฟล์ (source)
    by_src = {}
    for r in recs:
        by_src.setdefault(r.get('source','unknown'), []).append(r)
    all_chunks = []
    for src, items in by_src.items():
        paras = paragraphs_from_records(items)
        chunks = make_chunks(paras, src)
        all_chunks.extend(chunks)
    # เขียนออกเป็น JSONL
    with CHUNKS_PATH.open('w', encoding='utf-8') as f:
        for ch in all_chunks:
            f.write(json.dumps(ch, ensure_ascii=False) + '\n')
    print(f'Wrote chunks: {CHUNKS_PATH.resolve()} (chunks={len(all_chunks)})')
else:
    print('index.jsonl not found and could not be built. Run the batch and aggregator steps first.')

Wrote chunks: C:\Users\KritChaJ\OneDrive\Documents\Project CPE\notebooks\Database\chunks.jsonl (chunks=1213)


## Usage

1) วางไฟล์ PDF ในโฟลเดอร์ `Source` (รองรับซับโฟลเดอร์)
2) รันเซลล์ตามลำดับจนถึง Aggregator (จะได้ `Database/index.jsonl` และ `Database/manifest.json`)
3) รันเซลล์ Semantic-first chunker (จะได้ `Database/chunks.jsonl`) พร้อม metadata: source/path, page_start/page_end, section_title, owner, sensitivity, updated_at, allowed_groups

ปรับแต่งได้:
- OCR: ตั้ง `OCR_LANG` เป็น 'tha+eng' หรือ 'tha'; ตั้ง `OCR_DPI` เป็น 400–450 เมื่อคุณภาพแย่
- Chunking: ตั้ง `TARGET_MIN_TOKENS`/`TARGET_MAX_TOKENS` (แนะนำ 400–800), `OVERLAP_RATIO` (10–15%)
- โครงสร้าง: ตัว chunker พยายามรักษาหัวข้อ/รายการ และเลี่ยงตัดกลางข้อ; ถ้ายาวเกินจะซอยที่ย่อหน้า/ประโยคแบบค่อยเป็นค่อยไป


## Indexing: Embeddings (BAAI/bge-m3) → Qdrant + BM25 (Local) + Hybrid (RRF)

> สรุปเวิร์กโฟลว์พร้อมรัน:
- โหลดชิ้นข้อมูลจาก `Database/chunks.jsonl` หรือ `output/chunks/*.jsonl`
- ฝั่งเวกเตอร์: สร้าง embedding ด้วย `BAAI/bge-m3` แล้วอัปโหลดเข้า Qdrant
- ฝั่งคีย์เวิร์ด: สร้าง Local BM25 (rank-bm25) และบันทึกไว้ที่ `Database/bm25_index.pkl`
- Hybrid Retrieval: รวมผล Vector + BM25 ด้วย Reciprocal Rank Fusion (RRF)

> ตั้งค่าได้ผ่าน ENV หรือแก้ในโค้ด:
- Qdrant: `QDRANT_URL` (เช่น http://127.0.0.1:6333), `QDRANT_API_KEY` (ถ้ามี), `QDRANT_COLLECTION`
- Embedding model: `EMB_MODEL` (เช่น BAAI/bge-m3)
- Hybrid: `RRF_K` (ค่าคงที่ในสูตร RRF; ค่าเริ่มต้น 60)

In [8]:
# Indexing pipeline: Chunks → Embeddings (bge-m3) → Qdrant + Local BM25 (pickle)
import os, json, time, hashlib, uuid, re, pickle
from pathlib import Path
from typing import List, Dict

# ติดตั้งไลบรารีที่จำเป็น (ตัด OpenSearch ออก ใช้ Local BM25 แทน)
import sys, subprocess

def pip_install(pkgs):
    try:
        subprocess.check_call([sys.executable, '-m', 'pip', 'install', '--upgrade', *pkgs])
    except Exception as e:
        print('Package install finished with message:', e)

pip_install(['sentence-transformers','qdrant-client','rank-bm25','tqdm'])

from sentence_transformers import SentenceTransformer
from qdrant_client import QdrantClient
from qdrant_client.http.models import VectorParams, Distance, PointStruct
from rank_bm25 import BM25Okapi
from tqdm import tqdm

# ----------------------
## คอนฟิกพื้นฐานจาก ENV
QDRANT_URL = os.getenv('QDRANT_URL', 'http://127.0.0.1:6333')
QDRANT_API_KEY = os.getenv('QDRANT_API_KEY', None)
QDRANT_COLLECTION = os.getenv('QDRANT_COLLECTION', 'kb_chunks')

# แหล่ง chunks
DB_CHUNKS = Path('Database') / 'chunks.jsonl'
ALT_DIR = Path('output') / 'chunks'


def iter_chunks() -> List[Dict]:
    docs = []
    if DB_CHUNKS.exists():
        with DB_CHUNKS.open('r', encoding='utf-8') as f:
            for line in f:
                line = line.strip()
                if line:
                    docs.append(json.loads(line))
    elif ALT_DIR.exists():
        for fp in sorted(ALT_DIR.glob('*.jsonl')):
            with fp.open('r', encoding='utf-8') as f:
                for line in f:
                    line = line.strip()
                    if line:
                        docs.append(json.loads(line))
    else:
        raise FileNotFoundError('ไม่พบ chunks: ควรมี Database/chunks.jsonl หรือ output/chunks/*.jsonl')
    # เติม id ถ้าไม่มี
    for d in docs:
        if 'id' not in d or not d.get('id'):
            basis = f"{d.get('path','')}|{d.get('page_start','')}|{d.get('page_end','')}|{(d.get('text','')[:64]).strip()}"
            d['id'] = hashlib.sha1(basis.encode('utf-8','ignore')).hexdigest()[:24]
    return docs


docs = iter_chunks()
print(f'Loaded chunks: {len(docs)}')

# ----------------------
## ฝั่งเวกเตอร์ → Qdrant
model_name = 'BAAI/bge-m3'
embedder = SentenceTransformer(model_name)

texts = [d.get('text','') for d in docs]
if texts:
    print('Encoding embeddings…')
    embeddings = embedder.encode(texts, batch_size=64, show_progress_bar=True, normalize_embeddings=True)
    dim = len(embeddings[0])
    print(f'Embedding dim = {dim}')
else:
    embeddings = []
    dim = 0
    print('No texts to embed')


def setup_qdrant(url: str, api_key: str | None):
    try:
        client = QdrantClient(
    url="https://9c2d3f64-67cb-49bf-a307-da136cc9b9f2.us-east4-0.gcp.cloud.qdrant.io:6333", 
    api_key="eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJhY2Nlc3MiOiJtIn0.52N3m9ijtSQUG_4lnTk3hsP7Y9WuUV5TfRGwHP114pg",
)
        try:
            client.get_collection(QDRANT_COLLECTION)
        except Exception:
            client.recreate_collection(
                collection_name=QDRANT_COLLECTION,
                vectors_config=VectorParams(size=dim, distance=Distance.COSINE),
            )
        return client
    except Exception as e:
        print('Qdrant setup error:', e)
        return None


qdrant = setup_qdrant(QDRANT_URL, QDRANT_API_KEY)
if qdrant is not None and len(embeddings) > 0:
    print('Upserting to Qdrant…')
    batch = []
    for d, vec in tqdm(list(zip(docs, embeddings)), total=len(docs)):
        payload = {
            'text': d.get('text',''),
            'source': d.get('source'),
            'path': d.get('path'),
            'page': d.get('page'),
            'page_start': d.get('page_start'),
            'page_end': d.get('page_end'),
            'owner': d.get('owner'),
            'sensitivity': d.get('sensitivity'),
            'updated_at': d.get('updated_at'),
            'tokens_est': d.get('tokens_est'),
        }
        qid = uuid.uuid5(uuid.NAMESPACE_URL, str(d['id']))
        batch.append(PointStruct(id=str(qid), vector=vec.tolist(), payload=payload))
        if len(batch) >= 128:
            qdrant.upsert(collection_name=QDRANT_COLLECTION, points=batch)
            batch = []
    if batch:
        qdrant.upsert(collection_name=QDRANT_COLLECTION, points=batch)
    print('Qdrant upsert done.')
else:
    print('Skip Qdrant (no client or no embeddings)')

# ----------------------
## ฝั่งคีย์เวิร์ด → Local BM25 (pickle)
try:
    from pythainlp.tokenize import word_tokenize as th_word_tokenize
    def tokenize(text: str) -> list[str]:
        return [t.strip().lower() for t in th_word_tokenize(text or '', engine='newmm') if t.strip()]
    tokenizer_name = 'thai-newmm'
except Exception:
    def tokenize(text: str) -> list[str]:
        return [t.strip().lower() for t in (text or '').split() if t.strip()]
    tokenizer_name = 'simple-space'

print(f'Tokenizer = {tokenizer_name}')

corpus_tokens = [tokenize(d.get('text','')) for d in docs]
print('Building BM25 index…')
bm25 = BM25Okapi(corpus_tokens)

bm25_store = {
    'type': 'BM25Okapi',
    'tokenizer': tokenizer_name,
    'created_at': time.time(),
    'doc_ids': [d['id'] for d in docs],
    'metadata': [
        {
            'id': d['id'],
            'source': d.get('source'),
            'path': d.get('path'),
            'page': d.get('page'),
            'page_start': d.get('page_start'),
            'page_end': d.get('page_end'),
            'owner': d.get('owner'),
            'sensitivity': d.get('sensitivity'),
            'updated_at': d.get('updated_at'),
            'text': d.get('text',''),
        } for d in docs
    ],
    'bm25': bm25,
}

bm25_path = Path('Database') / 'bm25_index.pkl'
bm25_path.parent.mkdir(parents=True, exist_ok=True)
with bm25_path.open('wb') as f:
    pickle.dump(bm25_store, f)
print(f'Saved Local BM25 index to: {bm25_path.resolve()}')


# helper: โหลดและค้นหา BM25
import numpy as np

def load_bm25(path: Path | str = bm25_path):
    p = Path(path)
    with p.open('rb') as f:
        return pickle.load(f)


def bm25_search(query: str, top_k: int = 10, idx: dict | None = None) -> List[Dict]:
    index = idx or load_bm25()
    q_tokens = tokenize(query)
    scores = index['bm25'].get_scores(q_tokens)
    order = np.argsort(scores)[::-1][:top_k]
    results = []
    for i in order:
        meta = index['metadata'][int(i)]
        results.append({ **meta, 'score_bm25': float(scores[int(i)]) })
    return results

print('Indexing pipeline finished (Qdrant + Local BM25).')

Loaded chunks: 1213
Encoding embeddings…
Encoding embeddings…


Batches: 100%|██████████| 19/19 [12:27<00:00, 39.33s/it]



Embedding dim = 1024
Upserting to Qdrant…
Upserting to Qdrant…


100%|██████████| 1213/1213 [00:10<00:00, 110.60it/s]



Qdrant upsert done.
Tokenizer = thai-newmm
Tokenizer = thai-newmm
Building BM25 index…
Saved Local BM25 index to: C:\Users\KritChaJ\OneDrive\Documents\Project CPE\notebooks\Database\bm25_index.pkl
Indexing pipeline finished (Qdrant + Local BM25).
Building BM25 index…
Saved Local BM25 index to: C:\Users\KritChaJ\OneDrive\Documents\Project CPE\notebooks\Database\bm25_index.pkl
Indexing pipeline finished (Qdrant + Local BM25).


In [10]:
# Hybrid Retrieval: Local BM25 + Qdrant (RRF fusion)
import os
from typing import List, Dict, Optional

from qdrant_client import QdrantClient
from qdrant_client.http.models import Filter, FieldCondition, MatchValue

# ใช้ embedder/qdrant จากเซลล์ก่อนหน้า ถ้าไม่มีให้สร้างใหม่แบบ fallback
try:
    embedder
except NameError:
    from sentence_transformers import SentenceTransformer
    EMB_MODEL = os.getenv('EMB_MODEL', 'BAAI/bge-m3')
    embedder = SentenceTransformer(EMB_MODEL)

QDRANT_URL = os.getenv('QDRANT_URL', 'http://127.0.0.1:6333')
QDRANT_API_KEY = os.getenv('QDRANT_API_KEY', None)
QDRANT_COLLECTION = os.getenv('QDRANT_COLLECTION', 'kb_chunks')

try:
    qdr
except NameError:
    qdr = QdrantClient(url=QDRANT_URL, api_key=QDRANT_API_KEY or None)

RRF_K = int(os.getenv('RRF_K', 60))


def _make_filter(owner: Optional[str], sensitivity: Optional[str]) -> Optional[Filter]:
    must = []
    if owner:
        must.append(FieldCondition(key='owner', match=MatchValue(value=owner)))
    if sensitivity:
        must.append(FieldCondition(key='sensitivity', match=MatchValue(value=sensitivity)))
    return Filter(must=must) if must else None


def topk_vector(query: str, k: int = 30, owner: str | None = None, sensitivity: str | None = None) -> List[Dict]:
    qvec = embedder.encode(query, normalize_embeddings=True).tolist()
    flt = _make_filter(owner, sensitivity)
    hits = qdr.search(
        collection_name=QDRANT_COLLECTION,
        query_vector=qvec,
        limit=k,
        query_filter=flt,
        with_payload=True,
        with_vectors=False,
    )
    out = []
    for r, h in enumerate(hits, 1):
        pl = h.payload or {}
        out.append({
            'id': h.id,
            'text': pl.get('text', ''),
            'meta': pl,
            'vec_rank': r,
            'vec_score': float(h.score),
        })
    return out


def topk_bm25_local(query: str, k: int = 30, owner: str | None = None, sensitivity: str | None = None) -> List[Dict]:
    # ใช้ BM25 ที่บันทึกไว้ (และ helper bm25_search) จากเซลล์ก่อนหน้า
    try:
        idx = load_bm25()
    except Exception as e:
        raise RuntimeError('BM25 index not found. Run the indexing cell first.') from e

    # ดึงมามากกว่าที่ต้องการเล็กน้อยก่อน แล้วค่อยกรองตาม owner/sensitivity
    initial = bm25_search(query, top_k=max(k * 5, 100), idx=idx)
    out = []
    rank = 0
    for rec in initial:
        meta = rec
        if owner and meta.get('owner') != owner:
            continue
        if sensitivity and meta.get('sensitivity') != sensitivity:
            continue
        rank += 1
        out.append({
            'id': meta['id'],
            'text': meta.get('text', ''),
            'meta': meta,
            'bm25_rank': rank,
            'bm25_score': float(meta.get('score_bm25', 0.0)),
        })
        if len(out) >= k:
            break
    return out


def hybrid_rrf(query: str, k_vec: int = 30, k_bm25: int = 30, topk: int = 12,
               owner: str | None = None, sensitivity: str | None = None,
               rrf_k: int | None = None) -> List[Dict]:
    rrf_c = rrf_k if rrf_k is not None else RRF_K
    v = topk_vector(query, k_vec, owner, sensitivity)
    b = topk_bm25_local(query, k_bm25, owner, sensitivity)

    bank: Dict[str, Dict] = {}
    rrf: Dict[str, float] = {}

    for d in v:
        k = str(d['id'])
        bank.setdefault(k, d)
        rrf[k] = rrf.get(k, 0.0) + 1.0 / (rrf_c + d['vec_rank'])
    for d in b:
        k = str(d['id'])
        bank.setdefault(k, d)
        rrf[k] = rrf.get(k, 0.0) + 1.0 / (rrf_c + d['bm25_rank'])

    merged = []
    for k, score in rrf.items():
        base = bank[k]
        merged.append({ **base, 'id': k, 'rrf': float(score) })
    merged.sort(key=lambda x: x['rrf'], reverse=True)
    return merged[:topk]

# ตัวอย่างการใช้งาน (แก้ query แล้วรัน):
# results = hybrid_rrf('หลักเกณฑ์การรับสมัคร', k_vec=30, k_bm25=30, topk=12)
# for i, r in enumerate(results, 1):
#     print(i, r.get('meta',{}).get('path'), r.get('rrf'))

In [11]:
# Rerank (Cross-Encoder) for better final ordering
import os
from typing import List, Dict

from sentence_transformers import CrossEncoder

RERANK_MODEL = os.getenv('RERANK_MODEL', 'BAAI/bge-reranker-v2-m3')
# หมายเหตุ: โมเดลนี้จะดาวน์โหลดครั้งแรก อาจใช้เวลาหลายนาที
reranker = CrossEncoder(RERANK_MODEL)


def rerank(query: str, docs: List[Dict], topk: int = 6) -> List[Dict]:
    if not docs:
        return []
    pairs = [(query, d.get('text', '')) for d in docs]
    scores = reranker.predict(pairs)
    try:
        scores = scores.tolist()
    except Exception:
        scores = list(scores)
    for d, s in zip(docs, scores):
        d['rerank'] = float(s)
    return sorted(docs, key=lambda x: x.get('rerank', 0.0), reverse=True)[:topk]


def hybrid_rrf_then_rerank(query: str,
                           k_vec: int = 30,
                           k_bm25: int = 30,
                           topk_rrf: int = 20,
                           topk_final: int = 8,
                           owner: str | None = None,
                           sensitivity: str | None = None) -> List[Dict]:
    """
    1) ดึงผลแบบ Hybrid (RRF) จาก Qdrant + Local BM25
    2) ใช้ Cross-Encoder rerank เพื่อเรียงผลลัพธ์สุดท้าย
    """
    base = hybrid_rrf(query, k_vec=k_vec, k_bm25=k_bm25, topk=topk_rrf,
                      owner=owner, sensitivity=sensitivity)
    return rerank(query, base, topk=topk_final)

# ตัวอย่างการใช้งาน (แก้ query แล้วรัน):
# rrf_results = hybrid_rrf('ระเบียบการรับสมัคร', k_vec=30, k_bm25=30, topk=20)
# final_results = rerank('ระเบียบการรับสมัคร', rrf_results, topk=8)
# หรือแบบ one-shot:
# final_results = hybrid_rrf_then_rerank('ระเบียบการรับสมัคร', k_vec=30, k_bm25=30, topk_rrf=20, topk_final=8)
# for i, r in enumerate(final_results, 1):
#     print(i, r.get('meta', {}).get('path'), r.get('rerank'))

## Context packing + citations (token-budget aware)

- Packs hybrid (or reranked) results into a single context string respecting a token budget
- Adds bracketed citations like `[1] source:page` and returns a map for rendering footnotes
- Uses a Hugging Face tokenizer if available; falls back to a simple Thai-friendly estimator

In [12]:
# Token-budget context packer + citations + prompt builder
import os
from typing import List, Dict, Tuple

# Try to use a real tokenizer (Hugging Face). If unavailable, fall back to a simple estimator
try:
    from transformers import AutoTokenizer  # type: ignore
    LLM_TOKENIZER = os.getenv('LLM_TOKENIZER', 'meta-llama/Llama-3-8b')
    _tok = AutoTokenizer.from_pretrained(LLM_TOKENIZER, use_fast=True, trust_remote_code=True)
    def _count_tokens(text: str) -> int:
        return len(_tok.encode(text, add_special_tokens=False))
    _TOKENIZER_NAME = LLM_TOKENIZER
except Exception:
    _tok = None
    def _count_tokens(text: str) -> int:
        # Thai heuristic: ~4 chars/token
        t = max(1, int(round(len(text) / 4)))
        return t
    _TOKENIZER_NAME = 'heuristic-4chars-per-token'

print('Context packer using tokenizer:', _TOKENIZER_NAME)


def pack_context(chunks: List[Dict], budget_tokens: int = 1200) -> Tuple[str, Dict[int, str]]:
    """
    Pack chunks into a single context string under a token budget.
    Each chunk gets a bracketed index [i] and a citation string built from metadata.

    Input chunk schema (expected fields):
      - 'text': the chunk text
      - 'meta': dict with fields like 'url' or ('source', 'page')

    Returns:
      - ctx: concatenated context string
      - cites: mapping from i -> citation string for rendering
    """
    if not chunks:
        return '', {}

    packed = []
    used = 0
    for i, c in enumerate(chunks, 1):
        meta = c.get('meta') or {}
        cite = meta.get('url')
        if not cite:
            src = meta.get('source') or meta.get('path') or 'unknown'
            pg = meta.get('page')
            cite = f"{src}:{pg}" if pg is not None else str(src)
        text = c.get('text', '') or ''
        block = f"[{i}] {cite}\n{text}\n"
        t = _count_tokens(block)
        if used + t > budget_tokens:
            break
        packed.append((i, cite, text))
        used += t

    ctx = "\n\n".join([f"[{i}] {text}" for i, _, text in packed])
    cites = {i: c for i, c, _ in packed}
    return ctx, cites


def build_prompt(question: str, ctx: str, cites: Dict[int, str]) -> str:
    cite_list = "\n".join([f"[{i}] {c}" for i, c in cites.items()])
    return (
        f"คำถาม:\n{question}\n\n"
        f"บริบท:\n{ctx}\n\n"
        f"อ้างอิง:\n{cite_list}\n"
    )

# Example usage (uncomment to try):
# candidates = hybrid_rrf_then_rerank('ทุนการศึกษา', topk_rrf=20, topk_final=8)
# ctx, cites = pack_context(candidates, budget_tokens=1200)
# prompt = build_prompt('หลักเกณฑ์ทุนการศึกษาเป็นอย่างไร?', ctx, cites)
# print(prompt[:1000])

Context packer using tokenizer: heuristic-4chars-per-token


## Language detect + Router → Pathumma / LLaMA

- Detects Thai vs Latin ratio to choose a default model
- Router rules: Thai-heavy or gov/legal keywords → Pathumma; otherwise LLaMA
- OpenAI-compatible callers for both backends (set via ENV)
- Orchestrator: retrieve → rerank → pack → route → generate

In [13]:
# Language detect + Router stub → Pathumma / LLaMA (OpenAI-compatible)
import os, re, requests
from typing import Dict, Tuple, List

# Reuse script_ratios if earlier cell defined it, else define fallback
try:
    script_ratios
except NameError:
    _TH_RANGE = re.compile(r'[\u0E00-\u0E7F]')
    _LATIN_RANGE = re.compile(r'[A-Za-z]')
    def script_ratios(text: str) -> tuple[float, float]:
        if not text: return 0.0, 0.0
        th = len(_TH_RANGE.findall(text)); la = len(_LATIN_RANGE.findall(text))
        tot = th + la
        return (th / tot if tot else 0.0, la / tot if tot else 0.0)


def detect_language(text: str) -> Dict[str, float | str]:
    th_r, la_r = script_ratios(text or '')
    if th_r >= 0.8: label = 'th'
    elif la_r >= 0.8: label = 'en'
    elif th_r >= 0.4 and la_r >= 0.2: label = 'mixed'
    else: label = 'unknown'
    return {'thai_ratio': th_r, 'latin_ratio': la_r, 'label': label}

# Keywords to force Pathumma
_TH_KEYWORDS = [r'ระเบียบ', r'ประกาศ', r'ข้อบังคับ', r'กฎหมาย', r'ราชการ', r'ทะเบียน', r'ทุนการศึกษา']

def route_model(question: str, ctx: str = '', hint: str | None = None) -> str:
    if hint in ('pathumma','llama'):  # manual override
        return hint
    th_q, _ = script_ratios(question or '')
    th_c, _ = script_ratios(ctx or '')
    if th_q + th_c >= 0.55:
        return 'pathumma'
    for kw in _TH_KEYWORDS:
        if re.search(kw, question or '') or re.search(kw, ctx or ''):
            return 'pathumma'
    return 'llama'

# OpenAI-compatible caller

def _openai_chat(base_url: str, api_key: str, model: str, messages: List[Dict], temperature: float = 0.2, max_tokens: int = 512) -> str:
    url = f"{base_url.rstrip('/')}/chat/completions"
    headers = {'Authorization': f'Bearer {api_key}', 'Content-Type': 'application/json'}
    payload = {'model': model, 'messages': messages, 'temperature': float(temperature), 'max_tokens': int(max_tokens)}
    r = requests.post(url, headers=headers, json=payload, timeout=120)
    try:
        r.raise_for_status()
    except Exception:
        print('GEN API ERROR:', r.status_code, r.text[:200])
        raise
    data = r.json()
    return (data.get('choices') or [{}])[0].get('message', {}).get('content', '').strip()

# Endpoints from ENV
PATHUMMA_OPENAI_BASE = os.getenv('PATHUMMA_OPENAI_BASE', 'http://localhost:8080/v1')
PATHUMMA_API_KEY     = os.getenv('PATHUMMA_API_KEY', 'placeholder')
PATHUMMA_MODEL       = os.getenv('PATHUMMA_MODEL', 'pathumma-text-7b')

LLAMA_OPENAI_BASE    = os.getenv('LLAMA_OPENAI_BASE', 'http://localhost:8000/v1')
LLAMA_API_KEY        = os.getenv('LLAMA_API_KEY', 'placeholder')
LLAMA_MODEL          = os.getenv('LLAMA_MODEL', 'llama-3.1-8b-instruct')

SYSTEM_THAI = (
    'คุณเป็นผู้ช่วยที่ยึดตามหลักฐานจากบริบท ตอบสั้น กระชับ และแสดงอ้างอิง [i]; '
    'ถ้าไม่พบคำตอบให้บอกอย่างตรงไปตรงมา'
)

# Basic allow/deny (extend later)
_DENY = [r'hack', r'แฮ็ก', r'ทำร้าย', r'phishing']

def is_denied(q: str) -> bool:
    ql = (q or '').lower()
    return any(re.search(p, ql) for p in _DENY)

# PII redaction (simple)
_EMAIL = re.compile(r'[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}')
_PHONE = re.compile(r'(?<!\d)(?:\+?\d{1,3}[- .]?)?(?:\d{2,4}[- .]?){2,4}\d{2,4}(?!\d)')
_NATID = re.compile(r'\b\d{13}\b')

def redact_pii(text: str) -> str:
    t = _EMAIL.sub('[REDACTED_EMAIL]', text or '')
    t = _PHONE.sub('[REDACTED_PHONE]', t)
    t = _NATID.sub('[REDACTED_ID]', t)
    return t


def generate_answer_with_router(question: str, ctx: str, cites: Dict[int, str], hint: str | None = None,
                                temperature: float = 0.2, max_tokens: int = 512) -> tuple[str, str]:
    if is_denied(question):
        return 'deny', 'คำขอไม่อยู่ในขอบเขตการให้บริการ'
    model = route_model(question, ctx, hint=hint)
    cite_list = '\n'.join([f"[{i}] {c}" for i, c in cites.items()])
    user_prompt = f"คำถาม:\n{question}\n\nบริบท:\n{ctx}\n\nอ้างอิง:\n{cite_list}\n"
    messages = [
        {'role': 'system', 'content': SYSTEM_THAI},
        {'role': 'user', 'content': user_prompt},
    ]
    if model == 'pathumma':
        ans = _openai_chat(PATHUMMA_OPENAI_BASE, PATHUMMA_API_KEY, PATHUMMA_MODEL, messages, temperature, max_tokens)
    else:
        ans = _openai_chat(LLAMA_OPENAI_BASE, LLAMA_API_KEY, LLAMA_MODEL, messages, temperature, max_tokens)
    ans = redact_pii(ans)
    return model, ans


def qa_with_router(question: str, k_vec=30, k_bm25=30, topk_rrf=20, topk_final=8, budget_tokens=1200,
                   owner: str | None = None, sensitivity: str | None = None, hint: str | None = None) -> Dict:
    # Retrieve + rerank
    cands = hybrid_rrf_then_rerank(question, k_vec=k_vec, k_bm25=k_bm25, topk_rrf=topk_rrf, topk_final=topk_final,
                                   owner=owner, sensitivity=sensitivity)
    # Pack context
    ctx, cites = pack_context(cands, budget_tokens=budget_tokens)
    # Generate
    model, answer = generate_answer_with_router(question, ctx, cites, hint=hint)
    return {'model': model, 'answer': answer, 'cites': cites, 'used_chunks': cands, 'ctx_tokens_est': len(ctx)}

# Example (uncomment to test after retrieval/index done):
# out = qa_with_router('กำหนดการรับสมัครนักศึกษาใหม่')
# print('MODEL:', out['model'])
# print('ANSWER:', out['answer'][:500])
# print('CITES:', out['cites'])

In [17]:
# ลองถาม RAG ว่าตอบได้ไหม
def rag_try(question: str, hint: str | None = None):
    print(f'QUESTION: {question}')
    try:
        out = qa_with_router(question, hint=hint)
    except Exception as e:
        print('RAG pipeline error:', e)
        return {'error': str(e)}
    used = out.get('used_chunks', [])
    if not used:
        print('No chunks retrieved.')
    else:
        print(f'Retrieved {len(used)} chunk(s); model={out.get("model")}')
    # แสดง citations
    for i, cite in out.get('cites', {}).items():
        print(f'[{i}] {cite}')
    # แสดงบางส่วนของบริบท (ตัดให้สั้น)
    ctx_preview = out.get('answer','')[:500]
    print('\nANSWER (preview ≤500 chars):\n', ctx_preview)
    return out

# ทดสอบ 1 คำถาม (ปรับได้)
_ = rag_try('กำหนดการรับสมัครนักศึกษาใหม่คืออะไร')

QUESTION: กำหนดการรับสมัครนักศึกษาใหม่คืออะไร


QUESTION: กำหนดการรับสมัครนักศึกษาใหม่คืออะไร


  hits = qdr.search(


QUESTION: กำหนดการรับสมัครนักศึกษาใหม่คืออะไร


  hits = qdr.search(


RAG pipeline error: HTTPConnectionPool(host='localhost', port=8080): Max retries exceeded with url: /v1/chat/completions (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x000002112AD507D0>: Failed to establish a new connection: [WinError 10061] No connection could be made because the target machine actively refused it'))


# Typhoon OCR Integration Overview
#
# This section demonstrates how to use `typhoon_ocr` to extract
# layout-aware Markdown from PDF pages and images.
#
# Key points:
# - `ocr_document(pdf_or_image_path, page_num=<int optional>)`
#   When `page_num` is omitted for PDFs, library may default to first page;
#   supply a page number to target a specific page.
# - For multi-page PDFs, iterate page numbers and accumulate Markdown.
# - Output is Markdown (headings, tables, lists if detected).
# - Ensure the file paths exist; adjust placeholders below.
# - Large PDFs: consider limiting pages or batching to avoid high runtime.
# - Typical dependencies (already installed here): typhoon-ocr, pypdf.
# - Save concatenated Markdown for downstream ingestion / vectorization.
#
# Adjust `pdf_path` and `image_path` to real files in your workspace.
