# LedgerMate — Two Files Runner (Policy parse + Receipt chunk)

이 노트북은 **두 개 파일** 기준으로 빠르게 돌려보는 실행 가이드입니다:

1) `data/policies-sample/부산대학교 총학생회 재정운용세칙.pdf` → Upstage 파서로 JSON 생성
2) `data/receipts-sample/예산안.parsed.json` → 청크 스모크 확인 및 (선택) DB 적재

> ⚠️ 이 노트북은 **레포 루트에서 실행**한다고 가정합니다. 모듈 임포트/경로는 레포 구조에 맞춰져 있어야 합니다.

## 0) 환경 준비
- 가상환경 활성화 후 실행 권장
- `.env` 파일에 다음 값들이 있어야 합니다:
  - `DATABASE_URL=postgres://user:pass@127.0.0.1:5432/ledgermate`
  - `UPSTAGE_API_KEY=sk-...` (정책 파싱 시 필요)
  - `ORG_ID=demo.univ` (선택)
- 폴더가 없으면 먼저 생성하세요: `out/policies`, `out/budgets` 등

In [None]:
# 🔧 경로/파라미터 설정
POLICY_PDF = "data/policies-sample/부산대학교 총학생회 재정운용세칙.pdf"
POLICY_JSON_OUT = "out/policies/부산.json"

RECEIPT_PDF = "data/receipts-sample/예산안.pdf"
RECEIPT_PARSED_JSON = "data/receipts-sample/예산안.parsed.json"  # 이미 생성되어 있다고 가정

# DB/조직/연결 파라미터 (필요 시 수정)
ORG_ID = "demo.univ"
TITLE = "2024 하반기 예산안"
PERIOD_FROM = "2024-07-01"
PERIOD_TO = "2024-12-31"
POLICY_ID = "66c0efa9-fbe6-446a-9c7e-dd94904926d1"  # 정책 UUID 예시
CREATED_BY = "yeseul"

## 1) 정책 PDF → JSON 파싱 (단일)
예제 스크립트: `examples/parse_policies.py one`

만약 Upstage 크레딧/결제 이슈로 401 발생 시, 이 셀은 실패할 수 있습니다. 그 경우 **배치/단일 파싱을 건너뛰고 다음 단계로 진행**하세요.

In [None]:
import os, pathlib, subprocess, sys
pathlib.Path("out/policies").mkdir(parents=True, exist_ok=True)

cmd = [
    sys.executable,
    "examples/parse_policies.py", "one", POLICY_PDF,
    "--out", POLICY_JSON_OUT,
    "--formats", "html",
    "--b64", "table",
    "--ocr", "force",
    "--timeout", "180",
    "-v",
]
print("$", " ".join(cmd))
try:
    subprocess.run(cmd, check=True)
except subprocess.CalledProcessError as e:
    print("⚠️ 정책 파싱 실패 — API 키/크레딧 상태를 확인하거나, 이 단계는 건너뛰세요.")
    print(e)

## 2) 영수증/예산 JSON → 청크 스모크
예제 스크립트: `examples/chunks_smoke.py`

이미 존재하는 `예산안.parsed.json`을 입력으로 **청크 전처리가 잘 되는지** 빠르게 확인합니다.

In [None]:
import subprocess, sys
cmd = [sys.executable, "examples/chunks_smoke.py", RECEIPT_PARSED_JSON, "8"]
print("$", " ".join(cmd))
subprocess.run(cmd, check=True)

## 3) (선택) 예산안 PDF → DB 적재 (ingest)
예제 스크립트: `examples/ingest_budget_pdf.py`

- **권장:** `--parse --chunk`를 함께 쓰면 한 번에 아티팩트+budget_doc+chunks 저장까지 끝납니다.
- 다만 Upstage API가 401이면 `--parse`가 실패하므로, **그 경우엔 이 셀을 건너뛰세요**.
- 현재 `ingest_budget_pdf.py`는 외부에서 미리 만든 `.parsed.json`을 바로 읽어 넣는 옵션이 없으니,
  해당 기능이 필요하면 스크립트에 로직을 추가해야 합니다.

In [None]:
import subprocess, sys
cmd = [
    sys.executable, "examples/ingest_budget_pdf.py", RECEIPT_PDF,
    "--org-id", ORG_ID,
    "--title", TITLE,
    "--period-from", PERIOD_FROM,
    "--period-to", PERIOD_TO,
    "--policy-id", POLICY_ID,
    "--parse", "--chunk",
    "--created-by", CREATED_BY,
]
print("$", " ".join(str(x) for x in cmd))
try:
    subprocess.run(cmd, check=True)
except subprocess.CalledProcessError as e:
    print("⚠️ ingest 실패 (아마 Upstage 401). `--parse` 없이 `--chunk`만으론 현재 스크립트에서 parsed JSON을 읽지 않습니다.")
    print("   필요 시 ingest 스크립트에 '기존 parsed JSON 등록' 기능을 추가하세요.")
    print(e)

## 4) (보너스) 정책 배치 파싱
여러 PDF를 한 번에 JSON으로 만들고 싶다면 아래 셀을 사용하세요.

In [None]:
import subprocess, sys
cmd = [
    sys.executable, "examples/parse_policies.py", "batch", "data/policies-sample/*.pdf",
    "--out-dir", "out/policies",
    "--formats", "html", "--b64", "table", "--ocr", "force", "-v",
]
print("$", " ".join(cmd))
try:
    subprocess.run(cmd, check=True)
except subprocess.CalledProcessError as e:
    print("⚠️ 배치 파싱 실패 — API 키/크레딧 상태 확인")
    print(e)

> 생성된 JSON은 이후 `to_chunks()` → DB 적재 파이프라인의 입력으로 사용됩니다.
>
> 필요 시 이 노트북을 복제해서 각 학교/학기 별 프리셋을 만들어두면 운영에 편리합니다.