# path

In [75]:
from pathlib import Path
from typing import Iterable, List
import shutil
import subprocess
import xml.etree.ElementTree as ET
import tempfile
import argparse


hwpx_path='./data/은행권 광고심의 결과 보고서(양식)vF (1).hwpx'
dest_dir= Path('./results/hwpx_sample')


# Namespaces used inside HWPX files.
NS = {
    "hp": "http://www.hancom.co.kr/hwpml/2011/paragraph",
    "hc": "http://www.hancom.co.kr/hwpml/2011/char",
}

# functions

In [83]:
def _require_unzip() -> None:
    if shutil.which("unzip") is None:
        raise RuntimeError("unzip command is required but not found in PATH.")


def _extract_hwpx(hwpx_path: Path, dest_dir: Path) -> None:
    _require_unzip()    
    dest_dir.mkdir(parents=True, exist_ok=True)
    cmd = ['unzip', '-qq', str(hwpx_path), '-d', str(dest_dir)]
    subprocess.run(cmd, check=True)


def _iter_section_files(extracted_root: Path) -> Iterable[Path]:
    contents_dir = extracted_root / "Contents"
    if not contents_dir.exists():
        raise FileNotFoundError(f"Contents directory not found in {extracted_root}")
    for section_file in sorted(contents_dir.glob("section*.xml")):
        if section_file.is_file():
            yield section_file


paragraphs: List[str] = []
tree = ET.parse('/Users/jmahn/Project/code/hwp/results/hwpx_sample/Contents/section0.xml')
root = tree.getroot()
for para in root.findall(".//hp:p", namespaces=NS):
    runs = [node.text or "" for node in para.findall(".//hc:t", namespaces=NS)]
    if runs:
        paragraphs.append("".join(runs))

paragraphs

[]

In [43]:
import subprocess
cmd = ['ls -al']
output = subprocess.run(cmd, capture_output=True, text = True, check=True, shell = True)


with open('output.txt', 'w') as f:
    f.write(output.stdout)


In [73]:
with tempfile.TemporaryDirectory() as tmpdir:
    extracted_root = Path(tmpdir) / 'extracted'

extracted_root

PosixPath('/var/folders/v5/9yw_n5x51c50k29rjn6hwhd00000gn/T/tmpsfaljwly/extracted')

# Cursor 코드 실행

In [None]:
from by_cursor.hwpx_parser_cursor import parse_hwpx_folder
# 폴더 파싱
doc = parse_hwpx_folder("results/hwpx_sample")
# 텍스트 추출
print(doc.to_text())
# 마크다운으로 변환
print('='*100)
print(doc.to_markdown())
# JSON으로 변환
print('='*100)
print(doc.to_json())

광고 심의결과 통보서(양식)
가. 광고심의신청 접수정보
신청자은행명     담당자명준법감시인 심의필번호명   칭(상품명 등)접수일자  접수번호신청자은행명     담당자명준법감시인 심의필번호명   칭(상품명 등)접수일자  접수번호
신청자
은행명
     
담당자명
준법감시인 
심의필번호
명   칭(상품명 등)
접수일자 
 
접수번호
나. 심의결과
판정내용□  적격           □  부적격           □  조건부적격           □  기타부적격/조건부적격사유□ 문구적정성 :□ 표현적합성 : □ 법규준수여부 : □ 과장된 표현 사용 여부□ 경제적 부담 인식 왜곡 여부 : □ 소비자 오인 가능성 여부 : □ 기타 : 심의필번호은행연합회 심의필 제     호 (  .  .   ~  .  .  )판정내용□  적격           □  부적격           □  조건부적격           □  기타부적격/조건부적격사유□ 문구적정성 :□ 표현적합성 : □ 법규준수여부 : □ 과장된 표현 사용 여부□ 경제적 부담 인식 왜곡 여부 : □ 소비자 오인 가능성 여부 : □ 기타 : 심의필번호은행연합회 심의필 제     호 (  .  .   ~  .  .  )
판정내용
□  적격           □  부적격           □  조건부적격           □  기타
부적격/
조건부적격사유
□ 문구적정성 :
□ 표현적합성 : 
□ 법규준수여부 : 
□ 과장된 표현 사용 여부
□ 경제적 부담 인식 왜곡 여부 : 
□ 소비자 오인 가능성 여부 : 
□ 기타 : 
심의필번호
은행연합회 심의필 제     호 
(  .  .   ~  .  .  )
 
20  년    월    일
전국은행연합회장
 ※ 이 광고의 심의결과 적격 판정을 받은 경우에도 연합회가 이 광고의 내용이 진실 또는 정확하다는 것을 보증하는 것은 아니며, 이 광고와 관련하여 발생하는 법적 책임은 해당 은행에 있음을 유의하시기 바랍니다. ※ 이 광고의 심의결과 적격 판정을 받은 경우에도 연합회가 이

In [4]:
print(doc.to_json_with_layout())

{
  "title": "hwpx_sample",
  "version": {
    "application": "Hancom Office Hangul",
    "app_version": "13, 0, 0, 564 WIN32LEWindows_10",
    "xml_version": "1.5"
  },
  "metadata": {
    "head": [
      {
        "version": "1.5",
        "secCnt": "1"
      }
    ],
    "beginNum": [
      {
        "page": "1",
        "footnote": "1",
        "endnote": "1",
        "pic": "1",
        "tbl": "1",
        "equation": "1"
      }
    ],
    "fontfaces": [
      {
        "itemCnt": "7"
      }
    ],
    "fontface": [
      {
        "lang": "HANGUL",
        "fontCnt": "9"
      },
      {
        "lang": "LATIN",
        "fontCnt": "9"
      },
      {
        "lang": "HANJA",
        "fontCnt": "8"
      },
      {
        "lang": "JAPANESE",
        "fontCnt": "8"
      },
      {
        "lang": "OTHER",
        "fontCnt": "8"
      },
      {
        "lang": "SYMBOL",
        "fontCnt": "8"
      },
      {
        "lang": "USER",
        "fontCnt": "8"
      }
    ],
    "f