# kofia preprocess
> kofia jsonl to json

In [4]:
import json
import re

# 결과를 저장할 리스트 초기화
result = []

# JSONL 파일 읽기
# C:\Users\Shic\Downloads\legal_graph\data\DCM\DCM_original\04_kofia\kofia_total.jsonl
with open('../DCM/DCM_original/04_kofia/kofia_total.jsonl', 'r', encoding='utf-8') as f:
    for line in f:
        data = json.loads(line)
        document_title = data.get('title', None)

        # contents 항목 순회
        for content_item in data.get('contents', []):
            # 각 content_item은 {"제19조(대용증권의 교환)": [{...}, {...}]} 형태
            for key, value in content_item.items():
                # 조 제목 분리
                if '(' in key and ')' in key:
                    index = key.split('(')[0].strip()
                    subtitle = key[key.find('(')+1:key.find(')')].strip()
                else:
                    index = key
                    subtitle = ''

                # 항목 처리
                for item in value:
                    # 항 번호 추출
                    hang_text = item.get('항', '')
                    content_text = item.get('내용', '')

                    # 항 번호와 내용을 조합하여 처리
                    if hang_text:
                        # 항 번호가 ①, ② 등으로 시작하는 경우 처리
                        hang_match = re.match(r'^([①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳])\s*(.*)', hang_text)
                        if hang_match:
                            # 항 번호 매핑 - 확인한 바로는 19항까지 존재
                            hang_number_map = {
                                '①': '제1항',
                                '②': '제2항',
                                '③': '제3항',
                                '④': '제4항',
                                '⑤': '제5항',
                                '⑥': '제6항',
                                '⑦': '제7항',
                                '⑧': '제8항',
                                '⑨': '제9항',
                                '⑩': '제10항',
                                '⑪': '제11항',
                                '⑫' : '제12항',
                                '⑬' : '제13항',
                                '⑭' : '제14항',
                                '⑮' : '제15항',
                                '⑯' : '제16항',
                                '⑰' : '제17항',
                                '⑱' : '제18항',
                                '⑲' : '제19항',
                                '⑳' : '제20항',
                            }
                            hang_symbol = hang_match.group(1)
                            hang_number = hang_number_map.get(hang_symbol, '')
                            hang_content = hang_match.group(2).strip()

                            # 인덱스 생성
                            full_index = f"{index}{hang_number}"

                            # 메타데이터 구성
                            metadata = {
                                "document_title": document_title,
                                "date": None,
                                "revise_info": None,
                                "source": "금융투자협회",
                                "title": {
                                    "doc": None,
                                    "chapter": None,
                                    "section": None,
                                    "subsection": None,
                                    "supplementary": None
                                }
                            }

                            # 결과 딕셔너리 생성
                            result_item = {
                                "index": full_index,
                                "subtitle": subtitle,
                                "content": hang_content,
                                "metadata": metadata
                            }
                            result.append(result_item)
                        else:
                            # 항 번호가 없을 때 처리
                            full_index = index

                            # 메타데이터 구성
                            metadata = {
                                "document_title": document_title,
                                "date": None,
                                "revise_info": None,
                                "source": "금융투자협회",
                                "title": {
                                    "doc": None,
                                    "chapter": None,
                                    "section": None,
                                    "subsection": None,
                                    "supplementary": None
                                }
                            }

                            # 결과 딕셔너리 생성
                            result_item = {
                                "index": full_index,
                                "subtitle": subtitle,
                                "content": hang_text.strip(),
                                "metadata": metadata
                            }
                            result.append(result_item)
                    else:
                        # 항이 없을 경우 내용 처리
                        content = content_text.strip()

                        # 메타데이터 구성
                        metadata = {
                            "document_title": document_title,
                            "date": None,
                            "revise_info": None,
                            "source": "금융투자협회",
                            "title": {
                                "doc": None,
                                "chapter": None,
                                "section": None,
                                "subsection": None,
                                "supplementary": None
                            }
                        }

                        # 결과 딕셔너리 생성
                        result_item = {
                            "index": index,
                            "subtitle": subtitle,
                            "content": content,
                            "metadata": metadata
                        }
                        result.append(result_item)

# 결과 출력 또는 파일로 저장
print(json.dumps(result, ensure_ascii=False, indent=4))


[
    {
        "index": "제1조",
        "subtitle": "약관의 적용",
        "content": "이 약관은 고객과 ○○○○금융투자회사(이하 \"회사\"라 한다)가 다음 각 호의 어느 하나에서 행하는 매매거래에 대하여 적용한다.\n1.  한국거래소(이하 \"거래소\"라 한다)가 개설한 유가증권시장, 코스닥시장 및 코넥스시장\n2.  한국금융투자협회가 비상장 주권의 중개업무를 위하여 설치한 전산매매시스템(이하\"호가중개시스템\"이라 한다)",
        "metadata": {
            "document_title": "매매거래계좌설정약관",
            "date": null,
            "revise_info": null,
            "source": "금융투자협회",
            "title": {
                "doc": null,
                "chapter": null,
                "section": null,
                "subsection": null,
                "supplementary": null
            }
        }
    },
    {
        "index": "제2조제1항",
        "subtitle": "위탁의 방법 등",
        "content": "고객은 다음 각 호의 방법으로 매매거래를 위탁한다.",
        "metadata": {
            "document_title": "매매거래계좌설정약관",
            "date": null,
            "revise_info": null,
            "source": "금융투자협회",
            "title": {
                "doc": null,
                "ch

In [5]:
with open("../DCM/DCM_json/04/04_regulation_main.json", "w", encoding="utf-8") as f:
    json.dump(result, f, ensure_ascii=False, indent=4)