In [2]:
import pandas as pd
import os
import re

# GPT 문장생성을 통한 튜닝 데이터셋 구축

## 문서 통합

In [None]:
def load_law_docs(types: list[str], dir_path: str) -> pd.DataFrame:
    data_list = []
    for type in types:
        try:
            fpath = os.path.join(dir_path, type)
            df = pd.read_excel(f"{fpath}.xlsx")
        except FileNotFoundError as e:
            print(f"The file {fpath} does not exist")
            raise e

        for i, row in df.iterrows():
            if row["preamble"] == 1:
                continue

            text = row["content"].strip()
            
            # 행 데이터 추가
            data_list.append(
                {
                    "type": type,
                    "article": row["article"],
                    "paragraph": row["paragraph"],
                    "subparagraph": row["subparagraph"],
                    "text": text,
                },
            )

    return pd.DataFrame(data_list)

In [24]:
# law_types = ['형법', '형사소송법', '성폭력범죄의 처벌 등에 관한 특례법']
law_types = ['형법']
law_path = "../fetched_data"

df_law = load_law_docs(law_types, law_path)

In [25]:
df_law.to_excel(f"{law_path}/법령_통합.xlsx", index=False)

## 법령_통합.xlsx 문서 전처리

In [13]:
df_law

Unnamed: 0,type,article,paragraph,subparagraph,text
0,형법,1,0,0,제1조(범죄의 성립과 처벌)
1,형법,1,1,0,범죄의 성립과 처벌은 행위 시의 법률에 따른다
2,형법,1,2,0,범죄 후 법률이 변경되어 그 행위가 범죄를 구성하지 아니하게 되거나 형이 구법(舊法...
3,형법,1,3,0,재판이 확정된 후 법률이 변경되어 그 행위가 범죄를 구성하지 아니하게 된 경우에는 ...
4,형법,2,0,0,제2조(국내범) 본법은 대한민국영역내에서 죄를 범한 내국인과 외국인에게 적용한다
...,...,...,...,...,...
2838,성폭력범죄의 처벌 등에 관한 특례법,50,5,2,징역형 이상의 실형(치료감호와 징역형 이상의 실형이 병과된 경우를 포함한다)과 병과...
2839,성폭력범죄의 처벌 등에 관한 특례법,51,0,0,제51조(양벌규정) 법인의 대표자나 법인 또는 개인의 대리인 사용인 그 밖의 종업원...
2840,성폭력범죄의 처벌 등에 관한 특례법,52,0,0,제52조(과태료)
2841,성폭력범죄의 처벌 등에 관한 특례법,52,1,0,정당한 사유 없이 제43조의2제1항 또는 제2항을 위반하여 신고하지 아니하거나 거짓...


## 문장 생성을 통한 튜닝 데이터셋 구축  

In [1]:
import pandas as pd

df = pd.read_excel("../fetched_data/형법.xlsx")
df

Unnamed: 0,preamble,article,article-branch,paragraph,subparagraph,text
0,1,1,1,0,0,제1편 총칙
1,1,1,1,0,0,제1장 형법의 적용범위
2,0,1,1,0,0,제1조(범죄의 성립과 처벌)
3,0,1,1,1,0,범죄의 성립과 처벌은 행위 시의 법률에 따른다
4,0,1,1,2,0,범죄 후 법률이 변경되어 그 행위가 범죄를 구성하지 아니하게 되거나 형이 구법(舊法...
...,...,...,...,...,...,...
826,0,369,1,1,0,단체 또는 다중의 위력을 보이거나 위험한 물건을 휴대하여 제366조의 죄를 범한 때...
827,0,369,1,2,0,제1항의 방법으로 제367조의 죄를 범한 때에는 1년 이상의 유기징역 또는 2천만원...
828,0,370,1,0,0,제370조(경계침범) 경계표를 손괴 이동 또는 제거하거나 기타 방법으로 토지의 경계...
829,0,371,1,0,0,제371조(미수범) 제366조 제367조와 제369조의 미수범은 처벌한다
