In [2]:
from langchain_naver import ChatClovaX
from typing import List, Dict
from langchain_core.documents import Document
import json

In [3]:
def load_documents_from_jsonl(file_path: str) -> List[Document]:
    """JSONL 파일에서 Document 로드"""
    documents = []
    with open(file_path, "r", encoding="utf-8") as f:
        for line in f:
            if not line.strip():
                continue
            data = json.loads(line)
            doc = Document(
                page_content=data["page_content"],
                metadata=data["metadata"],
                id=data["id"]
            )
            documents.append(doc)
    return documents

In [4]:
documents = load_documents_from_jsonl("documents.jsonl")
documents

[Document(id='2019610_clause_1', metadata={'자치법규ID': '2019610', '자치법규명': '가평군 건축물관리자의 제설 및 제빙 책임에 관한 조례', '자치법규일련번호': '1298118', '지자체기관명': '경기도 가평군', '시행일자': '20170731', '제개정정보': '일부개정', '자치법규종류': 'C0001', '공포번호': '2623', '전화번호': '031-580-2430', '담당부서명': '건설도시국 건설과', '자치법규발의종류': '', '공포일자': '20170731', '약어': {}, 'links': [{'자연재해대책법': ['제27조제2항']}]}, page_content='제1조(목적) 이 조례는 「자연재해대책법」 제27조제2항의 규정에 따라 건축물관리자의 제설·제빙에 관한 사항을 구체적으로 정함으로써 눈 또는 얼음으로 인한 주민의 불편을 최소화하고, 안전을 꾀함을 목적으로 한다.'),
 Document(id='2019610_clause_2', metadata={'자치법규ID': '2019610', '자치법규명': '가평군 건축물관리자의 제설 및 제빙 책임에 관한 조례', '자치법규일련번호': '1298118', '지자체기관명': '경기도 가평군', '시행일자': '20170731', '제개정정보': '일부개정', '자치법규종류': 'C0001', '공포번호': '2623', '전화번호': '031-580-2430', '담당부서명': '건설도시국 건설과', '자치법규발의종류': '', '공포일자': '20170731', '약어': {}, 'links': [{'도로법': [], '농어촌도로정비법': [], '자연재해대책법 시행령': ['제22조의8']}]}, page_content='제2조(정의) 이 조례에서 사용하는 용어의 뜻은 다음과 같다. <개정 2017.7.31.>1. “도로”라 함은 「도로법」에 따른 도로, 그 밖에 일반 교통에 사용되는 모든 곳을 말한다.2. “차도”라 함은 연

In [24]:
print(documents[0].metadata["자치법규명"])
print(documents[0].metadata["지자체기관명"])
print(documents[0].metadata["약어"])
print(documents[0].metadata["links"])
print(documents[0].page_content)

가평군 건축물관리자의 제설 및 제빙 책임에 관한 조례
경기도 가평군
{}
[{'자연재해대책법': ['제27조제2항']}]
제1조(목적) 이 조례는 「자연재해대책법」 제27조제2항의 규정에 따라 건축물관리자의 제설·제빙에 관한 사항을 구체적으로 정함으로써 눈 또는 얼음으로 인한 주민의 불편을 최소화하고, 안전을 꾀함을 목적으로 한다.


In [12]:
id_list = []
idx_list = []
for i in range(len(documents)):
    idx = documents[i].metadata["자치법규ID"]
    if idx not in id_list:
        id_list.append(idx)
        idx_list.append(i)

In [16]:
idx_list[:2]

[0, 9]

In [28]:
x = idx_list[0]
y = idx_list[1]
content = "자치법규명: " + documents[x].metadata["자치법규명"] + "\n"
content += "지자체기관명: " + documents[x].metadata["지자체기관명"] + "\n법규 내용:\n"
for z in range(x,y):
    content += documents[z].page_content + "\n"
print(content)

자치법규명: 가평군 건축물관리자의 제설 및 제빙 책임에 관한 조례
지자체기관명: 경기도 가평군
법규 내용:
제1조(목적) 이 조례는 「자연재해대책법」 제27조제2항의 규정에 따라 건축물관리자의 제설·제빙에 관한 사항을 구체적으로 정함으로써 눈 또는 얼음으로 인한 주민의 불편을 최소화하고, 안전을 꾀함을 목적으로 한다.
제2조(정의) 이 조례에서 사용하는 용어의 뜻은 다음과 같다. <개정 2017.7.31.>1. “도로”라 함은 「도로법」에 따른 도로, 그 밖에 일반 교통에 사용되는 모든 곳을 말한다.2. “차도”라 함은 연석선(차도와 보도를 구분하는 돌 등으로 이어진 선을 말한다), 안전표지, 그 밖에 이와 비슷한 공작물로써 그 경계를 표시하여 모든 차의 교통에 사용하도록 된 도로의 부분을 말한다.3. “보도(步道)”라 함은 연석선, 안전표지, 그 밖에 이와 비슷한 공작물로써 그 경계를 표시하여 보행자(유모차 및 신체장애인용 의자차를 포함한다)의 통행에 사용하도록 되어있는 도로의 부분을 말한다. <개정 2017.3.6.>4. “이면도로”라 함은 「도로법」에 따른 고속국도ㆍ일반국도ㆍ지방도ㆍ군도 및 농어촌도로(「농어촌도로정비법」에 따른 도로를 말한다)가 아닌 일반의 교통에 사용되는 도로로서 차도와 보도의 구분이 없는 폭 12미터 미만의 도로를 말한다.5. “보행자전용도로”라 함은 보행자만이 다닐 수 있도록 안전표지 및 그 밖에 이와 비슷한 공작물로써 표시한 도로를 말한다.6. “제설ㆍ제빙작업”이라 함은 도로상의 눈 또는 얼음을 제거하거나 녹게 하는 재료 및 모래 등을 뿌려서 보행자와 차량의 안전한 통행에 지장이 없도록 하는 것을 말한다.7. “건축물관리자”라 함은 건축물의 소유자ㆍ점유자 또는 관리자로서 그 건축물의 관리 책임이 있는 사람을 말한다.8. “시설물의 지붕”이라 함은 「자연재해대책법 시행령」제22조의8에 따른 시설물의 지붕을 말한다. <신설 2017.7.31.>
제3조(건축물관리자의 제설ㆍ제빙 책임) 건축물관리자는 관리하고 있는 건축물의 대지에 접한 보

In [70]:
system_message ="""당신은 법률 문서로부터 질의응답 데이터를 생성하는 전문가입니다.
제공된 문서의 내용을 분석하고, 사용자가 실제로 질문할 수 있는 질의(Q)와 그에 대응하는 근거 기반의 답변(A)을 생성하세요.

# Question Guidelines:
질문은 두 가지 타입으로 분류할 수 있습니다. 각각 2개씩 총 4개의 데이터셋을 생성하세요.
- 질문에는 법률명이나 조항과 같이 구체적인 항목이 명시되어 있지 않습니다.
- 실제 사용자는 어떤 문서의 어떤 부분을 참고해야 원하는 답변을 얻을 수 있는지 모른 채 질문합니다.

1. 문서 내부 기반(Intra)
- 오직 해당 문서(chunk) 내에서 답을 찾을 수 있어야 한다.
- 질문 예시: 용어 정의, 의무 주체, 책임 순서, 시기, 방법 등
- 답변은 반드시 해당 문서 내용에 근거해야 하며, 다른 법령 인용 금지.

2. 외부 참조 기반 (Cross-document)
- chunk 안에 다른 법률이나 시행령, 규칙이 언급된 경우 그 조항을 참조해야 완전한 답변이 나올 질문을 생성한다.
- 질문은 사용자가 ‘그 조항의 의미’를 묻는 형태로 만든다.
- 답변은 “이 문서에서 언급된 ○○법 제○조제○항에 따르면…”처럼 근거를 병기한다.
- `link_reference` 필드에 해당 법령명을 명시한다.

# Answer Guidelines:
- 제공된 문서에는 자치법규명, 지자체기관명이 명시되어있습니다. 반드시 "**해당 지자체**"에 대한 답변임을 명시하세요. 예) 서울특별시 종로구의 경우, ...
- 제공된 문서의 내용을 기반으로 구체적으로 작성하세요.

# Output 형식:
- `type`: "intra", "cross"
- `question`: **Question Guidelines**을 따른 사용자의 법률적 질문
- `answer`: **Answer Guidelines**을 따른 답변
- `legal_reference`: 답변에 직접적으로 근거한 조항 번호 또는 문장
- `reasoning`: 왜 이 답변이 도출되었는지 설명
- `link_reference`: 문서 내 link된 다른 법령 조항

# 주의:
- 'answer' key에 반드시 "**해당 지자체**"에 대한 답변임을 명시하세요.
- 반드시 **유효한 JSON 형식**으로 반환합니다.
- 해당하는 내용이 없다면, 빈 값으로 반환하세요. 예) "link_reference": ""
"""

In [71]:
from langchain_ollama import ChatOllama
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import JsonOutputParser

model = ChatOllama(
    model="gpt-oss:120b-cloud",
    temperature=0.2,
    max_tokens = 1024,
    timeout=None,
    max_retries=2,
    reasoning = None,
)

prompt = ChatPromptTemplate.from_messages([
    ("system", system_message),
    ("user", "{question}")
])

chain = prompt | model

# 일반 Chain 생성
chain = prompt | model | JsonOutputParser()
chain

ChatPromptTemplate(input_variables=['question'], input_types={}, partial_variables={}, messages=[SystemMessagePromptTemplate(prompt=PromptTemplate(input_variables=[], input_types={}, partial_variables={}, template='당신은 법률 문서로부터 질의응답 데이터를 생성하는 전문가입니다.\n제공된 문서의 내용을 분석하고, 사용자가 실제로 질문할 수 있는 질의(Q)와 그에 대응하는 근거 기반의 답변(A)을 생성하세요.\n\n# Question Guidelines:\n질문은 두 가지 타입으로 분류할 수 있습니다. 각각 2개씩 총 4개의 데이터셋을 생성하세요.\n- 질문에는 법률명이나 조항과 같이 구체적인 항목이 명시되어 있지 않습니다.\n- 실제 사용자는 어떤 문서의 어떤 부분을 참고해야 원하는 답변을 얻을 수 있는지 모른 채 질문합니다.\n\n1. 문서 내부 기반(Intra)\n- 오직 해당 문서(chunk) 내에서 답을 찾을 수 있어야 한다.\n- 질문 예시: 용어 정의, 의무 주체, 책임 순서, 시기, 방법 등\n- 답변은 반드시 해당 문서 내용에 근거해야 하며, 다른 법령 인용 금지.\n\n2. 외부 참조 기반 (Cross-document)\n- chunk 안에 다른 법률이나 시행령, 규칙이 언급된 경우 그 조항을 참조해야 완전한 답변이 나올 질문을 생성한다.\n- 질문은 사용자가 ‘그 조항의 의미’를 묻는 형태로 만든다.\n- 답변은 “이 문서에서 언급된 ○○법 제○조제○항에 따르면…”처럼 근거를 병기한다.\n- `link_reference` 필드에 해당 법령명을 명시한다.\n\n# Answer Guidelines:\n- 제공된 문서에는 자치법규명, 지자체기관명이 명시되어있습니다. 반드시 "**해당 지자체**"에 대한 답변임을 명시하세요. 예) 서울특별시 종로구의 경우, ...\n- 제공된 문서의 

In [60]:
output = chain.invoke({"question": content})
output

[{'type': 'intra',
  'question': '가평군 건축물관리자 조례에서 “제설ㆍ제빙작업”이란 무엇인가요?',
  'answer': '해당 지자체인 경기도 가평군에서는 “제설ㆍ제빙작업”을 도로상의 눈 또는 얼음을 제거하거나 녹게 하는 재료 및 모래 등을 뿌려서 보행자와 차량의 안전한 통행에 지장이 없도록 하는 행위로 정의하고 있습니다.',
  'legal_reference': '제2조(정의) 6.',
  'reasoning': '조례 제2조 제6항에 ‘제설ㆍ제빙작업’의 정의가 명시되어 있어, 해당 조항을 직접 인용하여 답변을 도출했습니다.',
  'link_reference': ''},
 {'type': 'intra',
  'question': '가평군 건축물관리자는 눈이 그친 후 언제까지 제설·제빙작업을 완료해야 하나요?',
  'answer': '해당 지자체인 경기도 가평군에서는 건축물관리자가 눈이 그친 때부터 3시간 이내에 제설·제빙작업을 완료하도록 규정하고 있으며, 야간에 눈이 내린 경우에는 다음 날 오전 11시까지 완료하도록 정하고 있습니다.',
  'legal_reference': '제6조(제설ㆍ제빙작업의 시기)',
  'reasoning': '조례 제6조에 눈이 그친 시점과 야간에 눈이 내린 경우의 완료 시한이 구체적으로 규정되어 있어, 이를 근거로 답변을 작성했습니다.',
  'link_reference': ''},
 {'type': 'intra',
  'question': '가평군 건축물관리자는 제설·제빙에 필요한 작업도구를 언제부터 언제까지 비치·관리해야 하나요?',
  'answer': '해당 지자체인 경기도 가평군에서는 건축물관리자가 매년 12월 1일부터 다음 해 3월 15일까지 제설·제빙에 필요한 작업도구를 건축물 내에 비치·관리하도록 규정하고 있습니다.',
  'legal_reference': '제8조(제설ㆍ제빙작업의 도구 비치ㆍ관리)',
  'reasoning': '조례 제8조에 도구 비치·관리 기간이 명시되어 있어,

In [61]:
output[0]

{'type': 'intra',
 'question': '가평군 건축물관리자 조례에서 “제설ㆍ제빙작업”이란 무엇인가요?',
 'answer': '해당 지자체인 경기도 가평군에서는 “제설ㆍ제빙작업”을 도로상의 눈 또는 얼음을 제거하거나 녹게 하는 재료 및 모래 등을 뿌려서 보행자와 차량의 안전한 통행에 지장이 없도록 하는 행위로 정의하고 있습니다.',
 'legal_reference': '제2조(정의) 6.',
 'reasoning': '조례 제2조 제6항에 ‘제설ㆍ제빙작업’의 정의가 명시되어 있어, 해당 조항을 직접 인용하여 답변을 도출했습니다.',
 'link_reference': ''}

In [None]:
x = idx_list[0]
y = idx_list[1]
content = "자치법규명: " + documents[x].metadata["자치법규명"] + "\n"
content += "지자체기관명: " + documents[x].metadata["지자체기관명"] + "\n법규 내용:\n"
for z in range(x,y):
    content += documents[z].page_content + "\n"
output = chain.invoke({"question": content})

In [None]:
{"자치법규ID":documents[x].metadata["자치법규ID"],
 "자치법규명": documents[x].metadata["자치법규명"]}

In [73]:
# 결과 저장용 리스트
output = []

# 인덱스 페어 순회
# for i in range(len(idx_list) - 1):
for i in range(100):
    x = idx_list[i]
    y = idx_list[i + 1]

    # 콘텐츠 구성
    content = (
        "자치법규명: " + documents[x].metadata["자치법규명"] + "\n"
        + "지자체기관명: " + documents[x].metadata["지자체기관명"] + "\n"
        + "법규 내용:\n"
    )

    for z in range(x, y):
        content += documents[z].page_content + "\n"
    # LLM 호출
    result = chain.invoke({"question": content})
    print(result)

    # result가 리스트인 경우, 각 항목에 법규 ID/명 추가
    if isinstance(result, list):
        for r in result:
            r["자치법규ID"] = documents[x].metadata.get("자치법규ID", "")
            r["자치법규명"] = documents[x].metadata.get("자치법규명", "")
            output.append(r)
    else:
        # 만약 단일 객체로 나왔다면 그 자체를 래핑
        result["자치법규ID"] = documents[x].metadata.get("자치법규ID", "")
        result["자치법규명"] = documents[x].metadata.get("자치법규명", "")
        output.append(result)

[{'type': 'intra', 'question': '건축물관리자는 눈이 그친 뒤 제설·제빙 작업을 언제까지 완료해야 하나요?', 'answer': '경기도 가평군의 건축물관리자는 눈이 그친 시점부터 3시간 이내에 제설·제빙 작업을 완료해야 합니다. 다만, 야간(일몰 후부터 다음 날 일출 전까지)에 눈이 내린 경우에는 다음 날 오전 11시까지 작업을 마쳐야 합니다.', 'legal_reference': '제6조(제설ㆍ제빙작업의 시기)', 'reasoning': '조례 제6조에 ‘건축물관리자는 제설ㆍ제빙작업을 눈이 그친 때부터 3시간 이내에 완료하여야 한다. 다만, 야간에 눈이 내린 경우에는 다음 날 오전 11시까지 완료하여야 한다.’고 명시되어 있어, 해당 조항을 직접 근거로 답변을 도출했습니다.', 'link_reference': ''}, {'type': 'intra', 'question': '제설·제빙 작업에 대한 책임순위는 어떻게 정해져 있나요?', 'answer': '경기도 가평군에서는 건축물관리자 간의 제설·제빙 책임순위가 다음과 같이 정해져 있습니다. ① 소유자가 건축물 내에 거주하는 경우에는 소유자 → 점유자 → 관리자 순으로 책임이 부여됩니다. ② 소유자가 건축물 내에 거주하지 않는 경우에는 점유자 → 관리자 → 소유자 순으로 책임이 부여됩니다. 단, 건축물관리자 간에 합의가 있으면 합의된 순위가 적용됩니다.', 'legal_reference': '제4조(제설ㆍ제빙작업의 책임순위)', 'reasoning': '조례 제4조에 책임순위에 대한 구체적인 규정이 명시되어 있어, 해당 조항을 그대로 인용해 답변을 구성했습니다.', 'link_reference': ''}, {'type': 'cross', 'question': '‘도로’라는 용어는 이 조례에서 어떻게 정의되고, 도로법과는 어떤 관계가 있나요?', 'answer': '경기도 가평군의 이 조례에서 ‘도로’는 제2조(정의) 1항에 따라 “도로법에 따른 도로, 그 밖에 일반 교통에 사용되는 모든

In [74]:

# 최종 JSON 파일 저장
with open("law_qa_dataset_100.json", "w", encoding="utf-8") as f:
    json.dump(output, f, ensure_ascii=False, indent=2)

print(f"✅ 총 {len(output)}개 항목 저장 완료: law_qa_dataset.json")

✅ 총 400개 항목 저장 완료: law_qa_dataset.json


In [69]:
output

[{'type': 'intra',
  'question': '가평군에서 건축물관리자는 눈이 그친 후 언제까지 제설·제빙 작업을 완료해야 하나요?',
  'answer': '해당 지자체인 가평군에서는 건축물관리자가 눈이 그친 때부터 3시간 이내에 제설·제빙 작업을 완료해야 합니다. 다만, 야간(일몰 후부터 다음 날 일출 전까지)에 눈이 내린 경우에는 다음 날 오전 11시까지 완료하도록 규정하고 있습니다.',
  'legal_reference': '제6조(제설ㆍ제빙작업의 시기)',
  'reasoning': '조례 제6조에 눈이 그친 시점부터 3시간 이내, 야간에는 다음 날 오전 11시까지 완료하도록 명시되어 있기 때문에 해당 조항을 근거로 답변을 도출했습니다.',
  'link_reference': '',
  '자치법규ID': '2019610',
  '자치법규명': '가평군 건축물관리자의 제설 및 제빙 책임에 관한 조례'},
 {'type': 'intra',
  'question': '가평군에서 건축물 소유자가 건물에 거주하고 있을 때 제설·제빙 책임 순서는 어떻게 되나요?',
  'answer': '해당 지자체인 가평군에서는 소유자가 건축물 내에 거주하는 경우, 제설·제빙 책임 순서는 소유자 → 점유자 → 관리자 순으로 정해져 있습니다.',
  'legal_reference': '제4조(제설ㆍ제빙작업의 책임순위) 1호',
  'reasoning': '조례 제4조 1호에 ‘소유자가 건축물 내에 거주하는 경우에는 소유자, 점유자 또는 관리자 순으로 한다’고 명시되어 있어, 이를 근거로 답변을 작성했습니다.',
  'link_reference': '',
  '자치법규ID': '2019610',
  '자치법규명': '가평군 건축물관리자의 제설 및 제빙 책임에 관한 조례'},
 {'type': 'intra',
  'question': '가평군 건축물관리자가 담당해야 하는 제설·제빙 작업의 구체적인 범위는 무엇인가요?',
  'answer': '해당 지자체인 가평군에서는

In [40]:
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain_community.chat_message_histories import ChatMessageHistory
from langchain_core.chat_history import BaseChatMessageHistory
from langchain_core.runnables.history import RunnableWithMessageHistory
from langchain_openai import ChatOpenAI
from langchain_core.output_parsers import JsonOutputParser

# 프롬프트 정의
prompt = ChatPromptTemplate.from_messages(
    [
        (
            "system",
            system_message,
        ),
        # 대화기록용 key 인 chat_history 는 가급적 변경 없이 사용하세요!
        # MessagesPlaceholder(variable_name="chat_history"),
        ("human", "#Question:\n{question}"),  # 사용자 입력을 변수로 사용
    ]
)

# llm 생성
# llm = ChatOpenAI()

llm = ChatClovaX(
    model="HCX-005",
    temperature=0.3,
    max_tokens = 1024,
    timeout=None,
    max_retries=2,
    reasoning = None,
)

# 일반 Chain 생성
chain = prompt | llm | JsonOutputParser()
chain

ChatPromptTemplate(input_variables=['question'], input_types={}, partial_variables={}, messages=[SystemMessagePromptTemplate(prompt=PromptTemplate(input_variables=[], input_types={}, partial_variables={}, template='당신은 법률 문서로부터 질의응답 데이터를 생성하는 전문가입니다.\n제공된 문서의 내용을 분석하고, 사용자가 실제로 질문할 수 있는 질의(Q)와 그에 대응하는 근거 기반의 답변(A)을 생성하세요.\n\n# Question Guidelines:\n질문은 두 가지 타입으로 분류할 수 있습니다.\n\n1. 문서 내부 기반(Intra)\n- 오직 해당 문서(chunk) 내에서 답을 찾을 수 있어야 한다.\n- 질문 예시: 용어 정의, 의무 주체, 책임 순서, 시기, 방법 등\n- 답변은 반드시 해당 문서 내용에 근거해야 하며, 다른 법령 인용 금지.\n\n2. 외부 참조 기반 (Cross-document)\n- chunk 안에 다른 법률이나 시행령, 규칙이 언급된 경우 그 조항을 참조해야 완전한 답변이 나올 질문을 생성한다.\n- 질문은 사용자가 ‘그 조항의 의미’를 묻는 형태로 만든다.\n- 답변은 “이 문서에서 언급된 ○○법 제○조제○항에 따르면…”처럼 근거를 병기한다.\n- `link_reference` 필드에 해당 법령명을 명시한다.\n\n# Answer Guidelines:\n- 제공된 문서에는 자치법규명, 지자체기관명이 명시되어있습니다. 반드시 해당 지자체에 대한 답변임을 명시하세요. 예) 서울특별시 종로구의 경우, ...\n- 제공된 문서의 내용을 기반으로 구체적으로 작성하세요.\n\n# Output 형식:\n- `type`: "intra", "cross"\n- `question`: Question Guidelines을 따른 사용자의 법률적 질문\n- `answer`: Answe

In [41]:
output = chain.invoke({"question": content})
output

{'type': 'intra',
 'question': '건축물관리자가 제설·제빙 작업을 해야 하는 대상 지역은 어디인가?',
 'answer': '건축물관리자는 관리하고 있는 건축물의 대지에 접한 보도, 이면도로, 보행자전용도로, 시설물의 지붕에 대해 제설·제빙 작업을 해야 합니다.',
 'legal_reference': '제3조(건축물관리자의 제설·제빙 책임)',
 'reasoning': '조례 제3조에 명확히 규정되어 있으며, 이는 건축물관리자의 구체적인 책임을 나타내고 있습니다.'}