## 환경설정

### 파이썬 버전 확인

In [38]:
import sys
print(sys.version)

3.10.16 | packaged by conda-forge | (main, Apr  3 2025, 14:30:37) [Clang 18.1.8 ]


### 환경변수 로드

In [39]:
import os
from dotenv import load_dotenv

# .env 파일의 환경변수를 기존 값과 상관없이 덮어쓰기
load_dotenv(override=True)

True

In [40]:
!docker-compose up -d

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


[33mWARN[0m[0000] /Users/kimrijoo/llm_study/Majubom/RAG_Chatbot/docker-compose.yml: the attribute `version` is obsolete, it will be ignored, please remove it to avoid potential confusion 
[1A[1B[0G[?25l[+] Running 1/0
 [32m✔[0m Container rag_chatbot-db-1  [32mRunning[0m                                     [34m0.0s [0m
[?25h

### VectorDB 연결 (PGVector)

In [41]:
from langchain_postgres import PGVector
from langchain_postgres.vectorstores import PGVector
# from langchain_openai import OpenAIEmbeddings
from langchain.embeddings import HuggingFaceEmbeddings

import os


# 환경변수에서 DB 정보 한 번에 가져오기
db_config = {key: os.getenv(key) for key in [
    "POSTGRES_USER", 
    "POSTGRES_PASSWORD", 
    "POSTGRES_HOST", 
    "POSTGRES_PORT", 
    "POSTGRES_DB"
    ]}

# DB 연결 문자열 생성
# connection = f"postgresql+psycopg2://user:password@host:5432/name",
connection = f"postgresql+psycopg2://{db_config['POSTGRES_USER']}:{db_config['POSTGRES_PASSWORD']}@{db_config['POSTGRES_HOST']}:{db_config['POSTGRES_PORT']}/{db_config['POSTGRES_DB']}"

collection_name = "laws_db"

vector_store = PGVector(
    # OpenAIEmbeddings 사용할 경우
    # embeddings=OpenAIEmbeddings(model="text-embedding-3-large"),
    # HuggingFace Embeddings 사용할 경우
    embeddings = HuggingFaceEmbeddings(model_name="intfloat/multilingual-e5-small"),
    collection_name=collection_name,
    connection=connection,
    use_jsonb=True,
)

## PDF 파일 로드

In [42]:
from langchain_community.document_loaders import PyMuPDFLoader
import glob

# file = "data/고용보험법(법률)(제20519호)(20250223).pdf"

# loader = PyMuPDFLoader(file)
# docs = loader.load()

# docs

# 예: data 폴더 내 모든 PDF 파일 불러오기
pdf_files = glob.glob("data/*.pdf")

all_docs = []

for file in pdf_files:
    loader = PyMuPDFLoader(file)
    docs = loader.load()
    all_docs.extend(docs)

docs

[Document(metadata={'producer': 'iText 2.1.7 by 1T3XT', 'creator': '', 'creationdate': '2025-04-06T11:38:18+09:00', 'source': 'data/가족관계의 등록 등에 관한 법률(법률)(제19841호)(20241227).pdf', 'file_path': 'data/가족관계의 등록 등에 관한 법률(법률)(제19841호)(20241227).pdf', 'total_pages': 22, 'format': 'PDF 1.4', 'title': '', 'author': '', 'subject': '', 'keywords': '', 'moddate': '2025-04-06T11:38:18+09:00', 'trapped': '', 'modDate': "D:20250406113818+09'00'", 'creationDate': "D:20250406113818+09'00'", 'page': 0}, page_content='법제처                                                            1                                                       국가법령정보센터\n가족관계의 등록 등에 관한 법률\n \n가족관계의 등록 등에 관한 법률 ( 약칭: 가족관계등록법 )\n[시행 2024. 12. 27.] [법률 제19841호, 2023. 12. 26., 타법개정]\n법무부 (법무심의관실) 02-2110-3164\n       제1장 총칙\n \n제1조(목적) 이 법은 국민의 출생ㆍ혼인ㆍ사망 등 가족관계의 발생 및 변동사항에 관한 등록과 그 증명에 관한 사항을\n규정함을 목적으로 한다.\n \n제2조(관장) 가족관계의 발생 및 변동사항에 관한 등록과 그 증명에 관한 사무(이하 “등록사무”라 한다)는 대법원이 관\n장한다.\n \n제3조(권한의 위임) ① 대법원장은 등록사무의 처리에 관한 권한을 시ㆍ읍ㆍ면의 장(도농복

In [43]:
len(docs[0].page_content)

1835

In [44]:
# 0번째 페이지의 200자 조회
docs[0].page_content[:200]

'법제처                                                            1                                                       국가법령정보센터\n가족관계의 등록 등에 관한 법률\n \n가족관계의 등록 등에 관한 법률 ( 약칭: 가족관계등록법 )\n[시행 2024. 12. 27.]'

### Chunking

In [45]:
from langchain.text_splitter import CharacterTextSplitter

# https://wikidocs.net/231568
text_splitter = CharacterTextSplitter(
    separator = '',
    chunk_size = 1000,
    chunk_overlap  = 100,
    length_function = len,
)
texts = text_splitter.split_documents(docs)

In [46]:
texts[0].page_content

'법제처                                                            1                                                       국가법령정보센터\n가족관계의 등록 등에 관한 법률\n \n가족관계의 등록 등에 관한 법률 ( 약칭: 가족관계등록법 )\n[시행 2024. 12. 27.] [법률 제19841호, 2023. 12. 26., 타법개정]\n법무부 (법무심의관실) 02-2110-3164\n       제1장 총칙\n \n제1조(목적) 이 법은 국민의 출생ㆍ혼인ㆍ사망 등 가족관계의 발생 및 변동사항에 관한 등록과 그 증명에 관한 사항을\n규정함을 목적으로 한다.\n \n제2조(관장) 가족관계의 발생 및 변동사항에 관한 등록과 그 증명에 관한 사무(이하 “등록사무”라 한다)는 대법원이 관\n장한다.\n \n제3조(권한의 위임) ① 대법원장은 등록사무의 처리에 관한 권한을 시ㆍ읍ㆍ면의 장(도농복합형태의 시에 있어서 동지\n역에 대하여는 시장, 읍ㆍ면지역에 대하여는 읍ㆍ면장으로 한다. 이하 같다)에게 위임한다.\n② 특별시 및 광역시와 구를 둔 시에 있어서는 이 법 중 시, 시장 또는 시의 사무소라 함은 각각 구, 구청장 또는 구\n의 사무소를 말한다. 다만, 광역시에 있어서 군지역에 대하여는 읍ㆍ면, 읍ㆍ면의 장 또는 읍ㆍ면의 사무소를 말한\n다.\n③ 대법원장은 등록사무의 감독에 관한 권한을 시ㆍ읍ㆍ면의 사무소 소재지를 관할하는 가정법원장에게 위임한다.\n다만, 가정법원지원장은 가정법원장의 명을 받아 그 관할 구역 내의 등록사무를 감독한다.\n \n제4조(등록사무처리) 제3조에 따른 등록사무는 가족관계의 발생 및 변동사항의 등록(이하 “등록”이라 한다)에 관한 신\n고 등을 접수하거나 수리한 신고지의 시ㆍ읍ㆍ면의 장이 처리한다.\n \n제4조의2(재외국민 등록사무처리에 관한 특례) ① 제3조 및 제4조에도 불구하고, 대법원장은 외국에 거주하거나 체류\n하는 대한민국 국민(이하 

## VectorDB

### VectorDB 에 Chunk 저장

In [47]:
vector_store.add_documents(texts)

['c41e8a65-8f6c-43ee-aa99-a40d97b8ffd6',
 'eaf568c1-d0ae-4795-9bfd-1992a73edbfe',
 'b0ad0417-ddb4-4305-9489-a9e704ca0119',
 '8f3d9853-bb8d-44ce-a49b-e6d824ee020e',
 '16a83fe5-15ca-4498-8536-1fed9a064c05',
 '1620a3b7-be2a-4e11-b93f-05352b542d05',
 '1630183b-bba6-4f02-81ab-171735a4e164',
 '0c9f9d57-75d1-4304-a497-d87b0fa6a268',
 'f078fdea-dba0-4007-9740-ee3f473472db',
 'dd878a1f-ae5e-471f-a6c4-d1e81a89274d',
 '61a1af43-17cb-457b-b7d2-27cab16bc132',
 '3cb44dfe-ca47-49ff-b3e3-907f3544dfb5',
 '1da9b127-d1b6-4526-a5fb-3fdbebbc829d',
 'e0a1fd03-ba58-4c5b-9cc6-d1cd252780b1',
 '69b72d63-3938-472c-bb09-db94bb70e1dd',
 'fc25a68c-54dc-4ca5-af1e-f3a644effbe2',
 '91316eea-0d7b-4d91-aa46-7476feae4baf',
 '05fa3002-0577-42f4-9617-807223d8eba7',
 '65d551fa-8960-4973-b7b5-a1c9bf0061eb',
 '9b41b878-cedc-4106-8b99-dcd3a7666915',
 'ff4b1949-e024-4dfb-868d-754d678b4597',
 'aa385cb7-5c2e-4c5a-88c7-0d646dcc1bf2',
 '9fae1911-8c9e-4ee8-9951-47d4e893c01f',
 '33c66452-daa7-449a-91fe-607fd1f7cad3',
 'e76a3e0b-cad5-

## QA LangChain 구축

### LLM 설정

In [48]:
from langchain.chat_models import ChatOpenAI
import os


llm = ChatOpenAI(
    model_name="deepseek/deepseek-chat",
    temperature=0,
    openai_api_base="https://openrouter.ai/api/v1",
    openai_api_key=os.getenv("OPENROUTER_API_KEY")
)

### Retriever 설정

In [49]:
# 기본값
# retriever = vector_store.as_retriever(search_kwargs={"k": 3})

# MMR 적용하여 중복 문서 제거 & 다양한 내용 포함
retriever = vector_store.as_retriever(search_kwargs={
    "k": 3,         # 최종 반환할 문서 개수
    "fetch_k": 10,  # 처음 검색할 문서 개수 (k보다 커야 함)
    "search_type": "mmr"  # MMR(최대 변별성 검색) 적용
})


### Prompt 설정

In [50]:
from langchain.prompts.chat import (
    ChatPromptTemplate,
    HumanMessagePromptTemplate,
    SystemMessagePromptTemplate,
)

system_template = """
    당신은 다문화 가정의 복잡한 복지·정책·법률을 쉽고 친절하게 안내하는 다국어 AI 마주봄입니다. 
    사용자의 사용자의 상황(체류 상태, 가족 구성, 거주 지역 등)에 맞는 다문화 법률을 추천 제공합니다.
    근거가 되는 법 조항을 인용하여 상세히 설명해주세요.
    답변은 정제된 형식과 문어체로 작성하며, 친절하고 자세한 내용을 제공합니다.
    주어진 정보로 답변을 할 수 없는 경우, 정중하게 답변을 제공할 수 없다고 설명합니다.
    ----------------
    {context}
"""

human_template = "{question}"

messages = [
    SystemMessagePromptTemplate.from_template(system_template),
    HumanMessagePromptTemplate.from_template(human_template),
]

qa_prompt = ChatPromptTemplate.from_messages(messages)

### LangChain 구축 : RetrievalQA 사용

In [51]:
from langchain.chains import RetrievalQA

# RAG QA 체인 생성
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type = 'stuff',
    retriever = retriever,
    chain_type_kwargs={"prompt": qa_prompt},
    return_source_documents = True # 답변 생성에 참고한 문서 리턴
    )

## LangChain 실행

In [52]:
print(os.getenv("OPENROUTER_API_KEY"))

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


In [53]:
query = "10개월 된 아이가 있는 베트남 출신 결혼이민자로서 받을 수 있는 지원 정책과 이용할 수 있는 시설이 알고 싶어요."
response = qa_chain.invoke(query)
response

{'query': '10개월 된 아이가 있는 베트남 출신 결혼이민자로서 받을 수 있는 지원 정책과 이용할 수 있는 시설이 알고 싶어요.',
 'result': '안녕하세요. 베트남 출신 결혼이민자로서 10개월 된 아이와 함께 받을 수 있는 지원 정책과 이용할 수 있는 시설에 대해 안내해 드리겠습니다.\n\n### 1. **의료 및 건강관리 지원**\n- **산전·산후 도우미 파견**: 출산 후 산모와 신생아를 돌보는 도우미 서비스를 제공받을 수 있습니다. 이 서비스는 산모의 건강 회복과 신생아의 적응을 돕기 위해 제공됩니다. (다문화가족지원법 제9조 제1항)\n- **건강검진 및 영양 교육**: 결혼이민자와 가족을 대상으로 건강검진과 영양 교육을 제공받을 수 있습니다. 이를 통해 건강한 생활을 유지할 수 있도록 지원합니다. (다문화가족지원법 제9조 제1항)\n- **외국어 통역 서비스**: 의료 서비스 이용 시 언어 장벽을 극복할 수 있도록 외국어 통역 서비스를 제공받을 수 있습니다. (다문화가족지원법 제9조 제2항)\n\n### 2. **육아 지원**\n- **아이돌봄 지원**: 육아에 어려움을 겪는 가정을 위해 아이돌봄 서비스를 제공받을 수 있습니다. 이 서비스는 육아 스트레스를 줄이고, 부모의 여가 시간을 보장하기 위해 제공됩니다. (아이돌봄 지원법 제22조~제25조)\n- **방문교육**: 거주지 및 가정환경으로 인해 서비스에서 소외되지 않도록 방문교육을 제공받을 수 있습니다. 이는 육아와 관련된 교육 및 상담을 포함합니다. (다문화가족지원법 제6조 제3항)\n\n### 3. **사회적응 교육**\n- **한국어 교육**: 한국어 능력 향상을 위한 한국어 교육을 제공받을 수 있습니다. 이를 통해 일상 생활과 사회 활동에 필요한 언어 능력을 키울 수 있습니다. (다문화가족지원법 제6조 제1항)\n- **문화 이해 교육**: 배우자 및 가족구성원을 대상으로 결혼이민자의 출신 국가 및 문화를 이해하는 데 필요한 교육을 제공받을 수 있습니다. (다문화가족지원법

In [54]:
from langchain_postgres import PGVector
from langchain_postgres.vectorstores import PGVector
# from langchain_openai import OpenAIEmbeddings
from langchain.embeddings import HuggingFaceEmbeddings

import os


# 환경변수에서 DB 정보 한 번에 가져오기
db_config = {key: os.getenv(key) for key in [
    "POSTGRES_USER", 
    "POSTGRES_PASSWORD", 
    "POSTGRES_HOST", 
    "POSTGRES_PORT", 
    "POSTGRES_DB"
    ]}

# DB 연결 문자열 생성
# connection = f"postgresql+psycopg2://user:password@host:5432/name",
connection = f"postgresql+psycopg2://{db_config['POSTGRES_USER']}:{db_config['POSTGRES_PASSWORD']}@{db_config['POSTGRES_HOST']}:{db_config['POSTGRES_PORT']}/{db_config['POSTGRES_DB']}"

collection_name = "laws_db"

vector_store = PGVector(
    # OpenAIEmbeddings 사용할 경우
    # embeddings=OpenAIEmbeddings(model="text-embedding-3-large"),
    # HuggingFace Embeddings 사용할 경우
    embeddings = HuggingFaceEmbeddings(model_name="intfloat/multilingual-e5-small"),
    collection_name=collection_name,
    connection=connection,
    use_jsonb=True,
)

In [55]:
print(response['result'])

안녕하세요. 베트남 출신 결혼이민자로서 10개월 된 아이와 함께 받을 수 있는 지원 정책과 이용할 수 있는 시설에 대해 안내해 드리겠습니다.

### 1. **의료 및 건강관리 지원**
- **산전·산후 도우미 파견**: 출산 후 산모와 신생아를 돌보는 도우미 서비스를 제공받을 수 있습니다. 이 서비스는 산모의 건강 회복과 신생아의 적응을 돕기 위해 제공됩니다. (다문화가족지원법 제9조 제1항)
- **건강검진 및 영양 교육**: 결혼이민자와 가족을 대상으로 건강검진과 영양 교육을 제공받을 수 있습니다. 이를 통해 건강한 생활을 유지할 수 있도록 지원합니다. (다문화가족지원법 제9조 제1항)
- **외국어 통역 서비스**: 의료 서비스 이용 시 언어 장벽을 극복할 수 있도록 외국어 통역 서비스를 제공받을 수 있습니다. (다문화가족지원법 제9조 제2항)

### 2. **육아 지원**
- **아이돌봄 지원**: 육아에 어려움을 겪는 가정을 위해 아이돌봄 서비스를 제공받을 수 있습니다. 이 서비스는 육아 스트레스를 줄이고, 부모의 여가 시간을 보장하기 위해 제공됩니다. (아이돌봄 지원법 제22조~제25조)
- **방문교육**: 거주지 및 가정환경으로 인해 서비스에서 소외되지 않도록 방문교육을 제공받을 수 있습니다. 이는 육아와 관련된 교육 및 상담을 포함합니다. (다문화가족지원법 제6조 제3항)

### 3. **사회적응 교육**
- **한국어 교육**: 한국어 능력 향상을 위한 한국어 교육을 제공받을 수 있습니다. 이를 통해 일상 생활과 사회 활동에 필요한 언어 능력을 키울 수 있습니다. (다문화가족지원법 제6조 제1항)
- **문화 이해 교육**: 배우자 및 가족구성원을 대상으로 결혼이민자의 출신 국가 및 문화를 이해하는 데 필요한 교육을 제공받을 수 있습니다. (다문화가족지원법 제6조 제2항)

### 4. **가정폭력 예방 및 지원**
- **가정폭력 상담소 및 보호시설**: 가정폭력 피해를 입은 경우, 외국어 통역 서비스를 갖춘 가정폭력 상담소 및 보호시