## 환경설정

### 파이썬 버전 확인

In [1]:
import sys
print(sys.version)

3.10.16 (main, Dec 11 2024, 10:22:29) [Clang 14.0.6 ]


### 환경변수 로드

In [2]:
from dotenv import load_dotenv

# .env 파일의 환경변수를 기존 값과 상관없이 덮어쓰기
load_dotenv(override=True)

True

In [3]:
!docker-compose up -d

[1A[1B[0G[?25l[+] Running 1/0
 [32m✔[0m Network rag_chatbot_default  [32mCreated[0m                                    [34m0.0s [0m
 ⠋ Container rag_chatbot-db-1   Creating                                   [34m0.0s [0m
[?25h[1A[1A[1A[0G[?25l[+] Running 1/2
 [32m✔[0m Network rag_chatbot_default  [32mCreated[0m                                    [34m0.0s [0m
 ⠿ Container rag_chatbot-db-1   Starting                                   [34m0.1s [0m
[?25h[1A[1A[1A[0G[?25l[+] Running 1/2
 [32m✔[0m Network rag_chatbot_default  [32mCreated[0m                                    [34m0.0s [0m
 ⠿ Container rag_chatbot-db-1   Starting                                   [34m0.2s [0m
[?25h[1A[1A[1A[0G[?25l[34m[+] Running 2/2[0m
 [32m✔[0m Network rag_chatbot_default  [32mCreated[0m                                    [34m0.0s [0m
 [32m✔[0m Container rag_chatbot-db-1   [32mStarted[0m                                    [34m0.2s [0m
[?25h

### VectorDB 연결 (PGVector)

In [4]:
from langchain_postgres.vectorstores import PGVector
# from langchain_openai import OpenAIEmbeddings
from langchain.embeddings import HuggingFaceEmbeddings

import os


# 환경변수에서 DB 정보 한 번에 가져오기
db_config = {key: os.getenv(key) for key in [
    "POSTGRES_USER", 
    "POSTGRES_PASSWORD", 
    "POSTGRES_HOST", 
    "POSTGRES_PORT", 
    "POSTGRES_DB"
    ]}

# DB 연결 문자열 생성
# connection = f"postgresql+psycopg2://user:password@host:5432/name",
connection = f"postgresql+psycopg2://{db_config['POSTGRES_USER']}:{db_config['POSTGRES_PASSWORD']}@{db_config['POSTGRES_HOST']}:{db_config['POSTGRES_PORT']}/{db_config['POSTGRES_DB']}"

collection_name = "laws_db"

vector_store = PGVector(
    # OpenAIEmbeddings 사용할 경우
    # embeddings=OpenAIEmbeddings(model="text-embedding-3-large"),
    # HuggingFace Embeddings 사용할 경우
    embeddings = HuggingFaceEmbeddings(model_name="intfloat/multilingual-e5-small"),
    collection_name=collection_name,
    connection=connection,
    use_jsonb=True,
)

  embeddings = HuggingFaceEmbeddings(model_name="intfloat/multilingual-e5-small"),
  from .autonotebook import tqdm as notebook_tqdm


## PDF 파일 로드

In [5]:
from langchain_community.document_loaders import PyMuPDFLoader


file = "data/고용보험법(법률)(제20519호)(20250223).pdf"

loader = PyMuPDFLoader(file)
docs = loader.load()

docs

[Document(metadata={'producer': 'iText 2.1.7 by 1T3XT', 'creator': '', 'creationdate': '2025-03-23T11:37:29+09:00', 'source': 'data/고용보험법(법률)(제20519호)(20250223).pdf', 'file_path': 'data/고용보험법(법률)(제20519호)(20250223).pdf', 'total_pages': 34, 'format': 'PDF 1.4', 'title': '', 'author': '', 'subject': '', 'keywords': '', 'moddate': '2025-03-23T11:37:29+09:00', 'trapped': '', 'modDate': "D:20250323113729+09'00'", 'creationDate': "D:20250323113729+09'00'", 'page': 0}, page_content='법제처                                                            1                                                       국가법령정보센터\n고용보험법\n \n고용보험법\n[시행 2025. 2. 23.] [법률 제20519호, 2024. 10. 22., 일부개정]\n고용노동부 (고용보험기획과 - 고용보험제도) 044-202-7352\n고용노동부 (고용지원실업급여과 - 실업급여) 044-202-7376\n고용노동부 (고용지원실업급여과 - 피보험자 관리) 044-202-7378\n고용노동부 (여성고용정책과 - 모성보호) 044-202-7476\n고용노동부 (인적자원개발과 - 사업주 및 근로자 직업능력개발 훈련지원) 044-202-7317\n고용노동부 (기업일자리지원과 - 고용촉진장려금) 044-202-7218\n고용노동부 (기업일자리지원과 - 고용유지지원금) 044-202-7219\n       제1장 총칙\n \n제1조(목적) 이

In [6]:
len(docs[0].page_content)

1898

In [7]:
# 0번째 페이지의 200자 조회
docs[0].page_content[:200]

'법제처                                                            1                                                       국가법령정보센터\n고용보험법\n \n고용보험법\n[시행 2025. 2. 23.] [법률 제20519호, 2024. 10. 22., 일부개정]\n고용노동부 '

### Chunking

In [8]:
from langchain.text_splitter import CharacterTextSplitter

# https://wikidocs.net/231568
text_splitter = CharacterTextSplitter(
    separator = '',
    chunk_size = 1000,
    chunk_overlap  = 100,
    length_function = len,
)
texts = text_splitter.split_documents(docs)

In [9]:
texts[0].page_content

'법제처                                                            1                                                       국가법령정보센터\n고용보험법\n \n고용보험법\n[시행 2025. 2. 23.] [법률 제20519호, 2024. 10. 22., 일부개정]\n고용노동부 (고용보험기획과 - 고용보험제도) 044-202-7352\n고용노동부 (고용지원실업급여과 - 실업급여) 044-202-7376\n고용노동부 (고용지원실업급여과 - 피보험자 관리) 044-202-7378\n고용노동부 (여성고용정책과 - 모성보호) 044-202-7476\n고용노동부 (인적자원개발과 - 사업주 및 근로자 직업능력개발 훈련지원) 044-202-7317\n고용노동부 (기업일자리지원과 - 고용촉진장려금) 044-202-7218\n고용노동부 (기업일자리지원과 - 고용유지지원금) 044-202-7219\n       제1장 총칙\n \n제1조(목적) 이 법은 고용보험의 시행을 통하여 실업의 예방, 고용의 촉진 및 근로자 등의 직업능력의 개발과 향상을 꾀\n하고, 국가의 직업지도와 직업소개 기능을 강화하며, 근로자 등이 실업한 경우에 생활에 필요한 급여를 실시하여 근\n로자 등의 생활안정과 구직 활동을 촉진함으로써 경제ㆍ사회 발전에 이바지하는 것을 목적으로 한다. <개정 2021.\n1. 5.>\n \n제2조(정의) 이 법에서 사용하는 용어의 뜻은 다음과 같다. <개정 2008. 12. 31., 2010. 1. 27., 2010. 6. 4., 2011. 7. 21.,\n2020. 5. 26., 2021. 1. 5.>\n1. “피보험자”란 다음 각 목에 해당하는 사람을 말한다.\n가. 「고용보험 및 산업재해보상보험의 보험료징수 등에 관한 법률」(이하 “고용산재보험료징수법”이라 한다) 제\n5조제1항ㆍ제2항, 제6조제1항, 제8조제1항ㆍ제2항, 제48조의2제1항 및 제48조의3제1항에 따라 보험에 가

## VectorDB

### VectorDB 에 Chunk 저장

In [10]:
vector_store.add_documents(texts)

['5715af58-96b8-40df-bc36-118251d3d45f',
 '197230e6-0141-4a6a-8aea-3b625f2b37b0',
 '99b5f1a7-8a1b-44db-a71b-59a27408df76',
 '470286cf-0b19-435b-a512-006fe99e98b4',
 '498c31ac-a048-4b0b-aa84-bd94e0c6d602',
 'af3561a0-0628-49e4-82f1-2e86e8c2f804',
 '1cca201f-979f-4208-ab38-51433b04df5c',
 'c7415da6-167a-4d1d-b5d1-35acd5e16854',
 'c572cc82-73ef-43e2-b3c5-b046d883134d',
 '8474da3c-4231-4acd-9f04-f850450541f2',
 '2e1fc1a1-f257-4c98-b358-85ec0aa700bc',
 '4c229313-3873-4896-8900-e91d39110346',
 'fc2d1f7a-c09a-4408-b8f6-bbe24515976b',
 '82467651-f921-4ed2-b999-7b6599ee2e96',
 '2f8229e2-dfae-4cf1-aaaf-32b8d198b1b4',
 'cb1af8b5-85c5-4bed-af70-31d82066f66d',
 '0874cd61-a68c-45d4-b0b0-d145b963dac8',
 '1aeb0030-0420-44a4-804f-c32d9b8a158e',
 '85b32757-9b7e-4440-97b9-2cca8920f7a6',
 '9dbabc99-600a-4ea4-9d74-a1ca201bd751',
 'ad31969e-71f8-4dd5-aa1d-2a5887c17b37',
 'dd601190-b3b6-4d15-b671-8f13ce51135f',
 '41a3cbdc-83e4-46c1-8c08-0d8ad2de495c',
 'f6835dfd-054c-411a-96e3-519277d3f81f',
 'd69c2eb0-aefa-

## QA LangChain 구축

### LLM 설정

In [11]:
from langchain.chat_models import ChatOpenAI
import os


llm = ChatOpenAI(
    model_name="deepseek/deepseek-chat:free",
    temperature=0,
    openai_api_base="https://openrouter.ai/api/v1",
    openai_api_key=os.getenv("OPENROUTER_API_KEY")
)

  llm = ChatOpenAI(


### Retriever 설정

In [12]:
# 기본값
# retriever = vector_store.as_retriever(search_kwargs={"k": 3})

# MMR 적용하여 중복 문서 제거 & 다양한 내용 포함
retriever = vector_store.as_retriever(search_kwargs={
    "k": 3,         # 최종 반환할 문서 개수
    "fetch_k": 10,  # 처음 검색할 문서 개수 (k보다 커야 함)
    "search_type": "mmr"  # MMR(최대 변별성 검색) 적용
})


### Prompt 설정

In [13]:
from langchain.prompts.chat import (
    ChatPromptTemplate,
    HumanMessagePromptTemplate,
    SystemMessagePromptTemplate,
)

system_template = """
    당신은 법률 상담 전문 AI입니다. 
    사용자의 질문에 대해 신뢰할 수 있는 법률 정보를 제공합니다.
    근거가 되는 법 조항을 인용하여 상세히 설명해주세요.
    답변은 정제된 형식과 문어체로 작성하며, 친절하고 자세한 내용을 제공합니다.
    주어진 정보로 답변을 할 수 없는 경우, 정중하게 답변을 제공할 수 없다고 설명합니다.
    ----------------
    {context}
"""

human_template = "{question}"

messages = [
    SystemMessagePromptTemplate.from_template(system_template),
    HumanMessagePromptTemplate.from_template(human_template),
]

qa_prompt = ChatPromptTemplate.from_messages(messages)

### LangChain 구축 : RetrievalQA 사용

In [14]:
from langchain.chains import RetrievalQA

# RAG QA 체인 생성
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type = 'stuff',
    retriever = retriever,
    chain_type_kwargs={"prompt": qa_prompt},
    return_source_documents = True # 답변 생성에 참고한 문서 리턴
    )

## LangChain 실행

In [15]:
query = "구직급여를 받을 수 있는 조건은?"
response = qa_chain.invoke(query)
response

{'query': '구직급여를 받을 수 있는 조건은?',
 'result': '구직급여를 받기 위해서는 다음과 같은 조건을 충족해야 합니다. 이는 「고용보험법」 제40조 및 관련 조항에 근거하여 설명드립니다.\n\n### 1. **피보험자격 요건**\n   - 피보험자로서 고용보험에 가입되어 있어야 합니다.\n   - 고용보험에 가입된 기간이 최소 180일 이상이어야 합니다. (단, 특정 사유로 인해 가입 기간이 단축될 수 있음)\n\n### 2. **실업 상태**\n   - 실업 상태에 있어야 하며, 이는 고용보험법상의 "실업"으로 인정되어야 합니다.\n   - 실업 상태란, 피보험자가 자발적이지 않은 사유로 직장을 잃고, 새로운 직장을 구하기 위해 노력 중인 상태를 의미합니다.\n\n### 3. **실업의 신고**\n   - 실업 상태에 있음을 직업안정기관(고용센터 등)에 신고해야 합니다.\n   - 실업 신고 후, 직업안정기관의 장이 실업 상태를 인정해야 합니다.\n\n### 4. **구직 활동**\n   - 구직 활동을 적극적으로 수행해야 합니다. 이는 직업안정기관이 소개하는 직업에 지원하거나, 직업능력개발 훈련에 참여하는 등의 활동을 포함합니다.\n\n### 5. **자격 제한 사유 없음**\n   - 다음의 자격 제한 사유에 해당하지 않아야 합니다. (「고용보험법」 제40조)\n     - 중대한 귀책사유로 해고된 경우\n       - 형법 또는 직무 관련 법률 위반으로 금고 이상의 형을 선고받은 경우\n       - 사업에 막대한 지장을 초래하거나 재산상 손해를 끼친 경우\n       - 정당한 사유 없이 장기간 무단 결근한 경우\n     - 자기 사정으로 이직한 경우\n       - 전직 또는 자영업을 위해 이직한 경우\n       - 중대한 귀책사유가 있으나 해고되지 않고 사업주의 권고로 이직한 경우\n       - 고용노동부령으로 정하는 정당한 사유에 해당하지 않는 사유로 이직한 경우\n\n### 6. **훈련 거부 등에 따른 제

In [16]:
print(response['result'])

구직급여를 받기 위해서는 다음과 같은 조건을 충족해야 합니다. 이는 「고용보험법」 제40조 및 관련 조항에 근거하여 설명드립니다.

### 1. **피보험자격 요건**
   - 피보험자로서 고용보험에 가입되어 있어야 합니다.
   - 고용보험에 가입된 기간이 최소 180일 이상이어야 합니다. (단, 특정 사유로 인해 가입 기간이 단축될 수 있음)

### 2. **실업 상태**
   - 실업 상태에 있어야 하며, 이는 고용보험법상의 "실업"으로 인정되어야 합니다.
   - 실업 상태란, 피보험자가 자발적이지 않은 사유로 직장을 잃고, 새로운 직장을 구하기 위해 노력 중인 상태를 의미합니다.

### 3. **실업의 신고**
   - 실업 상태에 있음을 직업안정기관(고용센터 등)에 신고해야 합니다.
   - 실업 신고 후, 직업안정기관의 장이 실업 상태를 인정해야 합니다.

### 4. **구직 활동**
   - 구직 활동을 적극적으로 수행해야 합니다. 이는 직업안정기관이 소개하는 직업에 지원하거나, 직업능력개발 훈련에 참여하는 등의 활동을 포함합니다.

### 5. **자격 제한 사유 없음**
   - 다음의 자격 제한 사유에 해당하지 않아야 합니다. (「고용보험법」 제40조)
     - 중대한 귀책사유로 해고된 경우
       - 형법 또는 직무 관련 법률 위반으로 금고 이상의 형을 선고받은 경우
       - 사업에 막대한 지장을 초래하거나 재산상 손해를 끼친 경우
       - 정당한 사유 없이 장기간 무단 결근한 경우
     - 자기 사정으로 이직한 경우
       - 전직 또는 자영업을 위해 이직한 경우
       - 중대한 귀책사유가 있으나 해고되지 않고 사업주의 권고로 이직한 경우
       - 고용노동부령으로 정하는 정당한 사유에 해당하지 않는 사유로 이직한 경우

### 6. **훈련 거부 등에 따른 제한 없음**
   - 직업안정기관이 소개한 직업에 취직하거나, 직업능력개발 훈련을 거부하지 않아야 합니다. (「고용보험법」 제60