# RAG 체인 구성

---


# 환경 설정 및 준비


`(1) Env 환경변수`


In [1]:
from dotenv import load_dotenv

load_dotenv()

True

`(2) 기본 라이브러리`


In [2]:
import os
from glob import glob

from pprint import pprint
import json

# 다양한 문서 형식 처리하기

- 역할: Document Loader는 다양한 소스에서 문서를 로드
- 구현:
  - Document Loader는 BaseLoader 인터페이스를 통해서 구현
  - `.load()` 또는 `.lazy_load()` 메서드를 통해 동일한 방식으로 호출
  - 대용량 데이터셋의 경우 메모리 효율을 위해 `.lazy_load()`를 사용하는 것을 권장
- 종류:
  - PDF 파일 로더
  - 웹 페이지 로더
  - CSV 데이터 로더
  - 디렉토리 로더
  - HTML 데이터 로더
  - JSON 데이터 로더
  - Markdown 데이터 로더
  - Microsoft Office 데이터 로더


### 1. **웹 문서 로더**

- uv add bs4 langchain_community


In [3]:
from langchain_community.document_loaders import WebBaseLoader

# 기본적인 텍스트 추출
web_loader = WebBaseLoader(
    web_paths=[
        "https://python.langchain.com/",
        "https://js.langchain.com/",
    ],
)

# 동기 로딩
web_docs = web_loader.load()

len(web_docs)

USER_AGENT environment variable not set, consider setting it to identify your requests.


2

In [None]:
web_docs[0].metadata

In [None]:
print(web_docs[0].page_content)

### 2. **CSV 파일 로더**


In [None]:
from langchain_community.document_loaders.csv_loader import CSVLoader

# 기본 파일 로드
csv_loader = CSVLoader("./data/kbo_teams_2023.csv", encoding="utf8")
csv_docs = csv_loader.load()

print("문서의 수:", len(csv_docs))
print("-" * 50)
print("처음 문서의 메타데이터: \n", csv_docs[0].metadata)
print("-" * 50)
print("처음 문서의 내용: \n", csv_docs[0].page_content)

In [None]:
## 소스 컬럼 지정

csv_loader = CSVLoader(
    file_path="./data/kbo_teams_2023.csv",
    encoding="utf8",
    source_column="Team",  # 이 컬럼의 값이 메타데이터의 source로 사용됨
)

csv_docs = csv_loader.load()

print("문서의 수:", len(csv_docs))
print("-" * 50)
print("처음 문서의 메타데이터: \n", csv_docs[0].metadata)
print("-" * 50)
print("처음 문서의 내용: \n", csv_docs[0].page_content)

### 3. **PDF 파일 로더**

- uv add langchain_community pypdf


In [None]:
from langchain_community.document_loaders import PyPDFLoader

# PDF 로더 초기화 (근로기준법 문서)
pdf_loader = PyPDFLoader("./data/labor_law.pdf")

# 동기 로딩
pdf_docs = pdf_loader.load()
print(f"PDF 문서 개수: {len(pdf_docs)}")

# 텍스트 분할(Text Splitting)

- 대규모 텍스트 문서를 처리할 때 매우 중요한 전처리 단계
- 고려사항:
  1. 문서의 구조와 형식
  2. 원하는 청크 크기
  3. 문맥 보존의 중요도
  4. 처리 속도


In [None]:
print(f"첫 번째 문서: {pdf_docs[0]}")

In [None]:
long_text = pdf_docs[0].page_content
print(f"첫 번째 문서의 텍스트 길이: {len(long_text)}")

### 1. **CharacterTextSplitter**

- 가장 기본적인 분할 방식
- 문자 수를 기준으로 텍스트를 분할
- 단순하지만 문맥을 고려하지 않는다는 단점이 있음

- 설치: pip install langchain_text_splitters 또는 uv add langchain_text_splitters


In [None]:
from langchain_text_splitters import CharacterTextSplitter

# 텍스트 분할기 초기화 (기본 설정값 적용 )
text_splitter = CharacterTextSplitter(
    # CharacterTextSplitter의 기본 설정값
    separator="\n\n",  # 청크 구분자: 두 개의 개행문자
    is_separator_regex=False,  # 구분자가 정규식인지 여부
    # TextSplitter의 기본 설정값
    chunk_size=1000,  # 청크 길이
    chunk_overlap=200,  # 청크 중첩
    length_function=len,  # 길이 함수 (문자열 길이)
    keep_separator=False,  # 구분자 유지 여부
    add_start_index=False,  # 시작 인덱스 추가 여부
    strip_whitespace=True,  # 공백 제거 여부
)

# 텍스트 분할 - split_text() 메서드 사용
texts = text_splitter.split_text(long_text)

# 분할된 텍스트 개수 출력
print(f"분할된 텍스트 개수: {len(texts)}")

# 첫 번째 분할된 텍스트 출력
print(f"첫 번째 분할된 텍스트: {texts[0]}")

In [None]:
from langchain_text_splitters import CharacterTextSplitter

# 문장 구분자를 개행문자로 설정
text_splitter = CharacterTextSplitter(
    separator="\n",  # 청크 구분자: 개행문자
    chunk_size=1000,  # 청크 길이
    chunk_overlap=200,  # 청크 중첩
)

# split_documents() 메서드 사용 : Document 객체를 여러 개의 작은 청크 문서로 분할
chunks = text_splitter.split_documents([pdf_docs[0]])  # 첫 번째 문서만 분할

# 분할된 텍스트 개수 출력
print(f"분할된 텍스트 개수: {len(chunks)}")

# 각 청크의 텍스트 길이 출력
for i, chunk in enumerate(chunks):
    print(f"청크 {i+1}의 텍스트 길이: {len(chunk.page_content)}")

# 첫 번째 청크의 텍스트 출력
print(f"첫 번째 청크의 텍스트: {chunks[0].page_content}")

### 2. **RecursiveCharacterTextSplitter**

- 재귀적으로 텍스트를 분할
- 구분자를 순차적으로 적용하여 큰 청크에서 시작하여 점진적으로 더 작은 단위로 분할
- 문맥을 더 잘 보존할 수 있음


In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 재귀적 텍스트 분할기 초기화
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,  # 청크 크기
    chunk_overlap=200,  # 청크 중 중복되는 부분 크기
    length_function=len,  # 글자 수를 기준으로 분할
    separators=["\n\n", "\n", " ", ""],  # 구분자 - 재귀적으로 순차적으로 적용
)

# split_documents() 메서드 사용 : Document 객체를 여러 개의 작은 청크 문서로 분할
chunks = text_splitter.split_documents(pdf_docs)
print(f"생성된 텍스트 청크 수: {len(chunks)}")
print(f"각 청크의 길이: {list(len(chunk.page_content) for chunk in chunks)}")
print()

# 각 청크의 시작 부분과 끝 부분 확인 - 5개 청크만 출력
for chunk in chunks[:5]:
    print(chunk.page_content[:200])
    print("-" * 100)
    print(chunk.page_content[-200:])
    print("=" * 100)
    print()

### 3. **정규표현식 사용**


In [None]:
from langchain_text_splitters import CharacterTextSplitter

# 문장을 구분하여 분할 - 정규표현식 사용 (문장 구분자: 마침표, 느낌표, 물음표 다음에 공백이 오는 경우)
text_splitter = CharacterTextSplitter(
    separator=r"(?<=[.!?])\s+",  # 각 Document 객체의 page_content 속성을 문장으로 분할
    chunk_size=1000,
    chunk_overlap=200,
    is_separator_regex=True,  # 구분자가 정규식인지 여부: True
    keep_separator=True,  # 구분자 유지 여부: True
)

# split_documents() 메서드 사용 : Document 객체를 여러 개의 작은 청크 문서로 분할
chunks = text_splitter.split_documents(pdf_docs)  # 모든 문서를 분할
print(f"생성된 텍스트 청크 수: {len(chunks)}")
print(f"각 청크의 길이: {list(len(chunk.page_content) for chunk in chunks)}")
print()

# 각 청크의 시작 부분과 끝 부분 확인 - 5개 청크만 출력
for chunk in chunks[:5]:
    print(chunk.page_content[:200])
    print("...")
    print(chunk.page_content[-200:])
    print("=" * 100)
    print()

`(4) 유사도 기반 검색`


### 4. **토큰 수를 기반으로 분할**


`(1) tiktoken`

- OpenAI에서 만든 BPE Tokenizer


In [None]:
# 첫번째 문서 객체의 텍스트 길이
len(pdf_docs[0].page_content)

In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

# TikToken 인코더를 사용하여 재귀적 텍스트 분할기 초기화
text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
    encoding_name="cl100k_base",
    # model_name="gpt-4.1-mini",
    chunk_size=300,
    chunk_overlap=0,
)

# split_documents() 메서드 사용 : Document 객체를 여러 개의 작은 청크 문서로 분할
chunks = text_splitter.split_documents([pdf_docs[0]])  # 첫 번째 문서만 분할

print(f"생성된 청크 수: {len(chunks)}")
print(f"각 청크의 길이: {list(len(chunk.page_content) for chunk in chunks)}")

# 각 청크의 시작 부분과 끝 부분 확인
for chunk in chunks[:5]:
    print(chunk.page_content[:50])
    print("-" * 50)
    print(chunk.page_content[-50:])
    print("=" * 50)
    print()

In [None]:
import tiktoken

tokenizer = tiktoken.get_encoding("cl100k_base")
# tokenizer = tiktoken.encoding_for_model("gpt-4.1-mini")

for chunk in chunks[:5]:

    # 각 청크를 토큰화
    tokens = tokenizer.encode(chunk.page_content)
    # 각 청크의 단어 수 확인
    print(len(tokens))
    # 각 청크의 토큰화 결과 확인 (첫 10개 토큰만 출력)
    print(tokens[:10])
    # 토큰 ID를 실제 토큰(문자열)로 변환해서 출력
    token_strings = [tokenizer.decode([token]) for token in tokens[:10]]
    print(token_strings)

    print("=" * 50)
    print()

`(2) Hugging Face 토크나이저`

- Hugging Face tokenizer 모델의 토큰 수를 기준으로 분할
- uv add langchain_huggingface sentence_transformers


In [None]:
from transformers import AutoTokenizer


tokenizer = AutoTokenizer.from_pretrained("BAAI/bge-m3")


tokenizer

In [None]:
# 토크나이저 인코딩 - 문장을 토큰(ID)으로 변환
tokens = tokenizer.encode("안녕하세요. 반갑습니다.")
print(tokens)

In [None]:
# 토큰을 출력 (토큰 ID를 실제 토큰(문자열)로 변환)
print(tokenizer.convert_ids_to_tokens(tokens))

In [None]:
# 디코딩 - 토큰을 문자열로 변환
print(tokenizer.decode(tokens, skip_special_tokens=True))

In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

# Huggingface 토크나이저를 사용하여 재귀적 텍스트 분할기 초기화
text_splitter = RecursiveCharacterTextSplitter.from_huggingface_tokenizer(
    tokenizer=tokenizer,
    chunk_size=300,
    chunk_overlap=0,
)

# split_documents() 메서드 사용 : Document 객체를 여러 개의 작은 청크 문서로 분할
chunks = text_splitter.split_documents([pdf_docs[0]])  # 첫 번째 문서만 분할

print(f"생성된 청크 수: {len(chunks)}")
print(f"각 청크의 길이: {list(len(chunk.page_content) for chunk in chunks)}")
print()

for chunk in chunks[:5]:

    # 각 청크를 토큰화
    tokens = tokenizer.encode(chunk.page_content)
    # 각 청크의 단어 수 확인
    print(len(tokens))
    # 각 청크의 토큰화 결과 확인 (첫 10개 토큰만 출력)
    print(tokens[:10])
    # 토큰 ID를 실제 토큰(문자열)로 변환해서 출력
    token_strings = tokenizer.convert_ids_to_tokens(tokens[:10])
    print(token_strings)

    print("=" * 50)
    print()

### 5. **Semantic Chunking**

- **SemanticChunker**는 텍스트를 의미 단위로 **분할**하는 특수한 텍스트 분할도구

- 단순 길이 기반이 아닌 **의미 기반**으로 텍스트를 청크화하는데 효과적

- **breakpoint_threshold_type**: Text Splitting의 다양한 임계값(Threshold) 설정 방식 (통계적 기법)

  - **Gradient** 방식: 임베딩 벡터 간의 **기울기 변화**를 기준으로 텍스트를 분할
  - **Percentile** 방식: 임베딩 거리의 **백분위수**를 기준으로 분할 지점을 결정
  - **Standard Deviation** 방식: 임베딩 거리의 **표준편차**를 활용하여 유의미한 변화점을 찾아서 분할
  - **Interquartile** 방식: 임베딩 거리의 **사분위수 범위**를 기준으로 이상치를 감지하여 분할

- 설치: pip install langchain_experimental 또는 uv add langchain_experimental


In [None]:
from langchain_experimental.text_splitter import SemanticChunker
from langchain_openai.embeddings import OpenAIEmbeddings

# 임베딩 모델을 사용하여 SemanticChunker를 초기화
text_splitter = SemanticChunker(
    embeddings=OpenAIEmbeddings(model="text-embedding-3-small"),  # OpenAI 임베딩 사용
    breakpoint_threshold_type="gradient",  # 임계값 타입 설정 (gradient, percentile, standard_deviation, interquartile)
)

In [None]:
chunks = text_splitter.split_documents([pdf_docs[0]])

print(f"생성된 청크 수: {len(chunks)}")
print(f"각 청크의 길이: {list(len(chunk.page_content) for chunk in chunks)}")
print()

tokenizer = tiktoken.get_encoding("cl100k_base")

for chunk in chunks[:5]:

    # 각 청크를 토큰화
    tokens = tokenizer.encode(chunk.page_content)
    # 각 청크의 단어 수 확인
    print(len(tokens))
    # 각 청크의 내용을 확인
    print(chunk.page_content[:100])
    print("=" * 50)
    print()

# 문서 임베딩(Document Embedding)

- 개념:

  - 텍스트를 벡터(숫자 배열)로 변환하는 과정
  - 문서의 의미적 특성을 수치화하여 컴퓨터가 이해하고 처리할 수 있는 형태로 변환

- 목적:

  - 텍스트 간 유사도 계산 가능
  - 벡터 데이터베이스 저장 및 검색
  - 의미 기반 문서 검색 구현

- LangChain의 임베딩 모델 종류:
  - OpenAI 임베딩
  - HuggingFace 임베딩


### 1. **OpenAI**

- LangChain에서 가장 널리 사용되는 임베딩 모델 중 하나

- 주요 특징:

  1. 고품질의 임베딩 생성
  2. 다양한 언어 지원 (다국어 지원)
  3. 일관된 성능
  4. 손쉬운 통합

- 사용시 주의사항:

  1. API 키 설정이 필요 (환경 변수 OPENAI_API_KEY)
  2. API 사용량에 따른 비용 발생
  3. 긴 텍스트는 자동으로 분할되지 않으므로 필요시 TextSplitter를 사용

- 모델별 특징

  ```
  모델                    페이지/달러    MTEB 성능     최대입력
  text-embedding-3-small  62,500       62.3%       8191
  text-embedding-3-large   9,615       64.6%       8191
  text-embedding-ada-002  12,500       61.0%       8191
  ```

- 임베딩 벡터 특성
  1. small: 1536 차원
  1. large: 3072 차원
  1. dimensions 파라미터로 차원 축소 가능


`(1) embedding 모델`


In [None]:
from langchain_openai import OpenAIEmbeddings

# OpenAIEmbeddings 모델 생성
embeddings_model = OpenAIEmbeddings(
    model="text-embedding-3-large",  # 사용할 모델 이름
    dimensions=None,  # 원하는 임베딩 차원 수를 지정 가능 (기본값: None)
)

# 임베딩 객체 출력
embeddings_model

In [None]:
# 임베딩 모델의 컨텍스트 길이 확인
embeddings_model.embedding_ctx_length

In [None]:
from langchain_openai import OpenAIEmbeddings

# OpenAIEmbeddings 모델 생성할 때 임베딩 차원을 지정하는 예시
embeddings_openai = OpenAIEmbeddings(
    model="text-embedding-3-small",  # 사용할 모델 이름
    dimensions=1024,  # 원하는 임베딩 차원 수를 지정 가능 (기본값: None)
)

# 임베딩 모델의 임베딩 차원 확인
embeddings_openai.dimensions

`(2) embed_documents 사용`


In [None]:
# 문서 컬렉션
documents = [
    "인공지능은 컴퓨터 과학의 한 분야입니다.",
    "머신러닝은 인공지능의 하위 분야입니다.",
    "딥러닝은 머신러닝의 한 종류입니다.",
    "자연어 처리는 컴퓨터가 인간의 언어를 이해하고 생성하는 기술입니다.",
    "컴퓨터 비전은 컴퓨터가 디지털 이미지나 비디오를 이해하는 방법을 연구합니다.",
]

# 문서 임베딩
document_embeddings_openai = embeddings_openai.embed_documents(documents)

# 임베딩 결과 출력
print(f"임베딩 벡터의 개수: {len(document_embeddings_openai)}")
print(f"임베딩 벡터의 차원: {len(document_embeddings_openai[0])}")
print(document_embeddings_openai[0])

`(3) embed_query 사용`


In [None]:
embedded_query_openai = embeddings_openai.embed_query("인공지능이란 무엇인가요?")

# 쿼리 임베딩 결과 출력
print(f"쿼리 임베딩 벡터의 차원: {len(embedded_query_openai)}")
print(embedded_query_openai)

`(4) 유사도 기반 검색`


In [None]:
from langchain_community.utils.math import cosine_similarity
import numpy as np


# 쿼리와 가장 유사한 문서 찾기 함수
def find_most_similar(
    query: str,
    doc_embeddings: np.ndarray,
    embeddings_model=OpenAIEmbeddings(model="text-embedding-3-small"),
) -> tuple[str, float]:

    # 쿼리 임베딩: OpenAI 임베딩 사용
    query_embedding = embeddings_model.embed_query(query)

    # 코사인 유사도 계산
    similarities = cosine_similarity([query_embedding], doc_embeddings)[0]

    # 가장 유사한 문서 인덱스 찾기
    most_similar_idx = np.argmax(similarities)

    # 가장 유사한 문서와 유사도 반환: 문서, 유사도
    return documents[most_similar_idx], similarities[most_similar_idx]


# 예제 쿼리
queries = [
    "인공지능이란 무엇인가요?",
    "딥러닝과 머신러닝의 관계는 어떻게 되나요?",
    "컴퓨터가 이미지를 이해하는 방법은?",
]

# 각 쿼리에 대해 가장 유사한 문서 찾기
for query in queries:
    most_similar_doc, similarity = find_most_similar(
        query, document_embeddings_openai, embeddings_model=embeddings_openai
    )
    print(f"쿼리: {query}")
    print(f"가장 유사한 문서: {most_similar_doc}")
    print(f"유사도: {similarity:.4f}")
    print()

### 2. **Huggingface**

- LangChain에서 오픈소스 기반의 대표적인 임베딩 모델

- 주요 특징:

  1. 로컬 환경에서 실행 가능
  2. 다양한 사전학습 모델 지원
  3. 커스텀 모델 학습 및 적용 가능
  4. 무료 사용 가능 (API 비용 없음)

- 사용시 주의사항:

  1. 로컬 컴퓨팅 자원 필요 (CPU/GPU)
  2. 초기 모델 다운로드 시간 소요
  3. 메모리 사용량 고려 필요
  4. transformers 라이브러리 설치 필요

- 대표적인 임베딩 모델:

  ```
  모델                            차원      언어             특징
  all-MiniLM-L6-v2               384     다국어     빠른 속도, 적은 메모리
  all-mpnet-base-v2              768     다국어     높은 성능, 중간 크기
  multilingual-e5-large         1024     다국어     최고 성능, 큰 메모리
  ```

- 임베딩 벡터 특성:
  1. 모델별로 다양한 차원 제공 (128 ~ 1024)
  2. sentence-transformers 기반 구현
  3. BERT 계열 모델 구조 사용
  4. 코사인 유사도 기반 검색 최적화


`(1) embedding 모델`

- langchain_huggingface 설치 필요


In [None]:
from langchain_huggingface.embeddings import HuggingFaceEmbeddings

# Hugging Face의 임베딩 모델 생성
embeddings_bgem3 = HuggingFaceEmbeddings(
    model_name="BAAI/bge-m3",  # 사용할 모델 이름 - BAAI BGE-m3 모델 (한국어 성능 우수)
    # model_kwargs={'device': 'cuda'}  # GPU 사용시
    # model_kwargs={'device': 'mps'}   # Mac M1 사용시
)

# 임베딩 객체 출력
embeddings_bgem3

`(2) embed_documents 사용`


In [None]:
# 문서 임베딩
document_embeddings_bgem3 = embeddings_bgem3.embed_documents(documents)

# 임베딩 결과 출력
print(f"임베딩 벡터의 개수: {len(document_embeddings_bgem3)}")
print(f"임베딩 벡터의 차원: {len(document_embeddings_bgem3[0])}")
print(document_embeddings_bgem3[0])

`(3) embed_query 사용`


In [None]:
embedded_query = embeddings_bgem3.embed_query("인공지능이란 무엇인가요?")

# 쿼리 임베딩 결과 출력
print(f"쿼리 임베딩 벡터의 차원: {len(embedded_query)}")
print(embedded_query)

`(4) 유사도 기반 검색`


In [None]:
# 예제 쿼리
queries = [
    "인공지능이란 무엇인가요?",
    "딥러닝과 머신러닝의 관계는 어떻게 되나요?",
    "컴퓨터가 이미지를 이해하는 방법은?",
]

# 각 쿼리에 대해 가장 유사한 문서 찾기
for query in queries:
    most_similar_doc, similarity = find_most_similar(
        query, document_embeddings_bgem3, embeddings_model=embeddings_bgem3
    )
    print(f"쿼리: {query}")
    print(f"가장 유사한 문서: {most_similar_doc}")
    print(f"유사도: {similarity:.4f}")
    print()

### 3. **Ollama**

- LangChain에서 로컬 실행에 최적화된 경량 임베딩 모델

- 주요 특징:

  1. 완전한 로컬 실행 환경 제공
  2. 빠른 추론 속도
  3. 간단한 설치 및 실행 과정
  4. Docker 기반 손쉬운 배포

- 사용시 주의사항:

  1. Ollama 서버 실행 필요
  2. 모델별 시스템 요구사항 확인
  3. API 엔드포인트 설정 필요
  4. 동시 요청 처리량 고려

- 대표적인 임베딩 모델:

  ```
  모델                차원       언어        특징
  llama2              4096      영어       범용성 높은 기본 모델
  nomic-embed-text    768       영어       경량화된 고성능 모델
  codellama          2048       다국어     코드 특화 임베딩
  ```

- 임베딩 벡터 특성:
  1. 모델별 고정 차원 사용
  2. 최적화된 양자화 지원
  3. 배치 처리 최적화


`(1) embedding 모델`

- langchain_ollama 설치 필요


In [None]:
from langchain_ollama import OllamaEmbeddings

# OllamaEmbeddings 모델 생성
embeddings_ollama = OllamaEmbeddings(
    model="bge-m3",  # 사용할 모델 이름  "nomic-embed-text" https://ollama.com/library/bge-m3 를 설치필요. "ollama pull bge-m3"
    base_url="http://localhost:11434",  # Ollama 서버 주소
)
# embeddings_ollama = OllamaEmbeddings(model="bge-m3")

# 임베딩 객체 출력
embeddings_ollama

`(2) embed_documents 사용`


In [None]:
# 문서 컬렉션
documents = [
    "인공지능은 컴퓨터 과학의 한 분야입니다.",
    "머신러닝은 인공지능의 하위 분야입니다.",
    "딥러닝은 머신러닝의 한 종류입니다.",
    "자연어 처리는 컴퓨터가 인간의 언어를 이해하고 생성하는 기술입니다.",
    "컴퓨터 비전은 컴퓨터가 디지털 이미지나 비디오를 이해하는 방법을 연구합니다.",
]


# 문서 임베딩
document_embeddings_ollama = embeddings_ollama.embed_documents(documents)

# 임베딩 결과 출력
print(f"임베딩 벡터의 개수: {len(document_embeddings_ollama)}")

print(f"임베딩 벡터의 차원: {len(document_embeddings_ollama[0])}")

print(document_embeddings_ollama[0])

`(3) embed_query 사용`


In [None]:
embedded_query = embeddings_ollama.embed_query("인공지능이란 무엇인가요?")

# 쿼리 임베딩 결과 출력
print(f"쿼리 임베딩 벡터의 차원: {len(embedded_query)}")
print(embedded_query)

`(4) 유사도 기반 검색`


In [None]:
# 예제 쿼리
queries = [
    "인공지능이란 무엇인가요?",
    "딥러닝과 머신러닝의 관계는 어떻게 되나요?",
    "컴퓨터가 이미지를 이해하는 방법은?",
]

# 각 쿼리에 대해 가장 유사한 문서 찾기
for query in queries:
    most_similar_doc, similarity = find_most_similar(
        query, document_embeddings_ollama, embeddings_model=embeddings_ollama
    )
    print(f"쿼리: {query}")
    print(f"가장 유사한 문서: {most_similar_doc}")
    print(f"유사도: {similarity:.4f}")
    print()

# 벡터 저장소 (Vector Store)

- 개념:

  - 벡터화된 데이터를 효율적으로 저장하고 검색하기 위한 특수 데이터베이스 시스템
  - 텍스트나 이미지 등의 비정형 데이터를 고차원 벡터 공간에 매핑하여 저장
  - 유사도 기반 검색을 통해 의미적으로 가까운 데이터를 빠르게 검색 가능

- LangChain의 벡터 저장소 종류:

  - **Chroma**: 경량화된 임베딩 데이터베이스로 로컬 개발에 적합
  - **FAISS**: Facebook AI가 개발한 고성능 유사도 검색 라이브러리
  - **Pinecone**: 완전 관리형 벡터 데이터베이스 서비스
  - Milvus: 분산 벡터 데이터베이스로 대규모 데이터 처리에 적합
  - PostgreSQL: pgvector 확장을 통해 벡터 저장 및 검색 기능을 제공

- 주요 기능:

  - 벡터 색인화: 효율적인 검색을 위한 데이터 구조화를 수행
  - 근접 이웃 검색: 주어진 쿼리와 가장 유사한 벡터들을 검색
  - 메타데이터 관리: 벡터와 관련된 부가 정보를 함께 저장하고 검색

- 사용 사례:
  - 시맨틱 문서 검색: 문서의 의미를 이해하여 검색
  - 추천 시스템: 유사한 아이템을 추천
  - 중복 데이터 감지: 유사한 콘텐츠를 검색
  - 질의응답 시스템: 관련 문서에서 답변을 생성하는데 필요한 근거를 검색


### **Chroma**

- 사용자 편의성이 우수한 오픈소스 벡터 저장소
- `langchain-chroma` 패키지 설치


`(1) 벡터 저장소 초기화`


In [4]:
from langchain_community.document_loaders import PyPDFLoader

# PDF 로더 초기화 (근로기준법 문서)
pdf_loader = PyPDFLoader("./data/labor_law.pdf")

# 동기 로딩
pdf_docs = pdf_loader.load()
print(f"PDF 문서 개수: {len(pdf_docs)}")

len(pdf_docs)

PDF 문서 개수: 20


20

In [5]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

# TikToken 인코더를 사용하여 재귀적 텍스트 분할기 초기화 (토큰 수 기준 분할)
text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
    encoding_name="cl100k_base",
    chunk_size=500,
    chunk_overlap=100,
)

# split_documents() 메서드 사용 : Document 객체를 여러 개의 작은 청크 문서로 분할
chunks = text_splitter.split_documents(pdf_docs)

print(f"생성된 청크 수: {len(chunks)}")
print(f"각 청크의 길이: {list(len(chunk.page_content) for chunk in chunks)}")

# 각 청크의 시작 부분과 끝 부분 확인
for chunk in chunks[:5]:
    print(f"{chunk.page_content[:100]}...{chunk.page_content[-100:]}")
    print("=" * 100)

생성된 청크 수: 95
각 청크의 길이: [620, 476, 473, 468, 99, 627, 459, 517, 358, 607, 478, 472, 517, 387, 631, 541, 501, 474, 204, 558, 463, 459, 535, 432, 583, 497, 488, 463, 209, 609, 477, 504, 459, 512, 612, 483, 491, 476, 168, 633, 501, 471, 502, 193, 655, 509, 488, 465, 472, 637, 508, 493, 331, 589, 481, 537, 545, 496, 89, 593, 448, 473, 511, 318, 660, 528, 536, 505, 204, 624, 522, 489, 509, 129, 595, 485, 542, 530, 630, 482, 493, 379, 573, 511, 467, 196, 557, 494, 570, 550, 151, 671, 574, 480, 274]
법제처                                                            1                                    ... 제1장 총칙
 
제1조(목적) 이 법은 헌법에 따라 근로조건의 기준을 정함으로써 근로자의 기본적 생활을 보장, 향상시키며 균형 있는
국민경제의 발전을 꾀하는 것을 목적으로 한다.
제1조(목적) 이 법은 헌법에 따라 근로조건의 기준을 정함으로써 근로자의 기본적 생활을 보장, 향상시키며 균형 있는
국민경제의 발전을 꾀하는 것을 목적으로 한다.
 
제2조(정의)...임금을 지급하는 것을 목적으로 체
결된 계약을 말한다.
5. “임금”이란 사용자가 근로의 대가로 근로자에게 임금, 봉급, 그 밖에 어떠한 명칭으로든지 지급하는 모든 금품을
말한다.
결된 계약을 말한다.
5. “임금”이란 사용자가 근로의 대가로 근로자에게 임금, 봉급, 그 밖에 어떠한 명칭으로든지 지급하는 모든 금품을
말한다.
6. “평균임금”이란 이

In [11]:
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings

# OpenAI 임베딩 모델 생성
embeddings_openai = OpenAIEmbeddings(
    model="text-embedding-3-small",  # 사용할 모델 이름)
    api_key="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",
)

# Chroma 벡터 저장소 생성하기
chroma_db = Chroma.from_documents(
    documents=chunks,
    embedding=embeddings_openai,  # OpenAI 임베딩 사용
    collection_name="labor_law",  # 컬렉션 이름
    persist_directory="./chroma_db",
    collection_metadata={"hnsw:space": "cosine"},  # l2, ip, cosine 중에서 선택
)

In [12]:
# 문서 개수 확인
chroma_db._collection.count()

380

`(2) 벡터 저장소 로드`


In [13]:
from langchain_chroma import Chroma

# 저장된 벡터 저장소를 가져오기
chroma_db = Chroma(
    collection_name="labor_law",
    embedding_function=embeddings_openai,
    persist_directory="./chroma_db",
)

In [14]:
# 문서 개수 확인
chroma_db._collection.count()

380

`(3) 문서 검색`

- 유사도 검색
  - 주어진 쿼리와 가장 유사한 문서를 반환
  - k=5는 상위 5개의 결과를 반환하도록 지정
  - filter를 사용하여 특정 출처의 문서만 검색 가능


In [15]:
query = "'탄력 근로에 대해서 설명해주세요"
results = chroma_db.similarity_search(
    query, k=5, filter={"source": "./data/labor_law.pdf"}
)

# print("유사도 검색 결과:")
# for doc in results:
#    print(f"- {doc.page_content} [출처: {doc.metadata['source']}]")
#    print("=" * 100)

- 유사도 점수가 포함된 검색
  - 유사도 점수를 함께 반환
  - 점수가 낮을수록 더 유사한 것을 의미 (거리 기준으로 점수가 산정되기 때문)


In [16]:
query = "'탄력 근로에 대해서 설명해주세요"
results = chroma_db.similarity_search_with_score(
    query,
    k=5,
)

print("점수가 포함된 유사도 검색 결과:\n")
for doc, score in results:
    print(f"- 점수: {score:.4f}")
    print(f"  내용: {doc.page_content}")
    print(f" 메타데이터: {doc.metadata}")
    print("=" * 100)

점수가 포함된 유사도 검색 결과:

- 점수: 0.6460
  내용: 법제처                                                            9                                                       국가법령정보센터
근로기준법
[제목개정 2021. 1. 5.]
 
제51조의2(3개월을 초과하는 탄력적 근로시간제) ① 사용자는 근로자대표와의 서면 합의에 따라 다음 각 호의 사항을
정하면 3개월을 초과하고 6개월 이내의 단위기간을 평균하여 1주간의 근로시간이 제50조제1항의 근로시간을 초과
하지 아니하는 범위에서 특정한 주에 제50조제1항의 근로시간을, 특정한 날에 제50조제2항의 근로시간을 초과하여
근로하게 할 수 있다. 다만, 특정한 주의 근로시간은 52시간을, 특정한 날의 근로시간은 12시간을 초과할 수 없다.
1. 대상 근로자의 범위
2. 단위기간(3개월을 초과하고 6개월 이내의 일정한 기간으로 정하여야 한다)
3. 단위기간의 주별 근로시간
4. 그 밖에 대통령령으로 정하는 사항
② 사용자는 제1항에 따라 근로자를 근로시킬 경우에는 근로일 종료 후 다음 근로일 개시 전까지 근로자에게 연속
하여 11시간 이상의 휴식 시간을 주어야 한다. 다만, 천재지변 등 대통령령으로 정하는 불가피한 경우에는 근로자대
 메타데이터: {'page': 8, 'total_pages': 20, 'creationdate': '2024-10-15T14:45:34+09:00', 'creator': 'PyPDF', 'source': './data/labor_law.pdf', 'producer': 'iText 2.1.7 by 1T3XT', 'moddate': '2024-10-15T14:45:34+09:00', 'page_label': '9'}
- 점수: 0.6461
  내용: 법제처                                                            9           

# 벡터 저장소 기반 RAG 검색기 (Retriever)


`(1) Top K`


In [17]:
retriever = chroma_db.as_retriever(
    search_kwargs={"k": 2},
)

query = "탄력 근로에 대해서 설명해주세요"
retrieved_docs = retriever.invoke(query)

print(f"쿼리: {query}")
print("검색 결과:")
for i, doc in enumerate(retrieved_docs, 1):
    print(f"-{i}-\n{doc.page_content}\n[출처: {doc.metadata['source']}]")
    print("-" * 100)

쿼리: 탄력 근로에 대해서 설명해주세요
검색 결과:
-1-
법제처                                                            9                                                       국가법령정보센터
근로기준법
[제목개정 2021. 1. 5.]
 
제51조의2(3개월을 초과하는 탄력적 근로시간제) ① 사용자는 근로자대표와의 서면 합의에 따라 다음 각 호의 사항을
정하면 3개월을 초과하고 6개월 이내의 단위기간을 평균하여 1주간의 근로시간이 제50조제1항의 근로시간을 초과
하지 아니하는 범위에서 특정한 주에 제50조제1항의 근로시간을, 특정한 날에 제50조제2항의 근로시간을 초과하여
근로하게 할 수 있다. 다만, 특정한 주의 근로시간은 52시간을, 특정한 날의 근로시간은 12시간을 초과할 수 없다.
1. 대상 근로자의 범위
2. 단위기간(3개월을 초과하고 6개월 이내의 일정한 기간으로 정하여야 한다)
3. 단위기간의 주별 근로시간
4. 그 밖에 대통령령으로 정하는 사항
② 사용자는 제1항에 따라 근로자를 근로시킬 경우에는 근로일 종료 후 다음 근로일 개시 전까지 근로자에게 연속
하여 11시간 이상의 휴식 시간을 주어야 한다. 다만, 천재지변 등 대통령령으로 정하는 불가피한 경우에는 근로자대
[출처: ./data/labor_law.pdf]
----------------------------------------------------------------------------------------------------
-2-
법제처                                                            9                                                       국가법령정보센터
근로기준법
[제목개정 2021. 1. 5.]
 
제51조의2(3개월을 초과하는 탄력적 근로시간제) ① 사용자는 근로자대표와의 서면 

`(2) 임계값 지정`

- Similarity score threshold (기준 스코어 이상인 문서를 대상으로 추출)


In [18]:
from langchain_community.utils.math import cosine_similarity

retriever = chroma_db.as_retriever(
    search_type="similarity_score_threshold",  # cosine 유사도
    search_kwargs={"score_threshold": 0.3, "k": 5},  # 0.3 이상인 문서를 추출
)

query = "탄력 근로에 대해서 설명해주세요"

# 쿼리와 유사한 문서 검색
retrieved_docs = retriever.invoke(query)

print(f"쿼리: {query}")
print("검색 결과:")
for i, doc in enumerate(retrieved_docs, 1):
    score = cosine_similarity(
        [embeddings_openai.embed_query(query)],
        [embeddings_openai.embed_query(doc.page_content)],
    )[0][0]
    print(f"-{i}-\n{doc.page_content}\n[유사도: {score}]")
    print("-" * 100)

쿼리: 탄력 근로에 대해서 설명해주세요
검색 결과:
-1-
법제처                                                            9                                                       국가법령정보센터
근로기준법
[제목개정 2021. 1. 5.]
 
제51조의2(3개월을 초과하는 탄력적 근로시간제) ① 사용자는 근로자대표와의 서면 합의에 따라 다음 각 호의 사항을
정하면 3개월을 초과하고 6개월 이내의 단위기간을 평균하여 1주간의 근로시간이 제50조제1항의 근로시간을 초과
하지 아니하는 범위에서 특정한 주에 제50조제1항의 근로시간을, 특정한 날에 제50조제2항의 근로시간을 초과하여
근로하게 할 수 있다. 다만, 특정한 주의 근로시간은 52시간을, 특정한 날의 근로시간은 12시간을 초과할 수 없다.
1. 대상 근로자의 범위
2. 단위기간(3개월을 초과하고 6개월 이내의 일정한 기간으로 정하여야 한다)
3. 단위기간의 주별 근로시간
4. 그 밖에 대통령령으로 정하는 사항
② 사용자는 제1항에 따라 근로자를 근로시킬 경우에는 근로일 종료 후 다음 근로일 개시 전까지 근로자에게 연속
하여 11시간 이상의 휴식 시간을 주어야 한다. 다만, 천재지변 등 대통령령으로 정하는 불가피한 경우에는 근로자대
[유사도: 0.3067295861009112]
----------------------------------------------------------------------------------------------------
-2-
법제처                                                            9                                                       국가법령정보센터
근로기준법
[제목개정 2021. 1. 5.]
 
제51조의2(3개월을 초과하는 탄력적 근로시간제) ① 사용자는 근로자대표와의 서면 합

`(3) MMR(Maximal Marginal Relevance) 검색`


In [19]:
# MMR - 다양성 고려 (lambda_mult 작을수록 더 다양하게 추출)
retriever = chroma_db.as_retriever(
    search_type="mmr",
    search_kwargs={
        "k": 3,  # 검색할 문서의 수
        "fetch_k": 8,  # mmr 알고리즘에 전달할 문서의 수 (fetch_k > k)
        "lambda_mult": 0.5,  # 다양성을 고려하는 정도 (1은 최소 다양성, 0은 최대 다양성을 의미. 기본값은 0.5)
    },
)


query = "탄력 근로에 대해서 설명해주세요"

# 쿼리와 유사한 문서 검색
retrieved_docs = retriever.invoke(query)

print(f"쿼리: {query}")
print("검색 결과:")
for i, doc in enumerate(retrieved_docs, 1):
    score = cosine_similarity(
        [embeddings_openai.embed_query(query)],
        [embeddings_openai.embed_query(doc.page_content)],
    )[0][0]
    print(f"-{i}-\n{doc.page_content}\n[유사도: {score}]")
    print("-" * 100)

쿼리: 탄력 근로에 대해서 설명해주세요
검색 결과:
-1-
법제처                                                            9                                                       국가법령정보센터
근로기준법
[제목개정 2021. 1. 5.]
 
제51조의2(3개월을 초과하는 탄력적 근로시간제) ① 사용자는 근로자대표와의 서면 합의에 따라 다음 각 호의 사항을
정하면 3개월을 초과하고 6개월 이내의 단위기간을 평균하여 1주간의 근로시간이 제50조제1항의 근로시간을 초과
하지 아니하는 범위에서 특정한 주에 제50조제1항의 근로시간을, 특정한 날에 제50조제2항의 근로시간을 초과하여
근로하게 할 수 있다. 다만, 특정한 주의 근로시간은 52시간을, 특정한 날의 근로시간은 12시간을 초과할 수 없다.
1. 대상 근로자의 범위
2. 단위기간(3개월을 초과하고 6개월 이내의 일정한 기간으로 정하여야 한다)
3. 단위기간의 주별 근로시간
4. 그 밖에 대통령령으로 정하는 사항
② 사용자는 제1항에 따라 근로자를 근로시킬 경우에는 근로일 종료 후 다음 근로일 개시 전까지 근로자에게 연속
하여 11시간 이상의 휴식 시간을 주어야 한다. 다만, 천재지변 등 대통령령으로 정하는 불가피한 경우에는 근로자대
[유사도: 0.3075490938712695]
----------------------------------------------------------------------------------------------------
-2-
법제처                                                            9                                                       국가법령정보센터
근로기준법
[제목개정 2021. 1. 5.]
 
제51조의2(3개월을 초과하는 탄력적 근로시간제) ① 사용자는 근로자대표와의 서면 합

# Naive RAG 구현


`(1) 벡터 저장소 로드`

- `Chroma` 벡터 저장소를 로드


In [None]:
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings

# OpenAI 임베딩 모델 생성
embeddings_openai = OpenAIEmbeddings(
    model="text-embedding-3-small",  # 사용할 모델 이름
    api_key="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",
)

# 저장된 벡터 저장소를 가져오기
chroma_db = Chroma(
    collection_name="labor_law",
    embedding_function=embeddings_openai,
    persist_directory="./chroma_db",
)


# 문서 개수 확인
print(f"저장된 문서 수: {chroma_db._collection.count()}")

client=<openai.resources.embeddings.Embeddings object at 0x000001D7607867E0> async_client=<openai.resources.embeddings.AsyncEmbeddings object at 0x000001D7607879E0> model='text-embedding-3-small' dimensions=None deployment='text-embedding-ada-002' openai_api_version=None openai_api_base=None openai_api_type=None openai_proxy=None embedding_ctx_length=8191 openai_api_key=SecretStr('**********') openai_organization=None allowed_special=None disallowed_special=None chunk_size=1000 max_retries=2 request_timeout=None headers=None tiktoken_enabled=True tiktoken_model_name=None show_progress_bar=False model_kwargs={} skip_empty=False default_headers=None default_query=None retry_min_seconds=4 retry_max_seconds=20 http_client=None http_async_client=None check_embedding_ctx_length=True
저장된 문서 수: 380


`(2) 검색기(Retriever) 초기화`

- mmr 검색을 사용하는 Retriever 사용
- 다양성을 높이는 설정을 사용


In [None]:
# mmr 검색기 생성

retriever = chroma_db.as_retriever(

    search_type="mmr",

    search_kwargs={

        "k": 5,  # 검색할 문서의 수

        "fetch_k": 10,  # mmr 알고리즘에 전달할 문서의 수 (fetch_k > k)

        "lambda_mult": 0.3,  # 다양성을 고려하는 정도 (1은 최소 다양성, 0은 최대 다양성을 의미. 기본값은 0.5)

    },

)

client=<openai.resources.embeddings.Embeddings object at 0x000001D7607867E0> async_client=<openai.resources.embeddings.AsyncEmbeddings object at 0x000001D7607879E0> model='text-embedding-3-small' dimensions=None deployment='text-embedding-ada-002' openai_api_version=None openai_api_base=None openai_api_type=None openai_proxy=None embedding_ctx_length=8191 openai_api_key=SecretStr('**********') openai_organization=None allowed_special=None disallowed_special=None chunk_size=1000 max_retries=2 request_timeout=None headers=None tiktoken_enabled=True tiktoken_model_name=None show_progress_bar=False model_kwargs={} skip_empty=False default_headers=None default_query=None retry_min_seconds=4 retry_max_seconds=20 http_client=None http_async_client=None check_embedding_ctx_length=True


In [None]:
# 검색 테스트
query = "탄력 근로에 대해서 설명해주세요"

# 쿼리와 유사한 문서 검색
retrieved_docs = retriever.invoke(query)

print(f"쿼리: {query}")
print("검색 결과:")
for i, doc in enumerate(retrieved_docs, 1):
    print(f"-{i}-\n{doc.page_content}\n[출처: {doc.metadata['source']}]")
    print("-" * 100)

client=<openai.resources.embeddings.Embeddings object at 0x000001D7607867E0> async_client=<openai.resources.embeddings.AsyncEmbeddings object at 0x000001D7607879E0> model='text-embedding-3-small' dimensions=None deployment='text-embedding-ada-002' openai_api_version=None openai_api_base=None openai_api_type=None openai_proxy=None embedding_ctx_length=8191 openai_api_key=SecretStr('**********') openai_organization=None allowed_special=None disallowed_special=None chunk_size=1000 max_retries=2 request_timeout=None headers=None tiktoken_enabled=True tiktoken_model_name=None show_progress_bar=False model_kwargs={} skip_empty=False default_headers=None default_query=None retry_min_seconds=4 retry_max_seconds=20 http_client=None http_async_client=None check_embedding_ctx_length=True
쿼리: 탄력 근로에 대해서 설명해주세요
검색 결과:
-1-
법제처                                                            9                                                       국가법령정보센터
근로기준법
[제목개정 2021. 1. 5.]
 
제51조의2(3개월을 초과하는 탄력적 근로시

`(3) RAG 프롬프트 구성`

- 작성 기준:
  - LangChain의 ChatPromptTemplate 클래스 사용
  - 변수 처리는 {context}, {question} 형식 사용
  - 답변은 한글로 출력되도록 프롬프트 작성
- 아래 템플릿 코드를 기반으로 다음 내용을 참고하여 작성합니다.

  1. 프롬프트 구성요소:

     - 작업 지침
     - 컨텍스트 영역
     - 질문 영역
     - 답변 형식 가이드

  2. 작업 지침:

     - 컨텍스트 기반 답변 원칙
     - 외부 지식 사용 제한
     - 불확실성 처리 방법
     - 답변 불가능한 경우의 처리 방법

  3. 답변 형식:

     - 핵심 답변 섹션
     - 근거 제시 섹션
     - 추가 설명 섹션 (필요시)

  4. 제약사항 반영:
     - 답변은 사실에 기반해야 함
     - 추측이나 가정을 최소화해야 함
     - 명확한 근거 제시가 필요함
     - 구조화된 형태로 작성되어야 함


In [None]:
# Prompt 템플릿 (기본 예시)
from langchain_core.prompts import ChatPromptTemplate

template = """Answer the question based only on the following context.

[Context]
{context}

[Question] 
{question}

[Answer]
"""

prompt = ChatPromptTemplate.from_template(template)

# 템플릿 출력
prompt.pretty_print()

client=<openai.resources.embeddings.Embeddings object at 0x000001D7607867E0> async_client=<openai.resources.embeddings.AsyncEmbeddings object at 0x000001D7607879E0> model='text-embedding-3-small' dimensions=None deployment='text-embedding-ada-002' openai_api_version=None openai_api_base=None openai_api_type=None openai_proxy=None embedding_ctx_length=8191 openai_api_key=SecretStr('**********') openai_organization=None allowed_special=None disallowed_special=None chunk_size=1000 max_retries=2 request_timeout=None headers=None tiktoken_enabled=True tiktoken_model_name=None show_progress_bar=False model_kwargs={} skip_empty=False default_headers=None default_query=None retry_min_seconds=4 retry_max_seconds=20 http_client=None http_async_client=None check_embedding_ctx_length=True

Answer the question based only on the following context.

[Context]
[33;1m[1;3m{context}[0m

[Question] 
[33;1m[1;3m{question}[0m

[Answer]



In [None]:
# Prompt 템플릿 (커스텀 예시)
from langchain_core.prompts import ChatPromptTemplate

template = """주어진 컨텍스트를 기반으로 질문에 답변하시오.

[지침]
- 컨텍스트에 있는 정보만을 사용하여 답변할 것
- 외부 지식이나 정보를 사용하지 말 것
- 컨텍스트에서 답을 찾을 수 없는 경우 "주어진 정보만으로는 답변하기 어렵습니다."라고 응답할 것
- 불확실한 경우 명확히 그 불확실성을 표현할 것
- 답변은 논리적이고 구조화된 형태로 제공할 것
- 답변은 한국어를 사용할 것 

[컨텍스트]
{context}

[질문]
{question}

[답변 형식]
1. 핵심 답변: (질문에 대한 직접적인 답변)
2. 근거: (컨텍스트에서 발견된 관련 정보)
3. 추가 설명: (필요한 경우 부연 설명 제공)

[답변]
"""

prompt = ChatPromptTemplate.from_template(template)

# 템플릿 출력
prompt.pretty_print()

client=<openai.resources.embeddings.Embeddings object at 0x000001D7607867E0> async_client=<openai.resources.embeddings.AsyncEmbeddings object at 0x000001D7607879E0> model='text-embedding-3-small' dimensions=None deployment='text-embedding-ada-002' openai_api_version=None openai_api_base=None openai_api_type=None openai_proxy=None embedding_ctx_length=8191 openai_api_key=SecretStr('**********') openai_organization=None allowed_special=None disallowed_special=None chunk_size=1000 max_retries=2 request_timeout=None headers=None tiktoken_enabled=True tiktoken_model_name=None show_progress_bar=False model_kwargs={} skip_empty=False default_headers=None default_query=None retry_min_seconds=4 retry_max_seconds=20 http_client=None http_async_client=None check_embedding_ctx_length=True

주어진 컨텍스트를 기반으로 질문에 답변하시오.

[지침]
- 컨텍스트에 있는 정보만을 사용하여 답변할 것
- 외부 지식이나 정보를 사용하지 말 것
- 컨텍스트에서 답을 찾을 수 없는 경우 "주어진 정보만으로는 답변하기 어렵습니다."라고 응답할 것
- 불확실한 경우 명확히 그 불확실성을 표현할 것
- 답변은 논리적이고 구조화된 형태로 제공할 것
- 답변은 한국어를 사용할 것 


`(4) RAG 체인 구성`

- LangChain의 LCEL 문법을 사용
- 검색 결과를 프롬프트의 'context'로 전달하고,
- 사용자가 입력한 질문을 그래도 프롬프트의 'question'에 전달
- LLM 설정:
  - ChatOpenAI 사용 ('gpt-4.1-mini' 모델)
  - temperature: 답변의 일관성을 가져가는 설정값을 사용
  - 기타 필요한 설정
- 출력 파서: 문자열 부분만 출력되도록 구성


In [34]:
from langchain_core.runnables import RunnablePassthrough, RunnableParallel
from langchain_core.output_parsers import StrOutputParser
from langchain_openai import ChatOpenAI

# LLM 설정
llm = ChatOpenAI(
    model="gpt-4.1-mini",
    temperature=0.7,
    top_p=0.9,
    api_key="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",
)


# 문서 포맷팅
def format_docs(docs):
    return "\n\n".join([f"{doc.page_content}" for doc in docs])


# RAG 체인 생성
rag_chain = (
    RunnableParallel(
        {"context": retriever | format_docs, "question": RunnablePassthrough()}
    )
    | prompt
    | llm
    | StrOutputParser()
)

# 체인 실행
query = "탄력 근로에 대해서 설명해주세요"
output = rag_chain.invoke(query)

print(f"쿼리: {query}")
print("답변:")
print(output)

쿼리: 탄력 근로에 대해서 설명해주세요
답변:
1. 핵심 답변:  
탄력적 근로시간제는 사용자가 근로자대표와 서면 합의하여 일정 기간(3개월 초과 6개월 이내)을 단위기간으로 정하고, 이 기간의 주별 근로시간 평균이 법정 근로시간을 초과하지 않는 범위 내에서 특정 주나 특정 날에 법정 근로시간을 초과하여 근로하게 하는 제도이다. 단, 특정 주의 근로시간은 52시간, 특정 날의 근로시간은 12시간을 초과할 수 없으며, 근로일 종료 후 다음 근로일 개시 전까지 연속하여 11시간 이상의 휴식 시간을 부여해야 한다.

2. 근거:  
- 제51조의2 제1항: "사용자는 근로자대표와의 서면 합의에 따라 3개월을 초과하고 6개월 이내의 단위기간을 평균하여 1주간 근로시간이 제50조제1항의 근로시간을 초과하지 아니하는 범위에서 특정 주에 제50조제1항의 근로시간, 특정 날에 제50조제2항의 근로시간을 초과하여 근로하게 할 수 있다."  
- 단, 특정 주 근로시간은 52시간, 특정 날 근로시간은 12시간을 초과할 수 없음  
- 제51조의2 제2항: "사용자는 근로자에게 근로일 종료 후 다음 근로일 개시 전까지 연속하여 11시간 이상의 휴식 시간을 주어야 한다."  
- 제50조 제1항 및 제2항: 1주 간 근로시간은 40시간 초과 불가, 1일 근로시간은 8시간 초과 불가  

3. 추가 설명:  
탄력적 근로시간제는 근로시간을 일정 기간 동안 탄력적으로 운영하여 업무량 변동에 대응할 수 있도록 하는 제도이다. 이를 통해 특정 기간에 근로시간을 집중시키고 다른 기간에는 근로시간을 줄이는 방식으로 효율적인 근로시간 관리가 가능하다. 다만, 법에서 정한 최대 근로시간과 휴식시간 규정을 반드시 준수해야 한다.


![LangServe Screenshot](https://raw.githubusercontent.com/tsdata/image_files/main/202505/rag_screenshot_0001.png)


`(5) LangServe 서버 구성`

- app/rag.py 파일을 생성하여 RAG 체인과 관련된 코드를 작성함.

  ```python
  # app/rag.py
  from dotenv import load_dotenv

  from langchain_core.runnables import RunnablePassthrough
  from langchain_core.output_parsers import StrOutputParser
  from langchain_openai import ChatOpenAI, OpenAIEmbeddings
  from langchain_chroma import Chroma
  from langchain_core.prompts import ChatPromptTemplate

  # 환경변수 로드
  load_dotenv()


  ######################
  #  RAG 체인 구성
  ######################

  # OpenAI 임베딩 모델 생성
  embeddings_openai = OpenAIEmbeddings(
      model="text-embedding-3-small",  # 사용할 모델 이름
      )

  # 저장된 벡터 저장소를 가져오기
  chroma_db = Chroma(
      collection_name="labor_law",
      embedding_function=embeddings_openai,
      persist_directory="./chroma_db",
  )

  print("Chroma DB loaded")
  print(chroma_db._collection.count())  # 벡터 저장소에 있는 문서 수 출력

  # 검색기 초기화å
  retriever = chroma_db.as_retriever(
      search_type='mmr',
      search_kwargs={
          'k': 5,                  # 검색할 문서의 수
          'fetch_k': 10,           # mmr 알고리즘에 전달할 문서의 수 (fetch_k > k)
          'lambda_mult': 0.3,      # 다양성을 고려하는 정도 (1은 최소 다양성, 0은 최대 다양성을 의미. 기본값은 0.5)
          },
  )

  # Prompt 템플릿 생성
  template = """주어진 컨텍스트를 기반으로 질문에 답변하시오.

  [지침]
  - 컨텍스트에 있는 정보만을 사용하여 답변할 것
  - 외부 지식이나 정보를 사용하지 말 것
  - 컨텍스트에서 답을 찾을 수 없는 경우 "주어진 정보만으로는 답변하기 어렵습니다."라고 응답할 것
  - 불확실한 경우 명확히 그 불확실성을 표현할 것
  - 답변은 논리적이고 구조화된 형태로 제공할 것
  - 답변은 한국어를 사용할 것

  [컨텍스트]
  {context}

  [질문]
  {question}

  [답변 형식]
  1. 핵심 답변: (질문에 대한 직접적인 답변)
  2. 근거: (컨텍스트에서 발견된 관련 정보)
  3. 추가 설명: (필요한 경우 부연 설명 제공)

  [답변]
  """

  prompt = ChatPromptTemplate.from_template(template)

  # LLM 설정
  llm = ChatOpenAI(
      model="gpt-4.1-mini",
      temperature=0.7,
      top_p=0.9,
  )

  # 문서 포맷팅
  def format_docs(docs):
      return "\n\n".join([f"{doc.page_content}" for doc in docs])

  # RAG 체인 생성

  rag_chain = (
      {"context": retriever | format_docs, "question": RunnablePassthrough()}
      | prompt
      | llm
      | StrOutputParser()
  )

  ```

- server.py 파일에 새로운 엔드포인트를 추가하여 RAG 체인을 호출하도록 설정함.

  ```python
  # app/server.py
  from fastapi import FastAPI
  from dotenv import load_dotenv
  from app.rag import rag_chain
  from langchain_openai import ChatOpenAI
  from langserve import add_routes

  # 환경변수 로드
  load_dotenv()

  # FastAPI 서버를 설정
  app = FastAPI(
      title="LangChain Server",
      version="1.0",
      description="Spin up a simple api server using Langchain's Runnable interfaces",
  )

  # 라우팅 설정
  add_routes(
      app,
      ChatOpenAI(model="gpt-4.1-mini"),
      path="/openai",   # OpenAI 모델에 대한 경로
  )

  add_routes(
      app,
      rag_chain,
      path="/rag",  # RAG 체인에 대한 경로
  )

  # FastAPI 서버 실행
  if __name__ == "__main__":
      import uvicorn

      uvicorn.run(app, host="localhost", port=8000)
  ```


![LangServe Screenshot](https://raw.githubusercontent.com/tsdata/image_files/main/202505/rag_screenshot_0002.png)
