## 1. 환경 설정

`(1) Env 환경변수`

In [1]:
from dotenv import load_dotenv
load_dotenv()

True

`(2) 기본 라이브러리`

In [2]:
import os
from glob import glob

from pprint import pprint
import json

## 2. 다양한 문서 형식 처리하기

### 2.1 PDF 문서 

In [4]:
from langchain_community.document_loaders import PyPDFLoader

pdf_loader = PyPDFLoader('./data/transformer.pdf')
pdf_docs = pdf_loader.load()

len(pdf_docs)

15

In [5]:
type(pdf_docs)

list

In [6]:
pdf_docs[0]

Document(metadata={'source': './data/transformer.pdf', 'page': 0}, page_content='Provided proper attribution is provided, Google hereby grants permission to\nreproduce the tables and figures in this paper solely for use in journalistic or\nscholarly works.\nAttention Is All You Need\nAshish Vaswani∗\nGoogle Brain\navaswani@google.comNoam Shazeer∗\nGoogle Brain\nnoam@google.comNiki Parmar∗\nGoogle Research\nnikip@google.comJakob Uszkoreit∗\nGoogle Research\nusz@google.com\nLlion Jones∗\nGoogle Research\nllion@google.comAidan N. Gomez∗ †\nUniversity of Toronto\naidan@cs.toronto.eduŁukasz Kaiser∗\nGoogle Brain\nlukaszkaiser@google.com\nIllia Polosukhin∗ ‡\nillia.polosukhin@gmail.com\nAbstract\nThe dominant sequence transduction models are based on complex recurrent or\nconvolutional neural networks that include an encoder and a decoder. The best\nperforming models also connect the encoder and decoder through an attention\nmechanism. We propose a new simple network architecture, the Transf

In [7]:
print(pdf_docs[0].metadata)

{'source': './data/transformer.pdf', 'page': 0}


In [26]:
print(pdf_docs[0].page_content)

Provided proper attribution is provided, Google hereby grants permission to
reproduce the tables and figures in this paper solely for use in journalistic or
scholarly works.
Attention Is All You Need
Ashish Vaswani∗
Google Brain
avaswani@google.comNoam Shazeer∗
Google Brain
noam@google.comNiki Parmar∗
Google Research
nikip@google.comJakob Uszkoreit∗
Google Research
usz@google.com
Llion Jones∗
Google Research
llion@google.comAidan N. Gomez∗ †
University of Toronto
aidan@cs.toronto.eduŁukasz Kaiser∗
Google Brain
lukaszkaiser@google.com
Illia Polosukhin∗ ‡
illia.polosukhin@gmail.com
Abstract
The dominant sequence transduction models are based on complex recurrent or
convolutional neural networks that include an encoder and a decoder. The best
performing models also connect the encoder and decoder through an attention
mechanism. We propose a new simple network architecture, the Transformer,
based solely on attention mechanisms, dispensing with recurrence and convolutions
entirely. Experime

### 2.2 웹 문서 

In [27]:
from langchain_community.document_loaders import WebBaseLoader

web_loader = WebBaseLoader(["https://python.langchain.com/", "https://js.langchain.com/"])

web_docs = web_loader.load()

len(web_docs)


2

In [28]:
web_docs[0].metadata

{'source': 'https://python.langchain.com/',
 'title': 'Introduction | 🦜️🔗 LangChain',
 'description': 'LangChain is a framework for developing applications powered by large language models (LLMs).',
 'language': 'en'}

In [29]:
print(web_docs[0].page_content)






Introduction | 🦜️🔗 LangChain






Skip to main contentWe are growing and hiring for multiple roles for LangChain, LangGraph and LangSmith.  Join our team!IntegrationsAPI ReferenceMoreContributingPeopleError referenceLangSmithLangGraphLangChain HubLangChain JS/TSv0.3v0.3v0.2v0.1💬SearchIntroductionTutorialsBuild a Question Answering application over a Graph DatabaseTutorialsBuild a simple LLM application with chat models and prompt templatesBuild a ChatbotBuild a Retrieval Augmented Generation (RAG) App: Part 2Build an Extraction ChainBuild an AgentTaggingBuild a Retrieval Augmented Generation (RAG) App: Part 1Build a semantic search engineBuild a Question/Answering system over SQL dataSummarize TextHow-to guidesHow-to guidesHow to use tools in a chainHow to use a vectorstore as a retrieverHow to add memory to chatbotsHow to use example selectorsHow to add a semantic layer over graph databaseHow to invoke runnables in parallelHow to stream chat model responsesHow to add default inv

### 2.3 JSON 파일 

In [None]:
from langchain_community.document_loaders import JSONLoader

json_loader = JSONLoader(
    file_path="./data/kakao_chat.json",
    jq_schema=".messages[].content",    # messages 배열의 content 필드만 추출 -> content_key = "content"와 동일
    text_content=True,                  # 추출하려는 필드가 텍스트인지 여부
)

json_docs = json_loader.load()

print("문서의 수:", len(json_docs))
print("-" * 50)
print("처음 문서의 메타데이터: \n", json_docs[0].metadata)
print("-" * 50)
print("처음 문서의 내용: \n", json_docs[0].page_content)

문서의 수: 5
--------------------------------------------------
처음 문서의 메타데이터: 
 {'source': '/Users/gu.han/Documents/AI.WORK/RAG_Master/data/kakao_chat.json', 'seq_num': 1}
--------------------------------------------------
처음 문서의 내용: 
 안녕하세요 여러분, 오늘 회의 시간 확인차 연락드립니다.


In [9]:
from langchain_community.document_loaders import JSONLoader

json_loader = JSONLoader(
    file_path="./data/kakao_chat.json",
    jq_schema=".messages[]",    # messages 배열의 모든 아이템을 추출
    text_content=False,          # 추출하려는 필드가 텍스트인지 여부
)

json_docs = json_loader.load()

print("문서의 수:", len(json_docs))
print("-" * 50)
print("처음 문서의 메타데이터: \n", json_docs[0].metadata)
print("처음 문서의 메타데이터: \n", json_docs[1].metadata)
print("-" * 50)
print("처음 문서의 내용: \n", json_docs[0].page_content)

문서의 수: 5
--------------------------------------------------
처음 문서의 메타데이터: 
 {'source': '/Users/gu.han/Documents/AI.WORK/RAG_Master/data/kakao_chat.json', 'seq_num': 1}
처음 문서의 메타데이터: 
 {'source': '/Users/gu.han/Documents/AI.WORK/RAG_Master/data/kakao_chat.json', 'seq_num': 2}
--------------------------------------------------
처음 문서의 내용: 
 {"sender": "\uae40\ucca0\uc218", "timestamp": "2023-09-15 09:30:22", "content": "\uc548\ub155\ud558\uc138\uc694 \uc5ec\ub7ec\ubd84, \uc624\ub298 \ud68c\uc758 \uc2dc\uac04 \ud655\uc778\ucc28 \uc5f0\ub77d\ub4dc\ub9bd\ub2c8\ub2e4."}


In [32]:
# 유니코드 디코딩 (한글 문자들이 유니코드 이스케이프 시퀀스로 인코딩되어 있음)
from langchain_core.documents import Document

decoded_json_docs = []

for doc in json_docs:
    decoded_data = json.loads(doc.page_content)

    # decoded_json_docs.append({
    #     "metadata": doc.metadata,
    #     "page_content": json.dumps(decoded_data, ensure_ascii=False)
    # })

    document_obj = Document(page_content=json.dumps(decoded_data, ensure_ascii=False), metadata=doc.metadata)
    decoded_json_docs.append(document_obj)

print("문서의 수:", len(decoded_json_docs))
print("-" * 50)
# print("처음 문서의 메타데이터: \n", decoded_json_docs[0]["metadata"])
print("처음 문서의 메타데이터: \n", decoded_json_docs[0].metadata)
print("-" * 50)
# print("처음 문서의 내용: \n", decoded_json_docs[0]["page_content"])
print("처음 문서의 내용: \n", decoded_json_docs[0].page_content)


문서의 수: 5
--------------------------------------------------
처음 문서의 메타데이터: 
 {'source': '/Users/gu.han/Documents/AI.WORK/RAG_Master/data/kakao_chat.json', 'seq_num': 1}
--------------------------------------------------
처음 문서의 내용: 
 {"sender": "김철수", "timestamp": "2023-09-15 09:30:22", "content": "안녕하세요 여러분, 오늘 회의 시간 확인차 연락드립니다."}


In [11]:
# LangChain Document 객체로 변경

from langchain_core.documents import Document

decoded_json_docs = []

for doc in json_docs:
    decoded_data = json.loads(doc.page_content)
    
    # Document 객체 생성 - 디코딩된 내용을 page_content로 사용
    document = Document(
        page_content=decoded_data.get("content", ""),  # content 필드 추출
        metadata={
            **doc.metadata,  # 기존 메타데이터 유지 (딕셔너리 언패킹 연산자를 사용하여 기존 메타데이터의 모든 키-값 쌍을 새로운 딕셔너리에 복사)
            "sender": decoded_data.get("sender", ""),  # sender 필드 추가 
            "timestamp": decoded_data.get("timestamp", "")  # timestamp 필드 추가
        }
    )
    decoded_json_docs.append(document)

print("문서의 수:", len(decoded_json_docs))
print("-" * 50)
print("처음 문서의 메타데이터:\n", decoded_json_docs[0].metadata)
print("-" * 50) 
print("처음 문서의 내용:\n", decoded_json_docs[0].page_content)

문서의 수: 5
--------------------------------------------------
처음 문서의 메타데이터:
 {'sender': '김철수', 'timestamp': '2023-09-15 09:30:22'}
--------------------------------------------------
처음 문서의 내용:
 안녕하세요 여러분, 오늘 회의 시간 확인차 연락드립니다.


In [12]:
# 메타데이터 추가하기
def metadata_func(record: dict, metadata: dict) -> dict:
    metadata["sender"] = record.get("sender")
    metadata["timestamp"] = record.get("timestamp")
    return metadata


json_loader = JSONLoader(
    file_path="./data/kakao_chat.json",
    jq_schema=".messages[]",
    content_key="content",
    metadata_func=metadata_func,
)

json_docs = json_loader.load()

print("문서의 수:", len(json_docs))
print("-" * 50)
print("처음 문서의 메타데이터: \n", json_docs[0].metadata)
print("-" * 50)
print("처음 문서의 내용: \n", json_docs[0].page_content)


문서의 수: 5
--------------------------------------------------
처음 문서의 메타데이터: 
 {'source': '/Users/gu.han/Documents/AI.WORK/RAG_Master/data/kakao_chat.json', 'seq_num': 1, 'sender': '김철수', 'timestamp': '2023-09-15 09:30:22'}
--------------------------------------------------
처음 문서의 내용: 
 안녕하세요 여러분, 오늘 회의 시간 확인차 연락드립니다.


```json
{"sender": "김철수", "timestamp": "2023-09-15 09:30:22", "content": "안녕하세요 여러분, 오늘 회의 시간 확인차 연락드립니다."}
{"sender": "이영희", "timestamp": "2023-09-15 09:31:05", "content": "네, 안녕하세요. 오후 2시에 하기로 했어요."}
```

In [13]:
# JSONL 파일 로드하기
json_loader = JSONLoader(
    file_path="./data/kakao_chat.jsonl",
    jq_schema=".content",
    json_lines=True,
)

json_docs = json_loader.load()

print("문서의 수:", len(json_docs))
print("-" * 50)
print("처음 문서의 메타데이터: \n", json_docs[0].metadata)
print("-" * 50)
print("처음 문서의 내용: \n", json_docs[0].page_content)


문서의 수: 5
--------------------------------------------------
처음 문서의 메타데이터: 
 {'source': '/Users/gu.han/Documents/AI.WORK/RAG_Master/data/kakao_chat.jsonl', 'seq_num': 1}
--------------------------------------------------
처음 문서의 내용: 
 안녕하세요 여러분, 오늘 회의 시간 확인차 연락드립니다.


In [35]:
# JSONL 파일 로드하기
json_loader = JSONLoader(
    file_path="./data/kakao_chat.jsonl",
    jq_schema=".",
    content_key="content",
    json_lines=True,
)

json_docs = json_loader.load()

print("문서의 수:", len(json_docs))
print("-" * 50)
print("처음 문서의 메타데이터: \n", json_docs[0].metadata)
print("-" * 50)
print("처음 문서의 내용: \n", json_docs[0].page_content)


문서의 수: 5
--------------------------------------------------
처음 문서의 메타데이터: 
 {'source': '/Users/gu.han/Documents/AI.WORK/RAG_Master/data/kakao_chat.jsonl', 'seq_num': 1}
--------------------------------------------------
처음 문서의 내용: 
 안녕하세요 여러분, 오늘 회의 시간 확인차 연락드립니다.


In [36]:
# 메타데이터 추가하기
def metadata_func(record: dict, metadata: dict) -> dict:
    metadata["sender"] = record.get("sender")
    metadata["timestamp"] = record.get("timestamp")
    return metadata

json_loader = JSONLoader(
    file_path="./data/kakao_chat.jsonl",
    jq_schema=".",
    content_key="content",
    metadata_func=metadata_func,
    json_lines=True,
)

json_docs = json_loader.load()

print("문서의 수:", len(json_docs))
print("-" * 50)
print("처음 문서의 메타데이터: \n", json_docs[0].metadata)
print("-" * 50)
print("처음 문서의 내용: \n", json_docs[0].page_content)

문서의 수: 5
--------------------------------------------------
처음 문서의 메타데이터: 
 {'source': '/Users/gu.han/Documents/AI.WORK/RAG_Master/data/kakao_chat.jsonl', 'seq_num': 1, 'sender': '김철수', 'timestamp': '2023-09-15 09:30:22'}
--------------------------------------------------
처음 문서의 내용: 
 안녕하세요 여러분, 오늘 회의 시간 확인차 연락드립니다.


### 2.4  CSV 문서 

In [14]:
from langchain_community.document_loaders.csv_loader import CSVLoader

csv_loader = CSVLoader("./data/kbo_teams_2023.csv")
csv_docs = csv_loader.load()

print("문서의 수:", len(csv_docs))
print("-" * 50)
print("처음 문서의 메타데이터: \n", csv_docs[0].metadata)
print("-" * 50)
print("처음 문서의 내용: \n", csv_docs[0].page_content)

문서의 수: 10
--------------------------------------------------
처음 문서의 메타데이터: 
 {'source': './data/kbo_teams_2023.csv', 'row': 0}
--------------------------------------------------
처음 문서의 내용: 
 Team: KIA 타이거즈
City: 광주
Founded: 1982
Home Stadium: 광주-기아 챔피언스 필드
Championships: 11
Introduction: KBO 리그의 전통 강호로, 역대 최다 우승 기록을 보유하고 있다. '타이거즈 스피릿'으로 유명하며, 양현종, 안치홍 등 스타 선수들을 배출했다. 광주를 연고로 하는 유일한 프로야구팀으로 지역 사랑이 강하다.


## 3. 효과적인 텍스트 분할 전략

### 3-1 RecursiveCharacterTextSplitter

In [38]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,        # 청크 크기  
    chunk_overlap=200,      # 청크 중 중복되는 부분 크기
    length_function=len,    # 글자 수를 기준으로 분할
    #separators=["\n\n", "\n",],  # 구분자 
    separators=["\n\n", "\n", ".", " ", "",]  # 구분자 
)

texts = text_splitter.split_documents(pdf_docs)
print(f"생성된 텍스트 청크 수: {len(texts)}")
print(f"각 청크의 길이: {list(len(text.page_content) for text in texts)}")

생성된 텍스트 청크 수: 52
각 청크의 길이: [981, 910, 975, 451, 932, 998, 904, 907, 995, 385, 926, 953, 216, 920, 996, 829, 975, 910, 906, 870, 929, 961, 945, 997, 195, 977, 968, 947, 933, 965, 938, 915, 733, 952, 945, 948, 618, 980, 989, 994, 624, 945, 914, 946, 918, 988, 929, 929, 849, 812, 814, 817]


- RecursiveCharacterTextSplitter는 이름에서 알 수 있듯이 재귀적으로 텍스트를 분할합니다. 
- 구분자를 순차적으로 적용하여 큰 청크에서 시작하여 점진적으로 더 작은 단위로 나눕니다. 
- 일반적으로 CharacterTextSplitter보다 더 엄격하게 크기를 준수하려고 합니다.


In [39]:
# 각 청크의 시작 부분과 끝 부분 확인
for text in texts[:5]:
    print(text.page_content[:200])
    print("-" * 200)
    print(text.page_content[-200:])
    print("=" * 200)
    print()

Provided proper attribution is provided, Google hereby grants permission to
reproduce the tables and figures in this paper solely for use in journalistic or
scholarly works.
Attention Is All You Need

--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
the encoder and decoder through an attention
mechanism. We propose a new simple network architecture, the Transformer,
based solely on attention mechanisms, dispensing with recurrence and convolutions

mechanism. We propose a new simple network architecture, the Transformer,
based solely on attention mechanisms, dispensing with recurrence and convolutions
entirely. Experiments on two machine transla
---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

### 3-2 정규표현식 사용

In [45]:
# 문장을 구분하여 분할 (마침표, 느낌표, 물음표 다음에 공백이 오는 경우 문장의 끝으로 판단)
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter(
    chunk_size=10,
    chunk_overlap=0,
    separator=r'(?<=[.!?])\s+',
    is_separator_regex=True,
    keep_separator=True,
)

texts = text_splitter.split_documents(json_docs)
print(f"생성된 텍스트 청크 수: {len(texts)}")
print(f"각 청크의 길이: {list(len(text.page_content) for text in texts)}")
print()

# 각 청크의 시작 부분과 끝 부분 확인
for text in texts[:50]:
    print(text.page_content[:50])
    print("-" * 50)
    print(text.page_content[-50:])
    print("=" * 50)
    print()

Created a chunk of size 11, which is longer than the specified 10
Created a chunk of size 13, which is longer than the specified 10


생성된 텍스트 청크 수: 9
각 청크의 길이: [31, 9, 15, 7, 11, 11, 27, 13, 13]

안녕하세요 여러분, 오늘 회의 시간 확인차 연락드립니다.
--------------------------------------------------
안녕하세요 여러분, 오늘 회의 시간 확인차 연락드립니다.

네, 안녕하세요.
--------------------------------------------------
네, 안녕하세요.

오후 2시에 하기로 했어요.
--------------------------------------------------
오후 2시에 하기로 했어요.

확인했습니다.
--------------------------------------------------
확인했습니다.

회의실은 어디인가요?
--------------------------------------------------
회의실은 어디인가요?

3층 대회의실입니다.
--------------------------------------------------
3층 대회의실입니다.

프로젝트 진행 상황 정리해오시는 거 잊지 마세요!
--------------------------------------------------
프로젝트 진행 상황 정리해오시는 거 잊지 마세요!

네, 모두 준비했습니다.
--------------------------------------------------
네, 모두 준비했습니다.

회의 때 뵙겠습니다 :)
--------------------------------------------------
회의 때 뵙겠습니다 :)



### 3-3 토큰 수를 기반으로 분할

`(1) tiktoken`  
- OpenAI에서 만든 BPE Tokenizer

In [48]:
len(pdf_docs[0].page_content)

2853

In [50]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
    encoding_name="cl100k_base", 
    # model_name="gpt-4o-mini",
    chunk_size=300, 
    chunk_overlap=0,
)

chunks = text_splitter.split_documents(pdf_docs[:1])

print(f"생성된 청크 수: {len(chunks)}")
print(f"각 청크의 길이: {list(len(chunk.page_content) for chunk in chunks)}")

# 각 청크의 시작 부분과 끝 부분 확인
for chunk in chunks[:5]:
    print(chunk.page_content[:50])
    print("-" * 50)
    print(chunk.page_content[-50:])
    print("=" * 50)
    print()

생성된 청크 수: 3
각 청크의 길이: [1140, 1374, 337]
Provided proper attribution is provided, Google he
--------------------------------------------------
ng more parallelizable and requiring significantly

less time to train. Our model achieves 28.4 BLEU o
--------------------------------------------------
countless long days designing various parts of and

implementing tensor2tensor, replacing our earlier 
--------------------------------------------------
h, CA, USA.arXiv:1706.03762v7  [cs.CL]  2 Aug 2023



In [51]:
import tiktoken

tokenizer = tiktoken.get_encoding("cl100k_base")
# tokenizer = tiktoken.encoding_for_model("gpt-4o-mini")

for chunk in chunks[:5]:

    # 각 청크를 토큰화
    tokens = tokenizer.encode(chunk.page_content)
    # 각 청크의 단어 수 확인
    print(len(tokens))
    # 각 청크의 토큰화 결과 확인 (첫 10개 토큰만 출력)
    print(tokens[:10])
    # 토큰 ID를 실제 토큰(문자열)로 변환해서 출력
    token_strings = [tokenizer.decode([token]) for token in tokens[:10]]
    print(token_strings)

    print("=" * 50)
    print()

283
[36919, 291, 6300, 63124, 374, 3984, 11, 5195, 22552, 25076]
['Provid', 'ed', ' proper', ' attribution', ' is', ' provided', ',', ' Google', ' hereby', ' grants']

291
[1752, 892, 311, 5542, 13, 5751, 1646, 83691, 220, 1591]
['less', ' time', ' to', ' train', '.', ' Our', ' model', ' achieves', ' ', '28']

83
[95574, 287, 16000, 17, 47211, 11, 25935, 1057, 6931, 2082]
['implement', 'ing', ' tensor', '2', 'tensor', ',', ' replacing', ' our', ' earlier', ' code']



`(2) Hugging Face 토크나이저`  
- Hugging Face tokenizer 모델이 토큰 수를 기준으로 분할

In [52]:
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("BAAI/bge-m3")

tokenizer

  from .autonotebook import tqdm as notebook_tqdm


XLMRobertaTokenizerFast(name_or_path='BAAI/bge-m3', vocab_size=250002, model_max_length=8192, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'bos_token': '<s>', 'eos_token': '</s>', 'unk_token': '<unk>', 'sep_token': '</s>', 'pad_token': '<pad>', 'cls_token': '<s>', 'mask_token': '<mask>'}, clean_up_tokenization_spaces=True),  added_tokens_decoder={
	0: AddedToken("<s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	1: AddedToken("<pad>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	2: AddedToken("</s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	3: AddedToken("<unk>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	250001: AddedToken("<mask>", rstrip=False, lstrip=True, single_word=False, normalized=False, special=True),
}

In [53]:
# 토크나이저 인코딩
tokens = tokenizer.encode("안녕하세요. 반갑습니다.")
print(tokens)

[0, 107687, 5, 20451, 54272, 16367, 5, 2]


In [54]:
# 토큰을 출력
print(tokenizer.convert_ids_to_tokens(tokens)) 

['<s>', '▁안녕하세요', '.', '▁반', '갑', '습니다', '.', '</s>']


In [55]:
# 디코딩
print(tokenizer.decode(tokens))

<s> 안녕하세요. 반갑습니다.</s>


In [56]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter.from_huggingface_tokenizer(
    tokenizer=tokenizer,
    chunk_size=300, 
    chunk_overlap=0,
)

chunks = text_splitter.split_documents(pdf_docs[:1])

print(f"생성된 청크 수: {len(chunks)}")
print(f"각 청크의 길이: {list(len(chunk.page_content) for chunk in chunks)}")
print()

for chunk in chunks[:5]:

    # 각 청크를 토큰화
    tokens = tokenizer.encode(chunk.page_content)
    # 각 청크의 단어 수 확인
    print(len(tokens))
    # 각 청크의 토큰화 결과 확인 (첫 10개 토큰만 출력)
    print(tokens[:10])
    # 토큰 ID를 실제 토큰(문자열)로 변환해서 출력
    token_strings = tokenizer.convert_ids_to_tokens(tokens[:10]) 
    print(token_strings)

    print("=" * 50)
    print()

생성된 청크 수: 3
각 청크의 길이: [749, 1094, 1008]

204
[0, 123089, 71, 27798, 99, 179236, 83, 62952, 4, 1815]
['<s>', '▁Provide', 'd', '▁proper', '▁at', 'tribution', '▁is', '▁provided', ',', '▁Google']

248
[0, 51339, 214, 115774, 2843, 37067, 70, 22, 587, 820]
['<s>', '▁perform', 'ing', '▁models', '▁also', '▁connect', '▁the', '▁en', 'co', 'der']

232
[0, 70, 71834, 47, 151575, 13, 903, 6528, 5, 62]
['<s>', '▁the', '▁effort', '▁to', '▁evaluat', 'e', '▁this', '▁idea', '.', '▁A']



### 3-4 Semantic Chunking

In [57]:
from langchain_experimental.text_splitter import SemanticChunker
from langchain_openai.embeddings import OpenAIEmbeddings

# 임베딩 모델을 사용하여 SemanticChunker를 초기화 
text_splitter = SemanticChunker(
    embeddings=OpenAIEmbeddings(),         # OpenAI 임베딩 사용
    breakpoint_threshold_type="gradient",  # 기준점 타입 설정 (gradient, percentile, standard_deviation, interquartile)
    )

In [40]:
chunks = text_splitter.split_documents(pdf_docs[:1])

print(f"생성된 청크 수: {len(chunks)}")
print(f"각 청크의 길이: {list(len(chunk.page_content) for chunk in chunks)}")
print()


tokenizer = tiktoken.get_encoding("cl100k_base")


for chunk in chunks[:5]:

    # 각 청크를 토큰화

    tokens = tokenizer.encode(chunk.page_content)
    # 각 청크의 단어 수 확인
    print(len(tokens))
    # 각 청크의 내용을 확인
    print(chunk.page_content[:100])

    print("=" * 50)
    print()

생성된 청크 수: 2
각 청크의 길이: [1736, 1116]

424
Provided proper attribution is provided, Google hereby grants permission to
reproduce the tables and

237
∗Equal contribution. Listing order is random. Jakob proposed replacing RNNs with self-attention and 



## 4. 문서 임베딩(Embedding) 모델

### 4-1 OpenAI 

`(1) embedding 모델`

In [58]:
from langchain_openai import OpenAIEmbeddings

# OpenAIEmbeddings 모델 생성
embeddings_model = OpenAIEmbeddings(model="text-embedding-3-small")

# 임베딩 객체 출력
embeddings_model

OpenAIEmbeddings(client=<openai.resources.embeddings.Embeddings object at 0x169797250>, async_client=<openai.resources.embeddings.AsyncEmbeddings object at 0x169797ed0>, model='text-embedding-3-small', dimensions=None, deployment='text-embedding-ada-002', openai_api_version='', openai_api_base=None, openai_api_type='', openai_proxy='', embedding_ctx_length=8191, openai_api_key=SecretStr('**********'), openai_organization=None, allowed_special=None, disallowed_special=None, chunk_size=1000, max_retries=2, request_timeout=None, headers=None, tiktoken_enabled=True, tiktoken_model_name=None, show_progress_bar=False, model_kwargs={}, skip_empty=False, default_headers=None, default_query=None, retry_min_seconds=4, retry_max_seconds=20, http_client=None, http_async_client=None, check_embedding_ctx_length=True)

In [59]:
# 임베딩 모델의 컨텍스트 길이 확인
embeddings_model.embedding_ctx_length

8191

`(2) embed_documents 사용`

In [60]:
# 문서 컬렉션
documents = [
    "인공지능은 컴퓨터 과학의 한 분야입니다.",
    "머신러닝은 인공지능의 하위 분야입니다.",
    "딥러닝은 머신러닝의 한 종류입니다.",
    "자연어 처리는 컴퓨터가 인간의 언어를 이해하고 생성하는 기술입니다.",
    "컴퓨터 비전은 컴퓨터가 디지털 이미지나 비디오를 이해하는 방법을 연구합니다."
]

# 문서 임베딩
document_embeddings = embeddings_model.embed_documents(documents)

# 임베딩 결과 출력
print(f"임베딩 벡터의 개수: {len(document_embeddings)}")
print(f"임베딩 벡터의 차원: {len(document_embeddings[0])}")
print(document_embeddings[0])

임베딩 벡터의 개수: 5
임베딩 벡터의 차원: 1536
[-0.0022905757650732994, 0.012087209150195122, -0.002460706979036331, 0.0150526762008667, 0.018495863303542137, -0.045644763857126236, -0.0031232049223035574, 0.04701482504606247, -0.01824348233640194, -0.031872015446424484, 0.006908908020704985, 0.007035098038613796, -0.01865810714662075, -0.02707679010927677, 0.004961974918842316, -0.015575463883578777, -0.041678786277770996, 0.01007718127220869, 0.05159372463822365, -0.045825034379959106, -0.0146019970998168, -0.02781590446829796, -0.01878429763019085, -0.022678162902593613, 0.004382852464914322, -0.03973185271024704, 0.05029577016830444, 0.017675627022981644, 0.0003442060260567814, -0.023309113457798958, 0.0488896518945694, -0.015269001945853233, -0.029943108558654785, -0.06168893352150917, 0.020496876910328865, 0.035369280725717545, 0.002609431045129895, -0.006854826584458351, -0.005079151596873999, 0.02473326027393341, 0.007575912866741419, 0.027545496821403503, -0.0025688698515295982, 0.02597713284

`(3) embed_query 사용`

In [44]:
embedded_query = embeddings_model.embed_query("인공지능이란 무엇인가요?")

# 쿼리 임베딩 결과 출력
print(f"쿼리 임베딩 벡터의 차원: {len(embedded_query)}")
print(embedded_query)

쿼리 임베딩 벡터의 차원: 1536
[-0.022442810237407684, 0.022195978090167046, 0.0003776662633754313, 0.005681904498487711, 0.01217076275497675, -0.04473372548818588, -0.026259228587150574, 0.03582875058054924, -0.002586999209597707, 0.014762508682906628, -0.0020446786656975746, 0.0008562018047086895, -0.0048796976916491985, -0.07355621457099915, 0.008971428498625755, -0.01542705949395895, -0.05988547205924988, -0.022404836490750313, 0.022480785846710205, -0.06911322474479675, -0.029278185218572617, 0.02320229634642601, -0.036873046308755875, 0.0041249580681324005, 0.011097989045083523, -0.052746303379535675, 0.010756220668554306, 8.507133316015825e-05, -0.010746726766228676, -0.034271806478500366, 0.02527189627289772, -0.01883525215089321, -0.0015961072640493512, -0.05882218852639198, 0.04970835894346237, -0.0034485410433262587, -0.002881299937143922, -0.00852522999048233, -0.004564036149531603, 0.022860528901219368, -0.011971398256719112, 0.038031261414289474, 0.0033488585613667965, 0.03527812287

`(4) 유사도 기반 검색`

In [71]:
from langchain_community.utils.math import cosine_similarity
import numpy as np

# 쿼리와 가장 유사한 문서 찾기 함수
def find_most_similar(query, doc_embeddings):
    query_embedding = embeddings_model.embed_query(query)
    # similarities = [cosine_similarity(query_embedding, doc_emb) for doc_emb in doc_embeddings]
    similarities = cosine_similarity([query_embedding], doc_embeddings)[0]
    most_similar_idx = np.argmax(similarities)
    return documents[most_similar_idx], similarities[most_similar_idx]

# 예제 쿼리
queries = [
    "인공지능이란 무엇인가요?",
    "딥러닝과 머신러닝의 관계는 어떻게 되나요?",
    "컴퓨터가 이미지를 이해하는 방법은?"
]

# 각 쿼리에 대해 가장 유사한 문서 찾기
for query in queries:
    most_similar_doc, similarity = find_most_similar(query, document_embeddings)
    print(f"쿼리: {query}")
    print(f"가장 유사한 문서: {most_similar_doc}")
    print(f"유사도: {similarity:.4f}")
    print()

쿼리: 인공지능이란 무엇인가요?
가장 유사한 문서: 인공지능은 컴퓨터 과학의 한 분야입니다.
유사도: 0.7271

쿼리: 딥러닝과 머신러닝의 관계는 어떻게 되나요?
가장 유사한 문서: 딥러닝은 머신러닝의 한 종류입니다.
유사도: 0.7052

쿼리: 컴퓨터가 이미지를 이해하는 방법은?
가장 유사한 문서: 컴퓨터 비전은 컴퓨터가 디지털 이미지나 비디오를 이해하는 방법을 연구합니다.
유사도: 0.6836



### 4-2 Huggingface - 오픈소스 LLM


`(1) embedding 모델`

In [72]:
from langchain_huggingface.embeddings import HuggingFaceEmbeddings

# Hugging Face의 임베딩 모델 생성
embeddings_model = HuggingFaceEmbeddings(model_name="BAAI/bge-m3")

# 임베딩 객체 출력
embeddings_model

HuggingFaceEmbeddings(client=SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
), model_name='BAAI/bge-m3', cache_folder=None, model_kwargs={}, encode_kwargs={}, multi_process=False, show_progress=False)

`(2) embed_documents 사용`

In [62]:
# 문서 임베딩
document_embeddings = embeddings_model.embed_documents(documents)

# 임베딩 결과 출력
print(f"임베딩 벡터의 개수: {len(document_embeddings)}")
print(f"임베딩 벡터의 차원: {len(document_embeddings[0])}")
print(document_embeddings[0])

임베딩 벡터의 개수: 5
임베딩 벡터의 차원: 1024
[-0.039414506405591965, 0.008764867670834064, -0.012681699357926846, 0.0024532009847462177, -0.008944734930992126, -0.007383684627711773, -0.005377371795475483, -0.00905588734894991, 0.03291522338986397, 0.006045500282198191, -0.027012929320335388, -0.027740975841879845, 0.0004441519267857075, 0.03013649396598339, 0.01724293828010559, 0.017090370878577232, 0.025524822995066643, -0.021856000646948814, -0.011341311037540436, -0.0570225864648819, -0.0003016249684151262, 0.01354304514825344, -0.007450145669281483, 0.018574517220258713, 0.0028947044629603624, 0.00863064918667078, -0.0007445151568390429, -0.028904207050800323, 0.02072783373296261, -0.02050071954727173, 0.008069852367043495, -0.026754239574074745, 0.00396308209747076, -0.016303882002830505, -0.07406219840049744, -0.03365035355091095, -0.02387143485248089, -0.03454999998211861, -0.03478589281439781, 0.005483039654791355, -0.05003359168767929, -0.002803672570735216, -0.023146970197558403, -0.07491

`(3) embed_query 사용`

In [63]:
embedded_query = embeddings_model.embed_query("인공지능이란 무엇인가요?")

# 쿼리 임베딩 결과 출력
print(f"쿼리 임베딩 벡터의 차원: {len(embedded_query)}")
print(embedded_query)

쿼리 임베딩 벡터의 차원: 1024
[-0.037039030343294144, -0.004837994463741779, 0.002937298733741045, -0.015514631755650043, -0.0009442030568607152, -0.04150163382291794, -0.00657445564866066, 0.011289623565971851, 0.021614037454128265, 0.004928715527057648, -0.020340673625469208, 0.016905175521969795, -0.012874155305325985, 0.005518904887139797, 0.014988373965024948, 0.024228788912296295, 0.007369150873273611, -0.028049813583493233, -0.01493906695395708, -0.05185189098119736, -0.006704994477331638, -0.009251502342522144, -0.016980856657028198, 0.006491496693342924, 0.0529317781329155, 0.04813728481531143, -0.0080695990473032, -0.02317175269126892, 0.018143029883503914, -0.011328164488077164, -0.00424042996019125, -0.006354684475809336, -0.0022717658430337906, 0.014329480938613415, -0.035636693239212036, -0.008155842311680317, -0.011798126623034477, -0.04542405530810356, -0.04073285311460495, 0.002213900675997138, -0.012132350355386734, 0.017896022647619247, -0.01914466731250286, -0.041924428194761

`(4) 유사도 기반 검색`

In [64]:
# 예제 쿼리
queries = [
    "인공지능이란 무엇인가요?",
    "딥러닝과 머신러닝의 관계는 어떻게 되나요?",
    "컴퓨터가 이미지를 이해하는 방법은?"
]

# 각 쿼리에 대해 가장 유사한 문서 찾기
for query in queries:
    most_similar_doc, similarity = find_most_similar(query, document_embeddings)
    print(f"쿼리: {query}")
    print(f"가장 유사한 문서: {most_similar_doc}")
    print(f"유사도: {similarity:.4f}")
    print()

NameError: name 'find_most_similar' is not defined

### 4-3 Ollama - 오픈소스 LLM

`(1) embedding 모델`

In [68]:
from langchain_ollama import OllamaEmbeddings

# OllamaEmbeddings 모델 생성
# embeddings_model = OllamaEmbeddings(model="nomic-embed-text")
embeddings_model = OllamaEmbeddings(model="bge-m3")

# 임베딩 객체 출력
embeddings_model

OllamaEmbeddings(model='bge-m3', base_url=None, client_kwargs={}, _client=<ollama._client.Client object at 0x3cb1824d0>, _async_client=<ollama._client.AsyncClient object at 0x3cb180910>)

`(2) embed_documents 사용`

In [69]:
# 문서 컬렉션
documents = [
    "인공지능은 컴퓨터 과학의 한 분야입니다.",
    "머신러닝은 인공지능의 하위 분야입니다.",
    "딥러닝은 머신러닝의 한 종류입니다.",
    "자연어 처리는 컴퓨터가 인간의 언어를 이해하고 생성하는 기술입니다.",
    "컴퓨터 비전은 컴퓨터가 디지털 이미지나 비디오를 이해하는 방법을 연구합니다."
]

# 문서 임베딩
document_embeddings = embeddings_model.embed_documents(documents)

# 임베딩 결과 출력
print(f"임베딩 벡터의 개수: {len(document_embeddings)}")
print(f"임베딩 벡터의 차원: {len(document_embeddings[0])}")
print(document_embeddings[0])

임베딩 벡터의 개수: 5
임베딩 벡터의 차원: 1024
[-0.0393202, 0.00871987, -0.012856587, 0.0023704672, -0.009019296, -0.0074392916, -0.0055350754, -0.009004289, 0.032831304, 0.005983045, -0.027306296, -0.027908752, 0.00036500898, 0.030153472, 0.017168047, 0.017262679, 0.025467148, -0.021865228, -0.0114712175, -0.056970704, -0.00022881577, 0.013515405, -0.007428325, 0.018560603, 0.0029112964, 0.008600427, -0.0008189987, -0.029052809, 0.02074074, -0.020631881, 0.008141815, -0.026882142, 0.0036481966, -0.016188787, -0.073879294, -0.033679802, -0.023835167, -0.034330506, -0.03461988, 0.005519358, -0.050145864, -0.0029398121, -0.023094961, -0.07501381, -0.011293629, -0.02894882, -0.03419277, -0.02544767, -0.061396196, 0.013561293, 0.024461078, -0.03143453, 0.05059914, 0.012977622, -0.06398709, 0.02729496, 0.007027946, 0.010371419, -0.064069666, -0.016192928, -0.020711523, 0.030171076, -0.006361122, -0.013145919, -0.0007086442, 0.046928793, 0.007847413, 0.029662905, -0.03481869, -0.036377765, 0.02146682, 0.017

`(3) embed_query 사용`

In [56]:
embedded_query = embeddings_model.embed_query("인공지능이란 무엇인가요?")

# 쿼리 임베딩 결과 출력
print(f"쿼리 임베딩 벡터의 차원: {len(embedded_query)}")
print(embedded_query)

쿼리 임베딩 벡터의 차원: 1024
[-0.03680102, -0.004897515, 0.0028898506, -0.015532713, -0.0009166787, -0.04167313, -0.0067089866, 0.011332301, 0.021562414, 0.004902553, -0.02047684, 0.016799612, -0.012879434, 0.005437187, 0.014990911, 0.024317233, 0.007424208, -0.027960882, -0.0151330745, -0.05182166, -0.006595149, -0.009184408, -0.01714285, 0.006597815, 0.052904196, 0.048059072, -0.008171573, -0.023195054, 0.018091468, -0.011380093, -0.004339582, -0.006356782, -0.0024361906, 0.0143599855, -0.035458617, -0.0082260445, -0.011815377, -0.045276895, -0.040650643, 0.0021737837, -0.012295167, 0.017695779, -0.019154694, -0.041933402, 0.0010042401, -0.039017674, -0.02443351, -0.024548931, -0.022177326, -0.0044736424, 0.031535354, -0.048756495, 0.017998321, 0.025261747, 0.0023832794, 0.048539657, -0.008118256, 0.028092578, -0.07375328, -0.020698596, -0.026359912, -0.007486189, -0.038771544, -0.0173924, 0.01923657, 0.063733354, 0.02038606, -0.011864598, -0.018535549, -0.040774167, 0.0025399572, 0.041486472

`(4) 유사도 기반 검색`

In [73]:
# 예제 쿼리
queries = [
    "인공지능이란 무엇인가요?",
    "딥러닝과 머신러닝의 관계는 어떻게 되나요?",
    "컴퓨터가 이미지를 이해하는 방법은?"
]

# 각 쿼리에 대해 가장 유사한 문서 찾기
for query in queries:
    most_similar_doc, similarity = find_most_similar(query, document_embeddings)
    print(f"쿼리: {query}")
    print(f"가장 유사한 문서: {most_similar_doc}")
    print(f"유사도: {similarity:.4f}")
    print()

쿼리: 인공지능이란 무엇인가요?
가장 유사한 문서: 인공지능은 컴퓨터 과학의 한 분야입니다.
유사도: 0.7271

쿼리: 딥러닝과 머신러닝의 관계는 어떻게 되나요?
가장 유사한 문서: 딥러닝은 머신러닝의 한 종류입니다.
유사도: 0.7056

쿼리: 컴퓨터가 이미지를 이해하는 방법은?
가장 유사한 문서: 컴퓨터 비전은 컴퓨터가 디지털 이미지나 비디오를 이해하는 방법을 연구합니다.
유사도: 0.6838



## 5. 다국어 RAG 시스템 구축 실습

### 5-1 언어 교차(cross-lingual) 검색

`(1) 다국어 문서 로드 및 전처리` 

In [84]:
import glob 

korean_txt_files = glob.glob(os.path.join('data', '*_KR.txt'))
english_txt_files = glob.glob(os.path.join('data', '*_EN.txt'))

print("한국어 텍스트 파일:", korean_txt_files)
print("영어 텍스트 파일:", english_txt_files)

한국어 텍스트 파일: ['data/리비안_KR.txt', 'data/테슬라_KR.txt']
영어 텍스트 파일: ['data/Tesla_EN.txt', 'data/Rivian_EN.txt']


In [85]:
from langchain_community.document_loaders import TextLoader
from typing import List, Any

def load_text_files(txt_files: List[str]) -> List[Any]:
    """
    텍스트 파일들을 로드하여 Document 객체 리스트로 반환합니다.
    
    Args:
        txt_files: 로드할 텍스트 파일 경로 리스트
        
    Returns:
        Document 객체들의 리스트
    """
    if not txt_files:
        return []
        
    data = []
    for text_file in txt_files:
        try:
            loader = TextLoader(text_file, encoding='utf-8')
            data.extend(loader.load())
        except Exception as e:
            print(f"파일 '{text_file}' 로딩 중 에러 발생: {str(e)}")
            continue
            
    return data

# 한국어와 영어 텍스트 파일 로드
korean_data = load_text_files(korean_txt_files)
english_data = load_text_files(english_txt_files)

print(f"한국어 데이터 수: {len(korean_data)}")
print(f"영어 데이터 수: {len(english_data)}")

한국어 데이터 수: 2
영어 데이터 수: 2


In [86]:
# 문장을 구분하여 분할 (마침표, 느낌표, 물음표 다음에 공백이 오는 경우 문장의 끝으로 판단)
from langchain.text_splitter import CharacterTextSplitter

# 텍스트 분할을 위한 설정
# 여기서 임베딩 모델을 사용하는 이유는 실제 임베딩을 수행하기 위해서가 아니라
# OpenAI의 tiktoken 토크나이저를 사용하여 텍스트를 정확하게 토큰 단위로 분할하기 위한 것입니다.
# 실제로 OpenAI API를 호출하지 않습니다.

text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    model_name="text-embedding-3-small",  # OpenAI 임베딩 모델 사용
    separator=r"[.!?]\s+",  # 문장 구분자 정규식 패턴
    chunk_size=100,  # 각 청크의 최대 크기
    chunk_overlap=20,  # 청크 간 중복 허용 (문맥 유지를 위해)
    is_separator_regex=True,  # 정규식 패턴 사용
    keep_separator=True,  # 구분자 유지 (문장 완성도를 위해)
)

# 한국어와 영어 문서 분할
korean_docs = text_splitter.split_documents(korean_data)
english_docs = text_splitter.split_documents(english_data)

# 분할된 문서 수 출력
print(f"분할된 한국어 문서 수: {len(korean_docs)}")
print(f"분할된 영어 문서 수: {len(english_docs)}")

분할된 한국어 문서 수: 13
분할된 영어 문서 수: 6


In [87]:
# 각 청크의 시작 부분과 끝 부분 확인
for doc in korean_docs[:2]:
    print(doc.page_content[:50])
    print("-" * 50)
    print(doc.page_content[-50:])
    print("=" * 50)
    print()

리비안은 MIT 박사 출신 RJ 스카린지가 2009년에 설립한 혁신적인 미국 전기차 제조업
--------------------------------------------------
 MIT 박사 출신 RJ 스카린지가 2009년에 설립한 혁신적인 미국 전기차 제조업체입니다

. 2011년부터 자율 전기차에 집중한 리비안은 2015년 대규모 투자를 통해 크게 성장하
--------------------------------------------------
은 2015년 대규모 투자를 통해 크게 성장하며 미시간과 베이 지역에 연구소를 설립했습니다



In [88]:
# 각 청크의 시작 부분과 끝 부분 확인
for doc in english_docs[:2]:
    print(doc.page_content[:50])
    print("-" * 50)
    print(doc.page_content[-50:])
    print("=" * 50)
    print()

Tesla, Inc., headquartered in Austin, Texas, is a 
--------------------------------------------------
ned physicist and electrical engineer Nikola Tesla

. The company is named after the renowned physicis
--------------------------------------------------
umulative global sales exceeded 4,962,975 vehicles



`(2) 문서 임베딩 및 벡터저장소에 저장 `  

In [89]:
# OpenAI 임베딩 모델 생성
embeddings_openai = OpenAIEmbeddings(model="text-embedding-3-small")

# Hugoing Face 임베딩 모델 생성
embeddings_huggingface = HuggingFaceEmbeddings(model_name="BAAI/bge-m3")

# Ollama 임베딩 모델 생성
embeddings_ollama = OllamaEmbeddings(model="nomic-embed-text")

In [91]:
# 다국어 벡터 저장소 구축
from langchain_chroma import Chroma

db_openai = Chroma.from_documents(
    documents=korean_docs+english_docs, 
    embedding=embeddings_openai,
    collection_name="db_openai",
    persist_directory="./chroma_db",
    )

db_huggingface = Chroma.from_documents(
    documents=korean_docs+english_docs, 
    embedding=embeddings_huggingface,
    collection_name="db_huggingface",
    persist_directory="./chroma_db",
    )

db_ollama = Chroma.from_documents(
    documents=korean_docs+english_docs, 
    embedding=embeddings_ollama,
    collection_name="db_ollama",
    persist_directory="./chroma_db",
    )

# 벡터 저장소에 저장된 문서 수
print(f"OpenAI: {db_openai._collection.count()}")
print(f"Hugging Face: {db_huggingface._collection.count()}")
print(f"Ollama: {db_ollama._collection.count()}")

OpenAI: 38
Hugging Face: 38
Ollama: 19


`(3) RAG 성능 비교 `  

In [95]:
# RAG 체인 생성
from langchain.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser 
from langchain_openai import ChatOpenAI
from langchain_core.runnables import RunnablePassthrough

# 프롬프트 템플릿 정의 - 컨텍스트와 질문을 포함
template = """Answer the question based only on the following context.
Do not use any external information or knowledge. 
If the answer is not in the context, answer "잘 모르겠습니다.".

[Context]
{context}

[Question] 
{question}

[Answer]
"""

# ChatPromptTemplate 생성
prompt = ChatPromptTemplate.from_template(template)

# 문서 포맷터 함수 - 문서 내용을 하나의 문자열로 결합
def format_docs(docs):
    """
    문서 리스트를 하나의 문자열로 포맷팅
    Args:
        docs: 문서 리스트
    Returns:
        str: 포맷팅된 문서 문자열
    """
    return "\n\n".join([d.page_content for d in docs])

# LLM 모델 초기화 - temperature=0으로 설정하여 일관된 출력 보장
llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)

# RAG 체인 생성 함수
def create_rag_chain(vectorstore):
    """
    RAG 체인을 생성하는 함수
    Args:
        vectorstore: 벡터 저장소 객체
    Returns:
        chain: 생성된 RAG 체인
    """
    # 검색기 설정 - top 2개 문서 검색
    retriever = vectorstore.as_retriever(search_kwargs={'k': 2})
    
    # 체인 구성 및 반환
    return (
        {"context": retriever | format_docs, "question": RunnablePassthrough()}
        | prompt
        | llm
        | StrOutputParser()
    )

In [96]:
# 체인 생성
rag_chain_openai = create_rag_chain(db_openai)
rag_chain_huggingface = create_rag_chain(db_huggingface)
rag_chain_ollama = create_rag_chain(db_ollama)

In [97]:
# 한국어 쿼리에 대한 성능 평가
query_ko = "테슬라 창업자는 누구인가요?"

# OpenAI
output_openai = rag_chain_openai.invoke(query_ko)
print("OpenAI:", output_openai)

# Hugging Face
output_huggingface = rag_chain_huggingface.invoke(query_ko)
print("Hugging Face:", output_huggingface)

# Ollama
output_ollama = rag_chain_ollama.invoke(query_ko)
print("Ollama:", output_ollama)

OpenAI: 마틴 에버하드와 마크 타페닝입니다.
Hugging Face: 마틴 에버하드와 마크 타페닝입니다.
Ollama: 잘 모르겠습니다.


In [98]:
# 영어 쿼리에 대한 성능 평가
query_en = "Who is the founder of Tesla?"

# OpenAI
output_openai = rag_chain_openai.invoke(query_en)
print("OpenAI:", output_openai)

# Hugging Face
output_huggingface = rag_chain_huggingface.invoke(query_en)
print("Hugging Face:", output_huggingface)

# Ollama
output_ollama = rag_chain_ollama.invoke(query_en)
print("Ollama:", output_ollama)

OpenAI: Tesla was founded by Martin Eberhard and Marc Tarpenning.
Hugging Face: Tesla was founded by Martin Eberhard and Marc Tarpenning.
Ollama: Tesla was founded by Martin Eberhard and Marc Tarpenning.


### 5-2 언어 감지 및 자동번역 통합 

`(1) 한국어 문서 벡터저장소 로드 `  

In [71]:
# 한국어 문서로 저장되어 있는 벡터 저장소 로드
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(
    model="text-embedding-3-small", 
)

vectorstore = Chroma(
    embedding_function=embeddings,
    collection_name="chroma_test",
    persist_directory="./chroma_db",
    )

print(f"벡터 저장소에 저장된 문서 수: {vectorstore._collection.count()}")

벡터 저장소에 저장된 문서 수: 5


In [74]:
import deepl
from langdetect import detect

translator = deepl.Translator(os.getenv('DEEPL_API_KEY'))

def detect_and_translate(text, target_lang='KO'):
    detected_lang = detect(text)
    if detected_lang.upper() != target_lang:
        result = translator.translate_text(text, target_lang=target_lang)
        return str(result), detected_lang
    return text, detected_lang

# 문서 번역 테스트
text = "Hello. How are you?"
translated_text, detected_lang = detect_and_translate(text, target_lang='KO')
print(f"Detected language: {detected_lang}")
print(f"Translated text: {translated_text}")

Detected language: en
Translated text: 안녕하세요. 안녕하세요?


`(2) RAG 체인 성능 평가 `  

In [75]:
retriever = vectorstore.as_retriever(search_kwargs={'k': 2})

lang_rag_chain = (
        {"context": retriever | format_docs , "question": RunnablePassthrough()}
        | prompt
        | llm
        | StrOutputParser()
    )

# 체인 실행 함수
def run_lang_rag_chain(query):
    original_lang = detect(query)
    
    if original_lang.upper() != 'KO':
        translated_query, _ = detect_and_translate(query, target_lang='KO')
    else:
        translated_query = query
    
    output = lang_rag_chain.invoke(translated_query)
    
    if original_lang.upper() != 'KO':
        target_lang = 'EN-US' if original_lang.upper() == 'EN' else original_lang
        output, _ = detect_and_translate(output, target_lang=target_lang)
    
    return output
    

In [76]:
# 한국어 쿼리에 대한 성능 평가
query_ko = "테슬라 창업자는 누구인가요?"

output = run_lang_rag_chain(query_ko)
print(output)

# 영어 쿼리에 대한 성능 평가
query_en = "Who is the founder of Tesla?"

output = run_lang_rag_chain(query_en)
print(output)

마틴 에버하드와 마크 타페닝입니다.
Martin Everhard and Mark Tappening.


### 5-3 언어 감지 및 벡터저장소 라우팅

`(1) 언어별 벡터저장소 생성 `  

In [77]:
# 한국어 문서, 영어 문서를 각각 다른 벡터 저장소에 저장
db_korean = Chroma.from_documents(
    documents=korean_docs, 
    embedding=embeddings_huggingface,    # huggingface 임베딩 사용
    collection_name="db_korean",
    persist_directory="./chroma_db",
    )

db_english = Chroma.from_documents(
    documents=english_docs, 
    embedding=embeddings_ollama,        # ollama 임베딩 사용
    collection_name="db_english",
    persist_directory="./chroma_db",
    )

# 벡터 저장소에 저장된 문서 수
print(f"한국어: {db_korean._collection.count()}")
print(f"영어: {db_english._collection.count()}")

한국어: 13
영어: 6


`(2) RAG 체인 성능 평가 `  

In [78]:
# 체인 실행 함수
from langdetect import detect

rag_chain_korean = create_rag_chain(db_korean)
rag_chain_english = create_rag_chain(db_english)


def run_route_rag_chain(query):
    original_lang = detect(query)
    
    if original_lang.upper() == 'KO':
        return rag_chain_korean.invoke(query)
        
    elif original_lang.upper() == 'EN' :
        return rag_chain_english.invoke(query)
    
    else:
        return "잘 모르겠습니다."
    
# 한국어 쿼리에 대한 성능 평가
query_ko = "테슬라 창업자는 누구인가요?"

output = run_route_rag_chain(query_ko)
print(output)

# 영어 쿼리에 대한 성능 평가
query_en = "Who is the founder of Tesla?"

output = run_route_rag_chain(query_en)
print(output)

마틴 에버하드와 마크 타페닝입니다.
Tesla was founded by Martin Eberhard and Marc Tarpenning.


## 6. Gradio 챗봇

`(1) invoke 실행` 

- chat history 기능을 추가

In [79]:
import gradio as gr
from langchain_core.messages import HumanMessage, AIMessage

# 답변 생성 모델을 별도로 사용
answer_llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)


def answer_invoke(message, history):
    history_langchain_format = []
    for human, ai in history:
        history_langchain_format.append(HumanMessage(content=human))
        history_langchain_format.append(AIMessage(content=ai))
    history_langchain_format.append(HumanMessage(content=message))

    # 현재 메시지에 대해 RAG 체인 실행
    rag_response = run_route_rag_chain(message)

    # 답변 생성 모델에게 현재 메시지에 대한 답변 요청
    final_answer = answer_llm.invoke(
        history_langchain_format[:-1] + [AIMessage(content=rag_response)] + [HumanMessage(content=message)]
    )
    
    return final_answer.content


# Graiio 인터페이스 생성 
demo = gr.ChatInterface(fn=answer_invoke, title="QA Bot")

# Graiio 실행  
demo.launch()

Running on local URL:  http://127.0.0.1:7860

To create a public link, set `share=True` in `launch()`.




In [80]:
# Graiio 종료
demo.close()

Closing server running on port: 7860
