##### 1) 라이브러리 설치

In [4]:
%pip install -q langchain langchain-openai langchain_community tiktoken

Note: you may need to restart the kernel to use updated packages.


##### 2) OpenAI 인증키 설정

In [1]:
from dotenv import load_dotenv
# .env 파일을 불러와서 환경 변수로 설정
load_dotenv()

True

#### CharacterTextSplitter 간단한 예제

In [2]:
from langchain.text_splitter import CharacterTextSplitter

text = """RAG는 검색 기반의 텍스트 생성 모델입니다. 기존 언어 모델의 단점을 보완하고, 최신 정보를 제공합니다.
특히, 최신 데이터를 반영하는 데 강력한 기능을 제공합니다. 
RAG는 검색과 생성 단계를 포함합니다."""

# 마침표(".")를 기준으로 텍스트 분할
splitter = CharacterTextSplitter(chunk_size=50, chunk_overlap=10, separator=".")
chunks = splitter.split_text(text)

print(type(chunks))
print(chunks)

<class 'list'>
['RAG는 검색 기반의 텍스트 생성 모델입니다', '기존 언어 모델의 단점을 보완하고, 최신 정보를 제공합니다', '특히, 최신 데이터를 반영하는 데 강력한 기능을 제공합니다', 'RAG는 검색과 생성 단계를 포함합니다']


#### RecursiveCharacterTextSplitter 간단한 예제

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text = """RAG는 검색과 생성 단계를 포함하는 모델입니다.

이 모델은 검색 기반의 텍스트 생성 기능을 제공합니다.
특히, 최신 데이터를 반영하는 데 강력한 기능을 가지고 있습니다.

Transformer 모델을 기반으로 실시간 정보를 활용할 수 있으며, 기존의 단순한 생성 모델보다 더 정확한 답변을 제공합니다."""

# 의미 단위(문장, 단락)로 나누되, chunk_size 50 제한
splitter = RecursiveCharacterTextSplitter(chunk_size=80, chunk_overlap=20, separators=["\n\n", ".", "!", "?", " ", ""])
chunks = splitter.split_text(text)

for i, chunk in enumerate(chunks):
    print(f" Chunk {i+1}: {chunk}\n")

🔹 Chunk 1: RAG는 검색과 생성 단계를 포함하는 모델입니다.

🔹 Chunk 2: 이 모델은 검색 기반의 텍스트 생성 기능을 제공합니다.
특히, 최신 데이터를 반영하는 데 강력한 기능을 가지고 있습니다.

🔹 Chunk 3: Transformer 모델을 기반으로 실시간 정보를 활용할 수 있으며, 기존의 단순한 생성 모델보다 더 정확한 답변을 제공합니다.



#### TokenTextSplitter 간단한 예제

In [5]:
from langchain_text_splitters import TokenTextSplitter

# 파일 읽기
with open("./data/ai-terminology.txt", encoding="utf-8") as f:
    file = f.read()  # 파일 내용을 읽어오기

print("원본 텍스트 미리보기:\n", file[:500])  # 앞 500자 출력

# TokenTextSplitter 설정
text_splitter = TokenTextSplitter.from_tiktoken_encoder(
    chunk_size=200,  # 청크 크기
    chunk_overlap=20,  # 청크 간 겹치는 부분 추가하여 문맥 유지
    encoding_name="cl100k_base",  # OpenAI tiktoken 기본 인코딩 사용 (한글 처리 개선)
    add_start_index=True  # 각 청크의 시작 인덱스 반환
)

# 텍스트 분할 실행
texts = text_splitter.split_text(file)

# 결과 출력
print(f"\n🔹 총 {len(texts)}개의 청크로 분할됨.")
print("\n 첫 번째 청크:\n", texts[0])

# 청크 길이 확인
for i, chunk in enumerate(texts[:5]):  # 처음 5개만 확인
    print(f"\n🔹 Chunk {i+1} (길이: {len(chunk)}):\n{chunk}")

원본 텍스트 미리보기:
 Semantic Search (의미론적 검색)

정의: 사용자의 질의를 단순한 키워드 매칭이 아니라 문맥과 의미를 분석하여 관련 정보를 반환하는 검색 방식.
예시: "우주 탐사"를 검색하면 "아폴로 11호", "화성 탐사 로버"와 같은 연관 정보가 포함된 결과를 제공함.
연관 키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

FAISS (Facebook AI Similarity Search)

정의: FAISS는 페이스북에서 개발한 고속 유사성 검색 라이브러리로, 특히 대규모 벡터 집합에서 유사 벡터를 효과적으로 검색할 수 있도록 설계되었습니다.
예시: 수백만 개의 이미지 벡터 중에서 비슷한 이미지를 빠르게 찾는 데 FAISS가 사용될 수 있습니다.
연관키워드: 벡터 검색, 머신러닝, 데이터베이스 최적화

Embedding (임베딩)

정의: 단어나 문장을 벡터 공간에 매핑하여 의미적으로 유사한 것들이 가까이 위치하도록 하는 기법.
예시: "강아지"와 "고양이"의 벡터 표현이 

🔹 총 14개의 청크로 분할됨.

 첫 번째 청크:
 Semantic Search (의미론적 검색)

정의: 사용자의 질의를 단순한 키워드 매칭이 아니라 문맥과 의미를 분석하여 관련 정보를 반환하는 검색 방식.
예시: "우주 탐사"를 검색하면 "아폴로 11호", "화성 탐사 로버"와 같은 연관 정보가 포함된 결과를 제공함.
연관 키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

FAISS (Facebook AI Similarity Search)

정의: FAISS는 페이스북에서 개발한 고속 유사성 검색 라이브러리로, 특히 대�

🔹 Chunk 1 (길이: 270):
Semantic Search (의미론적 검색)

정의: 사용자의 질의를 단순한 키워드 매칭이 아니라 문맥과 의미를 분석하여 관련 정보를 반환하는 검색 방식.
예시: "우주 탐사"를 검색하면 "아폴로 11호", "화성 탐사 로버"와 같은 연관 정보가 포함된 결과를 제공함.
연관 키워드: 자

In [6]:
%pip install -q transformers

Note: you may need to restart the kernel to use updated packages.


In [None]:
from transformers import GPT2TokenizerFast
from langchain.text_splitter import CharacterTextSplitter

# GPT-2 모델의 토크나이저 로드
hf_tokenizer = GPT2TokenizerFast.from_pretrained("gpt2")

# 데이터 파일 읽기
file_path = "./data/ai-terminology.txt"
with open(file_path, encoding="utf-8") as f:
    file_content = f.read()

print(" 원본 텍스트 미리보기:\n", file_content[:200])

# CharacterTextSplitter 설정 (Hugging Face 토크나이저 사용)
text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(
    hf_tokenizer,
    chunk_size=300,  # 각 청크 크기 (토큰 기준 아님)
    chunk_overlap=50,  # 청크 간 중복 부분
)

# 텍스트 분할 수행
split_texts = text_splitter.split_text(file_content)

# 분할된 텍스트 출력
print(f"\n 총 {len(split_texts)}개의 청크로 분할됨\n")
for i, chunk in enumerate(split_texts[:5]):  # 처음 5개만 출력
    print(f" Chunk {i+1} ({len(chunk)}자):\n{chunk}\n")

# 토크나이저로 텍스트를 토큰 단위로 변환하여 확인
tokenized_example = hf_tokenizer.tokenize(split_texts[0])
print(f"\n 첫 번째 청크의 토큰 개수: {len(tokenized_example)}")
print(" 첫 번째 청크의 토큰 리스트:", tokenized_example[:20])  # 앞 20개만 출력


Created a chunk of size 321, which is longer than the specified 300
Created a chunk of size 362, which is longer than the specified 300


📄 원본 텍스트 미리보기:
 Semantic Search (의미론적 검색)

정의: 사용자의 질의를 단순한 키워드 매칭이 아니라 문맥과 의미를 분석하여 관련 정보를 반환하는 검색 방식.
예시: "우주 탐사"를 검색하면 "아폴로 11호", "화성 탐사 로버"와 같은 연관 정보가 포함된 결과를 제공함.
연관 키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

FAISS (Faceboo

🔹 총 23개의 청크로 분할됨

🔹 Chunk 1 (25자):
Semantic Search (의미론적 검색)

🔹 Chunk 2 (157자):
정의: 사용자의 질의를 단순한 키워드 매칭이 아니라 문맥과 의미를 분석하여 관련 정보를 반환하는 검색 방식.
예시: "우주 탐사"를 검색하면 "아폴로 11호", "화성 탐사 로버"와 같은 연관 정보가 포함된 결과를 제공함.
연관 키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

🔹 Chunk 3 (37자):
FAISS (Facebook AI Similarity Search)

🔹 Chunk 4 (176자):
정의: FAISS는 페이스북에서 개발한 고속 유사성 검색 라이브러리로, 특히 대규모 벡터 집합에서 유사 벡터를 효과적으로 검색할 수 있도록 설계되었습니다.
예시: 수백만 개의 이미지 벡터 중에서 비슷한 이미지를 빠르게 찾는 데 FAISS가 사용될 수 있습니다.
연관키워드: 벡터 검색, 머신러닝, 데이터베이스 최적화

🔹 Chunk 5 (143자):
Embedding (임베딩)

정의: 단어나 문장을 벡터 공간에 매핑하여 의미적으로 유사한 것들이 가까이 위치하도록 하는 기법.
예시: "강아지"와 "고양이"의 벡터 표현이 유사하게 위치함.
연관 키워드: 벡터화, 자연어 처리, 딥러닝

Token (토큰)


🔹 첫 번째 청크의 토큰 개수: 23
🔹 첫 번째 청크의 토큰 리스트: ['Sem', 'antic', 'ĠSearch', 'Ġ(', 'ìĿ', 'ĺ', 'ë', '¯', '¸', 'ë', '¡', 'ł', 'ì', 'ł', 'ģ