# TokenTextSplitter

- 텍스트를 토큰 단위로 분할 
- 일반적인 문자 기반 분할 도구와 달리, 텍스트를 모델이 이해하는 토큰 개수에 맞게 분할 


1. 주요 특징 
    1. 모델 입력 길이 제한에 대응:
        - 언어 모델은 입력 토큰 길이에 제한 있음 (eg, GPT-3 : 4096 토큰) 
        - 제한된 입력 토큰수를 초과하지 않도록 텍스트를 나눠야 함   
    2. 효율적 처리:
        - 토큰 기준으로 나누어 각 청크가 모델에 바로 입력 가능하도록   
      

[Reference] https://python.langchain.com/api_reference/text_splitters/base/langchain_text_splitters.base.TokenTextSplitter.html

In [1]:
# 문서 로딩
with open("./data/appendix-keywords.txt") as f:
    file = f.read()

In [2]:
print(file[:250])

Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니


In [3]:
from langchain_text_splitters import TokenTextSplitter

In [4]:
# 분할기 정의
text_splitter = TokenTextSplitter(
    chunk_size=250,
    chunk_overlap=0,
)

In [5]:
# 청크 분할
texts = text_splitter.split_text(file)

In [6]:
print(texts[0])
print("---" * 10)
print(texts[1])

Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 �
------------------------------
��련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 �


# SentenceTransformersTokenSplitter

- `sentence-transformer` 모델에 특화된 텍스트 분할기 

In [10]:
# !pip install sentence-transformers

In [7]:
from langchain_text_splitters import SentenceTransformersTokenTextSplitter

In [8]:
# 분할기 정의
text_splitter = SentenceTransformersTokenTextSplitter(
    chunk_size=250,
    chunk_overlap=0,
)



In [9]:
# 시작과 종료 토큰 개수 설정
count_start_and_stop_tokens = 5

# 텍스트 토큰 개수에서 시작/종료 토큰 개수 빼기
text_token_count = text_splitter.count_tokens(text=file) - count_start_and_stop_tokens
print(text_token_count)

7683


In [10]:
# 청크 분할
text_chunks = text_splitter.split_text(file)

In [11]:
print(text_chunks[0])
print("---" * 10)
print(text_chunks[1])

semantic search 정의 : 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 [UNK] 결과를 반환하는 검색 방식입니다. [UNK] : 사용자가 " [UNK] 행성 " 이라고 검색하면, " 목성 ", " 화성 " 등과 [UNK] [UNK] 행성에 대한 정보를 반환합니다. 연관키워드 : 자연어 처리, 검색 알고리즘, 데이터 마이닝 embedding 정의 : 임베딩은 단어나 문장 [UNK] 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다
------------------------------
. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 [UNK] 합니다. [UNK] : " 사과 " 라는 단어를 [ 0. 65, - 0. 23, 0. 17 ] 과 [UNK] 벡터로 표현합니다. 연관키워드 : 자연어 처리, 벡터화, 딥러닝 token 정의 : 토큰은 텍스트를 더 작은 [UNK] 분할하는 [UNK] 의미합니다. 이는 일반적으로 단어, 문장, [UNK] 구절일 수 [UNK]. [UNK] : 문장 " 나는 학교에 간다 " 를 " 나는 ", " 학교에 ", " 간다 " 로 분할합니다. 연관키워드 : 토큰화, 자연어 처리,

# GPT Tokenizer 

In [12]:
from transformers import GPT2TokenizerFast
from langchain_text_splitters import CharacterTextSplitter

In [13]:
tokenizer = GPT2TokenizerFast.from_pretrained("gpt2")

In [14]:
# 분할기 정의
# Hugging Face 토크나이저를 사용하여 CharacterTextSplitter 객체 생성
text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(
    tokenizer,
    chunk_size=300,
    chunk_overlap=50,
)

In [15]:
# 텍스트 분할
texts = text_splitter.split_text(file)

Created a chunk of size 358, which is longer than the specified 300
Created a chunk of size 315, which is longer than the specified 300
Created a chunk of size 305, which is longer than the specified 300
Created a chunk of size 366, which is longer than the specified 300
Created a chunk of size 330, which is longer than the specified 300
Created a chunk of size 351, which is longer than the specified 300
Created a chunk of size 378, which is longer than the specified 300
Created a chunk of size 361, which is longer than the specified 300
Created a chunk of size 350, which is longer than the specified 300
Created a chunk of size 362, which is longer than the specified 300
Created a chunk of size 335, which is longer than the specified 300
Created a chunk of size 353, which is longer than the specified 300
Created a chunk of size 358, which is longer than the specified 300
Created a chunk of size 336, which is longer than the specified 300
Created a chunk of size 324, which is longer tha

In [16]:
print(texts[0])
print("---" * 10)
print(texts[1])
print("---" * 10)
print(texts[2])
print("---" * 10)
print(texts[3])

Semantic Search
------------------------------
정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝
------------------------------
Embedding
------------------------------
정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.
예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다.
연관키워드: 자연어 처리, 벡터화, 딥러닝


-----
** End of Documents **