### **TokenTextSplitter**

`TokenTextSplitter` 는 텍스트를 토큰 수를 기반으로 청크를 생성할 때 유용

In [1]:
# 문서 로드 
with open('data/appendix-keywords.txt', 'r') as f:
    file = f.read()
    
file[:300]

'Semantic Search\n\n정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.\n예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.\n연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝\n\nEmbedding\n\n정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.\n예시: "사과"라는 단'

In [3]:
# CharacterTextSplitter 에 tiktoken 인코더 기반의 텍스트 분할기 
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    
    chunk_size = 300,
    chunk_overlap = 0,
)

text = text_splitter.split_text(file)
text[0]

Created a chunk of size 358, which is longer than the specified 300
Created a chunk of size 315, which is longer than the specified 300
Created a chunk of size 305, which is longer than the specified 300
Created a chunk of size 366, which is longer than the specified 300
Created a chunk of size 330, which is longer than the specified 300
Created a chunk of size 351, which is longer than the specified 300
Created a chunk of size 378, which is longer than the specified 300
Created a chunk of size 361, which is longer than the specified 300
Created a chunk of size 350, which is longer than the specified 300
Created a chunk of size 362, which is longer than the specified 300
Created a chunk of size 335, which is longer than the specified 300
Created a chunk of size 353, which is longer than the specified 300
Created a chunk of size 358, which is longer than the specified 300
Created a chunk of size 336, which is longer than the specified 300
Created a chunk of size 324, which is longer tha

'Semantic Search'

In [5]:
print(f'분할된 청크 크기 : {len(text)}') 

분할된 청크 크기 : 51


In [None]:
# Tokenizer 만을 사용해서 텍스트 분할 
from langchain_text_splitters import TokenTextSplitter

text_splitter = TokenTextSplitter(
    chunk_size=300,  
    chunk_overlap=0,  
)

texts = text_splitter.split_text(file)
print(texts[0])  

Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연�


### **spaCy**

고급 자연어 처리를 위한 라이브러리 

spaCy Tokenizer 사용 해보기 

In [None]:
# # 설치
# !pip install -qU spacy

# # 모델 설치
# !python -m spacy download en_core_web_sm --quiet

In [9]:
from langchain_text_splitters import SpacyTextSplitter
import warnings
warnings.filterwarnings("ignore")

# SpacyTextSplitter 정의
text_splitter = SpacyTextSplitter(
    chunk_size=200,  
    chunk_overlap=50,
)

texts = text_splitter.split_text(file)
print(texts[0]) 

Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된

결과를 반환하는 검색 방식입니다.


예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.


### **SentenceTransformers**

`SentenceTransformersTokenTextSplitter`는 `sentence-transformer` 모델에 특화된 텍스트 분할기

In [10]:
from langchain_text_splitters import SentenceTransformersTokenTextSplitter

splitter = SentenceTransformersTokenTextSplitter(chunk_size=200, chunk_overlap=0)

count_start_and_stop_tokens = 2  # 시작과 종료 토큰의 개수를 2로 설정합니다.

# 텍스트의 토큰 개수 - 시작 토큰 + 종료 토큰
text_token_count = splitter.count_tokens(text=file) - count_start_and_stop_tokens
print(text_token_count)  

modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.4k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/571 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/438M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/363 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

7686


In [11]:
text_chunks = splitter.split_text(text=file)
print(text_chunks[0])

semantic search 정의 : 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 [UNK] 결과를 반환하는 검색 방식입니다. [UNK] : 사용자가 " [UNK] 행성 " 이라고 검색하면, " 목성 ", " 화성 " 등과 [UNK] [UNK] 행성에 대한 정보를 반환합니다. 연관키워드 : 자연어 처리, 검색 알고리즘, 데이터 마이닝 embedding 정의 : 임베딩은 단어나 문장 [UNK] 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다


### **NLTK**

영어 자연어 처리(NLP)를 위한 라이브러리

단순히 "\n\n"으로 분할하는 대신, NLTK tokenizers를 기반으로 텍스트를 분할

1. 텍스트 분할 방법: NLTK tokenizer에 의해 분할
2. chunk 크기 측정 방법: 문자 수에 의해 측정


In [None]:
# # 설치
# !pip install -qU nltk

In [13]:
# 데이터 다운로드
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\rmsgh\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [14]:
from langchain_text_splitters import NLTKTextSplitter

text_splitter = NLTKTextSplitter(
    chunk_size=200,  
    chunk_overlap=0, 
)

texts = text_splitter.split_text(file)
print(texts[0])

Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.

예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.


## **KoNLPy**

한국어 자연어 처리(NLP)를 위한 라이브러리


### **KoNLPy의 Kkma 분석기를 사용한 한국어 토큰 분할**

한국어 텍스트의 경우 KoNLPY에는 `Kkma`(Korean Knowledge Morpheme Analyzer)라는 형태소 분석기가 포함

- `Kkma`는 한국어 텍스트에 대한 상세한 형태소 분석을 제공
- 문장을 단어로, 단어를 각각의 형태소로 분해하고 각 토큰에 대한 품사를 식별
- 텍스트 블록을 개별 문장으로 분할할 수 있어 긴 텍스트 처리에 특히 유용

### 사용시 고려사항

- `Kkma`는 상세한 분석으로 유명하지만, 이러한 정밀성이 처리 속도에 영향을 미칠 수 있다는 점에 유의 
- 따라서 `Kkma`는 신속한 텍스트 처리보다 분석적 깊이가 우선시되는 애플리케이션에 가장 적합


In [15]:
import chunk
from langchain_text_splitters import KonlpyTextSplitter

text_splitter = KonlpyTextSplitter(chunk_size=200, chunk_overlap=50)

texts = text_splitter.split_text(file)  # 한국어 문서를 문장 단위로 분할합니다.
print(texts[0]) 

Semantic Search 정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.

예시: 사용자가 " 태양계 행성" 이라고 검색하면, " 목성", " 화 성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.


### **Hugging Face tokenizer**


GPT2TokenizerFast를 사용

텍스트 분할 방식은 다음과 같습니다:

- 전달된 문자 단위로 분할됩니다.

청크 크기 측정 방식은 다음과 같습니다:

- Hugging Face 토크나이저에 의해 계산된 토큰 수를 기준으로 합니다.


In [16]:
from transformers import GPT2TokenizerFast

# Tokenzier 정의
hf_tokenizer = GPT2TokenizerFast.from_pretrained("gpt2")

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

In [17]:
text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(
    hf_tokenizer,
    chunk_size=300,
    chunk_overlap=50,
)
texts = text_splitter.split_text(file)
print(texts[1]) 

Created a chunk of size 358, which is longer than the specified 300
Created a chunk of size 315, which is longer than the specified 300
Created a chunk of size 305, which is longer than the specified 300
Created a chunk of size 366, which is longer than the specified 300
Created a chunk of size 330, which is longer than the specified 300
Created a chunk of size 351, which is longer than the specified 300
Created a chunk of size 378, which is longer than the specified 300
Created a chunk of size 361, which is longer than the specified 300
Created a chunk of size 350, which is longer than the specified 300
Created a chunk of size 362, which is longer than the specified 300
Created a chunk of size 335, which is longer than the specified 300
Created a chunk of size 353, which is longer than the specified 300
Created a chunk of size 358, which is longer than the specified 300
Created a chunk of size 336, which is longer than the specified 300
Created a chunk of size 324, which is longer tha

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝
