### TokenTextSplitter
* 텍스트를 토큰 수를 기반으로 청크를 생성해야 할때 많이 사용한다.

### tiktoken
* OpenAI에서 만든 빠른 BPE Tokenizer

**BPE**
* Byte Pair Encoding
    1. 모든 문자가 개별 문자로 시작
    2. 빈도 기반 병합
    3. 이과정을 반복

In [1]:
with open("./data/appendix-keywords.txt") as f:
    file = f.read()

In [2]:
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    chunk_size = 300,
    chunk_overlap = 0
)

texts = text_splitter.split_text(file)

Created a chunk of size 358, which is longer than the specified 300
Created a chunk of size 315, which is longer than the specified 300
Created a chunk of size 305, which is longer than the specified 300
Created a chunk of size 366, which is longer than the specified 300
Created a chunk of size 330, which is longer than the specified 300
Created a chunk of size 351, which is longer than the specified 300
Created a chunk of size 378, which is longer than the specified 300
Created a chunk of size 361, which is longer than the specified 300
Created a chunk of size 350, which is longer than the specified 300
Created a chunk of size 362, which is longer than the specified 300
Created a chunk of size 335, which is longer than the specified 300
Created a chunk of size 353, which is longer than the specified 300
Created a chunk of size 358, which is longer than the specified 300
Created a chunk of size 336, which is longer than the specified 300
Created a chunk of size 324, which is longer tha

In [3]:
# 분할된 청크 갯수
print(len(texts))

51


In [5]:
print(texts[1])

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝


### NLTK
* Python로 작성된 영어 자연어 처리(NLP)를 위한 라이브러리와 프로그램 모음

* 텍스트 분할방법 : NTK tokenizer에 의해 분할

* chunk 크기 측정 : 문자 수에 의해 측정

In [6]:
!pip install -q nltk

In [7]:
# 사용자가 필요한 데이터만 선택적으로 다운로드 할 수 있다.
import nltk

nltk.download('punkt_tab')

[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\20118\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt_tab.zip.


True

In [8]:
from langchain_text_splitters import NLTKTextSplitter

text_splitter = NLTKTextSplitter(
    chunk_size = 200,
    chunk_overlap = 0
)

**참고**

**punkt_tab**
* 비지도 학습 알고리즘을 사용해 문장 결계를 감지
* 마침표, 느낌표, 물음표 등을 기준으로 문장을 분리
* Mr, Dr 약어도 인식 가능

In [None]:
texts = text_splitter.split_text(file)
print(texts)

### KoNLPy

* Korean NLP in Python 한국어 자연어 처리를 위한 파이썬 패키지
* 텍스트를 토큰(단어, 구, 기호)등으로 분할하여 처리


### Kkma 분석기
* Korean Knowledge Morpheme Analyzer
* 주요 기능 :
- 형태소 분석
- 품사 태깅
- 문장 분할
- 단어/형태소 분해

장점 : 상세하고 정밀한 분석<br>
단점 : 처리 속도가 상대적으로 느리다

In [10]:
!pip install -q konlpy

In [12]:
from langchain_text_splitters import KonlpyTextSplitter

text_splitter = KonlpyTextSplitter(chunk_size = 200, chunk_overlap = 0)

In [13]:
texts = text_splitter.split_text(file)

print(texts[0])

Semantic Search 정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.

예시: 사용자가 " 태양계 행성" 이라고 검색하면, " 목성", " 화 성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.


### Hugging Face tokenizer
* 다양한 토크나이저를 제공한다.
* GTPTokenizerFast

텍스트 분할방식 : 전달된 문자 단위<br>
청크 크기 측정 방식 : HuggingFace 토크나이저에 의해 계산된 토큰 수

In [None]:
!pip install transformers

In [16]:
from transformers import GPT2TokenizerFast

# GPT-2 모델의 토크나이저
hf_tokenizer = GPT2TokenizerFast.from_pretrained("gpt2")

None of PyTorch, TensorFlow >= 2.0, or Flax have been found. Models won't be available and only tokenizers, configuration and file/data utilities can be used.


tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

In [17]:
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(
    hf_tokenizer,
    chunk_size=300,
    chunk_overlap=50
)

texts = text_splitter.split_text(file)

Created a chunk of size 358, which is longer than the specified 300
Created a chunk of size 315, which is longer than the specified 300
Created a chunk of size 305, which is longer than the specified 300
Created a chunk of size 366, which is longer than the specified 300
Created a chunk of size 330, which is longer than the specified 300
Created a chunk of size 351, which is longer than the specified 300
Created a chunk of size 378, which is longer than the specified 300
Created a chunk of size 361, which is longer than the specified 300
Created a chunk of size 350, which is longer than the specified 300
Created a chunk of size 362, which is longer than the specified 300
Created a chunk of size 335, which is longer than the specified 300
Created a chunk of size 353, which is longer than the specified 300
Created a chunk of size 358, which is longer than the specified 300
Created a chunk of size 336, which is longer than the specified 300
Created a chunk of size 324, which is longer tha

In [18]:
print(texts[1])

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝
