### TokenTextSplitter

    - 텍스트를 토큰 수를 기반으로 청크를 생성해야 할 때 많이 사용한다.

### tiktoken

    -OpenAI에서 만든 빠른 BPE Tokenizer

**BPE**

    - Byte Pair Encoding
        1. 모든 문자가 개별 문자로 시작
        2. 빈도 기반 병합
        3. 이 과정을 반복

In [2]:
with open("./data/appendix-keywords.txt") as f:
    file = f.read()

In [3]:
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    chunk_size = 300,
    chunk_overlap = 0
)

texts = text_splitter.split_text(file)

Created a chunk of size 358, which is longer than the specified 300
Created a chunk of size 315, which is longer than the specified 300
Created a chunk of size 305, which is longer than the specified 300


In [4]:
# 분할된 청크 개수
print(len(texts))

8


In [5]:
print(texts[1])

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝


### NLTK

    - Python로 작성된 영어 자연어 처리(NLP)를 위한 라이브러리와 프로그램 모음

    - 텍스트 분할 방법 : NLTK tokenizer에 의해 분할

    - chunk 크기 측정 : 문자 수에 의해 측정

In [6]:
!pip install -q nltk

In [7]:
# 사용자가 필요한 데이터만 선택적으로 다운로드 할 수 있다.
import nltk

nltk.download('punkt_tab')

[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\20113\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [8]:
from langchain_text_splitters import NLTKTextSplitter

text_splitter = NLTKTextSplitter(
    chunk_size=200,
    chunk_overlap=0
)

**참고**   
punkt_tab

    비지도 학습 알고리즘을 사용해 문장 경계를 감지
    마침표, 느낌표, 물음표 등을 기준으로 문장을 분리
    Mr, Dr 약어도 인식 가능

In [9]:
texts = text_splitter.split_text(file)
print(texts)

['Semantic Search\n\n정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.\n\n예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.', '연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝\n\nEmbedding\n\n정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다.\n\n이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.\n\n예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다.', '연관키워드: 자연어 처리, 벡터화, 딥러닝\n\nToken\n\n정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다.\n\n이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다.\n\n예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다.', '연관키워드: 토큰화, 자연어 처리, 구문 분석\n\nTokenizer\n\n정의: 토크나이저는 텍스트 데이터를 토큰으로 분할하는 도구입니다.\n\n이는 자연어 처리에서 데이터를 전처리하는 데 사용됩니다.\n\n예시: "I love programming.\n\n"이라는 문장을 ["I", "love", "programming", ".\n\n"]으로 분할합니다.', '연관키워드: 토큰화, 자연어 처리, 구문 분석\n\nVectorStore\n\n정의: 벡터스토어는 벡터 형식으로 변환된 데이터를 저장하는 시스템입니다.\n\n이는 검색, 분류 및 기타 데이터 분석 작업에 사용됩니다.\n\n예시: 단어 임베딩 벡터들을 데이터베이스에 저장하여 빠르게 접근할 수 있습니다.', '연관키워드: 임베딩, 데이터베이스, 벡터화\n\nSQL\n\n정의: SQL(Structured Query Language)은 데이터베이스에서 데이터를 관리하기 위한 프로그래밍 언어입니다

### KoNLpy

    - Korean NLP in python 한국어 자연어 처리를 위한 파이썬 패키지
    - 텍스트를 토큰(단어, 구, 기호)등으로 분할하여 처리

### kkma 분석기
    - korean Knowledge Morpheme Analyzer
    주요기능 :
    - 형태소 분석
    - 품사 태깅
    - 문장 분할
    - 단어/ 형태소 분해

    장점 : 섬세하고 정밀한 분석
    단점 : 처리 속도가 상대적으로 느리다.

In [10]:
!pip install -q konlpy

In [12]:
from langchain_text_splitters import KonlpyTextSplitter

text_splitter = KonlpyTextSplitter(chunk_size=200, chunk_overlap=0)
print(file[:350])

Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.
예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다.
연관키워드: 자연어 처


In [13]:
texts = text_splitter.split_text(file)

print(texts[0])

Semantic Search 정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.

예시: 사용자가 " 태양계 행성" 이라고 검색하면, " 목성", " 화 성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.


### Hugging Face tokenizer

    - 다양한 토크나이저를 제공한다.
    - GPT2TokenizerFast

    텍스트 분할 방식 : 전달된 문자 단위
    청크 크기 측정 방식 : HuggingFace 토크나이저에 의해 계산된 토큰 수

In [14]:
!pip install transformers

Collecting transformers
  Downloading transformers-4.46.1-py3-none-any.whl.metadata (44 kB)
Collecting safetensors>=0.4.1 (from transformers)
  Downloading safetensors-0.4.5-cp311-none-win_amd64.whl.metadata (3.9 kB)
Downloading transformers-4.46.1-py3-none-any.whl (10.0 MB)
   ---------------------------------------- 0.0/10.0 MB ? eta -:--:--
   ---------------------------------------- 10.0/10.0 MB 52.0 MB/s eta 0:00:00
Downloading safetensors-0.4.5-cp311-none-win_amd64.whl (285 kB)
Installing collected packages: safetensors, transformers
Successfully installed safetensors-0.4.5 transformers-4.46.1


In [15]:
from transformers import GPT2TokenizerFast

# GPPT-2 모델의 토크나이저
hf_tokenizer = GPT2TokenizerFast.from_pretrained("gpt2")

None of PyTorch, TensorFlow >= 2.0, or Flax have been found. Models won't be available and only tokenizers, configuration and file/data utilities can be used.


tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

In [16]:
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(
    hf_tokenizer,
    chunk_size = 300,
    chunk_overlap =50
)

texts = text_splitter.split_text(file)

Created a chunk of size 358, which is longer than the specified 300
Created a chunk of size 315, which is longer than the specified 300
Created a chunk of size 305, which is longer than the specified 300


In [17]:
print(texts[1])

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝
