In [2]:
# 토큰 텍스트 분할(TokenTextSplitter)
#
# 언어 모델에는 토큰 제한이 있습니다. 따라서 토큰 제한을 초과하지 않아야 합니다.
# TokenTextSplitter 는 텍스트를 토큰 수를 기반으로 청크를 생성할 때 유용합니다.
# 토큰 분할방법은 아주 다양한 방식들이 있습니다.
# => 일반적으로 CharacterTextSplitter, RecursiveCharacterTextSplitter 와 같이 사용됨.

[0mNote: you may need to restart the kernel to use updated packages.


In [5]:
# tiktoken
# OpenAI에서 만든 BPE Tokenizer

# %pip install --upgrade --quiet langchain-text-splitters tiktoken

with open("../data/04.급여규정_16.06.01.txt") as f:
    file = f.read()

print(f'*type:{type(file)}')
print(f'*file:\n{file[:300]}\n')

from langchain_text_splitters import RecursiveCharacterTextSplitter

# RecursiveCharacterTextSplitter.from_tiktoken_encoder를 사용하면 
# 분할된 텍스트가 언어 모델에서 허용하는 토큰의 청크 크기보다 크지 않도록 할 수 있으며, 
# 각 분할은 크기가 더 큰 경우 재귀적으로 분할됩니다. 
# 또한 tiktoken 분할기를 직접 로드할 수 있으며, 이는 각 분할이 청크 크기보다 작음을 보장합니다.
text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
   # 청크 크기를 300으로 설정합니다.
    chunk_size=300,
    # 청크 간 중복되는 부분이 없도록 설정합니다.
    chunk_overlap=0,
)

# text_splitter를 사용하여 file 텍스트를 분할하고, 분할된 텍스트의 첫 번째 요소를 반환합니다.
texts = text_splitter.split_text(file)

print(f'\n\n*text 분할 수: {len(texts)}')

for text in texts:
    print(text)
    print(f'--' * 20)
    

*type:<class 'str'>
*file:
급여규정
1. 목적
이 규정은 주식회사 모코엠시스에 근무하는 직원의 급여에 관한 제반사항을 정하여 합리적인 급여관리를 실행함을 목적으로 한다.
2. 적용범위
직원의 급여는 관계법령, 기타 별도로 정한 것을 제외하고는 이 규정이 정하는 바에 따른다.
3. 급여의 구성
3.1 급여는 기본급, 제수당, 상여금, 퇴직금으로 구분한다.
3.2 일반적으로 월급여라 함은 기본급과 제수당을 합한 금액을 말한다.
4. 급여조정
급여의 인상은 년 1회 1월 1일부로 실시함을 원칙으로 한다.
5. 계산과 지급
5.1 계산기간
급여계산기간은 매월 1일부



*text 분할 수: 24
급여규정
1. 목적
이 규정은 주식회사 모코엠시스에 근무하는 직원의 급여에 관한 제반사항을 정하여 합리적인 급여관리를 실행함을 목적으로 한다.
2. 적용범위
직원의 급여는 관계법령, 기타 별도로 정한 것을 제외하고는 이 규정이 정하는 바에 따른다.
----------------------------------------
3. 급여의 구성
3.1 급여는 기본급, 제수당, 상여금, 퇴직금으로 구분한다.
3.2 일반적으로 월급여라 함은 기본급과 제수당을 합한 금액을 말한다.
4. 급여조정
급여의 인상은 년 1회 1월 1일부로 실시함을 원칙으로 한다.
5. 계산과 지급
5.1 계산기간
----------------------------------------
급여계산기간은 매월 1일부터 당월 말일까지로 한다.
5.2 일할계산
5.2.1 급여의 변경이 있는 월의 급여는 일할계산한다.
5.2.2 일할계산은 월의 대소에 관계없이 월급여의 1/30로 한다.
5.3 일할일수
일할계산에 있어 그 일할일수는 실근로일수를 기준으로 한다.
----------------------------------------
5.4 계산단위
급여계산은 원단위에서 이를 절사한다.
5.5 급여지급일
5.5.1 급여지급일은 매월 20일로 한다.
단, 지급일이 휴일인 경우에는 그 전일로 한다.
5.

In [None]:
# TokenTextSplitter
# TokenTextSplitter 클래스를 사용하여 텍스트를 토큰 단위로 분할합니다.

from langchain_text_splitters import TokenTextSplitter

text_splitter = TokenTextSplitter(
    chunk_size=300,  # 청크 크기를 300으로 설정합니다.
    chunk_overlap=0,  # 청크 간 중복을 0으로 설정합니다.
)

# state_of_the_union 텍스트를 청크로 분할합니다.
texts = text_splitter.split_text(file)

print(f'\n\n*text 분할 수: {len(texts)}')

for text in texts:
    print(text)
    print(f'--' * 20)

In [None]:
# SentenceTransformers
# SentenceTransformersTokenTextSplitter는 sentence-transformer 모델에 특화된 텍스트 분할기입니다.
# 기본 동작은 사용하고자 하는 sentence transformer 모델의 토큰 윈도우에 맞게 텍스트를 청크로 분할하는 것입니다.
# => 사용을 위해서는 아래 패키지 설치해야 함
# %pip install sentence-transformers


In [10]:
from langchain_text_splitters import SentenceTransformersTokenTextSplitter

# 문장 분할기를 생성하고 청크 간 중복을 0으로 설정합니다.
splitter = SentenceTransformersTokenTextSplitter(chunk_size=200, chunk_overlap=0)

count_start_and_stop_tokens = 2  # 시작과 종료 토큰의 개수를 2로 설정합니다.

# 텍스트의 토큰 개수에서 시작과 종료 토큰의 개수를 뺍니다.
text_token_count = splitter.count_tokens(text=file) - count_start_and_stop_tokens
print(f'*text 총 토큰 길이: {text_token_count}')  # 계산된 텍스트 토큰 개수를 출력합니다.

text_chunks = splitter.split_text(text=file)  # 텍스트를 청크로 분할합니다.

print(f'\n\n*text 분할 수: {len(texts)}')
for text in texts:
    print(text)
    print(f'--' * 20)

*text 총 토큰 길이: 4648


*text 분할 수: 22
급여규정
1. 목적
이 규정은 주식회사 모코엠시스에 근무하는 직원의 급여에 관한 제반사항을 정하여 합리적인 급여관리를 실행함을 목적으로 한다.
2. 적용범위
직원의 급여는 관계법령, 기타 별도로 정한 것을 제외하고는 이 규정이 정하는 바에 따른다.
3.
----------------------------------------
 급여의 구성
3.1 급여는 기본급, 제수당, 상여금, 퇴직금으로 구분한다.
3.2 일반적으로 월급여라 함은 기본급과 제수당을 합한 금액을 말한다.
4. 급여조정
급여의 인상은 년 1회 1월 1일부로 실시함을 원칙으로 한다.
5. 계산과 지급
5.1 계산기간
급여계산�
----------------------------------------
��간은 매월 1일부터 당월 말일까지로 한다.
5.2 일할계산
5.2.1 급여의 변경이 있는 월의 급여는 일할계산한다.
5.2.2 일할계산은 월의 대소에 관계없이 월급여의 1/30로 한다.
5.3 일할일수
일할계산에 있어 그 일할일수는 실근로일수를 기준으로 한다.
5.4 계산단위
급�
----------------------------------------
�계산은 원단위에서 이를 절사한다.
5.5 급여지급일
5.5.1 급여지급일은 매월 20일로 한다.
단, 지급일이 휴일인 경우에는 그 전일로 한다.
5.5.2 비상재해, 기타 부득이한 사유가 발생시에는 지급일을 변경할 수 있다
5.6 지급방법
급여는 통화로 전액을 본인에게 직접 지
----------------------------------------
급하거나 본인이 신청한 본인의 실명계좌에 지급한다.
5.7 신규채용 및 복직자 급여
5.7.1 신규채용 및 복직자의 급여는 발령일로부터 일할계산한다.
5.7.2 신규채용되어 수습기간중에 있는 자는 월급여의 90%를 지급한다.
5.7.3 복직자의 급여는 휴직당시 직급·호�
-------------------------------------

In [11]:
# KoNLPy
# KoNLPy(Korean NLP in Python)는 한국어 자연어 처리(NLP)를 위한 파이썬 패키지입니다.
# 토큰 분할은 텍스트를 토큰이라고 하는 더 작고 관리하기 쉬운 단위로 분할하는 과정을 포함합니다.

# KoNLPy의 Kkma 분석기를 사용한 한국어 토큰 분할
# 한국어 텍스트의 경우 KoNLPY에는 Kkma(Korean Knowledge Morpheme Analyzer)라는 형태소 분석기가 포함되어 있습니다.
# Kkma는 한국어 텍스트에 대한 상세한 형태소 분석을 제공합니다.
# 문장을 단어로, 단어를 각각의 형태소로 분해하고 각 토큰에 대한 품사를 식별합니다.
# 텍스트 블록을 개별 문장으로 분할할 수 있어 긴 텍스트 처리에 특히 유용합니다.

# **사용시 고려사항
# Kkma는 상세한 분석으로 유명하지만, 이러한 정밀성이 처리 속도에 영향을 미칠 수 있다는 점에 유의해야 합니다. 
# 따라서 Kkma는 신속한 텍스트 처리보다 분석적 깊이가 우선시되는 애플리케이션에 가장 적합합니다.

%pip install -qU konlpy

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


[0mNote: you may need to restart the kernel to use updated packages.


In [12]:
from langchain_text_splitters import KonlpyTextSplitter

# KonlpyTextSplitter를 사용하여 텍스트 분할기 객체를 생성합니다.
text_splitter = KonlpyTextSplitter()

print(f'\n\n*text 분할 수: {len(texts)}')
for text in texts:
    print(text)
    print(f'--' * 20)

JVMNotFoundException: No JVM shared library file (libjvm.so) found. Try setting up the JAVA_HOME environment variable properly.