# CharacterTextSplitter

텍스트 데이터를 특정 크기의 청크(chunk)로 나누는데 사용되는 도구 

1. 주요 특징 
    1. 모델 입력 길이 제한에 대응:
        - NLP 모델, 언어 모델(GPT)은 입력 길이에 제한 있어 적절한 크기로 나눌 필요 있음 
        - (eg) 최대 토큰 길이가 4096인 모델인 경우 텍스트를 해당값 이하로 분할 
    2. 문맥 보존:
        - 단순히 텍스트 길이 기준으로 자르지 않음  
        - 의미 단위(문장 또는 단어)를 최대한 유지하면서 분할 
        - 문맥이 손상되지 않도록 처리 가능 
    3. 병렬 처리:
        - 텍스트를 청크로 나누면 병렬로 처리 할 수 있음 
        - 대규모 데이터 처리 속도를 높일 수 있음  

2. 분할 옵션 
    - `separator`: 분할할 기준 설정. 기본값은 `"\n\n"`
    - `chunk_size`: 각 청크의 최대 크기 설정 (eg, 250자)
    - `chunk_overlap`: 인접한 청크 간 중복 허용 (eg, 50자)
    - `length_function`: 텍스트의 길이를 계산하는 함수 지정 (eg, `len`)

[Reference] https://api.python.langchain.com/en/latest/text_splitters/character/langchain_text_splitters.character.CharacterTextSplitter.html

In [1]:
from langchain_text_splitters import CharacterTextSplitter

In [2]:
# 문서 로딩 
with open("./data/appendix-keywords.txt") as f:
    file = f.read()

In [3]:
print(file[:250])

Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니


In [4]:
# 분할기 정의 
text_splitter = CharacterTextSplitter(
    separator='\n\n',
    chunk_size=210,
    chunk_overlap=0,
    length_function=len,
)

In [5]:
# 청크 분할 
texts = text_splitter.create_documents([file])

print(len(texts))

32


In [7]:
print(texts[0]) 

page_content='Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding'


## 메타데이터 맵핑

In [10]:
# 메타데이터 정의 
metadatas = [
    {'document': 1}, # 첫번째 문서
    {'document': 2}, # 두번째 문서 
]

In [11]:
# 문서 분할 및 메타데이터 연결 
documents = text_splitter.create_documents(
    [
        file, # 첫번째 문서와 연결하기 위한 텍스트 파일
        file, # 두번째 문서와 연결하기 위한 텍스트 파일
    ],
    metadatas, # 각 텍스트 파일에 연결할 메타데이터 
)

In [12]:
print(len(documents))
print(documents[0])
print(documents[0].metadata)

64
page_content='Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding' metadata={'document': 1}
{'document': 1}


## 텍스트 분할

In [13]:
text_splitter

<langchain_text_splitters.character.CharacterTextSplitter at 0x15c9a44d0>

In [14]:
print(text_splitter.split_text(file)[0])

Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding


In [15]:
print(text_splitter.split_text(file)[-1])

정의: 멀티모달은 여러 종류의 데이터 모드(예: 텍스트, 이미지, 소리 등)를 결합하여 처리하는 기술입니다. 이는 서로 다른 형식의 데이터 간의 상호 작용을 통해 보다 풍부하고 정확한 정보를 추출하거나 예측하는 데 사용됩니다.
예시: 이미지와 설명 텍스트를 함께 분석하여 더 정확한 이미지 분류를 수행하는 시스템은 멀티모달 기술의 예입니다.
연관키워드: 데이터 융합, 인공지능, 딥러닝


-----
** End of Documents **