### Splitter를 사용해보고 어떻게 나누어지는지 결과 확인해보기

### 문장 기반 Splitter
- CharacterTextSplitter
- RecursiveCharacterTextSplitter

In [None]:
# CharacterTextSplitter
from langchain.text_splitter import CharacterTextSplitter

# 고정된 크기의 chunk_size를 가지는 Splitter 생성
text_splitter = CharacterTextSplitter(
    separator=" ",  # 공백 단위로 분리 ("\n", "\n\n"등으로 분리 가능)
    chunk_size=100,  # 각 청크의 최대 문자 수
    chunk_overlap=20  # 청크 간 겹치는 문자 수
)

# 예제 텍스트
example_text = """Splitter에 대해서 공부하고 있습니다. 
CharacterTextSplitter는 Character를 기준으로 청크를 나누는 방법이며, 청크 사이즈와 청크 오버랩을 설정할 수 있습니다."""

# 텍스트를 청크로 분리
chunks = text_splitter.split_text(example_text)
chunks

['Splitter에 대해서 공부하고 있습니다. \nCharacterTextSplitter는 Character를 기준으로 청크를 나누는 방법이며, 청크 사이즈와 청크 오버랩을 설정할 수',
 '사이즈와 청크 오버랩을 설정할 수 있습니다.']

In [None]:
# RecursiveCharacterTextSplitter
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 100,
    chunk_overlap = 20
)

# 예제 텍스트
example_text = """Splitter에 대해서 공부하고 있습니다. 
CharacterTextSplitter는 Character를 기준으로 청크를 나누는 방법이며, 청크 사이즈와 청크 오버랩을 설정할 수 있습니다."""

# 텍스트를 청크로 분리
chunks = text_splitter.split_text(example_text)
chunks

['Splitter에 대해서 공부하고 있습니다.',
 'CharacterTextSplitter는 Character를 기준으로 청크를 나누는 방법이며, 청크 사이즈와 청크 오버랩을 설정할 수 있습니다.']

In [12]:
# llama index SecntenceSplitter
from llama_index.core.node_parser import SentenceSplitter

text_splitter = SentenceSplitter(
    chunk_size=100,
    chunk_overlap=20,
)

# 예제 텍스트
example_text = """Splitter에 대해서 공부하고 있습니다. 
CharacterTextSplitter는 Character를 기준으로 청크를 나누는 방법이며, 청크 사이즈와 청크 오버랩을 설정할 수 있습니다."""

# 텍스트를 청크로 분리
chunks = text_splitter.split_text(example_text)
chunks

['Splitter에 대해서 공부하고 있습니다. \nCharacterTextSplitter는 Character를 기준으로 청크를 나누는 방법이며, 청크 사이즈와 청크 오버랩을 설정할 수 있습니다.']

### 토큰 기반 Splitter
- TokenTextSplitter
- SentenceTransformersTokenTextSplitter

In [None]:
# TokenTextSplitter
from langchain_text_splitters import TokenTextSplitter

text_splitter = TokenTextSplitter(
    chunk_size=100,
    chunk_overlap=20
    )

# 예제 텍스트
example_text = """Splitter에 대해서 공부하고 있습니다. 
CharacterTextSplitter는 Character를 기준으로 청크를 나누는 방법이며, 청크 사이즈와 청크 오버랩을 설정할 수 있습니다.
SentenceSplitter는 문장과 단락을 유지하면서 청크를 나누는 splitter입니다."""

chunks = text_splitter.split_text(example_text)
chunks

['Splitter에 대해서 공부하고 있습니다. \nCharacterTextSplitter는 Character를 기준으로 청크를 나누는 방법이며, 청크 사',
 ' 방법이며, 청크 사이즈와 청크 오버랩을 설정할 수 있습니다.\nSentenceSplitter는 문장과 단락을 유지하',
 '�과 단락을 유지하면서 청크를 나누는 splitter입니다.']

In [None]:
# SentenceTransformersTokenTextSplitter
from langchain_text_splitters import SentenceTransformersTokenTextSplitter

text_splitter = SentenceTransformersTokenTextSplitter(
    chunk_overlap=20
)

# 예제 텍스트
example_text = """Splitter에 대해서 공부하고 있습니다. 
CharacterTextSplitter는 Character를 기준으로 청크를 나누는 방법이며, 청크 사이즈와 청크 오버랩을 설정할 수 있습니다.
SentenceSplitter는 문장과 단락을 유지하면서 청크를 나누는 splitter입니다."""
chunks = text_splitter.split_text(example_text)
chunks

  from tqdm.autonotebook import tqdm, trange


['splitter에 대해서 공부하고 [UNK]. charactertextsplitter는 character를 기준으로 청크를 나누는 방법이며, 청크 사이즈와 청크 오버랩을 설정할 수 [UNK]. sentencesplitter는 문장과 단락을 유지하면서 청크를 나누는 splitter입니다.']

### 한글을 지원하는 konlpy 사용하기
- 아래의 코드를 실행하기 전에 `pip install konlpy` 실행하기

In [None]:
# 
from langchain_text_splitters import KonlpyTextSplitter

text_splitter = KonlpyTextSplitter(
    chunk_size = 100,
    chunk_overlap=20
    )

# 예제 텍스트
example_text = """Splitter에 대해서 공부하고 있습니다. 
CharacterTextSplitter는 Character를 기준으로 청크를 나누는 방법이며, 청크 사이즈와 청크 오버랩을 설정할 수 있습니다.
SentenceSplitter는 문장과 단락을 유지하면서 청크를 나누는 splitter입니다."""
chunks = text_splitter.split_text(example_text)
chunks

['Splitter에 대해서 공부하고 있습니다.',
 'CharacterTextSplitter는 Character를 기준으로 청크를 나누는 방법이며, 청크 사이즈와 청크 오버랩을 설정할 수 있습니다.',
 'SentenceSplitter는 문장과 단락을 유지하면서 청크를 나누는 splitter 입니다.']

### Hugging Face에서 (한글 지원하는) tokenizer를 불러와서 Splitter로 사용하기

In [14]:
from langchain_text_splitters import SentenceTransformersTokenTextSplitter
from transformers import AutoTokenizer

# 한글 지원 토크나이저 설정
tokenizer = AutoTokenizer.from_pretrained("beomi/kcbert-base")

# 토큰 기준 Splitter 생성 - from_huggingface_tokenizer를 통해 tokenizer 넣어주기
text_splitter = SentenceTransformersTokenTextSplitter.from_huggingface_tokenizer(
    tokenizer=tokenizer,
    chunk_size=10,  # 청크 크기 (토큰 수)
    chunk_overlap=3  # 청크 간 겹침 (토큰 수)
)

example_text = """Splitter에 대해서 공부하고 있습니다. 
CharacterTextSplitter는 Character를 기준으로 청크를 나누는 방법이며, 청크 사이즈와 청크 오버랩을 설정할 수 있습니다.
SentenceSplitter는 문장과 단락을 유지하면서 청크를 나누는 splitter입니다."""

# 텍스트 분할
chunks = text_splitter.split_text(example_text)
print(chunks)


tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/619 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/250k [00:00<?, ?B/s]

['splitter에 대해서 공부하고 [UNK]. charactertextsplitter는 character를 기준으로 청크를 나누는 방법이며, 청크 사이즈와 청크 오버랩을 설정할 수 [UNK]. sentencesplitter는 문장과 단락을 유지하면서 청크를 나누는 splitter입니다.']


### 구조 기반 Splitter
- MarkdownHeaderTextSplitter 
- HTMLHeaderTextSplitter
- code split

In [18]:
# MarkdownHeaderTextSplitter
from langchain_text_splitters import MarkdownHeaderTextSplitter

headers_to_split_on = [
    ("#", "Header 1"),
    ("##", "Header 2"),
    ("###", "Header 3"),
]

text_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=headers_to_split_on)

# 마크다운 형식의 문서를 문자열로 정의
markdown_document = """
# Title
## 1. SubTitle
Hi this is Jim
Hi this is Joe
### 1-1. Sub-SubTitle
Hi this is Lance 
## 2. Baz
Hi this is Molly
"""

chunks = text_splitter.split_text(markdown_document)
chunks

[Document(metadata={'Header 1': 'Title', 'Header 2': '1. SubTitle'}, page_content='Hi this is Jim\nHi this is Joe'),
 Document(metadata={'Header 1': 'Title', 'Header 2': '1. SubTitle', 'Header 3': '1-1. Sub-SubTitle'}, page_content='Hi this is Lance'),
 Document(metadata={'Header 1': 'Title', 'Header 2': '2. Baz'}, page_content='Hi this is Molly')]

In [21]:
# HTMLTextSplitter
from langchain.text_splitter import HTMLHeaderTextSplitter


headers_to_split_on = [
    ("h1", "Header 1"),
    ("h2", "Header 2"),
    ("h3", "Header 3"),
]

# HTML 기반 Splitter
html_splitter = HTMLHeaderTextSplitter(headers_to_split_on=headers_to_split_on)

# 예제 HTML 텍스트
example_html = """
<h1>제목 1</h1>
<p>이것은 첫 번째 단락입니다.</p>
<h2>제목 2</h2>
<p>이것은 두 번째 단락입니다.</p>
<ul>
    <li>리스트 항목 1</li>
    <li>리스트 항목 2</li>
</ul>
"""

# 텍스트 분리
chunks = html_splitter.split_text(example_html)
print(chunks)

[Document(metadata={'Header 1': '제목 1'}, page_content='이것은 첫 번째 단락입니다.'), Document(metadata={'Header 1': '제목 1', 'Header 2': '제목 2'}, page_content='이것은 두 번째 단락입니다.  \n리스트 항목 1 리스트 항목 2')]


In [22]:
# HTMLTextSplitter를 url를 불러서 
url = "https://www.cnn.com/2023/09/25/weather/el-nino-winter-us-climate/index.html"

headers_to_split_on = [
    ("h1", "Header 1"),
    ("h2", "Header 2"),
]

html_splitter = HTMLHeaderTextSplitter(headers_to_split_on=headers_to_split_on)
html_header_splits = html_splitter.split_text_from_url(url)
print(html_header_splits[1].page_content[:500])

No two El Niño winters are the same, but many have temperature and precipitation trends in common.  
Average conditions during an El Niño winter across the continental US.  
One of the major reasons is the position of the jet stream, which often shifts south during an El Niño winter. This shift typically brings wetter and cooler weather to the South while the North becomes drier and warmer, according to NOAA.  
Because the jet stream is essentially a river of air that storms flow through, they c


### 의미 기반 Splitter
- SemanticChunker