# ✂️ 텍스트 분할(Text Splitter)

### 📄 문서 분할
- 로드된 문서들을 효율적으로 처리하기 위한 시스템

- 목적 : 나중에 사용자가 입력한 질문에 대하여 효율적인 정보만 선별하여 가져오기 위함

### ☑️ 분할 필요성
1. 정확성 : 질문에 연광성있는 정보만 제공

2. 효율성 : 리소스를 최적화, 비용 문제, 할루네이션 방지

### ☑️ 분할 과정
1. 문서 구조 파악

2. 단위 선정

3. 단위 크기 선정

4. 청크 오버랩

`-> PDF, 웹페이지 등의 문서 구조를 파악하고 어떤 단위로 나눌 지 결정하고 몇개의 토큰으로 나눌 지 결정합니다.`

`-> 분할된 끝 부분에서 맥락이 이어질 수 있도록 오버랩합니다.`

### ☑️ Chunk 분할 시각화

- 링크 : https://chunkviz.up.railway.app/

----

----

## 📌 문자 텍스트 분할(CharacterTextSplitter)

### 💬 문자 기반 텍스트 분할이란?

긴 텍스트를 문자 수 기준으로 잘라서 `조각(chunk)`으로 만드는 작업

예를 들어, 한번에 LLM에 넣기에 긴 문 서가 있을 경우 잘게 쪼개어 처리한다.                                   -> LLM 토큰 제한, 성능 하락

---

### 텍스트 분할 패키지 설치

In [6]:
!pip install -qU langchain-text-splitters

### 문자 텍스트 분할기 사용하기

In [7]:
from langchain_text_splitters import CharacterTextSplitter

### 실습 예제

In [8]:
text = """LangChain은 다양한 LLM 응용을 쉽게 만들 수 있는 프레임워크입니다.
텍스트 분할은 긴 문서를 작은 조각으로 나누는 작업입니다.
LLM에서 효율적인 역할을 할 수 있습니다."""

In [9]:
splitter = CharacterTextSplitter(
    separator=".",
    chunk_size=50,
    chunk_overlap=10
)

In [10]:
chunks = splitter.split_text(text)

In [11]:
for i, chunk in enumerate(chunks):
    print(f"조각 {i+1}:\n{chunk}\n")

조각 1:
LangChain은 다양한 LLM 응용을 쉽게 만들 수 있는 프레임워크입니다

조각 2:
텍스트 분할은 긴 문서를 작은 조각으로 나누는 작업입니다

조각 3:
LLM에서 효율적인 역할을 할 수 있습니다



### 짚어보기
- `chunk_size` = 한 조각의 최대 문자 길이

- `chunk_overlap` = 조각 간 겹치는 부분을 자연스럽게 이어주기

### 더 깊숙하게 알아보기

In [None]:
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter(
    
    separator=" ",
    
    chunk_size=250,
    
    chunk_overlap=50,
    
    length_function=len,
    
    is_separator_regex=False,
)

`separator` = 분할 기준 설정이며 기본 값은 "\n\n" 입니다.

`chunk_size` = 청크 최대 크기 설정

`chunk_overlap` = 인접한 청크 간의 허용되는 중복 문자 수 지정

`length_function` = 텍스트의 길이를 계산하는 함수 지정

`is_separator_regex` = 구분자를 정규식인지 아닌지 결정

---

---

## 📌 재귀적 문자 텍스트 분할(RecursiveCharacterTextSplitter)

### ⏎ 재귀적 문자 텍스트 분할이란?

- 어떤 규칙으로 자르다가 안되면 다음 규칙으로 다시 시도한다.

---

### 재귀적 방법 사용하기

In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

### 기본 문자 목록

In [None]:
separators = ["\n\n", "\n", " ", ""]

- 청크가 충분히 작아질 때까지 주어진 문자 목록의 [ 단락 -> 문장 -> 단어 ] 순서대로 분할합니다.

- 커스텀하게 사용할 수 있습니다.

### 실습 예제

- 재귀적 문자 텍스트 분할 디폴트값 이용하기

In [39]:
# 재귀적 문자 텍스트 분할기 기본값 사용
from langchain_text_splitters import RecursiveCharacterTextSplitter

text = """LangChain은 다양한 LLM 응용을 쉽게 만들 수 있는 프레임워크입니다.
텍스트 분할은 긴 문서를 작은 조각으로 나누는 작업입니다.
LLM에서 효율적인 역할을 할 수 있습니다."""

splitter = RecursiveCharacterTextSplitter(
    chunk_size=50,
    chunk_overlap=10
)

chunks = splitter.split_text(text)

for i, chunk in enumerate(chunks):
    print(f"조각 {i+1}:\n{chunk}\n")

조각 1:
LangChain은 다양한 LLM 응용을 쉽게 만들 수 있는 프레임워크입니다.

조각 2:
텍스트 분할은 긴 문서를 작은 조각으로 나누는 작업입니다.

조각 3:
LLM에서 효율적인 역할을 할 수 있습니다.



- 커스터 마이징해서 사용하기

In [None]:
# 커스터 마이징
from langchain_text_splitters import RecursiveCharacterTextSplitter

text = """LangChain은 다양한 LLM 응용을 쉽게 만들 수 있는 프레임워크입니다!
텍스트 분할은 긴 문서를 작은 조각으로 나누는 작업입니다?
LLM에서 효율적인 역할을 할 수 있습니다."""

splitter = RecursiveCharacterTextSplitter(
    separators = ["?", "!", " ", ""],
    chunk_size=30,
    chunk_overlap=10
)

chunks = splitter.split_text(text)

for i, chunk in enumerate(chunks):
    print(f"조각 {i+1}:\n{chunk}\n")

조각 1:
LangChain은 다양한 LLM 응용을 쉽게 만들 수

조각 2:
쉽게 만들 수 있는 프레임워크입니다

조각 3:
!
텍스트 분할은 긴 문서를 작은 조각으로 나누는

조각 4:
조각으로 나누는 작업입니다

조각 5:
?
LLM에서 효율적인 역할을 할 수 있습니다.



---

---

## 📌 토큰 텍스트 분할(TokenTextSplitter)

### 🪙 토큰 기반 텍스트 분할이란?

- 텍스트를 문자 수가 아니라 토큰 개수 기준으로 분할하는 방식

- 언어 모델에 존재하는 토큰 제한에 유용하다.

---

### TokenTextSpliter

In [44]:
from langchain_text_splitters import TokenTextSplitter

text = """LangChain은 다양한 LLM 응용을 쉽게 만들 수 있는 프레임워크입니다.
텍스트 분할은 긴 문서를 작은 조각으로 나누는 작업입니다.
LLM에서 효율적인 역할을 할 수 있습니다."""

splitter = TokenTextSplitter(
    chunk_size=50,
    chunk_overlap=10
)

chunks = splitter.split_text(text)

for i, chunk in enumerate(chunks):
    print(f"조각 {i+1}:\n{chunk}\n")

조각 1:
LangChain은 다양한 LLM 응용을 쉽게 만들 수 있는 프�

조각 2:
�는 프레임워크입니다.
텍스트 분할은 긴 �

조각 3:
�할은 긴 문서를 작은 조각으로 나누는 작업

조각 4:
�는 작업입니다.
LLM에서 효율적인 역할을 할 �

조각 5:
��할을 할 수 있습니다.



### ☑️ 토큰이란?

- 토큰은 LLM이 실제로 이해하고 처리하는 단어 단위보다 작은 텍스트 조각

- 이전 문자 텍스트 분할은 chunk 사이즈가 문자 수 기준이므로 50자 이내를 안넘어서 줄바뀜마다 조각낼 수 있었으며, 토큰은 그보다 작은 단위로써 더 많이 조각나게 된다.

- 인코딩 깨짐 현상은 토큰 단위로 자르기 때문에 토크나이저가 한글을 토큰 단위로 정확히 끊지 못하는 현상이다.

### tiktoken

- tiktoken은 OpenAI에서 만든 빠른 BPE Tokenizer 입니다.

- TokenTextSplitter에 내장되어 있습니다.

In [12]:
%pip install --upgrade --quiet langchain-text-splitters tiktoken

Note: you may need to restart the kernel to use updated packages.


### spaCy

- 자연어 처리를 위한 라이브러리

- Python, Cyhon으로 작성된 라이브러리

- chunk_size는 문자 수로 측정된다.

In [13]:
%pip install --upgrade --quiet spacy

[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
llama-index-core 0.11.23 requires numpy<2.0.0, but you have numpy 2.2.4 which is incompatible.
langchain-chroma 0.2.2 requires numpy<2.0.0,>=1.22.4; python_version < "3.12", but you have numpy 2.2.4 which is incompatible.
langchain-azure-ai 0.1.2 requires numpy<2.0,>=1.24, but you have numpy 2.2.4 which is incompatible.
unstructured 0.17.0 requires numpy<2, but you have numpy 2.2.4 which is incompatible.
pinecone-text 0.10.0 requires numpy<2.0,>=1.21.5; python_version < "3.12", but you have numpy 2.2.4 which is incompatible.[0m[31m
[0mNote: you may need to restart the kernel to use updated packages.


In [14]:
!python -m spacy download en_core_web_sm --quiet

[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')


- 자연어

In [15]:
from langchain_text_splitters import SpacyTextSplitter

text = """LangChain은 다양한 LLM 응용을 쉽게 만들 수 있는 프레임워크입니다.
텍스트 분할은 긴 문서를 작은 조각으로 나누는 작업입니다.
LLM에서 효율적인 역할을 할 수 있습니다."""

splitter = SpacyTextSplitter(
    chunk_size=50,
    chunk_overlap=10,
)

text = splitter.split_text(text)

print(text[0])

LangChain은 다양한 LLM 응용을 쉽게 만들 수 있는 프레임워크입니다.




- 비자연어

In [16]:
from langchain_text_splitters import SpacyTextSplitter

text = """/home/user/project/main.py
<div class='item'>Hello</div>"""

splitter = SpacyTextSplitter(
    chunk_size=10,
    chunk_overlap=0,
)

text = splitter.split_text(text)

print(text[0])

/home/user/project/main.py
<div class='item'>Hello</div>


### SentenceTransformers

- 문장, 문단, 문서 등을 숫자 벡터로 변환해주는 라이브러리

In [112]:
from langchain_text_splitters import SentenceTransformersTokenTextSplitter

text = """LangChain은 다양한 LLM 응용을 쉽게 만들 수 있는 프레임워크입니다.
텍스트 분할은 긴 문서를 작은 조각으로 나누는 작업입니다.
LLM에서 효율적인 역할을 할 수 있습니다."""

splitter = SentenceTransformersTokenTextSplitter(
    chunk_size=50, 
    chunk_overlap=0
)

count_start_and_stop_tokens = 2

# 텍스트의 토큰 개수에서 시작과 종료 토큰의 개수를 뺍니다.
text_token_count = splitter.count_tokens(
    text=text) - count_start_and_stop_tokens
print(text_token_count)  # 계산된 텍스트 토큰 개수를 출력합니다.

modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.4k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/571 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/438M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/363 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

143


### ☑️ BERT 계열 토크나이저

- [CLS] : 문장의 시작을 나타내는 스페셜 토큰
- [SEP] : 문장 끝을 나타내는 스페셜 토큰

총 토큰 수 = 본문 토큰 수 + 2 가 되므로 처음과 끝의 토큰 수를 빼고 계산해서 본문 토큰 개수를 출력하는 것

### NLTK

- Natural Language Toolkit

- 자연어 처리를 위한 라이브러리와 프로그램 모음

- \n\n 방식이 아닌 NLTK 방식으로 분할할 때 사용합니다.

- 전처리, 토큰화, 형태소 분석, 품사 태깅 등 수행 가능합니다.

### KoNLPy

- 한국어 텍스트 전처리

- 감정 분석

- 문장 단위 처리

- 품사 태깅

### Hugging Face tokenizer

- Huggin Face 토크나이저에 의해 계산된 토큰 수를 기준으로 분할

- 아래의 방법으로 사용할 수 있습니다.

In [None]:
from transformers import GPT2TokenizerFast

# GPT-2 모델의 토크나이저를 불러옵니다.
hf_tokenizer = GPT2TokenizerFast.from_pretrained("gpt2")

---

----

## 📌 시멘틱 청커(SemanticChunker)

### 💡 시멘틱 청커란 ?

- 의미 기반으로 텍스트를 분할하는 것이다.

- 따라서 뚝뚝 끊김 없이 자연스러운 흐름을 유지할 수 있다.

- 임베딩 모델에 주로 쓰인다.

In [None]:
%pip install -qU langchain_experimental langchain_openai

In [3]:
# API 키를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv

# API 키 정보 로드
load_dotenv()

True

In [4]:
%pip uninstall langchain langchain-openai -y
%pip install --upgrade --no-cache-dir langchain langchain-openai

Found existing installation: langchain 0.3.23
Uninstalling langchain-0.3.23:
  Successfully uninstalled langchain-0.3.23
Found existing installation: langchain-openai 0.3.13
Uninstalling langchain-openai-0.3.13:
  Successfully uninstalled langchain-openai-0.3.13
Note: you may need to restart the kernel to use updated packages.
Collecting langchain
  Downloading langchain-0.3.23-py3-none-any.whl.metadata (7.8 kB)
Collecting langchain-openai
  Downloading langchain_openai-0.3.13-py3-none-any.whl.metadata (2.3 kB)
Downloading langchain-0.3.23-py3-none-any.whl (1.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.0/1.0 MB[0m [31m26.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading langchain_openai-0.3.13-py3-none-any.whl (61 kB)
Installing collected packages: langchain-openai, langchain
Successfully installed langchain-0.3.23 langchain-openai-0.3.13
Note: you may need to restart the kernel to use updated packages.


In [5]:
from langchain_experimental.text_splitter import SemanticChunker
from langchain_openai.embeddings import OpenAIEmbeddings


text_splitter = SemanticChunker(OpenAIEmbeddings())


---

---

## 📌 코드 분할

### 🧑‍💻 Split Code

- 다양한 프로그래밍 언어를 분할할 수 있다.

---

### 프로그래밍 언어별 분할 기준값을 확인하는 방법

In [18]:
from langchain_text_splitters import (Language, RecursiveCharacterTextSplitter)

In [19]:
[e.value for e in Language]

['cpp',
 'go',
 'java',
 'kotlin',
 'js',
 'ts',
 'php',
 'proto',
 'python',
 'rst',
 'ruby',
 'rust',
 'scala',
 'swift',
 'markdown',
 'latex',
 'html',
 'sol',
 'csharp',
 'cobol',
 'c',
 'lua',
 'perl',
 'haskell',
 'elixir',
 'powershell']

In [20]:
RecursiveCharacterTextSplitter.get_separators_for_language(Language.PYTHON)

['\nclass ', '\ndef ', '\n\tdef ', '\n\n', '\n', ' ', '']

### Python

In [None]:
PYTHON_CODE = """
def hello_world():
    print("Hello, World!")

hello_world()
"""

splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.PYTHON, 
    chunk_size=50, 
    chunk_overlap=0
)

[Document(metadata={}, page_content='def hello_world():\n    print("Hello, World!")'),
 Document(metadata={}, page_content='hello_world()')]

- Document 생성하여 확인

In [27]:
result = splitter.create_documents([PYTHON_CODE])
result

[Document(metadata={}, page_content='def hello_world():\n    print("Hello, World!")'),
 Document(metadata={}, page_content='hello_world()')]

- 필요한 분할 부분에서 구분자 표시하여 출력

In [28]:
for doc in result:
    print(doc.page_content, end="\n==================\n")

def hello_world():
    print("Hello, World!")
hello_world()


### JS

In [42]:
JS_CODE = """
function helloWorld() {
  console.log("Hello, World!");
}

helloWorld();
"""

splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.JS, 
    chunk_size=65, 
    chunk_overlap=0
)

In [44]:
result = splitter.create_documents([JS_CODE])
result

[Document(metadata={}, page_content='function helloWorld() {\n  console.log("Hello, World!");\n}'),
 Document(metadata={}, page_content='helloWorld();')]

In [45]:
for doc in result:
    print(doc.page_content, end="\n==================\n")

function helloWorld() {
  console.log("Hello, World!");
}
helloWorld();


---

---

## 📌 마크다운 헤더 텍스트 분할(MarkdownHeaderTextSplitter)

### Ⓜ️ 마크다운 헤더란?

- 텍스트 기반의 간단한 문서 작성 언어이다.

- 헤더는 문서의 제목이나 섹션을 구분한다.

- 헤더는 # 기호로 표현된다.

---

### Markdown 문서의 헤더

In [53]:
from langchain_text_splitters import MarkdownHeaderTextSplitter

# 마크다운 형식의 문서를 문자열로 정의합니다.
markdown = "# 제목\n\n## 1. 소제목\n\n나는 문기다.\n\n그는 용이다.\n\n### 1-1. 부제목 \n\n그는 현이다. \n\n## 2. 제목\n\n그는 바보다."
print(markdown)

# 제목

## 1. 소제목

나는 문기다.

그는 용이다.

### 1-1. 부제목 

그는 현이다. 

## 2. 제목

그는 바보다.


In [57]:
headers_split = [
    (
        "#",
        "Header 1",
    ), 
    (
        "##",
        "Header 2",
    ), 
    (
        "###",
        "Header 3",
    ), 
]

splitter = MarkdownHeaderTextSplitter(headers_to_split_on=headers_split)

result = splitter.split_text(markdown)

for header in result:
    print(f"{header.page_content}")
    print(f"{header.metadata}", end="\n=====================\n")

나는 문기다.  
그는 용이다.
{'Header 1': '제목', 'Header 2': '1. 소제목'}
그는 현이다.
{'Header 1': '제목', 'Header 2': '1. 소제목', 'Header 3': '1-1. 부제목'}
그는 바보다.
{'Header 1': '제목', 'Header 2': '2. 제목'}


---

---

## 📌 HTML 헤더 텍스트 분할(HTMLHeaderTextSplitter)

### 💾 HTML 헤더란?

- 헤더 태그 : `<h1>, <h2>, <h3>, <h4>`

- 제목 수준을 나타내는 태그값이다.

### HTMLHeaderTextSplitter

In [58]:
from langchain_text_splitters import HTMLHeaderTextSplitter

html_string = """
<!DOCTYPE html>
<html>
<body>
    <div>
        <h1>Foo</h1>
        <p>Some intro text about Foo.</p>
        <div>
            <h2>Bar main section</h2>
            <p>Some intro text about Bar.</p>
            <h3>Bar subsection 1</h3>
            <p>Some text about the first subtopic of Bar.</p>
            <h3>Bar subsection 2</h3>
            <p>Some text about the second subtopic of Bar.</p>
        </div>
        <div>
            <h2>Baz</h2>
            <p>Some text about Baz</p>
        </div>
        <br>
        <p>Some concluding text about Foo</p>
    </div>
</body>
</html>
"""

headers_split = [
    ("h1", "Header 1"),  # 분할할 헤더 태그와 해당 헤더의 이름을 지정합니다.
    ("h2", "Header 2"),
    ("h3", "Header 3"),
]

splitter = HTMLHeaderTextSplitter(headers_to_split_on=headers_split)

result = splitter.split_text(html_string)

for header in result:
    print(f"{header.page_content}")
    print(f"{header.metadata}", end="\n=====================\n")


Foo
{'Header 1': 'Foo'}
Some intro text about Foo.
{'Header 1': 'Foo'}
Bar main section
{'Header 1': 'Foo', 'Header 2': 'Bar main section'}
Some intro text about Bar.
{'Header 1': 'Foo', 'Header 2': 'Bar main section'}
Bar subsection 1
{'Header 1': 'Foo', 'Header 2': 'Bar main section', 'Header 3': 'Bar subsection 1'}
Some text about the first subtopic of Bar.
{'Header 1': 'Foo', 'Header 2': 'Bar main section', 'Header 3': 'Bar subsection 1'}
Bar subsection 2
{'Header 1': 'Foo', 'Header 2': 'Bar main section', 'Header 3': 'Bar subsection 2'}
Some text about the second subtopic of Bar.
{'Header 1': 'Foo', 'Header 2': 'Bar main section', 'Header 3': 'Bar subsection 2'}
Baz
{'Header 1': 'Foo', 'Header 2': 'Baz'}
Some text about Baz  
Some concluding text about Foo
{'Header 1': 'Foo'}


### URL에서 HTML 로드 및 분할

In [63]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

url = "https://plato.stanford.edu/entries/goedel/"

headers_split = [
    ("h1", "Header 1"),
    ("h2", "Header 2"),
    ("h3", "Header 3"),
    ("h4", "Header 4"),
]

splitter = HTMLHeaderTextSplitter(headers_to_split_on=headers_split)

html_header_splits = splitter.split_text_from_url(url)

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=30
)

splits = text_splitter.split_documents(html_header_splits)

# 분할된 텍스트 중 80번째부터 85번째까지의 청크를 출력합니다.
for header in splits[80:85]:
    print(f"{header.page_content}")
    print(f"{header.metadata}", end="\n=====================\n")


By Theorem 2 there is a sentence φ with the property  
y  
x  
x  
y  
[ ]  
12  
⊢ (φ ↔
¬Prov( )).  
P  
⌈  
φ  
⌉  
Thus φ says ‘I am not provable.’ We now observe, if ⊢ φ, then by (1) there is such that ⊢ Prf( , ), hence ⊢ Prov( ), hence,
by (3) ⊢ ¬φ, so is inconsistent.
Thus  
P  
n  
P  
n  
⌈  
φ  
⌉  
P  
⌈  
φ  
⌉  
P  
P  
⊬ φ  
P  
Furthermore, by (4) and (2), we have ⊢
¬Prf( , ) for all natural
numbers . By ω-consistency ⊬
∃ Prf( , ). Thus (3) gives ⊬ ¬φ. We have shown that if is
{'Header 1': 'Kurt Gödel'}
ω-consistent, then φ is independent of .  
P  
n  
⌈  
φ  
⌉  
n  
P  
x  
x  
⌈  
φ  
⌉  
P  
P  
P  
On concluding the proof of the first theorem, Gödel remarks,
“we can readily see that the proof just given is constructive;
that is … proved in an intuitionistically unobjectionable
manner…” (Gödel 1986, p. 177). This is because, as
he points out, all the existential statements are based on his theorem
V (giving the numeralwise expressibility of primitive recursive
{'Head

- 특정 헤더를 누락시키며, 구조적 차이에 대한 한계가 존재한다.

---

---

## 📌 재귀적 JSON 분할(RecursiveJsonSplitter)

In [None]:
import requests

# JSON 데이터를 로드합니다.
json_data = requests.get("https://api.smith.langchain.com/openapi.json").json()

In [65]:
from langchain_text_splitters import RecursiveJsonSplitter

splitter = RecursiveJsonSplitter(max_chunk_size=300)

In [66]:
json_chunks = splitter.split_json(json_data=json_data)

In [72]:
# JSON 데이터를 문서 생성
docs = splitter.create_documents(texts=[json_data])

# JSON 데이터를 문자열 청크 생성
texts = splitter.split_text(json_data=json_data)

# 첫 번째 문자열을 출력
print(docs[0].page_content)

print("===" * 77)

# 분할된 문자열 청크를 출력
print(texts[0])

{"openapi": "3.1.0", "info": {"title": "LangSmith", "version": "0.1.0"}, "paths": {"/api/v1/sessions/{session_id}": {"get": {"tags": ["tracer-sessions"], "summary": "Read Tracer Session", "description": "Get a specific session."}}}}
{"openapi": "3.1.0", "info": {"title": "LangSmith", "version": "0.1.0"}, "paths": {"/api/v1/sessions/{session_id}": {"get": {"tags": ["tracer-sessions"], "summary": "Read Tracer Session", "description": "Get a specific session."}}}}
