### 1. Simple Node Parser (Text Splitter)


In [None]:
from llama_index.core import Document
from llama_index.core.node_parser import TokenTextSplitter, SentenceSplitter

In [None]:
text = """
LlamaIndex는 대규모 언어 모델(LLM)을 사용하여 개인 데이터를 처리하는 데이터 프레임워크입니다. 이 프레임워크는 데이터 수집부터 처리, 검색까지 전체 과정을 지원합니다.

주요 구성 요소는 다음과 같습니다:
Documents는 원시 데이터를 표현하는 기본 단위입니다. 텍스트 파일, PDF, 웹페이지 등 다양한 소스의 데이터를 포함할 수 있습니다.
Nodes는 Documents를 더 작은 단위로 분할한 것으로, LLM이 효과적으로 처리할 수 있는 크기입니다.

데이터 처리 과정은 다음과 같습니다:
먼저 데이터 로더를 사용하여 Documents를 생성합니다. 그 다음 Node Parser를 통해 Documents를 Nodes로 분할합니다.
마지막으로 인덱스를 구축하여 효율적인 검색이 가능하도록 합니다.

LlamaIndex는 다양한 인덱스 유형을 제공합니다. VectorStoreIndex는 임베딩 기반 검색을, SummaryIndex는 요약 기반 검색을 지원합니다.
또한 하이브리드 검색, 재순위화 등 고급 검색 기능도 제공하여 검색 품질을 향상시킬 수 있습니다.
"""

In [None]:
# 1. TokenTextSplitter (토큰 기반 분할)
token_splitter = TokenTextSplitter(
    chunk_size=100, chunk_overlap=20  # 노드 크기 (토큰 수)  # 노드 간 중복 토큰 수
)
token_nodes = token_splitter.split_text(text)

# 결과 출력
print("=== TokenTextSplitter 결과 ===")
for i, node in enumerate(token_nodes, 1):
    print(f"\nNode {i}:")
    print(node)

In [None]:
# 2. SentenceSplitter (문장 단위 분할)
sentence_splitter = SentenceSplitter(
    chunk_size=100, chunk_overlap=20  # 노드 크기  # 노드 간 중복 크기
)
sentence_nodes = sentence_splitter.split_text(text)

print("\n=== SentenceSplitter 결과 ===")
for i, node in enumerate(sentence_nodes, 1):
    print(f"\nNode {i}:")
    print(node)

### 2. Structured Node Parser


#### 1) JSONNodeParser

In [None]:
from llama_index.core.node_parser import JSONNodeParser
from llama_index.core import SimpleDirectoryReader

# SimpleDirectoryReader를 사용하여 JSON 파일 로드
json_docs = SimpleDirectoryReader(input_dir="../data", required_exts=[".json"]).load_data()

# JSON NodeParser 사용
parser = JSONNodeParser()
json_nodes = parser.get_nodes_from_documents(json_docs)

# 결과 출력
print("JSONNode 개수:",len(json_nodes))  # JSON의 항목 개수만큼 노드가 생성됨
print("첫번째 노드 텍스트:", json_nodes[0].text)  # 첫 번째 노드의 텍스트 출력
print("첫번째 노드 메타데이터:", json_nodes[0].metadata)  # JSON의 Key-Value 메타데이터 출력

#### 2) HTMLNodeParser

In [None]:
from llama_index.core.node_parser import HTMLNodeParser
from llama_index.core import SimpleDirectoryReader

# HTML 파일 로드 
html_docs = SimpleDirectoryReader(input_dir="../data", required_exts=[".html"]).load_data()

# HTML NodeParser 사용
parser = HTMLNodeParser()
html_nodes = parser.get_nodes_from_documents(html_docs)

# 결과 출력
print("HTMLNode 개수:",len(html_nodes))
print("첫번째 노드 텍스트:", html_nodes[0].text)
print("첫번째 노드 메타데이터:", html_nodes[0].metadata)


#### 3) MarkdownNodeParser


In [None]:
from llama_index.core.node_parser import MarkdownNodeParser
from llama_index.core import SimpleDirectoryReader

# Markdown 파일 로드
markdown_docs = SimpleDirectoryReader(input_dir="../data", required_exts=[".md"]).load_data()

# Markdown NodeParser 사용
parser = MarkdownNodeParser()
markdown_nodes = parser.get_nodes_from_documents(markdown_docs)

# 결과 출력
print("MarkdownNode 개수:", len(markdown_nodes))
print("첫번째 노드 텍스트:", markdown_nodes[0].text)
print("첫번째 노드 메타데이터:", markdown_nodes[0].metadata)