# SemanticChunker

텍스트를 의미론적 유사성에 기반하여 분할합니다.

**Reference**

- [Greg Kamradt의 노트북](https://github.com/FullStackRetrieval-com/RetrievalTutorials/blob/main/tutorials/LevelsOfTextSplitting/5_Levels_Of_Text_Splitting.ipynb)

이 방법은 텍스트를 문장 단위로 분할한 후, 3개의 문장씩 그룹화하고, 임베딩 공간에서 유사한 문장들을 병합하는 과정을 거칩니다.


샘플 텍스트를 로드하고 내용을 출력합니다.


In [4]:
# data/appendix-keywords.txt 파일을 열어서 f라는 파일 객체를 생성합니다.
with open("./data/appendix-keywords.txt", encoding="utf-8") as f:
    file = f.read()  # 파일의 내용을 읽어서 file 변수에 저장합니다.

# 파일으로부터 읽은 내용을 일부 출력합니다.
print(file[:350])

Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.
예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다.
연관키워드: 자연어 처


## SemanticChunker 생성

`SemanticChunker`는 LangChain의 실험적 기능 중 하나로, 텍스트를 의미론적으로 유사한 청크로 분할하는 역할을 합니다.

이를 통해 텍스트 데이터를 보다 효과적으로 처리하고 분석할 수 있습니다.


In [1]:
# API 키를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv

# API 키 정보 로드
load_dotenv()

True

`SemanticChunker`를 사용하여 텍스트를 의미적으로 관련된 청크로 분할합니다.


In [2]:
from langchain_experimental.text_splitter import SemanticChunker
from langchain_openai.embeddings import OpenAIEmbeddings

# OpenAI 임베딩을 사용하여 의미론적 청크 분할기를 초기화합니다.
text_splitter = SemanticChunker(OpenAIEmbeddings())

## 텍스트 분할


- `text_splitter`를 사용하여 `file` 텍스트를 문서 단위로 분할합니다.


In [5]:
chunks = text_splitter.split_text(file)

분할된 청크를 확인합니다.


In [5]:
# 분할된 청크 중 첫 번째 청크를 출력합니다.
print(chunks[0])

Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다. 예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다. 연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다. 예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다. 연관키워드: 자연어 처리, 벡터화, 딥러닝

Token

정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다. 예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다. 연관키워드: 토큰화, 자연어 처리, 구문 분석

Tokenizer

정의: 토크나이저는 텍스트 데이터를 토큰으로 분할하는 도구입니다. 이는 자연어 처리에서 데이터를 전처리하는 데 사용됩니다. 예시: "I love programming."이라는 문장을 ["I", "love", "programming", "."]으로 분할합니다. 연관키워드: 토큰화, 자연어 처리, 구문 분석

VectorStore

정의: 벡터스토어는 벡터 형식으로 변환된 데이터를 저장하는 시스템입니다. 이는 검색, 분류 및 기타 데이터 분석 작업에 사용됩니다.


`create_documents()` 함수를 사용하여 청크를 문서로 변환할 수 있습니다.


In [6]:
# text_splitter를 사용하여 분할합니다.
docs = text_splitter.create_documents([file])
print(docs[0].page_content)  # 분할된 문서 중 첫 번째 문서의 내용을 출력합니다.

Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다. 예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다. 연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다. 예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다. 연관키워드: 자연어 처리, 벡터화, 딥러닝

Token

정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다. 예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다. 연관키워드: 토큰화, 자연어 처리, 구문 분석

Tokenizer

정의: 토크나이저는 텍스트 데이터를 토큰으로 분할하는 도구입니다. 이는 자연어 처리에서 데이터를 전처리하는 데 사용됩니다. 예시: "I love programming."이라는 문장을 ["I", "love", "programming", "."]으로 분할합니다. 연관키워드: 토큰화, 자연어 처리, 구문 분석

VectorStore

정의: 벡터스토어는 벡터 형식으로 변환된 데이터를 저장하는 시스템입니다. 이는 검색, 분류 및 기타 데이터 분석 작업에 사용됩니다.


## Breakpoints

이 chunker는 문장을 "분리"할 시점을 결정하여 작동합니다. 이는 두 문장 간의 임베딩 차이를 살펴봄으로써 이루어집니다.

그 차이가 특정 임계값을 넘으면 문장이 분리됩니다.

- 참고 영상: https://youtu.be/8OJC21T2SL4?si=PzUtNGYJ_KULq3-w&t=2580

### Percentile

기본적인 분리 방식은 백분위수(`Percentile`) 를 기반으로 합니다.

이 방법에서는 문장 간의 모든 차이를 계산한 다음, 지정한 백분위수를 기준으로 분리합니다.


In [20]:
text_splitter = SemanticChunker(
    # OpenAI의 임베딩 모델을 사용하여 시맨틱 청커를 초기화합니다.
    OpenAIEmbeddings(),
    # 분할 기준점 유형을 백분위수로 설정합니다.
    breakpoint_threshold_type="percentile",
    breakpoint_threshold_amount=70,
)

분할된 결과를 확인합니다.


In [21]:
docs = text_splitter.create_documents([file])
for i, doc in enumerate(docs[:5]):
    print(f"[Chunk {i}]", end="\n\n")
    print(doc.page_content)  # 분할된 문서 중 첫 번째 문서의 내용을 출력합니다.
    print("===" * 20)

[Chunk 0]

Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다. 예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다. 연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.
[Chunk 1]

예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다. 연관키워드: 자연어 처리, 벡터화, 딥러닝

Token

정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다.
[Chunk 2]

예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다. 연관키워드: 토큰화, 자연어 처리, 구문 분석

Tokenizer

정의: 토크나이저는 텍스트 데이터를 토큰으로 분할하는 도구입니다. 이는 자연어 처리에서 데이터를 전처리하는 데 사용됩니다.
[Chunk 3]

예시: "I love programming."이라는 문장을 ["I", "love", "programming", "."]으로 분할합니다. 연관키워드: 토큰화, 자연어 처리, 구문 분석

VectorStore

정의: 벡터스토어는 벡터 형식으로 변환된 데이터를 저장하는 시스템입니다. 이는 검색, 분류 및 기타 데이터 분석 작업에 사용됩니다.
[Chunk 4]

예시: 단어 임베딩 벡터들을 데이터베이스에 저장하여 빠르게 접근할 수 있습니다. 연관키워드: 임베딩, 데이터베이스, 벡터화

SQL

정의: SQL(Structured Query Language)은 데이터베이스에서 데이터를 관리하기 위한 프로그래밍 언어입니다. 데이터 조회, 수정, 삽입, 삭

`docs`의 길이를 출력합니다.


In [9]:
print(len(docs))  # docs의 길이를 출력합니다.

27


### Standard Deviation

이 방법에서는 지정한 `breakpoint_threshold_amount` 표준편차보다 큰 차이가 있는 경우 분할됩니다.

- `breakpoint_threshold_type` 매개변수를 "standard_deviation"으로 설정하여 청크 분할 기준을 표준편차 기반으로 지정합니다.


In [31]:
text_splitter = SemanticChunker(
    # OpenAI의 임베딩 모델을 사용하여 시맨틱 청커를 초기화합니다.
    OpenAIEmbeddings(),
    # 분할 기준으로 표준 편차를 사용합니다.
    breakpoint_threshold_type="standard_deviation",
    breakpoint_threshold_amount=1.25,
)

분할된 결과를 확인합니다.


In [29]:
# text_splitter를 사용하여 분할합니다.
docs = text_splitter.create_documents([file])

In [30]:
docs = text_splitter.create_documents([file])
for i, doc in enumerate(docs[:5]):
    print(f"[Chunk {i}]", end="\n\n")
    print(doc.page_content)  # 분할된 문서 중 첫 번째 문서의 내용을 출력합니다.
    print("===" * 20)

[Chunk 0]

Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다. 예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다. 연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.
[Chunk 1]

예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다. 연관키워드: 자연어 처리, 벡터화, 딥러닝

Token

정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다. 예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다. 연관키워드: 토큰화, 자연어 처리, 구문 분석

Tokenizer

정의: 토크나이저는 텍스트 데이터를 토큰으로 분할하는 도구입니다. 이는 자연어 처리에서 데이터를 전처리하는 데 사용됩니다.
[Chunk 2]

예시: "I love programming."이라는 문장을 ["I", "love", "programming", "."]으로 분할합니다. 연관키워드: 토큰화, 자연어 처리, 구문 분석

VectorStore

정의: 벡터스토어는 벡터 형식으로 변환된 데이터를 저장하는 시스템입니다. 이는 검색, 분류 및 기타 데이터 분석 작업에 사용됩니다.
[Chunk 3]

예시: 단어 임베딩 벡터들을 데이터베이스에 저장하여 빠르게 접근할 수 있습니다. 연관키워드: 임베딩, 데이터베이스, 벡터화

SQL

정의: SQL(Structured Query Language)은 데이터베이스에서 데이터를 관리하기 위한 프로그래밍 언어입니다. 데이터 조회, 수정, 삽입, 삭제 등 다양한 작업을

`docs`의 길이를 출력합니다.


In [13]:
print(len(docs))  # docs의 길이를 출력합니다.

14


### Interquartile

이 방법에서는 사분위수 범위(interquartile range)를 사용하여 청크를 분할합니다.


- `breakpoint_threshold_type` 매개변수를 "interquartile"로 설정하여 청크 분할 기준을 사분위수 범위로 지정합니다.


In [32]:
text_splitter = SemanticChunker(
    # OpenAI의 임베딩 모델을 사용하여 의미론적 청크 분할기를 초기화합니다.
    OpenAIEmbeddings(),
    # 분할 기준점 임계값 유형을 사분위수 범위로 설정합니다.
    breakpoint_threshold_type="interquartile",
    breakpoint_threshold_amount=0.5,
)

In [33]:
# text_splitter를 사용하여 분할합니다.
docs = text_splitter.create_documents([file])

# 결과를 출력합니다.
for i, doc in enumerate(docs[:5]):
    print(f"[Chunk {i}]", end="\n\n")
    print(doc.page_content)  # 분할된 문서 중 첫 번째 문서의 내용을 출력합니다.
    print("===" * 20)

[Chunk 0]

Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다. 예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다. 연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.
[Chunk 1]

예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다. 연관키워드: 자연어 처리, 벡터화, 딥러닝

Token

정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다. 예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다. 연관키워드: 토큰화, 자연어 처리, 구문 분석

Tokenizer

정의: 토크나이저는 텍스트 데이터를 토큰으로 분할하는 도구입니다. 이는 자연어 처리에서 데이터를 전처리하는 데 사용됩니다.
[Chunk 2]

예시: "I love programming."이라는 문장을 ["I", "love", "programming", "."]으로 분할합니다. 연관키워드: 토큰화, 자연어 처리, 구문 분석

VectorStore

정의: 벡터스토어는 벡터 형식으로 변환된 데이터를 저장하는 시스템입니다. 이는 검색, 분류 및 기타 데이터 분석 작업에 사용됩니다.
[Chunk 3]

예시: 단어 임베딩 벡터들을 데이터베이스에 저장하여 빠르게 접근할 수 있습니다. 연관키워드: 임베딩, 데이터베이스, 벡터화

SQL

정의: SQL(Structured Query Language)은 데이터베이스에서 데이터를 관리하기 위한 프로그래밍 언어입니다. 데이터 조회, 수정, 삽입, 삭제 등 다양한 작업을

`docs`의 길이를 출력합니다.


In [16]:
print(len(docs))  # docs의 길이를 출력합니다.

23


### 추가

In [90]:
with open("./data/sementic_example.txt", encoding="utf-8") as f:
    file = f.read()  # 파일의 내용을 읽어서 file 변수에 저장합니다.

# 파일으로부터 읽은 내용을 일부 출력합니|다.
print(file[:350])

한국의 한산한 어촌에서 세계로 뻗어나간 IT 전문가, 박민호의 여정

박민호는 한국의 동해안에 위치한 작은 어촌마을에서 태어났다. 그 마을은 바다와 맞닿아 있어 매일 아침 갈매기 소리와 함께 하루가 시작되는 곳이었다. 어릴 적 박민호는 종종 아버지의 낡은 어선을 바라보며 꿈을 키웠다. 그 꿈은 바다를 넘어 더 넓은 세상으로 나아가는 것이었다.
그는 어릴 때부터 탁월한 학습 능력을 보여주었다. 초등학교 시절부터 수학과 과학 분야에서 두각을 나타냈고, 중학교에 입학했을 때는 이미 고등학교 수준의 문제를 풀 수 있었다. 그의 재능은 곧 주변 사람들의 이목을 끌었고, 마을 사람들은 그를 가리켜 "우리 마을의 자랑"이라고 불렀다


In [89]:
text_splitter = SemanticChunker(
    # OpenAI의 임베딩 모델을 사용하여 시맨틱 청커를 초기화합니다.
    OpenAIEmbeddings(),
    # 분할 기준점 유형을 백분위수로 설정합니다.
    breakpoint_threshold_type="percentile",
    breakpoint_threshold_amount=95,
)

In [None]:
text_splitter = SemanticChunker(
    # OpenAI의 임베딩 모델을 사용하여 시맨틱 청커를 초기화합니다.
    OpenAIEmbeddings(),
    # 분할 기준점 유형을 백분위수로 설정합니다.
    breakpoint_threshold_type="standard_deviation",
    breakpoint_threshold_amount=1.25,
)

In [85]:
text_splitter = SemanticChunker(
    # OpenAI의 임베딩 모델을 사용하여 의미론적 청크 분할기를 초기화합니다.
    OpenAIEmbeddings(),
    # 분할 기준점 임계값 유형을 사분위수 범위로 설정합니다.
    breakpoint_threshold_type="interquartile",
    breakpoint_threshold_amount=0.20,
)

In [91]:
docs = text_splitter.create_documents([file])
for i, doc in enumerate(docs[:5]):
    print(f"[Chunk {i}]", end="\n\n")
    print(doc.page_content)  # 분할된 문서 중 첫 번째 문서의 내용을 출력합니다.
    print("===" * 20)

[Chunk 0]

한국의 한산한 어촌에서 세계로 뻗어나간 IT 전문가, 박민호의 여정

박민호는 한국의 동해안에 위치한 작은 어촌마을에서 태어났다. 그 마을은 바다와 맞닿아 있어 매일 아침 갈매기 소리와 함께 하루가 시작되는 곳이었다. 어릴 적 박민호는 종종 아버지의 낡은 어선을 바라보며 꿈을 키웠다. 그 꿈은 바다를 넘어 더 넓은 세상으로 나아가는 것이었다. 그는 어릴 때부터 탁월한 학습 능력을 보여주었다. 초등학교 시절부터 수학과 과학 분야에서 두각을 나타냈고, 중학교에 입학했을 때는 이미 고등학교 수준의 문제를 풀 수 있었다. 그의 재능은 곧 주변 사람들의 이목을 끌었고, 마을 사람들은 그를 가리켜 "우리 마을의 자랑"이라고 불렀다. 고등학교를 졸업하기 직전, 박민호는 전국에서 500명만이 받는다는 '대통령 과학 장학생'으로 선정되었다. 이 소식은 작은 어촌마을에 큰 파문을 일으켰다. 마을 사람들은 모두 그를 축하해 주었고, 어머니는 기쁨의 눈물을 흘렸다. 이 장학금은 1990년에 제정된 것으로, 과학 분야에서 뛰어난 성과를 보인 학생들에게 주어지는 상이었다. 박민호가 장학생으로 선정되었을 당시, 이 장학금은 정말 우수한 학생들에게만 주어졌다. 그러나 시간이 지나면서 영향력 있는 가정의 자녀들에게 주기 위해 부정이 개입되기도 했다는 소문이 돌았다. 이는 박민호에게 더 큰 자부심을 안겨주었다.
[Chunk 1]

그는 자신의 능력으로 이 영예를 얻었다는 사실에 큰 긍지를 느꼈다. 이 상을 받은 학생들은 곧바로 대한민국 최고의 대학에 진학할 수 있었고, 이는 엄청난 특혜였다. 박민호 역시 서울대학교 컴퓨터공학과에 입학했다. 작은 어촌마을에서 자란 그에게 서울은 전혀 다른 세상이었다. 높은 빌딩들과 복잡한 지하철, 그리고 끊임없이 움직이는 사람들. 모든 것이 새롭고 놀라웠다. 서울대학교에서의 4년은 박민호에게 큰 도전이었다. 학업의 난이도는 그가 예상했던 것보다 훨씬 높았고, 대도시의 생활 역시 적응하기 쉽지 않았다. 그러나 그는 포기하지 않았다. 밤을 새워

In [None]:
import os
from langchain_experimental.text_splitter import SemanticChunker
from langchain_openai import OpenAIEmbeddings

# --- 1. 원하는 chunker 유형을 여기서 선택하세요 ---
# 옵션: 'percentile', 'standard_deviation', 'interquartile'
chunker_type = "percentile"

# --- 2. 임베딩 모델 및 텍스트 분할기 초기화 ---
embeddings = OpenAIEmbeddings()
text_splitter = None  # 먼저 비워둠

print(f"'{chunker_type}' 방식으로 SemanticChunker를 설정합니다.")

if chunker_type == "percentile":
    text_splitter = SemanticChunker(
        embeddings,
        breakpoint_threshold_type="percentile",
        breakpoint_threshold_amount=35,
    )
elif chunker_type == "standard_deviation":
    text_splitter = SemanticChunker(
        embeddings,
        breakpoint_threshold_type="standard_deviation",
        breakpoint_threshold_amount=0.4,
    )
elif chunker_type == "interquartile":
    text_splitter = SemanticChunker(
        embeddings,
        breakpoint_threshold_type="interquartile",
        breakpoint_threshold_amount=0.20,
    )
else:
    raise ValueError(
        f"'{chunker_type}'은(는) 유효한 chunker 유형이 아닙니다. 'percentile', 'standard_deviation', 'interquartile' 중에서 선택해주세요."
    )

# --- 4. 테스트용 텍스트 및 분할 실행 ---
sample_text = """
인공지능(AI)은 현대 기술의 정점에 있으며, 기계가 인간처럼 학습하고, 추론하며, 문제를 해결할 수 있도록 만드는 광범위한 컴퓨터 과학 분야입니다. 그 핵심에는 데이터로부터 패턴을 인식하는 머신러닝과 인간의 뇌 신경망을 모방한 심층 신경망을 사용하는 딥러닝이 있습니다.

한국 문화는 '한류(Hallyu)'라는 이름으로 전 세계적인 주목을 받고 있으며, 그 영향력은 날이 갈수록 커지고 있습니다. 방탄소년단(BTS)과 블랙핑크(BLACKPINK)를 필두로 한 K팝은 글로벌 음악 시장의 주류로 자리 잡았습니다.

인체의 혈액 순환계는 심장을 중심으로 혈액과 혈관으로 이루어져 있으며, 생명 유지에 필수적인 역할을 수행합니다. 혈액은 온몸의 세포에 산소와 영양분을 공급하고, 이산화탄소와 같은 노폐물을 수거하여 운반하는 중요한 기능을 합니다. 이러한 순환 과정은 동맥, 정맥, 모세혈관을 통해 끊임없이 이루어집니다.
"""

if text_splitter:
    docs = text_splitter.create_documents([sample_text])
    print(f"\n총 {len(docs)}개의 청크로 분할되었습니다.")
    print("-" * 30)
    for i, doc in enumerate(docs):
        print(f"청크 {i+1}:\n{doc.page_content}\n")
        print("-" * 30)

'percentile' 방식으로 SemanticChunker를 설정합니다.

총 5개의 청크로 분할되었습니다.
------------------------------
청크 1:

인공지능(AI)은 현대 기술의 정점에 있으며, 기계가 인간처럼 학습하고, 추론하며, 문제를 해결할 수 있도록 만드는 광범위한 컴퓨터 과학 분야입니다. 그 핵심에는 데이터로부터 패턴을 인식하는 머신러닝과 인간의 뇌 신경망을 모방한 심층 신경망을 사용하는 딥러닝이 있습니다.

------------------------------
청크 2:
한국 문화는 '한류(Hallyu)'라는 이름으로 전 세계적인 주목을 받고 있으며, 그 영향력은 날이 갈수록 커지고 있습니다.

------------------------------
청크 3:
방탄소년단(BTS)과 블랙핑크(BLACKPINK)를 필두로 한 K팝은 글로벌 음악 시장의 주류로 자리 잡았습니다. 인체의 혈액 순환계는 심장을 중심으로 혈액과 혈관으로 이루어져 있으며, 생명 유지에 필수적인 역할을 수행합니다.

------------------------------
청크 4:
혈액은 온몸의 세포에 산소와 영양분을 공급하고, 이산화탄소와 같은 노폐물을 수거하여 운반하는 중요한 기능을 합니다. 이러한 순환 과정은 동맥, 정맥, 모세혈관을 통해 끊임없이 이루어집니다.

------------------------------
청크 5:


------------------------------


: 