In [1]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

In [2]:
 """
 지정한 chunk_size 이하가 되도록 문자열을 자르는데,
 기본적으로 ["\n\n", "\n", " ", ""]와 같은 문자를 이용해 자릅니다. 
 순서대로 가장 먼저 "\n\n"으로 자르고, 그래도 chunk_size 보다 긴 chunk는 "\n"으로 자르고, 
 그래도 길면 " "로 자르는 방식으로 chunk를 만듭니다.
 여기서 chunk_overlap은 분할된 텍스트 조각들 사이에서 중복으로 포함될 문자수를 정의합니다."""

'\n지정한 chunk_size 이하가 되도록 문자열을 자르는데,\n기본적으로 ["\n\n", "\n", " ", ""]와 같은 문자를 이용해 자릅니다. \n순서대로 가장 먼저 "\n\n"으로 자르고, 그래도 chunk_size 보다 긴 chunk는 "\n"으로 자르고, \n그래도 길면 " "로 자르는 방식으로 chunk를 만듭니다.\n여기서 chunk_overlap은 분할된 텍스트 조각들 사이에서 중복으로 포함될 문자수를 정의합니다.'

In [32]:
def basic_example():
    # 샘플 텍스트
    text = """ABCDEFGHIJKLMNOPQRSTUVWXYZ"""
    text_splitter = RecursiveCharacterTextSplitter(
        # 청크 크기를 10으로 설정합니다.
        chunk_size=10,
        #청크의 마지막 기준으로 4개 앞까지 포함시킵니다.
        chunk_overlap=4,
        length_function=len,
        separators=[""] #모두 갖도록 합니다.
    )
    # 텍스트 분할
    chunks = text_splitter.split_text(text)
    
    # 결과 출력
    print("총 청크 수:", len(chunks))
    for i, chunk in enumerate(chunks, 1):
        print(f"\n청크 {i}:")
        print(f"길이: {len(chunk)} 문자")
        print(f"[{chunk}]")
if __name__ == "__main__":
    basic_example()

총 청크 수: 4

청크 1:
길이: 10 문자
[ABCDEFGHIJ]

청크 2:
길이: 10 문자
[GHIJKLMNOP]

청크 3:
길이: 10 문자
[MNOPQRSTUV]

청크 4:
길이: 8 문자
[STUVWXYZ]


In [1]:
from langchain_text_splitters import TokenTextSplitter

In [6]:
def basic_example():
    # 샘플 텍스트
    text = """ABCDEFGHIJKLMNOPQRSTUVWXYZ11111111111111"""
    text_splitter = TokenTextSplitter(
        chunk_size=10,
        chunk_overlap=4,
    )
    # 텍스트 분할
    chunks = text_splitter.split_text(text)
    
    # 결과 출력
    print("총 청크 수:", len(chunks))
    for i, chunk in enumerate(chunks, 1):
        print(f"\n청크 {i}:")
        print(f"길이: {len(chunk)} 문자")
        print(f"[{chunk}]")
if __name__ == "__main__":
    basic_example()

총 청크 수: 3

청크 1:
길이: 18 문자
[ABCDEFGHIJKLMNOPQR]

청크 2:
길이: 17 문자
[NOPQRSTUVWXYZ1111]

청크 3:
길이: 19 문자
[VWXYZ11111111111111]


In [13]:
from langchain_experimental.text_splitter import SemanticChunker
from langchain.embeddings import HuggingFaceEmbeddings

def demonstrate_semantic_chunker():
    # BERT 모델을 사용하는 임베딩 설정
    embeddings = HuggingFaceEmbeddings(
        model_name="bert-base-uncased",  # BERT 모델
        model_kwargs={'device': 'cpu'},
        encode_kwargs={'normalize_embeddings': True}
    )
    
    # SemanticChunker 설정
    text_splitter = SemanticChunker(
        embeddings=embeddings,
    )
    
    # 예시 텍스트 (의미적으로 관련된 문장들과 다른 주제의 문장들을 포함)
    text = """
    Machine learning is a branch of artificial intelligence. AI systems learn from data.
    Deep learning is a subset of machine learning. Neural networks are the foundation of deep learning.
    
    Climate change is affecting our planet. Global temperatures are rising each year.
    Polar ice caps are melting. Sea levels are increasing due to melting ice.
    
    The solar system contains eight planets. Mars is the fourth planet from the sun.
    Jupiter is the largest planet. Saturn is known for its beautiful rings.
    """
    
    # 텍스트 분할
    chunks = text_splitter.split_text(text)
    
    # 결과 출력
    print("원본 텍스트:\n", text)
    print("\n" + "="*50 + "\n")
    
    print("청크 분할 결과:")
    for i, chunk in enumerate(chunks, 1):
        print(f"\n청크 {i}:")
        print(chunk)
        print("-"*30)

if __name__ == "__main__":
    demonstrate_semantic_chunker()

No sentence-transformers model found with name bert-base-uncased. Creating a new one with mean pooling.


원본 텍스트:
 
    Machine learning is a branch of artificial intelligence. AI systems learn from data.
    Deep learning is a subset of machine learning. Neural networks are the foundation of deep learning.
    
    Climate change is affecting our planet. Global temperatures are rising each year.
    Polar ice caps are melting. Sea levels are increasing due to melting ice.
    
    The solar system contains eight planets. Mars is the fourth planet from the sun.
    Jupiter is the largest planet. Saturn is known for its beautiful rings.
    


청크 분할 결과:

청크 1:

    Machine learning is a branch of artificial intelligence. AI systems learn from data. Deep learning is a subset of machine learning. Neural networks are the foundation of deep learning.
------------------------------

청크 2:
Climate change is affecting our planet. Global temperatures are rising each year. Polar ice caps are melting. Sea levels are increasing due to melting ice. The solar system contains eight planets. Mars is the f