In [None]:
with open("./data/text.txt", encoding="utf-8") as f:
    file = f.read()

In [None]:
# 파일으로부터 읽은 내용을 일부 출력합니다.
print(file[:500])

In [None]:
from langchain_text_splitters import CharacterTextSplitter

# CharacterTextSplitter를 사용하여 텍스트를 청크(chunk)로 분할하는 코드
text_splitter = CharacterTextSplitter(
    # 텍스트를 분할할 때 사용할 구분자를 지정합니다. 기본값은 "\n\n"입니다.
    separator="\n",
    # 분할된 텍스트 청크의 최대 크기를 지정합니다 (문자 수).
    chunk_size=300,
    # 분할된 텍스트 청크 간의 중복되는 문자 수를 지정합니다.
    chunk_overlap=20,
    # 텍스트의 길이를 계산하는 함수를 지정합니다.
    length_function=len,
)

In [None]:
# 텍스트를 청크로 분할합니다.
texts = text_splitter.create_documents([file], metadatas=[{"source": "test.txt"}])
# print(texts)
# print("문자 수:", len(texts[0].page_content))
# print(len(texts[0].page_content))  # 분할된 문서의 개수를 출력합니다.
# print(texts[0])  # 분할된 문서 중 첫 번째 문서를 출력합니다.

print(texts)


In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

In [None]:
with open("./data/text.txt", encoding="utf-8") as f:
    file = f.read()

In [None]:
# 파일으로부터 읽은 내용을 일부 출력합니다.
print(file[:500])

In [None]:
text_splitter = RecursiveCharacterTextSplitter(
    # 청크 크기를 매우 작게 설정합니다. 예시를 위한 설정입니다.
    chunk_size=300,
    # 청크 간의 중복되는 문자 수를 설정합니다.
    chunk_overlap=50,
    # 문자열 길이를 계산하는 함수를 지정합니다.
    length_function=len,
    # 구분자로 정규식을 사용할지 여부를 설정합니다.
    is_separator_regex=False,
)

In [None]:
# text_splitter를 사용하여 file 텍스트를 문서로 분할합니다.
texts = text_splitter.create_documents([file])
print(texts[0])  # 분할된 문서의 첫 번째 문서를 출력합니다.
print("===" * 20)
print(texts[1])  # 분할된 문서의 두 번째 문서를 출력합니다.b

In [None]:
with open("./data/text.txt", encoding="utf-8") as f:
    file = f.read()

In [None]:
# 파일으로부터 읽은 내용을 일부 출력합니다.
print(file[:500])

In [None]:
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    # 청크 크기를 300으로 설정합니다.
    chunk_size=300,
    # 청크 간 중복되는 부분이 없도록 설정합니다.
    chunk_overlap=0,
)
# file 텍스트를 청크 단위로 분할합니다.
texts = text_splitter.split_text(file)

In [None]:
print(len(texts))  # 분할된 청크의 개수를 출력합니다.

In [None]:
# texts 리스트의 첫 번째 요소를 출력합니다.
print(texts[0])

In [None]:
# API 키를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv

# API 키 정보 로드
load_dotenv()

In [None]:
from langchain_experimental.text_splitter import SemanticChunker
from langchain_openai.embeddings import OpenAIEmbeddings

# OpenAI 임베딩을 사용하여 의미론적 청크 분할기를 초기화합니다.
text_splitter = SemanticChunker(OpenAIEmbeddings())

In [None]:
chunks = text_splitter.split_text(file)

In [None]:
# 분할된 청크 중 첫 번째 청크를 출력합니다.
print(chunks[0])

In [None]:
# text_splitter를 사용하여 분할합니다.
docs = text_splitter.create_documents([file])

In [None]:
text_splitter = SemanticChunker(
    # OpenAI의 임베딩 모델을 사용하여 시맨틱 청커를 초기화합니다.
    OpenAIEmbeddings(),
    # 분할 기준점 유형을 백분위수로 설정합니다.
    breakpoint_threshold_type="percentile",
    breakpoint_threshold_amount=90,
)
docs = text_splitter.create_documents([file])

In [None]:
for i, doc in enumerate(docs[:5]):
    print(f"[Chunk {i}]", end="\n\n")
    print(doc.page_content)  # 분할된 문서 중 첫 번째 문서의 내용을 출력합니다.
    print("===" * 20)