In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
%%capture --no-stderr
!pip install python-dotenv langchain_openai langchain_experimental langchain_community pypdf langchain pymupdf

In [None]:
# 환경변수 설정

In [None]:
# 라이브러리 불러오기
import os
from dotenv import load_dotenv

# .env 파일에서 환경 변수 로드
load_dotenv("/content/.env")
# 환경 변수에서 API 키 가져오기
api_key = os.getenv("OPENAI_API_KEY")

In [None]:
# 라이브러리 불러오기
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import PyPDFLoader

In [None]:
# PyPDFLoader를 사용하여 PDF 파일 로드
loader = PyPDFLoader("pdf 파일 경로")
pages = loader.load()

# PDF 파일의 모든 페이지에서 텍스트를 추출하여 총 글자 수 계산
print('총 글자 수:', len(''.join([i.page_content for i in pages])))

In [None]:
# RecursiveCharacterTextSplitter 초기화
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)

# 문서 분할
texts = text_splitter.split_documents(pages)
print('분할된 청크의 수:', len(texts))

In [None]:
texts[1]

In [None]:
texts[1].page_content

In [None]:
texts[2].page_content

In [None]:
print('1번 청크의 길이:', len(texts[1].page_content))
print('2번 청크의 길이:', len(texts[2].page_content))

# **SemanticChunker**

In [None]:
# 필요한 라이브러리 설치
!pip install langchain langchain_experimental langchain_openai

# 라이브러리 불러오기
from langchain_experimental.text_splitter import SemanticChunker
from langchain_openai.embeddings import OpenAIEmbeddings
from langchain_community.document_loaders import PyPDFLoader

In [None]:
# PyPDFLoader를 사용하여 PDF 파일 로드
loader = PyPDFLoader("PDF 경로")
pages = loader.load()

# SemanticChunker 초기화
text_splitter = SemanticChunker(embeddings=OpenAIEmbeddings())

# 텍스트를 의미 단위로 분할
chunks = text_splitter.split_documents(pages)

# 분할된 청크 수
print('분할된 청크의 수:', len(chunks))

In [None]:
chunks[3]

In [None]:
chunks[4]

In [None]:
chunks[5]

# **백분위수 방식의 SemanticChunker**

In [None]:
text_splitter = SemanticChunker(
    OpenAIEmbeddings(),
    breakpoint_threshold_type="percentile",
    breakpoint_threshold_amount=95,
)

chunks = text_spliiter.split_documents(pages)

print('분할된 청크의 수:', len(chunks))

# **표준편차 방식의 SemanticChunker**

In [None]:
text_splitter = SemanticChunker(
    OpenAIEmbeddings(),
    breakpoint_threshold_type="standard_deviation",
    breakpoint_threshold_amount=3,
)

chunks = text_splitter.split_documents(pages)

print('분할된 청크의 수:', len(chunks))