# Splitter

In [11]:
from langchain_community.document_loaders import PyMuPDFLoader
from langchain_core.documents import Document
from langchain_text_splitters import CharacterTextSplitter, RecursiveCharacterTextSplitter, TokenTextSplitter

In [12]:
file_path = '../data/Sustainability_report_2024_kr.pdf'

loader = PyMuPDFLoader(file_path)
docs = loader.load()
docs[0].page_content

'A Journey Towards  \na Sustainable Future\n삼성전자 지속가능경영보고서 2024'

In [13]:
import tiktoken

tiktoken.list_encoding_names() # o200k_base 대부분은 이 기준

['gpt2',
 'r50k_base',
 'p50k_base',
 'p50k_edit',
 'cl100k_base',
 'o200k_base',
 'o200k_harmony']

In [14]:
encoding = tiktoken.encoding_for_model("gpt-4.1-mini")

In [15]:
text = '안녕하세요. 반갑습니다.'
encoding.encode(text)

[14307, 171731, 13, 35007, 114614, 12020, 13]

In [34]:
char_splitter = CharacterTextSplitter(
    chunk_size = 500,
    chunk_overlap = 50
)

# 가장 주로 쓰임
recursive_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 500,
    chunk_overlap = 50
)

token_splitter = TokenTextSplitter(
    chunk_size = 500,
    chunk_overlap = 50
)

In [35]:
char_chunk = char_splitter.split_documents(docs)
print(char_chunk[6].page_content)

Materiality  
 Assessment
삼성전자 지속가능경영보고서 2024
07
Our Company
Appendix
Materiality Assessment
Facts & Figures 
Principle
Planet
People


In [None]:
rec_chunk = recursive_splitter.split_documents(docs)
print(rec_chunk[6].page_content)

대한 관심 또한 지속 고조되고 있습니다. 
삼성전자는 이러한 추세에 맞춰 지속가능한 미래를 위한 노력을 계속해 
왔습니다. 2050년 탄소중립을 통해 글로벌 기후위기 극복 노력에 
동참하고, 자원의 순환성을 극대화하여 순환경제 구축에 기여하며, 
기술혁신을 통해 환경난제 해결에 도전하는 내용의 '新환경경영전략'을 
2022년 9월에 발표하였습니다. 
2030년 탄소중립을 목표로 하는 DX부문에서는 미국, 유럽, 중국에 이어 
한국, 베트남, 인도, 브라질을 포함한 글로벌 주요 제조사업장의 사용 
전력을 재생에너지로 100% 전환하였으며, 2023년말 기준, 총 93.4%
의 재생에너지 전환 실적을 기록하였습니다. 또한 자원순환형 소재 확대 
로드맵에 맞춰, 당사가 구매한 제품 내 플라스틱 부품 25%에 재생레진을 
적용하였습니다. 
DS부문에서는 2050년 탄소중립 달성을 위해 2023년 공정가스 처리시설


In [37]:
token_chunk = token_splitter.split_documents(docs)
print(token_chunk[6].page_content)

��업의 지속가능경영 
활동 정보 공개는 글로벌 비재무정보 공시 제도의 확산에 맞춰, 새로운 
국면을 맞고 있습니다. 국제회계기준재단(IFRS Foundation)이 2023년 
6월 지속가능성 지표를 확정한 것을 시작으로, EU의 지속가능성 보고지침
(CSRD)과 미국 증권거래위원회(SEC) 기후공시 기준 역시 세부 내용을 
순차적으로 확정하며 ESG 정보의 의무 공시 시대가 열리고 있습니다.
이와 함께, EU 탄소국경조정제도(CBAM)와 EU 배터리규제 등을 통한 

