# 다양한 splitter 사용해보기

## 1. 문서로드

In [1]:
from langchain_community.document_loaders import PyPDFLoader

In [2]:
file_path = "../data/Sustainability_report_2024_kr.pdf"

print("문서로드 중")

loader = PyPDFLoader(file_path)
docs = loader.load()

문서로드 중


## 2. token 비교

In [None]:
import tiktoken
tiktoken.list_encoding_names()

['gpt2',
 'r50k_base',
 'p50k_base',
 'p50k_edit',
 'cl100k_base',
 'o200k_base',
 'o200k_harmony']

In [6]:
# 어떤 모델을 쓰는가에 따라 토큰 비교
encoding = tiktoken.encoding_for_model("gpt-4.1-mini")

In [7]:
text = "안녕하세요 여러분, 좋은 월요일입니다"
encoding.encode(text)

[14307, 171731, 180115, 11, 70135, 85638, 119515, 27001]

In [8]:
len(encoding.encode(text))

8

## 3. splitter 종류 테스트

In [10]:
from langchain_core.documents import Document
from langchain_text_splitters import CharacterTextSplitter, RecursiveCharacterTextSplitter, TokenTextSplitter

In [None]:
char_splitter = CharacterTextSplitter(          # 말한 곳까지만 자르기
    chunk_size = 1000,
    chunk_overlap = 100
)
rec_splitter = RecursiveCharacterTextSplitter(  # 말한 앞뒤로 자르기
    chunk_size = 1000,
    chunk_overlap = 100
)
token_splitter = TokenTextSplitter(             # 댕강 자르기
    chunk_size = 1000,
    chunk_overlap = 100
)

In [12]:
char_chunk = char_splitter.split_documents(docs)
len(char_chunk)

82

In [17]:
char_chunk[4]

Document(metadata={'producer': 'Adobe PDF Library 15.0', 'creator': 'Adobe InDesign 15.1 (Macintosh)', 'creationdate': '2024-11-25T11:10:32+09:00', 'moddate': '2024-11-25T11:10:46+09:00', 'trapped': '/False', 'source': '../data/Sustainability_report_2024_kr.pdf', 'total_pages': 83, 'page': 4, 'page_label': '5'}, page_content='삼성전자 지속가능경영보고서 2024\n05\nOur Company AppendixMateriality Assessment Facts & Figures PrinciplePlanet People\n회사소개\nAbout Us\n삼성전자주식회사(이하 삼성전자)는 인재와 기술을 바탕으로 최고의 제품과 서비스를 창출하여 인류사회에 공헌하는 글로벌 초일류기업을 지향합니다. \n이를 위해 삼성전자의 경영철학을 반영한 5가지 핵심가치 를 수립하였고, 핵심가치를 세부원칙과 행동지침 으로 구체화하여 삼성전자 임직원이 \n지켜야 할 글로벌 행동규범(Global Code of Conduct) 을 제정하였습니다. 삼성전자는 조직문화에 5가지 핵심가치를 내재화하고 글로벌 행동규범을 \n모든 경영활동의 기준으로 삼아 지속적으로 성장해갈 것입니다. \n사업부문 및 글로벌 네트워크 소개\n삼성전자는 제품 특성에 따라 DX(Device eXperience)와 DS(Device Solutions) 2개 부문으로 나뉘어 독립적으로 운영되고 있습니다. DX부문은 \n스마트폰, 네트워크 시스템, 컴퓨터, TV, 냉장고, 세탁기, 에어컨, 의료기기 등 완제품을 생산/판매하고 있으며, DS부문은 메모리 반도체 사업, Foundry \n사업, System LSI 사업으로 구성되어 DRAM, NAND Flash, 모바일AP 등의 반

In [14]:
rec_chunk = rec_splitter.split_documents(docs)
len(rec_chunk)

207

In [19]:
rec_chunk[4]

Document(metadata={'producer': 'Adobe PDF Library 15.0', 'creator': 'Adobe InDesign 15.1 (Macintosh)', 'creationdate': '2024-11-25T11:10:32+09:00', 'moddate': '2024-11-25T11:10:46+09:00', 'trapped': '/False', 'source': '../data/Sustainability_report_2024_kr.pdf', 'total_pages': 83, 'page': 3, 'page_label': '4'}, page_content="대한 관심 또한 지속 고조되고 있습니다. \n삼성전자는 이러한 추세에 맞춰 지속가능한 미래를 위한 노력을 계속해 \n왔습니다. 2050년 탄소중립을 통해 글로벌 기후위기 극복 노력에 \n동참하고, 자원의 순환성을 극대화하여 순환경제 구축 에 기여하며, \n기술혁신을 통해 환경난제 해결에 도전하는 내용의 '新환경경영전략'을 \n2022년 9월에 발표하였습니다. \n2030년 탄소중립을 목표로 하는 DX부문에서는 미국, 유럽, 중국에 이어 \n한국, 베트남, 인도, 브라 질을 포함한 글로벌 주요 제조사업장의 사용 \n전력을 재생에너지로 100% 전환하였으며, 2023년말 기준, 총 93.4%\n의 재생에너지 전환 실적을 기록하였습니다. 또한 자원순환형 소재 확대 \n로드맵에 맞춰, 당사가 구매한 제품 내 플라스틱 부품 25%에 재생레진을 \n적용하였습니다. \nDS부문에서는 2050년 탄소중립 달성을 위해 2023년 공정가스 처리시설\n(RCS) 16대를 4개 라인에 신규 설치하고, LNG 폐열 회수 시스템을 확대 \n적용하여 온실가스 배출 저감을 위해 노력했습니다. 또한 2030년까지 \n용수 취수량을 2021년 수준으로 절 감하는 것을 목 표로 하고 있으며, \n국제수자원관리동맹(AWS)으로부터 기흥/화성, 평택, 중국 시안 사업장에 \n대해 최고 등급인 ' 플래티넘' 인증을 획득하여

In [15]:
token_chunk = token_splitter.split_documents(docs)
len(token_chunk)

340

In [21]:
token_chunk[3].page_content

'삼성전자 지속가능경영보고서 2024\n04\nOur Company AppendixMateriality Assessment Facts & Figures PrinciplePlanet People\nCEO 메시지\nMessage from \nOur CEO\n주주, 고객, 협력회사, 그리고 임직원 여러분,\n2023년은 고금리와 인플레이션, 지정학적 이슈 등 매우 불확실한 \n거시경제 환경과 함께, 메모리 산업 부진과 다양한 제품군에서의 경쟁 \n심화로 삼성전자에게 매우 어려운 한 해였습니다. 이토록 대내외적으로 \n어려운 환경에서도 지속 성장의 기반 마련을 위해 역대 최고 수준의 28.3\n조원을 연구개발에 투자하고, 53.1조원 수준의 전략적 시설투자로 기술 \n리더십을 강화하며 중장기 수요에 미리 대응할 수 있었던 것은 삼성전자를 \n아껴주시는 이해관계자 여러분의 관심과 격려 덕분입니다. 다시 한 번 \n깊이 감사 드립니다.\n급격한 변화를 겪고 있는 경제 상황에 맞춰, 기업의 지속가능경영 \n분야에서도 많은 변화가 일어나고 있습니다. 특히 기업의 지속가능경영 \n활동 정보 공개는 글로벌 비재무정보 공시 제도의 확산에 맞춰, 새�'

In [22]:
rec_chunk[4].metadata["test"] = "항목 추가"

In [23]:
rec_chunk[4].metadata

{'producer': 'Adobe PDF Library 15.0',
 'creator': 'Adobe InDesign 15.1 (Macintosh)',
 'creationdate': '2024-11-25T11:10:32+09:00',
 'moddate': '2024-11-25T11:10:46+09:00',
 'trapped': '/False',
 'source': '../data/Sustainability_report_2024_kr.pdf',
 'total_pages': 83,
 'page': 3,
 'page_label': '4',
 'test': '항목 추가'}