## Langchain라이브러리에서 청킹(Chunking)을 지원해주는 클래스들을 활용해보자.
1. CharacterTextSplitter
   - 텍스트를 지정된 기준으로 나눠주는 기본적인 클래스
   - 텍스트가 간단한 구조일 때 적절(잘 정돈된 텍스트, csv파일)
   - 구분자는 디폴트로 "\n\n"을 사용하며 구분자가 단일 문자이기 때문에 연속된 텍스트의 의미를 충분히 고려하기 못하고 청킹을 진행해버릴 수 있음.
2. RecursiveCharacterTextSplitter
   - 텍스트를 여러 단계를 거쳐 나누어주는 클래스(청킹에서 가장 많이 활용됨.)
   - 텍스트가 상대적으로 복잡한 구조일 때 적절(일반적인 문서, 웹페이지 데이터, 보고서 등)
   - 리스트를 통해 구분자를 여러개 사용하여 세분화된 청크로 만들 수 있음.
   - 처음엔 "\n\n"으로 분리하고 청크가 여전히 크다면 "\n", 그래도 크다면 " "이런 식으로 지정된 크기 제한 내에 들어올 때까지 계층적으로 분할을 진행

In [2]:
from langchain.text_splitter import CharacterTextSplitter, RecursiveCharacterTextSplitter

In [3]:
text1 = "This is an example sentence for chunking. Let's see how it chunks this, shall we?"
text2 = "This is an example sentence for chunking. Let's see how it chunks this, shall we? Let's get started."
text3 = """This is an example sentence for chunking.
Let's see how it chunks this, shall we?
Let's get started."""

## 1) Character Splitter

In [5]:
# 청킹 객체 생성
chunk_size = 20 # 하나의 청크에 대한 길이 기준을 문자 20개로 설정
chunk_overlap = 0

c_splitter = CharacterTextSplitter(
    # 각 청크의 크기 지정
    # 의미있는 문맥을 유지하기 위해 일반적인 문서에서는 200~1500사이로 지정
    # 데이터의 종류에 따라서 다르며, 기술 문서나 연구 논문을 상대적으로 청크를 크게 지정하고 뉴스기사나 일반 문서들은 상대적으로 작게 지정
    chunk_size = chunk_size,
    chunk_overlap = chunk_overlap
)

In [6]:
# split_text: 청킹 실행
c_splitter.split_text(text1)

["This is an example sentence for chunking. Let's see how it chunks this, shall we?"]

In [7]:
c_splitter.split_text(text2)

["This is an example sentence for chunking. Let's see how it chunks this, shall we? Let's get started."]

In [8]:
c_splitter.split_text(text3)

["This is an example sentence for chunking.\nLet's see how it chunks this, shall we?\nLet's get started."]

### 2) Recursive Splitter

In [10]:
r_splitter = RecursiveCharacterTextSplitter(
    chunk_size = chunk_size,
    chunk_overlap = chunk_overlap
)

In [11]:
r_splitter.split_text(text1)

['This is an example',
 'sentence for',
 "chunking. Let's see",
 'how it chunks this,',
 'shall we?']

In [12]:
r_splitter.split_text(text2)

['This is an example',
 'sentence for',
 "chunking. Let's see",
 'how it chunks this,',
 "shall we? Let's get",
 'started.']

In [13]:
r_splitter.split_text(text3)

['This is an example',
 'sentence for',
 'chunking.',
 "Let's see how it",
 'chunks this, shall',
 'we?',
 "Let's get started."]

### Character, Recursice 비교

In [15]:
see_you_again = """It's been a long day without you, my friend.
And I'll tell you all about it when I see you again.
We've come a long way from where we began.
Oh, I'll tell you all about it when I see you again.
When I see you again.


Damn, who knew?
All the planes we flew, good things we been through.
That I'd be standing right here talking to you.
'Bout another path, I know we loved to hit the road and laugh.
But something told me that it wouldn't last.
Had to switch up, look at things different, see the bigger picture.
Those were the days, hard work forever pays.
Now I see you in a better place (see you in a better place).
Uh."""

In [16]:
len(see_you_again)

620

In [17]:
c_splitter = CharacterTextSplitter(chunk_size = 100,
                                   chunk_overlap = 0,
                                   separator = "\n\n") # 디폴트는 \n\n
c_splitter.split_text(see_you_again)

Created a chunk of size 215, which is longer than the specified 100


["It's been a long day without you, my friend.\nAnd I'll tell you all about it when I see you again.\nWe've come a long way from where we began.\nOh, I'll tell you all about it when I see you again.\nWhen I see you again.",
 "Damn, who knew?\nAll the planes we flew, good things we been through.\nThat I'd be standing right here talking to you.\n'Bout another path, I know we loved to hit the road and laugh.\nBut something told me that it wouldn't last.\nHad to switch up, look at things different, see the bigger picture.\nThose were the days, hard work forever pays.\nNow I see you in a better place (see you in a better place).\nUh."]

In [18]:
r_splitter = RecursiveCharacterTextSplitter(chunk_size = 100,
                                   chunk_overlap = 0,
                                    # 리스트로 여러 조건을 계층적으로 설정 가능(더 큰 범위를 먼저 작성)
                                   separators = ["\n\n", "n", " "]) # 디폴트는 \n\n
r_splitter.split_text(see_you_again)

["It's been a long day without you, my friend.\nAnd I'll tell you all about it when I see you agai",
 "n.\nWe've come a long way from where we began.\nOh, I'll tell you all about it when I see you agai",
 'n.\nWhen I see you again.',
 "Damn, who knew?\nAll the planes we flew, good things we been through.\nThat I'd be standi",
 "ng right here talking to you.\n'Bout another path, I know we loved to hit the road a",
 "nd laugh.\nBut something told me that it wouldn't last.\nHad to switch up, look at things differe",
 'nt, see the bigger picture.\nThose were the days, hard work forever pays.\nNow I see you i',
 'n a better place (see you in a better place).\nUh.']

- CharacterTextSplitter를 사용한 결과가 만족스럽지 못하다면 더 작은 단위의 구분자를 지정해서 해결하거나 RecursiveCharacterTextSplitter를 사용하여 계층적 분할을 적용해볼 수 있음.

### 웹 페이지에 접근해 쉽게 텍스트 데이터 가져오기

In [21]:
# WebBaseLoader: 웹페이지 HTML컨텐츠를 로드해주는 클래스(내부적으로 BeautifulSoup을 사용함.)
from langchain.document_loaders import WebBaseLoader
# 경고 표시는 웹 접근시 user_agent 설정이 필요하다는 문구

USER_AGENT environment variable not set, consider setting it to identify your requests.


In [22]:
loader = WebBaseLoader("https://n.news.naver.com/mnews/article/011/0004519874")

# 브라우저 우회 접속
loader.requests_kwargs = {'headers': {'User-Agent':'Mozilla/5.0'}}
# 한글 인코딩 설정
loader.encoding = 'utf-8'

docs = loader.load()
print(docs[0].page_content[:500])





















미·러 정상회담, 젤렌스키 합류하나[글로벌 왓]














본문 바로가기






NAVER

뉴스


엔터




스포츠




날씨




프리미엄










검색










언론사별


정치


경제


사회


생활/문화


IT/과학


세계


랭킹


신문보기


오피니언


TV


팩트체크


알고리즘 안내


정정보도 모음
















서울경제

서울경제


구독

서울경제 언론사 구독되었습니다. 메인 뉴스판에서  주요뉴스를  볼 수 있습니다.
보러가기


서울경제 언론사 구독 해지되었습니다.




미·러 정상회담, 젤렌스키 합류하나[글로벌 왓]




입력2025.08.12. 오전 6:01

기사원문
 




김민경 기자








김민경 기자




김민경 기자

구독
구독중




구독자
0


응원수
0



더보기














추천




쏠쏠정보
0





### 텍스트 데이터 정제

In [24]:
# 1.문자열 함수 replace 활용
docs[0].page_content[:1000].replace("\n","")

'미·러 정상회담, 젤렌스키 합류하나[글로벌 왓]본문 바로가기NAVER뉴스엔터스포츠날씨프리미엄검색언론사별정치경제사회생활/문화IT/과학세계랭킹신문보기오피니언TV팩트체크알고리즘 안내정정보도 모음서울경제서울경제구독서울경제 언론사 구독되었습니다. 메인 뉴스판에서  주요뉴스를  볼 수 있습니다.보러가기서울경제 언론사 구독 해지되었습니다.미·러 정상회담, 젤렌스키 합류하나[글로벌 왓]입력2025.08.12. 오전 6:01기사원문 김민경 기자김민경 기자김민경 기자구독구독중구독자0응원수0더보기추천쏠쏠정보0흥미진진0공감백배0분석탁월0후속강추0 댓글본문 요약봇본문 요약봇도움말자동 추출 기술로 요약된 내용입니다. 요약 기술의 특성상 본문의 주요 내용이 제외될 수 있어, 전체 맥락을 이해하기 위해서는 기사 본문 전체보기를 권장합니다.닫기텍스트 음성 변환 서비스 사용하기성별남성여성말하기 속도느림보통빠름이동 통신망을 이용하여 음성을 재생하면 별도의 데이터 통화료가 부과될 수 있습니다.본문듣기 시작닫기 글자 크기 변경하기가1단계작게가2단계보통가3단계크게가4단계아주크게가5단계최대크게SNS 보내기인쇄하기돈바스 지역 \'요새 벨트\' 협상 쟁점으로우크라·EU "영토 교환 종전 없어" 고수러시아 재침공 대비 우크라 안보 강화도WP "위험한 평화 도박···철저한 무장해야"EPA연합뉴스[서울경제] 도널드 '

In [25]:
# 2. 문자열 정규 표현식 사용
import re

# r: 문자열 내 이스케이프 코드를 지칭하는 \가 있는 경우 이를 일반 문자열로 인식하게 해주는 기능
re.findall(r"[\w]+", docs[0].page_content[:2000])

['미',
 '러',
 '정상회담',
 '젤렌스키',
 '합류하나',
 '글로벌',
 '왓',
 '본문',
 '바로가기',
 'NAVER',
 '뉴스',
 '엔터',
 '스포츠',
 '날씨',
 '프리미엄',
 '검색',
 '언론사별',
 '정치',
 '경제',
 '사회',
 '생활',
 '문화',
 'IT',
 '과학',
 '세계',
 '랭킹',
 '신문보기',
 '오피니언',
 'TV',
 '팩트체크',
 '알고리즘',
 '안내',
 '정정보도',
 '모음',
 '서울경제',
 '서울경제',
 '구독',
 '서울경제',
 '언론사',
 '구독되었습니다',
 '메인',
 '뉴스판에서',
 '주요뉴스를',
 '볼',
 '수',
 '있습니다',
 '보러가기',
 '서울경제',
 '언론사',
 '구독',
 '해지되었습니다',
 '미',
 '러',
 '정상회담',
 '젤렌스키',
 '합류하나',
 '글로벌',
 '왓',
 '입력2025',
 '08',
 '12',
 '오전',
 '6',
 '01',
 '기사원문',
 '김민경',
 '기자',
 '김민경',
 '기자',
 '김민경',
 '기자',
 '구독',
 '구독중',
 '구독자',
 '0',
 '응원수',
 '0',
 '더보기',
 '추천',
 '쏠쏠정보',
 '0',
 '흥미진진',
 '0',
 '공감백배',
 '0',
 '분석탁월',
 '0',
 '후속강추',
 '0',
 '댓글',
 '본문',
 '요약봇',
 '본문',
 '요약봇도움말',
 '자동',
 '추출',
 '기술로',
 '요약된',
 '내용입니다',
 '요약',
 '기술의',
 '특성상',
 '본문의',
 '주요',
 '내용이',
 '제외될',
 '수',
 '있어',
 '전체',
 '맥락을',
 '이해하기',
 '위해서는',
 '기사',
 '본문',
 '전체보기를',
 '권장합니다',
 '닫기',
 '텍스트',
 '음성',
 '변환',
 '서비스',
 '사용하기',
 '성별',
 '남성',
 '여성',
 '말하기',
 '속도',
 '느림',
 '보

In [26]:
" ".join(re.findall(r"[\w]+", docs[0].page_content))

'미 러 정상회담 젤렌스키 합류하나 글로벌 왓 본문 바로가기 NAVER 뉴스 엔터 스포츠 날씨 프리미엄 검색 언론사별 정치 경제 사회 생활 문화 IT 과학 세계 랭킹 신문보기 오피니언 TV 팩트체크 알고리즘 안내 정정보도 모음 서울경제 서울경제 구독 서울경제 언론사 구독되었습니다 메인 뉴스판에서 주요뉴스를 볼 수 있습니다 보러가기 서울경제 언론사 구독 해지되었습니다 미 러 정상회담 젤렌스키 합류하나 글로벌 왓 입력2025 08 12 오전 6 01 기사원문 김민경 기자 김민경 기자 김민경 기자 구독 구독중 구독자 0 응원수 0 더보기 추천 쏠쏠정보 0 흥미진진 0 공감백배 0 분석탁월 0 후속강추 0 댓글 본문 요약봇 본문 요약봇도움말 자동 추출 기술로 요약된 내용입니다 요약 기술의 특성상 본문의 주요 내용이 제외될 수 있어 전체 맥락을 이해하기 위해서는 기사 본문 전체보기를 권장합니다 닫기 텍스트 음성 변환 서비스 사용하기 성별 남성 여성 말하기 속도 느림 보통 빠름 이동 통신망을 이용하여 음성을 재생하면 별도의 데이터 통화료가 부과될 수 있습니다 본문듣기 시작 닫기 글자 크기 변경하기 가1단계 작게 가2단계 보통 가3단계 크게 가4단계 아주크게 가5단계 최대크게 SNS 보내기 인쇄하기 돈바스 지역 요새 벨트 협상 쟁점으로우크라 EU 영토 교환 종전 없어 고수러시아 재침공 대비 우크라 안보 강화도WP 위험한 평화 도박 철저한 무장해야 EPA연합뉴스 서울경제 도널드 트럼프 미국 대통령이 우크라이나 전쟁 종전을 위해 블라디미르 푸틴 러시아 대통령과 볼로디미르 젤렌스키 우크라이나 대통령이 참여하는 3자 회담을 추진하는 것으로 전해졌다 미국과 러시아가 영토 교환을 골자로 한 종전에 합의한 뒤 3자 회담을 통해 이를 밀어붙이려는 의도라는 분석이 나온다 J D 밴스 미국 부통령은 10일 현지 시간 폭스뉴스와의 인터뷰에서 이제 우리는 세 정상이 언제 협상장에 앉아서 이 분쟁의 종식을 논의할 수 있는지에 대한 일정을 정하려고 하고 있다 며 상대적인 평화 속에 살 수 있게 하

### 문서 로더(Document Loader)
- LangChain의 문서 로더 기능을 활용해 다양한 형식의 데이터 파일들로부터 손쉽게 텍스트를 로드할 수 있음.
### 문서 로더 종료
- TextLoader: TXT 파일 로드
- DirectoryLoader: 특정 경로에 있는 여러개의 파일 로드
- PyPDFLoader: PDF 파일 로드
- JSONLoader: JSON 파일 로드
- CSVLoader: CSV파일 로드

### TextLoader

In [29]:
from langchain.document_loaders import TextLoader

In [30]:
loader = TextLoader("data/멜론차트 TOP100.txt", encoding='utf-8')

doc = loader.load()

In [31]:
print(doc[0].page_content)

	타이틀	아티스트
0	비의 랩소디	임재현
1	To. X	태연 (TAEYEON)
2	Perfect Night	LE SSERAFIM (르세라핌)
3	Drama	aespa
4	에피소드	이무진
5	사랑은 늘 도망가	임영웅
6	헤어지자 말해요	박재정
7	그대만 있다면 (여름날 우리 X 너드커넥션 (Nerd Connection))	너드커넥션 (Nerd Connection)
8	인사	범진
9	Love 119	RIIZE
10	Seven (feat. Latto) - Clean Ver.	정국
11	Baddie	IVE (아이브)
12	우리들의 블루스	임영웅
13	모래 알갱이	임영웅
14	Do or Die	임영웅
15	다시 만날 수 있을까	임영웅
16	첫 눈	EXO
17	I AM	IVE (아이브)
18	Love Lee	AKMU (악뮤)
19	이제 나만 믿어요	임영웅
20	Get A Guitar	RIIZE
21	무지개	임영웅
22	You & Me	제니 (JENNIE)
23	London Boy	임영웅
24	아버지	임영웅
25	Polaroid	임영웅
26	Standing Next to You	정국
27	인생찬가	임영웅
28	너의 모든 순간	성시경
29	후라이의 꿈	AKMU (악뮤)
30	A bientot	임영웅
31	Super Shy	NewJeans
32	사막에서 꽃을 피우듯	우디 (Woody)
33	Ditto	NewJeans
34	잘 지내자, 우리 (여름날 우리 X 로이킴)	로이킴
35	ETA	NewJeans
36	Hype Boy	NewJeans
37	연애편지	임영웅
38	퀸카 (Queencard)	(여자)아이들
39	어떻게 이별까지 사랑하겠어, 널 사랑하는 거지	AKMU (악뮤)
40	MANIAC	VIVIZ (비비지)
41	별 떨어진다 (I Do)	디오 (D.O.)
42	사랑인가 봐	멜로망스
43	Discord	QWER
44	Dynamite	방탄소년단
45	봄날	방탄소년단
46	Spicy	aespa
47	사건의 지평선	윤하 (YOUNHA)
48	사랑할 수밖에	볼빨간사춘기
49	사랑하

In [55]:
r_splitter = RecursiveCharacterTextSplitter(chunk_size = 500,
                                           chunk_overlap = 0)

In [57]:
# load_and_split: 데이터를 로드하며 동시에 설정된 splitter를 적용해주는 함수
# splitter 객체를 설정하지 않으면 로드된 문서의 page별로 Document 객체로 반환됨.
docs_split1 = loader.load_and_split(r_splitter)
print(f"number of chunks: {len(docs_split1)}")
print()

# 각각의 청크들의 실제 텍스트를 출력
for doc in docs_split1:
    print(doc.page_content)
    print("="*100)

number of chunks: 5

타이틀	아티스트
0	비의 랩소디	임재현
1	To. X	태연 (TAEYEON)
2	Perfect Night	LE SSERAFIM (르세라핌)
3	Drama	aespa
4	에피소드	이무진
5	사랑은 늘 도망가	임영웅
6	헤어지자 말해요	박재정
7	그대만 있다면 (여름날 우리 X 너드커넥션 (Nerd Connection))	너드커넥션 (Nerd Connection)
8	인사	범진
9	Love 119	RIIZE
10	Seven (feat. Latto) - Clean Ver.	정국
11	Baddie	IVE (아이브)
12	우리들의 블루스	임영웅
13	모래 알갱이	임영웅
14	Do or Die	임영웅
15	다시 만날 수 있을까	임영웅
16	첫 눈	EXO
17	I AM	IVE (아이브)
18	Love Lee	AKMU (악뮤)
19	이제 나만 믿어요	임영웅
20	Get A Guitar	RIIZE
21	무지개	임영웅
22	You & Me	제니 (JENNIE)
23	London Boy	임영웅
24	아버지	임영웅
25	Polaroid	임영웅
26	Standing Next to You	정국
27	인생찬가	임영웅
28	너의 모든 순간	성시경
29	후라이의 꿈	AKMU (악뮤)
30	A bientot	임영웅
31	Super Shy	NewJeans
32	사막에서 꽃을 피우듯	우디 (Woody)
33	Ditto	NewJeans
34	잘 지내자, 우리 (여름날 우리 X 로이킴)	로이킴
35	ETA	NewJeans
36	Hype Boy	NewJeans
37	연애편지	임영웅
38	퀸카 (Queencard)	(여자)아이들
39	어떻게 이별까지 사랑하겠어, 널 사랑하는 거지	AKMU (악뮤)
40	MANIAC	VIVIZ (비비지)
41	별 떨어진다 (I Do)	디오 (D.O.)
42	사랑인가 봐	멜로망스
43	Discord	QWER
44	Dynamite	방탄소년단
45	봄날	방탄소년단
46	Spicy	aespa
47	사건의 지평선	윤하 (YOUNHA)
48	사

In [59]:
!pip install pypdf

Collecting pypdf
  Downloading pypdf-6.0.0-py3-none-any.whl.metadata (7.1 kB)
Downloading pypdf-6.0.0-py3-none-any.whl (310 kB)
   ---------------------------------------- 0.0/310.5 kB ? eta -:--:--
   ---------------------------------------- 0.0/310.5 kB ? eta -:--:--
   - -------------------------------------- 10.2/310.5 kB ? eta -:--:--
   --- ----------------------------------- 30.7/310.5 kB 445.2 kB/s eta 0:00:01
   ------------- ------------------------ 112.6/310.5 kB 939.4 kB/s eta 0:00:01
   ---------------------------------------  307.2/310.5 kB 2.1 MB/s eta 0:00:01
   ---------------------------------------  307.2/310.5 kB 2.1 MB/s eta 0:00:01
   ---------------------------------------- 310.5/310.5 kB 1.5 MB/s eta 0:00:00
Installing collected packages: pypdf
Successfully installed pypdf-6.0.0


In [63]:
from langchain.document_loaders import PyPDFLoader

In [79]:
loader = PyPDFLoader("data/기술보증기금과 한국경제.pdf")

doc = loader.load()

In [80]:
pdf_splitter = RecursiveCharacterTextSplitter(chunk_size = 300,
                                             chunk_overlap = 50,
                                             separators = ["\n\n", "\n", " "])
docs_split = loader.load_and_split(pdf_splitter)
print(f"number of chunks: {len(docs_split)}")
print()
docs_split

number of chunks: 23



[Document(metadata={'producer': 'Microsoft® Word Office 365용', 'creator': 'Microsoft® Word Office 365용', 'creationdate': '2019-06-27T22:46:56+09:00', 'author': 'HS', 'moddate': '2019-06-27T22:46:56+09:00', 'source': 'data/기술보증기금과 한국경제.pdf', 'total_pages': 5, 'page': 0, 'page_label': '1'}, page_content='페이지 1 / 5 \n \n기술보증기금과 한국경제 \n \nI. 기술보증기금 개요  \n1. 설립근거 : 기술보증기금법 \n \n- 설립목적(존재이유) \n✓ 기술보증기금을 설립하여 기술보증제도를 정착·발전시킴으로써 신 기술사업에 대한 자금의 \n공급을 원활하게 하고 나아가 국민 경제의 발전에 이바지함을 목적으로 함(기술보증기금법1\n조) \n✓ 설립 : 담보능력이 미약한 기업의 채무를 보증하게 하여 기업에 대한 자금 융통을 원활하게 하기 \n위하여 기술보증기금을 설립(법 12조) \n✓ 기금의 재원 : 정부 출연금의 예산은 중소벤처기업부 소관으로 함'),
 Document(metadata={'producer': 'Microsoft® Word Office 365용', 'creator': 'Microsoft® Word Office 365용', 'creationdate': '2019-06-27T22:46:56+09:00', 'author': 'HS', 'moddate': '2019-06-27T22:46:56+09:00', 'source': 'data/기술보증기금과 한국경제.pdf', 'total_pages': 5, 'page': 0, 'page_label': '1'}, page_content='✓ 기금의 재원 : 정부 출연금의 예산은 중소벤처기업부 소관으로 함 \n \n☞ 기술보증기금은  \n✓ 기술력은 우수하지만 담보 부족한 중