## Langchain 라이브러리에서 Chunking을 지원하는 클래스와 함수들을 알아보자
- Character TextSplitter
    - 텍스트를 지정된 기준으로 나눠주는 기본적인 클래스
    - 구분자는 디폴트로 '\n\n'을 사용하지만 변경 가능
    - 구분자가 단일 문자이기 때문에 연속된 텍스트의 의미를 충분히 고려하지 못할 수 있음
    
- RecursiveCharacterTextSplitter
    - 텍스트를 여러 단계를 거쳐 나누어주는 클래스(청킹에서 가장 많이 활용됨)
    - 리스트를 통해서 구분자를 여러개 사용하여 세분화된 청크로 만들 수 있음(구분자의 순서가 중요함)
    - 처음엔 '\n\n'으로 분리하고 청크가 여전히 크다면 '\n\', 그래도 크다면 ' ' 이런 식으로 지정된 크기 제한에 들어올 때까지 계층적 분할을 진행
    - 계층적 분할을 통해 의미가 있는 단위가 가능한 온전하게 유지되도록함 

In [7]:
from langchain.text_splitter import CharacterTextSplitter, RecursiveCharacterTextSplitter

In [13]:
text1='청킹을 위한 예제 데이터 입니다. 어떻게 쪼개지는지 알아볼까요?'
text2='청킹을 위한 예제 데이터 입니다. 어떻게 쪼개지는지 알아볼까요? 결과를 확인해봅시다'
text3='''청킹을 위한 예제 데이터 입니다.
어떻게 쪼개지는지 알아볼까요?

결과를 확인해봅시다.'''


### Character Splitter

In [10]:
# 청킹 객체 생성
chunk_size=20 #하나의 청크에 대한 길이 기준을 문자 20개로 설정
chunk_overlap=0


c_splitter=CharacterTextSplitter(
    #현재는 예시문장이 짧아서 20문자 정도로 지정했지만 일반적인 문서에서는 200-1500자 사이로 지정
    #데이터(문서)의 종류에 따라 달라짐(기술문자나 연구논문은 상대적으로 큰게 좋고, 일반 문서는 작은게 좋음)
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap
)

In [14]:
#split_text:텍스트 데이터 청킹 실행함수
c_splitter.split_text(text1)

['청킹을 위한 예제 데이터 입니다. 어떻게 쪼개지는지 알아볼까요?']

In [15]:
c_splitter.split_text(text2)

['청킹을 위한 예제 데이터 입니다. 어떻게 쪼개지는지 알아볼까요? 결과를 확인해봅시다']

In [16]:
#무조건 chunk_size에 맞게 분리가 되는 건 아니고 의미있는 단위라면 더 길거나 짧게 출력될 수 있음
c_splitter.split_text(text3)

Created a chunk of size 35, which is longer than the specified 20


['청킹을 위한 예제 데이터 입니다.\n어떻게 쪼개지는지 알아볼까요?', '결과를 확인해봅시다.']

## Recursive Splitter

In [18]:
r_splitter= RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap
)

In [19]:
r_splitter.split_text(text1)

['청킹을 위한 예제 데이터 입니다.', '어떻게 쪼개지는지 알아볼까요?']

In [21]:
r_splitter.split_text(text2)

['청킹을 위한 예제 데이터 입니다.', '어떻게 쪼개지는지 알아볼까요?', '결과를 확인해봅시다']

In [20]:
r_splitter.split_text(text3)

['청킹을 위한 예제 데이터 입니다.', '어떻게 쪼개지는지 알아볼까요?', '결과를 확인해봅시다.']

### Character, Recursive 비교

In [27]:
see_you_again = """It's been a long day without you, my friend.
And I'll tell you all about it when I see you again.
We've come a long way from where we began.
Oh, I'll tell you all about it when I see you again.
When I see you again.
Damn, who knew?


All the planes we flew, good things we been through.
That I'd be standing right here talking to you.
'Bout another path, I know we loved to hit the road and laugh.
But something told me that it wouldn't last.
Had to switch up, look at things different, see the bigger picture.
Those were the days, hard work forever pays.
Now I see you in a better place (see you in a better place).
Uh."""

In [28]:
len(see_you_again)

620

In [34]:
c_splitter=CharacterTextSplitter(
    chunk_size=100,
    chunk_overlap=0,
    separator='\n\n' #청크로 나누는 기준(직접지정가능)
)

c_splitter.split_text(see_you_again)

Created a chunk of size 231, which is longer than the specified 100


["It's been a long day without you, my friend.\nAnd I'll tell you all about it when I see you again.\nWe've come a long way from where we began.\nOh, I'll tell you all about it when I see you again.\nWhen I see you again.\nDamn, who knew?",
 "All the planes we flew, good things we been through.\nThat I'd be standing right here talking to you.\n'Bout another path, I know we loved to hit the road and laugh.\nBut something told me that it wouldn't last.\nHad to switch up, look at things different, see the bigger picture.\nThose were the days, hard work forever pays.\nNow I see you in a better place (see you in a better place).\nUh."]

In [35]:
r_splitter= RecursiveCharacterTextSplitter(
    chunk_size=100,
    chunk_overlap=0,
    separators=['\n\n', '\n',' '] #리스트로 여러 조건을 설정가능(계층적이므로 순서가 중요함)
)

r_splitter.split_text(see_you_again)

["It's been a long day without you, my friend.\nAnd I'll tell you all about it when I see you again.",
 "We've come a long way from where we began.\nOh, I'll tell you all about it when I see you again.",
 'When I see you again.\nDamn, who knew?',
 'All the planes we flew, good things we been through.',
 "That I'd be standing right here talking to you.",
 "'Bout another path, I know we loved to hit the road and laugh.",
 "But something told me that it wouldn't last.",
 'Had to switch up, look at things different, see the bigger picture.',
 'Those were the days, hard work forever pays.',
 'Now I see you in a better place (see you in a better place).\nUh.']

- CharacterTextSplitter를 사용한 결과가 만족스럽지 못하다면 더 작은 단위의 구분자를 지정하여 해결하거나 Recursive를 사용하여 계층적 분할을 적용하면 됨
- 처음부터 Recursive를 사용하는 것이 더 편리할 수 있음

### 웹 페이지에 접근해 텍스트 데이터 가져오기

In [37]:
#WebBaseLoader : langchain라이브러리에서 지원하는 웹페이지 html컨텐츠를 로드해주는 클래스(내부적으로 BeautifulSoup을 사용함)
from langchain.document_loaders import WebBaseLoader

USER_AGENT environment variable not set, consider setting it to identify your requests.


In [42]:
loader=WebBaseLoader('https://www.hankyung.com/article/2025020547046')

#브라우저 우회 접속
loader.requests_kwargs = {'headers':{'User-Agent':'Mozilla/5.0'}}

#한글 인코딩 설정
loader.encoding='utf-8'

docs=loader.load()
docs

[Document(metadata={'source': 'https://www.hankyung.com/article/2025020547046', 'title': '급매라도 팔릴지…4억 로또 세종 아파트, 청약 해? 말아? | 한국경제', 'description': '급매라도 팔릴지…4억 로또 세종 아파트, 청약 해? 말아?, 세종시 소담동 힐스테이트 세종리버파크 무순위 청약 6일 8단지(H3블록)·7일 7단지(H4블록) 청약 최근 거래 급매 수준, 가격 낮춰도 팔릴지 장담 못해', 'language': 'ko'}, page_content='\n\n\n급매라도 팔릴지…4억 로또 세종 아파트, 청약 해? 말아? | 한국경제\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n본문 바로가기\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n한경코리아마켓\n\n\n한경글로벌마켓\n\n\n집코노미\n\n\n오피니언\n\n\n경제\n\n\n금융\n\n\n산업\n\n\n\n유통\n\n\nIT\n\n\n국제\n\n\n프리미엄\n\n\n\n\n\n마켓인사이트\n\n\n\n\n한경Law&Biz\n\n\n\n\n한경 BIO Insight\n\n\n\n\n한경CHO Insight\n\n\n\n\n한경ESG\n\n\n\n\n한경Geeks\n\n\n\n\n입법 익스플로러\n\n\n\n\n아르떼\n\n\n\n\n\n한경만의 독자적인 프리미엄 콘텐츠입니다.\n\n\n\n\n\n더보기\n\n\n\n\n\n\n\n\n정치\n\n\n사회\n\n\n골프\n\n\n연예\n\n\n스포츠\n\n\n회원전용\n\n\n전체뉴스\n\n\n\n\n한경트래블\n\n\n뉴스레터\n\n\n스페셜 리포트\n\n\nThe Moneyist\n\n\nThe Lif

In [49]:
print(docs[0].page_content[:500])




급매라도 팔릴지…4억 로또 세종 아파트, 청약 해? 말아? | 한국경제























































































본문 바로가기














한경코리아마켓


한경글로벌마켓


집코노미


오피니언


경제


금융


산업



유통


IT


국제


프리미엄





마켓인사이트




한경Law&Biz




한경 BIO Insight




한경CHO Insight




한경ESG




한경Geeks




입법 익스플로러




아르떼





한경만의 독자적인 프리미엄 콘텐츠입니다.





더보기








정치


사회


골프


연예


스포츠


회원전용


전체뉴스




한경트래블


뉴스레터


스페셜 리포트


The Moneyist


The Lifeist


한경동영상


기자 코너


POLL


랭킹뉴스


인


- 문자열 처리 코드나 정규표현식(re)등을 활용하여 필요한 텍스트만 추출해서 사용가능

### 1) 문자열 함수 replace 활용

In [48]:
print(docs[0].page_content[:500].replace('\n',''))

급매라도 팔릴지…4억 로또 세종 아파트, 청약 해? 말아? | 한국경제본문 바로가기한경코리아마켓한경글로벌마켓집코노미오피니언경제금융산업유통IT국제프리미엄마켓인사이트한경Law&Biz한경 BIO Insight한경CHO Insight한경ESG한경Geeks입법 익스플로러아르떼한경만의 독자적인 프리미엄 콘텐츠입니다.더보기정치사회골프연예스포츠회원전용전체뉴스한경트래블뉴스레터스페셜 리포트The MoneyistThe Lifeist한경동영상기자 코너POLL랭킹뉴스인


#### 2) 문자열 정규표현식 활용
-  정규표현식은 검색결과 개별 문자열로 출력되기 때문에 필요에 따라 이를 합쳐서 전체 텍스트로 활용할 수 있음

In [54]:
import re
#[\w] : 한글,영어대소문자, 숫자 및 언버라를 포함하는 텍스트 추출
# +: 연속된 문자들을 문자열로 반환
re.findall(r'[\w]+',docs[0].page_content[:500]) #\w = 가-힣a-zA-Z0-9

['급매라도',
 '팔릴지',
 '4억',
 '로또',
 '세종',
 '아파트',
 '청약',
 '해',
 '말아',
 '한국경제',
 '본문',
 '바로가기',
 '한경코리아마켓',
 '한경글로벌마켓',
 '집코노미',
 '오피니언',
 '경제',
 '금융',
 '산업',
 '유통',
 'IT',
 '국제',
 '프리미엄',
 '마켓인사이트',
 '한경Law',
 'Biz',
 '한경',
 'BIO',
 'Insight',
 '한경CHO',
 'Insight',
 '한경ESG',
 '한경Geeks',
 '입법',
 '익스플로러',
 '아르떼',
 '한경만의',
 '독자적인',
 '프리미엄',
 '콘텐츠입니다',
 '더보기',
 '정치',
 '사회',
 '골프',
 '연예',
 '스포츠',
 '회원전용',
 '전체뉴스',
 '한경트래블',
 '뉴스레터',
 '스페셜',
 '리포트',
 'The',
 'Moneyist',
 'The',
 'Lifeist',
 '한경동영상',
 '기자',
 '코너',
 'POLL',
 '랭킹뉴스',
 '인']

In [58]:
' '.join(re.findall(r'[\w]+',docs[0].page_content))

'급매라도 팔릴지 4억 로또 세종 아파트 청약 해 말아 한국경제 본문 바로가기 한경코리아마켓 한경글로벌마켓 집코노미 오피니언 경제 금융 산업 유통 IT 국제 프리미엄 마켓인사이트 한경Law Biz 한경 BIO Insight 한경CHO Insight 한경ESG 한경Geeks 입법 익스플로러 아르떼 한경만의 독자적인 프리미엄 콘텐츠입니다 더보기 정치 사회 골프 연예 스포츠 회원전용 전체뉴스 한경트래블 뉴스레터 스페셜 리포트 The Moneyist The Lifeist 한경동영상 기자 코너 POLL 랭킹뉴스 인사 부고 보도자료 데이터센터 한경용어사전 한경행사 스타워즈 한경유레카 한경운세 신문 전자판 신문 구독신청 한경스토어 한경렌탈 한경미디어 한국경제TV KED Global 한국경제매거진 한경에이셀 한경 arte TV 한경 arte 필하모닉 BOOK 한경아카데미 한경블루애드 텐아시아 생글생글 주니어 생글생글 TESAT 29초영화제 교육센터 블루밍비트 키즈맘 포천힐스 빠른 메뉴 찾기 검색어 삭제 자동완성창 닫기 통합검색 한국경제 통합검색 검색어 삭제 검색 검색창 닫기 로그인 회원 메뉴 회원가입 로그인 한국경제 회원이 되어 보세요 지금 바로 한국경제 회원으로 가입하시고 독점 혜택을 누려보세요 특별한 뉴스와 분석 보고서 접근 주식 시장 및 경제 동향에 대한 최신 정보 한경만의 독자적인 콘텐츠에 대한 접근 이벤트 및 세미나 참가 기회 이미 회원이시면 로그인을 클릭해 주세요 고객센터 계정관리 My한경 한경 AI 한경 AI로 맞춤 뉴스와 빠른 검색을 경험하세요 구독 유료 상품 로그아웃 고객센터 회원 메뉴 닫기 집코노미 전체뉴스 집PRO 시장동향 정책 산업 분양 경매 투자상품 핫 부동산 동네뉴스맵 주민센터 밸류업센터 매물정보 국내 부동산 글로벌 부동산 신문 매물마당 매물관리센터 급매라도 팔릴지 4억 로또 세종 아파트 청약 해 말아 돈앤톡 이송렬 기자 기자 구독 입력2025 02 06 06 30 수정2025 02 06 06 30 글자크기 조절 기사 스크랩 기사 스크랩 공유 공유 

In [None]:
### 문서 로더(Document Loader)
- langchia에 문서를 사용해 다양한 형식의 데이터 파일로부터 텍스트를 로드할 수 있음
- 로드한 문서는 document 객체로 변환되어 출력되며, page_contect 내용, metadata 에는 데이터에 대한 설명을 포함하고 있음
- 간단한 pdf 파일을 로드하거나 word, csv, excel, json 등을 로드하기 위한 문서 로더 들이 각각존더

## 문서로더 종류
- TextLoader:txt 파일 업로드
- PyPdfloaver:pdf
- JSONLoader: json
- CSVLoader: csv
- UnstructuredHTMLLoader: html

### TextLoader

In [62]:
from langchain.document_loaders import TextLoader

In [65]:
loader=TextLoader('data/멜론차트 TOP100.txt', encoding='utf-8')

doc=loader.load()
print(doc[0].page_content)

	타이틀	아티스트
0	비의 랩소디	임재현
1	To. X	태연 (TAEYEON)
2	Perfect Night	LE SSERAFIM (르세라핌)
3	Drama	aespa
4	에피소드	이무진
5	사랑은 늘 도망가	임영웅
6	헤어지자 말해요	박재정
7	그대만 있다면 (여름날 우리 X 너드커넥션 (Nerd Connection))	너드커넥션 (Nerd Connection)
8	인사	범진
9	Love 119	RIIZE
10	Seven (feat. Latto) - Clean Ver.	정국
11	Baddie	IVE (아이브)
12	우리들의 블루스	임영웅
13	모래 알갱이	임영웅
14	Do or Die	임영웅
15	다시 만날 수 있을까	임영웅
16	첫 눈	EXO
17	I AM	IVE (아이브)
18	Love Lee	AKMU (악뮤)
19	이제 나만 믿어요	임영웅
20	Get A Guitar	RIIZE
21	무지개	임영웅
22	You & Me	제니 (JENNIE)
23	London Boy	임영웅
24	아버지	임영웅
25	Polaroid	임영웅
26	Standing Next to You	정국
27	인생찬가	임영웅
28	너의 모든 순간	성시경
29	후라이의 꿈	AKMU (악뮤)
30	A bientot	임영웅
31	Super Shy	NewJeans
32	사막에서 꽃을 피우듯	우디 (Woody)
33	Ditto	NewJeans
34	잘 지내자, 우리 (여름날 우리 X 로이킴)	로이킴
35	ETA	NewJeans
36	Hype Boy	NewJeans
37	연애편지	임영웅
38	퀸카 (Queencard)	(여자)아이들
39	어떻게 이별까지 사랑하겠어, 널 사랑하는 거지	AKMU (악뮤)
40	MANIAC	VIVIZ (비비지)
41	별 떨어진다 (I Do)	디오 (D.O.)
42	사랑인가 봐	멜로망스
43	Discord	QWER
44	Dynamite	방탄소년단
45	봄날	방탄소년단
46	Spicy	aespa
47	사건의 지평선	윤하 (YOUNHA)
48	사랑할 수밖에	볼빨간사춘기
49	사랑하

In [66]:
r_splitter= RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=0,
)


#laod_and_split:데이터를 로드하며 동시에 설정된 splitter 를 적용해주는 수
docs_split1=loader.load_and_split(r_splitter)
print(f'정크 개수: {len(docs_split1)}개')
print()

for doc in docs_split1:
    print(doc.page_content)
    print('='*100)

정크 개수: 5개

타이틀	아티스트
0	비의 랩소디	임재현
1	To. X	태연 (TAEYEON)
2	Perfect Night	LE SSERAFIM (르세라핌)
3	Drama	aespa
4	에피소드	이무진
5	사랑은 늘 도망가	임영웅
6	헤어지자 말해요	박재정
7	그대만 있다면 (여름날 우리 X 너드커넥션 (Nerd Connection))	너드커넥션 (Nerd Connection)
8	인사	범진
9	Love 119	RIIZE
10	Seven (feat. Latto) - Clean Ver.	정국
11	Baddie	IVE (아이브)
12	우리들의 블루스	임영웅
13	모래 알갱이	임영웅
14	Do or Die	임영웅
15	다시 만날 수 있을까	임영웅
16	첫 눈	EXO
17	I AM	IVE (아이브)
18	Love Lee	AKMU (악뮤)
19	이제 나만 믿어요	임영웅
20	Get A Guitar	RIIZE
21	무지개	임영웅
22	You & Me	제니 (JENNIE)
23	London Boy	임영웅
24	아버지	임영웅
25	Polaroid	임영웅
26	Standing Next to You	정국
27	인생찬가	임영웅
28	너의 모든 순간	성시경
29	후라이의 꿈	AKMU (악뮤)
30	A bientot	임영웅
31	Super Shy	NewJeans
32	사막에서 꽃을 피우듯	우디 (Woody)
33	Ditto	NewJeans
34	잘 지내자, 우리 (여름날 우리 X 로이킴)	로이킴
35	ETA	NewJeans
36	Hype Boy	NewJeans
37	연애편지	임영웅
38	퀸카 (Queencard)	(여자)아이들
39	어떻게 이별까지 사랑하겠어, 널 사랑하는 거지	AKMU (악뮤)
40	MANIAC	VIVIZ (비비지)
41	별 떨어진다 (I Do)	디오 (D.O.)
42	사랑인가 봐	멜로망스
43	Discord	QWER
44	Dynamite	방탄소년단
45	봄날	방탄소년단
46	Spicy	aespa
47	사건의 지평선	윤하 (YOUNHA)
48	사랑할 수밖에	볼빨간

### PyPDFLoader 

In [68]:
#파이썬용 PDF 처리 라이브러리 설치 
!pip install pypdf

Collecting pypdf
  Downloading pypdf-5.2.0-py3-none-any.whl.metadata (7.2 kB)
Downloading pypdf-5.2.0-py3-none-any.whl (298 kB)
Installing collected packages: pypdf
Successfully installed pypdf-5.2.0


In [70]:
from langchain.document_loaders import PyPDFLoader

In [73]:
loader = PyPDFLoader('data/기술보증기금과 한국경제.pdf')

#load_aand_split: pdf 로드 후 페이지 별로 분리
docs=loader.load_and_split()

print('페이지수:', len(docs))
docs

페이지수: 5


[Document(metadata={'source': 'data/기술보증기금과 한국경제.pdf', 'page': 0, 'page_label': '1'}, page_content='페이지 1 / 5 \n \n기술보증기금과 한국경제 \n \nI. 기술보증기금 개요  \n1. 설립근거 : 기술보증기금법 \n \n- 설립목적(존재이유) \n✓ 기술보증기금을 설립하여 기술보증제도를 정착·발전시킴으로써 신 기술사업에 대한 자금의 \n공급을 원활하게 하고 나아가 국민 경제의 발전에 이바지함을 목적으로 함(기술보증기금법1\n조) \n✓ 설립 : 담보능력이 미약한 기업의 채무를 보증하게 하여 기업에 대한 자금 융통을 원활하게 하기 \n위하여 기술보증기금을 설립(법 12조) \n✓ 기금의 재원 : 정부 출연금의 예산은 중소벤처기업부 소관으로 함 \n \n☞ 기술보증기금은  \n✓ 기술력은 우수하지만 담보 부족한 중소기업의 \n✓ 기술성과 사업성 평가를 통해 기술보증을 지원하며, \n✓ 기술평가, 벤처이노비즈기업  인증, 중소기업 창업지원 등의 업무 수행 \n \n2. 주요개념1 \n \n업  무 내  용 \n기술보증 신기술사업자가 부담하는 금전 채무 보증.( 신용부족-담보부족 해결) \n \n금융회사 등으로부터 자금 대출을 받음으로써 금융회사 등에 대하여 부담하는 금전 채무를 \n기술보증기금이 기술보증서로 보증 \n 신기술사업자 - 기술을 개발하거나 이를 응용하여 사업화하는 중소기업(「중소기업기본법」에 \n따른 중소기업) 및 대통령령으로 정하는 기업 \n- "기업"이란 사업을 하는 개인 및 법인 \n신용보증 상시 사용하는 종업원이 1천명 이하이고 총자산액이 1천억원 이하인 기업이 부담하는 금전\n채무 보증. \n기술평가 해당 기술과 관련된 기술성·시장성·사업타당성 등을 종합적으로 평가하여 \n금액·등급·의견 또는 점수 등으로 표시하는 것을 말한다 \n* 기금은 기술평가의 객관성 및 공정성 등을 확보하기 위하여 기술평가의 \n기준·절차·방법·종류 등에 관한 사항을 미리 정하여야 

In [76]:
pdf_splitter= RecursiveCharacterTextSplitter(
    chunk_size=300,
    chunk_overlap=0,
)

docs_split=loader.load_and_split(pdf_splitter)

print(f'청크개수:{ len(docs_split)}개')
docs_split

청크개수:22개


[Document(metadata={'source': 'data/기술보증기금과 한국경제.pdf', 'page': 0, 'page_label': '1'}, page_content='페이지 1 / 5 \n \n기술보증기금과 한국경제 \n \nI. 기술보증기금 개요  \n1. 설립근거 : 기술보증기금법 \n \n- 설립목적(존재이유) \n✓ 기술보증기금을 설립하여 기술보증제도를 정착·발전시킴으로써 신 기술사업에 대한 자금의 \n공급을 원활하게 하고 나아가 국민 경제의 발전에 이바지함을 목적으로 함(기술보증기금법1\n조) \n✓ 설립 : 담보능력이 미약한 기업의 채무를 보증하게 하여 기업에 대한 자금 융통을 원활하게 하기 \n위하여 기술보증기금을 설립(법 12조)'),
 Document(metadata={'source': 'data/기술보증기금과 한국경제.pdf', 'page': 0, 'page_label': '1'}, page_content='✓ 기금의 재원 : 정부 출연금의 예산은 중소벤처기업부 소관으로 함 \n \n☞ 기술보증기금은  \n✓ 기술력은 우수하지만 담보 부족한 중소기업의 \n✓ 기술성과 사업성 평가를 통해 기술보증을 지원하며, \n✓ 기술평가, 벤처이노비즈기업  인증, 중소기업 창업지원 등의 업무 수행 \n \n2. 주요개념1 \n \n업  무 내  용 \n기술보증 신기술사업자가 부담하는 금전 채무 보증.( 신용부족-담보부족 해결) \n \n금융회사 등으로부터 자금 대출을 받음으로써 금융회사 등에 대하여 부담하는 금전 채무를 \n기술보증기금이 기술보증서로 보증'),
 Document(metadata={'source': 'data/기술보증기금과 한국경제.pdf', 'page': 0, 'page_label': '1'}, page_content='신기술사업자 - 기술을 개발하거나 이를 응용하여 사업화하는 중소기업(「중소기업기본법」에 \n따른 중소기업) 및 대통령령으로 정하는 기업 \n- "기업"이란 사업을 하는 개인 및 법인 \n신용보증 상시 사용하는 종

###JSON loader


In [86]:
#json 데이터 추출 및 기타 작업들을 지원해주는 라이브러리
!pip install jq



In [88]:
from langchain.document_loaders import JSONLoader

In [90]:
loader=JSONLoader('data/ya_review_glad.json',
                  #jq_schema : json 구조에서 특정부분을 추출하는데 사용하는 인자
                  jq_schema = '.[].review' #현재는 리스트내에 key가 review인 값들만 추출하겠다는 뜻
                 )

doc=loader.load()
doc

[Document(metadata={'source': 'C:\\Users\\SJ\\새싹\\data\\ya_review_glad.json', 'seq_num': 1}, page_content='편리하고 깨끗한 시설이 좋았습니다'),
 Document(metadata={'source': 'C:\\Users\\SJ\\새싹\\data\\ya_review_glad.json', 'seq_num': 2}, page_content='가족과 함께 묵었습니다. 아주 편안하게 이용했습니다.\n침대도 부드럽고 청결하고, 욕실도 깨끗했습니다.'),
 Document(metadata={'source': 'C:\\Users\\SJ\\새싹\\data\\ya_review_glad.json', 'seq_num': 3}, page_content='체크인\n체크인 시간보다 일찍 가도 얼리 체크인이 가능해서 빠르게 일정을 준비할 수 있어서 좋았습니다.\n방 컨디션\n방은 호텔이라는 이름에 맞게 상당히 깔끔하게 준비되어 있었습니다 크기는 2명에 사용하기 적당하다고 생각되고 환기가 가능한 창문이 있어서 좋았지만 뷰는 일반적인 도로뷰 입니다.\n침구, 서비스\n침구는 상당히 좋았던 경험입니다 숙박기간동안 잠을 정말 잘잤으며 이불도 푹신하고 깔끔해서 좋은 기분으로 잠을 잘 수 있었습니다 호텔리어분들의 친철함과 캐리어 보관 서비스 또한 정말 좋고 로봇을 활용한 서비스와 특별한 경험을 했습니다\n기타 \n룸서비스는 따로 없지만 지하에 일식집과 양식집이 있어서 이용하기 좋았고 바로 앞에 삼성역이 있어서 교통적으로 이점과 코엑스가 가까워 상당한 지리적인 이점이 있다고 생각되는곳입니다~'),
 Document(metadata={'source': 'C:\\Users\\SJ\\새싹\\data\\ya_review_glad.json', 'seq_num': 4}, page_content='침구류가 아주 좋네요'),
 Document(metadata={'source': 'C:\\Users\\SJ\\새싹\\data\\ya_r

In [93]:
docs_split=loader.load_and_split(r_splitter)
print(f'청크개수: {len(docs_split)}개')
print()

for doc in docs_split:
    print(doc.page_content)
         
print('='*100)

청크개수: 420개

편리하고 깨끗한 시설이 좋았습니다
가족과 함께 묵었습니다. 아주 편안하게 이용했습니다.
침대도 부드럽고 청결하고, 욕실도 깨끗했습니다.
체크인
체크인 시간보다 일찍 가도 얼리 체크인이 가능해서 빠르게 일정을 준비할 수 있어서 좋았습니다.
방 컨디션
방은 호텔이라는 이름에 맞게 상당히 깔끔하게 준비되어 있었습니다 크기는 2명에 사용하기 적당하다고 생각되고 환기가 가능한 창문이 있어서 좋았지만 뷰는 일반적인 도로뷰 입니다.
침구, 서비스
침구는 상당히 좋았던 경험입니다 숙박기간동안 잠을 정말 잘잤으며 이불도 푹신하고 깔끔해서 좋은 기분으로 잠을 잘 수 있었습니다 호텔리어분들의 친철함과 캐리어 보관 서비스 또한 정말 좋고 로봇을 활용한 서비스와 특별한 경험을 했습니다
기타 
룸서비스는 따로 없지만 지하에 일식집과 양식집이 있어서 이용하기 좋았고 바로 앞에 삼성역이 있어서 교통적으로 이점과 코엑스가 가까워 상당한 지리적인 이점이 있다고 생각되는곳입니다~
침구류가 아주 좋네요
주변 활용도가 높습니다
명불허전 글래드 최고입니다!
위치가 너무  좋은 숙소 입니다. 다음날 출국이라 고른 숙소! 깨끗하고  1층에 조용히 이야기 나눌 곳도 있는 좋은 호텔 . 강추입니다.
가갹대비 편리하고 좋아요
글래드삼성 위치도 좋고 무엇보다 침구가 너무 편안합니다. :) 편안한 숙박이었어요.
응대도 친절합니다.
3층으로 배정받았는데 커텐치면 도로에 차들과 지나가는 사람들이랑 아이컨텍 할정도록 너무 훤히 다 보여서
커텐을 열어둘수가 없었어요ㅠ.ㅠ
코엑스랑 가까워서 좋구요 
방 배정해주신 직원분은 피곤하신건지 친절하시다는 느낌은 못받았숩니다.
발렛주차 직원 너무 친절하고 편리합니다. 감사합니다
방이 그다지 넓진 않고
삼성역이 장기공사중이라 뷰도 기대할 건 없지만
체크인이 간편하고 침구도 깔끔하고
요청사항도 잘 반영해주셔서 편안하게 이용했습니다
편안하게 잘 사용했습니다.
항상 호캉스 하고싶을때 가요! 지하에 있는 식당들도 맛있고, 코엑스나 맛집들과도 가까워서 편해요! 방 상태