# Semantic Chunking 실습

## 0. Basic Setting

In [1]:
import os
from typing import Callable, List

current_dir = os.getcwd()
root_dir = os.path.join(current_dir, '..', '..')

In [2]:
from dotenv import load_dotenv

load_dotenv()

True

In [3]:
import nest_asyncio

nest_asyncio.apply()

In [4]:
import pandas as pd

parsed_path = os.path.join(root_dir, 'autorag_project', 'parse', 'hybrid', 'pdf.parquet')
parsed_result = pd.read_parquet(parsed_path)
parsed_result

Unnamed: 0,texts,path,page,last_modified_datetime
0,# 중소벤처기업부공고제2024–300호\n\n# 2024년 글로벌팁스(GlobalT...,/Users/kimbwook/PycharmProjects/fast-campus/no...,1,2024-12-11
1,# 서류및발표평가\n\n# 결과에최대 5점까지 가점부여\n\n|가점세부항목|점수|비...,/Users/kimbwook/PycharmProjects/fast-campus/no...,10,2024-12-11
2,# 6 유의사항\n\n◈창업지원사업에신청하는창업기업은관련법령에따라 다음사항에유의하여...,/Users/kimbwook/PycharmProjects/fast-campus/no...,11,2024-12-11
3,◦ 선정자는 창업진흥원이 지정한 은행계좌(사업비계좌) 개설 및 창업 사업 통합 관리...,/Users/kimbwook/PycharmProjects/fast-campus/no...,15,2024-12-11
4,# 창업여부 기준표\n\n|신청기업구분|상세구분| |창업여부|\n|---|---|-...,/Users/kimbwook/PycharmProjects/fast-campus/no...,17,2024-12-11
5,# 붙임2\n\n|지원|제외|대상|업종|\n|---|---|---|---|\n|▶ ...,/Users/kimbwook/PycharmProjects/fast-campus/no...,18,2024-12-11
6,# 붙임3\n\n# 동시수행불가한글로벌창업지원사업목록\n\n※’24년도중소벤처기업부...,/Users/kimbwook/PycharmProjects/fast-campus/no...,19,2024-12-11
7,# 붙임4\n\n# 신산업 창업 분야\n\n※「중소기업창업지원법」제25조4항에따라신...,/Users/kimbwook/PycharmProjects/fast-campus/no...,20,2024-12-11
8,# 붙임5\n\n# 소재·부품·장비 및 스타트업 10대 초격차분야\n\n☞ 품목별 ...,/Users/kimbwook/PycharmProjects/fast-campus/no...,21,2024-12-11
9,# 전략분야\n\n# 전략품목\n\n|수소저장·운반용복합소재|4DFMCW라이다신호처...,/Users/kimbwook/PycharmProjects/fast-campus/no...,22,2024-12-11


In [5]:
texts = parsed_result["texts"].tolist()

### For LlamaIndex Chunk

In [6]:
from llama_index.core import Document

documents = [Document(text=texts[0])]

In [7]:
def split_by_sentence_kiwi() -> Callable[[str], List[str]]:
	from kiwipiepy import Kiwi
	kiwi = Kiwi()

	def split(text: str) -> List[str]:
		kiwi_result = kiwi.split_into_sents(text)
		sentences = list(map(lambda x: x.text, kiwi_result))

		return sentences

	return split

In [8]:
from llama_index.core.node_parser import SemanticSplitterNodeParser
from llama_index.embeddings.openai import OpenAIEmbedding
# from llama_index.embeddings.upstage import UpstageEmbedding

embed_model = OpenAIEmbedding()
# upstage = UpstageEmbedding()

semantic = SemanticSplitterNodeParser(sentence_splitter=split_by_sentence_kiwi(), embed_model=embed_model, breakpoint_percentile_threshold=95)

semantic_result = semantic.get_nodes_from_documents(documents=documents)
semantic_texts = [x.text for x in semantic_result]

In [12]:
len(semantic_texts)

2

In [13]:
print(semantic_texts[0])

# 중소벤처기업부공고제2024–300호# 2024년 글로벌팁스(GlobalTIPS) 창업기업 모집 공고해외투자와 연계하여 유망 창업기업의 해외 진출 및 글로벌 기업으로의 성장을 지원하는 『2024년 글로벌팁스(GlobalTIPS)』에 참여할 창업기업을 다음과 같이 모집합니다.2024년 5월 7일중소벤처기업부장관# 1 사업개요□ 사업목적: 미래 신성장 동력 발굴과 글로벌 선도 기업 육성 등을 위해 해외 벤처 캐피탈 등으로부터 투자받은 유망 창업기업의 글로벌 진출 활성화 도모□ 지원대상: 해외 VC로부터 20만 불 이상 투자를 유치하고 해외 법인 설립 희망하는 업력 7년 이내 창업기업*「중소기업 창업 지원법」에 따른 신산업 분야 ([붙임4] 참조) 창업기업인 경우 업력 10년 기업까지 지원 가능□ 지원내용: 사업화 자금 (최대 2억원, 평균 1.8억원) 현지 진출 프로그램 등|사업화 자금|현지 진출 프로그램|
|---|---|
|시제품 제작, 지재권 취득, 사업모델 (BM) 개선 등에 소요되는 비용 지원|실무 교육, 멘토링, 글로벌 네트워킹, 후속 투자 유치 등 주관 기관의 창업 프로그램 운영|□ 선정규모: 20개사 내외


In [14]:
print(semantic_texts[1])

□ 협약기간: 협약 시작일로부터 10개월 이내* 사업기간은 총 3년으로 선정 후, 1년 단위로 협약 연장


# Use AutoRAG

In [15]:
from autorag.chunker import Chunker

# Set path
parsed_path = os.path.join(root_dir, 'autorag_project', 'parse', 'hybrid', 'parsed_result.parquet')
project_dir = os.path.join(root_dir, 'autorag_project', 'chunk', 'semantic')

chunker = Chunker.from_parquet(parsed_data_path=parsed_path, project_dir=project_dir)
chunker.start_chunking(os.path.join(root_dir, 'config', 'chunk', 'semantic_chunking.yaml'))

# Check Result

In [16]:
result_path = os.path.join(project_dir, '0.parquet')
df = pd.read_parquet(result_path)

In [17]:
df

Unnamed: 0,doc_id,contents,path,start_end_idx,metadata
0,123d0aa2-a64b-4762-9ad4-bb63f6493202,# 중소벤처기업부공고제2024–300호# 2024년 글로벌팁스(GlobalTIPS)...,/Users/kimbwook/PycharmProjects/fast-campus/no...,"[0, 0]","{'last_modified_datetime': '2024-12-11', 'next..."
1,9dede19f-a14a-486c-9837-9dfc6078e07e,"□ 협약기간: 협약 시작일로부터 10개월 이내* 사업기간은 총 3년으로 선정 후, ...",/Users/kimbwook/PycharmProjects/fast-campus/no...,"[0, 0]","{'last_modified_datetime': '2024-12-11', 'next..."
2,b543688b-4a53-4c11-bb60-91e5e3936ea2,# 서류및발표평가# 결과에최대 5점까지 가점부여|가점세부항목|점수|비고|\n|---...,/Users/kimbwook/PycharmProjects/fast-campus/no...,"[0, 0]","{'last_modified_datetime': '2024-12-11', 'next..."
3,e6814521-f114-4457-8cb6-09cefe636639,※세부일정은대내‧외사정에의해변경될수있음|공고|창업기업신청‧접수|요건검토및선정평가|\...,/Users/kimbwook/PycharmProjects/fast-campus/no...,"[0, 0]","{'last_modified_datetime': '2024-12-11', 'next..."
4,68a82427-02af-430e-9b96-03498f306321,# 6 유의사항◈창업지원사업에신청하는창업기업은관련법령에따라 다음사항에유의하여야합니다...,/Users/kimbwook/PycharmProjects/fast-campus/no...,"[0, 0]","{'last_modified_datetime': '2024-12-11', 'next..."
5,19e87e69-82be-4c39-b23b-7648dee012a7,"□신청시유의사항# 【창업기업대표자】- 동사업신청은해당창업기업의대표자가하여야하며,동사...",/Users/kimbwook/PycharmProjects/fast-campus/no...,"[0, 0]","{'last_modified_datetime': '2024-12-11', 'next..."
6,777e3067-0173-4629-ba6b-e202cdca11a7,◦ 선정자는 창업진흥원이 지정한 은행계좌(사업비계좌) 개설 및 창업 사업 통합 관리...,/Users/kimbwook/PycharmProjects/fast-campus/no...,"[0, 0]","{'last_modified_datetime': '2024-12-11', 'next..."
7,0a2605ef-8890-490b-99f3-06e6b43c9577,7 사업신청문의□ 문의처◦ (시스템문의) 국번없이 1357◦ (사업문의) 주관기관 ...,/Users/kimbwook/PycharmProjects/fast-campus/no...,"[0, 0]","{'last_modified_datetime': '2024-12-11', 'next..."
8,b51fda8b-a3ab-4ab3-a76a-a1f1a44b01b2,# 창업여부 기준표|신청기업구분|상세구분| |창업여부|\n|---|---|---|-...,/Users/kimbwook/PycharmProjects/fast-campus/no...,"[0, 0]","{'last_modified_datetime': '2024-12-11', 'next..."
9,be654777-4519-4f47-ab20-f8e5a997c4e5,|이종|창업| |※ 포괄양수도계약에 의한 법인전환: 양도기업(기존개인사업자) 개시일...,/Users/kimbwook/PycharmProjects/fast-campus/no...,"[0, 0]","{'last_modified_datetime': '2024-12-11', 'next..."
