# Parse Document using OCR Model

## 0. Import Library & Directory Setting

In [16]:
import pandas as pd
from glob import glob
import os

from dotenv import load_dotenv
import nest_asyncio

from llama_parse import LlamaParse

from autorag.parser import Parser

In [13]:
cur_dir = os.getcwd()
root_dir = cur_dir
data_dir = os.path.join(root_dir, "data", "parse_single")
glob_path = os.path.join(data_dir, "*")

file_path = glob(glob_path)[0]
file_path

'/home/martinus/workspace/RAG-Evaluation/Parsing/data/parse_single/sample.pdf'

## 1. Set Environment Variables

In [None]:
load_dotenv()

True

In [None]:
nest_asyncio.apply() # jupyter를 활용해 실험 시 발생할 에러를 방지

## 2. Use Llama Parse

In [14]:
parse_instance = LlamaParse(result_type="markdown", language="ko")

In [15]:
parse_instance.load_data(file_path)

Started parsing the file under job_id 49de00d1-bb60-495e-8e3c-7a62e76c66f1


[Document(id_='f9e7931a-f6c7-463a-b481-459abc912e7a', embedding=None, metadata={}, excluded_embed_metadata_keys=[], excluded_llm_metadata_keys=[], relationships={}, text='# 중소벤처기업부 공고 제2024–300호\n\n# 2024년 글로벌 팁스(Global TIPS) 창업기업 모집 공고\n\n해외투자와 연계하여 유망 창업기업의 해외 진출 및 글로벌 기업으로의 성장을 지원하는 『2024년 글로벌 팁스(Global TIPS)』에 참여할 창업기업을 다음과 같이 모집합니다.\n\n2024년 5월 7일\n\n중소벤처기업부 장관\n\n# 1  사업개요\n\n- 사업목적 : 미래 신성장 동력 발굴과 글로벌 선도기업 육성 등을 위해 해외 벤처캐피탈 등으로부터 투자받은 유망 창업기업의 글로벌 진출 활성화 도모\n- 지원대상 : 해외 VC로부터 20만 불 이상 투자를 유치하고 해외 법인 설립·희망하는 업력 7년 이내 창업기업\n- * 「중소기업창업 지원법」에 따른 신산업 분야([붙임4] 참조) 창업기업인 경우 업력 10년 기업까지 지원 가능\n- 지원내용 :\n|사업화자금 (최대 2억원, 평균 1.8억원)|현지진출 프로그램 등|\n|---|---|\n|시제품 제작, 지재권 취득, 사업모델 (BM) 개선 등에 소요되는 비용 지원|실무교육, 멘토링, 글로벌 네트워킹, 후속 투자유치 등 주관기관의 창업 프로그램 운영|\n- 선정규모 : 20개사 내외\n- 협약기간 : 협약시작일로부터 10개월 이내\n- * 사업기간은 총 3년으로 선정 후, 1년 단위로 협약 연장', mimetype='text/plain', start_char_idx=None, end_char_idx=None, text_template='{metadata_str}\n\n{content}', metadata_template='{key}: {value}', metadata_seperato

## 3. Use Llama Parse with AutoRAG

In [17]:
pjt_dir = os.path.join(root_dir, "ocr_model", "llama_parse")

parser = Parser(data_path_glob=glob_path, project_dir=pjt_dir)

In [20]:
yaml_path = os.path.join(root_dir, "config", "llamaparse.yaml")

parser.start_parsing(yaml_path, all_files=True)

[2;36m[04/27/25 20:20:43][0m[2;36m [0m[34mINFO    [0m [1m[[0mparser.py:[1;36m29[0m[1m][0m >> Parsing Start[33m...[0m     ]8;id=295816;file:///home/martinus/llm/lib/python3.10/site-packages/autorag/parser.py\[2mparser.py[0m]8;;\[2m:[0m]8;id=334341;file:///home/martinus/llm/lib/python3.10/site-packages/autorag/parser.py#29\[2m29[0m]8;;\
[2;36m                   [0m[2;36m [0m[34mINFO    [0m [1m[[0mbase.py:[1;36m23[0m[1m][0m >> Running parser -         ]8;id=230000;file:///home/martinus/llm/lib/python3.10/site-packages/autorag/data/parse/base.py\[2mbase.py[0m]8;;\[2m:[0m]8;id=183997;file:///home/martinus/llm/lib/python3.10/site-packages/autorag/data/parse/base.py#23\[2m23[0m]8;;\
[2;36m                    [0m         llama_parse module[33m...[0m                    [2m          [0m
[2;36m[04/27/25 20:20:50][0m[2;36m [0m[34mINFO    [0m [1m[[0m_client.py:[1;36m1786[0m[1m][0m >> HTTP Request:  ]8;id=145312;file:///home/ma

## 4. Check Result

In [21]:
result_path = os.path.join(pjt_dir, "parsed_result.parquet")
llamaparse_result = pd.read_parquet(result_path)

In [22]:
llamaparse_result

Unnamed: 0,texts,path,page,last_modified_datetime
0,# 중소벤처기업부 공고 제2024–300호\n\n# 2024년 글로벌 팁스(Glob...,/home/martinus/workspace/RAG-Evaluation/Parsin...,1,2025-04-20
1,# 2 신청자격 및 요건\n\n# □ 신청자격\n\n- ｢중소기업기본법｣ 제2조제1...,/home/martinus/workspace/RAG-Evaluation/Parsin...,2,2025-04-20
2,# 신청 제외 대상 (사업 신청‧접수 마감일 기준)\n\n# ① 금융기관 등으로부터...,/home/martinus/workspace/RAG-Evaluation/Parsin...,3,2025-04-20
3,# 의무 및 역할\n\n- 선정자는「중소기업창업 지원사업 운영요령」 및 「창업사업화...,/home/martinus/workspace/RAG-Evaluation/Parsin...,4,2025-04-20
4,# 3 지원내용\n\n□ 협약기간 : 협약시작일로부터 10개월 이내\n\n* 사업...,/home/martinus/workspace/RAG-Evaluation/Parsin...,5,2025-04-20
5,# 4 신청 및 접수\n\n# □ 신청 ‧ 접수 기간\n\n◦ 접수기간 : 202...,/home/martinus/workspace/RAG-Evaluation/Parsin...,6,2025-04-20
6,# 제출서류\n\n|제출서류|제출 방법|유의 사항|\n|---|---|---|\n|...,/home/martinus/workspace/RAG-Evaluation/Parsin...,7,2025-04-20
7,# 5 평가 및 선정\n\n□ 평가 절차 : 총 2단계 평가 (서류 + 발표(현장실...,/home/martinus/workspace/RAG-Evaluation/Parsin...,8,2025-04-20
8,# 최종선정\n\n서류 및 발표평가 결과에 최종 가점을 합산하여 지원 대상자 선정\...,/home/martinus/workspace/RAG-Evaluation/Parsin...,9,2025-04-20
9,# 서류 및 발표평가 결과에 최대 5점까지 가점 부여\n\n|가점 세부 항목|점수|...,/home/martinus/workspace/RAG-Evaluation/Parsin...,10,2025-04-20


In [23]:
print(llamaparse_result["texts"].tolist()[4])

# 3 지원내용

□ 협약기간  : 협약시작일로부터 10개월 이내

* 사업기간은 총 3년으로 선정 후, 1년 단위로 협약 연장

□ 지원내용  : 사업화 자금 및 글로벌 현지진출 프로그램 등

|구분|지원 세부 내용| | | | |
|---|---|---|---|---|---|
|사업화 자금|최대 2억원 (평균 1.8억원) 지원| | | | |
| |* 선정평가 결과에 따라 사업화 자금 (정부지원사업비) 차등 지원| | | | |
|< 총사업비 구성 및 예시 (정부지원사업비 1억 8,900만원인 경우) >|< 총사업비 구성 및 예시 (정부지원사업비 1억 8,900만원인 경우) >| | | | |
|총 사업비(예시)|정부지원사업비|창업기업 자기부담사업비| | | |
| |현금|현물| | | |
|사업화 자금|100%|총사업비의 70% 이하|총사업비의 10% 이상|총사업비의 20% 이하| |
|2.7억원|(100%)|(70%)|(10%)|(20%)| |
| |* 총 사업비 = 정부지원사업비 70% 이하 + 자기부담사업비 30% 이상| | | | |
| |** 자기부담사업비 (30% 이상) : 현금 10% 이상 + 현물 20% 이하| | | | |
|*** 현물은 창업기업 대표자 본인 및 사업화 수행에 직접 참여하는 고용 인력의 인건비, 사무실 임차료, 보유 기자재 등으로 부담| | | | | |

• 현지진출 관련 실무교육 및 멘토링, 글로벌 네트워킹 등

|프로그램(예시)|지원내용|
|---|---|
|현지진출 실무교육|• 진출국가별 창업 트렌드 및 진출 전략, 글로벌 VC의 투자 동향, IR피칭 스킬 등 교육|
|창업 선배기업 멘토링|• 현지진출 선배기업 특강 및 상담 등을 통한 경험을 공유하고, 1:1 멘토링 추진|
|글로벌 네트워킹|• 현지 진출기업 및 협업 파트너와 만남의 장을 마련하여 정보 교류 및 협업 방안 모색|
|후속 투자유치|• 글로벌 투자자 등이 참여하는 밋업데이, IR개최 등 해외 후속 투자유치 기회 제공|

