# LlamaParser
LlamaParse는 LlamaIndex에서 개발한 문서 파싱 서비스로, 대규모 언어 모델(LLM)을 위해 특별히 설계되었습니다. 주요 특징은 다음과 같습니다:

PDF, Word, PowerPoint, Excel 등 다양한 문서 형식 지원  
자연어 지시를 통한 맞춤형 출력 형식 제공  
복잡한 표와 이미지 추출 기능  
JSON 모드 지원  
외국어 지원  

LlamaParse는 독립형 API로 제공되며, LlamaCloud 플랫폼의 일부로도 사용 가능합니다. 이 서비스는 문서를 파싱하고 정제하여 검색 증강 생성(RAG) 등 LLM 기반 애플리케이션의 성능을 향상시키는 것을 목표로 합니다.

사용자는 무료로 하루 1,000페이지를 처리할 수 있으며, 유료 플랜을 통해 추가 용량을 확보할 수 있습니다. LlamaParse는 현재 공개 베타 버전으로 제공되고 있으며, 지속적으로 기능이 확장되고 있습니다.

링크: https://cloud.llamaindex.ai

In [1]:
!pip install llama-index-core llama-parse llama-index-readers-file python-dotenv

Collecting llama-index-core
  Downloading llama_index_core-0.12.10.post1-py3-none-any.whl.metadata (2.5 kB)
Collecting llama-parse
  Downloading llama_parse-0.5.19-py3-none-any.whl.metadata (7.0 kB)
Collecting llama-index-readers-file
  Downloading llama_index_readers_file-0.4.2-py3-none-any.whl.metadata (5.4 kB)
Collecting deprecated>=1.2.9.3 (from llama-index-core)
  Downloading Deprecated-1.2.15-py2.py3-none-any.whl.metadata (5.5 kB)
Collecting dirtyjson<2.0.0,>=1.0.8 (from llama-index-core)
  Downloading dirtyjson-1.0.8-py3-none-any.whl.metadata (11 kB)
Collecting nltk>3.8.1 (from llama-index-core)
  Using cached nltk-3.9.1-py3-none-any.whl.metadata (2.9 kB)
Collecting pypdf<6.0.0,>=5.1.0 (from llama-index-readers-file)
  Using cached pypdf-5.1.0-py3-none-any.whl.metadata (7.2 kB)
Collecting striprtf<0.0.27,>=0.0.26 (from llama-index-readers-file)
  Downloading striprtf-0.0.26-py3-none-any.whl.metadata (2.1 kB)
Downloading llama_index_core-0.12.10.post1-py3-none-any.whl (1.6 MB)
  

ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
langchain-upstage 0.4.0 requires pypdf<5.0.0,>=4.2.0, but you have pypdf 5.1.0 which is incompatible.


In [2]:
import os
import nest_asyncio

LLAMA_CLOUD_API_KEY = ''
nest_asyncio.apply()

# Basic Parser

In [11]:
from dotenv import load_dotenv
import os
from llama_parse import LlamaParse
from llama_index.core import SimpleDirectoryReader

    
# .env 파일 로드
load_dotenv(),

# 환경 변수에서 API 키 가져오기
LLAMA_CLOUD_API_KEY = os.getenv("LLAMA_CLOUD_API_KEY")

# 파서 설정
parser = LlamaParse(
    result_type="markdown",  # "markdown"과 "text" 사용 가능
    num_workers=8,  # worker 수 (기본값: 4)
    verbose=True,   # 상세 정보 출력 (진행중인 내용 출력)
    language="ko",  # 언어 설정 (기본값: "en")
)

# SimpleDirectoryReader를 사용하여 파일 파싱
file_extractor = {".pdf": parser}

# LlamaParse로 파일 파싱
documents = SimpleDirectoryReader(
    input_files=[r"C:\Users\eys63\Desktop\기타활동\2024\겨울방학\24Winter_Vacation\data\SPRI_AI_Brief_2023년12월호_F.pdf"],
    file_extractor=file_extractor,
).load_data()


Started parsing the file under job_id 751ed6ce-d02b-4a3c-bfa8-d26b07d55264


In [12]:
# 페이지 수 확인
len(documents)


23

In [13]:
print(documents[0])
print("============")
documents[0]

Doc ID: f77e4d13-39df-458b-944a-6c6294123c32
Text: # 인공지능 산업의 최신 동향  2023년 12월호


Document(id_='f77e4d13-39df-458b-944a-6c6294123c32', embedding=None, metadata={'file_path': 'C:\\Users\\eys63\\Desktop\\기타활동\\2024\\겨울방학\\24Winter_Vacation\\data\\SPRI_AI_Brief_2023년12월호_F.pdf', 'file_name': 'SPRI_AI_Brief_2023년12월호_F.pdf', 'file_type': 'application/pdf', 'file_size': 975735, 'creation_date': '2025-01-06', 'last_modified_date': '2025-01-06'}, excluded_embed_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], excluded_llm_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], relationships={}, metadata_template='{key}: {value}', metadata_separator='\n', text_resource=MediaResource(embeddings=None, data=None, text='# 인공지능 산업의 최신 동향\n\n2023년 12월호', path=None, url=None, mimetype=None), image_resource=None, audio_resource=None, video_resource=None, text_template='{metadata_str}\n\n{content}')

LlamaIndex -> LangChain Document로 변환

In [18]:
!pip install -qU langchain-community



In [19]:
# 랭체인 도큐먼트로 변환
docs = [doc.to_langchain_format() for doc in documents]

In [26]:
print(docs[0].page_content)
print("============")
print(docs[5].page_content)
print("============")
docs[0].page_content

# 인공지능 산업의 최신 동향

2023년 12월호
# 정책/법제

# 기업/산업

# 연구기술

# 인력/교육

# 영국AI안전성정상회의에참가한28개국,AI위험에공동대응선언

영국블레츨리파크에서개최된AI안전성정상회의에참가한28개국들이AI안전보장을위한협력방안을담은블레츨리선언을발표

첨단AI를개발하는국가와기업들은AI시스템에대한안전테스트계획에합의했으며,

영국의AI안전연구소가전세계국가와협력해테스트를주도할예정

# AI안전성정상회의참가국들,블레츨리선언통해AI안전보장을위한협력에합의

2023년11월1~2일영국블레츨리파크에서열린AI안전성정상회의(AISafetySummit)에참가한28개국대표들이AI위험관리를위한‘블레츨리선언’을발표

- 선언은AI안전보장을위해국가,국제기구,기업,시민사회,학계를포함한모든이해관계자의협력이중요하다고강조했으며,특히최첨단AI시스템개발기업은안전평가를비롯한적절한조치를취하여AI시스템의안전을보장할책임이있다고지적
- 각국은AI안전보장을위해첨단AI개발기업의투명성향상,적절한평가지표와안전테스트도구개발,공공부문역량구축과과학연구개발등의분야에서협력하기로합의

# 영국총리,정부주도의첨단AI시스템안전테스트계획발표

리시수낙영국총리는AI안전성정상회의를마무리하며첨단AI모델에대한안전성시험계획수립과테스트수행을주도할영국AI안전연구소의출범을발표

- 첨단AI모델의안전테스트는국가안보와안전,사회적피해를포함한여러잠재적유해기능에대한시험을포함하며,참석자들은정부주도의외부안전테스트에합의
- 각국정부는테스트와기타안전연구를위한공공부문역량에투자하고,테스트결과가다른국가와관련된경우해당국가와결과를공유하며,적절한시기에공동표준개발을위해노력하기로합의

참가국들은튜링상을수상한AI학자인요슈아벤지오교수가주도하는‘과학의현황(Stateof the Science)’보고서작성에도합의했으며,보고서를통해첨단AI의위험과가능성에관한기존연구를과학적으로평가하고향후AI안전연구를위한우선순위를제시할계획

한국은영국정부와6개월뒤에온라인으로AI미니정상회의를공동개최하기로합의했으며,프랑스정부와는1년후대면정상회의를개최할예정

출처: Gov.uk,

'# 인공지능 산업의 최신 동향\n\n2023년 12월호'

In [27]:
# metadata 출력
docs[0].metadata

{'file_path': 'C:\\Users\\eys63\\Desktop\\기타활동\\2024\\겨울방학\\24Winter_Vacation\\data\\SPRI_AI_Brief_2023년12월호_F.pdf',
 'file_name': 'SPRI_AI_Brief_2023년12월호_F.pdf',
 'file_type': 'application/pdf',
 'file_size': 975735,
 'creation_date': '2025-01-06',
 'last_modified_date': '2025-01-06'}

# MultiModal Model 로 파싱
주요 파라미터

use_vendor_multimodal_model: 멀티모달 모델 사용 여부를 지정합니다. True로 설정하면 외부 벤더의 멀티모달 모델을 사용합니다.  

vendor_multimodal_model_name: 사용할 멀티모달 모델의 이름을 지정합니다. 여기서는 "openai-gpt4o"를 사용하고 있습니다.

vendor_multimodal_api_key: 멀티모달 모델 API 키를 지정합니다. 환경 변수에서 OpenAI API 키를 가져옵니다.

result_type: 파싱 결과의 형식을 지정합니다. "markdown"으로 설정되어 있어 결과가 마크다운 형식으로 반환됩니다.

language: 파싱할 문서의 언어를 지정합니다. "ko"로 설정되어 한국어로 처리됩니다.

skip_diagonal_text: 대각선 텍스트를 건너뛸지 여부를 결정합니다.

page_separator: 페이지 구분자를 지정할 수 있습니다.

In [30]:
from dotenv import load_dotenv
import os
from llama_parse import LlamaParse

# .env 파일 로드
load_dotenv()

# LlamaParse 설정
documents = LlamaParse(
    use_vendor_multimodal_model=True,
    vendor_multimodal_model_name="openai-gpt4o",
    vendor_multimodal_api_key=os.getenv("OPENAI_API_KEY"),  # .env에서 API 키 로드
    result_type="markdown",
    language="ko",
    # skip_diagonal_text=True,
    # page_separator="\n=================\n"
)


In [31]:
# parsing 된 결과
parsed_docs = documents.load_data(file_path=r"C:\Users\eys63\Desktop\기타활동\2024\겨울방학\24Winter_Vacation\data\SPRI_AI_Brief_2023년12월호_F.pdf")

Started parsing the file under job_id e8b8c88f-38d9-402c-9abc-61fd97621e18


In [32]:
print(docs[18].page_content)

# 구글딥마인드, 범용AI모델의 기능과 동작에 대한 분류체계 발표

# KEY Contents

- 구글 딥마인드 연구진이 성능과 범용성, 자율성을 기준으로 범용 AI(AGI)의 수준을 0~5단계까지 총 6단계로 구분한 프레임워크를 공개
- 현재 AGI는 단백질 구조를 예측하는 알파폴드와 같은 특정 용도에서는 5단계 수준을 달성했지만 광범위하게 활용될 수 있는 범용에서는 1단계 수준에 머물러 있음
- 챗GPT와 구글 바드와 같은 AI 챗봇은 범용 AI 1단계 수준
- 구글 딥마인드 연구진은 2023년 11월 4일 범용 AI(Artificial General Intelligence, AGI) 모델을 용도와 성능에 따라 분류하는 프레임워크를 제시한 논문을 발표
- 프레임워크의 목적은 AGI의 성능, 범용성, 자율성 수준을 정의하여 모델 간 비교와 위험 평가, AGI 달성까지의 진행 상황을 측정할 수 있는 공통 기준을 제공하기 위함
- 연구진은 AGI 개념 정의에 필요한 기준을 수립하기 위한 6가지 원칙을 아래와 같이 도출

1. (프로세스가 아닌 기능에 중점) AI가 어떻게 작동하는지보다 무엇을 할 수 있는지가 더 중요
2. (범용성과 성능을 모두 평가) 진정한 AGI는 인간을 능가하는 폭넓은 범용성과 기술의 깊이를 모두 요구
3. (인지와 메타인지 작업에 중점) 물리적 작업의 수행 능력은 AGI의 필수 전제 조건이 아니며, 인지 작업과 메타인지 작업(예; 새로운 작업의 학습 능력, 인간에게 도움을 요청할 시점을 아는 능력)이 핵심
4. (실제 구현보다 잠재력에 집중) 통제된 상황에서 발휘되는 성능에 따라 AGI를 규정하고 테스트를 진행
5. (생태학적 타당도를 갖춘 벤치마크 사용) AGI에 대한 벤치마크는 사람들이 경제적·사회적 또는 예술적으로 가치 있게 여기는 실질적인 작업을 대상으로 성능 평가 필요
6. (종점이 아닌 AGI를 향한 경로에 중점) 단계별 접근 방식을 통해 AGI의 발전 상태를 점진적으로 측정

연구진은 상기 원칙에 따라 AI를 성능에 따라 0

In [34]:
# parsing instruction 을 지정합니다.
parsing_instruction = (
    "You are parsing a brief of AI Report. Please extract tables in markdown format."
)

# LlamaParse 설정
parser = LlamaParse(
    use_vendor_multimodal_model=True,
    vendor_multimodal_model_name="openai-gpt4o",
    vendor_multimodal_api_key=os.environ["OPENAI_API_KEY"],
    result_type="markdown",
    language="ko",
    parsing_instruction=parsing_instruction,
    api_key=LLAMA_CLOUD_API_KEY,
)

# parsing 된 결과
parsed_docs = parser.load_data(file_path=r"C:\Users\eys63\Desktop\기타활동\2024\겨울방학\24Winter_Vacation\data\SPRI_AI_Brief_2023년12월호_F.pdf")

# langchain 도큐먼트로 변환
docs = [doc.to_langchain_format() for doc in parsed_docs]


Started parsing the file under job_id 4ce24a61-ef05-43c9-931a-deeca67a0ae3


In [37]:
# markdown 형식으로 추출된 테이블 확인
print(docs[-2].page_content)
print("============")
print(docs[0].page_content)

| 행사명                                    | 행사 주요 개요                                                                                                                                                                                                                       |
|---------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| CES 2024                              | - 미국 소비자기술 협회(CTA)가 주관하는 세계 최대 가전·IT·소비재 전시회로 5G, AR&VR, 디지털헬스, 고품·모빌리티 등 주요 카테고리 중심으로 기업들의 최신 기술 제품군을 전시<br>- CTA 사피로 회장은 가장 주목받는 섹터로 AI를 조명하였으며, 모든 산업을 포괄한다는 의미에서 '올 인(AI on)'을 주제로 한 이번 전시에는 500곳 이상의 한국기업 참가 예정 |
| 기간                                    | 2024.1.9~12                                                                                                                                                        