# LlamaParser

LlamaParse는 LlamaIndex에서 개발한 문서 파싱 서비스로, 대규모 언어 모델(LLM)을 위해 특별히 설계되었습니다. 주요 특징은 다음과 같습니다:

- PDF, Word, PowerPoint, Excel 등 다양한 문서 형식 지원
- 자연어 지시를 통한 맞춤형 출력 형식 제공
- 복잡한 표와 이미지 추출 기능
- JSON 모드 지원
- 외국어 지원

LlamaParse는 독립형 API로 제공되며, LlamaCloud 플랫폼의 일부로도 사용 가능합니다. 이 서비스는 문서를 파싱하고 정제하여 검색 증강 생성(RAG) 등 LLM 기반 애플리케이션의 성능을 향상시키는 것을 목표로 합니다.

사용자는 무료로 하루 1,000페이지를 처리할 수 있으며, 유료 플랜을 통해 추가 용량을 확보할 수 있습니다. LlamaParse는 현재 공개 베타 버전으로 제공되고 있으며, 지속적으로 기능이 확장되고 있습니다.

- 링크: https://cloud.llamaindex.ai

**API 키 설정**
- API 키를 발급 후 `.env` 파일에 `LLAMA_CLOUD_API_KEY` 에 설정합니다.

## Jun ---
- 장점: 깔끔하다. 잘한다. 돈 받을 만 하다.
- 멀티모달 지원: 차트, 다이어그램등 인식 가능
- 관련 커뮤니티에서 어느정도 검증 됨.

In [1]:
# 설치
!pip install -qU llama-index-core llama-parse llama-index-readers-file python-dotenv

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.6/1.6 MB[0m [31m9.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m298.0/298.0 kB[0m [31m9.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.2/1.2 MB[0m [31m9.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m49.3/49.3 kB[0m [31m3.0 MB/s[0m eta [36m0:00:00[0m
[?25h

In [2]:
import os
import nest_asyncio

LLAMA_CLOUD_API_KEY = 'llx-teV6rznwUmxzjqSBd5L5WDXwfI9fwpiuah4zfH02LI11q6zU'
nest_asyncio.apply()

In [3]:
import os
import nest_asyncio
from dotenv import load_dotenv

load_dotenv()
nest_asyncio.apply()

기본 파서 적용

---
Jun---
- num_workers: 분산처리 수
- input_files: 여러개의 문서 처리 가능, 리스트 형태로 불러 옴
- 출력 결과물을 나타내는 Attributer가 langChain과 다름: text = ''에 있음.

In [5]:
from llama_parse import LlamaParse
from llama_index.core import SimpleDirectoryReader

# 파서 설정
parser = LlamaParse(
    result_type="markdown",  # "markdown"과 "text" 사용 가능
    num_workers=8,  # worker 수 (기본값: 4)
    verbose=True,
    language="ko",
    api_key=LLAMA_CLOUD_API_KEY,
)

# SimpleDirectoryReader를 사용하여 파일 파싱
file_extractor = {".pdf": parser}

# LlamaParse로 파일 파싱
documents = SimpleDirectoryReader(
    input_files=["/content/Linear Algebra and Its Applications, Global Editio.pdf"],
    file_extractor=file_extractor,
).load_data()

Started parsing the file under job_id d337b4ce-10f5-49ef-94dd-0b4ad2f7659f
..................................

In [None]:
# 페이지 수 확인
len(documents)

23

In [None]:
documents[0]

Document(id_='84c5f35e-4491-4b41-91e6-56368e1d1d50', embedding=None, metadata={'file_path': '/content/SPRI_AI_Brief_2023년12월호_F.pdf', 'file_name': 'SPRI_AI_Brief_2023년12월호_F.pdf', 'file_type': 'application/pdf', 'file_size': 975735, 'creation_date': '2025-01-01', 'last_modified_date': '2025-01-01'}, excluded_embed_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], excluded_llm_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], relationships={}, metadata_template='{key}: {value}', metadata_separator='\n', text_resource=MediaResource(embeddings=None, data=None, text='# 인공지능 산업의 최신 동향\n\n2023년 12월호', mimetype=None, path=None, url=None), image_resource=None, audio_resource=None, video_resource=None, text_template='{metadata_str}\n\n{content}')

### LlamaIndex -> LangChain Document 로 변환

---
Jun ---
- .text -> .page_content로 사용
- 사용하기 위하여 lnagChain_community 패키지 설치

In [None]:
!pip install -qU langchain_community

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/2.5 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━[0m [32m2.0/2.5 MB[0m [31m53.5 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.5/2.5 MB[0m [31m36.4 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/1.0 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.0/1.0 MB[0m [31m40.8 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/411.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m411.6/411.6 kB[0m [31m22.0 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# 랭체인 도큐먼트로 변환
docs = [doc.to_langchain_format() for doc in documents]

---
### Jun---
- llama parse는 마크다운형태로 출력하여 LLM이 처리하기 좋게 함.

In [None]:
print(docs[5].page_content)

# 정책/법제

# 기업/산업

# 연구기술

# 인력/교육

# 영국AI안전성정상회의에참가한28개국,AI위험에공동대응선언

영국블레츨리파크에서개최된AI안전성정상회의에참가한28개국들이AI안전보장을위한협력방안을담은블레츨리선언을발표

첨단AI를개발하는국가와기업들은AI시스템에대한안전테스트계획에합의했으며,

영국의AI안전연구소가전세계국가와협력해테스트를주도할예정

# AI안전성정상회의참가국들,블레츨리선언통해AI안전보장을위한협력에합의

2023년11월1~2일영국블레츨리파크에서열린AI안전성정상회의(AISafetySummit)에참가한28개국대표들이AI위험관리를위한‘블레츨리선언’을발표

- 선언은AI안전보장을위해국가,국제기구,기업,시민사회,학계를포함한모든이해관계자의협력이중요하다고강조했으며,특히최첨단AI시스템개발기업은안전평가를비롯한적절한조치를취하여AI시스템의안전을보장할책임이있다고지적
- 각국은AI안전보장을위해첨단AI개발기업의투명성향상,적절한평가지표와안전테스트도구개발,공공부문역량구축과과학연구개발등의분야에서협력하기로합의

# 영국총리,정부주도의첨단AI시스템안전테스트계획발표

리시수낙영국총리는AI안전성정상회의를마무리하며첨단AI모델에대한안전성시험계획수립과테스트수행을주도할영국AI안전연구소의출범을발표

- 첨단AI모델의안전테스트는국가안보와안전,사회적피해를포함한여러잠재적유해기능에대한시험을포함하며,참석자들은정부주도의외부안전테스트에합의
- 각국정부는테스트와기타안전연구를위한공공부문역량에투자하고,테스트결과가다른국가와관련된경우해당국가와결과를공유하며,적절한시기에공동표준개발을위해노력하기로합의

참가국들은튜링상을수상한AI학자인요슈아벤지오교수가주도하는‘과학의현황(Stateof the Science)’보고서작성에도합의했으며,보고서를통해첨단AI의위험과가능성에관한기존연구를과학적으로평가하고향후AI안전연구를위한우선순위를제시할계획

한국은영국정부와6개월뒤에온라인으로AI미니정상회의를공동개최하기로합의했으며,프랑스정부와는1년후대면정상회의를개최할예정

출처: Gov.uk, TheBletchley Declaration byC

In [None]:
# metadata 출력
docs[0].metadata

{'file_path': '/content/SPRI_AI_Brief_2023년12월호_F.pdf',
 'file_name': 'SPRI_AI_Brief_2023년12월호_F.pdf',
 'file_type': 'application/pdf',
 'file_size': 975735,
 'creation_date': '2025-01-01',
 'last_modified_date': '2025-01-01'}

## MultiModal Model 로 파싱

**주요 파라미터**

- `use_vendor_multimodal_model`: 멀티모달 모델 사용 여부를 지정합니다. `True`로 설정하면 외부 벤더의 멀티모달 모델을 사용합니다.

- `vendor_multimodal_model_name`: 사용할 멀티모달 모델의 이름을 지정합니다. 여기서는 "openai-gpt4o"를 사용하고 있습니다.

- `vendor_multimodal_api_key`: 멀티모달 모델 API 키를 지정합니다. 환경 변수에서 OpenAI API 키를 가져옵니다.

- `result_type`: 파싱 결과의 형식을 지정합니다. "markdown"으로 설정되어 있어 결과가 마크다운 형식으로 반환됩니다.

- `language`: 파싱할 문서의 언어를 지정합니다. "ko"로 설정되어 한국어로 처리됩니다.

- `skip_diagonal_text`: 대각선 텍스트를 건너뛸지 여부를 결정합니다.

- `page_separator`: 페이지 구분자를 지정할 수 있습니다.

In [None]:
OPENAI_API_KEY ='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'

In [None]:
# OPENAI_API_KEY ='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'

documents = LlamaParse(
    use_vendor_multimodal_model=True,
    vendor_multimodal_model_name="openai-gpt4o",
    vendor_multimodal_api_key='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',
    result_type="markdown",
    language="ko",
    api_key=LLAMA_CLOUD_API_KEY,
    # skip_diagonal_text=True,
    # page_separator="\n=================\n"
)

In [None]:
# parsing 된 결과
parsed_docs = documents.load_data(file_path="/content/SPRI_AI_Brief_2023년12월호_F.pdf")

Started parsing the file under job_id 0cb21aef-6be5-4698-8244-862775d77bfb
.

In [None]:
# langchain 도큐먼트로 변환
docs = [doc.to_langchain_format() for doc in parsed_docs]

In [None]:
print(docs[10].page_content)

# 코히어, 데이터 투명성 확보를 위한 데이터 출처 탐색기 공개

## KEY Contents

- 코히어와 12개 기관이 광범위한 데이터셋에 대한 감사를 통해 원본 데이터 출처, 재라이선스 상태, 작성자 등 다양한 정보를 제공하는 '데이터 출처 탐색기' 플랫폼을 출시
- 대화형 플랫폼을 통해 개발자는 데이터셋의 라이선스 상태를 쉽게 파악할 수 있으며 데이터셋의 구성과 계보도 추적 가능

## 데이터 출처 탐색기, 광범위한 데이터셋 정보 제공을 통해 데이터 투명성 향상

- AI 기업 코히어(Cohere)가 매사추세츠 공과대(MIT), 하버드대 로스쿨, 캐나다 멜로즈 등 12개 기관과 함께 2023년 10월 25일 '데이터 출처 탐색기(Data Provenance Explorer)' 플랫폼을 공개
  - AI 모델 훈련에 사용되는 데이터셋의 불분명한 출처로 인해 데이터 투명성이 확보되지 않아 다양한 법적·윤리적 문제가 발생
  - 이에 연구진은 가장 널리 사용되는 2,000개 개의 미세조정 데이터셋을 감사 및 추적하여 데이터셋에 원본 데이터소스에 대한 태그, 재라이선스(Relicensing) 상태, 작성자, 기타 데이터 속성을 지정하고 이러한 정보에 접근할 수 있는 플랫폼을 출시
  - 대화형 플랫폼 형태의 데이터 출처 탐색기를 통해 데이터셋의 라이선스 상태를 쉽게 파악할 수 있으며, 주요 데이터셋의 구성과 데이터 계보도 추적 가능

- 연구진은 오픈소스 데이터셋에 대한 광범위한 감사를 통해 데이터 투명성에 영향을 미치는 주요 요인을 발견
  - 깃허브(GitHub), 페이퍼위드코드(Papers with Code)와 같은 크라우드소싱 플랫폼에서 수집한 데이터로 훈련된 오픈소스 LLM에서는 데이터 라이선스의 누락 비율이 72~83%에 달함
  - 또한 크라우드소싱 플랫폼이 할당한 라이선스는 데이터셋 원저작자와 의도보다 더 광범위한 사용을 허용한 경우가 상당수
  - 데이터 생태계 분석 결과, 부정확하거나 모호한 라이선스 문서화 등 데이터 출처 입증과 관련된 광범

아래와 같이 사용자 정의 인스트럭션을 지정하는 것도 가능합니다.

----------
### Jun---
Review:원문과의 비교
- 원문 19페이지 표 vs print(docs[18].page_content)
- 잘 한다.
- 할루시네이션 있을 수 있다. 조심.



---
Jun ---
- 'parsing_instruction=' 인자를 넣어야 함.
- 예) 표에 대한 인사이트를 같이 묘사 해.


In [None]:
# parsing instruction 을 지정합니다.
parsing_instruction = (
    "You are parsing a brief of AI Report. Please extract tables in markdown format."
)

# LlamaParse 설정
parser = LlamaParse(
    use_vendor_multimodal_model=True,
    vendor_multimodal_model_name="openai-gpt4o",
    vendor_multimodal_api_key=OPENAI_API_KEY,
    result_type="markdown",
    language="ko",
    parsing_instruction=parsing_instruction,
    api_key=LLAMA_CLOUD_API_KEY,
)

# parsing 된 결과
parsed_docs = parser.load_data(file_path="/content/SPRI_AI_Brief_2023년12월호_F.pdf")

# langchain 도큐먼트로 변환
docs = [doc.to_langchain_format() for doc in parsed_docs]

Started parsing the file under job_id abd40526-183c-47b6-a51b-ff59a021adcd


### Jun--
Review: 끝에서 두번째 페이지 비교해 보자.

In [None]:
# markdown 형식으로 추출된 테이블 확인
print(docs[-2].page_content)

| 행사명                                | 행사 주요 개요                                                                                                                                                                                                                     |
|-------------------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| CES 2024                            | - 미국 소비자기술 협회(CTA)가 주관하는 세계 최대 가전·IT·소비재 전시회로 5G, AR&VR, 디지털헬스, 고통·모빌리티 등 주요 카테고리 중심으로 기업들의 최신 기술 제품군을 전시<br>- CTA 사피로 회장은 가장 주목받는 섹터로 AI를 조명하였으며, 모든 산업을 포괄한다는 의미에서 '올 인(AI on)'을 주제로 한 이번 전시에는 500곳 이상의 한국기업 참가 예정 |
| 기간                                | 장소                      | 홈페이지                          |
| 2024.1.9~12                         | 미국, 라스베가스          | https://www.ces.tech/ |

| 행사명                                