# LlamaParser
 
LlamaParse는 LlamaIndex에서 개발한 문서 파싱 서비스로, 대규모 언어 모델(LLM)을 위해 특별히 설계되었습니다.

 주요 특징은 다음과 같습니다:

- PDF, Word, PowerPoint, Excel 등 다양한 문서 형식 지원
- 자연어 지시를 통한 맞춤형 출력 형식 제공
- 복잡한 표와 이미지 추출 기능
- JSON 모드 지원
- 외국어 지원

LlamaParse는 독립형 API로 제공되며, LlamaCloud 플랫폼의 일부로도 사용 가능합니다. 

이 서비스는 문서를 파싱하고 정제하여 검색 증강 생성(RAG) 등 LLM 기반 애플리케이션의 성능을 향상시키는 것을 목표로 합니다.

사용자는 무료로 하루 1,000페이지를 처리할 수 있으며, 유료 플랜을 통해 추가 용량을 확보할 수 있습니다. 

LlamaParse는 현재 공개 베타 버전으로 제공되고 있으며, 지속적으로 기능이 확장되고 있습니다.

- 링크: https://cloud.llamaindex.ai

**API 키 설정**
- API 키를 발급 후 `.env` 파일에 `LLAMA_CLOUD_API_KEY` 에 설정합니다.

In [None]:
# 설치
# !pip install llama-index-core llama-parse llama-index-readers-file python-dotenv

In [3]:
import os
import nest_asyncio
from dotenv import load_dotenv

load_dotenv()
nest_asyncio.apply() # jupyter notebook 쓸 때 명시 안해주면 오류 발생 가능성 있음

기본 파서 적용

In [4]:
from llama_parse import LlamaParse
from llama_index.core import SimpleDirectoryReader

# 파서 설정
parser = LlamaParse(
    result_type="markdown",  # "markdown"과 "text" 사용 가능
    num_workers=8,  # worker 수 (기본값: 4)
    verbose=True,
    language="ko", # 지정하는게 좋음
)

# SimpleDirectoryReader를 사용하여 파일 파싱
file_extractor = {".pdf": parser}

# LlamaParse로 파일 파싱
documents = SimpleDirectoryReader(
    input_files=["data/SPRI_AI_Brief_2023년12월호_F.pdf"],
    file_extractor=file_extractor,
).load_data()

Started parsing the file under job_id 2009a0ec-d8e7-4a8c-ab1d-22c0e32d185a


In [5]:
# 페이지 수 확인
len(documents)

23

In [6]:
documents[0]

Document(id_='85c83892-e0ce-48ae-840e-d805597cbdf8', embedding=None, metadata={'file_path': 'data/SPRI_AI_Brief_2023년12월호_F.pdf', 'file_name': 'SPRI_AI_Brief_2023년12월호_F.pdf', 'file_type': 'application/pdf', 'file_size': 975735, 'creation_date': '2025-01-02', 'last_modified_date': '2025-01-02'}, excluded_embed_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], excluded_llm_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], relationships={}, text='# 인공지능 산업의 최신 동향\n\n2023년 12월호', mimetype='text/plain', start_char_idx=None, end_char_idx=None, text_template='{metadata_str}\n\n{content}', metadata_template='{key}: {value}', metadata_seperator='\n')

In [10]:
print(documents[5].text)

# 정책/법제

# 기업/산업

# 연구기술

# 인력/교육

# 영국AI안전성정상회의에참가한28개국,AI위험에공동대응선언

영국블레츨리파크에서개최된AI안전성정상회의에참가한28개국들이AI안전보장을위한협력방안을담은블레츨리선언을발표

첨단AI를개발하는국가와기업들은AI시스템에대한안전테스트계획에합의했으며,

영국의AI안전연구소가전세계국가와협력해테스트를주도할예정

# AI안전성정상회의참가국들,블레츨리선언통해AI안전보장을위한협력에합의

2023년11월1~2일영국블레츨리파크에서열린AI안전성정상회의(AISafetySummit)에참가한28개국대표들이AI위험관리를위한‘블레츨리선언’을발표

- 선언은AI안전보장을위해국가,국제기구,기업,시민사회,학계를포함한모든이해관계자의협력이중요하다고강조했으며,특히최첨단AI시스템개발기업은안전평가를비롯한적절한조치를취하여AI시스템의안전을보장할책임이있다고지적
- 각국은AI안전보장을위해첨단AI개발기업의투명성향상,적절한평가지표와안전테스트도구개발,공공부문역량구축과과학연구개발등의분야에서협력하기로합의

# 영국총리,정부주도의첨단AI시스템안전테스트계획발표

리시수낙영국총리는AI안전성정상회의를마무리하며첨단AI모델에대한안전성시험계획수립과테스트수행을주도할영국AI안전연구소의출범을발표

- 첨단AI모델의안전테스트는국가안보와안전,사회적피해를포함한여러잠재적유해기능에대한시험을포함하며,참석자들은정부주도의외부안전테스트에합의
- 각국정부는테스트와기타안전연구를위한공공부문역량에투자하고,테스트결과가다른국가와관련된경우해당국가와결과를공유하며,적절한시기에공동표준개발을위해노력하기로합의

참가국들은튜링상을수상한AI학자인요슈아벤지오교수가주도하는‘과학의현황(Stateof the Science)’보고서작성에도합의했으며,보고서를통해첨단AI의위험과가능성에관한기존연구를과학적으로평가하고향후AI안전연구를위한우선순위를제시할계획

한국은영국정부와6개월뒤에온라인으로AI미니정상회의를공동개최하기로합의했으며,프랑스정부와는1년후대면정상회의를개최할예정

출처: Gov.uk, TheBletchley Declaration byC

LlamaIndex -> LangChain Document 로 변환

In [7]:
# 랭체인 도큐먼트로 변환
docs = [doc.to_langchain_format() for doc in documents]

In [11]:
print(docs[5].page_content)

# 정책/법제

# 기업/산업

# 연구기술

# 인력/교육

# 영국AI안전성정상회의에참가한28개국,AI위험에공동대응선언

영국블레츨리파크에서개최된AI안전성정상회의에참가한28개국들이AI안전보장을위한협력방안을담은블레츨리선언을발표

첨단AI를개발하는국가와기업들은AI시스템에대한안전테스트계획에합의했으며,

영국의AI안전연구소가전세계국가와협력해테스트를주도할예정

# AI안전성정상회의참가국들,블레츨리선언통해AI안전보장을위한협력에합의

2023년11월1~2일영국블레츨리파크에서열린AI안전성정상회의(AISafetySummit)에참가한28개국대표들이AI위험관리를위한‘블레츨리선언’을발표

- 선언은AI안전보장을위해국가,국제기구,기업,시민사회,학계를포함한모든이해관계자의협력이중요하다고강조했으며,특히최첨단AI시스템개발기업은안전평가를비롯한적절한조치를취하여AI시스템의안전을보장할책임이있다고지적
- 각국은AI안전보장을위해첨단AI개발기업의투명성향상,적절한평가지표와안전테스트도구개발,공공부문역량구축과과학연구개발등의분야에서협력하기로합의

# 영국총리,정부주도의첨단AI시스템안전테스트계획발표

리시수낙영국총리는AI안전성정상회의를마무리하며첨단AI모델에대한안전성시험계획수립과테스트수행을주도할영국AI안전연구소의출범을발표

- 첨단AI모델의안전테스트는국가안보와안전,사회적피해를포함한여러잠재적유해기능에대한시험을포함하며,참석자들은정부주도의외부안전테스트에합의
- 각국정부는테스트와기타안전연구를위한공공부문역량에투자하고,테스트결과가다른국가와관련된경우해당국가와결과를공유하며,적절한시기에공동표준개발을위해노력하기로합의

참가국들은튜링상을수상한AI학자인요슈아벤지오교수가주도하는‘과학의현황(Stateof the Science)’보고서작성에도합의했으며,보고서를통해첨단AI의위험과가능성에관한기존연구를과학적으로평가하고향후AI안전연구를위한우선순위를제시할계획

한국은영국정부와6개월뒤에온라인으로AI미니정상회의를공동개최하기로합의했으며,프랑스정부와는1년후대면정상회의를개최할예정

출처: Gov.uk, TheBletchley Declaration byC

In [12]:
# metadata 출력
docs[0].metadata

{'file_path': 'data/SPRI_AI_Brief_2023년12월호_F.pdf',
 'file_name': 'SPRI_AI_Brief_2023년12월호_F.pdf',
 'file_type': 'application/pdf',
 'file_size': 975735,
 'creation_date': '2025-01-02',
 'last_modified_date': '2025-01-02'}

## MultiModal Model 로 파싱

**주요 파라미터**

- `use_vendor_multimodal_model`: 멀티모달 모델 사용 여부를 지정합니다. `True`로 설정하면 외부 벤더의 멀티모달 모델을 사용합니다.

- `vendor_multimodal_model_name`: 사용할 멀티모달 모델의 이름을 지정합니다. 여기서는 "openai-gpt4o"를 사용하고 있습니다.

- `vendor_multimodal_api_key`: 멀티모달 모델 API 키를 지정합니다. 환경 변수에서 OpenAI API 키를 가져옵니다.

- `result_type`: 파싱 결과의 형식을 지정합니다. "markdown"으로 설정되어 있어 결과가 마크다운 형식으로 반환됩니다.

- `language`: 파싱할 문서의 언어를 지정합니다. "ko"로 설정되어 한국어로 처리됩니다.

- `skip_diagonal_text`: 대각선 텍스트를 건너뛸지 여부를 결정합니다.

- `page_separator`: 페이지 구분자를 지정할 수 있습니다.

In [None]:
documents = LlamaParse(
    use_vendor_multimodal_model=True,
    vendor_multimodal_model_name="openai-gpt4o",
    vendor_multimodal_api_key=os.environ["OPENAI_API_KEY"],
    result_type="markdown",
    language="ko",
    # skip_diagonal_text=True,
    # page_separator="\n=================\n"
)

In [None]:
# parsing 된 결과
parsed_docs = documents.load_data(file_path="data/SPRI_AI_Brief_2023년12월호_F.pdf")

In [None]:
# langchain 도큐먼트로 변환
docs = [doc.to_langchain_format() for doc in parsed_docs]

In [None]:
print(docs[18].page_content)

아래와 같이 사용자 정의 인스트럭션을 지정하는 것도 가능합니다.

In [None]:
# parsing instruction 을 지정합니다.
parsing_instruction = (
    "You are parsing a brief of AI Report. Please extract tables in markdown format."
)

# LlamaParse 설정
parser = LlamaParse(
    use_vendor_multimodal_model=True,
    vendor_multimodal_model_name="openai-gpt4o",
    vendor_multimodal_api_key=os.environ["OPENAI_API_KEY"],
    result_type="markdown",
    language="ko",
    parsing_instruction=parsing_instruction,
)

# parsing 된 결과
parsed_docs = parser.load_data(file_path="data/SPRI_AI_Brief_2023년12월호_F.pdf")

# langchain 도큐먼트로 변환
docs = [doc.to_langchain_format() for doc in parsed_docs]

In [None]:
# markdown 형식으로 추출된 테이블 확인
print(docs[-2].page_content)