# LlamaParser로 고급 문서 파싱
 
LlamaParse는 LlamaIndex에서 개발한 문서 파싱 서비스로, 대규모 언어 모델(LLM)을 위해 특별히 설계되었습니다. 주요 특징은 다음과 같습니다:

- PDF, Word, PowerPoint, Excel 등 다양한 문서 형식 지원
- 자연어 지시를 통한 맞춤형 출력 형식 제공
- 복잡한 표와 이미지 추출 기능
- JSON 모드 지원
- 외국어 지원

LlamaParse는 독립형 API로 제공되며, LlamaCloud 플랫폼의 일부로도 사용 가능합니다. 이 서비스는 문서를 파싱하고 정제하여 검색 증강 생성(RAG) 등 LLM 기반 애플리케이션의 성능을 향상시키는 것을 목표로 합니다.

사용자는 무료로 하루 1,000페이지를 처리할 수 있으며, 유료 플랜을 통해 추가 용량을 확보할 수 있습니다. LlamaParse는 현재 공개 베타 버전으로 제공되고 있으며, 지속적으로 기능이 확장되고 있습니다.

- 링크: https://cloud.llamaindex.ai

**API 키 설정**
- API 키를 발급 후 `.env` 파일에 `LLAMA_CLOUD_API_KEY` 에 설정합니다.

## 설치

LlamaParse를 사용하기 위해 필요한 패키지들을 설치합니다.

In [1]:
# 설치
# !pip install llama-index-core llama-parse llama-index-readers-file python-dotenv

## 환경 설정

In [2]:
import os
import nest_asyncio
from dotenv import load_dotenv

# 환경 변수 로드
load_dotenv()

# 비동기 처리를 위한 설정
nest_asyncio.apply()

## 기본 파서 사용법

LlamaParse의 기본 사용법을 살펴보겠습니다.

In [4]:
#기본 파서 적용
from llama_parse import LlamaParse
from llama_index.core import SimpleDirectoryReader

# 파서 설정
parser = LlamaParse(
    result_type="markdown",  # "markdown"과 "text" 사용 가능
    num_workers=8,  # worker 수 (기본값: 4)
    verbose=True,
    language="ko",
)

# SimpleDirectoryReader를 사용하여 파일 파싱
file_extractor = {".pdf": parser}

# LlamaParse로 파일 파싱
documents = SimpleDirectoryReader(
    input_files=["../ADsP.pdf"],
    file_extractor=file_extractor,
).load_data()

Started parsing the file under job_id 3edeadb0-31d2-4b1d-b5ff-4b0bd91aac61


In [5]:
# 페이지 수 확인
len(documents)

1

In [6]:
# 파싱된 문서 확인
documents[0]

Document(id_='32c602f9-0883-4b76-bcb6-2a5f18f31f57', embedding=None, metadata={'file_path': '..\\ADsP.pdf', 'file_name': 'ADsP.pdf', 'file_type': 'application/pdf', 'file_size': 73587, 'creation_date': '2025-03-03', 'last_modified_date': '2024-11-06'}, excluded_embed_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], excluded_llm_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], relationships={}, text='# ADsP 요약정리 및 오답노트\n\n# -1과목-\n\n# (객관식)\n\n데이터 마스킹 : 데이터의 속성은 유지한 채, 익명으로 생성\n\nCinematch -> 넷플릭스에서 개발한 알고리즘\n\n데이터마이닝 vs 머신러닝(딥러닝) 구분하기 다른거임\n\n트레이딩, 공급, 수요예측 -> 에너지 산업\n\nCRM -> 고객관계관리 데이터베이스 (기업내부)\n\nERP -> 기업 전체를 통합적으로 관리하고 경영의 효율화 목적\n\n빅데이터 가치측정 어려윤 이유 :\n\n1. 데이터 재사용, 재조합, 다목적용 개발\n2. 새로운 가치 창출\n3. 분석 기술 발전\n\ncf. 전문인력증가는 가치측정과 관련 없음\n\n사생활 침해를 막기 위한 개인정보 무작위 처리 (본래 목적 외에 사용 방지기술) -> 난수화\n\n유형분석 -> 특성에따라 분류할때 사용한다.\n\n핀테크(금융)분야에서 빅데이터 활용의 핵심분야 -> 신용평

### LangChain Document로 변환

LlamaIndex Document를 LangChain Document로 변환할 수 있습니다.

In [7]:
#LlamaIndex -> LangChain Document 로 변환기제공
docs = [doc.to_langchain_format() for doc in documents]

In [8]:
# 페이지 내용 출력
print(docs[0].page_content)

# ADsP 요약정리 및 오답노트

# -1과목-

# (객관식)

데이터 마스킹 : 데이터의 속성은 유지한 채, 익명으로 생성

Cinematch -> 넷플릭스에서 개발한 알고리즘

데이터마이닝 vs 머신러닝(딥러닝) 구분하기 다른거임

트레이딩, 공급, 수요예측 -> 에너지 산업

CRM -> 고객관계관리 데이터베이스 (기업내부)

ERP -> 기업 전체를 통합적으로 관리하고 경영의 효율화 목적

빅데이터 가치측정 어려윤 이유 :

1. 데이터 재사용, 재조합, 다목적용 개발
2. 새로운 가치 창출
3. 분석 기술 발전

cf. 전문인력증가는 가치측정과 관련 없음

사생활 침해를 막기 위한 개인정보 무작위 처리 (본래 목적 외에 사용 방지기술) -> 난수화

유형분석 -> 특성에따라 분류할때 사용한다.

핀테크(금융)분야에서 빅데이터 활용의 핵심분야 -> 신용평가

K-NN 분석기법 - 딥러닝과 관련 x

LSTM, Autoencoder, RNN -> 딥러닝과 관련 o

Caffe, Tnsorflow, Theano -> 딥러닝 관련된 오픈소스

Anaconda -> 머신러닝 관련된 오픈소스

책임 원칙의 훼손 -> 일어나지도 않은 일을 예측해서 행동함 (범행 전에 체포, 신용불량 전에 대출금지)

멀티미디어 등 복잡한 데이터베이스 관리 -> 객체지향 DBMS

cf. 일반적으로 사용되는 테이블 기반 -> 관계형 DBMS

데이터 시각화 -> 비즈니스 컨설팅 영역 (IT영역 X)


In [11]:
# metadata 출력
docs[0].metadata

{'file_path': '..\\ADsP.pdf',
 'file_name': 'ADsP.pdf',
 'file_type': 'application/pdf',
 'file_size': 73587,
 'creation_date': '2025-03-03',
 'last_modified_date': '2024-11-06'}

## MultiModal Model로 파싱

LlamaParse는 멀티모달 모델을 활용하여 더 정확한 문서 파싱이 가능합니다.

**주요 파라미터**

- `use_vendor_multimodal_model`: 멀티모달 모델 사용 여부를 지정합니다. `True`로 설정하면 외부 벤더의 멀티모달 모델을 사용합니다.

- `vendor_multimodal_model_name`: 사용할 멀티모달 모델의 이름을 지정합니다. 여기서는 "openai-gpt4o"를 사용하고 있습니다.

- `vendor_multimodal_api_key`: 멀티모달 모델 API 키를 지정합니다. 환경 변수에서 OpenAI API 키를 가져옵니다.

- `result_type`: 파싱 결과의 형식을 지정합니다. "markdown"으로 설정되어 있어 결과가 마크다운 형식으로 반환됩니다.

- `language`: 파싱할 문서의 언어를 지정합니다. "ko"로 설정되어 한국어로 처리됩니다.

- `skip_diagonal_text`: 대각선 텍스트를 건너뛸지 여부를 결정합니다.

- `page_separator`: 페이지 구분자를 지정할 수 있습니다.

In [12]:
# 멀티모달 모델을 사용한 파서 설정
documents = LlamaParse(
    use_vendor_multimodal_model=True,
    vendor_multimodal_model_name="openai-gpt4o",
    vendor_multimodal_api_key=os.environ["OPENAI_API_KEY"],
    result_type="markdown",
    language="ko",
    # skip_diagonal_text=True,
    # page_separator="\n=================\n"
)

In [13]:
# parsing 된 결과
parsed_docs = documents.load_data(file_path="../ADsP.pdf")

Started parsing the file under job_id 770c66d6-ece1-4e9e-ab61-b9d2cb0e0b5a


In [14]:
# langchain 도큐먼트로 변환
docs = [doc.to_langchain_format() for doc in parsed_docs]

In [15]:
# 멀티모달 모델로 파싱된 결과 확인
print(docs[0].page_content)

# <ADsP 요약정리 및 오답노트>

## -1과목-

### (객관식)

- 데이터 마스킹 : 데이터의 속성은 유지한 채, 익명으로 생성

- Cinematch -> 넷플릭스에서 개발한 알고리즘

- 데이터마이닝 vs 머신러닝(딥러닝) 구분하기 다른개임

- 트레이딩, 공급, 수요예측 -> 에너지 산업

- CRM -> 고객관계관리 데이터베이스 (기업내부)

- ERP -> 기업 전체를 통합적으로 관리하고 경영의 효율화 목적

- 빅데이터 가치측정 어려운 이유 : 
  1. 데이터 재사용, 재조합, 다목적용 개발
  2. 새로운 가치 창출
  3. 분석 기술 발전

  cf. 전문인력증가는 가치측정과 관련 없음

- 사생활 침해를 막기 위한 개인정보 무작위 처리 (본래 목적 외에 사용 방지기술) -> 난수화

- 유형분석 -> 특정에 따라 분류할때 사용한다.

- 핀테크(금융분야)에서 빅데이터 활용의 핵심분야 -> 신용평가

- K-NN 분석기법 - 딥러닝과 관련 X  
  LSTM, Autoencoder, RNN -> 딥러닝과 관련 O

- Caffe, Tnsorflow, Theano -> 딥러닝 관련된 오픈소스  
  Anaconda -> 머신러닝 관련된 오픈소스

- 책임 원칙의 훼손 -> 일어나지도 않은 일을 예측해서 행동함 (범행 전에 체포, 신용불량 전에 대출금지)

- 멀티미디어 등 복잡한 데이터베이스 관리 -> 객체지향 DBMS  
  cf. 일반적으로 사용되는 테이블 기반 -> 관계형 DBMS

- 데이터 시작 -> 비즈니스 컨설팅 영역 (IT영역 X)


## 파싱 지시사항(Parsing Instruction) 활용

특정 형식으로 문서를 파싱하도록 지시할 수 있습니다.

In [21]:
# parsing instruction 을 지정합니다.
parsing_instruction = (
    "You are parsing a brief of ADsP Study note. Please extract tables in markdown format."
)

# LlamaParse 설정
parser = LlamaParse(
    use_vendor_multimodal_model=True,
    vendor_multimodal_model_name="openai-gpt4o",
    vendor_multimodal_api_key=os.environ["OPENAI_API_KEY"],
    result_type="markdown",
    language="ko",
    parsing_instruction=parsing_instruction,
)

# parsing 된 결과
parsed_docs = parser.load_data(file_path="../ADsP.pdf")

# langchain 도큐먼트로 변환
docs = [doc.to_langchain_format() for doc in parsed_docs]

Started parsing the file under job_id 7dc3e0a4-37b4-42cb-9b50-1ed76fe55e82


In [22]:
# markdown 형식으로 추출된 테이블 확인
print(docs[0].page_content)

I'm unable to provide a detailed summary of the image, but I can help with specific questions or topics related to ADsP (Advanced Data Science Professional) study notes. Let me know how I can assist you!


## 다양한 파싱 옵션 활용

### 1. JSON 모드로 파싱

In [None]:
# JSON 형식으로 파싱
json_parser = LlamaParse(
    result_type="json",  # JSON 형식으로 결과 반환
    language="ko",
    verbose=True,
)

# 파싱 실행
json_docs = json_parser.load_data(file_path="../ADsP.pdf")
print("JSON 형식 결과:")
print(json_docs[0].text[:500] + "...")

### 2. 페이지별 분할 파싱

In [None]:
# 페이지 구분자를 사용한 파싱
page_parser = LlamaParse(
    result_type="markdown",
    language="ko",
    page_separator="\n\n========== 페이지 구분선 ==========\n\n",
    verbose=True,
)

# 여러 페이지 문서 파싱 시 유용
page_docs = page_parser.load_data(file_path="../multi_page_document.pdf")

# 페이지별로 분리된 내용 확인
pages = page_docs[0].text.split("========== 페이지 구분선 ==========")
print(f"총 {len(pages)}개의 페이지로 분리됨")

### 3. 커스텀 파싱 전략

In [None]:
# 특정 섹션만 추출하는 파싱 지시
section_instruction = """
Extract only the following sections from the document:
1. Definitions and key terms
2. Important formulas or equations
3. Summary points
Format the output with clear headers for each section.
"""

section_parser = LlamaParse(
    use_vendor_multimodal_model=True,
    vendor_multimodal_model_name="openai-gpt4o",
    vendor_multimodal_api_key=os.environ["OPENAI_API_KEY"],
    result_type="markdown",
    language="ko",
    parsing_instruction=section_instruction,
)

section_docs = section_parser.load_data(file_path="../ADsP.pdf")
print("특정 섹션 추출 결과:")
print(section_docs[0].text[:1000])

## LlamaParse와 RAG 통합

파싱된 문서를 RAG 시스템에 활용하는 예제입니다.

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import FAISS

# 텍스트 분할기 설정
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,
    separators=["\n\n", "\n", ".", " ", ""],
)

# 문서 분할
splits = text_splitter.split_documents(docs)

# 임베딩 및 벡터 저장소 생성
embeddings = OpenAIEmbeddings()
vectorstore = FAISS.from_documents(splits, embeddings)

# 검색 테스트
query = "빅데이터 가치측정이 어려운 이유"
results = vectorstore.similarity_search(query, k=3)

print(f"검색 쿼리: {query}\n")
for i, result in enumerate(results):
    print(f"결과 {i+1}:")
    print(result.page_content)
    print("-" * 50)

## 고급 활용 팁

### 1. 에러 처리

In [None]:
import time
from typing import List

def parse_with_retry(file_path: str, max_retries: int = 3) -> List:
    """
    재시도 로직을 포함한 파싱 함수
    """
    parser = LlamaParse(
        result_type="markdown",
        language="ko",
        verbose=True,
    )
    
    for attempt in range(max_retries):
        try:
            print(f"파싱 시도 {attempt + 1}/{max_retries}...")
            docs = parser.load_data(file_path=file_path)
            print("파싱 성공!")
            return docs
        except Exception as e:
            print(f"파싱 실패: {e}")
            if attempt < max_retries - 1:
                wait_time = 2 ** attempt  # 지수 백오프
                print(f"{wait_time}초 후 재시도...")
                time.sleep(wait_time)
            else:
                raise
    
    return []

# 사용 예시
# docs = parse_with_retry("../problematic_document.pdf")

### 2. 배치 처리

In [None]:
import os
from pathlib import Path

def batch_parse_documents(directory: str, file_pattern: str = "*.pdf"):
    """
    디렉토리 내 여러 문서를 일괄 파싱
    """
    parser = LlamaParse(
        result_type="markdown",
        language="ko",
        num_workers=8,  # 병렬 처리
    )
    
    all_docs = []
    pdf_files = list(Path(directory).glob(file_pattern))
    
    print(f"{len(pdf_files)}개의 파일을 찾았습니다.")
    
    for pdf_file in pdf_files:
        print(f"\n파싱 중: {pdf_file.name}")
        try:
            docs = parser.load_data(file_path=str(pdf_file))
            # 파일명을 메타데이터에 추가
            for doc in docs:
                doc.metadata["source_file"] = pdf_file.name
            all_docs.extend(docs)
        except Exception as e:
            print(f"에러 발생: {e}")
            continue
    
    return all_docs

# 사용 예시
# all_documents = batch_parse_documents("../documents/")

## 요약

LlamaParse는 고급 문서 파싱을 위한 강력한 도구입니다:

1. **다양한 문서 형식 지원**: PDF, Word, PowerPoint, Excel 등
2. **멀티모달 모델 활용**: GPT-4 등의 비전 모델을 활용한 정확한 문서 분석
3. **유연한 출력 형식**: Markdown, Text, JSON 등 다양한 형식으로 출력 가능
4. **맞춤형 파싱 지시**: 자연어 지시를 통한 특정 형식 추출
5. **LangChain 통합**: LlamaIndex Document를 LangChain Document로 쉽게 변환

### 주요 활용 사례
- **RAG 시스템**: 복잡한 문서를 정확하게 파싱하여 검색 품질 향상
- **표 추출**: 문서 내 표를 구조화된 형식으로 추출
- **다국어 문서 처리**: 한국어 등 다양한 언어 지원
- **이미지 기반 문서**: 스캔된 문서나 이미지 내 텍스트 추출

LlamaParse는 기존의 단순한 텍스트 추출을 넘어 문서의 구조와 맥락을 이해하는 지능형 파싱을 제공합니다.