# UpstageLayoutAnalysisLoader

`UpstageLayoutAnalysisLoader` 는 Upstage AI에서 제공하는 문서 분석 도구로, LangChain 프레임워크와 통합되어 사용할 수 있는 문서 로더입니다.

**주요 특징:**
- PDF, 이미지 등 다양한 형식의 문서에서 레이아웃 분석 수행
- 문서의 구조적 요소(제목, 단락, 표, 이미지 등)를 자동으로 인식 및 추출
- OCR 기능 지원 (선택적)

UpstageLayoutAnalysisLoader는 단순한 텍스트 추출을 넘어 문서의 구조를 이해하고 요소 간 관계를 파악하여 보다 정확한 문서 분석을 가능하게 합니다.

**설치**

`langchain-upstage` 패키지를 설치 후 사용합니다.

```bash
pip install -U langchain-upstage
```

**API Key 설정**

- Upstage API KEY 발급 링크: https://console.upstage.ai/

`.env` 파일에 `UPSTAGE_API_KEY` 키를 설정합니다.

**참고** 
- [Upstage 개발자 문서](https://developers.upstage.ai/docs/getting-started/quick-start)를 참조하세요.

## 환경 설정

In [10]:
# API KEY를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv

# API KEY 정보로드
load_dotenv()

True

In [11]:
# LangSmith 추적을 설정합니다. https://smith.langchain.com
# !pip install langchain-teddynote
from langchain_teddynote import logging

# 프로젝트 이름을 입력합니다.
logging.langsmith("CH07-DocumentLoader")

LangSmith 추적을 시작합니다.
[프로젝트명]
CH07-DocumentLoader


## UpstageLayoutAnalysisLoader

**주요 파라미터**
- `file_path`: 분석할 문서 경로
- `output_type`: 출력 형식 [(기본값)'html', 'text']
- `split`: 문서 분할 방식 ['none', 'element', 'page']
- `use_ocr=True`: OCR 사용
- `exclude=["header", "footer"]`: 헤더, 푸터 제외

In [None]:
from langchain_upstage import UpstageDocumentParseLoader

# 파일 경로
file_path = "./data/SPRI_AI_Brief_2023년12월호_F.pdf"

# 문서 로더 설정
loader = UpstageDocumentParseLoader(
    file_path,
    split="element",
)

# 문서 로드
docs = loader.load()

# 결과 출력
for doc in docs[:3]:
    print(doc)

page_content='<h1 id='0' style='font-size:14px'>2023년 12월호</h1>' metadata={'id': 0, 'page': 1, 'category': 'heading1', 'coordinates': [{'x': 0.4127, 'y': 0.3278}, {'x': 0.5855, 'y': 0.3278}, {'x': 0.5855, 'y': 0.3542}, {'x': 0.4127, 'y': 0.3542}]}
page_content='<figure id='1'><img alt="" data-coord="top-left:(26,743); bottom-right:(1357,1486)" /></figure>' metadata={'id': 1, 'page': 1, 'category': 'figure', 'coordinates': [{'x': 0.0207, 'y': 0.4158}, {'x': 1.0644, 'y': 0.4158}, {'x': 1.0644, 'y': 0.8316}, {'x': 0.0207, 'y': 0.8316}]}
page_content='<header id='2' style='font-size:14px'>2023년 12월호</header>' metadata={'id': 2, 'page': 2, 'category': 'header', 'coordinates': [{'x': 0.7921, 'y': 0.065}, {'x': 0.9134, 'y': 0.065}, {'x': 0.9134, 'y': 0.0831}, {'x': 0.7921, 'y': 0.0831}]}


In [13]:
docs[11]

Document(metadata={'id': 11, 'page': 2, 'category': 'paragraph', 'coordinates': [{'x': 0.2857, 'y': 0.7533}, {'x': 0.9166, 'y': 0.7533}, {'x': 0.9166, 'y': 0.7704}, {'x': 0.2857, 'y': 0.7704}]}, page_content="<br><p id='11' data-category='paragraph' style='font-size:14px'>▹ 영국 옥스퍼드 인터넷 연구소, AI 기술자의 임금이 평균 21% 높아 ······························· 18</p>")