# UpstageLayoutAnalysisLoader

`UpstageLayoutAnalysisLoader` 는 Upstage AI에서 제공하는 문서 분석 도구로, LangChain 프레임워크와 통합되어 사용할 수 있는 문서 로더입니다.

**주요 특징:**
- PDF, 이미지 등 다양한 형식의 문서에서 레이아웃 분석 수행
- 문서의 구조적 요소(제목, 단락, 표, 이미지 등)를 자동으로 인식 및 추출
- OCR 기능 지원 (선택적)

UpstageLayoutAnalysisLoader는 단순한 텍스트 추출을 넘어 문서의 구조를 이해하고 요소 간 관계를 파악하여 보다 정확한 문서 분석을 가능하게 합니다.

**설치**

`langchain-upstage` 패키지를 설치 후 사용합니다.

```bash
pip install -U langchain-upstage
```

**API Key 설정**

- Upstage API KEY 발급 링크: https://console.upstage.ai/

`.env` 파일에 `UPSTAGE_API_KEY` 키를 설정합니다.

**참고** 
- [Upstage 개발자 문서](https://developers.upstage.ai/docs/getting-started/quick-start)를 참조하세요.

## 환경 설정

In [1]:
# API KEY를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv

# API KEY 정보로드
load_dotenv()

True

In [2]:
# LangSmith 추적을 설정합니다. https://smith.langchain.com
# !pip install langchain-teddynote
from langchain_teddynote import logging

# 프로젝트 이름을 입력합니다.
logging.langsmith("CH03-DocumentLoader")

LangSmith 추적을 시작합니다.
[프로젝트명]
CH03-DocumentLoader


## UpstageLayoutAnalysisLoader

**주요 파라미터**
- `file_path`: 분석할 문서 경로
- `output_type`: 출력 형식 [(기본값)'html', 'text']
- `split`: 문서 분할 방식 ['none', 'element', 'page']
- `use_ocr=True`: OCR 사용
- `exclude=["header", "footer"]`: 헤더, 푸터 제외

In [3]:
from langchain_upstage import UpstageLayoutAnalysisLoader

# 파일 경로
file_path = "./data/SPRI_AI_Brief_2023년12월호_F.pdf"

# 문서 로더 설정
loader = UpstageLayoutAnalysisLoader(
    file_path,
    output_type="html",
    split="element",
    use_ocr=True,
    exclude=["header", "footer"],
)

# 문서 로드
docs = loader.load()

# 결과 출력
for doc in docs[:3]:
    print(doc)

  from cryptography.hazmat.primitives.ciphers.algorithms import AES, ARC4


page_content='<h1 id='0' style='font-size:20px'>SPRi AI Brief</h1>' metadata={'page': 1, 'id': 0, 'bounding_box': '[{"x": 174, "y": 303}, {"x": 1110, "y": 303}, {"x": 1110, "y": 427}, {"x": 174, "y": 427}]', 'category': 'heading1'}
page_content='<h1 id='1' style='font-size:18px'>인공지능 산업의 최신 동향</h1>' metadata={'page': 1, 'id': 1, 'bounding_box': '[{"x": 412, "y": 498}, {"x": 862, "y": 498}, {"x": 862, "y": 552}, {"x": 412, "y": 552}]', 'category': 'heading1'}
page_content='<h1 id='2' style='font-size:16px'>2023년 12월호</h1>' metadata={'page': 1, 'id': 2, 'bounding_box': '[{"x": 526, "y": 586}, {"x": 746, "y": 586}, {"x": 746, "y": 632}, {"x": 526, "y": 632}]', 'category': 'heading1'}


In [4]:
docs[11]

Document(metadata={'page': 2, 'id': 12, 'bounding_box': '[{"x": 334, "y": 1141}, {"x": 462, "y": 1141}, {"x": 462, "y": 1170}, {"x": 334, "y": 1170}]', 'category': 'paragraph'}, page_content="<p id='12' data-category='paragraph' style='font-size:18px'>3. 기술/연구</p>")