# UpstageLayoutAnalysisLoader

`UpstageLayoutAnalysisLoader` 는 Upstage AI에서 제공하는 문서 분석 도구로, LangChain 프레임워크와 통합되어 사용할 수 있는 문서 로더입니다.

**주요 특징:**
- PDF, 이미지 등 다양한 형식의 문서에서 레이아웃 분석 수행
- 문서의 구조적 요소(제목, 단락, 표, 이미지 등)를 자동으로 인식 및 추출
- OCR 기능 지원 (선택적)

UpstageLayoutAnalysisLoader는 단순한 텍스트 추출을 넘어 문서의 구조를 이해하고 요소 간 관계를 파악하여 보다 정확한 문서 분석을 가능하게 합니다.

**설치**

`langchain-upstage` 패키지를 설치 후 사용합니다.

```bash
pip install -U langchain-upstage
```

**API Key 설정**

- Upstage API KEY 발급 링크: https://console.upstage.ai/

`.env` 파일에 `UPSTAGE_API_KEY` 키를 설정합니다.

**참고** 
- [Upstage 개발자 문서](https://developers.upstage.ai/docs/getting-started/quick-start)를 참조하세요.

## 환경 설정

In [None]:
# API KEY를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv

# API KEY 정보로드
load_dotenv()

## UpstageLayoutAnalysisLoader

**주요 파라미터**
- `file_path`: 분석할 문서 경로
- `output_type`: 출력 형식 [(기본값)'html', 'text']
- `split`: 문서 분할 방식 ['none', 'element', 'page']
- `use_ocr=True`: OCR 사용
- `exclude=["header", "footer"]`: 헤더, 푸터 제외

In [None]:
from langchain_upstage import UpstageDocumentParseLoader

# 파일 경로
file_path = "./data/01. 온보딩 프로세스 - 기반기술.pdf"

# 문서 로더 설정
loader = UpstageDocumentParseLoader(
    file_path,
    output_format="markdown"
)

# 문서 로드
docs = loader.load()

In [None]:
for doc in docs:
    print(doc.page_content)

In [None]:
docs[11]

In [None]:
loader = UpstageDocumentParseLoader(
    "./data/가로문서.pdf",
    output_format="markdown"
)
docs = loader.load()

In [None]:
docs[0].page_content