# UpstageLayoutAnalysisLoader

`UpstageLayoutAnalysisLoader` 는 Upstage AI에서 제공하는 문서 분석 도구로, LangChain 프레임워크와 통합되어 사용할 수 있는 문서 로더입니다.

**주요 특징:**
- PDF, 이미지 등 다양한 형식의 문서에서 레이아웃 분석 수행
- 문서의 구조적 요소(제목, 단락, 표, 이미지 등)를 자동으로 인식 및 추출
- OCR 기능 지원 (선택적)

UpstageLayoutAnalysisLoader는 단순한 텍스트 추출을 넘어 문서의 구조를 이해하고 요소 간 관계를 파악하여 보다 정확한 문서 분석을 가능하게 합니다.

**설치**

`langchain-upstage` 패키지를 설치 후 사용합니다.

```bash
pip install -U langchain-upstage
```

**API Key 설정**

- Upstage API KEY 발급 링크: https://console.upstage.ai/

`.env` 파일에 `UPSTAGE_API_KEY` 키를 설정합니다.

**참고** 
- [Upstage 개발자 문서](https://developers.upstage.ai/docs/getting-started/quick-start)를 참조하세요.

## 환경 설정

In [1]:
# API KEY를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv

# API KEY 정보로드
load_dotenv()

True

## UpstageLayoutAnalysisLoader

**주요 파라미터**
- `file_path`: 분석할 문서 경로
- `output_type`: 출력 형식 [(기본값)'html', 'text']
- `split`: 문서 분할 방식 ['none', 'element', 'page']
- `use_ocr=True`: OCR 사용
- `exclude=["header", "footer"]`: 헤더, 푸터 제외

In [2]:
from langchain_upstage import UpstageDocumentParseLoader

# 파일 경로
file_path = "./data/01. 온보딩 프로세스 - 기반기술.pdf"

# 문서 로더 설정
loader = UpstageDocumentParseLoader(
    file_path,
    output_format="markdown"
)

# 문서 로드
docs = loader.load()

page_content='# 1. 온보딩 프로세스# 기반 기술# 1.1. info| Owner | 서정현 | 서정현 | 서정현 | 서정현 | 서정현 |
| --- | --- | --- | --- | --- | --- |
| Owner | 서정현 | 서정현 | 서정현 | 서정현 | 서정현 |
# 1.2. History| 버전 변경 내용 | 버전 변경 내용 | 작성자 | 일자 |
| --- | --- | --- | --- |
| v0.1 | 초안 작성 | 서정현 | 2024년 1월 15일 |
| v1.0 | 리뷰 의견 적용 및 내용 추가 | 서정현 | 2024년 1월 17일 |
# 1.3. 문서의 목적DWorks 를 처음 접하는 구성원이 DWorks를 이해하기 위한 기반 지식 습득 및 구성원간의
원활한 소통이 가능하도록 합니다.# 2. 기반 지식2.1. MSA (MicroServices Architecture)MSA 하면 항상 함께 얘기되는게 Monolithic 아키텍처에요.![image](/image/placeholder)
# - Monolithic (EER)작은 코드 베이스에서 시작하여, 초기 개발단계에서 개발/테스트가 용이한
장점이 있지만, 어플리케이션 구성 단위가 커서 작은 변경에도 민감하다는
단점이 있어요!MSA (DWorks)- Monolithic 에 비해 복잡한 구성이라는 단점이 있지만, 서비스별 적합한
기술스택적용이 가능하고, 확장성, 배포용이성, 서비스의 독립성으로 인해
특정 서비스의 장애가 전체 서비스의 장애로는 전파되지 않는 장점이
있어요!# 2.2. Spring BootSpring Framework 기반으로 한 어플리케이션을 빠르게 설정/개발 및 실행 할 수 있는 환경
제공해요# 1. 복잡한 XML 대신, Java 기반의 설정을 선호해요a. @Configuration, @bean 등 Annotation 등을 사용하여 가독성이 좋은
코드들을 만들어요! 예를들어 작성한 무언가가 Bean으로써 동작을 하게
하고 싶다면, XML 설정파일을 찾아서 수

In [3]:
for doc in docs:
    print(doc)

page_content='# 1. 온보딩 프로세스# 기반 기술# 1.1. info| Owner | 서정현 | 서정현 | 서정현 | 서정현 | 서정현 |
| --- | --- | --- | --- | --- | --- |
| Owner | 서정현 | 서정현 | 서정현 | 서정현 | 서정현 |
# 1.2. History| 버전 변경 내용 | 버전 변경 내용 | 작성자 | 일자 |
| --- | --- | --- | --- |
| v0.1 | 초안 작성 | 서정현 | 2024년 1월 15일 |
| v1.0 | 리뷰 의견 적용 및 내용 추가 | 서정현 | 2024년 1월 17일 |
# 1.3. 문서의 목적DWorks 를 처음 접하는 구성원이 DWorks를 이해하기 위한 기반 지식 습득 및 구성원간의
원활한 소통이 가능하도록 합니다.# 2. 기반 지식2.1. MSA (MicroServices Architecture)MSA 하면 항상 함께 얘기되는게 Monolithic 아키텍처에요.![image](/image/placeholder)
# - Monolithic (EER)작은 코드 베이스에서 시작하여, 초기 개발단계에서 개발/테스트가 용이한
장점이 있지만, 어플리케이션 구성 단위가 커서 작은 변경에도 민감하다는
단점이 있어요!MSA (DWorks)- Monolithic 에 비해 복잡한 구성이라는 단점이 있지만, 서비스별 적합한
기술스택적용이 가능하고, 확장성, 배포용이성, 서비스의 독립성으로 인해
특정 서비스의 장애가 전체 서비스의 장애로는 전파되지 않는 장점이
있어요!# 2.2. Spring BootSpring Framework 기반으로 한 어플리케이션을 빠르게 설정/개발 및 실행 할 수 있는 환경
제공해요# 1. 복잡한 XML 대신, Java 기반의 설정을 선호해요a. @Configuration, @bean 등 Annotation 등을 사용하여 가독성이 좋은
코드들을 만들어요! 예를들어 작성한 무언가가 Bean으로써 동작을 하게
하고 싶다면, XML 설정파일을 찾아서 수

In [None]:
docs[11]