# UpstageLayoutAnalysisLoader

`UpstageLayoutAnalysisLoader` 는 Upstage AI에서 제공하는 문서 분석 도구로, LangChain 프레임워크와 통합되어 사용할 수 있는 문서 로더입니다.

**주요 특징:**
- PDF, 이미지 등 다양한 형식의 문서에서 레이아웃 분석 수행
- 문서의 구조적 요소(제목, 단락, 표, 이미지 등)를 자동으로 인식 및 추출
- OCR 기능 지원 (선택적)

UpstageLayoutAnalysisLoader는 단순한 텍스트 추출을 넘어 문서의 구조를 이해하고 요소 간 관계를 파악하여 보다 정확한 문서 분석을 가능하게 합니다.

**설치**

`langchain-upstage` 패키지를 설치 후 사용합니다.

```bash
pip install -U langchain-upstage
```

In [1]:
# API KEY를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv

# API KEY 정보로드
load_dotenv()

True

## UpstageLayoutAnalysisLoader

**주요 파라미터**
- `file_path`: 분석할 문서 경로
- `output_type`: 출력 형식 [(기본값)'html', 'text']
- `split`: 문서 분할 방식 ['none', 'element', 'page']
- `use_ocr=True`: OCR 사용
- `exclude=["header", "footer"]`: 헤더, 푸터 제외

In [2]:
from langchain_upstage import UpstageLayoutAnalysisLoader

# 파일 경로
file_path = "../ADsP.pdf"

# 문서 로더 설정
loader = UpstageLayoutAnalysisLoader(
    file_path,
    output_type="html",
    split="element",
    use_ocr=True,
    exclude=["header", "footer"],
)

# 문서 로드
docs = loader.load()

# 결과 출력
for doc in docs[:3]:
    print(doc)

page_content='<h1 id='0' style='font-size:16px'><ADsP 요약정리 및 오답노트></h1>' metadata={'page': 1, 'id': 0, 'bounding_box': '[{"x": 174, "y": 203}, {"x": 469, "y": 203}, {"x": 469, "y": 230}, {"x": 174, "y": 230}]', 'category': 'heading1'}
page_content='<h1 id='1' style='font-size:20px'>-1과목-</h1>' metadata={'page': 1, 'id': 1, 'bounding_box': '[{"x": 172, "y": 271}, {"x": 253, "y": 271}, {"x": 253, "y": 297}, {"x": 172, "y": 297}]', 'category': 'heading1'}
page_content='<p id='2' data-category='paragraph' style='font-size:16px'>(객관식)<br>데이터 마스킹 : 데이터의 속성은 유지한 채, 익명으로 생성<br>Cinematch -> 넷플릭스에서 개발한 알고리즘<br>데이터마이닝 VS 머신러닝(딥러닝) 구분하기 다른거임<br>트레이딩, 공급, 수요예측 -> 에너지 산업<br>CRM -> 고객관계관리 데이터베이스 (기업내부)<br>ERP -> 기업 전체를 통합적으로 관리하고 경영의 효율화 목적<br>빅데이터 가치측정 어려윤 이유 : 1) 데이터 재사용,재조합,다목적용 개발<br>2) 새로운 가치 창출<br>3) 분석 기술 발전<br>cf. 전문인력증가는 가치측정과 관련 없음<br>사생활 침해를 막기 위한 개인정보 무작위 처리 (본래 목적 외에 사용 방지기술) -> 난수화<br>유형분석 -> 특성에따라 분류할때 사용한다.<br>핀테크(금융)분야에서 빅데이터 활용의 핵심분야 -> 신용평가<br>K-NN 분석기법 - 딥러닝과 관련 x<br>LSTM, Autoenc

In [4]:
docs[1]

Document(metadata={'page': 1, 'id': 1, 'bounding_box': '[{"x": 172, "y": 271}, {"x": 253, "y": 271}, {"x": 253, "y": 297}, {"x": 172, "y": 297}]', 'category': 'heading1'}, page_content="<h1 id='1' style='font-size:20px'>-1과목-</h1>")