# UpstageLayoutAnalysisLoader

`UpstageLayoutAnalysisLoader` 는 Upstage AI에서 제공하는 문서 분석 도구로, LangChain 프레임워크와 통합되어 사용할 수 있는 문서 로더입니다.

**주요 특징:**
- PDF, 이미지 등 다양한 형식의 문서에서 레이아웃 분석 수행
- 문서의 구조적 요소(제목, 단락, 표, 이미지 등)를 자동으로 인식 및 추출
- OCR 기능 지원 (선택적)

UpstageLayoutAnalysisLoader는 단순한 텍스트 추출을 넘어 문서의 구조를 이해하고 요소 간 관계를 파악하여 보다 정확한 문서 분석을 가능하게 합니다.

**설치**

`langchain-upstage` 패키지를 설치 후 사용합니다.

```bash
pip install -U langchain-upstage
```

**API Key 설정**

- Upstage API KEY 발급 링크: https://console.upstage.ai/

`.env` 파일에 `UPSTAGE_API_KEY` 키를 설정합니다.

**참고**
- [Upstage 개발자 문서](https://developers.upstage.ai/docs/getting-started/quick-start)를 참조하세요.

In [None]:
!pip install -qU langchain-upstage

Collecting langchain-upstage
  Downloading langchain_upstage-0.4.0-py3-none-any.whl.metadata (3.3 kB)
Collecting langchain-openai<0.3,>=0.2 (from langchain-upstage)
  Downloading langchain_openai-0.2.14-py3-none-any.whl.metadata (2.7 kB)
Collecting pypdf<5.0.0,>=4.2.0 (from langchain-upstage)
  Downloading pypdf-4.3.1-py3-none-any.whl.metadata (7.4 kB)
Collecting tokenizers<0.20.0,>=0.19.1 (from langchain-upstage)
  Downloading tokenizers-0.19.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.7 kB)
Collecting langchain-core<0.4,>=0.3.0 (from langchain-upstage)
  Downloading langchain_core-0.3.28-py3-none-any.whl.metadata (6.3 kB)
Collecting openai<2.0.0,>=1.58.1 (from langchain-openai<0.3,>=0.2->langchain-upstage)
  Downloading openai-1.58.1-py3-none-any.whl.metadata (27 kB)
Collecting tiktoken<1,>=0.7 (from langchain-openai<0.3,>=0.2->langchain-upstage)
  Downloading tiktoken-0.8.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.6 kB)
Down

## 환경 설정

In [None]:
UPSTAGE_API_KEY='up_17QFJKhVHmRAuHsirr1rC8nwJJ5ms'

In [None]:
!pip install -qU langchain-teddynote

Collecting langchain-teddynote
  Downloading langchain_teddynote-0.3.41-py3-none-any.whl.metadata (707 bytes)
Collecting langgraph (from langchain-teddynote)
  Downloading langgraph-0.2.60-py3-none-any.whl.metadata (15 kB)
Collecting kiwipiepy (from langchain-teddynote)
  Downloading kiwipiepy-0.20.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (1.1 kB)
Collecting rank_bm25 (from langchain-teddynote)
  Downloading rank_bm25-0.2.2-py3-none-any.whl.metadata (3.2 kB)
Collecting pinecone-client[grpc] (from langchain-teddynote)
  Downloading pinecone_client-5.0.1-py3-none-any.whl.metadata (19 kB)
Collecting pinecone-text (from langchain-teddynote)
  Downloading pinecone_text-0.9.0-py3-none-any.whl.metadata (10 kB)
Collecting olefile (from langchain-teddynote)
  Downloading olefile-0.47-py2.py3-none-any.whl.metadata (9.7 kB)
Collecting pdf2image (from langchain-teddynote)
  Downloading pdf2image-1.17.0-py3-none-any.whl.metadata (6.2 kB)
Collecting anthropic (from langc

In [None]:
06-12

LangChain API Key가 설정되지 않았습니다. 참고: https://wikidocs.net/250954


## UpstageLayoutAnalysisLoader

**주요 파라미터**
- `file_path`: 분석할 문서 경로
- `output_type`: 출력 형식 [(기본값)'html', 'text']
- `split`: 문서 분할 방식 ['none', 'element', 'page']
- `use_ocr=True`: OCR 사용
- `exclude=["header", "footer"]`: 헤더, 푸터 제외

---
Jun---
- 이 화일은 OCR 기능을 안써도 됨: Text로 모두 긁히는 문서는 사용 안해도 됨.
- excluede: 제거하고 싶은것 리스트: "Table", "figure"등 가능
- 출력형식을: 'html', 'text'로 바꿔 가면서 해 보기
- split방식을: 'element', 'page'로 바꿔 가면서 해 보기

In [None]:
from langchain_upstage import UpstageLayoutAnalysisLoader

# 파일 경로
file_path = "/content/SPRI_AI_Brief_2023년12월호_F.pdf"

# 문서 로더 설정
loader = UpstageLayoutAnalysisLoader(
    file_path,
    output_type="html",
    split="page",
    use_ocr=True,
    exclude=["header", "footer"],
    api_key=UPSTAGE_API_KEY
)

# 문서 로드
docs = loader.load()

# 결과 출력
for doc in docs[:3]:
    print(doc)

page_content='<h1 id='0' style='font-size:20px'>SPRi AI Brief</h1> <h1 id='1' style='font-size:18px'>인공지능 산업의 최신 동향</h1> <h1 id='2' style='font-size:16px'>2023년 12월호</h1> <figure><img id='3' alt="" data-coord="top-left:(19,751); bottom-right:(1386,1473)" /></figure>' metadata={'page': 1}
page_content='<p id='5' data-category='paragraph' style='font-size:16px'>2023년 12월호</p> <h1 id='6' style='font-size:22px'>CONTENTS</h1> <h1 id='7' style='font-size:20px'>I 인공지능 산업 동향 브리프</h1> <p id='8' data-category='paragraph' style='font-size:16px'>1. 정책/법제</p> <br><p id='9' data-category='list' style='font-size:14px'>▷ 미국, 안전하고 신뢰할 수 있는 AI 개발과 사용에 관한 행정명령 발표 1<br>▷ G7, 히로시마 AI 프로세스를 통해 AI 기업 대상 국제 행동강령에 합의 2<br>▷ 영국 AI 안전성 정상회의에 참가한 28개국, AI 위험에 공동 대응 선언 3<br>▷ 미국 법원, 예술가들이 생성 AI 기업에 제기한 저작권 소송 기각 4<br>▷ 미국 연방거래위원회, 저작권청에 소비자 보호와 경쟁 측면의 AI 의견서 제출 5<br>▷ EU AI 법 3자 협상, 기반모델 규제 관련 견해차로 난항 6</p> <p id='10' data-category='paragraph' style='font-size:16px'>2. 기업/산업</p> <br><p id='11' data-category='list'

In [None]:
docs[11]