In [6]:
import os
import requests
import json
from dotenv import load_dotenv

load_dotenv("/home/kevin/projects/langgraph/.env")


True

In [7]:
DEFAULT_CONFIG = {
    "ocr": False,
    "coordinates": True,
    "output_formats": "['html', 'text', 'markdown']",
    "model": "document-parse",
    "base64_encoding": "['figure', 'chart', 'table']",
}


In [14]:
def upstage_layout_analysis(input_file):
    """
    Upstage의 Document Parse API를 호출하여 문서 분석을 수행합니다.

    :param input_file: 분석할 PDF 파일의 경로
    :return: 분석 결과가 저장된 JSON 파일의 경로
    """
    # API 요청 헤더 설정
    headers = {"Authorization": f"Bearer {os.getenv('UPSTAGE_API_KEY')}"}
    
    try:
        # 분석할 PDF 파일 열기
        with open(input_file, "rb") as file:
            files = {"document": file}
            
            # API 요청 보내기
            response = requests.post(
                "https://api.upstage.ai/v1/document-ai/document-parse",
                headers=headers,
                data=DEFAULT_CONFIG,
                files=files,
            )
            
            # 응답 상태 확인 및 디버깅
            print(f"응답 상태 코드: {response.status_code}")
            print(f"응답 내용: {response.text[:500]}...")  # 처음 500자만 출력
            
            # API 응답 처리 및 결과 저장
            if response.status_code == 200:
                output_file = os.path.splitext(input_file)[0] + ".json"
                
                # 응답 데이터 확인
                response_data = response.json()
                
                # 분석 결과를 JSON 파일로 저장
                with open(output_file, "w", encoding='utf-8') as f:
                    json.dump(response_data, f, ensure_ascii=False, indent=2)
                
                return output_file
            else:
                raise ValueError(f"API 요청 실패. 상태 코드: {response.status_code}, 응답: {response.text}")
                
    except Exception as e:
        print(f"에러 발생: {str(e)}")
        raise

In [16]:
response = upstage_layout_analysis("/home/kevin/projects/langgraph/data/01_(무)아이사랑첫보험 (1).pdf")
print(response)

# 저장된 JSON 파일 확인
with open(response, "r", encoding='utf-8') as f:
    data = json.load(f)
print(json.dumps(data, ensure_ascii=False, indent=2)[:1000])  # 처음 1000자만 출력

응답 상태 코드: 200
응답 내용: {"api":"2.0","content":{"html":"<h1 id='0' style='font-size:20px'>무배당 아이사랑 첫보험</h1>\n<p id='1' data-category='paragraph' style='font-size:14px'>※ 본 상품은 보장성상품이며, 저축(연금)목적에는 적합하지 않습니다.</p>\n<figure><img id='2' alt=\"\" data-coord=\"top-left:(417,936); bottom-right:(1117,1485)\" /></figure>\n<p id='3' data-category='paragraph' style='font-size:16px'>※ 기타 자세한 사항은 보험 계약 체결 전, 상품설명서 및 약관을 반드시 읽어보시기</p>\n<br><footer id='4' style='font-size:16px'>바랍니다. 1</footer>\n<header id='5' style='font-size:16px'>메...
/home/kevin/projects/langgraph/data/01_(무)아이사랑첫보험 (1).json
{
  "api": "2.0",
  "content": {
    "html": "<h1 id='0' style='font-size:20px'>무배당 아이사랑 첫보험</h1>\n<p id='1' data-category='paragraph' style='font-size:14px'>※ 본 상품은 보장성상품이며, 저축(연금)목적에는 적합하지 않습니다.</p>\n<figure><img id='2' alt=\"\" data-coord=\"top-left:(417,936); bottom-right:(1117,1485)\" /></figure>\n<p id='3' data-category='paragraph' style='font-size:16px'>※ 기타 자세한 사항은 보험 계약 체결 전, 상품설명서 및 약관을 반드시 읽어보시기</p>\n<

In [18]:
from pprint import pprint
pprint(data)


{'api': '2.0',
 'content': {'html': "<h1 id='0' style='font-size:20px'>무배당 아이사랑 첫보험</h1>\n"
                     "<p id='1' data-category='paragraph' "
                     "style='font-size:14px'>※ 본 상품은 보장성상품이며, 저축(연금)목적에는 적합하지 "
                     '않습니다.</p>\n'
                     '<figure><img id=\'2\' alt="" '
                     'data-coord="top-left:(417,936); '
                     'bottom-right:(1117,1485)" /></figure>\n'
                     "<p id='3' data-category='paragraph' "
                     "style='font-size:16px'>※ 기타 자세한 사항은 보험 계약 체결 전, 상품설명서 및 "
                     '약관을 반드시 읽어보시기</p>\n'
                     "<br><footer id='4' style='font-size:16px'>바랍니다. "
                     '1</footer>\n'
                     "<header id='5' style='font-size:16px'>메트라이프생명 무배당 아이사랑 "
                     '첫보험</header>\n'
                     "<h1 id='6' style='font-size:22px'>상품특징</h1>\n"
                     "<p id='7' data-category='paragraph' "
                     "st