In [2]:
# Copyright 2024 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# Document Processing with Gemini

<table align="left">
  <td style="text-align: center">
    <a href="https://colab.research.google.com/github/GoogleCloudPlatform/generative-ai/blob/main/gemini/use-cases/document-processing/document_processing.ipynb">
      <img src="https://cloud.google.com/ml-engine/images/colab-logo-32px.png" alt="Google Colaboratory logo"><br> Run in Colab
    </a>
  </td>
  <td style="text-align: center">
    <a href="https://console.cloud.google.com/vertex-ai/colab/import/https:%2F%2Fraw.githubusercontent.com%2FGoogleCloudPlatform%2Fgenerative-ai%2Fmain%2Fgemini%2Fuse-cases%2Fdocument-processing%2Fdocument_processing.ipynb">
      <img width="32px" src="https://lh3.googleusercontent.com/JmcxdQi-qOpctIvWKgPtrzZdJJK-J3sWE1RsfjZNwshCFgE_9fULcNpuXYTilIR2hjwN" alt="Google Cloud Colab Enterprise logo"><br> Run in Colab Enterprise
    </a>
  </td>       
  <td style="text-align: center">
    <a href="https://github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/use-cases/document-processing/document_processing.ipynb">
      <img src="https://cloud.google.com/ml-engine/images/github-logo-32px.png" alt="GitHub logo"><br> View on GitHub
    </a>
  </td>
  <td style="text-align: center">
    <a href="https://console.cloud.google.com/vertex-ai/workbench/deploy-notebook?download_url=https://raw.githubusercontent.com/GoogleCloudPlatform/generative-ai/main/gemini/use-cases/document-processing/document_processing.ipynb">
      <img src="https://lh3.googleusercontent.com/UiNooY4LUgW_oTvpsNhPpQzsstV5W8F7rYgxgGBD85cWJoLmrOzhVs_ksK_vgx40SHs7jCqkTkCk=e14-rj-sc0xffffff-h130-w32" alt="Vertex AI logo"><br> Open in Vertex AI Workbench
    </a>
  </td>
  <td style="text-align: center">
    <a href="https://goo.gle/4jhBze9">
      <img width="32px" src="https://cdn.qwiklabs.com/assets/gcp_cloud-e3a77215f0b8bfa9b3f611c0d2208c7e8708ed31.svg" alt="Google Cloud logo"><br> Open in  Cloud Skills Boost
    </a>
  </td>
</table>

<div style="clear: both;"></div>

<b>Share to:</b>

<a href="https://www.linkedin.com/sharing/share-offsite/?url=https%3A//github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/use-cases/document-processing/document_processing.ipynb" target="_blank">
  <img width="20px" src="https://upload.wikimedia.org/wikipedia/commons/8/81/LinkedIn_icon.svg" alt="LinkedIn logo">
</a>

<a href="https://bsky.app/intent/compose?text=https%3A//github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/use-cases/document-processing/document_processing.ipynb" target="_blank">
  <img width="20px" src="https://upload.wikimedia.org/wikipedia/commons/7/7a/Bluesky_Logo.svg" alt="Bluesky logo">
</a>

<a href="https://twitter.com/intent/tweet?url=https%3A//github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/use-cases/document-processing/document_processing.ipynb" target="_blank">
  <img width="20px" src="https://upload.wikimedia.org/wikipedia/commons/5/5a/X_icon_2.svg" alt="X logo">
</a>

<a href="https://reddit.com/submit?url=https%3A//github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/use-cases/document-processing/document_processing.ipynb" target="_blank">
  <img width="20px" src="https://redditinc.com/hubfs/Reddit%20Inc/Brand/Reddit_Logo.png" alt="Reddit logo">
</a>

<a href="https://www.facebook.com/sharer/sharer.php?u=https%3A//github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/use-cases/document-processing/document_processing.ipynb" target="_blank">
  <img width="20px" src="https://upload.wikimedia.org/wikipedia/commons/5/51/Facebook_f_logo_%282019%29.svg" alt="Facebook logo">
</a>            


---

## **구글 클라우드 실습 로컬 버전**

### 개요

* 정보화 시대인 오늘날, 매일 생성되는 엄청난 디지털 문서 (이메일과 보고서부터 법률 계약서, 과학 논문에 이르기까지) 기업과 개인 모두 `방대한 양의 텍스트 데이터`에 압도되는 중 
* 이러한 문서에서 `의미 있는 통찰력`을 효율적이고 `정확하게 추출`하는 것 = 중요한 과제

* **Document processing**
  * `텍스트 추출`, `분류`, `요약`, `번역` 등을 포함한 다양한 작업 수행. 
    * 기존 방식은 규칙 기반 알고리즘이나 통계 모델에 의존하는 경우가 많아, 자연어의 뉘앙스와 복잡성을 다루는 데 어려움이 있음
  * **`Generative AI`**
    * 자연어 프롬프트를 사용하여 텍스트를 이해, 생성, 조작하는 유망한 대안을 제시
    * **`Vertex AI`**의 **`Gemini`**모델 → 확장 가능한 방식으로 사용할 수 있도록 지원
      * 클라우드 콘솔의 **[Vertex AI Studio]**((https://cloud.google.com/generative-ai-studio) )
      * **[Vertex AI REST API]**(https://cloud.google.com/vertex-ai/docs/reference/rest)
      * **[Google Gen AI SDK for Python]**(https://cloud.google.com/vertex-ai/generative-ai/docs/sdks/overview)

* *더 자세한 정보는 **[Generative AI on Vertex AI]**(https://cloud.google.com/vertex-ai/docs/generative-ai/learn/overview) 문서를 참고

### 목표

본 튜토리얼에서는 **Google Gen AI SDK for Python**을 사용하여 **Vertex AI**의 **Gemini API**로 PDF 문서를 처리하는 방법을 학습함.

다음과 같은 작업을 완료함:

- **SDK** 설치
- **Gemini 2.0 Flash** 모델을 사용하여 다음을 수행함:
  - 비정형 문서에서 정형화된 개체 추출
  - 문서 유형 분류
  - 분류와 개체 추출을 단일 워크플로우로 결합
  - 문서에서 질문에 답변
  - 문서 요약
  - 표 데이터를 **HTML**로 추출
  - 문서 번역
  - 유사한 문서 비교 및 대조
  - PDF에서 관련 페이지 식별 및 추출

### 비용

본 튜토리얼은 **Google Cloud**의 유료 구성요소를 사용함.

- **Vertex AI**

**Vertex AI** 가격 책정 정보를 확인하고, 예상 사용량을 기반으로 [가격 계산기](https://cloud.google.com/products/calculator/)를 사용하여 비용을 산출함.

---

## **시작하기**

### `생성형 AI API` 서비스 연결

- `Google Gen AI API`와 `Gemini`를 포함한 모델은 `다음 두 가지 API 서비스`를 통해 사용 가능

  - `Google AI for Developers`: 소규모 프로젝트를 실험하고, 프로토타입을 만들고, 배포하는 데 사용.
  - `Vertex AI`: `Google Cloud`에서 엔터프라이즈용 프로젝트를 구축하는 데 사용.

- `Google Gen AI SDK`는 이 두 API 서비스에 대한 통합 인터페이스를 제공

- 이 노트북은 `로컮`에서 `Gemini API`를 사용하는 방법으로 진행 예정

In [None]:
# 로컬에서 실행 시
from IPython.display import Markdown, display, HTML
from google import genai
from google.genai import types

import os
from dotenv import load_dotenv

# .env 파일 로드
load_dotenv()   

# 클라이언트 초기화
# 단일 클라이언트 객체 생성하기
# API 키는 GEMINI_API_KEY 환경 변수에서 자동으로 로드
client = genai.Client()


# 모델 생성
# 1. 사용할 모델 지정 (gemini-2.5-flash-lite)
# 2. '헬로우' 프롬프트로 콘텐츠 생성 요청
try:
    response = client.models.generate_content(
        model='gemini-2.5-flash-lite',                     # 사용할 모델 지정 (gemini-2.5-flash-lite)
        contents='hello'                                   # 요청 프롬프트 '헬로우'
    )

    # 응답 텍스트 출력
    print("\n--- 모델 응답 텍스트 ---")
    print(response.text)

    # 응답 전체 내용(JSON 형식) 출력 (디버깅이나 상세 정보 확인용)
    print("\n--- 모델 응답 전체 JSON ---")
    print(response.model_dump_json(
        exclude_none=True, indent=4))

except Exception as e:
    print(f"\n모델 호출 중 오류가 발생했습니다: {e}")
    print("다음 사항들을 확인해주세요:")
    print("1. 인터넷 연결 상태")
    print("2. GEMINI_API_KEY 환경 변수가 올바르고 유효한지")
    print("3. Google Cloud 프로젝트에서 Gemini API가 활성화되어 있는지")
    print("4. API 할당량이 초과되지 않았는지")

<small>

* 셀 출력 (1.6s)

    ```markdown
    --- 모델 응답 텍스트 ---
    Hello there! How can I help you today? 😊

    --- 모델 응답 전체 JSON ---
    {
        "sdk_http_response": {
            "headers": {
                "content-type": "application/json; charset=UTF-8",
                "vary": "Origin, X-Origin, Referer",
                "content-encoding": "gzip",
                "date": "Tue, 19 Aug 2025 02:12:24 GMT",
                "server": "scaffolding on HTTPServer2",
                "x-xss-protection": "0",
                "x-frame-options": "SAMEORIGIN",
                "x-content-type-options": "nosniff",
                "server-timing": "gfet4t7; dur=808",
                "alt-svc": "h3=\":443\"; ma=2592000,h3-29=\":443\"; ma=2592000",
                "transfer-encoding": "chunked"
            }
        },
        "candidates": [
            {
                "content": {
                    "parts": [
                        {
                            "text": "Hello there! How can I help you today? 😊"
                        }
                    ],
                    "role": "model"
                },
                "finish_reason": "STOP",
                "index": 0
            }
        ],
        "model_version": "gemini-2.5-flash-lite",
        "usage_metadata": {
            "candidates_token_count": 11,
            "prompt_token_count": 2,
            "prompt_tokens_details": [
                {
                    "modality": "TEXT",
                    "token_count": 2
                }
            ],
            "total_token_count": 13
        },
        "automatic_function_calling_history": []
    }
    ```

### 필요한 라이브러리 가져오기

In [4]:
from datetime import date                                   # 날짜와 관련된 기능을 제공하는 라이브러리
from enum import Enum                                       # 열거형(Enum)을 정의하기 위한 라이브러리
import json                                                 # JSON 데이터를 처리하기 위한 라이브러리

from IPython.display import Markdown, display               # IPython 환경에서 Markdown 형식으로 출력을 위한 라이브러리
from google.genai.types import GenerateContentConfig, Part  # Google의 Generative AI API를 사용하기 위한 라이브러리
from pydantic import BaseModel, Field                       # 데이터 유효성 검사 및 모델 정의에 사용되는 라이브러리
import pypdf                                                # PDF 파일을 처리하기 위한 라이브러리

### **Entity Extraction**

* **`Named Entity Extraction`** 은 비정형 텍스트에서 특정 필드와 값을 식별하는 **Natural Language Processing** 기술 
* 예를 들어, 작성된 양식에서 주요 **Key-Value Pair**를 찾거나, 송장의 모든 중요한 데이터를 유형별로 분류하여 얻을 수 있음.

#### 1) 송장에서 개체 추출

* 본 예시에서는 샘플 송장을 사용하여 모든 정보를 정형화된 형식으로 얻음.
* 이것은 `PDF 문서`와 함께 **`Gemini`** 로 `전송될 프롬프`트임. 
* 특정 사용 사례에 맞게 자유롭게 수정함.

In [5]:
entity_extraction_system_instruction = """You are a document entity extraction specialist. Given a document, your task is to extract the text value of the entities provided in the schema.
- The values must only include text found in the document
- Do not normalize any entity values.
"""

# 한국어 해석
#entity_extraction_system_instruction = """당신은 문서 개체 추출 전문가입니다. 주어진 문서에서 스키마에 제공된 개체의 텍스트 값을 추출하는 것이 당신의 임무입니다.
#- 값은 문서에서 발견된 텍스트만 포함해야 합니다.
#- 어떤 개체 값도 정규화하지 마십시오.
#"""

* **`Controlled generation`** 을 사용하여 모델이 어떤 필드를 추출해야 하는지 알려줌.
* 응답 스키마는 **`config`** 의 **`response_schema`** 매개변수에 지정되며, 모델 출력은 해당 스키마를 엄격하게 따름.
  * 스키마를 **`Pydantic`** 모델 또는 **`JSON`** `문자열로 제공`
  * 모델은 **`response_mime_type`** 에 설정된 값에 따라 **`JSON`** 또는 **`Enum`** 으로 응답함

In [6]:
from pydantic import BaseModel, Field

# 주소 정보를 나타내는 모델
class Address(BaseModel):
    street: str | None = Field(None, example="123 Main St")                     # 도로명 주소
    city: str | None = Field(None, example="Springfield")                       # 도시명
    state: str | None = Field(None, example="IL")                               # 주/도
    postal_code: str | None = Field(None, example="62704")                      # 우편번호
    country: str | None = Field(None, example="USA")                            # 국가명

# 인보이스 항목을 나타내는 모델
class LineItem(BaseModel):
    amount: float = Field(..., example=100.00)                                  # 총 금액
    description: str | None = Field(None, example="Laptop")                     # 품목 설명
    product_code: str | None = Field(None, example="LPT-001")                   # 제품 코드
    quantity: int = Field(..., example=2)                                       # 수량
    unit: str | None = Field(None, example="pcs")                               # 단위
    unit_price: float = Field(..., example=50.00)                               # 단가

# 부가세 정보를 나타내는 모델
class VAT(BaseModel):
    amount: float = Field(..., example=20.00)                                   # 부가세 금액
    category_code: str | None = Field(None, example="A")                        # 부가세 카테고리 코드
    tax_amount: float | None = Field(None, example=5.00)                        # 세금 금액
    tax_rate: float | None = Field(None, example=10.0)                          # 세율 (10% = 10.0)
    total_amount: float = Field(..., example=200.00)                            # 부가세 포함 총 금액

# 거래처 정보를 나타내는 모델
class Party(BaseModel):
    name: str = Field(..., example="Google")                                    # 거래처 이름
    street: str | None = Field(None, example="456 Business Rd")                 # 도로명 주소
    city: str | None = Field(None, example="Metropolis")                        # 도시명
    state: str | None = Field(None, example="NY")                               # 주/도
    postal_code: str | None = Field(None, example="10001")                      # 우편번호
    country: str | None = Field(None, example="USA")                            # 국가명
    email: str | None = Field(None, example="contact@google.com")               # 이메일 주소
    phone: str | None = Field(None, example="+1-555-1234")                      # 전화번호
    website: str | None = Field(None, example="https://google.com")             # 웹사이트 주소
    tax_id: str | None = Field(None, example="123456789")                       # 세금 신고 번호
    registration: str | None = Field(None, example="Reg-98765")                 # 등록 번호
    iban: str | None = Field(None, example="US1234567890123456789")             # 국제 계좌 번호
    payment_ref: str | None = Field(None, example="INV-2024-001")               # 결제 참조 번호

# 인보이스 정보를 나타내는 모델
class Invoice(BaseModel):
    invoice_id: str = Field(..., example="INV-2024-001")                        # 인보이스 ID
    invoice_date: str = Field(..., example="2024-02-03")                        # 인보이스 발행일
    supplier: Party                                                             # 공급자 정보
    receiver: Party                                                             # 수신자 정보
    line_items: list[LineItem]                                                  # 품목 목록
    vat: list[VAT]                                                              # 부가세 정보 목록


* 이 예시에서는 `PDF 문서`를 `로컬 저장소`에 다운로드하고, `파일 바이트를 API`로 전송하여 처리
  * [문서](https://storage.googleapis.com/cloud-samples-data/generative-ai/pdf/invoice.pdf) 참고

* [invoice.pdf](../resources/invoice.pdf) - `../resources/invoice.pdf`에 위치 참고

In [None]:
# 로컬의 파일 업로드
from google import genai
import requests

client = genai.Client()

# 멀티모달 프롬프트에 pdf URL
with open('../resources/invoice.pdf', 'rb') as file:
    file_bytes = file.read()


my_file = client.files.upload(file='../resources/invoice.pdf')

try:
    # pdf와 엔티티 추출 가이드 전송
    response = client.models.generate_content(
        model='gemini-2.5-flash-lite',
        contents = ["The following document is an invoice.",
                    types.Part.from_bytes(data=file_bytes, mime_type='application/pdf')],
        config=types.GenerateContentConfig(
            system_instruction=entity_extraction_system_instruction,
            temperature=0,
            response_schema=Invoice,
            response_mime_type='application/json'
        )
    )

    # 생성된 텍스트 출력
    print(response.text)

#except requests.exceptions.RequestException as e:
#    print(f"이미지를 다운로드하는 중 오류가 발생했습니다: {e}")
except FileNotFoundError:
    print("지정된 로컬 PDF 파일을 찾을 수 없습니다.")
except Exception as e:
    print(f"오류가 발생했습니다: {e}")

<small>

* 셀 출력 (temperature=0, system_instruction=엔티티 추출 가이드, basemodel class 중 invoice)(8.4s)

    ```json
    {
    "invoice_id": "3222",
    "invoice_date": "02/23/2021",
    "supplier": {
        "name": "AMNOSH SUPPLIERS",
        "street": "9291 Proin Road",
        "city": "Lake Charles",
        "state": "ME",
        "postal_code": "11292",
        "country": null,
        "email": "sales@amnoshsuppliers.com",
        "phone": "123-456-7890",
        "website": "www.amnoshsuppliers.com",
        "tax_id": null,
        "registration": null,
        "iban": null,
        "payment_ref": null
    },
    "receiver": {
        "name": "Martin Colby",
        "street": "45 Lightning Road,",
        "city": "Arizona",
        "state": "AZ",
        "postal_code": "88776",
        "country": null,
        "email": null,
        "phone": null,
        "website": null,
        "tax_id": null,
        "registration": null,
        "iban": null,
        "payment_ref": null
    },
    "line_items": [
        {
        "amount": 490.12,
        "description": "Drag Series Transmission Build - A WD DSM",
        "product_code": null,
        "quantity": 1,
        "unit": null,
        "unit_price": 490.12
        },
        {
        "amount": 220.15,
        "description": "Drive Shaft Automatic Right",
        "product_code": null,
        "quantity": 7,
        "unit": null,
        "unit_price": 31.45
        },
        {
        "amount": 549.10,
        "description": "Multigrade Synthetic Technology Bench",
        "product_code": null,
        "quantity": 1,
        "unit": null,
        "unit_price": 549.10
        },
        {
        "amount": 1187.79,
        "description": "6689 Transit Stan",
        "product_code": null,
        "quantity": 1,
        "unit": null,
        "unit_price": 1187.79
        },
        {
        "amount": 883.12,
        "description": "HMT Vertical Milling Machine",
        "product_code": null,
        "quantity": 1,
        "unit": null,
        "unit_price": 883.12
        },
        {
        "amount": 87.54,
        "description": "Optional:\nHMT Machine",
        "product_code": null,
        "quantity": 1,
        "unit": null,
        "unit_price": 87.54
        }
    ],
    "vat": [
        {
        "amount": 341.78,
        "category_code": null,
        "tax_amount": null,
        "tax_rate": 0.1,
        "total_amount": 341.78
        }
    ]
    }
    ```

* 추출된 데이터는 `response.parsed` 필드를 사용하여 객체로 로드할 수 있음.

In [8]:
invoice_data = response.parsed
print("\n-------Extracted Entities--------")
print(invoice_data)


-------Extracted Entities--------
invoice_id='3222' invoice_date='02/23/2021' supplier=Party(name='AMNOSH SUPPLIERS', street='9291 Proin Road', city='Lake Charles', state='ME', postal_code='11292', country=None, email='sales@amnoshsuppliers.com', phone='123-456-7890', website='www.amnoshsuppliers.com', tax_id=None, registration=None, iban=None, payment_ref=None) receiver=Party(name='Martin Colby', street='45 Lightning Road,', city='Arizona', state='AZ', postal_code='88776', country=None, email=None, phone=None, website=None, tax_id=None, registration=None, iban=None, payment_ref=None) line_items=[LineItem(amount=490.12, description='Drag Series Transmission Build - A WD DSM', product_code=None, quantity=1, unit=None, unit_price=490.12), LineItem(amount=220.15, description='Drive Shaft Automatic Right', product_code=None, quantity=7, unit=None, unit_price=31.45), LineItem(amount=549.1, description='Multigrade Synthetic Technology Bench', product_code=None, quantity=1, unit=None, unit_p

In [12]:
print(type(invoice_data))

<class '__main__.Invoice'>


In [None]:
invoice_data = response.parsed
print("\n-------Extracted Entities--------")

# model_dump() 메서드는 객체의 속성을 딕셔너리로 변환하는 메서드
# model_dump() 메서드를 사용하여 Invoice 객체의 속성을 딕셔너리로 변환한 후 for 반복문, if 조건문으로 하나씩 출력하기

for field, value in invoice_data.model_dump().items():
    if field in ["supplier", "receiver"]:
        print(f"\n{field.capitalize()} Information:")
        for sub_field, sub_value in value.items():
            print(f"{sub_field.capitalize()}: {sub_value}")
    elif field == "line_items":
        print("\nLine Items:")
        for item in value:
            print(f"- {item.get('description', 'N/A')}: {item.get('quantity', 'N/A')} x {item.get('unit_price', 'N/A')}")
    elif field == "vat":
        print("\nVAT Information:")
        for vat in value:
            print(f"- {vat.get('description', 'N/A')}: {vat.get('rate', 'N/A')}%")
    else:
        print(f"{field.capitalize()}: {value}")

<small>

* 셀 출력 (깔끔하게 꺼내보기)

    ```markdown
    -------Extracted Entities--------
    Invoice_id: 3222
    Invoice_date: 02/23/2021

    Supplier Information:
    Name: AMNOSH SUPPLIERS
    Street: 9291 Proin Road
    City: Lake Charles
    State: ME
    Postal_code: 11292
    Country: None
    Email: sales@amnoshsuppliers.com
    Phone: 123-456-7890
    Website: www.amnoshsuppliers.com
    Tax_id: None
    Registration: None
    Iban: None
    Payment_ref: None

    Receiver Information:
    Name: Martin Colby
    Street: 45 Lightning Road,
    City: Arizona
    State: AZ
    Postal_code: 88776
    Country: None
    Email: None
    Phone: None
    Website: None
    Tax_id: None
    Registration: None
    Iban: None
    Payment_ref: None

    Line Items:
    - Drag Series Transmission Build - A WD DSM: 1 x 490.12
    - Drive Shaft Automatic Right: 7 x 31.45
    - Multigrade Synthetic Technology Bench: 1 x 549.1
    - 6689 Transit Stan: 1 x 1187.79
    - HMT Vertical Milling Machine: 1 x 883.12
    - Optional:
    HMT Machine: 1 x 87.54

    VAT Information:
    - N/A: N/A%
    ```

* 또는 다른 애플리케이션에서 사용할 수 있도록 응답을 `JSON`으로 파싱하여 `Python 딕셔너리`로 만들 수 있음.

In [None]:
json_object = json.loads(response.text)
print(json_object)

<small>

* 셀 출력

    ```python
    {'invoice_id': '3222', 'invoice_date': '02/23/2021', 'supplier': {'name': 'AMNOSH SUPPLIERS', 'street': '9291 Proin Road', 'city': 'Lake Charles', 'state': 'ME', 'postal_code': '11292', 'country': None, 'email': 'sales@amnoshsuppliers.com', 'phone': '123-456-7890', 'website': 'www.amnoshsuppliers.com', 'tax_id': None, 'registration': None, 'iban': None, 'payment_ref': None}, 'receiver': {'name': 'Martin Colby', 'street': '45 Lightning Road,', 'city': 'Arizona', 'state': 'AZ', 'postal_code': '88776', 'country': None, 'email': None, 'phone': None, 'website': None, 'tax_id': None, 'registration': None, 'iban': None, 'payment_ref': None}, 'line_items': [{'amount': 490.12, 'description': 'Drag Series Transmission Build - A WD DSM', 'product_code': None, 'quantity': 1, 'unit': None, 'unit_price': 490.12}, {'amount': 220.15, 'description': 'Drive Shaft Automatic Right', 'product_code': None, 'quantity': 7, 'unit': None, 'unit_price': 31.45}, {'amount': 549.1, 'description': 'Multigrade Synthetic Technology Bench', 'product_code': None, 'quantity': 1, 'unit': None, 'unit_price': 549.1}, {'amount': 1187.79, 'description': '6689 Transit Stan', 'product_code': None, 'quantity': 1, 'unit': None, 'unit_price': 1187.79}, {'amount': 883.12, 'description': 'HMT Vertical Milling Machine', 'product_code': None, 'quantity': 1, 'unit': None, 'unit_price': 883.12}, {'amount': 87.54, 'description': 'Optional:\nHMT Machine', 'product_code': None, 'quantity': 1, 'unit': None, 'unit_price': 87.54}], 'vat': [{'amount': 341.78, 'category_code': None, 'tax_amount': None, 'tax_rate': 0.1, 'total_amount': 341.78}]}
    ```

In [None]:
# 생성된 딕셔너리를 가독성 좋게 프린트해보기 

print("\n-------Extracted Entities--------")
for key, value in json_object.items():
    if isinstance(value, dict):
        print(f"\n{key.capitalize()} Information:")
        for sub_key, sub_value in value.items():
            print(f"{sub_key.capitalize()}: {sub_value}")
    elif isinstance(value, list):
        print(f"\n{key.capitalize()}:")
        for item in value:
            if isinstance(item, dict):
                print("\n".join(f"{k}: {v}" for k, v in item.items()))
            else:
                print(item)
    else:
        print(f"{key.capitalize()}: {value}")

<small>

* 셀 출력

    ```python
    -------Extracted Entities--------
    Invoice_id: 3222
    Invoice_date: 02/23/2021

    Supplier Information:
    Name: AMNOSH SUPPLIERS
    Street: 9291 Proin Road
    City: Lake Charles
    State: ME
    Postal_code: 11292
    Country: None
    Email: sales@amnoshsuppliers.com
    Phone: 123-456-7890
    Website: www.amnoshsuppliers.com
    Tax_id: None
    Registration: None
    Iban: None
    Payment_ref: None

    Receiver Information:
    Name: Martin Colby
    Street: 45 Lightning Road,
    City: Arizona
    State: AZ
    Postal_code: 88776
    Country: None
    Email: None
    Phone: None
    Website: None
    Tax_id: None
    Registration: None
    Iban: None
    Payment_ref: None

    Line_items:
    amount: 490.12
    description: Drag Series Transmission Build - A WD DSM
    product_code: None
    quantity: 1
    unit: None
    unit_price: 490.12
    amount: 220.15
    description: Drive Shaft Automatic Right
    product_code: None
    quantity: 7
    unit: None
    unit_price: 31.45
    amount: 549.1
    description: Multigrade Synthetic Technology Bench
    product_code: None
    quantity: 1
    unit: None
    unit_price: 549.1
    amount: 1187.79
    description: 6689 Transit Stan
    product_code: None
    quantity: 1
    unit: None
    unit_price: 1187.79
    amount: 883.12
    description: HMT Vertical Milling Machine
    product_code: None
    quantity: 1
    unit: None
    unit_price: 883.12
    amount: 87.54
    description: Optional:
    HMT Machine
    product_code: None
    quantity: 1
    unit: None
    unit_price: 87.54

    Vat:
    amount: 341.78
    category_code: None
    tax_amount: None
    tax_rate: 0.1
    total_amount: 341.78
    ```

---

#### 2) 급여 명세서에서 개체 추출

* 다른 종류의 문서인 급여 명세서로 시도함.
  * 본 예시에서는 **Google Cloud Storage**에 호스팅된 문서를 **URI**를 전달하여 처리함.
  * [문서](https://storage.googleapis.com/cloud-samples-data/generative-ai/pdf/earnings_statement.pdf)

* [earnings_statement.pdf](../resources/earnings_statement.pdf) - `../resources/earnings_statement.pdf`에 위치 참고

In [19]:
class Payslip(BaseModel):
    employee_id: str = Field(..., description="직원의 고유 식별자")                      # 직원 ID
    employee_name: str = Field(..., description="직원의 전체 이름")                     # 직원 이름
    pay_period_start: date = Field(..., description="급여 지급 기간의 시작일")            # 급여 시작일
    pay_period_end: date = Field(..., description="급여 지급 기간의 종료일")              # 급여 종료일
    gross_income: float = Field(..., description="공제 전 총 수입")                     # 총 수입
    federal_tax: float = Field(..., description="연방 세금 공제 금액")                   # 연방 세금
    state_tax: float | None = Field(
        0.0, description="해당되는 경우 주 세금 공제 금액"                                  # 주 세금
    )
    social_security: float = Field(..., description="사회 보장 공제 금액")              # 사회 보장
    medicare: float = Field(..., description="메디케어 공제 금액")                      # 메디케어
    other_deductions: float | None = Field(
        0.0, description="기타 공제 (예: 건강 보험, 퇴직금)"                              # 기타 공제
    )
    net_income: float = Field(..., description="모든 공제 후 순수 수입")                # 순수 수입
    payment_date: date = Field(..., description="급여가 지급된 날짜")                   # 지급일
    hours_worked: float | None = Field(
        None, description="급여 지급 기간 동안 일한 총 시간"                              # 근무 시간
    )
    hourly_rate: float | None = Field(
        None, description="해당되는 경우 직원의 시간당 급여"                              # 시간당 급여
    )

In [None]:
# 로컬의 파일 업로드
from google import genai
import requests

client = genai.Client()

# 멀티모달 프롬프트에 pdf URL
with open('../resources/earnings_statement.pdf', 'rb') as file:
    file_bytes = file.read()


my_file2 = client.files.upload(file='../resources/earnings_statement.pdf')

try:
    # pdf와 엔티티 추출 가이드 전송
    response = client.models.generate_content(
        model='gemini-2.5-flash-lite',
        contents = ["The following document is an Payslip.",
                    types.Part.from_bytes(data=file_bytes, mime_type='application/pdf')],
        config=types.GenerateContentConfig(
            system_instruction=entity_extraction_system_instruction,
            temperature=0,
            response_schema=Payslip,
            response_mime_type='application/json'
        )
    )

    # 생성된 텍스트 출력
    print(response.text)

#except requests.exceptions.RequestException as e:
#    print(f"이미지를 다운로드하는 중 오류가 발생했습니다: {e}")
except FileNotFoundError:
    print("지정된 로컬 PDF 파일을 찾을 수 없습니다.")
except Exception as e:
    print(f"오류가 발생했습니다: {e}")

<small>

* 셀 출력 (temperature=0, system_instruction=엔티티 추출 가이드, basemodel class 중 invoice)(5.8s)

    ```json
    {
    "employee_id": "123456",
    "employee_name": "Janet Doe",
    "pay_period_start": "1110-12-17",
    "pay_period_end": "1212-12-17",
    "gross_income": 1600.00,
    "federal_tax": 179.20,
    "state_tax": 80.00,
    "social_security": 99.20,
    "medicare": 20.80,
    "other_deductions": 160.00,
    "net_income": 1060.80,
    "payment_date": "1215-12-17",
    "hours_worked": 80.00,
    "hourly_rate": 20.00
    }
    ```

In [None]:
print("\n-------response types--------")
print(type(response))

<small>

* 셀 출력

    ```markdown
    -------response types--------
    <class 'google.genai.types.GenerateContentResponse'>
    ```

In [None]:
print("\n-------Extracted Entities--------")
print(response.parsed)

<small>

* 셀 출력

    ```markdown
    -------Extracted Entities--------
    employee_id='123456' employee_name='Janet Doe' pay_period_start=datetime.date(1110, 12, 17) pay_period_end=datetime.date(1212, 12, 17) gross_income=1600.0 federal_tax=179.2 state_tax=80.0 social_security=99.2 medicare=20.8 other_deductions=160.0 net_income=1060.8 payment_date=datetime.date(1215, 12, 17) hours_worked=80.0 hourly_rate=20.0
    ```

In [None]:
print("\n-------Extracted Entities--------")
for field, value in response.parsed.model_dump().items():
    print(f"{field.capitalize()}: {value}")

<small>

* 셀 출력

    ```markdown
    -------Extracted Entities--------
    Employee_id: 123456
    Employee_name: Janet Doe
    Pay_period_start: 1110-12-17
    Pay_period_end: 1212-12-17
    Gross_income: 1600.0
    Federal_tax: 179.2
    State_tax: 80.0
    Social_security: 99.2
    Medicare: 20.8
    Other_deductions: 160.0
    Net_income: 1060.8
    Payment_date: 1215-12-17
    Hours_worked: 80.0
    Hourly_rate: 20.0
    ```

---

### 3) 문서 분류

* **Document classification**은 문서 유형을 식별하는 프로세스임. 예를 들어, 송장, **W-2**, 영수증 등.
  * [샘플 세금 양식(W-9)](https://storage.googleapis.com/cloud-samples-data/generative-ai/pdf/w9.pdf)을 사용하여 지정된 **Enum**에서 문서의 특정 유형을 얻음.

* [w9.pdf](../resources/w9.pdf) - `../resources/w9.pdf`에 위치 참고

In [25]:
classification_prompt = """You are a document classification specialist. Given a document, your task is to find which category the document belongs to from the document categories provided in the schema."""
# classification_prompt = """당신은 문서 분류 전문가입니다. 주어진 문서가 스키마에 제공된 문서 카테고리 중 어디에 속하는지 찾아내는 것이 당신의 임무입니다."""


class DocumentCategory(Enum):
    TAX_1040_2019 = "1040_2019"                         # 2019년 1040 세금 양식
    TAX_1040_2020 = "1040_2020"                         # 2020년 1040 세금 양식
    TAX_1099_R = "1099-r"                               # 1099-R 세금 양식
    BANK_STATEMENT = "bank_statement"                   # 은행 거래 내역서
    CREDIT_CARD_STATEMENT = "credit_card_statement"     # 신용카드 거래 내역서
    EXPENSE = "expense"                                 # 지출 내역서
    TAX_1120S_2019 = "form_1120S_2019"                  # 2019년 1120-S 세금 양식
    TAX_1120S_2020 = "form_1120S_2020"                  # 2020년 1120-S 세금 양식
    INVESTMENT_RETIREMENT_STATEMENT = "investment_retirement_statement"     # 투자 및 퇴직금 내역서
    INVOICE = "invoice"                                                     # 인보이스
    PAYSTUB = "paystub"                                                     # 급여 명세서
    PROPERTY_INSURANCE = "property_insurance"                               # 부동산 보험 내역서
    PURCHASE_ORDER = "purchase_order"                                       # 구매 주문서
    UTILITY_STATEMENT = "utility_statement"                                 # 공과금 내역서
    W2 = "w2"                                                               # W-2 양식
    W9 = "w9"                                                               # W-9 양식
    DRIVER_LICENSE = "driver_license"                                       # 운전면허증

In [None]:
# 로컬의 파일 업로드
from google import genai
import requests

client = genai.Client()

# 멀티모달 프롬프트에 pdf URL
with open('../resources/w9.pdf', 'rb') as file:
    file_bytes = file.read()


my_file3 = client.files.upload(file='../resources/w9.pdf')

try:
    # pdf와 엔티티 추출 가이드 전송
    response = client.models.generate_content(
        model='gemini-2.5-flash-lite',
        contents = ["Classify the following document.",
                    types.Part.from_bytes(data=file_bytes, mime_type='application/pdf')],
        config=types.GenerateContentConfig(
            system_instruction=classification_prompt,
            temperature=0,
            response_schema=DocumentCategory,
            response_mime_type='text/x.enum'
        )
    )

    # 생성된 텍스트 출력
    print("\n-------Document Classification--------")
    print(response.text,'\n')
    print(response.parsed)

#except requests.exceptions.RequestException as e:
#    print(f"이미지를 다운로드하는 중 오류가 발생했습니다: {e}")
except FileNotFoundError:
    print("지정된 로컬 PDF 파일을 찾을 수 없습니다.")
except Exception as e:
    print(f"오류가 발생했습니다: {e}")

<small>

* 셀 출력 (response_mine_type='text/x.enum')(5.6s)

    ```markdown
    -------Document Classification--------
    w9 

    DocumentCategory.W9
    ```

* **Gemini**가 문서를 성공적으로 분류한 것을 볼 수 있음.

---

#### 4) 분류 및 추출 연결

* 이러한 기술들을 함께 연결하여 여러 종류의 문서를 추출할 수 있음.
  * 예를 들어, 처리할 문서 유형이 여러 개인 경우, 각 문서를 **Gemini** 에 분류 프롬프트와 함께 전송하고, 해당 출력에 따라 어떤 추출 프롬프트를 사용할지 결정하는 로직을 작성할 수 있음.

* 샘플 문서
  - [미국 운전 면허증](https://storage.googleapis.com/cloud-samples-data/documentai/SampleDocuments/US_DRIVER_LICENSE_PROCESSOR/dl3.pdf)
  - [송장](https://storage.googleapis.com/cloud-samples-data/documentai/SampleDocuments/INVOICE_PROCESSOR/google_invoice.pdf)
  - [Form W-2](https://storage.googleapis.com/cloud-samples-data/documentai/SampleDocuments/FORM_W2_PROCESSOR/2020FormW-2.pdf)

* [`resources/`](../resources/) 참고
  * [`dl3.pdf`](../resources/dl3.pdf)
  * [`google_invoice.pdf`](../resources/google_invoice.pdf)
  * [`2020FormW-2.pdf`](../resources/2020FormW-2.pdf)

In [None]:
class W2Form(BaseModel):
    control_number: str | None = Field(None)                    # 제어 번호 (선택 사항)
    ein: str = Field(...)                                       # 고용인 식별 번호 (필수)
    employee_first_name: str = Field(...)                       # 직원 이름 (필수)
    employee_last_name: str = Field(...)                        # 직원 성 (필수)
    employee_address_street: str = Field(...)                   # 직원 주소 (필수)
    employee_address_city: str = Field(...)                     # 직원 도시 (필수)
    employee_address_state: str = Field(...)                    # 직원 주 (필수)
    employee_address_zip: str = Field(...)                      # 직원 우편번호 (필수)
    employer_name: str = Field(...)                             # 고용주 이름 (필수)
    employer_address_street: str = Field(...)                   # 고용주 주소 (필수)
    employer_address_city: str = Field(...)                     # 고용주 도시 (필수)
    employer_address_state: str = Field(...)                    # 고용주 주 (필수)
    employer_address_zip: str = Field(...)                      # 고용주 우편번호 (필수)
    employer_state_id_number: str | None = Field(None)          # 고용주 주 ID 번호 (선택 사항)
    wages_tips_other_compensation: float = Field(...)           # 임금, 팁, 기타 보상 (필수)
    federal_income_tax_withheld: float = Field(...)             # 연방 소득세 공제액 (필수)
    social_security_wages: float = Field(...)                   # 사회 보장 임금 (필수)
    social_security_tax_withheld: float = Field(...)            # 사회 보장세 공제액 (필수)
    medicare_wages_and_tips: float = Field(...)                 # 메디케어 임금 및 팁 (필수)
    medicare_tax_withheld: float = Field(...)                   # 메디케어세 공제액 (필수)
    state: str | None = Field(None)                             # 주 (선택 사항)
    state_wages_tips_etc: float | None = Field(None)            # 주 임금, 팁, 기타 (선택 사항)
    state_income_tax: float | None = Field(None)                # 주 소득세 (선택 사항)
    box_12_code: str | None = Field(None)                       # 박스 12 코드 (선택 사항)
    box_12_value: str | None = Field(None)                      # 박스 12 값 (선택 사항)
    form_year: int = Field(...)                                 # 양식 연도 (필수)

class DriversLicense(BaseModel):
    address: str = Field(
        ..., title="Address", description="The address of the individual."
    #    ..., title="주소", description="개인의 주소입니다."
    )
    date_of_birth: date = Field(
        ..., title="Date of Birth", description="The birthdate of the individual."
    #    ..., title="생년월일", description="개인의 생년월일입니다."
    )
    document_id: str = Field(
        ...,
        title="Document ID",
        description="The unique document ID for the driver's license.",
    #   title="문서 ID",
    #   description="운전면허증의 고유 문서 ID입니다.",
    )
    expiration_date: date = Field(
        ...,
        title="Expiration Date",
        description="The expiration date of the driver's license.",
    #   title="만료일"
    #   description="운전면허증의 만료일입니다."
    )
    family_name: str = Field(
        ..., 
        title="Family Name",
        description="The family name (last name) of the individual.",
    #    title="성", description="개인의 성(성)입니다."
    )
    given_names: str = Field(
        ...,
        title="Given Names",
        description="The given names (first and middle names) of the individual.",
        #title="이름", description="개인의 이름(이름과 중간 이름)입니다."
    )
    issue_date: date = Field(
        ..., title="Issue Date", description="The issue date of the driver's license."
    #    title="발급일", description="운전면허증의 발급일입니다."
    )

# 문서 분류 유형을 스키마에 매핑
classification_to_schema = {
    DocumentCategory.INVOICE: Invoice,                              # 인보이스
    DocumentCategory.W2: W2Form,                                    # W2 양식
    DocumentCategory.DRIVER_LICENSE: DriversLicense,                # 운전면허증
}

In [None]:
# 로컬의 파일 업로드
from google import genai
import requests

client = genai.Client()

# 멀티모달 프롬프트에 pdf URL
# invoice.pdf = my_file
# w9.pdf = my_file3

# 새로 읽어들이기
# 2020FormW-2.pdf = my_file4 
with open('../resources/2020FormW-2.pdf', 'rb') as file:
    file_bytes = file.read()
my_file4 = client.files.upload(file='../resources/2020FormW-2.pdf')

# dl3.pdf = my_file5
with open('../resources/dl3.pdf', 'rb') as file:
    file_bytes = file.read()
my_file5 = client.files.upload(file='../resources/dl3.pdf')


# INVOICE, W2, DRIVER_LICENSE 
pdf_files = [ my_file, my_file4, my_file5 ]

for i in pdf_files:
    print(f"\nFile:{pdf_files}\n")

    classification_response = client.models.generate_content(
        model='gemini-2.5-flash-lite',
        contents = ["Classify the following document.",
                    types.Part.from_bytes(data=file_bytes, mime_type='application/pdf')],
        config=types.GenerateContentConfig(
            system_instruction=classification_prompt,
            temperature=0,
            response_schema=DocumentCategory,
            response_mime_type='text/x.enum'
        )
    )

    # 생성된 텍스트 출력
    print("\n-------Document Classification--------")
    print(classification_response.text,'\n')
    print(classification_response.parsed)
    
    # Get Extraction schema based on Classification
    extraction_schema = classification_to_schema.get(classification_response.parsed)
    
    if not extraction_schema:
        print(f"Document does not belong to a specified class. Skipping extraction.")
        continue

    # Send to Gemini with Extraction Prompt
    extraction_response = client.models.generate_content(
        model='gemini-2.5-flash-lite',
        contents=[
            f"Extract the entities from the following {classification_response.text} document.",
            types.Part.from_bytes(data=file_bytes, mime_type='application/pdf')
        ],
        config=GenerateContentConfig(
            system_instruction=classification_prompt,
            temperature=0,
            response_schema=extraction_schema,
            response_mime_type='application/json',
        ),
    )

    print("\n-------Extracted Entities--------")
    print(extraction_response.parsed)

<small>

* 셀 출력 (20.7s)

    ```markdown
    File:[File(
    create_time=datetime.datetime(2025, 8, 19, 3, 40, 44, 257755, tzinfo=TzInfo(UTC)),
    expiration_time=datetime.datetime(2025, 8, 21, 3, 40, 44, 89504, tzinfo=TzInfo(UTC)),
    mime_type='application/pdf',
    name='files/5figi4m75avd',
    sha256_hash='MmQ0MjBjYmI0MTIzZGNmMWZiODI1OTViMjM1OWNmYmI1ZDgxZjAwYjlkZjlkMzU5ZmNjN2FmMzYxZDA5M2Y1Mw==',
    size_bytes=140815,
    source=<FileSource.UPLOADED: 'UPLOADED'>,
    state=<FileState.ACTIVE: 'ACTIVE'>,
    update_time=datetime.datetime(2025, 8, 19, 3, 40, 44, 257755, tzinfo=TzInfo(UTC)),
    uri='https://generativelanguage.googleapis.com/v1beta/files/5figi4m75avd'
    ), File(
    create_time=datetime.datetime(2025, 8, 19, 4, 32, 46, 865639, tzinfo=TzInfo(UTC)),
    expiration_time=datetime.datetime(2025, 8, 21, 4, 32, 46, 688476, tzinfo=TzInfo(UTC)),
    mime_type='application/pdf',
    name='files/15qbu0yfqhei',
    sha256_hash='YmRkNTI2OTEzZDQwNTZlZWFjMDE2MzUzZjdkODliNjM5OTIxMmEyZjNjNmFlOTM2YmViNjViNTE3ZjU5MWIxMQ==',
    size_bytes=659517,
    source=<FileSource.UPLOADED: 'UPLOADED'>,
    state=<FileState.ACTIVE: 'ACTIVE'>,
    update_time=datetime.datetime(2025, 8, 19, 4, 32, 46, 865639, tzinfo=TzInfo(UTC)),
    uri='https://generativelanguage.googleapis.com/v1beta/files/15qbu0yfqhei'
    ), File(
    create_time=datetime.datetime(2025, 8, 19, 4, 32, 48, 198016, tzinfo=TzInfo(UTC)),
    expiration_time=datetime.datetime(2025, 8, 21, 4, 32, 48, 57551, tzinfo=TzInfo(UTC)),
    mime_type='application/pdf',
    name='files/dgcqs3isszit',
    sha256_hash='MDBkMDU4MjczYzYxNTYxZTIwODM0MzkxNGEyYzRiMDNlZTAwOTUwN2I1OGI3ZDA3NmIwM2U0ODYwNzZmOWQxYQ==',
    size_bytes=57053,
    source=<FileSource.UPLOADED: 'UPLOADED'>,
    state=<FileState.ACTIVE: 'ACTIVE'>,
    update_time=datetime.datetime(2025, 8, 19, 4, 32, 48, 198016, tzinfo=TzInfo(UTC)),
    uri='https://generativelanguage.googleapis.com/v1beta/files/dgcqs3isszit'
    )]


    -------Document Classification--------
    driver_license 

    DocumentCategory.DRIVER_LICENSE

    -------Extracted Entities--------
    address='123 MAIN STREET HELENA, MT 59601' date_of_birth=datetime.date(804, 10, 8) document_id='0812319684104' expiration_date=datetime.date(2023, 8, 4) family_name='SAMPLE' given_names='BRENDA LYNN' issue_date=datetime.date(2015, 2, 15)

    File:[File(
    create_time=datetime.datetime(2025, 8, 19, 3, 40, 44, 257755, tzinfo=TzInfo(UTC)),
    expiration_time=datetime.datetime(2025, 8, 21, 3, 40, 44, 89504, tzinfo=TzInfo(UTC)),
    mime_type='application/pdf',
    name='files/5figi4m75avd',
    sha256_hash='MmQ0MjBjYmI0MTIzZGNmMWZiODI1OTViMjM1OWNmYmI1ZDgxZjAwYjlkZjlkMzU5ZmNjN2FmMzYxZDA5M2Y1Mw==',
    size_bytes=140815,
    source=<FileSource.UPLOADED: 'UPLOADED'>,
    state=<FileState.ACTIVE: 'ACTIVE'>,
    update_time=datetime.datetime(2025, 8, 19, 3, 40, 44, 257755, tzinfo=TzInfo(UTC)),
    uri='https://generativelanguage.googleapis.com/v1beta/files/5figi4m75avd'
    ), File(
    create_time=datetime.datetime(2025, 8, 19, 4, 32, 46, 865639, tzinfo=TzInfo(UTC)),
    expiration_time=datetime.datetime(2025, 8, 21, 4, 32, 46, 688476, tzinfo=TzInfo(UTC)),
    mime_type='application/pdf',
    name='files/15qbu0yfqhei',
    sha256_hash='YmRkNTI2OTEzZDQwNTZlZWFjMDE2MzUzZjdkODliNjM5OTIxMmEyZjNjNmFlOTM2YmViNjViNTE3ZjU5MWIxMQ==',
    size_bytes=659517,
    source=<FileSource.UPLOADED: 'UPLOADED'>,
    state=<FileState.ACTIVE: 'ACTIVE'>,
    update_time=datetime.datetime(2025, 8, 19, 4, 32, 46, 865639, tzinfo=TzInfo(UTC)),
    uri='https://generativelanguage.googleapis.com/v1beta/files/15qbu0yfqhei'
    ), File(
    create_time=datetime.datetime(2025, 8, 19, 4, 32, 48, 198016, tzinfo=TzInfo(UTC)),
    expiration_time=datetime.datetime(2025, 8, 21, 4, 32, 48, 57551, tzinfo=TzInfo(UTC)),
    mime_type='application/pdf',
    name='files/dgcqs3isszit',
    sha256_hash='MDBkMDU4MjczYzYxNTYxZTIwODM0MzkxNGEyYzRiMDNlZTAwOTUwN2I1OGI3ZDA3NmIwM2U0ODYwNzZmOWQxYQ==',
    size_bytes=57053,
    source=<FileSource.UPLOADED: 'UPLOADED'>,
    state=<FileState.ACTIVE: 'ACTIVE'>,
    update_time=datetime.datetime(2025, 8, 19, 4, 32, 48, 198016, tzinfo=TzInfo(UTC)),
    uri='https://generativelanguage.googleapis.com/v1beta/files/dgcqs3isszit'
    )]


    -------Document Classification--------
    driver_license 

    DocumentCategory.DRIVER_LICENSE

    -------Extracted Entities--------
    address='123 MAIN STREET HELENA, MT 59601' date_of_birth=datetime.date(804, 10, 8) document_id='0812319684104' expiration_date=datetime.date(2023, 8, 4) family_name='SAMPLE' given_names='BRENDA LYNN' issue_date=datetime.date(2015, 2, 15)

    File:[File(
    create_time=datetime.datetime(2025, 8, 19, 3, 40, 44, 257755, tzinfo=TzInfo(UTC)),
    expiration_time=datetime.datetime(2025, 8, 21, 3, 40, 44, 89504, tzinfo=TzInfo(UTC)),
    mime_type='application/pdf',
    name='files/5figi4m75avd',
    sha256_hash='MmQ0MjBjYmI0MTIzZGNmMWZiODI1OTViMjM1OWNmYmI1ZDgxZjAwYjlkZjlkMzU5ZmNjN2FmMzYxZDA5M2Y1Mw==',
    size_bytes=140815,
    source=<FileSource.UPLOADED: 'UPLOADED'>,
    state=<FileState.ACTIVE: 'ACTIVE'>,
    update_time=datetime.datetime(2025, 8, 19, 3, 40, 44, 257755, tzinfo=TzInfo(UTC)),
    uri='https://generativelanguage.googleapis.com/v1beta/files/5figi4m75avd'
    ), File(
    create_time=datetime.datetime(2025, 8, 19, 4, 32, 46, 865639, tzinfo=TzInfo(UTC)),
    expiration_time=datetime.datetime(2025, 8, 21, 4, 32, 46, 688476, tzinfo=TzInfo(UTC)),
    mime_type='application/pdf',
    name='files/15qbu0yfqhei',
    sha256_hash='YmRkNTI2OTEzZDQwNTZlZWFjMDE2MzUzZjdkODliNjM5OTIxMmEyZjNjNmFlOTM2YmViNjViNTE3ZjU5MWIxMQ==',
    size_bytes=659517,
    source=<FileSource.UPLOADED: 'UPLOADED'>,
    state=<FileState.ACTIVE: 'ACTIVE'>,
    update_time=datetime.datetime(2025, 8, 19, 4, 32, 46, 865639, tzinfo=TzInfo(UTC)),
    uri='https://generativelanguage.googleapis.com/v1beta/files/15qbu0yfqhei'
    ), File(
    create_time=datetime.datetime(2025, 8, 19, 4, 32, 48, 198016, tzinfo=TzInfo(UTC)),
    expiration_time=datetime.datetime(2025, 8, 21, 4, 32, 48, 57551, tzinfo=TzInfo(UTC)),
    mime_type='application/pdf',
    name='files/dgcqs3isszit',
    sha256_hash='MDBkMDU4MjczYzYxNTYxZTIwODM0MzkxNGEyYzRiMDNlZTAwOTUwN2I1OGI3ZDA3NmIwM2U0ODYwNzZmOWQxYQ==',
    size_bytes=57053,
    source=<FileSource.UPLOADED: 'UPLOADED'>,
    state=<FileState.ACTIVE: 'ACTIVE'>,
    update_time=datetime.datetime(2025, 8, 19, 4, 32, 48, 198016, tzinfo=TzInfo(UTC)),
    uri='https://generativelanguage.googleapis.com/v1beta/files/dgcqs3isszit'
    )]


    -------Document Classification--------
    driver_license 

    DocumentCategory.DRIVER_LICENSE

    -------Extracted Entities--------
    address='123 MAIN STREET HELENA, MT 59601' date_of_birth=datetime.date(804, 10, 8) document_id='0812319684104' expiration_date=datetime.date(2023, 8, 4) family_name='SAMPLE' given_names='BRENDA LYNN' issue_date=datetime.date(2015, 2, 15)
    ```

---

### 6) 문서 질의 응답

* **Gemini**는 문서에 대한 질문에 답하는 데 사용될 수 있음.
  * **Transformer** 모델 논문인 "[**Attention is all you need**](https://arxiv.org/pdf/1706.03762)"에 대한 질문에 답변하며, **arXiv**의 원본에서 PDF 파일을 직접 로드함.

* [*Attention is all you need**](../resources/AttentionIsAllYouNeed.pdf) 위치 참고

In [39]:
qa_system_instruction = "You are a question answering specialist. Given a question and a context, your task is to provide the answer to the question based on the context provided. Give the answer first, followed by an explanation."

# qa_system_instruction = "당신은 질의 응답 전문가입니다. 질문과 컨텍스트가 주어지면, 제공된 컨텍스트를 기반으로 질문에 대한 답변을 제공하는 것이 당신의 임무입니다. 답변을 먼저 제시하고, 그 뒤에 설명을 덧붙이세요."

In [None]:
# Send Q&A Prompt to Gemini

# pdf 읽어들이기
with open('../resources/AttentionIsAllYouNeed.pdf', 'rb') as file:
    file_bytes = file.read()
my_file6 = client.files.upload(file='../resources/AttentionIsAllYouNeed.pdf')


try:
    # pdf와 엔티티 추출 가이드 전송
    response = client.models.generate_content(
        model='gemini-2.5-flash-lite',
        contents = ["What is the attention mechanism?",
                    types.Part.from_bytes(data=file_bytes, mime_type='application/pdf')],
        config=types.GenerateContentConfig(
            system_instruction=qa_system_instruction,
            temperature=0,
            response_schema=Payslip,
            response_mime_type='text/plain'
        )
    )

    # 생성된 텍스트 출력
    print(response.text, '\n')


except FileNotFoundError:
    print("지정된 로컬 PDF 파일을 찾을 수 없습니다.")
except Exception as e:
    print(f"오류가 발생했습니다: {e}")

<small>

* 셀 출력 (7.3s)

    ```markdwon
    The attention mechanism is a technique used in neural networks that allows the model to focus on specific parts of the input sequence when processing it. It works by assigning weights to different parts of the input, indicating their importance. This allows the model to selectively attend to relevant information, improving its performance on tasks like machine translation and text summarization. 
    ```

---

### 7) 문서 요약

* **Gemini**는 문서 내용을 `요약`하거나 `의역`하는 데도 사용될 수 있음. 
* 프롬프트에서 요약의 상세 수준이나 글머리 기호, 단락과 같은 특정 서식을 지정할 수 있음.

In [42]:
summarization_system_instruction = """You are a professional document summarization specialist. Given a document, your task is to provide a detailed summary of the content of the document.

If it includes images, provide descriptions of the images.
If it includes tables, extract all elements of the tables.
If it includes graphs, explain the findings in the graphs.
Do not include any numbers that are not mentioned in the document.
"""

# `summarization_system_instruction` = """당신은 전문 문서 요약 전문가입니다. 주어진 문서의 내용에 대해 상세한 요약을 제공하는 것이 당신의 임무입니다.
#
# 이미지가 포함된 경우, 이미지에 대한 설명을 제공하십시오.
# 표가 포함된 경우, 표의 모든 요소를 추출하십시오.
# 그래프가 포함된 경우, 그래프에서 발견된 내용을 설명하십시오.
# 문서에 언급되지 않은 어떠한 숫자도 포함하지 마십시오.
# """

In [None]:
# Send Summarization Prompt to Gemini

import markdown as md
from IPython.display import Markdown

# 클라이언트 초기화
try:
    client = genai.Client()
except Exception as e:
    print(f"클라이언트 초기화 오류: {e}")
    client = None

# pdf file 경로 지정
pdf_path = '../resources/report.pdf'

try:
    # 1. pdf 파일을 바이트로 읽어오기
    print("PDF 파일을 읽는 중입니다...")
    with open(pdf_path, 'rb') as file:
        file_bytes=file.read()
    print("파일 읽기 완료.")
    
    # 2. types.Part.from_bytes()를 사용하여 PDF 바이트 데이터를 포함하는 Part 객체 생성
    pdf_part = types.Part.from_bytes(data=file_bytes, mime_type='application/pdf')

    # 3. 모델에 보낼 콘텐츠 리스트 구성하기
    contents_list = [
        "Summarize the following document.",
        pdf_part
    ]
    
    # 4. Gemini API에 요약 요청 보내기
    print("요약 생성 중...")
    response = client.models.generate_content(
        model='gemini-2.5-flash-lite', 
        contents=contents_list,
        config=types.GenerateContentConfig(
            system_instruction=summarization_system_instruction,
            temperature=0,
            response_schema=Payslip,
            response_mime_type='text/plain'
        )
    )

    # 5. 생성된 텍스트를 Markdown으로 표시
    print("요약본을 받았습니다.")
    display(Markdown(f"### 문서 요약"))
    display(Markdown(response.text))

except FileNotFoundError:
    print(f"오류: 지정된 PDF 파일을 찾을 수 없습니다: {pdf_path}")
except Exception as e:
    print(f"오류가 발생했습니다: {e}")


In [51]:
# Send Summarization Prompt to Gemini

import markdown as md
from IPython.display import Markdown

# 클라이언트 초기화
try:
    client = genai.Client()
except Exception as e:
    print(f"클라이언트 초기화 오류: {e}")
    client = None

summarization_system_instruction2 = """당신은 전문 문서 요약 전문가입니다. 주어진 문서의 내용에 대해 상세한 요약을 한국어로 제공하는 것이 당신의 임무입니다.

이미지가 포함된 경우, 이미지에 대한 설명을 제공하십시오.
표가 포함된 경우, 표의 모든 요소를 추출하십시오.
그래프가 포함된 경우, 그래프에서 발견된 내용을 설명하십시오.
문서에 언급되지 않은 어떠한 숫자도 포함하지 마십시오.
"""


# pdf file 경로 지정
pdf_path = '../resources/report.pdf'

try:
    # 1. pdf 파일을 바이트로 읽어오기
    print("PDF 파일을 읽는 중입니다...")
    with open(pdf_path, 'rb') as file:
        file_bytes=file.read()
    print("파일 읽기 완료.")
    
    # 2. types.Part.from_bytes()를 사용하여 PDF 바이트 데이터를 포함하는 Part 객체 생성
    pdf_part = types.Part.from_bytes(data=file_bytes, mime_type='application/pdf')

    # 3. 모델에 보낼 콘텐츠 리스트 구성하기
    contents_list = [
        "Summarize the following document.",
        pdf_part
    ]
    
    # 4. Gemini API에 요약 요청 보내기
    print("요약 생성 중...")
    response = client.models.generate_content(
        model='gemini-2.5-flash-lite', 
        contents=contents_list,
        config=types.GenerateContentConfig(
            system_instruction=summarization_system_instruction2,
            temperature=0,
            response_schema=Payslip,
            response_mime_type='text/plain'
        )
    )

    # 5. 생성된 텍스트를 Markdown으로 표시
    print("요약본을 받았습니다.")
    display(Markdown(f"### 문서 요약"))
    display(Markdown(response.text))

except FileNotFoundError:
    print(f"오류: 지정된 PDF 파일을 찾을 수 없습니다: {pdf_path}")
except Exception as e:
    print(f"오류가 발생했습니다: {e}")


PDF 파일을 읽는 중입니다...
파일 읽기 완료.
요약 생성 중...
요약본을 받았습니다.


### 문서 요약

이 문서는 골드만삭스의 "Top of Mind" 보고서로, 생성형 인공지능(AI)의 현재와 미래에 대한 심층적인 분석을 제공합니다. 보고서는 생성형 AI의 잠재력, 시장의 기대감, 그리고 투자 기회와 위험 요소를 다각적으로 조명합니다.

**주요 내용:**

*   **생성형 AI의 부상:** OpenAI의 ChatGPT 출시와 Nvidia의 실적 상향 조정 이후 생성형 AI에 대한 투자자들의 관심이 폭발적으로 증가했습니다. 이는 텍스트, 이미지, 비디오, 오디오, 코드 등 다양한 형태의 콘텐츠를 자연어로 생성하는 능력 때문입니다.
*   **"소프트웨어 3.0" 시대:** Sarah Guo(Conviction 창립자)는 생성형 AI가 "소프트웨어 3.0" 시대를 열고 있다고 설명합니다. 이는 기존의 복잡한 코딩이나 방대한 데이터 수집 없이도 자연어 처리 능력, 추론 능력, 일반 지식을 갖춘 기반 모델을 활용하여 기업들이 AI를 더 쉽고 저렴하게 비즈니스에 적용할 수 있게 되었음을 의미합니다.
*   **생산성 향상 및 경제적 영향:** Joseph Briggs(골드만삭스 수석 글로벌 경제학자)는 생성형 AI의 광범위한 채택이 미국 및 기타 선진국 경제에서 연간 1.5%p의 노동 생산성 증가율을 가져올 수 있으며, 장기적으로는 글로벌 GDP를 7%까지 끌어올릴 수 있다고 추정합니다. 이는 S&P 500 지수의 공정 가치를 9%까지 높일 수 있다는 분석도 있습니다.
*   **AI의 과대평가 및 위험:** Gary Marcus(뉴욕대학교 명예교수)는 현재 AI 시스템의 지능이 과대평가되었으며, 인공 일반 지능(AGI)은 아직 멀었다고 지적합니다. 또한, AI 기술의 발전 속도와 시장의 기대치가 과도하게 부풀려져 거품이 형성될 수 있다는 우려도 제기됩니다. 과거 전기 및 PC/인터넷 도입 시기에도 유사한 과열 현상이 있었음을 상기시킵니다.
*   **투자 기회:** Kash Rangan과 Eric Sheridan(골드만삭스 선임 주식 분석가)은 생성형 AI의 기반 모델을 개발하는 대형 기술 기업, 반도체 기업, 클라우드 컴퓨팅 기업 등이 가장 큰 수혜를 볼 것으로 예상합니다. 또한, AI 인프라 및 데이터 관리, 애플리케이션 개발 분야에서도 투자 기회가 있다고 봅니다.
*   **규제 및 시장 동향:** AI 규제는 기술 혁신과 거의 동시에 진행되고 있으며, 이는 혁신을 둔화시킬 수 있지만 동시에 악의적인 사용을 방지하는 역할을 할 수 있습니다. 현재 시장은 AI 관련 기업들의 실질적인 성과를 주시하고 있으며, 특히 Nvidia와 같은 기업들의 실적 발표가 중요한 지표가 되고 있습니다.
*   **과거 생산성 붐과의 비교:** Dominic Wilson과 Vickie Chang은 과거 전기 및 PC/인터넷 도입 시기의 생산성 붐이 주식 시장의 과열과 버블로 이어졌던 사례를 분석하며, 현재 AI 붐도 유사한 패턴을 보일 수 있다고 경고합니다.

**주요 인터뷰 대상:**

*   **Sarah Guo:** Conviction 창립자, AI 투자에 대한 낙관적인 전망과 함께 투자 시점 및 가치 평가의 중요성을 강조합니다.
*   **Gary Marcus:** 뉴욕대학교 명예교수, AI의 현재 능력에 대한 과대평가를 경고하며 AGI 달성까지는 갈 길이 멀다고 주장합니다.
*   **Kash Rangan & Eric Sheridan:** 골드만삭스 선임 주식 분석가, 생성형 AI의 기술적 특징, 시장 동향, 투자 기회 및 위험 요소를 분석합니다.
*   **Joseph Briggs:** 골드만삭스 수석 글로벌 경제학자, AI가 경제 전반에 미칠 생산성 및 GDP 성장 효과를 분석합니다.
*   **Ryan Hammond & David Kostin:** 골드만삭스 미국 주식 전략가, AI가 미국 주식 시장에 미칠 잠재적 영향과 밸류에이션에 대해 논합니다.
*   **Dominic Wilson & Vickie Chang:** 골드만삭스 글로벌 시장 전략가, 과거 생산성 붐 사례를 통해 AI 붐의 시장 영향을 분석합니다.
*   **Peter Callahan:** 골드만삭스 기술, 미디어, 통신 부문 전문가, 공모 투자자들의 AI에 대한 관심과 포지셔닝을 설명합니다.

**이미지 및 표:**

*   **그래프:**
    *   페이지 2: 미국, 일본, 유럽, 신흥 시장의 거시 경제 지표 및 전망을 보여주는 그래프들이 포함되어 있습니다. (예: 미국 경기 침체 확률, 일본 임금 상승률, 영국 민간 부문 임금 성장률, 중국 부동산 부문 성장 기여도)
    *   페이지 14: 미국 산업별 고용 노출도 자동화 비율을 보여주는 막대그래프.
    *   페이지 15: AI 도입이 미국 노동 생산성 증가에 미치는 영향(생산성 증가, 노동력 대체, 재고용)을 시나리오별로 보여주는 막대그래프와, 국가별 AI 도입에 따른 연간 생산성 증가율을 보여주는 막대그래프.
    *   페이지 16: AI 도입이 S&P 500 공정 가치에 미치는 영향을 시나리오별로 보여주는 막대그래프.
    *   페이지 17: ChatGPT 출시 후 사용자 증가 속도, Google 검색 트렌드, 기업들의 AI 관련 언급량, 주요 기술 기업들의 주가 수익률, AI 관련 주식들의 주가수익비율(P/E) 배수, 그리고 S&P 500의 주가수익비율과 비교한 AI 관련 기업들의 밸류에이션을 보여주는 그래프들이 포함되어 있습니다.
    *   페이지 18: 미국 노동 생산성 변화율과 주요 혁신 기술 도입 시점을 보여주는 그래프, 그리고 1996-2005년 기간 동안의 자산 시장 성과(금리, 달러, 나스닥, S&P 500, 유가) 변화를 보여주는 표와, 1996-2005년 기간 동안의 S&P 500, 기업 이익, 명목 GDP 변화를 보여주는 그래프.
    *   페이지 19: 과거 혁신 기간 동안의 주식 밸류에이션 변화를 보여주는 그래프.
    *   페이지 22: 글로벌, 미국, 중국, 유로 지역의 GDP 성장률 전망과 현재 활동 지표를 보여주는 그래프.
*   **표:**
    *   페이지 13: 다양한 생성형 AI 도구들을 카테고리별(챗봇, 텍스트 생성기, 코드 생성기, 이미지 생성기, 비디오 생성기, 디자인 생성기, 음성 생성기, 음악 생성기)로 분류하고 각 도구의 설명과 특징을 제공하는 표.
    *   페이지 22: 주요 경제 지표 및 시장 전망에 대한 요약표.

이 보고서는 생성형 AI가 가져올 혁신과 그에 따른 투자 전략 수립에 있어 중요한 통찰력을 제공합니다.

<small>

* 셀 출력 (9.9s)

    ```markdown
    PDF 파일을 읽는 중입니다...
    파일 읽기 완료.
    요약 생성 중...
    요약본을 받았습니다.

    ### 문서 요약

    This report from Goldman Sachs Global Macro Research, titled "Generative AI: Hype, or Truly Transformative?", explores the surging interest in generative AI technology following the release of OpenAI's ChatGPT. The report features insights from industry experts and Goldman Sachs analysts to assess the technology's potential, its impact on the economy and markets, and the associated risks and opportunities.

    **Key Themes and Expert Opinions:**

    *   **Transformative Potential:** Generative AI is seen as a significant technological shift, ushering in an era of "Software 3.0" where companies can leverage foundational models with natural language capabilities, reasoning, and general knowledge. This makes AI more accessible and less expensive, enabling companies to enhance their businesses.
    *   **Productivity Boost:** The adoption of generative AI is projected to significantly boost labor productivity, potentially by 1.5 percentage points annually in the US over a decade, and global GDP by 7%. This could lead to a substantial upside for US equities.
    *   **Hype vs. Reality:** While the potential is significant, there are differing views on the current level of hype. Gary Marcus, a psychology and neural science professor, believes the intelligence of AI systems is overhyped, stating that current AI does not possess true reasoning or an internal model of the world, and artificial general intelligence (AGI) is still a distant prospect.
    *   **Market Dynamics:** Analysts note that while mega-cap tech stocks have rallied significantly due to AI optimism, their valuations are not yet at the extreme levels seen during the Dot Com boom. However, there's a caution that past productivity booms have led to market bubbles.
    *   **Investment Opportunities:** The "picks and shovels" businesses that provide infrastructure, data infrastructure, and engineering workflows for AI development are seen as well-positioned. Opportunities also lie in model providers and the application layer, where creativity and work are needed to implement AI in production use cases.
    *   **Risks:** Key risks include distinguishing between AI marketing and AI reality, the potential for changed consumer computing habits to disrupt business models, and the risk of generative AI becoming commoditized if it becomes too ubiquitous. There's also a concern about the concentration of power in a few companies controlling AI systems and the potential for bias and misuse of the technology.
    *   **Regulation:** The report highlights that AI regulation is developing almost in parallel with innovation, driven by concerns about job displacement and potential apocalyptic outcomes. This could create moats for larger companies but also help keep bad actors out.

    **Expert Interviews and Insights:**

    *   **Sarah Guo (Conviction):** Argues that generative AI represents a technological paradigm shift and a rich investment opportunity, particularly with the evolution to "Software 3.0." She cautions about misjudging the timetable of such shifts and distinguishing AI marketing from reality.
    *   **Gary Marcus (NYU):** Believes AI intelligence is overhyped and that AGI is not imminent. He emphasizes that current AI neural networks do not function like human brains and lack true reasoning or an internal model of the world.
    *   **Kash Rangan & Eric Sheridan (Goldman Sachs):** Highlight that generative AI is not in a typical hype cycle because it's led by established tech companies. They believe the technology is truly transformative and that companies are already seeing productivity gains. They also note that valuations are relatively reasonable compared to previous tech bubbles.
    *   **Joseph Briggs (Goldman Sachs Global Economics Research):** Estimates that generative AI could significantly boost global productivity and GDP, impacting the labor market by automating tasks across various occupations.
    *   **Ryan Hammond & David Kostin (Goldman Sachs):** Argue that potential AI-related productivity boosts could lead to more upside for US equities, but acknowledge uncertainties and risks such as policy responses and interest rate environments.
    *   **Dominic Wilson & Vickie Chang (Goldman Sachs):** Analyze past productivity booms (electricity adoption and PC/internet adoption) and their market impacts, noting that both led to bubbles and subsequent busts. They suggest the AI boom could share similar features.
    *   **Peter Callahan (Goldman Sachs Global Banking & Markets):** Observes that public investors are highly focused on AI, seeing it as a platform shift similar to past transformative technologies. He notes that while excitement is high, it's not yet at historical extreme valuation levels.

    **Generative AI Tools Snapshot:**

    The report includes a table categorizing various generative AI tools, including chatbots (Bard, ChatGPT), text generators (Jasper, Rytr), code generators (PyCharm, Tabnine), image generators (DALL-E, Craiyon), video generators (Synthesia, Lumen5), design generators (Designs.ai, Khroma), voice generators (Murf, Lovo.ai), and music generators (AIVA, Jukebox).

    **Historical Context:**

    A timeline illustrates key developments in AI from the 1950s to the present, highlighting milestones such as the Turing Test, the development of chatbots, machine learning advancements, and the emergence of tools like AlphaGo, ChatGPT, and DALL-E.

    **Economic Impact Analysis:**

    The report details how generative AI could impact the US labor market, with an estimated quarter of current work tasks being automatable. It also discusses the potential for productivity boosts and the creation of new occupations, drawing parallels to past technological shifts.

    **Market Performance and Valuations:**

    The report presents data on Google search trends for "Artificial Intelligence," mentions of "AI" in earnings calls, and the performance of mega-cap tech stocks. It also compares current aggregate and median S&P 500 P/E multiples to historical levels, noting that while AI beneficiaries have rallied, valuations have not reached the extreme levels of the Dot Com boom.

    **Glossary of Goldman Sachs Proprietary Indices:**

    The report includes a glossary explaining Goldman Sachs' proprietary indices such as the Current Activity Indicator (CAI), Dynamic Equilibrium Exchange Rates (DEER), Financial Conditions Index (FCI), Goldman Sachs Analyst Index (GSAI), and Macro-Data Assessment Platform (MAP).
    ```

---

* 한국어로 요약해보기

    ```markdown
    이 문서는 골드만삭스의 "Top of Mind" 보고서로, 생성형 인공지능(AI)의 현재와 미래에 대한 심층적인 분석을 제공합니다. 보고서는 생성형 AI의 잠재력, 시장의 기대감, 그리고 투자 기회와 위험 요소를 다각적으로 조명합니다.

    **주요 내용:**

    *   **생성형 AI의 부상:** OpenAI의 ChatGPT 출시와 Nvidia의 실적 상향 조정 이후 생성형 AI에 대한 투자자들의 관심이 폭발적으로 증가했습니다. 이는 텍스트, 이미지, 비디오, 오디오, 코드 등 다양한 형태의 콘텐츠를 자연어로 생성하는 능력 때문입니다.
    *   **"소프트웨어 3.0" 시대:** Sarah Guo(Conviction 창립자)는 생성형 AI가 "소프트웨어 3.0" 시대를 열고 있다고 설명합니다. 이는 기존의 복잡한 코딩이나 방대한 데이터 수집 없이도 자연어 처리 능력, 추론 능력, 일반 지식을 갖춘 기반 모델을 활용하여 기업들이 AI를 더 쉽고 저렴하게 비즈니스에 적용할 수 있게 되었음을 의미합니다.
    *   **생산성 향상 및 경제적 영향:** Joseph Briggs(골드만삭스 수석 글로벌 경제학자)는 생성형 AI의 광범위한 채택이 미국 및 기타 선진국 경제에서 연간 1.5%p의 노동 생산성 증가율을 가져올 수 있으며, 장기적으로는 글로벌 GDP를 7%까지 끌어올릴 수 있다고 추정합니다. 이는 S&P 500 지수의 공정 가치를 9%까지 높일 수 있다는 분석도 있습니다.
    *   **AI의 과대평가 및 위험:** Gary Marcus(뉴욕대학교 명예교수)는 현재 AI 시스템의 지능이 과대평가되었으며, 인공 일반 지능(AGI)은 아직 멀었다고 지적합니다. 또한, AI 기술의 발전 속도와 시장의 기대치가 과도하게 부풀려져 거품이 형성될 수 있다는 우려도 제기됩니다. 과거 전기 및 PC/인터넷 도입 시기에도 유사한 과열 현상이 있었음을 상기시킵니다.
    *   **투자 기회:** Kash Rangan과 Eric Sheridan(골드만삭스 선임 주식 분석가)은 생성형 AI의 기반 모델을 개발하는 대형 기술 기업, 반도체 기업, 클라우드 컴퓨팅 기업 등이 가장 큰 수혜를 볼 것으로 예상합니다. 또한, AI 인프라 및 데이터 관리, 애플리케이션 개발 분야에서도 투자 기회가 있다고 봅니다.
    *   **규제 및 시장 동향:** AI 규제는 기술 혁신과 거의 동시에 진행되고 있으며, 이는 혁신을 둔화시킬 수 있지만 동시에 악의적인 사용을 방지하는 역할을 할 수 있습니다. 현재 시장은 AI 관련 기업들의 실질적인 성과를 주시하고 있으며, 특히 Nvidia와 같은 기업들의 실적 발표가 중요한 지표가 되고 있습니다.
    *   **과거 생산성 붐과의 비교:** Dominic Wilson과 Vickie Chang은 과거 전기 및 PC/인터넷 도입 시기의 생산성 붐이 주식 시장의 과열과 버블로 이어졌던 사례를 분석하며, 현재 AI 붐도 유사한 패턴을 보일 수 있다고 경고합니다.

    **주요 인터뷰 대상:**

    *   **Sarah Guo:** Conviction 창립자, AI 투자에 대한 낙관적인 전망과 함께 투자 시점 및 가치 평가의 중요성을 강조합니다.
    *   **Gary Marcus:** 뉴욕대학교 명예교수, AI의 현재 능력에 대한 과대평가를 경고하며 AGI 달성까지는 갈 길이 멀다고 주장합니다.
    *   **Kash Rangan & Eric Sheridan:** 골드만삭스 선임 주식 분석가, 생성형 AI의 기술적 특징, 시장 동향, 투자 기회 및 위험 요소를 분석합니다.
    *   **Joseph Briggs:** 골드만삭스 수석 글로벌 경제학자, AI가 경제 전반에 미칠 생산성 및 GDP 성장 효과를 분석합니다.
    *   **Ryan Hammond & David Kostin:** 골드만삭스 미국 주식 전략가, AI가 미국 주식 시장에 미칠 잠재적 영향과 밸류에이션에 대해 논합니다.
    *   **Dominic Wilson & Vickie Chang:** 골드만삭스 글로벌 시장 전략가, 과거 생산성 붐 사례를 통해 AI 붐의 시장 영향을 분석합니다.
    *   **Peter Callahan:** 골드만삭스 기술, 미디어, 통신 부문 전문가, 공모 투자자들의 AI에 대한 관심과 포지셔닝을 설명합니다.

    **이미지 및 표:**

    *   **그래프:**
        *   페이지 2: 미국, 일본, 유럽, 신흥 시장의 거시 경제 지표 및 전망을 보여주는 그래프들이 포함되어 있습니다. (예: 미국 경기 침체 확률, 일본 임금 상승률, 영국 민간 부문 임금 성장률, 중국 부동산 부문 성장 기여도)
        *   페이지 14: 미국 산업별 고용 노출도 자동화 비율을 보여주는 막대그래프.
        *   페이지 15: AI 도입이 미국 노동 생산성 증가에 미치는 영향(생산성 증가, 노동력 대체, 재고용)을 시나리오별로 보여주는 막대그래프와, 국가별 AI 도입에 따른 연간 생산성 증가율을 보여주는 막대그래프.
        *   페이지 16: AI 도입이 S&P 500 공정 가치에 미치는 영향을 시나리오별로 보여주는 막대그래프.
        *   페이지 17: ChatGPT 출시 후 사용자 증가 속도, Google 검색 트렌드, 기업들의 AI 관련 언급량, 주요 기술 기업들의 주가 수익률, AI 관련 주식들의 주가수익비율(P/E) 배수, 그리고 S&P 500의 주가수익비율과 비교한 AI 관련 기업들의 밸류에이션을 보여주는 그래프들이 포함되어 있습니다.
        *   페이지 18: 미국 노동 생산성 변화율과 주요 혁신 기술 도입 시점을 보여주는 그래프, 그리고 1996-2005년 기간 동안의 자산 시장 성과(금리, 달러, 나스닥, S&P 500, 유가) 변화를 보여주는 표와, 1996-2005년 기간 동안의 S&P 500, 기업 이익, 명목 GDP 변화를 보여주는 그래프.
        *   페이지 19: 과거 혁신 기간 동안의 주식 밸류에이션 변화를 보여주는 그래프.
        *   페이지 22: 글로벌, 미국, 중국, 유로 지역의 GDP 성장률 전망과 현재 활동 지표를 보여주는 그래프.
    *   **표:**
        *   페이지 13: 다양한 생성형 AI 도구들을 카테고리별(챗봇, 텍스트 생성기, 코드 생성기, 이미지 생성기, 비디오 생성기, 디자인 생성기, 음성 생성기, 음악 생성기)로 분류하고 각 도구의 설명과 특징을 제공하는 표.
        *   페이지 22: 주요 경제 지표 및 시장 전망에 대한 요약표.

    이 보고서는 생성형 AI가 가져올 혁신과 그에 따른 투자 전략 수립에 있어 중요한 통찰력을 제공합니다.
    ```

---

#### 8) **문서에서 표 파싱하기**

* **Gemini**는 문서의 표 내용을 파싱하여 **HTML** 또는 **Markdown**과 같은 정형화된 형식으로 반환할 수 있음.

In [52]:
table_extraction_prompt = """What is the HTML code of the table in this document?"""

# table_extraction_prompt = "이 문서에 있는 표의 HTML 코드는 무엇인가요?"

In [None]:
# pdf 읽어들이기
with open('../resources/salary_table.pdf', 'rb') as file:
    file_bytes = file.read()
my_file8 = client.files.upload(file='../resources/salary_table.pdf')


try:
    # pdf와 엔티티 추출 가이드 전송
    response = client.models.generate_content(
        model='gemini-2.5-flash-lite',
        contents = [table_extraction_prompt,
                    types.Part.from_bytes(data=file_bytes, mime_type='application/pdf')],
        config=types.GenerateContentConfig(
            temperature=0,
            response_mime_type='text/plain'
        )
    )

    # 생성된 텍스트 출력
    print(response.text, '\n')


except FileNotFoundError:
    print("지정된 로컬 PDF 파일을 찾을 수 없습니다.")
except Exception as e:
    print(f"오류가 발생했습니다: {e}")

<small>

* 셀 출력 (temperature=0)(8.5s)

  ```html
  <table>
    <thead>
      <tr>
        <td rowspan="2">Grade</td>
        <td colspan="10">Annual Rates by Grade and Step</td>
        <td rowspan="2">WITHIN
          GRADE
          AMOUNTS</td>
      </tr>
      <tr>
        <td>Step 1</td>
        <td>Step 2</td>
        <td>Step 3</td>
        <td>Step 4</td>
        <td>Step 5</td>
        <td>Step 6</td>
        <td>Step 7</td>
        <td>Step 8</td>
        <td>Step 9</td>
        <td>Step 10</td>
      </tr>
    </thead>
    <tbody>
      <tr>
        <td>1</td>
        <td>$ 20,999</td>
        <td>$ 21,704</td>
        <td>$ 22,401</td>
        <td>$ 23,097</td>
        <td>$ 23,794</td>
        <td>$ 24,202</td>
        <td>$ 24,893</td>
        <td>$ 25,589</td>
        <td>$ 25,617</td>
        <td>$ 26,273</td>
        <td>VARIES</td>
      </tr>
      <tr>
        <td>2</td>
        <td>23,612</td>
        <td>24,174</td>
        <td>24,956</td>
        <td>25,617</td>
        <td>25,906</td>
        <td>26,668</td>
        <td>27,430</td>
        <td>28,192</td>
        <td>28,954</td>
        <td>29,716</td>
        <td>VARIES</td>
      </tr>
      <tr>
        <td>3</td>
        <td>25,764</td>
        <td>26,623</td>
        <td>27,482</td>
        <td>28,341</td>
        <td>29,200</td>
        <td>30,059</td>
        <td>30,918</td>
        <td>31,777</td>
        <td>32,636</td>
        <td>33,495</td>
        <td>859</td>
      </tr>
      <tr>
        <td>4</td>
        <td>28,921</td>
        <td>29,885</td>
        <td>30,849</td>
        <td>31,813</td>
        <td>32,777</td>
        <td>33,741</td>
        <td>34,705</td>
        <td>35,669</td>
        <td>36,633</td>
        <td>37,597</td>
        <td>964</td>
      </tr>
      <tr>
        <td>5</td>
        <td>32,357</td>
        <td>33,436</td>
        <td>34,515</td>
        <td>35,594</td>
        <td>36,673</td>
        <td>37,752</td>
        <td>38,831</td>
        <td>39,910</td>
        <td>40,989</td>
        <td>42,068</td>
        <td>1,079</td>
      </tr>
      <tr>
        <td>6</td>
        <td>36,070</td>
        <td>37,272</td>
        <td>38,474</td>
        <td>39,676</td>
        <td>40,878</td>
        <td>42,080</td>
        <td>43,282</td>
        <td>44,484</td>
        <td>45,686</td>
        <td>46,888</td>
        <td>1,202</td>
      </tr>
      <tr>
        <td>7</td>
        <td>40,082</td>
        <td>41,418</td>
        <td>42,754</td>
        <td>44,090</td>
        <td>45,426</td>
        <td>46,762</td>
        <td>48,098</td>
        <td>49,434</td>
        <td>50,770</td>
        <td>52,106</td>
        <td>1,336</td>
      </tr>
      <tr>
        <td>8</td>
        <td>44,389</td>
        <td>45,869</td>
        <td>47,349</td>
        <td>48,829</td>
        <td>50,309</td>
        <td>51,789</td>
        <td>53,269</td>
        <td>54,749</td>
        <td>56,229</td>
        <td>57,709</td>
        <td>1,480</td>
      </tr>
      <tr>
        <td>9</td>
        <td>49,028</td>
        <td>50,662</td>
        <td>52,296</td>
        <td>53,930</td>
        <td>55,564</td>
        <td>57,198</td>
        <td>58,832</td>
        <td>60,466</td>
        <td>62,100</td>
        <td>63,734</td>
        <td>1,634</td>
      </tr>
      <tr>
        <td>10</td>
        <td>53,990</td>
        <td>55,790</td>
        <td>57,590</td>
        <td>59,390</td>
        <td>61,190</td>
        <td>62,990</td>
        <td>64,790</td>
        <td>66,590</td>
        <td>68,390</td>
        <td>70,190</td>
        <td>1,800</td>
      </tr>
      <tr>
        <td>11</td>
        <td>59,319</td>
        <td>61,296</td>
        <td>63,273</td>
        <td>65,250</td>
        <td>67,227</td>
        <td>69,204</td>
        <td>71,181</td>
        <td>73,158</td>
        <td>75,135</td>
        <td>77,112</td>
        <td>1,977</td>
      </tr>
      <tr>
        <td>12</td>
        <td>71,099</td>
        <td>73,469</td>
        <td>75,839</td>
        <td>78,209</td>
        <td>80,579</td>
        <td>82,949</td>
        <td>85,319</td>
        <td>87,689</td>
        <td>90,059</td>
        <td>92,429</td>
        <td>2,370</td>
      </tr>
      <tr>
        <td>13</td>
        <td>84,546</td>
        <td>87,364</td>
        <td>90,182</td>
        <td>93,000</td>
        <td>95,818</td>
        <td>98,636</td>
        <td>101,454</td>
        <td>104,272</td>
        <td>107,090</td>
        <td>109,908</td>
        <td>2,818</td>
      </tr>
      <tr>
        <td>14</td>
        <td>99,908</td>
        <td>103,238</td>
        <td>106,568</td>
        <td>109,898</td>
        <td>113,228</td>
        <td>116,558</td>
        <td>119,888</td>
        <td>123,218</td>
        <td>126,548</td>
        <td>129,878</td>
        <td>3,330</td>
      </tr>
      <tr>
        <td>15</td>
        <td>117,518</td>
        <td>121,435</td>
        <td>125,352</td>
        <td>129,269</td>
        <td>133,186</td>
        <td>137,103</td>
        <td>141,020</td>
        <td>144,937</td>
        <td>148,854</td>
        <td>152,771</td>
        <td>3,917</td>
      </tr>
    </tbody>
  </table>
  ```


  ```markdown
  The HTML code for the table is provided above. The table displays salary information by grade and step, with columns for each step from 1 to 10, and a final column for "Within Grade Amounts". The rows represent different grades from 1 to 15.
  ```

---

### **문서 번역**

* **Gemini**는 여러 언어 간에 문서를 번역할 수 있음. 
  * 이 예시는 회의록을 영어에서 프랑스어와 스페인어로 번역함.

In [54]:
translation_prompt = """Translate the first paragraph into French and Spanish. Label each paragraph with the target language."""

In [None]:
# pdf 읽어들이기
with open('../resources/report.pdf', 'rb') as file:
    file_bytes = file.read()
my_file9 = client.files.upload(file='../resources/report.pdf')


try:
    # pdf와 엔티티 추출 가이드 전송
    response = client.models.generate_content(
        model='gemini-2.5-flash-lite',
        contents = [translation_prompt,
                    types.Part.from_bytes(data=file_bytes, mime_type='application/pdf')],
        config=types.GenerateContentConfig(
            temperature=0,
            response_mime_type='text/plain'
        )
    )

    # 생성된 텍스트 출력
    print(response.text, '\n')


except FileNotFoundError:
    print("지정된 로컬 PDF 파일을 찾을 수 없습니다.")
except Exception as e:
    print(f"오류가 발생했습니다: {e}")

In [56]:
translation_prompt_ko = """Translate the first paragraph into Korean. Label each paragraph with the target language."""

In [None]:
# pdf 읽어들이기
with open('../resources/report.pdf', 'rb') as file:
    file_bytes = file.read()
my_file9 = client.files.upload(file='../resources/report.pdf')


try:
    # pdf와 엔티티 추출 가이드 전송
    response = client.models.generate_content(
        model='gemini-2.5-flash-lite',
        contents = [translation_prompt_ko,
                    types.Part.from_bytes(data=file_bytes, mime_type='application/pdf')],
        config=types.GenerateContentConfig(
            temperature=0,
            response_mime_type='text/plain'
        )
    )

    # 생성된 텍스트 출력
    print(response.text, '\n')


except FileNotFoundError:
    print("지정된 로컬 PDF 파일을 찾을 수 없습니다.")
except Exception as e:
    print(f"오류가 발생했습니다: {e}")

<small>

* 셀 출력 (temperature=0)(8.7s)

    ```markdown

    **French:**

    Depuis le lancement de ChatGPT par OpenAI en novembre, l'intérêt des investisseurs pour la technologie d'IA générative a grimpé en flèche. Le potentiel disruptif de cette technologie, et si le battage médiatique autour de celle-ci — et de sa valorisation par le marché — est allé trop loin, est au cœur des préoccupations. Nous nous entretenons avec Sarah Guo de Conviction, Gary Marcus de NYU, et les analystes logiciels et internet américains de GS GIR, Kash Rangan et Eric Sheridan, pour discuter de ce que la technologie peut — et ne peut pas — faire à ce stade. Les économistes de GS évaluent ensuite l'impact potentiellement important de la technologie sur la productivité et la croissance, ce que nos stratèges en actions estiment pouvoir se traduire par une hausse significative des actions américaines à moyen et long terme, bien que nos stratèges avertissent également que les booms de productivité passés ont entraîné des bulles d'actions qui ont finalement éclaté. Nous discutons également des opportunités d'investissement les plus intéressantes dans le domaine de l'IA aujourd'hui, et des risques à court terme que les investisseurs devraient surveiller.

    **Spanish:**

    Desde el lanzamiento de ChatGPT de OpenAI en noviembre, el interés de los inversores en la tecnología de IA generativa se ha disparado. El potencial disruptivo de esta tecnología, y si el entusiasmo que la rodea — y la valoración del mercado — ha ido demasiado lejos, es un tema de máxima prioridad. Hablamos con Sarah Guo de Conviction, Gary Marcus de NYU, y los analistas de software e internet de GS GIR, Kash Rangan y Eric Sheridan, sobre lo que la tecnología puede — y no puede — hacer en esta etapa. Los economistas de GS evalúan luego el impacto potencialmente grande de la tecnología en la productividad y el crecimiento, lo que nuestros estrategas de renta variable estiman que podría traducirse en una importante subida de las acciones estadounidenses a medio y largo plazo, aunque nuestros estrategas también advierten que los auges de productividad pasados han resultado en burbujas de renta variable que finalmente estallaron. También discutimos dónde pueden encontrarse las oportunidades de inversión más atractivas en el espacio de la IA hoy en día, y los riesgos a corto plazo que los inversores deberían vigilar.
    ```
---

* 한국어 버전 (9.5s)
  
    ```markdown
    Here's the translation of the first paragraph into Korean:

    **Korean**
    OpenAI의 생성형 AI 도구인 ChatGPT 출시 이후, 생성형 AI 기술에 대한 투자자들의 관심이 급증했습니다. 이 기술의 파괴적인 잠재력과 이에 대한 과대광고 및 시장 가격이 너무 과한지에 대한 여부가 가장 큰 관심사입니다. 저희는 Conviction의 Sarah Guo, NYU의 Gary Marcus, 그리고 GS GIR의 미국 소프트웨어 및 인터넷 분석가인 Kash Rangan 및 Eric Sheridan과 함께 이 기술이 현재 단계에서 무엇을 할 수 있고 무엇을 할 수 없는지에 대해 이야기합니다. GS 경제학자들은 이 기술이 생산성과 성장에 미칠 수 있는 잠재적으로 큰 영향을 평가하며, 저희의 주식 전략가들은 이것이 중장기적으로 미국 주식에 상당한 상승 여력을 가져올 수 있다고 추정하지만, 과거 생산성 붐이 결국에는 터져버린 주식 거품으로 이어졌다는 점도 경고합니다. 또한, 현재 AI 분야에서 가장 매력적인 투자 기회가 어디에 있을지, 그리고 투자자들이 가장 주목해야 할 단기적 위험에 대해서도 논의합니다.

    ```

---

### 문서 비교

* **Gemini**는 여러 문서의 내용을 비교하고 대조할 수 있음. 
  * 이 예시는 **`IRS Form 1040`** 의 2013년과 2023년 버전 간의 변경 사항을 찾음.

* *참고: 여러 문서로 작업할 때 순서가 중요할 수 있으므로, 프롬프트에서 순서를 지정해야 함.*

In [59]:
comparison_prompt = """The first document is from 2013, the second one from 2023. How did the standard deduction evolve?"""

In [64]:
comparison_prompt_ko = """첫 번째 문서는 2013년, 두 번째 문서는 2023년 것입니다. 표준 공제액이 어떻게 변화했나요? 한국어로 답변해주세요."""

In [None]:
# pdf 읽어들이기
with open('../resources/form_1040_2013.pdf', 'rb') as file:
    file_bytes_2013 = file.read()
my_file10 = client.files.upload(file='../resources/form_1040_2013.pdf')

with open('../resources/form_1040_2023.pdf', 'rb') as file:
    file_bytes_2023 = file.read()
my_file11 = client.files.upload(file='../resources/form_1040_2023.pdf')

try:
    # pdf와 엔티티 추출 가이드 전송
    response = client.models.generate_content(
        model='gemini-2.5-flash-lite',
        contents = [comparison_prompt,
                    [types.Part.from_bytes(data=file_bytes_2013, mime_type='application/pdf'),
                    types.Part.from_bytes(data=file_bytes_2023, mime_type='application/pdf')]],
        config=types.GenerateContentConfig(
            temperature=0,
            response_mime_type='text/plain'
        )
    )

    # 생성된 텍스트 출력
    display(Markdown(f"### Comparison"))
    display(Markdown(response.text))


except FileNotFoundError:
    print("지정된 로컬 PDF 파일을 찾을 수 없습니다.")
except Exception as e:
    print(f"오류가 발생했습니다: {e}")

In [None]:
try:
    # pdf와 엔티티 추출 가이드 전송
    response = client.models.generate_content(
        model='gemini-2.5-flash-lite',
        contents = [comparison_prompt_ko,
                    [types.Part.from_bytes(data=file_bytes_2013, mime_type='application/pdf'),
                    types.Part.from_bytes(data=file_bytes_2023, mime_type='application/pdf')]],
        config=types.GenerateContentConfig(
            temperature=0,
            response_mime_type='text/plain'
        )
    )

    # 생성된 텍스트 출력
    display(Markdown(f"### Comparison"))
    display(Markdown(response.text))


except FileNotFoundError:
    print("지정된 로컬 PDF 파일을 찾을 수 없습니다.")
except Exception as e:
    print(f"오류가 발생했습니다: {e}")

<small>

* 셀 출력 (8.4s)

    ```markdown
    ### Comparison
    The provided documents do not contain information about the evolution of the standard deduction. The first document (2013) discusses specific charitable contributions for Typhoon Haiyan relief efforts, and the second document (2023) is a tax form. Neither document details changes to the standard deduction over time.
    ```

---

* 한국어 출력 (5.8s)

    ```markdown
    ### Comparison
    제공해주신 문서에는 표준 공제액에 대한 정보가 직접적으로 나와 있지 않습니다.

    첫 번째 문서는 2013년 세금 신고 시 태풍 하이옌 구호 활동에 대한 기부금 공제에 관한 내용이며, 두 번째 문서는 2013년 및 2023년 미국 개인 소득세 신고서(Form 1040) 양식입니다.

    표준 공제액은 세법에 따라 매년 조정되므로, 2013년과 2023년의 표준 공제액은 다릅니다. 정확한 금액은 해당 연도의 세법 규정을 확인해야 합니다.

    일반적으로 표준 공제액은 다음과 같이 조정됩니다.

    *   **2013년 표준 공제액 (Form 1040, Page 2, Line 40 참고):**
        *   독신 또는 별도 세대주: $6,100
        *   부부 합산 신고 또는 생존 배우자: $12,200
        *   세대주: $8,950

    *   **2023년 표준 공제액 (Form 1040, Page 1, Standard Deduction 섹션 참고):**
        *   독신 또는 별도 세대주: $13,850
        *   부부 합산 신고 또는 생존 배우자: $27,700
        *   세대주: $20,800

    따라서 2013년과 2023년 사이에 표준 공제액은 **상당히 인상**되었습니다.
    ```


---

## 문서 페이지 추출

* **Gemini**는 관련 페이지를 식별하고, 새롭고 집중된 **PDF**를 생성하는 데 사용될 수 있음.

In [66]:
PROMPT_PAGES = """
Return the numbers of all pages in the document above that contain information related to the question below.
<Instructions>
    - Use the document above as your only source of information to determine which pages are related to the question below.
    - Return the page numbers of the document above that are related to the question. When in doubt, return the page anyway.
    - The page numbers should be in the format of a list of integers, e.g. [1, 2, 3].
</Instructions>
<Suggestions>
    - The document above is a financial report with various tables, charts, infographics, lists, and additional text information.
    - Pay close attention to the chart legends and chart colors to determine the pages. Colors may indicate which information is important for determining the pages.
    - The color of the chart legends represents the color of the bars in the chart.
    - Use ONLY this document as context to determine the pages.
    - In most cases, the page number can be found in the footer.
</Suggestions>
<Question>
{question}
</Question>
"""


def pdf_slice(input_file: str, output_file: str, pages: list[int]) -> None:
    """Using an input pdf file name and a list of page numbers,
    writes a new pdf file containing only those pages.
    """
    pdf_reader = pypdf.PdfReader(input_file)
    pdf_writer = pypdf.PdfWriter()
    for page_num in pages:
        if 1 <= page_num <= len(pdf_reader.pages):
            pdf_writer.add_page(pdf_reader.pages[page_num - 1])
    pdf_writer.write(output_file)

* PDF와 질문을 URL에 포함시키기
  * pdf → url로 포함시켰을 때 오류 발생
  * 다운로드 후 `resources/`에 위치

In [None]:
question = "From the Consolidated Balance Sheet, what was the difference between the total assets from 2022 to 2023?" 

# pdf_path = "https://storage.googleapis.com/github-repo/generative-ai/gemini/use-cases/document-processing/CymbalBankFinancialStatements.pdf"  
# 오류 발생으로 resources/ 폴더에 다운로드 후 pdf 파일을 업로드 하는 방법으로 진행
# local_pdf = os.path.basename(pdf_path)

* 관련된 페이지를 제미나이를 이용해 추출 및 프린트하기

In [71]:
# pdf 읽어들이기
with open('../resources/CymbalBankFinancialStatements.pdf', 'rb') as file:
    file_bytes = file.read()
my_file12 = client.files.upload(file='../resources/AttentionIsAllYouNeed.pdf')


try:
    # pdf와 엔티티 추출 가이드 전송
    response = client.models.generate_content(
        model='gemini-2.5-flash-lite',
        contents = ["<Document>",
                    types.Part.from_bytes(data=file_bytes, mime_type='application/pdf'),
                    "</Document>",
                    PROMPT_PAGES.format(question=question)
                    ],
        config=types.GenerateContentConfig(
            temperature=0,
            response_mime_type='text/plain',
            response_schema=list[int],
        )
    )

    # 생성된 텍스트 출력
    pages = response.parsed
    print(pages)
    #print(response.text)           # 9

except FileNotFoundError:
    print("지정된 로컬 PDF 파일을 찾을 수 없습니다.")
except Exception as e:
    print(f"오류가 발생했습니다: {e}")

[9]


* 로컬에 다운로드 해보기

In [None]:
# 추출한 페이지로 새로운 PDF 파일 생성
if pages:
    pdf_slice('../resources/CymbalBankFinancialStatements.pdf', 'extracted_pages.pdf', pages)
    print("추출된 페이지가 'extracted_pages.pdf' 파일로 저장되었습니다.")

else:
    print("추출된 페이지가 없습니다.")

<small>

* 셀 출력 (0.0s)
  
* `pdf_slice 함수` 사용 → 추출한 페이지로 새로운 PDF 파일 생성하기 

    ```markdown
    추출된 페이지가 'extracted_pages.pdf' 파일로 저장되었습니다.
    ```