# Setup and Configuration
Install and import necessary libraries, such as `requests` and `json`. Define constants for the Gemini API key and endpoint.

In [1]:
# Install necessary libraries
!pip install -q -U google-genai
!pip install requests




In [2]:
# Import required libraries
from google import genai

# Define constants for the Gemini API key and endpoint
GEMINI_API_KEY = "AIzaSyAGxnOv00AxrOfIYbEs8oOZBQwYisZ5u2I"  # Replace with your actual Gemini API key

client = genai.Client(api_key=GEMINI_API_KEY)
model = "gemini-2.0-flash-exp-image-generation"  # Specify the model you want to use



# Upload and Read Image
Write code to upload an image to the Gemini API and retrieve its metadata or content.

In [3]:
# Upload and Read Image
import PIL.Image
import json
from google.genai import types


# Function to upload an image to the Gemini API and retrieve its metadata or content
def upload_and_read_image(image_path, user_prompt):
    """
    Uploads an image to the Gemini API and retrieves its metadata or content based on the user prompt.

    Args:
        image_path (str): Path to the image file to be uploaded.
        user_prompt (str): User prompt describing what to extract from the image.

    Returns:
        dict: Response from the Gemini API containing the image description or metadata.
    """
    # Open the image file in binary mode
    if image_path != "":
        image = PIL.Image.open(image_path)
        response = client.models.generate_content(
            model=model,
            contents=[user_prompt, image],
            config=types.GenerateContentConfig(
                temperature= 0,
                response_mime_type= 'application/json'
            ))
                

    
    return response

In [4]:
import textwrap

image_dir = "image"  # Replace with the actual path to your image
image_name = ["嘉義遊園地.png", "夏日街景.jpg", "淡水風景.png", "鳶尾花.jpg", "蒙娜麗莎的微笑.png", "星夜.png"]
image_path = f"{image_dir}/{image_name[1]}"
# # 畫作資訊
# - 畫作名稱: {}
# - 創作者: {}
# - 創作年份: {}
# - 畫作風格: {}

user_prompt = textwrap.dedent(
"""
請依照口述影像原則來描述這幅畫的內容，目標是要依照文字就能讓聽者想像此畫作。

# 畫作描述
## 口述影像原則
- 描述應該是客觀的，避免主觀情緒或詮釋性用語。
- 使用簡單明瞭的語言，避免使用專業術語或難懂的詞彙。
- 描述的長度應該適中，既要詳細又不冗長，讓讀者能夠快速理解畫作的內容。
- 提到畫面中的物件時，請用上、下、左、右、遠、近來描述該物件在畫面中的絕對位置。
- 使用更具象化、可觸知的描述，用比喻與觸覺可想像的形容，讓讀者能夠在腦海中形成清晰的畫面。
- 適度引導聽者想像畫面可能的場景或情境，但避免主觀臆測。
    
## 口述影像描述順序
1. 完形與整體印象
    - 先提供畫面的整體視覺印象，例如色調、構圖、氛圍等。
    - 描述主要物件的位置關係、整體結構與視覺風格（如筆觸、材質感、光線等）。
    - 可適度引導聽者想像畫面可能的場景或情境
2. 區域與構成分析
    - 將畫面劃分為數個區塊（如左／中／右、上／下、前景／背景），有邏輯地描述各區塊。
    - 說明主體與背景、人物與物件、動靜對比、空間深度、顏色對比等結構特徵。
3. 結語與情感總結
    - 在結尾整理畫面的整體印象，重申主體與畫面特徵。
    - 可指出畫面可能營造的情緒氛圍（如寧靜、壓迫、歡愉），但避免主觀臆測。
    - 若畫面有敘事性，可引導「可能的事件」或「未說出口的情境」，例如：「彷彿畫中人正準備轉身離去」等。

## 觀畫重點
- 畫面的主題：畫作的主題是什麼？是人物、風景、靜物還是抽象？
- 色彩與光線：畫面中使用了哪些顏色？是否有顏色上的對比？光線的來源和強度如何？
- 筆觸與質感：筆觸是細膩柔和、光滑精緻，還是粗獷有力、充滿動感？
- 人物的特徵：如果畫面中有人物，請描述它們的姿態、表情。

# 畫作意境
- 請用關鍵字來描述意境
- 畫面給人的第一感覺是什麼？是寧靜的、壓抑的、歡快的、神祕的？

# 畫作物件
- 請列出畫面中的物件，並附上一種主要顏色就好。
- 請使用常見的基本色系 
- 格式：["實體":"顏色"]，例如:["樹木":"綠色"]，["天空":"藍色"]

# 要求
- 請勿用不確定的口吻描述，不確定的細節不必提到
- 請保留顏色的描述，例如「紅色的花朵」或「藍色的天空」，而不是「花朵」或「天空」。
- 請直接輸出繁體中文的描述內容，不需要列點式描述，請用語意通順的一個段落描述畫面。
- 請不要提到「觀者」等詞彙，請用第三人稱的方式描述畫面。
- 請回傳JSON格式輸出，包含以下欄位：
    1. "description": "畫作描述"
    2. "artistic_conception" : "畫作意境"
    3. "object": ["實體":"顏色"]
"""

)


# Example usage
result = upload_and_read_image(image_path, user_prompt)

# Print the result
print(result.text)

cleaned_text = result.text.strip("`").strip()
lines = cleaned_text.splitlines()

if lines[0].strip().lower() in ['json', '```json']:
    lines = lines[1:]

json_str = "\n".join(lines)
data = json.loads(json_str)
for i in data["description"].split("。"):
    print(i)



# 多輪對話：深入探索畫作細節

這個部分讓你可以與模型進行多輪對話，詢問關於畫作的更多細節。模型會記住之前的對話歷史，讓你可以基於先前的回答繼續提問。

In [21]:
class ArtworkConversation:
    def __init__(self, image_path, initial_data):
        self.image_path = image_path
        self.initial_data = initial_data
        self.history = [
            {"role": "system", "content": "你是一個藝術評論專家，專門解析畫作細節。請基於畫面內容回答問題，避免臆測。請用繁體中文回答。"},
            {"role": "assistant", "content": f"我已經分析了這幅畫作，以下是基本描述：\n\n{initial_data['description']}\n\n意境：{initial_data['artistic_conception']}\n\n你可以問我關於這幅畫的任何細節。"}
        ]
        self.image = PIL.Image.open(image_path)
    
    def ask(self, question):
        """向模型提問，並記錄對話歷史"""
        # 添加用戶問題到歷史記錄
        self.history.append({"role": "user", "content": question})
        
        # 構建提示
        context_prompt = f"""基於我們之前的對話和畫作圖像，請回答我的問題。請只回答與畫作直接相關的內容，如果無法從畫面中判斷，請誠實說明。
        以下是我們之前的對話歷史摘要：
        
        {self.history[-1]['content']}
        
        我的問題是：{question}"""
        print(context_prompt)
        try:
            # 調用API - 修改內容結構以解決驗證錯誤
            response = client.models.generate_content(
                model=model,
                contents=[context_prompt, self.image],  # 簡化內容結構
                config=types.GenerateContentConfig(
                    temperature=0.2
                )
            )
            
            # 記錄模型回答
            answer = response.text
            self.history.append({"role": "assistant", "content": answer})
            
            return answer
        except Exception as e:
            print(f"發生錯誤: {str(e)}")
            return f"處理請求時發生錯誤: {str(e)}"
    
    def get_history(self):
        """獲取對話歷史"""
        return self.history

In [25]:
import ipywidgets as widgets
from IPython.display import display, clear_output

# 檢查是否已經分析過畫作
if 'data' in locals() and 'image_path' in locals():
    # 初始化對話
    conversation = ArtworkConversation(image_path, data)
    
    # 創建UI元素
    conversation_output = widgets.Output()
    
    # 顯示UI
    display(widgets.HTML("<h3>與畫作對話</h3>"))
    display(conversation_output)
    
    # 提示使用者可以開始提問
    with conversation_output:
        print("可以問的問題範例：")
        examples = [
            "畫面中最前景的主要物件有哪些？",
            "這幅畫的光影效果如何？光源從哪個方向照射？",
            "畫中有哪些細節可能容易被忽略？",
            "畫面中的色彩搭配有什麼特色？",
            "這幅畫的構圖方式是什麼？重心在哪裡？"
        ]
        for ex in examples:
            print(f"- {ex}")
        print("\n你可以開始提問了！輸入「結束」來結束對話。\n")
    
    # 使用 while 迴圈進行提問
    while True:
        question = input("請輸入問題（輸入「結束」以結束對話）：").strip()
        if question == "結束":
            with conversation_output:
                print("\n對話已結束。感謝您的使用！")
            break
        elif question:
            with conversation_output:
                # 顯示用戶問題
                print(f"\033[1m\033[94m問題: {question}\033[0m")
                
                # 獲取回答
                answer = conversation.ask(question)
                
                # 顯示回答
                print(f"\033[1m\033[92m回答:\033[0m {answer}\n")
        else:
            with conversation_output:
                print("請輸入有效的問題。")
else:
    print("請先執行上面的代碼以獲取畫作的基本描述，然後再使用對話功能。")


HTML(value='<h3>與畫作對話</h3>')

Output()

# 查看完整對話歷史

如果你想查看或保存整個對話過程，可以執行下面的代碼來顯示完整對話歷史。

In [23]:
# 顯示完整對話歷史
if 'conversation' in locals():
    history = conversation.get_history()
    # 跳過系統提示
    for i, entry in enumerate(history):
        if i == 0 and entry['role'] == 'system':  # 跳過系統提示
            continue
            
        role = entry['role']
        content = entry['content']
        
        if role == 'user':
            print(f"\033[1m\033[94m用戶: {content}\033[0m\n")
        elif role == 'assistant':
            print(f"\033[1m\033[92m助理: {content}\033[0m\n")
        print("-" * 80)
else:
    print("尚未開始對話，請先使用上方的對話功能。")

