<a href="https://colab.research.google.com/github/kevin6449/ironman2024_genai/blob/main/gen_ai_day8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 運用 Gemini API 探索視覺功能

Gemini API 可以對傳遞的圖片和影片進行推論。通過時 圖片、一組圖片或影片，Gemini 就能：

*   說明或回答內容相關問題
*   提供內容的摘要
*   從內容推斷



In [3]:
import google.generativeai as genai

In [4]:
from google.colab import userdata

API_KEY=userdata.get('GOOGLE_API_KEY')

In [5]:
#genai.configure(api_key="YOUR_API_KEY")

# Configure the client library by providing your API key.
genai.configure(api_key=API_KEY)

# 使用 File API 上傳圖片檔

In [6]:
!curl -o jetpack.jpg https://storage.googleapis.com/generativeai-downloads/images/jetpack.jpg

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0 16  349k   16 59657    0     0   415k      0 --:--:-- --:--:-- --:--:--  413k100  349k  100  349k    0     0  2452k      0 --:--:-- --:--:-- --:--:-- 2441k


In [7]:
# Upload the file and print a confirmation.
sample_file = genai.upload_file(path="jetpack.jpg",
                            display_name="Jetpack drawing")

print(f"Uploaded file '{sample_file.display_name}' as: {sample_file.uri}")

Uploaded file 'Jetpack drawing' as: https://generativelanguage.googleapis.com/v1beta/files/5bqo8ymghi6p


# 驗證圖片檔上傳並取得中繼資料

In [8]:
file = genai.get_file(name=sample_file.name)
print(f"Retrieved file '{file.display_name}' as: {sample_file.uri}")

Retrieved file 'Jetpack drawing' as: https://generativelanguage.googleapis.com/v1beta/files/5bqo8ymghi6p


# 使用上傳的圖片和文字做為提示
使用 gemini-1.5-pro

In [10]:
import markdown

In [26]:
# Choose a Gemini model.
model = genai.GenerativeModel(model_name="gemini-1.5-pro")

# Prompt the model with text and the previously uploaded image.
response = model.generate_content([sample_file, "描述如何製造該產品,請用繁體中文回答 "])

markdown.markdown(">" + response.text)

'<blockquote>\n<p>這是一個噴射背包的設計圖，以下是製造說明：</p>\n</blockquote>\n<p><strong>外觀和功能：</strong></p>\n<ol>\n<li><strong>背包外型：</strong>設計成普通背包的樣子，輕便且不引人注目。</li>\n<li><strong>尺寸：</strong>能夠容納 18 吋筆記型電腦。</li>\n<li><strong>背帶：</strong>加厚設計，提供舒適的背負體驗。</li>\n</ol>\n<p><strong>動力系統：</strong></p>\n<ol>\n<li><strong>推進器：</strong>底部裝有可伸縮的推進器，提供升力。</li>\n<li><strong>動力來源：</strong>採用蒸汽動力系統，環保清潔。</li>\n<li><strong>電池續航：</strong>電池續航力達 15 分鐘。</li>\n</ol>\n<p><strong>其他功能：</strong></p>\n<ol>\n<li><strong>USB-C 充電：</strong>方便為電子設備充電。</li>\n</ol>\n<p><strong>製造流程：</strong></p>\n<ol>\n<li><strong>設計和研發：</strong>根據設計圖進行產品的詳細設計，包括材料選擇、結構設計、動力系統設計等。</li>\n<li><strong>材料準備：</strong>採購製造背包所需的各種材料，例如：輕便耐用的背包面料、推進器材料、蒸汽動力系統組件、電池等。</li>\n<li><strong>加工和組裝：</strong></li>\n<li>根據設計圖紙，加工製作背包的各個部件。</li>\n<li>將推進器、蒸汽動力系統、電池等組件安裝到背包底部。</li>\n<li>將加厚背帶縫合到背包上，確保舒適性和安全性。</li>\n<li><strong>測試和調試：</strong>對組裝好的噴射背包進行嚴格的測試，確保其功能正常、安全可靠。</li>\n<li><strong>品質檢驗和包裝：</strong>通過品質檢驗的產品進行包裝，準備上市銷售。</li>\n</ol>\n<p><strong>注意事項：</strong></

# 上傳一或多個儲存在本機的圖片檔

In [15]:
from keras.preprocessing import image

In [17]:
!curl -o piranha.jpg https://storage.googleapis.com/generativeai-downloads/images/piranha.jpg

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0100 1146k  100 1146k    0     0  7270k      0 --:--:-- --:--:-- --:--:-- 7302k


In [18]:
!curl -o firefighter.jpg https://storage.googleapis.com/generativeai-downloads/images/firefighter.jpg

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0100  534k  100  534k    0     0  4783k      0 --:--:-- --:--:-- --:--:-- 4815k


In [19]:
import PIL.Image

sample_file_2 = PIL.Image.open('piranha.jpg')
sample_file_3 = PIL.Image.open('firefighter.jpg')

# 使用多張圖片提示

In [21]:
# Choose a Gemini model.
model = genai.GenerativeModel(model_name="gemini-1.5-pro")

prompt = "寫一段廣告順口溜，展示第一張圖片中的產品如何解決後兩張圖片中顯示的問題。"

response = model.generate_content([prompt, sample_file, sample_file_2, sample_file_3])

markdown.markdown(">" + response.text)

'<blockquote>\n<p>被鯊魚困住？還是貓咪受困？\n生活給你檸檬時，就飛過去吧！</p>\n</blockquote>\n<p>使用噴射背包，問題迎刃而解，\n這款背包動力十足，外觀時尚。\n環保的動力，讓你翱翔天際，\n超長的電池續航力，讓你永不放棄。</p>\n<p>加墊肩帶，舒適無比，\nUSB 充電功能，隨時補充電力。\n別再猶豫，這款背包非你莫屬，\n噴射背包，成就非凡自我！</p>'

# 取得物件的定界框

In [24]:
# Choose a Gemini model.
model = genai.GenerativeModel(model_name="gemini-1.5-pro")

prompt = "返回食人魚的邊界框。 \n [ymin, xmin, ymax, xmax]"
response = model.generate_content([sample_file_2, prompt])

print(response.text)

[612, 504, 701, 618]

