In [None]:
# Copyright 2024 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# 使用 Gen AI SDK 開始使用 Multimodal Live API


<table align="left">
  <td style="text-align: center">
    <a href="https://colab.research.google.com/github/GoogleCloudPlatform/generative-ai/blob/main/gemini/multimodal-live-api/intro_multimodal_live_api_genai_sdk.ipynb">
      <img width="32px" src="https://www.gstatic.com/pantheon/images/bigquery/welcome_page/colab-logo.svg" alt="Google Colaboratory logo"><br> 在 Colab 中開啟
    </a>
  </td>
  <td style="text-align: center">
    <a href="https://console.cloud.google.com/vertex-ai/colab/import/https:%2F%2Fraw.githubusercontent.com%2FGoogleCloudPlatform%2Fgenerative-ai%2Fmain%2Fgemini%2Fmultimodal-live-api%2Fintro_multimodal_live_api_genai_sdk.ipynb">
      <img width="32px" src="https://lh3.googleusercontent.com/JmcxdQi-qOpctIvWKgPtrzZdJJK-J3sWE1RsfjZNwshCFgE_9fULcNpuXYTilIR2hjwN" alt="Google Cloud Colab Enterprise logo"><br> 在 Colab Enterprise 中開啟
    </a>
  </td>
  <td style="text-align: center">
    <a href="https://console.cloud.google.com/vertex-ai/workbench/deploy-notebook?download_url=https://raw.githubusercontent.com/GoogleCloudPlatform/generative-ai/main/gemini/multimodal-live-api/intro_multimodal_live_api_genai_sdk.ipynb">
      <img src="https://www.gstatic.com/images/branding/gcpiconscolors/vertexai/v1/32px.svg" alt="Vertex AI logo"><br> 在 Vertex AI Workbench 中開啟
    </a>
  </td>
  <td style="text-align: center">
    <a href="https://github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/multimodal-live-api/intro_multimodal_live_api_genai_sdk.ipynb">
      <img width="32px" src="https://upload.wikimedia.org/wikipedia/commons/9/91/Octicons-mark-github.svg" alt="GitHub logo"><br> 在 GitHub 上檢視
    </a>
  </td>
</table>

<div style="clear: both;"></div>

<b>分享到：</b>

<a href="https://www.linkedin.com/sharing/share-offsite/?url=https%3A//github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/multimodal-live-api/intro_multimodal_live_api_genai_sdk.ipynb" target="_blank">
  <img width="20px" src="https://upload.wikimedia.org/wikipedia/commons/8/81/LinkedIn_icon.svg" alt="LinkedIn logo">
</a>

<a href="https://bsky.app/intent/compose?text=https%3A//github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/multimodal-live-api/intro_multimodal_live_api_genai_sdk.ipynb" target="_blank">
  <img width="20px" src="https://upload.wikimedia.org/wikipedia/commons/7/7a/Bluesky_Logo.svg" alt="Bluesky logo">
</a>

<a href="https://twitter.com/intent/tweet?url=https%3A//github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/multimodal-live-api/intro_multimodal_live_api_genai_sdk.ipynb" target="_blank">
  <img width="20px" src="https://upload.wikimedia.org/wikipedia/commons/5/53/X_logo_2023_original.svg" alt="X logo">
</a>

<a href="https://reddit.com/submit?url=https%3A//github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/multimodal-live-api/intro_multimodal_live_api_genai_sdk.ipynb" target="_blank">
  <img width="20px" src="https://redditinc.com/hubfs/Reddit%20Inc/Brand/Reddit_Logo.png" alt="Reddit logo">
</a>

<a href="https://www.facebook.com/sharer/sharer.php?u=https%3A//github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/multimodal-live-api/intro_multimodal_live_api_genai_sdk.ipynb" target="_blank">
  <img width="20px" src="https://upload.wikimedia.org/wikipedia/commons/5/51/Facebook_f_logo_%282019%29.svg" alt="Facebook logo">
</a>


| | |
|-|-|
| 作者 |  [Eric Dong](https://github.com/gericdong), [Holt Skinner](https://github.com/holtskinner) |

## 概述

Multimodal Live API 支援與 Gemini 進行低延遲的雙向語音和視訊互動。該 API 可以處理文字、音訊和視訊輸入，並提供文字和音訊輸出。本教學示範了以下簡單範例，以協助您開始使用 Vertex AI 中的 Google Gen AI SDK 來使用 Multimodal Live API。

- 文字生成文字
- 文字生成音訊
- 文字生成音訊對話
- 函式呼叫
- 程式碼執行
- Google 搜尋

如需更多詳細資訊，請參閱 [Multimodal Live API](https://cloud.google.com/vertex-ai/generative-ai/docs/model-reference/multimodal-live) 頁面。

## 快速入門

### Python 指令安裝 Google Gen AI SDK


In [19]:
%pip install --upgrade --quiet google-genai

Note: you may need to restart the kernel to use updated packages.


### 驗證你的 notebook 環境（Colab only）

如果您在 Google Colab 上執行此 notebook，請執行下方的程式碼來看當前的環境驗證狀態。

In [20]:
import sys

if "google.colab" in sys.modules:
    from google.colab import auth

    auth.authenticate_user()

### 匯入函式庫


In [None]:
import os

from IPython.display import Audio, Markdown, display
from google import genai
from google.genai.types import (
    FunctionDeclaration,
    GoogleSearch,
    LiveConnectConfig,
    PrebuiltVoiceConfig,
    SpeechConfig,
    Tool,
    ToolCodeExecution,
    VoiceConfig,
)
import numpy as np 

### 設定 Google Cloud 專案資訊並建立用戶端

若要開始使用 Vertex AI，你必須有一個已[啟用 Vertex AI API](https://console.cloud.google.com/flows/enableapi?apiid=aiplatform.googleapis.com)服務的 Google Cloud 專案。

更多關於請見[設定專案和開發環境](https://cloud.google.com/vertex-ai/docs/start/cloud-environment)。

In [None]:
PROJECT_ID = "[your-project-id]"  # @param {type: "string"}
if not PROJECT_ID or PROJECT_ID == "[your-project-id]":
    PROJECT_ID = str(os.environ.get("GOOGLE_CLOUD_PROJECT"))

LOCATION = os.environ.get("GOOGLE_CLOUD_REGION", "us-central1")

In [23]:
client = genai.Client(vertexai=True, project=PROJECT_ID, location=LOCATION)

### 使用 Gemini 2.0 Flash 模型

Multimodal Live API 是一項透過引入 [Gemini 2.0 Flash 模型](https://cloud.google.com/vertex-ai/generative-ai/docs/gemini-v2) 來使用的新功能。

In [24]:
MODEL_ID = "gemini-2.0-flash-exp"  # @param {type: "string"}

## 使用 Multimodal Live API

Multimodal Live API 是一個使用 [WebSockets](https://en.wikipedia.org/wiki/WebSocket) 的有狀態 API。本節展示了如何使用 Multimodal Live API 進行文字生成文字，和文字生成音訊的基本範例。

### **範例 1**：文字生成文字

傳送文字 prompt 會收到模型生成的文字訊息。

**注意事項**
- 會話（以下統一用原文`session`） 代表用戶端與伺服器之間的單一 WebSocket 連線。
- 一個 seesion 的設定中，包含了模型、生成參數、系統指示和工具。
  - `response_modalities` 接受 `TEXT` 或 `AUDIO`。
- 在 session 初始化後，這個 session 可以傳遞訊息和伺服器互動
  - 將文字、音訊或影片傳送到伺服器。
  - 伺服器會在接收到音訊、文字或函式呼叫後回應。
- 傳送訊息給伺服器時，將參數 `end_of_turn` 設定為 `True`，表示伺服器會以當前所累積 prompt 來生成內容。否則，伺服器會在開始生成前一直等待追加的訊息。

In [None]:
config = LiveConnectConfig(response_modalities=["TEXT"])

async with client.aio.live.connect(
    model=MODEL_ID,
    config=config,
) as session:
    text_input = "Hello? Gemini are you there?"
    display(Markdown(f"**Input:** {text_input}"))

    await session.send(input=text_input, end_of_turn=True)

    response = []

    async for message in session.receive():
        if message.text:
            response.append(message.text)

    display(Markdown(f"**Response >** {''.join(response)}"))

### **範例 2**：文字生成音訊

傳送文字 prompt 會收到模型生產的音訊。

**注意事項**
- Multimodal Live API 支援以下聲音種類：
  - Puck
  - Charon
  - Kore
  - Fenrir
  - Aoede
- 若要指定聲音，請在 `speech_config` 物件中設定 `voice_name`，作為 session 組態的一部分。


In [None]:
config = LiveConnectConfig(
    response_modalities=["AUDIO"],
    speech_config=SpeechConfig(
        voice_config=VoiceConfig(
            prebuilt_voice_config=PrebuiltVoiceConfig(
                voice_name="Aoede",
            )
        )
    ),
)

async with client.aio.live.connect(
    model=MODEL_ID,
    config=config,
) as session:
    text_input = "Hello? Gemini are you there?"
    display(Markdown(f"**Input:** {text_input}"))

    await session.send(input=text_input, end_of_turn=True)

    audio_data = []
    async for message in session.receive():
        if message.server_content.model_turn:
            parts = message.server_content.model_turn.parts
            if parts is not None: 
                for part in message.server_content.model_turn.parts:
                    if part.inline_data:
                        audio_data.append(
                            np.frombuffer(part.inline_data.data, dtype=np.int16)
                        )

    if audio_data:
        display(Audio(np.concatenate(audio_data), rate=24000, autoplay=True))

### **範例 3**：文字轉音訊對話

**步驟 1**：您使用 API 建立交談時，你可以使用傳送文字 prompts 並接收音訊回應。

**注意事項**

- 雖然模型會追會話中（in-session）的互動，但目前無法透過 API 存取明確的 session 記錄。當 session 終止時，當前的的內容會被刪除。

In [None]:
config = LiveConnectConfig(response_modalities=["AUDIO"])


async def main() -> None:
    async with client.aio.live.connect(model=MODEL_ID, config=config) as session:

        async def send() -> bool:
            text_input = input("輸入 > ")
            if text_input.lower() in ("q", "quit", "exit"):
                return False
            await session.send(input=text_input, end_of_turn=True)
            return True

        async def receive() -> None:

            audio_data = []

            async for message in session.receive():
                parts = message.server_content.model_turn.parts
                if parts is not None: 
                    if message.server_content.model_turn:
                        for part in message.server_content.model_turn.parts:
                            if part.inline_data:
                                audio_data.append(
                                    np.frombuffer(part.inline_data.data, dtype=np.int16)
                                )

                if message.server_content.turn_complete:
                    display(Markdown("**回應 >**"))
                    display(
                        Audio(np.concatenate(audio_data), rate=24000, autoplay=True)
                    )
                    break

            return

        while True:
            if not await send():
                break
            await receive()

**步驟 2** 執行聊天，輸入您的提示，或輸入 `q`、`quit` 或 `exit` 退出。


In [None]:
await main()

### **範例 4**：函式呼叫

您可以建立的描述後，使用函式呼叫（Function calling）將該描述傳送給模型。模型則會根據這個函式裡的名稱以及參數來使用它。

**注意事項**：

- 所有函式的宣告，必須在執行 session 將 tool 傳送前 定義。
- 目前 API 只支援一個 tool。

In [None]:
get_current_weather = FunctionDeclaration(
    name="get_current_weather",
    description="Get current weather in the given location",
    parameters={
        "type": "OBJECT",
        "properties": {
            "location": {
                "type": "STRING",
            },
        },
    },
)

config = LiveConnectConfig(
    response_modalities=["TEXT"],
    tools=[Tool(function_declarations=[get_current_weather])],
)

async with client.aio.live.connect(
    model=MODEL_ID,
    config=config,
) as session:
    text_input = "Get the current weather in Santa Clara, San Jose and Mountain View"
    display(Markdown(f"**Input:** {text_input}"))

    await session.send(input=text_input, end_of_turn=True)

    async for message in session.receive():
        if message.tool_call:
            for function_call in message.tool_call.function_calls:
                display(Markdown(f"**FunctionCall >** {str(function_call)}"))

### **範例 5**：程式碼執行

 你可以直接使用 API 中的程式碼執行（Code Execution）功能，直接生成 Python 程式碼並執行它。

 在此範例中，你在初始化程式碼執行工具時，是在 `Tool` 中使用 `code_execution`。並且將它和模型設定一起註冊給 session。

In [None]:
config = LiveConnectConfig(
    response_modalities=["TEXT"],
    tools=[Tool(code_execution=ToolCodeExecution())],
)

async with client.aio.live.connect(
    model=MODEL_ID,
    config=config,
) as session:
    text_input = "Write code to calculate the 15th fibonacci number then find the nearest palindrome to it"
    display(Markdown(f"**Input:** {text_input}"))

    await session.send(input=text_input, end_of_turn=True)

    response = []

    async for message in session.receive():
        if message.text:
            response.append(message.text)
        if message.server_content.model_turn.parts:
            for part in message.server_content.model_turn.parts:
                if part.executable_code:
                    display(
                        Markdown(
                            f"""
**Executable code:**
```py
{part.executable_code.code}
```
"""
                        )
                    )

    display(Markdown(f"**Response >** {''.join(response)}"))

### **範例 6**：Google 搜尋

`google_search` 工具可讓模型進行 Google 搜尋。例如，可以嘗試詢問它，近期還沒有被納入訓練資料中的事件。


In [None]:
config = LiveConnectConfig(
    response_modalities=["TEXT"],
    tools=[Tool(google_search=GoogleSearch())],
)

async with client.aio.live.connect(
    model=MODEL_ID,
    config=config,
) as session:
    text_input = (
        "Tell me about the largest earthquake in California the week of Dec 5 2024?"
    )
    display(Markdown(f"**Input:** {text_input}"))

    await session.send(input=text_input, end_of_turn=True)

    response = []

    async for message in session.receive():
        if message.text:
            response.append(message.text)

    display(Markdown(f"**Response >** {''.join(response)}"))

## 接下來

- 學習如何[建立 Web 應用程式，讓你可以使用聲音和相機，透過 Multimodal Live API 與 Gemini 2.0 對話。](https://github.com/GoogleCloudPlatform/generative-ai/tree/main/gemini/multimodal-live-api/websocket-demo-app)
- 參閱 [Multimodal Live API 參考文件](https://cloud.google.com/vertex-ai/generative-ai/docs/model-reference/multimodal-live)。
- 參閱 [Google Gen AI SDK 參考文件](https://googleapis.github.io/python-genai/)。
- 探索 [Google Cloud 產生式 AI GitHub 儲存庫](https://github.com/GoogleCloudPlatform/generative-ai) 中的其他 notebook。