<a href="https://colab.research.google.com/github/aten2001/20F-6476/blob/master/gemini-2/live_api_starter.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

##### Copyright 2024 Google LLC.

In [1]:
#@title Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
# https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# Multimodal Live API - Quickstart

<table align="left">
  <td>
    <a target="_blank" href="https://colab.research.google.com/github/google-gemini/cookbook/blob/main/gemini-2/live_api_starter.ipynb"><img src="https://ai.google.dev/site-assets/images/docs/colab_logo_32px.png" />Run in Google Colab</a>
  </td>
</table>

This notebook demonstrates simple usage of the Gemini 2.0 Multimodal Live API. For an overview of new capabilities refer to the [Gemini 2.0 docs](https://ai.google.dev/gemini-api/docs/models/gemini-v2).


This notebook implements a simple turn-based chat where you send messages as text, and the model replies with audio. The API is capable of much more than that. The goal here is to demonstrate with **simple code**.

If you aren't looking for code, and just want to try multimedia streaming use [Live API in Google AI Studio](https://aistudio.google.com/app/live).

The [Next steps](#next_steps) section at the end of this tutorial provides links to additional resources.


此笔记本演示了 Gemini 2.0 多模态实时 API 的简单用法。有关新功能的概述，请参阅 [Gemini 2.0 文档](https://ai.google.dev/gemini-api/docs/models/gemini-v2)。


此笔记本实现了一个简单的基于回合的聊天功能，您以文本形式发送消息，模型以音频形式回复。该 API 的功能远不止于此。此处的目标是通过**简单代码**进行演示。

如果您不需要代码，只是想尝试多媒体流式功能，请使用 [Google AI Studio 中的实时 API](https://aistudio.google.com/app/live)。

在本教程结尾的 [下一步](#next_steps) 部分提供了更多资源的链接。

<font color=red>详细解释Gemini 2.0 多模态实时 API 都能干什么</font>


<details>

### **Gemini 2.0 多模态实时 API 的功能详细解释**

Google 的 **Gemini 2.0 多模态实时 API** 是一套强大的生成式 AI 工具，能够处理和生成不同类型的数据模态（文本、音频、图像等），并支持实时交互。这种多模态能力使其成为多种复杂任务的核心技术支持。

以下是 Gemini 2.0 多模态实时 API 的主要功能及其应用场景的详细解释：

---

### **1. 多模态处理能力**
**多模态**是指处理多种形式的数据（例如文本、语音、图像、视频等），并实现模态间的转化或融合。Gemini 2.0 能够：
- 接收不同模态的输入（例如文本、语音、图片）。
- 在生成时切换模态（例如将文本生成语音、生成图像等）。
- 通过融合不同模态的数据，更好地理解上下文并提供更智能的结果。

---

#### **2. 实时交互**
<font color=yellow>Gemini 2.0 支持**实时 API**，可以快速响应用户的输入，实现实时反馈。这种能力特别适合以下场景：
- **实时对话**：用户发送文本消息，模型立即生成回复。
- **实时语音输出**：模型可以根据用户输入生成语音结果，例如为聊天提供语音回答。
- **流式生成**：支持逐步返回结果，而不是等所有内容生成完毕后一次性输出，适用于低延迟任务。

---

### **3. 支持的主要任务**

#### **(1) 文本生成**
Gemini 2.0 可以生成高质量的文本内容，适用于以下任务：
- **问答系统**：根据用户提问提供精确、上下文相关的回答。
- **内容创作**：生成长篇文章、故事、摘要或代码。
- **翻译**：支持跨语言的高精度翻译。
- **多轮对话**：支持基于上下文的多轮聊天，理解并记住对话历史。

---

#### **(2) 音频生成**
Gemini 2.0 支持将文本转换为语音（TTS, Text-to-Speech），生成语音文件或流式音频输出：
- **实时语音回复**：将模型生成的文本以语音形式返回，适合语音助手或多模态对话系统。
- **情感化语音生成**：在生成的语音中融入情感（如兴奋、冷静等），提升交互体验。

---

#### **(3) 图像生成**
API 支持根据文本描述生成图像，或在已有图像上进行修改：
- **从文本生成图像（Text-to-Image）**：用户输入文本描述（如“一个在草原上奔跑的金色小狗”），模型生成对应的图片。
- **图像编辑**：在现有图像上修改部分内容，例如改变颜色、添加新元素等。
- **跨模态生成**：结合文本和图像输入生成更符合上下文的内容。

---

#### **(4) 多模态理解**
Gemini 2.0 不仅可以生成内容，还能理解多模态输入，并基于理解生成响应：
- **图像描述生成**：从图像中提取内容，并生成描述性文字。
- **语音转文字（Speech-to-Text, STT）**：将用户语音输入转化为文字。
- **模态结合**：例如，通过图像和文字输入生成语音，或通过语音和文本提供交互式解释。

---

### **4. 特性与优势**

#### **(1) 实时性**
- **低延迟**：支持实时交互，适合对延迟要求高的场景（如客服、语音助手）。
- **流式响应**：支持逐步输出内容，让用户在等待时也能获得部分结果。

#### **(2) 跨模态任务**
- 能够跨越文本、图像和语音模态进行生成与理解。例如：
  - 输入文本：生成图像和音频。
  - 输入图像：生成描述文本。
  - 输入语音：生成对应的文本或图像。

#### **(3) 高精度**
- 模型经过大量数据训练，具备对复杂语义、情感和多模态输入的高精度理解能力。

#### **(4) 高可定制性**
- 可针对特定任务进行定制，例如为特定行业（如医疗、教育）优化生成内容。
- 提供实验性功能（如 `flash-thinking-exp`），适合逻辑复杂或多轮推理任务。

---

### **5. 实际应用场景**

#### **(1) 聊天机器人**
- **文本+语音**：用户输入文字，模型回复语音，或反之。
- **多轮对话**：通过上下文理解，提供连贯的多轮聊天功能。
- **情感化语音**：生成带有情感的语音回答（如兴奋、温和）。

#### **(2) 智能客服**
- **语音客服**：接受用户语音问题，并实时生成语音回答。
- **模态融合**：通过图片或视频输入解析问题，如上传发票图片生成对应解释。

#### **(3) 多模态教育**
- 生成交互式学习内容：
  - 从文字生成教学视频或音频。
  - 从图像生成解释性文字（如解读科学实验图）。
  - 创建图文并茂的互动式内容。

#### **(4) 内容创作**
- **视频配音**：为视频生成语音旁白。
- **广告创作**：结合图像和文字，快速生成创意内容。
- **翻译与配音**：为跨语言内容生成翻译文本和对应语音。

#### **(5) 辅助工具**
- **多语言实时翻译**：支持语音到语音或文本到文本的翻译。
- **图像辅助分析**：解析图像内容并生成说明。
- **医疗场景**：从医学影像生成分析报告。

---

### **6. 技术支持**

- **模型版本优化**：提供多个优化版本（如 `flash-exp` 专注于实时性，`thinking-exp` 专注于逻辑推理）。
- **流式 API**：支持按需获取数据流，减少延迟。
- **跨模态对齐**：通过高精度的模态对齐技术，提升跨模态任务的准确性。

---

### **7. API 的使用示例**

#### **示例 1：文本生成语音**
```python
import google.generativeai as genai

# 配置 API
genai.configure(api_key="YOUR_API_KEY")

# 输入文本
text_input = "What is the capital of France?"

# 使用 API 生成语音
response = genai.generate_audio(
    text=text_input,
    model="models/gemini-2.0",
    voice="standard_female"
)

# 保存生成的语音文件
with open("output_audio.wav", "wb") as f:
    f.write(response.audio)
```

---

#### **示例 2：从文本生成图像**
```python
# 输入文本描述
text_input = "A golden retriever puppy playing in the grass."

# 使用 API 生成图像
response = genai.generate_image(
    text=text_input,
    model="models/gemini-2.0"
)

# 保存生成的图像
with open("output_image.png", "wb") as f:
    f.write(response.image)
```

---

#### **示例 3：模态结合任务**
```python
# 从图像生成描述性文字
response = genai.describe_image(
    image="input_image.png",
    model="models/gemini-2.0"
)

print(response.description)
```

---

### **总结**

Gemini 2.0 多模态实时 API 是一个强大的生成式 AI 工具，能够处理文本、语音、图像等多种模态，并支持跨模态任务和实时交互。它的应用范围非常广泛，适合聊天机器人、智能客服、多模态教育、内容创作等场景。通过其高精度、低延迟和灵活的特性，开发者可以实现多种创新应用。

## Setup

### Install SDK

The new **[Google Gen AI SDK](https://ai.google.dev/gemini-api/docs/sdks)** provides programmatic access to Gemini 2.0 (and previous models) using both the [Google AI for Developers](https://ai.google.dev/gemini-api/docs) and [Vertex AI](https://cloud.google.com/vertex-ai/generative-ai/docs/overview) APIs. With a few exceptions, code that runs on one platform will run on both.

More details about this new SDK on the [documentation](https://ai.google.dev/gemini-api/docs/sdks) or in the [Getting started](../gemini-2/get_started.ipynb) notebook.

In [2]:
!pip install -U -q google-genai

### Set up your API key

To run the following cell, your API key must be stored in a Colab Secret named `GOOGLE_API_KEY`. If you don't already have an API key, or you're not sure how to create a Colab Secret, see [Authentication](../quickstarts/Authentication.ipynb) for an example.

In [3]:
from google.colab import userdata
import os

os.environ['GOOGLE_API_KEY'] = userdata.get('GEMINI_API_KEY')

### Initialize SDK client

The client will pick up your API key from the environment variable.
To use the live API you need to set the client version to `v1alpha`.

### 初始化 SDK 客户端

客户端将从环境变量中获取您的 API 密钥。  
要使用实时 API，您需要将客户端版本设置为 `v1alpha`。

In [4]:
from google import genai
client = genai.Client(http_options= {'api_version': 'v1alpha'})

### Select a model

Multimodal Live API are a new capability introduced with the [Gemini 2.0](https://ai.google.dev/gemini-api/docs/models/gemini-v2) model. It won't work with previous generation models.


In [5]:
MODEL = "gemini-2.0-flash-exp"

### Import

Import all the necessary modules.

In [6]:
import asyncio
import base64
import contextlib
import datetime
import os
import json
import wave
import itertools

from IPython.display import display, Audio

from google import genai
from google.genai import types

async def async_enumerate(it):
  n = 0
  async for item in it:
    yield n, item
    n +=1

<font color=red>逐行详细解释上面代码</font>

<details>


### 逐行详细解释代码

---

#### **1. 引入必要的模块**

```python
import asyncio
import base64
import contextlib
import datetime
import os
import json
import wave
import itertools
```

这段代码引入了一些标准库模块，每个模块的功能如下：

- **`asyncio`**：支持 Python 的异步编程，允许定义异步任务并在事件循环中运行。主要用于处理异步 I/O 操作，例如实时数据流处理。
- **`base64`**：用于处理 Base64 编码和解码，常用于处理二进制数据（如音频或图像）与文本之间的转换。
- **`contextlib`**：提供上下文管理器工具，允许更简洁地管理资源（如文件、网络连接等）。
- **`datetime`**：处理日期和时间，用于生成时间戳或格式化时间。
- **`os`**：与操作系统交互，例如获取环境变量、管理文件路径等。
- **`json`**：处理 JSON 格式数据（序列化与反序列化），常用于与外部服务或 API 交互。
- **`wave`**：用于处理 WAV 音频文件，支持音频文件的读写操作。
- **`itertools`**：提供用于高效操作迭代器的工具，例如迭代器的组合、切片等。

---

#### **2. 引入外部依赖模块**

```python
from IPython.display import display, Audio
```

- **`IPython.display.display`**：
  - 用于在 Jupyter Notebook 中显示输出内容。
  - 这里的 `display` 可能用于在 Notebook 中展示音频或其他多媒体内容。
- **`IPython.display.Audio`**：
  - 用于在 Jupyter Notebook 中播放音频。
  - 支持直接传入音频文件或音频数据流并在 Notebook 界面中播放。

---

#### **3. 引入 Google 的 Gemini SDK 模块**

```python
from google import genai
from google.genai import types
```

- **`genai`**：
  - 引入 Google Generative AI 的 SDK 主模块。
  - 通过此模块可以调用 Google 的生成式 AI 服务（例如文本生成、嵌入生成、多模态处理等）。
- **`genai.types`**：
  - 引入 `types`，用于定义 API 请求或响应的类型。例如，用于指定多模态任务的输入类型（文本、图像等）。

---

#### **4. 定义一个异步辅助函数**

```python
async def async_enumerate(it):
  n = 0
  async for item in it:
    yield n, item
    n +=1
```

这个函数是对 Python 内置的 `enumerate` 函数的异步版本。它允许对异步迭代器进行编号（类似于为列表中的元素加上索引）。以下是逐行解析：

1. **`async def async_enumerate(it):`**
   - 定义一个异步函数 `async_enumerate`，接受一个异步迭代器 `it` 作为参数。
   - 异步函数以 `async def` 声明，可以在事件循环中运行。

2. **`n = 0`**
   - 初始化计数器 `n`，用于跟踪当前元素的索引。

3. **`async for item in it:`**
   - 通过 `async for` 遍历异步迭代器 `it` 中的每个元素。
   - 与普通的 `for` 循环不同，`async for` 是用于异步迭代器的迭代方式。

4. **`yield n, item`**
   - 使用 `yield` 将当前的索引 `n` 和元素 `item` 作为一个元组返回。
   - 在调用 `async_enumerate` 时，可以逐步获取 `(索引, 元素)`。

5. **`n += 1`**
   - 遍历到下一个元素时，将计数器 `n` 增加 1。

---

### **完整功能解释**

#### **代码作用**

- **模块引入部分**：引入必要的模块和工具，为后续处理异步任务、多模态数据（如音频）和 API 交互奠定基础。
- **异步辅助函数**：
  - 提供了一种对异步迭代器进行索引的方法。
  - 可以用在流式数据处理中，比如处理生成式 AI 的实时数据流（如音频流或文本流）。

#### **示例应用场景**
假设我们有一个异步生成器，输出某些流式数据（如文本块或音频帧），我们可以使用 `async_enumerate` 来对这些数据进行编号和处理。例如：

```python
async def stream_example():
    async for index, data in async_enumerate(async_data_stream()):
        print(f"Item {index}: {data}")
```

在这个例子中：
- `async_data_stream()` 是一个异步生成器，返回流式数据。
- `async_enumerate` 给每个数据块加上编号，同时对其进行逐步处理。

#### **为什么需要异步操作？**
- 异步操作允许代码同时处理多个任务（例如等待网络响应的同时执行其他任务），提升性能和效率。
- 在流式生成的场景下（如实时语音转文字、多模态生成），异步操作是关键技术。

---

### **总结**
这段代码的主要目的是引入必要的模块和工具，为实现多模态生成任务（如文本生成音频、流式生成等）做准备，同时定义了一个 `async_enumerate` 辅助函数，用于对异步数据流进行编号。这种功能在处理生成式 AI 的实时数据时非常有用。

<font color=red>用文字和举例详细解释异步函数</font>

<details>


想象你正在一家餐厅做服务员。在传统的同步工作方式下，你需要完成这样的流程：接待顾客A -> 带位A -> 点餐A -> 等待厨房做菜A -> 上菜A -> 接待顾客B...这种方式下，你必须等待每一个步骤完成才能开始下一个任务。

而异步工作方式就像这样：你可以在等待厨房准备顾客A的菜品时，去接待顾客B，给顾客C点餐。当厨房通知你顾客A的菜品准备好了，你再去给顾客A上菜。这样的工作方式显然更加高效。

让我们用代码来理解这个概念：

```python
import asyncio

# 传统的同步函数
def sync_cook_dish():
    print("开始烹饪...")
    time.sleep(3)  # 烹饪需要3秒
    print("菜品完成")

# 异步函数
async def cook_dish(dish_name):
    print(f"开始烹饪{dish_name}...")
    await asyncio.sleep(3)  # 异步等待3秒
    print(f"{dish_name}完成")
    return f"{dish_name}已完成"

# 模拟餐厅服务流程
async def restaurant_service():
    print("餐厅开始营业")
    
    # 同时处理多个订单
    results = await asyncio.gather(
        cook_dish("红烧肉"),
        cook_dish("清蒸鱼"),
        cook_dish("炒青菜")
    )
    
    print("所有菜品都已完成:", results)
```

这里的关键概念是：

1. async/await机制：
当我们定义一个异步函数时，使用"async def"来声明。在函数内部，使用"await"来等待其他异步操作完成。这就像服务员说"这个任务暂时不需要我盯着，我先去做别的事，等它完成了通知我"。

```python
async def take_order():
    print("开始点餐")
    await asyncio.sleep(2)  # 模拟点餐过程
    print("点餐完成")
```

2. 事件循环：
异步程序背后有一个事件循环在协调所有任务。它就像餐厅的管理者，负责分配和协调所有工作。

```python
# 运行异步程序
asyncio.run(restaurant_service())
```

3. 错误处理：
异步函数中的错误处理也需要特别注意：

```python
async def handle_order():
    try:
        await cook_dish("特殊菜品")
    except Exception as e:
        print(f"处理订单时发生错误: {e}")
        # 可以进行补救措施
        await cook_dish("替代菜品")
```

异步函数特别适合这些场景：
- 需要等待外部响应的操作（比如网络请求）
- 多任务并行处理（比如同时处理多个用户请求）
- I/O密集型任务（比如文件读写）

要注意的重要事项：
1. 异步函数只在等待I/O操作时才会切换到其他任务
2. 计算密集型的任务（比如复杂计算）不适合用异步处理
3. 异步函数内部的普通函数调用仍然是同步的
4. 异步函数必须由其他异步函数调用，或通过事件循环运行

实际应用示例：

```python
async def fetch_user_data(user_id):
    print(f"获取用户{user_id}的数据")
    await asyncio.sleep(1)  # 模拟网络请求
    return f"用户{user_id}的数据"

async def process_users():
    # 并行处理多个用户数据
    user_data = await asyncio.gather(
        fetch_user_data(1),
        fetch_user_data(2),
        fetch_user_data(3)
    )
    print("所有用户数据处理完成:", user_data)
```

这种异步编程模式让我们能够更好地利用系统资源，提高程序的响应性和效率。就像餐厅服务员能够同时服务多桌客人，而不是被单一任务所束缚，异步函数让程序能够在等待某个操作完成时继续处理其他任务。

## Text to Text

The simplest way to use the Live API is as a text-to-text chat interface, but it can do **a lot** more than this.

In [7]:
config={
    "generation_config": {"response_modalities": ["TEXT"]}}

async with client.aio.live.connect(model=MODEL, config=config) as session:
  message = "Hello? Gemini are you there?"
  print("> ", message, "\n")
  await session.send(message, end_of_turn=True)

  # For text responses, When the model's turn is complete it breaks out of the loop.
  turn = session.receive()
  async for chunk in turn:
    if chunk.text is not None:
      print(f'- {chunk.text}')

>  Hello? Gemini are you there? 

- Yes, I'
- m here! How can I help you today?



<font color=red>逐行详细解释上面代码</font>

<details>

### 逐行详细解释代码

这段代码展示了如何通过异步方式与 Gemini 多模态 API 进行交互。以下是逐行详细解析：

---

### **1. 配置生成模式**

```python
config = {
    "generation_config": {"response_modalities": ["TEXT"]}
}
```

- **`config`**：
  - 定义了模型的生成配置，传递给 Gemini API 客户端。
  - 其中的 `generation_config` 指定了模型的响应类型。

- **`response_modalities`**：
  - 指定模型的响应模态，此处设置为 `["TEXT"]`，表示只返回文本响应。
  - 可扩展为多模态（例如 `["TEXT", "AUDIO", "IMAGE"]`），让模型在多模态任务中生成其他类型的内容（如语音或图像）。

---

### **2. 启动异步会话**

```python
async with client.aio.live.connect(model=MODEL, config=config) as session:
```

- **`async with`**：
  - 异步上下文管理器，用于确保资源在会话结束后被正确释放（如关闭连接）。
  - 这里启动了与 Gemini 实时 API 的异步连接。

- **`client.aio.live.connect`**：
  - 创建一个实时连接，用于与 Gemini 模型进行交互。
  - 参数：
    - **`model=MODEL`**：指定使用的模型，例如 `gemini-2.0`。
    - **`config=config`**：传递生成配置（前面定义的 `config`），决定模型如何生成内容。

- **`session`**：
  - 表示实时会话对象，允许在会话中发送和接收消息。

---

### **3. 发送用户消息**

```python
message = "Hello? Gemini are you there?"
print("> ", message, "\n")
await session.send(message, end_of_turn=True)
```

- **`message`**：
  - 定义用户的输入消息，内容为 "Hello? Gemini are you there?"。
  - 这是用户向 Gemini 模型发起的对话请求。

- **`print("> ", message, "\n")`**：
  - 在控制台打印用户消息，格式为：`> Hello? Gemini are you there?`，用于跟踪消息发送。

- **`await session.send(message, end_of_turn=True)`**：
  - 异步发送消息到会话中，交给模型处理。
  - 参数：
    - **`message`**：用户输入的文本。
    - **`end_of_turn=True`**：指示消息发送完成（即用户的当前回合结束），模型可以开始生成回复。

---

### **4. 接收模型的回复**

```python
turn = session.receive()
```

- **`turn = session.receive()`**：
  - 调用会话的 `receive` 方法，启动接收模型响应的流程。
  - `turn` 是一个异步迭代器，模型的响应将以“数据块（chunk）”的形式逐步返回。

---

### **5. 异步处理模型的响应**

```python
async for chunk in turn:
```

- **`async for`**：
  - 用于遍历异步迭代器 `turn` 中返回的响应块。
  - 模型的响应（例如文本）可能是逐步生成的，`async for` 用于实时处理每个块。

---

### **6. 检查并处理文本块**

```python
if chunk.text is not None:
  print(f'- {chunk.text}')
```

- **`chunk.text`**：
  - 检查当前数据块是否包含文本内容。
  - 如果 `chunk.text` 不为空，说明这是模型生成的文本响应。

- **`print(f'- {chunk.text}')`**：
  - 将当前块的文本打印到控制台，格式为 `- 响应内容`，每块内容独占一行。
  - 如果模型生成的是逐步输出的长文本，每次循环会打印一部分内容。

---

### **完整流程解析**

这段代码的完整功能是通过异步会话与 Gemini 2.0 模型进行交互，以下是具体的流程：
1. **设置生成配置**：
   - 配置模型响应为仅生成文本（`response_modalities=["TEXT"]`）。
2. **启动实时连接**：
   - 使用 `client.aio.live.connect` 创建异步会话。
   - 使用指定模型和配置。
3. **发送用户消息**：
   - 将用户输入的文本消息发送给模型。
   - 标志当前回合已结束，模型可以开始生成回复。
4. **接收并处理回复**：
   - 异步接收模型的回复。
   - 模型可能逐步返回数据块，代码通过异步循环逐一处理数据块。
   - 每个包含文本的块会被打印到控制台。

---

### **运行示例**

假设模型的回复是 `"Yes, I am here! How can I help you today?"`，由于可能逐块返回，代码的输出可能如下：

```plaintext
> Hello? Gemini are you there?

- Yes, I am here!
- How can I help you today?
```

---

### **主要功能亮点**

1. **异步通信**：
   - 使用异步方法确保实时处理消息，适合处理流式生成的场景。
2. **实时生成**：
   - 模型支持逐块生成响应，可以实时展示给用户。
3. **多模态支持**：
   - 尽管当前代码只展示了文本响应（`response_modalities=["TEXT"]`），但配置可以扩展为支持语音、图像等其他模态。

---

### **适用场景**
1. **实时对话系统**：
   - 用户输入消息，模型快速生成逐步回复，实现即时对话。
2. **文本生成流式输出**：
   - 适合需要逐步展示生成内容的场景，例如生成长文本或文章。
3. **多模态扩展**：
   - 可以将响应模态扩展为图像或音频，用于更复杂的交互任务。

---

### **总结**

这段代码展示了如何通过异步会话与 Gemini 2.0 实现实时交互，包括发送用户消息、接收模型逐步生成的文本回复，并实时展示在控制台上。其强大的异步和流式生成能力使其适合实时对话和多模态生成任务。

<font color=red>用文字和举例详细解释异步迭代器</font>

<details>

### **什么是异步迭代器？**

#### **定义**
异步迭代器（asynchronous iterator）是 Python 的一种迭代器，它可以用来处理异步操作的数据流。在普通的迭代器中，元素是逐个同步产生的；而在异步迭代器中，元素是通过异步操作逐个产生的。它允许在处理数据时等待异步任务完成（例如等待网络请求、文件读取等），而不会阻塞程序。

---

### **异步迭代器与普通迭代器的区别**

1. **普通迭代器**：
   - 使用 `__iter__()` 和 `__next__()` 方法。
   - 逐个同步返回元素，所有操作是阻塞的。

2. **异步迭代器**：
   - 使用 `__aiter__()` 和 `__anext__()` 方法。
   - 每个元素的生成可能需要执行异步任务，因此 `__anext__()` 是异步方法，必须使用 `await` 来获取结果。

---

### **异步迭代器的规则**

1. **定义异步迭代器**：
   - 必须实现 `__aiter__()` 和 `__anext__()` 方法。
   - **`__aiter__()`**：返回异步迭代器本身。
   - **`__anext__()`**：返回一个 `awaitable` 对象，用于异步地生成下一个值。

2. **使用异步迭代器**：
   - 通过 `async for` 来消费异步迭代器。
   - 每次迭代都会等待 `__anext__()` 异步返回值。

---

### **普通迭代器 vs 异步迭代器示例**

#### **普通迭代器示例**
```python
class SimpleIterator:
    def __init__(self, limit):
        self.limit = limit
        self.counter = 0

    def __iter__(self):
        return self

    def __next__(self):
        if self.counter < self.limit:
            self.counter += 1
            return self.counter
        else:
            raise StopIteration

# 使用普通迭代器
for value in SimpleIterator(3):
    print(value)
```

**输出**：
```plaintext
1
2
3
```

#### **异步迭代器示例**
```python
import asyncio

class AsyncIterator:
    def __init__(self, limit):
        self.limit = limit
        self.counter = 0

    def __aiter__(self):
        return self

    async def __anext__(self):
        if self.counter < self.limit:
            self.counter += 1
            await asyncio.sleep(1)  # 模拟异步操作
            return self.counter
        else:
            raise StopAsyncIteration

# 使用异步迭代器
async def main():
    async for value in AsyncIterator(3):
        print(value)

asyncio.run(main())
```

**输出**：
```plaintext
1
（等待1秒）
2
（等待1秒）
3
```

---

### **异步迭代器的应用场景**

#### **1. 处理流式数据**
异步迭代器可以处理动态产生的数据流，例如实时数据源、网络流、文件流等。例如：
- **实时网络请求**：从服务器端获取流式响应。
- **流式文件读取**：按行读取大文件，防止占用过多内存。

#### **2. 高效的异步操作**
在某些场景下，操作可能涉及耗时的异步任务（例如数据库查询），异步迭代器可以让程序在等待结果时继续执行其他任务，提高效率。

---

### **详细示例与解释**

#### **示例 1：异步迭代器模拟 API 数据流**
假设我们有一个 API 提供逐条返回的数据，我们可以通过异步迭代器来处理这些流式数据。

```python
import asyncio

class MockAPI:
    def __init__(self, data):
        self.data = data
        self.index = 0

    def __aiter__(self):
        return self

    async def __anext__(self):
        if self.index < len(self.data):
            await asyncio.sleep(1)  # 模拟 API 请求的延迟
            result = self.data[self.index]
            self.index += 1
            return result
        else:
            raise StopAsyncIteration

# 异步函数用于消费异步迭代器
async def main():
    data_stream = MockAPI(["data1", "data2", "data3"])  # 模拟数据流
    async for item in data_stream:
        print(f"Received: {item}")

asyncio.run(main())
```

**输出**：
```plaintext
Received: data1
（等待1秒）
Received: data2
（等待1秒）
Received: data3
```

#### **解释**：
1. **`MockAPI` 类**：
   - 实现了 `__aiter__()` 和 `__anext__()`，成为异步迭代器。
   - 每次调用 `__anext__()` 都会等待 1 秒（模拟 API 延迟）并返回数据。

2. **`async for`**：
   - 用于逐步消费异步迭代器。
   - 每次迭代都等待 `__anext__()` 返回结果。

3. **流式数据处理**：
   - 通过异步迭代器，可以逐步处理从 API 接收到的数据，而不需要一次性加载所有数据。

---

#### **示例 2：处理异步文件读取**
异步迭代器可以用来处理大文件，每次读取一行，防止内存占用过高。

```python
import asyncio
import aiofiles  # 用于异步文件操作

class AsyncFileReader:
    def __init__(self, filename):
        self.filename = filename

    async def __aiter__(self):
        self.file = await aiofiles.open(self.filename, mode='r')  # 异步打开文件
        return self

    async def __anext__(self):
        line = await self.file.readline()  # 异步读取一行
        if line:
            return line.strip()
        else:
            await self.file.close()  # 异步关闭文件
            raise StopAsyncIteration

# 异步函数用于消费异步文件迭代器
async def main():
    async for line in AsyncFileReader("example.txt"):
        print(f"Line: {line}")

# 创建示例文件
with open("example.txt", "w") as f:
    f.write("Line 1\nLine 2\nLine 3\n")

asyncio.run(main())
```

**输出**：
```plaintext
Line: Line 1
Line: Line 2
Line: Line 3
```

#### **解释**：
1. **`AsyncFileReader` 类**：
   - 使用 `aiofiles` 提供异步文件操作。
   - 每次调用 `__anext__()` 异步读取一行内容。

2. **按需读取**：
   - 文件逐行读取，不会一次性加载整个文件，适合处理大型文件。

3. **自动资源管理**：
   - 在文件读取完成后，`__anext__()` 会自动关闭文件。

---

### **异步迭代器与 `async for` 的协作**

- **异步迭代器**：
  - 提供异步数据流。
  - `async for` 用于逐步获取数据流的内容。

- **典型协作机制**：
  - 异步迭代器通过 `__anext__()` 提供数据。
  - 每次 `async for` 循环会等待 `__anext__()` 返回的结果。

---

### **异步迭代器的优势**

1. **节省资源**：
   - 异步迭代器按需生成数据，减少内存占用。
   
2. **高效处理异步任务**：
   - 在等待任务完成时，事件循环可以处理其他任务，提高并发能力。

3. **适合流式数据**：
   - 特别适合逐步获取数据的场景，例如 API 响应流、文件读取流等。

---

### **总结**

- **异步迭代器**是用于处理异步任务和流式数据的强大工具。
- 它允许程序在等待数据生成时高效地执行其他任务。
- 通过 `async for` 循环，可以逐步消费异步迭代器返回的数据，适用于高并发、流式数据处理的场景。



## Simple text to audio

# <a name='看到这里'><font color=yellow>看到这里</a>

*The* simplest way to playback the audio in Colab, is to write it out to a `.wav` file. So here is a simple wave file writer:

*在* Colab 中播放音频的最简单方法是将其写入一个 `.wav` 文件。以下是一个简单的 WAV 文件写入器：

In [10]:
@contextlib.contextmanager
def wave_file(filename, channels=1, rate=24000, sample_width=2):
    with wave.open(filename, "wb") as wf:
        wf.setnchannels(channels)
        wf.setsampwidth(sample_width)
        wf.setframerate(rate)
        yield wf

The next step is to tell the model to return audio by setting `"response_modalities": ["AUDIO"]` in the `GenerationConfig`.  

When you get a response from the model, then you write out the data to a `.wav` file.

In [11]:
config={
    "generation_config": {"response_modalities": ["AUDIO"]}}



async with client.aio.live.connect(model=MODEL, config=config) as session:
  file_name = 'audio.wav'
  with wave_file(file_name) as wav:
    message = "Hello? Gemini are you there?"
    print("> ", message, "\n")
    await session.send(message, end_of_turn=True)

    turn = session.receive()
    async for n,response in async_enumerate(turn):
      if response.data is not None:
        wav.writeframes(response.data)

        if n==0:
          print(response.server_content.model_turn.parts[0].inline_data.mime_type)
        print('.', end='')


display(Audio(file_name, autoplay=True))


>  Hello? Gemini are you there? 

audio/pcm;rate=24000
.............

## Towards Async Tasks


The real power of the Live API is that it's real time, and interruptable. You can't get that full power in a simple sequence of steps. To really use the functionality you will move the `send` and `recieve` operations (and others) into their own [async tasks](https://docs.python.org/3/library/asyncio-task.html).

Because of the limitations of Colab this tutorial doesn't totally implement the interactive async tasks, but it does implement the next step in that direction:

- It separates the `send` and `receive`, but still runs them sequentially.  
- In the next tutorial you'll run these in separate `async` tasks.


Setup a quick logger to make debugging easier (switch to `setLevel('DEBUG')` to see debugging messages).

In [None]:
import logging

logger = logging.getLogger('Live')
logger.setLevel('INFO')

The class below implements the interaction with the Live API.

In [None]:
class AudioLoop:
  def __init__(self, turns=None,  config=None):
    self.session = None
    self.index = 0
    self.turns = turns
    if config is None:
      config={
          "generation_config": {
              "response_modalities": ["AUDIO"]}}
    self.config = config

  async def run(self):
    logger.debug('connect')
    async with client.aio.live.connect(model=MODEL, config=self.config) as session:
      self.session = session

      async for sent in self.send():
        # Ideally send and recv would be separate tasks.
        await self.recv()

  async def _iter(self):
    if self.turns:
      for text in self.turns:
        print("message >", text)
        yield text
    else:
      print("Type 'q' to quit")
      while True:
        text = await asyncio.to_thread(input, "message > ")

        # If the input returns 'q' quit.
        if text.lower() == 'q':
          break

        yield text

  async def send(self):
    async for text in self._iter():
      logger.debug('send')

      # Send the message to the model.
      await self.session.send(text, end_of_turn=True)
      logger.debug('sent')
      yield text

  async def recv(self):
    # Start a new `.wav` file.
    file_name = f"audio_{self.index}.wav"
    with wave_file(file_name) as wav:
      self.index += 1

      logger.debug('receive')

      # Read chunks from the socket.
      turn = self.session.receive()
      async for n, response in async_enumerate(turn):
        logger.debug(f'got chunk: {str(response)}')

        if response.data is None:
          logger.debug(f'Unhandled server message! - {response}')
        else:
          wav.writeframes(response.data)
          if n == 0:
            print(response.server_content.model_turn.parts[0].inline_data.mime_type)
          print('.', end='')

      print('\n<Turn complete>')

    display(Audio(file_name, autoplay=True))
    await asyncio.sleep(2)


There are 3 methods worth describing here:

**`run` - The main loop**

This method:

- Opens a `websocket` connecting to the Live API.
- Calls the initial `setup` method.
- Then enters the main loop where it alternates between `send` and `recv` until send returns `False`.
- The next tutorial will demonstrate how to stream media and run these asynchronously.

**`send` - Sends input text to the api**

The `send` method collects input text from the user, wraps it in a `client_content` message (an instance of `BidiGenerateContentClientContent`), and sends it to the model.

If the user sends a `q` this method returns `False` to signal that it's time to quit.

**`recv` - Collects audio from the API and plays it**

The `recv` method collects audio chunks in a loop and writes them to a `.wav` file. It breaks out of the loop once the model sends a `turn_complete` method, and then plays the audio.

To keep things simple in Colab it collects **all** the audio before playing it. [Other examples](#next_steps) demonstrate how to play audio as soon as you start to receive it (using `PyAudio`), and how to interrupt the model (implement input and audio playback on separate tasks).

### Run

Run it:


In [None]:
await AudioLoop(['Hello', "What's your name?"]).run()

message > Hello
audio/pcm;rate=24000
.......
<Turn complete>


message > What's your name?
audio/pcm;rate=24000
.................
<Turn complete>


## Next steps

<a name="next_steps"></a>

This tutorial just shows basic usage of the Live API, using the Python GenAI SDK.

- If you aren't looking for code, and just want to try multimedia streaming use [Live API in Google AI Studio](https://aistudio.google.com/app/live).
- If you want to see how to setup streaming interruptible audio and video using the Live API see the [Audio and Video input Tutorial](../gemini-2/live_api_starter.py).
- If you're interested in the low level details of using the websockets directly, see the [websocket version of this tutorial](../gemini-2/websockets/live_api_starter.ipynb).
- Try the [Tool use in the live API tutorial](../gemini-2/live_api_tool_use.ipynb) for an walkthrough of Gemini-2's new tool use capabilities.
- There is a [Streaming audio in Colab example](../gemini-2/websockets/live_api_streaming_in_colab.ipynb), but this is more of a **demo**, it's **not optimized for readability**.
- Other nice Gemini 2.0 examples can also be found in the [Cookbook](https://github.com/google-gemini/cookbook/blob/main/gemini-2/), in particular the [video understanding](./video_understanding.ipynb) and the [spatial understanding](./spatial_understanding.ipynb) ones.
