# 8.4 Video & Realtime

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/your-org/ai-first-app/blob/main/demos/08-multimodal/realtime.ipynb)

**预计 API 费用: ~$0.10**

实时语音对话、视频理解概览。

**注意**: Realtime API 使用 WebSocket,代码较复杂,本 Notebook 提供概念演示。

In [None]:
!pip install -q openai websockets

In [None]:
import os
from getpass import getpass

if not os.environ.get('OPENAI_API_KEY'):
    os.environ['OPENAI_API_KEY'] = getpass('OpenAI API Key: ')

## Realtime API 概念

**特点**:
- 低延迟: 平均 320ms
- 支持打断: 用户可随时打断 AI
- WebSocket 连接: 持久化双向通信

**工作流程**:
1. 建立 WebSocket 连接
2. 配置会话 (session.update)
3. 发送音频输入 (input_audio_buffer.append)
4. 接收实时响应 (response.audio.delta)
5. 支持打断 (response.cancel)

## 实验 1: Realtime API 配置示例

In [None]:
# 这是概念代码,实际使用需要 WebSocket 环境

session_config = {
    'type': 'session.update',
    'session': {
        'modalities': ['text', 'audio'],
        'instructions': '你是一个友好的助手',
        'voice': 'alloy',
        'input_audio_format': 'pcm16',
        'output_audio_format': 'pcm16',
        'turn_detection': {
            'type': 'server_vad'  # 服务端语音活动检测
        }
    }
}

print('Realtime API 会话配置:')
import json
print(json.dumps(session_config, indent=2))

## 实验 2: 事件类型

In [None]:
# 客户端发送事件
client_events = [
    'session.update',
    'input_audio_buffer.append',
    'input_audio_buffer.commit',
    'response.create',
    'response.cancel'
]

# 服务端返回事件
server_events = [
    'session.created',
    'input_audio_buffer.speech_started',
    'input_audio_buffer.speech_stopped',
    'response.audio.delta',
    'response.audio.done',
    'response.text.delta'
]

print('客户端事件:', client_events)
print('\n服务端事件:', server_events)

## 实验 3: 成本计算

In [None]:
# Realtime API 价格
audio_input_price = 100 / 1_000_000  # $100 / 1M tokens
audio_output_price = 200 / 1_000_000  # $200 / 1M tokens

# 假设 1 分钟对话
# 输入: 约 1000 tokens
# 输出: 约 1000 tokens
input_tokens = 1000
output_tokens = 1000

cost = input_tokens * audio_input_price + output_tokens * audio_output_price

print(f'1 分钟对话成本: ${cost:.4f}')

## 视频理解概览

**Gemini 2.0 Flash** 支持视频理解:

```python
# 概念代码 (需要 Google AI SDK)
import google.generativeai as genai

model = genai.GenerativeModel('gemini-2.0-flash-exp')
video_file = genai.upload_file(path='video.mp4')

response = model.generate_content([
    '分析这段视频,提取关键信息',
    video_file
])

print(response.text)
```

**能力**:
- 场景识别
- 物体检测
- 动作识别
- 时序分析

## 视频生成概览

**主流模型**:
- **Sora** (OpenAI): 内测,最高质量
- **Runway Gen-3**: 可用,$0.05/秒
- **Kling** (快手): 中文支持,¥0.2/秒

**挑战**:
- 成本高
- 生成时间长
- 可控性有限

## 关键要点

1. **Realtime API**: 低延迟 (320ms)、支持打断、WebSocket 连接
2. **成本高**: 是普通 API 的 10-20 倍
3. **视频理解**: Gemini 2.0 Flash 支持
4. **视频生成**: 技术前沿,成本极高
5. **适用场景**: 语音客服、实时翻译、视频分析

---

**多模态 AI 总结**:
- Vision: 图像 → 文本
- Image Gen: 文本 → 图像
- STT: 语音 → 文本
- TTS: 文本 → 语音
- Realtime: 语音 ↔ 语音
- Video: 视频 ↔ 文本

---

**下一步**: 学习第 9 章 AI Agent