# 快速入门 文字配音模型 Text-To-Speech(TTS)

文字配音 API 提供了一个基于 TTS（文本到语音）模型的服务。它内置了 6 种语音，并可用于：

- 朗读书面博客文章
- 用多种语言制作口语音频
- 使用流媒体实时提供音频输出

**配音**

TTS 目前支持6个不同的配音：alloy, echo, fable, onyx, nova, and shimmer

发音示例参考：https://platform.openai.com/docs/guides/text-to-speech/voice-options

**输出格式**

默认响应格式是 "mp3"，但也支持其他格式，如 "opus"、"aac"、"flac" 和 "pcm"。

- Opus：适用于互联网流媒体和通讯，低延迟。
- AAC：用于数字音频压缩，受 YouTube、Android、iOS 的偏好。
- FLAC：用于无损音频压缩，受音频爱好者喜爱，适用于存档。
- WAV：未压缩的 WAV 音频，适用于低延迟应用以避免解码开销。
- PCM：类似于 WAV，但包含未带头部的原始样本，24kHz（16位有符号，小端）。

**支持语言**

TTS 模型在语言支持方面非常广泛（针对英语发音做了优化）：

阿非利卡语、阿拉伯语、亚美尼亚语、阿塞拜疆语、白俄罗斯语、波斯尼亚语、保加利亚语、加泰罗尼亚语、中文、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、加利西亚语、德语、希腊语、希伯来语、印地语、匈牙利语、冰岛语、印度尼西亚语、意大利语、日本语、卡纳达语、哈萨克语、韩语、拉脱维亚语、立陶宛语、马其顿语、马来语、马拉提语、毛利语、尼泊尔语、挪威语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰米尔语、泰语、土耳其语、乌克兰语、乌尔都语、越南语和威尔士语。

## 文字配音 API

从输入文本生成音频。

参数：
- **model**（'tts-1' 或 'tts-1-hd'）：使用的 TTS 模型，默认为 'tts-1'。
- **input**（文本）：要为其生成音频的文本，最大长度为4096个字符。
- **voice**（'alloy', 'echo', 'fable', 'onyx', 'nova', 'shimmer'）：生成音频时使用的声音，支持声音预览在“文本到语音指南”中提供。
- **response_format**（'mp3', 'opus', 'aac', 'flac', 'wav', 'pcm'）：音频的输出格式，默认为 'mp3'。
- **speed**（0.25到4.0）：生成音频的速度，默认速度为 1.0。

返回：
- **audio_file**: 音频文件内容

### 使用 TTS 给李云龙台词配音

In [1]:
from openai import OpenAI
client = OpenAI(base_url="https://api.xiaoai.plus/v1", api_key="sk-gomHLvAfIO2lLIr7D972F67b928340529fDb2dCc6e4b8172")

speech_file_path = "./audio/liyunlong.mp3"

# 官方示例的用法会触发 Deprecated 警告⚠️，已替换为最佳实践
with client.audio.speech.with_streaming_response.create(
    model="tts-1",
    voice="echo",
    input="二营长！你他娘的意大利炮呢？给我拉来！"
) as response:
    response.stream_to_file(speech_file_path)

### 使用 TTS 替换语音聊天的音色

In [3]:
speech_file_path = "./audio/quewang.mp3"

with client.audio.speech.with_streaming_response.create(
    model="tts-1",
    voice="onyx",
    input="周三早上11点，雀王争霸赛，老地方23号房，经典三缺一！"
) as response:
    response.stream_to_file(speech_file_path)

### 使用 TTS 播报新闻

[上海F1赛车时隔五年回归 首位中国车手周冠宇：我渴望站上领奖台](https://www.bbc.com/zhongwen/simp/chinese-news-68834565)（来源：BBC 中文网）

In [4]:
speech_file_path = "./audio/lubenwei1.mp3"

with client.audio.speech.with_streaming_response.create(
    model="tts-1",
    voice="onyx",
    input="""
    你今天要是十七张牌把我秒了我卢本伟当场，把这个电脑屏幕吃掉！
    """
) as response:
    response.stream_to_file(speech_file_path)

In [5]:
audio_file = open("./audio/lubenwei.mp3", "rb")
speech_file = "./audio/lubenwei_en.mp3"
translation = client.audio.translations.create(
    model="whisper-1", 
    file=audio_file,
    prompt="Translate into English",
)

print(translation.text)

BadRequestError: Error code: 400 - {'error': {'message': "bind request body failed: Key: 'TextToSpeechRequest.Model' Error:Field validation for 'Model' failed on the 'required' tag\nKey: 'TextToSpeechRequest.Input' Error:Field validation for 'Input' failed on the 'required' tag\nKey: 'TextToSpeechRequest.Voice' Error:Field validation for 'Voice' failed on the 'required' tag (request id: ) (request id: 20240723114839825145520Usjm2uBJ)", 'type': 'chat_api_error', 'param': '', 'code': 'bind_request_body_failed'}}