# 语音

我们越来越希望能通过对人工智能 (AI) 系统说话的方式来与其进行交流，而且通常希望它们也能通过“说话”来进行回应。

![正在说话的机器人](./images/speech.jpg)

*语音识别*（对口头语言进行解释的 AI 系统）和*语音合成*（生成语音响应的 AI 系统）是支持语音的 AI 解决方案的关键组件。

## 创建认知服务资源

要生成能解释语音并做出语音回应的软件，可以使用**语音**认知服务，该服务提供了一种在口头语言和文本之间相互转录的简单方法。

请按照以下步骤在 Azure 订阅中创建**认知服务**资源（如果还没有该资源）：

> **备注**：如果已有认知服务资源，则只需在 Azure 门户中打开其“**快速入门**”页面，然后将其密钥和终结点复制到下面的单元格中即可。否则，请按照以下步骤创建认知服务资源。

1. 在另一个浏览器标签页中，打开 Azure 门户 (https://portal.azure.com) 并使用 Microsoft 帐户登录。
2. 单击“**&#65291;创建资源**”按钮，搜索“*认知服务*”并以如下设置创建**认知服务**资源：
    - **订阅**： *你的 Azure 订阅*。
    - **资源组**： *选择或创建具有唯一名称的资源组*。
    - **区域**： *选择任何可用区域*：
    - **名称**： *输入一个唯一名称*。
    - **定价层**：中的机器人 S0
    - **我确认我已阅读并理解上述通知**：已选中。
3. 等待部署完成。然后转到认知服务资源，并单击“**概述**”页面上的链接以管理该服务的密钥。你将需要使用密钥和位置从客户端应用程序连接到认知服务资源。

### 获取认知服务资源的密钥和位置

要使用认知服务资源，需要向客户端应用程序提供其身份验证密钥和位置：

1. 进入 Azure 门户，在认知服务资源的“**密钥和终结点**”页面上复制资源的“**Key1**”，并将其粘贴到以下代码中，替换“**YOUR_COG_KEY**”。
2. 复制资源的**位置**并将其粘贴到以下代码中，替换“**YOUR_COG_LOCATION**”。
>**备注**：停留在“**密钥和终结点**”页面上，并从其中复制“**位置**”（例如：_westus_）。请*不要*在“位置”字段的字词之间添加空格。 
3. 通过单击位于单元格左侧的“**运行单元格**”(&#9655;) 按钮运行下方代码。

In [None]:
cog_key = 'YOUR_COG_KEY'
cog_location = 'YOUR_COG_LOCATION'

print('Ready to use cognitive services in {} using key {}'.format(cog_location, cog_key))

## 语音识别

假设你要构建一个家庭自动化系统，并使其能够接受语音指令，例如“turn the light on”或“turn the light off”。你的应用程序要能接收基于音频的输入（即语音指令），并将其转录为能被解析和分析的文本，从而对其进行解释。

现已准备好转录部分语音。可以通过**麦克风**或**音频**文件进行输入。 


### 使用音频文件的语音识别

运行下面的单元格，查看使用**音频文件**进行输入的语音识别服务的运行情况。 


In [None]:
import os
from playsound import playsound
from azure.cognitiveservices.speech import SpeechConfig, SpeechRecognizer, AudioConfig

# Get spoken command from audio file
file_name = 'light-on.wav'
audio_file = os.path.join('data', 'speech', file_name)

# Configure speech recognizer
speech_config = SpeechConfig(cog_key, cog_location)
speech_config.speech_synthesis_voice_name = 'en-US-ChristopherNeural'
audio_config = AudioConfig(filename=audio_file) # Use file instead of default (microphone)
speech_recognizer = SpeechRecognizer(speech_config, audio_config)

# Use a one-time, synchronous call to transcribe the speech
speech = speech_recognizer.recognize_once()

# Play the original audio file
playsound(audio_file)

# Show transcribed text from audio file
print(speech.text)

## 语音合成

现在你已了解如何使用语音服务将语音转录成文本，那反过来该如何操作呢？如何将文本转换成语音？

让我们假设你的家庭自动化系统已经解释出了开灯命令。适当的回应可能是口头表明接受命令，当然也要实际执行命令的任务！

In [None]:
import os
import matplotlib.pyplot as plt
from PIL import Image
from azure.cognitiveservices.speech import SpeechConfig, SpeechSynthesizer, AudioConfig
%matplotlib inline

# Get text to be spoken
response_text = 'Turning the light on.'

# Configure speech synthesis
speech_config = SpeechConfig(cog_key, cog_location)
speech_config.speech_synthesis_voice_name = 'en-US-ChristopherNeural'
speech_synthesizer = SpeechSynthesizer(speech_config)

# Transcribe text into speech
result = speech_synthesizer.speak_text(response_text)

# Display an appropriate image 
file_name = response_text.lower() + "jpg"
img = Image.open(os.path.join("data", "speech", file_name))
plt.axis('off')
plt. imshow(img)

请尝试将变量 **response_text** 更改为“*Turning the light off.*”（包括句尾的标点），然后再次运行单元格，听听结果。

## 了解详细信息

此笔记本中介绍的是一个非常简单的语音认知服务使用示例。可以在语音服务文档中详细了解[语音转文本](https://docs.microsoft.com/azure/cognitive-services/speech-service/index-speech-to-text)和[文本转语音](https://docs.microsoft.com/azure/cognitive-services/speech-service/index-text-to-speech)。