# 音声の認識と合成

私たちは、人工知能（AI）システムに話しかけることで、音声による応答を期待しながらコミュニケーションを取ることができるようになってきました。

![A robot speaking](./images/speech.jpg)

**音声認識**（音声言語を解釈するAIシステム）と**音声合成**（音声応答を生成するAIシステム）は、音声対応のAIソリューションの重要な構成要素です。

## Cognitive Servicesリソースを作成する

音声を解釈して応答するソフトウェアを構築するには、**Speech** Cognitive Serviceを使用することができます。このサービスは、音声言語をテキストに変換する簡単な方法を提供します。

まだ作成していない方は、以下の手順でAzureサブスクリプションに**Cognitive Services**リソースを作成してください。

> **補足** すでにCognitive Servicesリソースがある場合は、Azureポータルでその**クイックスタート**ページを開き、そのキーとエンドポイントを下のセルにコピーするだけです。そうでない場合は、以下の手順で作成してください。

1. 新しいブラウザタブで、Azureポータル（https://portal.azure.com）を開き、Microsoftアカウントでサインインします。
2. **&#65291;リソースの作成** ボタンをクリックし、*Cognitive Services*を検索して以下の設定で **Cognitive Services** リソースを作成します。
    - **サブスクリプション**: *ご自身のサプスクリプション*
    - **リソースグループ**: *既存のリソースグループを選択するか、ユニークな名前で新しいリソースグループを作成します。*
    - **リージョン**: *利用可能なリージョンを選択（例:東日本）*
    - **名前**: *ユニークな名前を入力*
    - **価格レベル**: S0
    - **このボックスをオンにすることにより、以下のすべてのご契約条件を読み、同意したものとみなされます**: チェックを入れます。
3. デプロイが完了するまでしばらく待ちます。次に、Cognitive Servicesリソースにアクセスし、**Overview**ページで、サービスのキーを管理するリンクをクリックします。クライアントアプリケーションからCognitive Servicesリソースに接続するには、エンドポイントとキーが必要になります。

### Cognitive Servicesのキーとロケーションの取得

Cognitive Serviceリソースを使用するには、クライアント・アプリケーションは認証キーとロケーションが必要です。

1. Azureポータルで、Cognitive Serviceリソースの**キーとエンドポイント**ページで、リソースの**キー1**をコピーして、**YOUR_COG_KEY**を置き換えて、以下のコードに貼り付けます。

2. リソースの **場所/地域** をコピーし、**YOUR_COG_LOCATION** を置き換えて、以下のコードに貼り付けます。
> **注意**: **キーとエンドポイント**ページに留まり、このページから **場所/地域** の値をコピーしてください（例：_westus_）。場所/地域フィールドの単語の間にはスペースを入れないでください。
3. セルの実行<span>&#9655;</span>ボタン（セルの左上）をクリックして、下のセルのコードを実行します。

In [None]:
cog_key = 'YOUR_COG_KEY'
cog_location = 'YOUR_COG_LOCATION'
language = 'en-US'
print('Ready to use cognitive services in {} using key {}. Speech language is set to {}.'.format(cog_location, cog_key, language))

## 音声認識

例えば、「電気をつけて」「電気を消して」などの音声による指示を受け付けるホームオートメーションシステムを構築したいとします。アプリケーションは、音声ベースの入力（音声による指示）を受け取り、それを解釈してテキストに変換し、それを解析して分析することができなければなりません。

既に、音声を聞き取るための準備はできています。音声は、**マイク**または**オーディオファイル**から入力することができます。


### 音声ファイルによる音声認識

以下のセルを実行すると、音声認識サービスが **音声ファイル** で動作する様子を見ることができます。


In [None]:
import os
from playsound import playsound
from azure.cognitiveservices.speech import SpeechConfig, SpeechRecognizer, AudioConfig

# Get spoken command from audio file
file_name = 'light-on.wav'
audio_file = os.path.join('data', 'speech', file_name)

# Configure speech recognizer
speech_config = SpeechConfig(cog_key, cog_location, speech_recognition_language=language)
audio_config = AudioConfig(filename=audio_file) # Use file instead of default (microphone)
speech_recognizer = SpeechRecognizer(speech_config, audio_config)

# Use a one-time, synchronous call to transcribe the speech
speech = speech_recognizer.recognize_once()

# Play the original audio file
playsound(audio_file)

# Show transcribed text from audio file
print(speech.text)

## 音声合成

さて、Speechサービスを使って音声をテキストに変換する方法をご紹介しましたが、その逆はどうでしょうか？テキストを音声に変換するにはどうすればよいのでしょうか。

例えば、ホームオートメーションシステムが「ライトをつけて」というコマンドを解釈したとしましょう。適切な応答は、要求を口頭で確認することかもしれません（もちろん要求されたタスクを実際に実行することもね！）。

In [None]:
import os
import matplotlib.pyplot as plt
from PIL import Image
from azure.cognitiveservices.speech import SpeechConfig, SpeechSynthesizer, AudioConfig
%matplotlib inline

# Get text to be spoken in English
response_text = 'Turning the light on.'
# Get text to be spoken in Japanese
# response_text = 'ライトを点けています.'

# Configure speech synthesis
speech_config = SpeechConfig(cog_key, cog_location)

# English Speech Synthesis
speech_config.speech_synthesis_voice_name = 'en-US-ChristopherNeural'
# Japanese Speech Synthesis 
#speech_config.speech_synthesis_voice_name = 'ja-JP-NanamiNeural' # 'ja-JP-KeitaNeural'

speech_synthesizer = SpeechSynthesizer(speech_config)

# Transcribe text into speech
result = speech_synthesizer.speak_text(response_text)

# Display an appropriate image 
file_name = response_text.lower() + "jpg"
img = Image.open(os.path.join("data", "speech", file_name))
plt.axis('off')
plt. imshow(img)

変数 **response_text** を *Turning the light off.* (末尾のピリオドを含む)に変更し、セルを再度実行して結果を聞いてみてください。

## さらに学ぶ

このノートブックでは、Speech cognitive サービスを使用する非常に簡単な例をご覧いただきました。
Speechサービスについては、[音声テキスト変換のドキュメント](https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/index-speech-to-text)や[テキスト読み上げのドキュメント](https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/index-text-to-speech)で詳しく説明されています。