# Speech

また、人工知能(AI)システムと会話をすることで、多くの場合、音声による応答を期待してコミュニケーションをとることができるようになると期待されています。

<p style='text-align:center'><img src='./images/speech.jpg' alt='話しているロボット'/></p> </p>

*音声認識* (話し言葉を解釈するAIシステム）と*音声合成*（話し言葉の応答を生成するAIシステム）は、音声対応AIソリューションの主要なコンポーネントです。


## Cognitive Servicesリソースの作成

これらのレビューのテキストを分析するには、**Text Analytics**コグニティブサービスを使用できます。これを使用するには、Azureサブスクリプションで**Text Analytics**または**Cognitive Services**リソースのいずれかをプロビジョニングする必要があります(これが唯一のサービスであるか、またはその使用状況を個別に追跡したい場合は、Text Analyticsリソースを使用してください。それ以外の場合は、コグニティブサービスリソースを使用してText Analyticsサービスを他のコグニティブサービスと組み合わせることができます。)

まだ持っていない場合は、次の手順を使用して、Azureサブスクリプションで**Cognitive Services**リソースを作成します。

1. 別のブラウザタブで、https://portal.azure.com の Azure ポータルを開き、Microsoft アカウントでサインインします。
2. **[&#65291;リソースの作成]**ボタンをクリックして、*Cognitive Services*を検索し、次の設定で**Cognitive Services**リソースを作成します。:
    - **Name**:  *一意の名前を入力してください*
    - **Subscription**: *あなたのAzureサブスクリプション*
    - **Location**: *利用可能な場所*
    - **Pricing tier**: S0
    - **Resource group**: *固有の名前を持つリソースグループ*を作成
3. デプロイが完了するのを待ちます。次に、コグニティブサービスリソースに移動し、**クイックスタート**ページで、キーとエンドポイントに注意してください。クライアント アプリケーションからコグニティブ サービス リソースに接続するには、これらが必要です。

## Cognitive Servicesリソースのキーとエンドポイントを取得する

認知サービス リソースを使用するには、クライアント アプリケーションにそのエンドポイントと認証キーが必要です。

1. Azure ポータルで、コグニティブサービスリソースの **クイックスタート** ページで、リソースの **Key1** をコピーして、**YOUR_COG_KEY** を置き換えて、以下のコードに貼り付けます。
2. リソースの **endpoint** をコピーして、以下のコードに貼り付けて、 **YOUR_COG_ENDPOINT** を置き換えます。
3. 以下のセルを実行します。

In [None]:
cog_key = 'YOUR_COG_KEY'
cog_endpoint = 'YOUR_COG_ENDPOINT'
cog_region = 'YOUR_COG_REGION'

print('Ready to use cognitive services in {} using key {}'.format(cog_region, cog_key))

これでCognitive Servicesのセットアップが完了しました。

そしてPythonから本演習を実行するには、まずAzureの関連パッケージをインストールする必要があります。

In [None]:
! pip install azure.cognitiveservices.speech

## 音声認識

例えば、"ライトをつけて "や "ライトを消して "といった音声による指示を受け付けるホームオートメーションシステムを構築したいとします。アプリケーションは、音声ベースの入力（音声による指示）を受け取り、それをテキストに書き写すことで解釈し、それを解析して分析できるようにする必要があります。

これで、音声を書き写す準備ができました。入力はマイクでも音声ファイルでも構いません。

では、音声を書き写すために Speech サービスの Speech to Text 機能を使ってみましょう。

In [None]:
import os
import IPython
from azure.cognitiveservices.speech import SpeechConfig, SpeechRecognizer, AudioConfig

# 音声ファイルから音声コマンドを取得する
file_name = 'light-on.wav'
audio_file = os.path.join('data', 'speech', file_name)

# 音声認識装置の設定
speech_config = SpeechConfig(cog_key, cog_region)
audio_config = AudioConfig(filename=audio_file) # デフォルト(マイク)の代わりにファイルを使う
speech_recognizer = SpeechRecognizer(speech_config, audio_config)

# スピーチを書き写すために一回限りの同期呼び出しを使用します
speech = speech_recognizer.recognize_once()

# オーディオを再生し、書き写したテキストを表示する
IPython.display.display(IPython.display.Audio(audio_file, autoplay=True),
                        IPython.display.HTML(speech.text))

変数 **file_name** を *light-off.wav* に変更して、セルを再度実行してみてください。サービスは両方のファイルを正しくテキストに書き写すことができるはずです。

## 音声合成

ここまでで、スピーチサービスを使って音声をテキストに書き写す方法を見てきましたが、逆の場合はどうでしょうか？テキストを音声に変換するにはどうすればいいのでしょうか？

例えば、ホームオートメーションシステムがライトを点けろというコマンドを解釈したとしましょう。適切な反応は、口頭でコマンドを認識することかもしれません（実際にコマンドされたタスクを実行するのと同様に！）。

In [None]:
import os
import IPython
from azure.cognitiveservices.speech import SpeechConfig, SpeechSynthesizer, AudioConfig

# テキストを話してもらう
response_text = 'Turning the light on.'

# 音声合成を設定します
speech_config = SpeechConfig(cog_key, cog_region)
output_file = os.path.join('data', 'speech', 'response.wav')
audio_output = AudioConfig(filename=output_file) # デフォルト(スピーカー)の代わりにファイルを使う
speech_synthesizer = SpeechSynthesizer(speech_config, audio_output)

# テキストを音声に書き写す
result = speech_synthesizer.speak_text(response_text)

# 出力されたオーディオファイルを再生する
IPython.display.display(IPython.display.Audio(output_file, autoplay=True),
                        IPython.display.Image(data=os.path.join("data", "speech" , response_text.lower() + 'jpg')))

変数 **response_text** を *Turning the light off.* (最後のピリオドを含む) に変更して、セルをもう一度実行して結果を聞いてみてください。

## Learn more

このノートでは、Speech Cognitve Servicesを使用した非常に簡単な例を見ました。Speech サービスのドキュメントでは、[speech-to-text](https://docs.microsoft.com/azure/cognitive-services/speech-service/index-speech-to-text) と [text-to-speech](https://docs.microsoft.com/azure/cognitive-services/speech-service/index-text-to-speech) について詳しく説明しています。