# 会話

話しかけると、話し言葉で応答してくれるような人工知能 (AI) システムとのコミュニケーションの実現に向けて、期待が高まっています。

![しゃべるロボット](./images/speech.jpg)

*音声認識* (話し言葉を解釈する AI システム) と*音声合成* (音声応答を生成する AI システム) は、会話を実現する AI ソリューションの重要なコンポーネントです。

## Cognitive Services リソースを作成する

**Speech** Cognitive Service を使用すると、聞こえてくる言葉を解釈して、音声で応答できるソフトウェアを構築できます。このサービスを使用すると、話し言葉をテキストに変換したり、その逆に変換したりすることが簡単に行えます。

まだリソースを作成していない場合は、次の手順で Azure サブスクリプションに **Cognitive Services** リソースを作成します。

> **注**: Cognitive Services リソースが既にある場合は、Azure portal で**クイック スタート**ページを開き、キーとエンドポイントを以下のセルにコピーするだけで作成できます。それ以外の場合は、以下の手順に従って作成してください。

1. ブラウザーの新しいタブで Azure portal (https://portal.azure.com) を開き、Microsoft アカウントでサインインします。
2. 「**&#65291;リソースの作成**」 ボタンをクリックし、*Cognitive Services* を検索して、以下の設定で **Cognitive Services** リソースを作成します。
    - **サブスクリプション**: *使用する Azure サブスクリプション*
    - **リソース グループ**: *一意の名前のリソース グループを選択または作成します*
    - **リージョン**: *利用可能な任意のリージョンを選択します*。
    - **名前**: *一意の名前を入力します*。
    - **価格レベル**: S0
    - **注意事項を読み理解しました**: 選択されています。
3. デプロイが完了するまで待ちます。そのあと Cognitive Services リソースに移動し、「**概要**」 ページでリンクをクリックしてサービスのキーを管理します。クライアント アプリケーションから Cognitive Services リソースに接続するには、キーと場所が必要です。

### Cognitive Services リソースのキーと場所を取得する

Cognitive Services リソースを使用するには、クライアント アプリケーションに認証キーと場所が必要です。

1. Azure portalで、Cognitive Services リソースの 「**キーとエンドポイント**」 ページからリソースの 「**キー 1**」 の値をコピーし、以下のコードに貼り付けます (**YOUR_COG_KEY** と置き換える)。
2. リソースの**場所**をコピーして以下のコードに貼り付けます (**YOUR_COG_LOCATION** を置き換える)。
>**注**: 「**キーとエンドポイント**」 ページにとどまり、このページから**場所**をコピーします (例: _westus_)。「場所」 フィールドの単語の間には空白を入れ _ないで_ ください。 
3. セルの左側にある 「**セルの実行**」 (&#9655;) ボタンをクリックして、以下のコードを実行します。

In [None]:
cog_key = 'YOUR_COG_KEY'
cog_location = 'YOUR_COG_LOCATION'

print('Ready to use cognitive services in {} using key {}'.format(cog_location, cog_key))

## 音声認識

「明かりをつけて」や「明かりを消して」などの音声指示に対応できるホーム オートメーション システムを構築するとします。アプリケーションは、音声ベースの入力 (話された指示) を受け取り、それをテキストに書き起こして認識し、構文解析と意味を分析できる必要があります。

これで、音声を書き写す準備が整いました。入力は、**マイク**または**音声ファイル**から行うことができます。 


### 音声ファイルを使用した音声認識

以下のセルを実行し、**音声ファイル**を使用して Speech Recognition サービスが稼働していることを確認します。 


In [None]:
import os
from playsound import playsound
from azure.cognitiveservices.speech import SpeechConfig, SpeechRecognizer, AudioConfig

# Get spoken command from audio file
file_name = 'light-on.wav'
audio_file = os.path.join('data', 'speech', file_name)

# Configure speech recognizer
speech_config = SpeechConfig(cog_key, cog_location)
speech_config.speech_synthesis_voice_name = 'en-US-ChristopherNeural'
audio_config = AudioConfig(filename=audio_file) # Use file instead of default (microphone)
speech_recognizer = SpeechRecognizer(speech_config, audio_config)

# Use a one-time, synchronous call to transcribe the speech
speech = speech_recognizer.recognize_once()

# Play the original audio file
playsound(audio_file)

# Show transcribed text from audio file
print(speech.text)

## 音声合成

これで、Speech サービスを使用して音声をテキストに変換する方法を確認できました。ただし、逆の変換はまだです。テキストを音声に変換するにはどうすればよいでしょうか?

ホーム オートメーション システムが明かりをつける指示を解釈したとします。適切な応答とは、指示されたことを口頭で確認したり、指示されたタスクを実際に実行したりすることでしょう。

In [None]:
import os
import matplotlib.pyplot as plt
from PIL import Image
from azure.cognitiveservices.speech import SpeechConfig, SpeechSynthesizer, AudioConfig
%matplotlib inline

# Get text to be spoken
response_text = 'Turning the light on.'

# Configure speech synthesis
speech_config = SpeechConfig(cog_key, cog_location)
speech_config.speech_synthesis_voice_name = 'en-US-ChristopherNeural'
speech_synthesizer = SpeechSynthesizer(speech_config)

# Transcribe text into speech
result = speech_synthesizer.speak_text(response_text)

# Display an appropriate image 
file_name = response_text.lower() + "jpg"
img = Image.open(os.path.join("data", "speech", file_name))
plt.axis('off')
plt. imshow(img)

**response_text** 変数を「*明かりを消して。*」に変更してみてください。最後に句点も追加します。そしてセルをもう一度実行して結果を聞きます。

## 詳細情報

このノートブックでは、音声認識サービスを使用する簡単な例を確認しました。詳細については、Speech サービス ドキュメントの「[speech-to-text](https://docs.microsoft.com/azure/cognitive-services/speech-service/index-speech-to-text)」と「[text-to-speech](https://docs.microsoft.com/azure/cognitive-services/speech-service/index-text-to-speech)」を参照してください。