# Speech

Wir erwarten immer öfter, mit KI-Systemen (Künstliche Intelligenz) kommunizieren zu können, indem wir mit ihnen sprechen, und erwarten oft auch eine gesprochene Antwort.

![Ein sprechender Roboter](./images/speech.jpg)

*Spracherkennung* (ein KI-System, das gesprochene Sprache interpretiert) und *Sprachsynthese* (ein KI-System, das eine gesprochene Antwort generiert) sind die wichtigsten Komponenten einer KI-Lösung mit Sprachunterstützung.

## Erstellen einer Cognitive Services-Ressource

Um eine Software zu erstellen, die gesprochene Sprache interpretiert und verbal antwortet, können Sie den Cognitive Service **Speech** verwenden, der einfache Methoden zum Transkribieren von gesprochener Sprache zu Text und umgekehrt bereitstellt.

Falls noch nicht geschehen, führen Sie die folgenden Schritte aus, um eine **Cognitive Services**-Ressource in Ihrem Azure-Abonnement zu erstellen:

> **Hinweis**: Falls Sie bereits eine Cognitive Services-Ressource haben, können Sie die entsprechende **Schnellstart**-Seite im Azure-Portal öffnen und den Schlüssel und den Endpunkt der Ressource unten in die Zelle kopieren. Führen Sie andernfalls die folgenden Schritte aus, um eine Ressource zu erstellen.

1. Öffnen Sie das Azure-Portal unter „https://portal.azure.com“ in einer neuen Browserregisterkarte, und melden Sie sich mit Ihrem Microsoft-Konto an.
2. Klicken Sie auf die Schaltfläche **&#65291;Ressource erstellen**, suchen Sie nach *Cognitive Services*, und erstellen Sie eine **Cognitive Services**-Ressource mit den folgenden Einstellungen:
    – **Abonnement**: *Ihr Azure-Abonnement*
    – **Ressourcengruppe**: *Wählen Sie eine Ressourcengruppe aus, oder erstellen Sie eine Ressourcengruppe mit einem eindeutigen Namen.*
    – **Region**: *Wählen Sie eine verfügbare Region aus*:
    – **Name**: *Geben Sie einen eindeutigen Namen ein.*
    – **Tarif**: S0
    – **Ich bestätige, dass ich die Hinweise gelesen und verstanden habe**: Ausgewählt
3. Warten Sie, bis die Bereitstellung abgeschlossen ist. Öffnen Sie anschließend Ihre Cognitive Services-Ressource, und klicken Sie auf der Seite **Übersicht** auf den Link zur Schlüsselverwaltung für den Dienst. Sie benötigen den Schlüssel und den Speicherort, um sich aus Clientanwendungen heraus mit Ihrer Cognitive Services-Ressource zu verbinden.

### Abrufen des Schlüssels und des Speicherorts für Ihre Cognitive Services-Ressource

Um Ihre Cognitive Services-Ressource verwenden zu können, benötigen Clientanwendungen deren Authentifizierungsschlüssel und Speicherort:

1. Kopieren Sie im Azure-Portal auf der Seite **Schlüssel und Endpunkt** für Ihre Cognitive Service-Ressource den **Schlüssel1** für Ihre Ressource, und fügen Sie ihn im unten stehenden Code anstelle von **YOUR_COG_KEY** ein.
2. Kopieren Sie den **Speicherort** für Ihre Ressource, und fügen Sie ihn unten im Code anstelle von **YOUR_COG_LOCATION** ein.
>**Hinweis**: Bleiben Sie auf der Seite **Schlüssel und Endpunkt**, und kopieren Sie den **Speicherort** von dieser Seite (Beispiel: _westus_). Fügen Sie KEINE Leerzeichen zwischen den Wörtern im Feld „Speicherort“ ein. 
3. Führen Sie den folgenden Code aus, indem Sie links neben der Zelle auf die Schaltfläche **Zelle ausführen** (&#9655) klicken.

In [None]:
cog_key = 'YOUR_COG_KEY'
cog_location = 'YOUR_COG_LOCATION'

print('Ready to use cognitive services in {} using key {}'.format(cog_location, cog_key))

## Spracherkennung

Angenommen, Sie möchten ein Gebäudeautomatisierungssystem entwickeln, das Sprachbefehle wie etwa „Licht einschalten“ oder „Licht ausschalten“ erkennt. Ihre Anwendung muss in der Lage sein, audiobasierte Eingaben (Ihre Sprachbefehle) zu interpretieren, indem sie sie zu Text transkribiert, der anschließend gelesen und analysiert werden kann.

Jetzt können Sie damit anfangen, Spracheingaben zu transkribieren. Die Eingabe kann entweder von einem **Mikrofon** oder aus einer **Audiodatei** stammen. 

### Spracherkennung mit einem Mikrofon

Probieren sie zuerst die Eingabe mit einem Mikrofon aus. Führen Sie die folgende Zelle aus, und sprechen Sie **sofort** den Befehl **„Licht einschalten“** in Ihr Mikrofon. Die Sprache-in-Text-Funktion des Speech-Diensts transkribiert die Audioeingabe. Ihre gesprochenen Wörter sollten als Text ausgegeben werden.


In [None]:
import os
import IPython
from azure.cognitiveservices.speech import SpeechConfig, SpeechRecognizer, AudioConfig

# Konfigurieren der Spracherkennung
speech_config = SpeechConfig(cog_key, cog_location)

# Kursteilnehmer auffordern, „Licht einschalten“ zu sagen 
speech_recognizer = SpeechRecognizer(speech_config)

# Transkribieren der Sprache mit einem einzigen synchronen Aufruf
speech = speech_recognizer.recognize_once()

print(speech.text)


### (!) Überprüfung

Konnten Sie die Zelle ausführen und Ihre Spracheingabe in Text umwandeln? Falls die vorherige Zelle keine Textausgabe liefert (Beispielausgabe: _Licht einschalten._), führen Sie die Zelle erneut aus, und sprechen Sie **sofort** den Befehl „Licht einschalten“ in Ihr Mikrofon.

### Spracherkennung mit einer Audiodatei

Falls die vorherige Zelle keine Textausgabe liefert, ist Ihr Mikrofon möglicherweise nicht für die Spracheingabe eingerichtet. Führen Sie stattdessen die folgende Zelle aus, um den Spracherkennungsdienst mit einer **Audiodatei** anstelle der **Mikrofoneingabe** zu testen. 


In [None]:
import os
from playsound import playsound
from azure.cognitiveservices.speech import SpeechConfig, SpeechRecognizer, AudioConfig

# Abrufen des Sprachbefehls aus einer Audiodatei
file_name = 'light-on.wav'
audio_file = os.path.join('data', 'speech', file_name)

# Konfigurieren der Spracherkennung
speech_config = SpeechConfig(cog_key, cog_location)
audio_config = AudioConfig(filename=audio_file) # Use file instead of default (microphone)
speech_recognizer = SpeechRecognizer(speech_config, audio_config)

# Transkribieren der Sprache mit einem einzigen synchronen Aufruf
speech = speech_recognizer.recognize_once()

# Wiedergeben von Audio und Anzeigen des transkribierten Texts
playsound(audio_file)
print(speech.text)

## Sprachsynthese

Sie haben also gesehen, wie der Speech-Dienst gesprochene Wörter zu Text transkribieren kann, aber funktioniert dies auch umgekehrt? Wie können Sie Text zu Sprache konvertieren?

Angenommen, Ihr Gebäudeautomatisierungssystem hat einen Befehl erhalten, das Licht einzuschalten. Eine passende Antwort wäre beispielsweise eine verbale Bestätigung des Befehls (und natürlich die Ausführung des Befehls).

In [None]:
import os
import matplotlib.pyplot as plt
from PIL import Image
from azure.cognitiveservices.speech import SpeechConfig, SpeechSynthesizer, AudioConfig
%matplotlib inline

# Aussprechen von Text
response_text = 'Turning the light on.'

# Konfigurieren der Sprachsynthese
speech_config = SpeechConfig(cog_key, cog_location)
speech_synthesizer = SpeechSynthesizer(speech_config)

# Transkribieren von Text zu Sprache
result = speech_synthesizer.speak_text(response_text)

# Anzeigen eines passenden Bilds 
file_name = response_text + "jpg"
img = Image.open(os.path.join("data", "speech", file_name))
plt.axis('off')
plt. imshow(img)

Ändern Sie die Variable **response_text** zu *Licht wird ausgeschaltet.* (inklusive Punkt am Ende), und führen Sie die Zelle erneut aus, um das Ergebnis zu hören.

## Weitere Informationen

In diesem Notebook haben Sie ein sehr einfaches Beispiel für die Nutzung des Cognitive Service „Speech“ gesehen. Weitere Informationen zu den Funktionen [Sprache-in-Text](https://docs.microsoft.com/azure/cognitive-services/speech-service/index-speech-to-text) und [Text-zu-Sprache](https://docs.microsoft.com/azure/cognitive-services/speech-service/index-text-to-speech) finden Sie in der Dokumentation für den Speech-Dienst.