# Sprachverarbeitung für Roboter: Robbi, mach mir einen Kaffee!

## Storyboard

<div style="text-align: justify">
    Im 5 Stock des Technikum Wien haben wir einen Roboter, welcher die Mitarbeiter automatisch mit Kaffee versorgt. Die Mitarbeiter geben dabei Bestellungen über eine Benutzeroberfläche auf und der Roboter fährt zum jeweiligen Tisch, um den Kaffee zuzubereiten.
    <br /><br />
    
    Nun wollen wir die Interaktion zwischen Nutzer und Roboter natürlicher gestalten, indem wir Bestellungen mittels Sprache ermöglichen. Ähnlich zu gängigen Sprachassistenten, wie z.B. <a href="https://www.amazon.de/b?ie=UTF8&node=12775495031">Amazon Alexa</a> oder dem <a href="https://assistant.google.com/">Google Assistant</a>, soll der CoffeeBot in der Lage sein, gesprochene Bestellungen aufzunehmen und zu verarbeiten. Aber wie kann ein Roboter gesprochene Sprache so verarbeiten, dass er sie versteht?
    <br /><br />
    
    Zur Verarbeitung von Sprache muss diese erst aufgenommen werden. Neben einfachen Mikrofonen, welche direkt an den PC angeschlossen werden, gibt es speziell für die Anwendung der Spracherkennung ausgelegte Hardware. Solche sogenannten Microphone Arrays bestehen aus mehreren Mikrofonen, um effektiv Befehle aus verschiedenen Richtungen wahrnehmen und Hintergrundgeräusche von der gesprochenen Sprache trennen zu können. Ein Beispiel für eine offene Plattform für solche Mikrofone ist das <a href="https://wiki.seeedstudio.com/ReSpeaker_Mic_Array/">Mic Array von ReSpeaker</a>. Nach Aufnahme der Sprache muss diese von Audio- in Textform gebracht werden. Diesen Vorgang nennt man Speech to Text oder Spracherkennung. Letztendlich wenden wir Natural Language Processing (NLP, siehe AIAV Video <a href="https://www.youtube.com/watch?v=B-weR5ngYIU&list=PLfJEPw9Zb0EPLEZZlNCQc9F3F7RWG6EsK&index=24">Sprachverarbeitung</a>) an. NLP hat das Ziel, mittels Statistik den Sinn von Text zu verstehen. Wenn wir den Sinn des Textes verstehen können, können wir diesen als Grundlage für Roboteraktionen verwenden.
    <br /><br />
    
    Abbildung 1 zeigt den Ablauf, wie wir von gesprochener Sprache zu einem Befehl, welcher der Roboter verarbeiten kann, kommen. Mit Natural Language Processing haben wir uns dabei schon im AIAV Usecase <i>Erkläre eine Robotikkonferenz... mit AI!</i> beschäftigt. Also fehlt uns für das volle Verständnis der Pipeline die Übersetzung von gesprochener Sprache zu Text. 
    </div>

<img src="images/Abbildung1Ablauf.png" alt="Drawing" style="width: 1100px;"/>

_Abbildung 1: Für die Verarbeitung von gesprochener Sprache müssen wir diese zunächst aufnehmen und in Text übersetzen (Spech to Text). Anschließend wird der Text ausgewertet (Natural Language Processing) und verstanden, um einen Roboterbefehl erzeugen zu können._

### Spracherkennung

<div style="text-align: justify">
    Ziel der Spracherkennung ist es, gesprochene Sprache in Audioform zu Text zu übersetzen, der einen Befehl darstellt. Die Grundsätzliche Idee hinter Text to Speech ist es, das Audiosignal in kleine Ausschnitte aufzuteilen. Diese Ausschnitte werden dann mit in Frage kommenden Kombinationen von bekannten Worten verglichen, um eine Phrase zu ermitteln, welche die bestmögliche Übereinstimmung mit dem Audioausschnitt hat. Um diese Übereinstimmung zu finden, werden Merkmale, sogenannte Features, des Audioausschnitts ermittelt. Diese Merkmale werden dann in ein Modell, z.B. einem Neuronalen Netz (siehe AIAV Video <a href="https://www.youtube.com/watch?v=pmfIJ3XUw2c&list=PLfJEPw9Zb0EPLEZZlNCQc9F3F7RWG6EsK&index=37">Neuronale Netze</a>), gegeben, welches die Merkmale analysiert (siehe Abbildung 2).
    <br /><br />
    
    Die praktische Umsetzung dieser Idee wird aber durch mehrere Faktoren erschwert. Einerseits ist es nicht möglich, alle Kombinationen aller bekannten Wörter zu prüfen, da der benötigte Rechenaufwand viel zu groß wäre. Deswegen wird neben dem Ausschnitt des Audiosignals auch noch der Kontext berücksichtigt. Dieser Kontext kann von bereits erkannten Phrasen, aber auch von manuell angegebenen Wörtern kommen. Mittels des Kontexts wird die Suche eingegrenzt, um die Spracherkennung zu beschleunigen.
    </div>

<img src="images/Abbildung2Spracherkennung.png" alt="Drawing" style="width: 1000px;"/>

_Abbildung 2: Für die Durchführung der Spracherkennung werden Ausschnitte aus der Audioaufnahme anhand bestimmter Merkmale (Features) untersucht. Dabei werden die Merkmale zusammen mit aus dem sprachlichen Kontext erzeugten Wortkombinationen in drei Modelle gegeben, um die Übereinstimmung zwischen Wortkombination und Audio zu erhalten. Die Wortkombination mit der besten Übereinstimmung wird dann als erkannter Text zurückgegeben._

<div style="text-align: justify">
    Neben der Geschwindigkeit, mit der Text aus Sprache erkannt wird, ist auch ein Problem, wie die Übereinstimmung zwischen Ausschnitten der Audiodatei und Wortkombinationen überhaupt gefunden wird. Die Dokumentation von <a href="https://cmusphinx.github.io/">CMUSphinx</a>, einer offene Plattform zur Spracherkennung, beinhaltet eine detaillierte <a href="https://cmusphinx.github.io/wiki/tutorialconcepts/">Beschreibung</a>, wie diese Übereinstimmung gefunden wird. Die dort vorgestellte Lösung basiert auf drei Modellen: einem akustischen Modell, einem sprachlichen Modell und einem Modell, welches sich mit dem Zusammenhang zwischen Wörtern und ihren Lauten beschäftigt. Das akustische Modell beinhaltet dabei die Merkmale (Features) der Ausschnitte, während das sprachliche Modell aus dem Kontext vorgibt, welche Wörter abgesucht werden. Die Ergebnisse aus allen drei Modellen werden kombiniert, um jeden überprüften Ausschnitt zu bewerten und so die gesprochene Sprache zu erkennen. Das Resultat ist eine Liste von Kandidaten mit absteigender Bewertung.
    </div>

### Praktische Implementierung

<div style="text-align: justify">
    Für die praktische Implementierung des Use Cases wollen wir Sprachbefehle aufnehmen, in Text umwandeln und so auswerten, dass eine Bestellung automatisch aufgegeben werden kann. Dabei sollte es möglich sein, mehrere Kaffee auf einmal zu bestellen und zwischen den beiden möglichen Kaffeearten (Espresso und verlängerter Kaffee) zu unterscheiden.
    <br /><br />
    
    Um Sprache aufzunehmen und in Text umzuwandeln wurde das <a href="https://pypi.org/project/SpeechRecognition/">SpeechRecognition</a> Modul für Python verwendet. Dieses Modul bietet Verbindungen zu gängigen Schnittstellen zur Spracherkennung. Damit kann z.B. das oben erwähnte <a href="https://cmusphinx.github.io/">CMUSphinx</a> verwendet werden, um lokal Spracherkennung durchzuführen. Es besteht auch die Möglichkeit, die Spracherkennung online, durch Anbieter wie z.B. Google oder Microsoft, durchführen zu lassen.
    <br /><br />
    
    Abbildung 2 zeit den Programmablauf. Zunächst wird der Befehl aufgezeichnet und von Sprache in Text umgewandelt. Die Umwandlung erfolgt mittels der <a href="https://cloud.google.com/speech-to-text#section-3">Google Webspeech API</a>, da diese keine Installation außerhalb der Python Komponenten erfordert und ohne Registrierung gratis verwendet werden kann. Da hier die Spracherkennung in der Cloud durchgeführt wird, ist allerdings eine Internetverbindung notwendig. Nach Ermittlung des Textes führen wir Natural Language Processing, ähnlich wie im AIAV Use Case <i>Erkläre eine Robotik Konferenz... mit AI!</i>, durch. Dabei wenden wir Regular Expressions an um zu zählen, wie oft verschiedene Wörter wie z.B. Espresso oder Kaffee im Text vorkommen. Anhand der Anzahl der vorkommenden Wörter wird dann entschieden, welcher Kaffee bestellt wird. Zusätzlich zur Kaffeeart wird auf die gleiche Weise entschieden, wie viele Kaffee bestellt werden.
    </div>

<img src="images/Abbildung3Programmablauf.png" alt="Drawing" style="width: 1100px;"/>

_Abbildung 3: Um gesprochene Bestellungen zu verarbeiten, wird der aufgenommene Ton zunächst in Textform gebracht. Danach wird im Text gezählt, wie oft bestimmte Schlüsselwörter für die beiden Kaffeearten und Zahlen vorkommen. Die Kaffeeart, die am öftesten vorkommt, wird so oft bestellt, wie die Zahl die am öftesten vorkommt._

### Fazit

<div style="text-align: justify">
Spracherkennung erlaubt es uns, benutzerfreundliche Steuerungen von Robotern mittels Sprache zu realisieren. Bereits vorgefertigte Modelle wie die <a href="https://cloud.google.com/speech-to-text#section-3">Google Webspeech API</a> ermöglichen performante Lösungen, welche wenig Implementierungsaufwand benötigen. Leider sind die meisten gängigen Spracherkennungsmodelle proprietär und kostenpflichtig (z.B. <a href="https://azure.microsoft.com/en-us/services/cognitive-services/speech-services/">Microsoft Bing Speech</a>, <a href="https://cloud.google.com/speech-to-text">Google Cloud Speech</a> oder <a href="https://www.ibm.com/cloud/watson-speech-to-text">IBM Speech to Text</a>). Es gibt aber auch offene Lösungen, wie <a href="https://cmusphinx.github.io/">CMUSphinx</a> oder <a href="https://github.com/mozilla/DeepSpeech">Mozilla's Project DeepSpeech</a> die lokal ausgeführt werden.
    <br /><br />
    
    Diese Implementierung von Natural Language Processing resultiert in einigen Grenzen der Applikation. Die Google Webspeech API unterstützt mehrere Sprachen. Die zu erkennende Sprache muss aber im Vorhinein festgelegt werden; man kann also bei diesem Use Case ohne den Code zu ändern nur auf Deutsch bestellen. Zusätzlich dazu kann pro Bestellung nur eine der möglichen Kaffeearten bestellt werden. Diese Limitierung kommt daher, dass mittels Schlagwörtern nach den Kaffeearten gesucht wird. Die Kaffeeart mit den am öftesten vorkommenden Schlagwörtern wird dann bestellt.
    </div>
    
<P style="page-break-before: always">

## Codedokumentation

<div style="text-align: justify">
    Die Implementierung basiert auf dem <a href="https://pypi.org/project/SpeechRecognition/">SpeechRecognition</a> Modul für <a href="https://www.python.org/downloads/">Python 3</a> (siehe <a href="https://realpython.com/python-speech-recognition/">hier</a> für eine Einführung in die Funktionsweise des Moduls). Für direkten Zugriff auf das Mikrofon wurde das <a href="https://pypi.org/project/PyAudio/">PyAudio</a> verwendet. Die Klassifizierung des erkannten Textes erfolgt mittels <a href="https://docs.python.org/3/howto/regex.html">Regular Expressions</a>.
    </div>

Zunächst importieren wir die benötigten Module und implementieren die Hilfsklasse _textFromSpeech_, welche Spracherkennung direkt mittels eines angeschlossenen Mikrofons oder anhand von gespeicherten Demodateien durchführt und den erkannten Text zurückgibt. Danach implementieren wir noch die _chooseMic_ Methode, welche es uns erlaubt, das zu verwendende Mikrofon aus allen am PC angeschlossenen Audiogeräten auszuwählen. Dabei ist die erste Auswahlmöglichkeit (0) das Standardmikrofon des Systems.

In [None]:
import speech_recognition as sr
import random
import re

class textFromSpeech:
    """ Hilfsklasse zur Durchführung von Speech to Text mittels Google Webspeech API """
    def __init__(self, mic_id=0):
        self.recogniser = sr.Recognizer()
        self.mic = sr.Microphone(device_index=mic_id)
        self.demofilePath = './voiceClips/'
        pass
    def fromMic(self):
        """ Fertigt eine Aufnahme mittels dem Standardmikrofon des Systems an und führt Speech to Text aus. """
        # Öffnen des Mikrofons
        with self.mic as source:
            # Einstellung der Umgebungslautstärke
            print('Kalibriere das Mikrofon auf Zimmerlautstärke. Bitte kurz Ruhe.')
            self.recogniser.adjust_for_ambient_noise(source)
            # Aufnahme der Audiodatei
            print('Jetzt kann gesprochen werden.')
            audio = self.recogniser.listen(source)
            print('Danke, verarbeite das Audiosignal.')
        # Speech to Text mittels Googles Webspeech API
        text = None
        error = None
        try:
            text = self.recogniser.recognize_google(audio, language="de-DE")
        except sr.RequestError:
            text = 'Service API not available'
            error = True
        except sr.UnknownValueError:
            text = 'Could not recognise Speech'
            error = True
        else:
            error = False
        # Rückgabe des Textes
        return error, text
    def fromDemofile(self):
        """ Führt Speech to Text anhand einer zufällig ausgewählten Demodatei aus. """
        # Zufällige Auswahl einer der vorab aufgenommenen Kommandos
        sample = random.randint(1, 4)
        path = self.demofilePath + '{:02d}'.format(sample) + '.wav'
        print('Benutzte Demodatei: {}'.format(path))
        audiofile = sr.AudioFile(path)
        # Aufnahme der Audiodatei
        with audiofile as source:
            audio = self.recogniser.record(source)
        # Speech to Text mittels Googles Webspeech API
        text = None
        error = None
        try:
            text = self.recogniser.recognize_google(audio, language="de-DE")
        except sr.RequestError:
            text = 'Service API not available'
            error = True
        except sr.UnknownValueError:
            text = 'Could not recognise Speech'
            error = True
        else:
            error = False
        # Rückgabe des Textes
        return error, text

def chooseMic():
    """ Assistent zur Auswahl des zu verwendenden Mikrofons """
    print("Verfügbare Mikrofone:")
    for i, entry in enumerate(sr.Microphone.list_microphone_names()):
        print('{} - {}'.format(i, entry))
    print("Bitte ID des zu verwendenden Mikrofons eingeben:")
    while True:
        try:
            num = int(input())
        except ValueError:
            print("Bitte ID des Mikrofons als Zahl eingeben.")
        else:
            break
    return num

Mittels einer Variable kann festgelegt werden, ob die Spracherkennung anhand der Demodateien oder direkt eines Mikrofons durchgeführt wird. Bei Verwendung der Demodateien, wird eine der verfügbaren Dateien zufällig ausgewählt und verarbeitet.

Die oben implementierte Hilfsklasse zur Spracherkennung wird instanziiert, um die Spracherkennung durchzuführen.

In [None]:
# Instanzierung der Hilfsklasse für Speech to Text
# Soll ein Mikrofon statt den Democlips verwendet werden, muss useDemofile=False gesetzt werden
useDemofile = True

# Einlesen einer Demodatei oder Eingabe durch Mikrofon
if useDemofile:
    rec = textFromSpeech()
    error, text = rec.fromDemofile()
else:
    mic_id = chooseMic()
    rec = textFromSpeech(mic_id=mic_id)
    error, text = rec.fromMic()

if error:
    print('Die Audioeingabe konnte nicht zu Text verarbeitet werden. Aufgetretener Fehler:')
    print(text)
else:
    print('Erkannter Text:', end=" ")
    print(text)

Nun wenden wir Regular Expressions an, um zu zählen, wie oft bestimmte Schlüsselwörter im Text vorkommen. Die _keywordClassification_ implementiert diese Funktionalität. Die _amax_ Methode gibt den Index des Elements mit höchstem Wert in einer Liste an.

In [None]:
# Verarbeitung des Textes mittels Natural Language Processing

def keywordClassification(classes, classKeywords, text):
    """ Zählt wie oft angegebene Schlüsselwörter im Text vorkommen """
    # Generierung der Regular Expressions zum Absuchen der Klassen
    regexes = []
    for c in classKeywords:
        regexes.append('\\b(?:' + '|'.join(c) + ')\\b')
    # Der Text wird anhand von Schlagwörtern einer Klasse zugeordnet
    classScore = [0 for i in range(len(classes))]
    for i, expression in enumerate(regexes):
        classScore[i] += len(re.findall(re.compile(expression), text.lower()))
    return classScore

def amax(a):
    """ Gibt den Index des maximalen Elements in einer Liste an """
    return a.index(max(a))

Letztendlich legen wir die Schlüsselwörter für beide Klassen (Kaffee und Espresso) fest, zählen welche Kaffeeart und welche Zahl am öftesten Vorkommen und erstellen daraus die Bestellung.

In [None]:
# Coffeebot kann Bestellungen für einen oder mehrere Kaffee oder Espressi aufnehmen
# Wir wollen dabei ermitteln, was er dem Nutzer bringen soll

# Festlegen der Schlüsselwörter und Klassen
coffeeClasses = [
    'Lungo',
    'Espresso'
]

coffeeClassKeywords = [
    ['kaffee', 'lungo', 'coffee', 'verlängerter', 'verlängerte', 'verlängert', 'großer', 'große'],
    ['espresso', 'brauner', 'klein', 'kleine', 'espressi']
]

amountClassKeywords = [
    ['ein', '1' 'eins', 'einen'],
    ['zwei', '2'],
    ['drei', '3'],
    ['vier', '4'],
    ['fünf', '5']
]

amountClasses = [str(i+1) for i in range(len(amountClassKeywords))]

# Zählen, wie oft Schlüsselwörter jeder Klasse vorkommen
coffeeType = keywordClassification(coffeeClasses, coffeeClassKeywords, text)
coffeeAmount = keywordClassification(amountClasses, amountClassKeywords, text)

# Ist die Bestellung nicht eindeutig, wird nichts beestellt
# Ist sie eindeutig, wird die Bestellung ausgegeben
if coffeeType[0] == coffeeType[1]:
    print("Bestellung ist nicht eindeutig, bitte noch einmal versuchen.")
else:
    print("Erkannte Bestellung: {} mal {}".format(amountClasses[amax(coffeeAmount)], coffeeClasses[amax(coffeeType)]))