# 26.02.2025 - Spracherkennung und ihre Anwendung 
---
Wir vertiefen das Thema Spracherkennung in Python und schauen uns dazu weitere Möglichkeiten an, die das Paket speech_recognition bietet. Im zweiten Teil wenden wir die erlangten Kenntnisse an, um eine Sprachsteuerung in ein existierendes System zu integrieren.

* Zur Bearbeitung der Aufgaben können Sie benötigte Informationen zu Python-Befehlen und zu KI relevanten Bibliotheken (numpy, scikit, pandas) aus allen verfügbaren Quellen beziehen. Die meisten findet man natürlich über eine Suche im Internet, oder durch die Nutzung von KI chat-Systemen selbst.
Ein gutes Tutorial für den Start findet sich  z.B. hier: https://www.python-kurs.eu/numerisches_programmieren_in_Python.php

## Phase I - Mehr zu Spracherkennung

Spracherkennung ist eine der zentralen Anwenudngen in der Künstlichen Intelligenz, denn sie ermöglicht es, die natürliche, gesprochene Sprache zu verstehen und zu verarbeiten. Sobald gesprochene Sprache in Text umgewandelt wurde, können alle Technologien zur Textverarbeitung angewandt werden. Spracherkennung bildet die Grundlage für digitale Assistenten wie Siri oder Alexa, Transkriptionssoftware und sprachgesteuerte Steuerungssysteme.  
Durch Fortschritte in Deep Learning und neuronalen Netzen hat sich die Genauigkeit der Spracherkennung erheblich verbessert. Moderne Systeme nutzen riesige Sprachmodelle und selbstlernende Algorithmen, um Dialekte, Akzente und sogar Emotionen in der Sprache besser zu erfassen.

Dank leistungsstarker Bibliotheken wie SpeechRecognition, whisper und vosk kann man in Python mit wenigen Zeilen Code gesprochene Sprache in Text umwandeln.

### Wiederholung: Spracherkennung

In diesem Python Programm wird die onine Spracherkennungsengine von Google genutzt, um Sprache, aufgenommen in einem Audiofile, in Text umzuwandeln.


In [None]:
# Speech Recognition Bibliothek importieren
import speech_recognition as sr

# Einen Recognizer erstellen
recognizer = sr.Recognizer()

# Die WAV-Datei laden
with sr.AudioFile(".\VampiresBiteAnfang.wav") as source:
    audio_data = recognizer.record(source)

# Erkennung mit Googles online Modell durchführen
try:
    text = recognizer.recognize_google(audio_data)
    print("Erkannter Text:", text)
except sr.UnknownValueError:
    print("Google konnte den Text nicht verstehen.")
except sr.RequestError as e:
    print("Fehler bei der Google-Anfrage:", e)


Eine sehr gute Einführung und Übersicht zur Bibliothek *speech_recognition* findet sich hier:
https://realpython.com/python-speech-recognition/

### Online vs. Lokal

Die Nutzung der Google *online* Spracherkennung ist mit Nachteilen verbunden. 

### 1. Aufgabe

Mit dem Modul SpeechRecognition kann auch offline Spracherkennung betrieben werden.
Installieren Sie dazu das Python Paket `pocketsphinx`. Es enthält das offline SprachModell *für englische Sprache*, und ist mit dem Modul speech_recognition kompatibel.
Ändern Sie Ihr Programm zur online Sprachanalyse mit Google so ab, dass anstelle des Google online Modells nun das offline Modell *Sphinx* benutzt wird.

Vergleichen Sie die Resultate der Spracherkennung zwischen online und offline Variante.

In [None]:
# Speech Recognition Bibliothek importieren
import speech_recognition as sr

# Einen Recognizer erstellen
recognizer = sr.Recognizer()

# Die WAV-Datei laden
with sr.AudioFile(".\VampiresBiteAnfang.wav") as source:
    audio_data = recognizer.record(source)

# Erkennung mit Sphinx offline Modell durchführen
try:
    text = recognizer.recognize_sphinx(audio_data)
    print("Erkannter Text:", text)
except sr.UnknownValueError:
    print("Google konnte den Text nicht verstehen.")
except sr.RequestError as e:
    print("Fehler bei der Google-Anfrage:", e)


### 2. Aufgabe
Die `record` Methode der Klasse Recognizer kann mittels Parameter konfiguriert werden. Dazu stehen die Paramter `duration` und `offset` zur Verfügung. 
Testen Sie die record Methode mit verschiedenen Werten für diese Parameter. (Google oder Sphinx Variante).

In [None]:
# Speech Recognition Bibliothek importieren
import speech_recognition as sr

# Einen Recognizer erstellen
recognizer = sr.Recognizer()

# Die WAV-Datei laden
with sr.AudioFile(".\VampiresBiteAnfang.wav") as source:
    audio_data = recognizer.record(source, duration=5, offset=0)

# Erkennung mit Sphinx offline Modell durchführen
try:
    text = recognizer.recognize_sphinx(audio_data)
    print("Sphinx:", text)
except sr.UnknownValueError:
    print("Google konnte den Text nicht verstehen.")
except sr.RequestError as e:
    print("Fehler bei der Sphinx-Anfrage:", e)

# Erkennung mit Google offline Modell durchführen
try:
    text = recognizer.recognize_google(audio_data)
    print("Google:", text)
except sr.UnknownValueError:
    print("Google konnte den Text nicht verstehen.")
except sr.RequestError as e:
    print("Fehler bei der Google-Anfrage:", e)
    

Mit **Live-Spracherkennung** kann Sprache in Echtzeit über ein Mikrofon aufgenommen und in Text umgewandelt werden. Dies ermöglicht Anwendungen wie Sprachsteuerung, Diktierfunktionen oder interaktive Assistenten. Sobald man in Python Zugriff auf die Mikrofon-Hardware des Computers hat, bietet die Bibliothek speech_recognition alle benötigten Methoden, um die Audiosignale des Mikrofons zu verarbeiten. Der Zugriff auf die Mikrofon-Hardware wird ermöglicht mit dem Paket `pyaudio`.

### 3. Aufgabe
Installieren Sie das Python Paket *pyaudio*.
Programmieren Sie eine Variante Ihres Spracherkennungsprogramms, das Spracheingabe über Mikrofon zu Text umwandelt.

In [None]:
# Speech Recognition Bibliothek importieren
import speech_recognition as sr

# Einen Recognizer erstellen
recognizer = sr.Recognizer()

# Mikrofon erstellen
mic = sr.Microphone(device_index=0)

# Mikrofon als Audioquelle nutzen
with mic as source:
    # Umgebungsgeräusche anpassen (optional, verbessert die Erkennung)
    recognizer.adjust_for_ambient_noise(source)
    # Audio aufnehmen/zuhören
    audio = recognizer.listen(source)
        # Sprache in Text umwandeln (Google Speech Recognition API)
    try:
        text = recognizer.recognize_google(audio)
        print("Google:", text)
    except sr.UnknownValueError:
        print("Google konnte den Text nicht verstehen.")
    except sr.RequestError as e:
        print("Fehler bei der Google-Anfrage:", e)

## Phase II - Anwendung der Spracherkennung -> Sprachsteuerung

Mit Python lässt sich die Spracherkennung nutzen, um eine Sprachsteuerung umsetzen. Diese erkennt die gesprochenen Befehle erkennt und reagiert darauf. So können Programme per Stimme gesteuert werden. Durch Kombination mit Textverarbeitung oder KI lassen sich sogar komplexere Interaktionen realisieren.

### 4. Aufgabe
Fügen Sie eine Sprachsteuerung zu Ihrem grafischen Taschenrechner hinzu.

Nehmen Sie sich für die folgenden Punkte ausreichend Zeit:
- Überlegen Sie, was die Sprachsteuerung konkret machen soll.
- Planen Sie, welche Programmelemente dazu an welcher Stelle neu hinzukommen sollen.
- Implementieren Sie Ihre Lösung.

*(Nehmen Sie gerne als Ausgangspunkt Ihre eigene Taschenrechner Implementierung vom letzten mal. Ansonsten findet sich auch das Minimalbeispiel der Taschenrechner GUI unter
https://lms2.schulcampus-rlp.de/SN-62808/course/view.php?id=453&section=2 -> "*From-PySide6-Simple*" )*