# 20.02.2025 - Tiefer eintauchen in Textanalyse, plus Spracherkennung 
---
Zunächst schauen wir und die Sentiment Textanalyse, mit der wir letztes mal begonnen haben, genauer an. Welche Idee steckt hinter dem genutzten Modell? Welche anderen Möglichkeiten bietet die transformers Bibliothek? Danach wechseln wir von der Textform unserer Eingabedaten zum Audioformat: Wir erarbeiten, wie online und offline Spracherkennung in Python umgesetzt werden kann.

* Zur Bearbeitung der Aufgaben können Sie benötigte Informationen zu Python-Befehlen und zu KI relevanten Bibliotheken (numpy, scikit, pandas) aus allen verfügbaren Quellen beziehen. Die meisten findet man natürlich über eine Suche im Internet, oder durch die Nutzung von KI chat-Systemen selbst.
Ein gutes Tutorial für den Start findet sich  z.B. hier: https://www.python-kurs.eu/numerisches_programmieren_in_Python.php

## Phase I: Zusatzinformationen zur Textanalyse

Die **Sentiment-Analyse** (auch Meinungs- oder Stimmungsanalyse genannt) ist ein wichtiges Werkzeug in der **Textanalyse**. Sie dient dazu, die emotionale Haltung eines Textes automatisch zu bestimmen – ob er **positiv** oder **negativ** ist.

Wir haben bereits mittels **TfidfVectorizer** genutzt, um Textdaten in numerische Werte umzuwandeln, um sie für maschinelles Lernen nutzbar zu machen. Es analysiert die Häufigkeit von Wörtern in einem Text (*Term Frequency*, *TF*) und berücksichtigt, wie wichtig diese Wörter im Vergleich zu anderen Texten sind (*Inverse Document Frequency*, *IDF*).
Die resultierenden Ähnlichkeitsvektoren für Texte wurden dann mittels Kosinus-Ähnlichkeit verglichen.

Ein "tieferer" KI-Ansatz, um die Meinung eines oder mehrerer Texte automatisch zu bestimmen, ist die Sentiment-Analyse basierend auf dem "BERT"-Modell.

### Wiederholung der Aufgabe: Sentiment-Analyse mit einem vortrainierten BERT-Modell

In dieser Aufgabe führen wir eine Sentiment-Analyse auf mehreren deutschen Texten durch, um mittels KI zu analysieren, ob die Texte eine positive oder negative Aussage haben.

Installieren Sie zuerst das transformers und das torch Paket: 
```python
pip install transformers torch
```

Nutze Sie in Ihrem Programm aus der `transformers` Bibliothek die `pipeline` Funktionalität. Sie bietet Zugang zu einem Modell, das auf Sentiment-Analyse spezialisiert ist.
Informieren Sie sich, wie ein Modell für deutsche Texte genutzt werden kann.

Analysieren Sie die folgenden Textbeispiele:

texts = [
    "Einfach einzurichten, vielseitig nutzbar, starke Leistungsübertragung, wurde mir empfohlen und kann ich absolut weiter empfehlen.",
    "Es gibt kaum besseres. Wenn man weiß, wie man ein WLAN-Mesh mit AVM Geräten einrichtet, der sollte hier keine Probleme haben.",
    "Ich kann dieses Produkt nicht empfehlen. Wer ein stabiles und benutzerfreundliches Mesh-System sucht, sollte sich nach Alternativen umsehen."
]

In [44]:
# Von Bibliothek transfomerts das tool pipeline importieren
from transformers import pipeline

# Sentiment-Analyse-Pipeline mit deutschem Modell laden
sentiment_pipeline = pipeline("sentiment-analysis", model="oliverguhr/german-sentiment-bert")

# Beispieltexte zur Analyse (Deutsch)
texts = [
    "Das Produkt ist schlecht",
    "Einfach einzurichten, vielseitig nutzbar, starke Leistungsübertragung, wurde mir empfohlen und kann ich absolut weiter empfehlen.",
    "Es gibt kaum besseres. Wenn man weiß, wie man ein WLAN-Mesh mit AVM Geräten einrichtet, der sollte hier keine Probleme haben.",
    "Ich kann dieses Produkt nicht empfehlen. Wer ein stabiles und benutzerfreundliches Mesh-System sucht, sollte sich nach Alternativen umsehen."
]

# Analyse der Texte
results = sentiment_pipeline(texts)

# Ergebnisse ausgeben
for i in range(len(texts)):
    text = texts[i]
    result = results[i]
    print(f"Text: {text}\nSentiment: {result['label']} (Confidence: {result['score']:.4f})\n")


Device set to use cpu


Text: Das Produkt ist schlecht
Sentiment: negative (Confidence: 0.9958)

Text: Einfach einzurichten, vielseitig nutzbar, starke Leistungsübertragung, wurde mir empfohlen und kann ich absolut weiter empfehlen.
Sentiment: positive (Confidence: 0.9995)

Text: Es gibt kaum besseres. Wenn man weiß, wie man ein WLAN-Mesh mit AVM Geräten einrichtet, der sollte hier keine Probleme haben.
Sentiment: positive (Confidence: 0.9949)

Text: Ich kann dieses Produkt nicht empfehlen. Wer ein stabiles und benutzerfreundliches Mesh-System sucht, sollte sich nach Alternativen umsehen.
Sentiment: negative (Confidence: 0.9978)



### Zusammengefasst:

- **NLP (Natural Language Processing)** ist der Bereich der Künstlichen Intelligenz, der sich mit der Verarbeitung von Sprache beschäftigt. Es geht darum, Computern zu ermöglichen, menschliche Sprache zu verstehen, zu interpretieren und darauf zu reagieren.

- **BERT (Bidirectional Encoder Representations from Transformers)** ist ein Modell, das für verschiedene NLP-Aufgaben entwickelt wurde. Es versteht den Kontext eines Textes sowohl aus der linken als auch aus der rechten Seite eines Wortes, was zu einer besseren Textverarbeitung führt.

- **Transformers** ist eine Python-Bibliothek, die es ermöglicht, BERT und viele andere vortrainierte Modelle für NLP-Aufgaben einfach zu verwenden. Die Bibliothek wurde von Hugging Face entwickelt und bietet eine Vielzahl von Tools zur Bearbeitung von Textdaten.

- **Pipeline** ist eine benutzerfreundliche Schnittstelle innerhalb der Transformers-Bibliothek, die vortrainierte Modelle für eine Vielzahl von NLP-Aufgaben (wie Textklassifikation, Named Entity Recognition und Frage-Antwort-Systeme) zur Verfügung stellt. Mit wenigen Zeilen Code kann man so komplexe Aufgaben lösen.


### Die BERT Sentiment Analyse

**BERT** ,einschließlich `oliverguhr/german-sentiment-bert`, ist ein Deep Learning-Modell. Es nutzt die eine Architektur mit Selbstaufmerksamkeit, um die Beziehungen zwischen Wörtern und deren Kontext zu erfassen und zu verstehen. Das Modell wurde durch Vortraining und anschließendem Fine-Tuning auf die Sentiment-Analyse angepasst.



#### Funktionsweise

| Punkt                                | Beschreibung                                                                                     |
|--------------------------------------|-------------------------------------------------------------------------------------------------|
| **1. Vortraining**                   | Das Modell wird auf einem großen Korpus von Textdaten vortrainiert, um Sprachverständnis zu erlangen. |
| 1.a. Masked Language Modeling (MLM) | Teilweise maskierte Wörter im Text werden vom Modell vorhergesagt, um den Kontext zu verstehen. Beispiel: "Der Hund läuft im [MASK]." |
| 1.b. Next Sentence Prediction (NSP)  | Das Modell sagt voraus, ob der zweite Satz sinnvoll auf den ersten folgt. Beispiel: "Der Hund läuft im Park." -> "Er sieht viele Vögel." |
| **2. Feinabstimmung**                | Das Modell wird mit gelabelten Daten (positiv, neutral, negativ) trainiert, um Sentiment-Klassen vorherzusagen. |



##### 1. Vortraining:
Das Modell wird zuerst auf einem riesigen Korpus von Textdaten (z. B. Wikipedia) vortrainiert, um allgemeines Sprachverständnis zu erlangen. Dabei lernt es, wie Wörter im Kontext miteinander verbunden sind, ohne dass es explizite Labels (wie Sentiment) benötigt.

##### 1.a. Masked Language Modeling (MLM):
Bei MLM wird ein Teil der Wörter im Text "maskiert" (also durch ein spezielles Token ersetzt, z. B. `[MASK]`), und das Modell muss vorhersagen, welches Wort an dieser Stelle steht.

Beispiel:
- **Originaltext**: "Der Hund läuft im Park."
- **Maskierter Text**: "Der Hund läuft im [MASK]."
- Das Modell muss vorhersagen, dass das fehlende Wort "Park" ist.

Diese Methode zwingt das Modell, den Kontext auf beiden Seiten eines Wortes zu verstehen, um es richtig zu erraten. So lernt das Modell, die Beziehungen zwischen den Wörtern und deren Bedeutungen zu erkennen, ohne dass es explizite Anweisungen über die Bedeutung der Wörter erhält.

##### 1.b. Next Sentence Prediction (NSP):

Bei NSP wird das Modell mit zwei Sätzen konfrontiert und muss vorhersagen, ob der zweite Satz inhaltlich auf den ersten folgt oder nicht.

Beispiel:
- **Satz 1**: „Der Hund läuft im Park.“
- **Satz 2**: „Er sieht viele Vögel.“
- Die Frage an das Modell wäre: „Folgt Satz 2 sinnvoll auf Satz 1?“ (Ja, in diesem Fall.)

Dadurch lernt BERT, Beziehungen zwischen Sätzen zu erkennen und zu verstehen, wie ein Text zusammenhängend strukturiert ist.


##### 2. Feinabstimmung:
Danach wird das Modell auf spezifische Aufgaben wie Sentiment-Analyse angepasst. Beim Fine-Tuning wird BERT mit gelabelten Daten (positiv, negativ) trainiert, um die richtige Sentiment-Klasse für neue Texte vorherzusagen.


### 1. Aufgabe: Die BERT-Sentiment-Analyse genauer kennenlernen

Wenden Sie die BERT-Sentiment-Analyse aus obiger Aufgabe auf verschiedene, selbstgewählte Texte an. Beobachten Sie die Qualität der automatischen Einstufung in positiv und negativ. 

Mögliche Fragestellungen:
- Ab wann kippt eine Bewertung von positiv nach negativ (oder andersherum).
- Mischung positiver und negativer Aussagen in einem Text.
- Versuchen Sie auch einmal, die BERT-Sentiment-Analyse "auszutricksen", indem Sie komplexe Sätze bilden.

In [4]:
# Von Bibliothek transfomerts das tool pipeline importieren
from transformers import pipeline

# Sentiment-Analyse-Pipeline mit deutschem Modell laden (vgl. https://huggingface.co/transformers/v3.0.2/main_classes/pipelines.html)
sentiment_pipeline = pipeline("sentiment-analysis", model="oliverguhr/german-sentiment-bert")

# Beispieltexte zur Analyse (Deutsch)
texts = [
    "Ich arbeite mit dem Router.",
    "Das Produkt ist nicht das Gegenteil von nicht schlecht",
    "Einfach einzurichten, vielseitig nutzbar, starke Leistungsübertragung, wurde mir empfohlen und kann ich absolut weiter empfehlen.",
    "Es gibt kaum besseres. Wenn man weiß, wie man ein WLAN-Mesh mit AVM Geräten einrichtet, der sollte hier keine Probleme haben.",
    "Ich kann dieses Produkt nicht empfehlen. Wer ein stabiles und benutzerfreundliches Mesh-System sucht, sollte sich nach Alternativen umsehen."
]

# Analyse der Texte
results = sentiment_pipeline(texts)

# Ergebnisse ausgeben
for i in range(len(texts)):
    text = texts[i]
    result = results[i]
    print(f"Text: {text}\nSentiment: {result['label']} (Confidence: {result['score']:.4f})\n")


Device set to use cpu


Text: Ich arbeite mit dem Router.
Sentiment: neutral (Confidence: 0.9998)

Text: Das Produkt ist nicht das Gegenteil von nicht schlecht
Sentiment: negative (Confidence: 0.9010)

Text: Einfach einzurichten, vielseitig nutzbar, starke Leistungsübertragung, wurde mir empfohlen und kann ich absolut weiter empfehlen.
Sentiment: positive (Confidence: 0.9995)

Text: Es gibt kaum besseres. Wenn man weiß, wie man ein WLAN-Mesh mit AVM Geräten einrichtet, der sollte hier keine Probleme haben.
Sentiment: positive (Confidence: 0.9949)

Text: Ich kann dieses Produkt nicht empfehlen. Wer ein stabiles und benutzerfreundliches Mesh-System sucht, sollte sich nach Alternativen umsehen.
Sentiment: negative (Confidence: 0.9978)



### 2. Aufgabe: Die Transformers Pipeline zur Textvervollständigung

Die *transformers* Bibliothek und deren *pipeline* Schnittstelle bietet mehr Features zur Textanalyse als nur die Sentiment Analyse.
Eine weitere Möglichkeit ist die *Text-Vervollständigung*. Diese Funktion wird verwendet, um fehlende Wörter in einem Text zu ergänzen.

Versuchen Sie zur Lösung der Aufgabe folgendes (zunächst ohne online nach Informationen zu suchen):
Ändern Sie das Programm zur Sentiment Analyse von oben so ab, dass die *fill-mask* Funktion benutzt wird. Ein passendes deutschsprachiges Modell ist *dbmdz/bert-base-german-cased*.
Das Resultat der pipeline mit der Fill-Mask Funktion ist wieder eine Liste von Dictionaries. Für jeden Textvorschlag ein Dictionary. Jedes Dictionary enthält die Schlüssel "sequence" und "score". Die Werte hinter diesen Schlüsseln entsprechen der Satzvervollständigung und der zugehörigen Wahrscheinlichkeit.

Die Fill-Mask Funktin sagt mit Hilfe des Modells vorher, welches Wort am besten an die Stelle eines Platzhalters [MASK] in einem Text passt. Wenden Sie es an auf den Satz:

"Er [MASK] vom Fahrrad und brach sich den Arm."

In [5]:
from transformers import pipeline

# Pipeline für Masked Language Modeling (fill-mask) mit deutschem BERT laden
fill_mask = pipeline("fill-mask", model="dbmdz/bert-base-german-cased")

# Beispieltext mit einer Lücke ([MASK])
text = "Er [MASK] vom Fahrrad und brach sich den Arm."

# Modell ausführen
results = fill_mask(text)

# Ergebnisse ausgeben
for result in results:
    print(f"Vorhersage: {result['sequence']} (Wahrscheinlichkeit: {result['score']:.4f})")


BertForMaskedLM has generative capabilities, as `prepare_inputs_for_generation` is explicitly overwritten. However, it doesn't directly inherit from `GenerationMixin`. From 👉v4.50👈 onwards, `PreTrainedModel` will NOT inherit from `GenerationMixin`, and this model will lose the ability to call `generate` and other related functions.
  - If you are the owner of the model architecture code, please modify your model class such that it inherits from `GenerationMixin` (after `PreTrainedModel`, otherwise you'll get an exception).
  - If you are not the owner of the model architecture class, please contact the model code owner to update it.
Some weights of the model checkpoint at dbmdz/bert-base-german-cased were not used when initializing BertForMaskedLM: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassif

Vorhersage: Er stürzte vom Fahrrad und brach sich den Arm. (Wahrscheinlichkeit: 0.6612)
Vorhersage: Er fiel vom Fahrrad und brach sich den Arm. (Wahrscheinlichkeit: 0.1385)
Vorhersage: Er sprang vom Fahrrad und brach sich den Arm. (Wahrscheinlichkeit: 0.1028)
Vorhersage: Er stieg vom Fahrrad und brach sich den Arm. (Wahrscheinlichkeit: 0.0371)
Vorhersage: Er lief vom Fahrrad und brach sich den Arm. (Wahrscheinlichkeit: 0.0143)


## Phase II - Spracherkennung

Spracherkennung ist eine der zentralen Anwenudngen in der Künstlichen Intelligenz, denn sie ermöglicht es, die natürliche, gesprochene Sprache zu verstehen und zu verarbeiten. Sobald gesprochene Sprache in Text umgewandelt wurde, können alle Technologien zur Textverarbeitung angewandt werden. Spracherkennung bildet die Grundlage für digitale Assistenten wie Siri oder Alexa, Transkriptionssoftware und sprachgesteuerte Steuerungssysteme.  
Durch Fortschritte in Deep Learning und neuronalen Netzen hat sich die Genauigkeit der Spracherkennung erheblich verbessert. Moderne Systeme nutzen riesige Sprachmodelle und selbstlernende Algorithmen, um Dialekte, Akzente und sogar Emotionen in der Sprache besser zu erfassen.

Dank leistungsstarker Bibliotheken wie SpeechRecognition, whisper und vosk kann man in Python mit wenigen Zeilen Code gesprochene Sprache in Text umwandeln.

### 3. Aufgabe

Wir starten mit einer Spracherkennungsengine von Google.
Installieren Sie dazu das Python Paket `SpeechRecognition`.
<!-- <span style="font-family: monospace; color:white;"> SpeechRecognition </span>. -->

Informieren Sie Sich über das Modul SpeechRecognition und seine Arbeitsweise. 
Schreiben Sie ein Python Programm, das mit dieser Bibliothek eine Audio-Datei mit deutscher Sprache in Text umwandelt. Der erkannte Text soll ausgegeben werden.
Es gibt unterschiedliche ErkennungsModelle ("recognize"), die mit dieser Bibliothek benutzt werden können. Benutzen Sie in dieser Aufgabe Googles online (!) Modell. 

Nehmen Sie eine eigene Audio Datei auf und lassen Sie diese von Ihrem Programm in Text umwandeln.

Bevor wir verschiedene Versuche mit unserem Programm machen, lassen Sie uns gemeinsam eine Lösungsvariante anschauen.

In [6]:
import speech_recognition as sr

# Einen Recognizer erstellen
r = sr.Recognizer()

# Die WAV-Datei laden
with sr.AudioFile("./AudioKatze2.wav") as source:
    audio_data = r.record(source)

# Offline-Erkennung mit Googles online Modell durchführen
try:
    text = r.recognize_google(audio_data, language="en-US")
    print("Erkannter Text:", text)
except sr.UnknownValueError:
    print("Google konnte den Text nicht verstehen.")
except sr.RequestError as e:
    print("Fehler bei der Google-Anfrage:", e)


Google konnte den Text nicht verstehen.


### 4. Aufgabe

- Testen Sie verschiedene Audioaufnahmen. Wie schlecht muss die Qualität sein, damit Googles online Modell Probleme bei der Erkennung hat?
- Testen Sie auch verschiedene Sprachen, soweit möglich :) 
- Testen Sie eine Kombination aus Audioaufnahme und Spracheinstellung im code, die nicht zusammengehören.

### Online vs. Lokal

Die Nutzung der Google *online* Spracherkennung ist mit Nachteilen verbunden. 

### 5. Aufgabe

Mit dem Modul SpeechRecognition kann auch offline Spracherkennung betrieben werden.
Installieren Sie dazu das Python Paket `pocketsphinx`. Es enthält das offline SprachModell *für englische Sprache*.
Ändern Sie Ihr obiges Programm so ab, dass anstelle des Google online Modells nun das offline Modell *Sphinx* benutzt wird.

Analysieren Sie verschiedene Audioaufnahmen/-dateien.

In [2]:
import speech_recognition as sr

# Einen Recognizer erstellen
r = sr.Recognizer()

# Die WAV-Datei laden
with sr.AudioFile("./AudioWeather.wav") as source:
    audio_data = r.record(source)

# Offline-Erkennung mit Sphinx (pocketsphinx) durchführen
try:
    text = r.recognize_sphinx(audio_data, language="en-US")
    print("Erkannter Text:", text)
except sr.UnknownValueError:
    print("Sphinx konnte den Text nicht verstehen.")
except sr.RequestError as e:
    print("Fehler bei der Sphinx-Anfrage:", e)


Erkannter Text: what a beautiful weather
