# 29.01.2025 - Magic in Klassen, Erweiterte KI Textanalyse 
---
Wir betrachten zu Beginn einen weiteren Aspekt von Klassen in Python: Die "Magic" Methoden. Sie ermöglichen es, das Verhalten von Objekten in vordefinierten Situationen selbst festzulegen. Danach schauen wir uns Python KI Methoden zur Textanalyse an, die über das Zählen und Gewichten von Wörtern in Texten hinausgeht. Dazu lassen wir mittels KI die Stimmung, die einem Text inneliegt, bestimmen.

* Zur Bearbeitung der Aufgaben können Sie benötigte Informationen zu Python-Befehlen und zu KI relevanten Bibliotheken (numpy, scikit, pandas) aus allen verfügbaren Quellen beziehen. Die meisten findet man natürlich über eine Suche im Internet, oder durch die Nutzung von KI chat-Systemen selbst.
Ein gutes Tutorial für den Start findet sich  z.B. hier: https://www.python-kurs.eu/numerisches_programmieren_in_Python.php

## Phase I - Magic in Klassen

### Wiederholung Aufgabe
Programmieren Sie eine Klasse, z.B. "MatrixPruefer", in der die von Ihnen geschriebenen Funktionen der oberen Aufgaben als Methoden "gebündelt" werden.

Überlegungen:
- Welche Attribute soll die Klasse haben?
- Welche Aufgaben soll der Konstruktor `__int()__` der Klasse übernehmen?
- Können die Funktionen von oben 1:1 als Methoden der Klasse kopiert werden?

In [None]:
import numpy as np

class MatrixPruefer:
    def __init__(self, matrix):
        """
        Konstruktor, der überprüft, ob die Matrix quadratisch ist.
        """
        self.matrix = np.array(matrix)  # Sicherstellen, dass es ein np.array ist

        zeilen, spalten = self.matrix.shape
        if zeilen != spalten:
            raise ValueError("Die Matrix muss quadratisch sein!")

        self.n = zeilen  # Hier setzen wir die Dimension der Matrix

    def __str__(self):
        return f"Anzahl der Zeilen: {self.n}"

    def diagonale_ist_eins(self):
        """
        Überprüft, ob alle Elemente auf der Hauptdiagonalen den Wert 1 haben.
        """
        for i in range(self.n):
            if self.matrix[i][i] != 1:
                return False
        return True

    def ist_symmetrisch(self):
        """
        Überprüft, ob die gegebene quadratische Matrix symmetrisch ist.
        """
        for i in range(self.n):
            for j in range(i, self.n):  # Nur obere Dreieckshälfte prüfen
                if self.matrix[i][j] != self.matrix[j][i]:
                    return False
        return True

    def werte_in_intervall_0_1(self):
        """
        Überprüft, ob alle Werte in der Matrix im Bereich [0, 1] liegen.
        """
        for i in range(self.n):
            for j in range(self.n):
                if not (0 <= self.matrix[i][j] <= 1):
                    return False
        return True

    def durchschnitt_unteres_dreieck(self):
        """
        Berechnet den Durchschnittswert der Elemente im unteren Dreieck der Matrix.
        """
        summe = 0
        count = 0
        for i in range(self.n):
            for j in range(i):
                summe += self.matrix[i][j]
                count += 1
        return summe / count 

    def zeile_max_min_sum(self):
        """
        Findet die Zeile mit der größten und kleinsten Summe der Elemente.
        """
        zeilen_summen = [sum(row) for row in self.matrix]
        max_zeile = np.argmax(zeilen_summen)
        min_zeile = np.argmin(zeilen_summen)
        return int(max_zeile), int(min_zeile)
    

# Hauptprogramm

matrix = [
    [1, 0, 1],
    [0, 1, 0],
    [1, 0, 1]
]

matrix_pruefer1 = MatrixPruefer(matrix)

# Methoden aufrufen
print(matrix_pruefer1.diagonale_ist_eins())  
print(matrix_pruefer1.ist_symmetrisch())     
print(matrix_pruefer1.werte_in_intervall_0_1())  
print(matrix_pruefer1.durchschnitt_unteres_dreieck()) 
print(matrix_pruefer1.zeile_max_min_sum())  

print(matrix_pruefer1)


## Einführung in Magic Methods in Python

In Python sind **Magic Methods** (auch "Dunder Methods", kurz für "Double Underscore Methods") spezielle Methoden, die mit doppelten Unterstrichen (`__`) beginnen und enden. Sie ermöglichen es, das Verhalten von Objekten in bestimmten Situationen zu definieren, z. B. bei mathematischen Operationen, Vergleichen oder der String-Repräsentation.

Magic Methods ermöglichen eine intuitive Nutzung eigener Klassen, indem sie das Verhalten von Objekten anpassen - ganz im Sinne der objektorientierten Programmierung.

### Beispiele für Magic Methods

1. **`__init__` (Konstruktor)**
   - Wird beim Erstellen einer Instanz automatisch aufgerufen.

2. **`__str__` (String-Repräsentation für `print()`)**
   - Definiert die lesbare Darstellung eines Objekts.

4. **Vergleichsoperatoren (`__eq__`, `__lt__`, `__gt__`, etc.)**
   - Definieren, wie Objekte miteinander verglichen werden.




### Beispielklasse Auto

In diesem Beispiel ist der Gleichheitsoperator so definiert, dass zwei Auto-Objekte genau dann gleich sind, wenn Marke und Typ gleich sind.

In [None]:
class Auto:
    def __init__(self, marke, modell, farbe):
        """
        Konstruktor zur Initialisierung der Auto-Attribute
        """
        self.marke = marke
        self.modell = modell
        self.farbe = farbe

    def __eq__(self, other):
        """
        Vergleicht zwei Autos. Zwei Autos gelten als gleich, wenn Marke und Modell übereinstimmen.
        """
        if not isinstance(other, Auto):
            return False
        return self.marke == other.marke and self.modell == other.modell

    def __str__(self):
        """
        Gibt eine string-Darstellung des Autos zurück.
        """
        return f"Auto: {self.marke} {self.modell}, Farbe: {self.farbe}"


# Hauptprogramm:
autoAlt = Auto("Citroen", "C1", "Blau")
autoNeu = Auto("Skoda", "Octavia", "Blau")
Leihwagen = Auto("Skoda", "Octavia", "Schwarz")

print("AutoAlt gleich AutoNeu: ", autoAlt == autoNeu)  
print("AutoNeu gleich Leihwagen: ", autoNeu == Leihwagen)  


### 1. Aufgabe

Finden Sie heraus, wie die Vergleichsoperatoren ==, <=, <, >, >= auf Numpy-Arrays funktionieren.
Testen Sie dazu in einem kleinen Python Programm, welche Resultate die Vergleiche bringen. 

In [None]:
# Bibliotheken importieren
import numpy as np


# Arrays definieren und vergleichen
Array_1 = np.array([[1,2,3,4,5,6,7],[4,12,13,43,56,5,78]])
Array_2 = np.array([1,2,3,4,5,5,7])

print (Array_1 == Array_2)
print (Array_1 <= Array_2)
print (Array_1 >= Array_2)
print (Array_1 < Array_2)
print (Array_1 > Array_2)
print (Array_1 != Array_2)

### 2. Aufgabe

Schreiben Sie für die Klasse MatrixPruefer eine eigene Definition für den == Vergleich:

Zwei MatrixPruefer-Objekte sind dann gleich, wenn, fü r jedes ihrer Matrixelemente gilt:

- Ist das Matrixelement $a_{ij}$ aus dem ersten MatrixPruefer $< 0.5$, dann muss auch das entsprechende Matrixelement $b_{ij}$ aus dem zweiten Matrixpruefer $< 0.5$ sein.
- Ist das Matrixelement $a_{ij}$ aus dem ersten MatrixPruefer $>= 0.5$, dann muss auch das entsprechende Matrixelement $b_{ij}$ aus dem zweiten Matrixpruefer $>= 0.5$ sein.

In [4]:
# Bibliotheken importieren
import numpy as np


# Klasse MatrixPruefer
class MatrixPruefer_Gleich:

    # Konstruktor
    def __init__(self, matrix):
        """
        Konstruktor, der überprüft, ob die Matrix quadratisch ist.
        """
        self.matrix = np.array(matrix)  # Sicherstellen, dass es ein np.array ist

        zeilen, spalten = self.matrix.shape
        if zeilen != spalten:
            raise ValueError("Die Matrix muss quadratisch sein!")

        self.n = zeilen  # Hier setzen wir die Dimension der Matrix

    # Magic Methode zum überprüfen der Gleichheit, gemäß den gegebenen Bedingungen
    def __eq__(self, other):

        #Ist das andere Überhaupt ein passendes Objekt?
        if not isinstance(other, MatrixPruefer_Gleich):
            print("Das zweite ist kein Objekt dieser Klasse!")
            return False
        
        #Keine gleiche Größe, also keine gleichen Matrizen 
        if self.n != other.n:
            print ("Die Matrizen haben nicht die gleiche Größe!")
            return False
        
        return np.array_equal(self.matrix < 0.5, other.matrix < 0.5)  #Python-Magic
        
        # #Ab hier wird endlich mal verlglichen
        # for i in range (self.n):
        #     for j in range(self.n):
        #         if (self.matrix[i][j] < 0.5 and other.matrix[i][j] >= 0.5) or (self.matrix[i][j] >= 0.5 and other.matrix[i][j] < 0.5):
        #             print(f"Es die erste Ungleichheit ist an der Stelle [{i}][{j}] aufgetreten!")
        #             return False
        # return True

# Hauptprogramm

matrix_1 = [
    [1, 0, 1],
    [0, 1, 0],
    [1, 0, 1]
]
matrix_2 = [
    [0.6, 0.1, 0.8],
    [0.4, 0.5, 0.2],
    [0.7, 0.3, 0.4]
]
matrix_3 = [
    [0.5, 0.4, 0.5],
    [0.4, 0.5, 0.4],
    [0.5, 0.4, 0.5]
]

matrix_4 = [
    [1, 0, 1, 0],
    [0, 1, 0, 1],
    [1, 0, 1, 0],
    [0, 1, 0, 1]
]


matrix_pruefer1 = MatrixPruefer_Gleich(matrix_1)
matrix_pruefer2 = MatrixPruefer_Gleich(matrix_2)
matrix_pruefer3 = MatrixPruefer_Gleich(matrix_3)
matrix_pruefer4 = MatrixPruefer_Gleich(matrix_4)

# Testen der Gleichheit zweier Instanzen von MatrixPruefer

print (matrix_pruefer1 == matrix_pruefer2)
print (matrix_pruefer1 == matrix_pruefer3)
print (matrix_pruefer3 == matrix_pruefer2)
print (matrix_pruefer1 == matrix_pruefer4)
print (matrix_pruefer1 == matrix_1)

Es die erste Ungleichheit ist an der Stelle [2][2] aufgetreten!
False
True
Es die erste Ungleichheit ist an der Stelle [2][2] aufgetreten!
False
Die Matrizen haben nicht die gleiche Größe!
False
Das zweite ist kein Objekt dieser Klasse!
False


## Phase II: Sentiment Textanalyse

Die **Sentiment-Analyse** (auch Meinungs- oder Stimmungsanalyse genannt) ist ein wichtiges Werkzeug in der **Textanalyse**. Sie dient dazu, die emotionale Haltung eines Textes automatisch zu bestimmen – ob er **positiv** oder **negativ** ist.

Wir haben bereits mittels **TfidfVectorizer** genutzt, um Textdaten in numerische Werte umzuwandeln, um sie für maschinelles Lernen nutzbar zu machen. Es analysiert die Häufigkeit von Wörtern in einem Text (*Term Frequency*, *TF*) und berücksichtigt, wie wichtig diese Wörter im Vergleich zu anderen Texten sind (*Inverse Document Frequency*, *IDF*).
Die resultierenden Ähnlichkeitsvektoren für Texte wurden dann mittels Kosinus-Ähnlichkeit verglichen.

Ein "tieferer" KI-Ansatz, um die Meinung eines oder mehrerer Texte automatisch zu bestimmen, ist die Sentiment-Analyse basierend auf dem "BERT"-Modell.

### 3. Aufgabe: Sentiment-Analyse mit einem vortrainierten BERT-Modell

In dieser Aufgabe führen wir eine Sentiment-Analyse auf mehreren deutschen Texten durch, um mittels KI zu analysieren, ob die Texte eine positive oder negative Aussage haben.

Installieren Sie zuerst das transformers torch Paket: 
```python
pip install transformers torch
```

Nutze Sie in Ihrem Programm aus der `transformers` Bibliothek die `pipeline` Funktionalität. Sie bietet Zugang zu einem Modell, das auf Sentiment-Analyse spezialisiert ist.
Informieren Sie sich, wie ein Modell für deutsche Texte genutzt werden kann.

Analysieren Sie die folgenden Textbeispiele:

texts = [
    "Einfach einzurichten, vielseitig nutzbar, starke Leistungsübertragung, wurde mir empfohlen und kann ich absolut weiter empfehlen.",
    "Es gibt kaum besseres. Wenn man weiß, wie man ein WLAN-Mesh mit AVM Geräten einrichtet, der sollte hier keine Probleme haben.",
    "Ich kann dieses Produkt nicht empfehlen. Wer ein stabiles und benutzerfreundliches Mesh-System sucht, sollte sich nach Alternativen umsehen."
]

In [8]:
# Von Bibliothek transfomerts das tool pipeline importieren
from transformers import pipeline

# Sentiment-Analyse-Pipeline mit deutschem Modell laden
sentiment_pipeline = pipeline("sentiment-analysis", model="oliverguhr/german-sentiment-bert")

# Beispieltexte zur Analyse
texts = [
    "Einfach einzurichten, vielseitig nutzbar, starke Leistungsübertragung, wurde mir empfohlen und kann ich absolut weiter empfehlen.",
    "Es gibt kaum besseres. Wenn man weiß, wie man ein WLAN-Mesh mit AVM Geräten einrichtet, der sollte hier keine Probleme haben.",
    "Ich kann dieses Produkt nicht empfehlen. Wer ein stabiles und benutzerfreundliches Mesh-System sucht, sollte sich nach Alternativen umsehen."
]

# Analyse der Texte
results = sentiment_pipeline(texts)

# Ergebnisse ausgeben
for text, result in zip(texts, results):
    print(f"Text: {text}\nSentiment: {result['label']} (Score: {result['score']:.4f})\n")


Device set to use cpu


Text: Einfach einzurichten, vielseitig nutzbar, starke Leistungsübertragung, wurde mir empfohlen und kann ich absolut weiter empfehlen.
Sentiment: positive (Score: 0.9995)

Text: Es gibt kaum besseres. Wenn man weiß, wie man ein WLAN-Mesh mit AVM Geräten einrichtet, der sollte hier keine Probleme haben.
Sentiment: positive (Score: 0.9949)

Text: Ich kann dieses Produkt nicht empfehlen. Wer ein stabiles und benutzerfreundliches Mesh-System sucht, sollte sich nach Alternativen umsehen.
Sentiment: negative (Score: 0.9978)



Nikitas Lösung:
![alt text](image.png)
In letzem Kommentar steht am Ende "Gerät"

### Zusammengefasst:

- **NLP (Natural Language Processing)** ist der Bereich der Künstlichen Intelligenz, der sich mit der Verarbeitung von Sprache beschäftigt. Es geht darum, Computern zu ermöglichen, menschliche Sprache zu verstehen, zu interpretieren und darauf zu reagieren.

- **BERT (Bidirectional Encoder Representations from Transformers)** ist ein Modell, das für verschiedene NLP-Aufgaben entwickelt wurde. Es versteht den Kontext eines Textes sowohl aus der linken als auch aus der rechten Seite eines Wortes, was zu einer besseren Textverarbeitung führt.

- **Transformers** ist eine Python-Bibliothek, die es ermöglicht, BERT und viele andere vortrainierte Modelle für NLP-Aufgaben einfach zu verwenden. Die Bibliothek wurde von Hugging Face entwickelt und bietet eine Vielzahl von Tools zur Bearbeitung von Textdaten.

- **Pipeline** ist eine benutzerfreundliche Schnittstelle innerhalb der Transformers-Bibliothek, die vortrainierte Modelle für eine Vielzahl von NLP-Aufgaben (wie Textklassifikation, Named Entity Recognition und Frage-Antwort-Systeme) zur Verfügung stellt. Mit wenigen Zeilen Code kann man so komplexe Aufgaben lösen.


### Die BERT Sentiment Analyse

**BERT** ,einschließlich `oliverguhr/german-sentiment-bert`, ist ein Deep Learning-Modell. Es nutzt die eine Architektur mit Selbstaufmerksamkeit, um die Beziehungen zwischen Wörtern und deren Kontext zu erfassen und zu verstehen. Das Modell wurde durch Vortraining und anschließendem Fine-Tuning auf die Sentiment-Analyse angepasst.



#### Funktionsweise

| Punkt                                | Beschreibung                                                                                     |
|--------------------------------------|-------------------------------------------------------------------------------------------------|
| **1. Vortraining**                   | Das Modell wird auf einem großen Korpus von Textdaten vortrainiert, um Sprachverständnis zu erlangen. |
| 1.a. Masked Language Modeling (MLM) | Teilweise maskierte Wörter im Text werden vom Modell vorhergesagt, um den Kontext zu verstehen. Beispiel: "Der Hund läuft im [MASK]." |
| 1.b. Next Sentence Prediction (NSP)  | Das Modell sagt voraus, ob der zweite Satz sinnvoll auf den ersten folgt. Beispiel: "Der Hund läuft im Park." -> "Er sieht viele Vögel." |
| **2. Feinabstimmung**                | Das Modell wird mit gelabelten Daten (positiv, negativ) trainiert, um Sentiment-Klassen vorherzusagen. |



##### 1. Vortraining:
Das Modell wird zuerst auf einem riesigen Korpus von Textdaten (z. B. Wikipedia) vortrainiert, um allgemeines Sprachverständnis zu erlangen. Dabei lernt es, wie Wörter im Kontext miteinander verbunden sind, ohne dass es explizite Labels (wie Sentiment) benötigt.

##### 1.a. Masked Language Modeling (MLM):
Bei MLM wird ein Teil der Wörter im Text "maskiert" (also durch ein spezielles Token ersetzt, z. B. `[MASK]`), und das Modell muss vorhersagen, welches Wort an dieser Stelle steht.

Beispiel:
- **Originaltext**: "Der Hund läuft im Park."
- **Maskierter Text**: "Der Hund läuft im [MASK]."
- Das Modell muss vorhersagen, dass das fehlende Wort "Park" ist.

Diese Methode zwingt das Modell, den Kontext auf beiden Seiten eines Wortes zu verstehen, um es richtig zu erraten. So lernt das Modell, die Beziehungen zwischen den Wörtern und deren Bedeutungen zu erkennen, ohne dass es explizite Anweisungen über die Bedeutung der Wörter erhält.

##### 1.b. Next Sentence Prediction (NSP):

Bei NSP wird das Modell mit zwei Sätzen konfrontiert und muss vorhersagen, ob der zweite Satz inhaltlich auf den ersten folgt oder nicht.

Beispiel:
- **Satz 1**: „Der Hund läuft im Park.“
- **Satz 2**: „Er sieht viele Vögel.“
- Die Frage an das Modell wäre: „Folgt Satz 2 sinnvoll auf Satz 1?“ (Ja, in diesem Fall.)

Dadurch lernt BERT, Beziehungen zwischen Sätzen zu erkennen und zu verstehen, wie ein Text zusammenhängend strukturiert ist.


##### 2. Feinabstimmung:
Danach wird das Modell auf spezifische Aufgaben wie Sentiment-Analyse angepasst. Beim Fine-Tuning wird BERT mit gelabelten Daten (positiv, negativ) trainiert, um die richtige Sentiment-Klasse für neue Texte vorherzusagen.


### 4. Aufgabe: Die BERT-Sentiment-Analyse genauer kennenlernen

Wenden Sie die BERT-Sentiment-Analyse aus obiger Aufgabe auf verschiedene, selbstgewählte Texte an. Beobachten Sie die Qualität der automatischen Einstufung in positiv und negativ. 

Mögliche Fragestellungen:
- Ab wann kippt eine Bewertung von positiv nach negativ (oder andersherum).
- Mischung positiver und negativer Aussagen in einem Text.
- Versuchen Sie auch einmal, die BERT-Sentiment-Analyse "auszutricksen", indem Sie komplexe Sätze bilden.