# 15.01.2025 - Ähnlichkeiten in Texten & Weiterführung des Themas GUI 
---
Zu Beginn wiederholen wir das Thema Ähnlichkeiten. Danach führen wir das Thema weiter, und erarbeiten wie die Ähnlichkeit von Texten mit scikit learn bestimmt werden können. Dazu bedienen wir uns auch an Python-Methoden, die Eigenschaften bzgl. der Worthäufigkeit in Texten bestimmen. Im zweiten Abschnitt führen wir den Exkurs zum Thema graphische Benutzeroberflächen fort.

* Zur Bearbeitung der Aufgaben können Sie benötigte Informationen zu Python-Befehlen und zu KI relevanten Bibliotheken (numpy, scikit, pandas) aus allen verfügbaren Quellen beziehen. Die meisten findet man natürlich über eine Suche im Internet, oder durch die Nutzung von KI chat-Systemen selbst.
Ein gutes Tutorial für den Start findet sich  z.B. hier: https://www.python-kurs.eu/numerisches_programmieren_in_Python.php

## Phase I: Wiederholung zu Ähnlichkeiten

Der Grad der Ähnlichkeit zwischen zwei oder mehr Datensätzen ist eine wertvolle Information, die zur automatischen Entscheidungsfindung genutzt werden kann. Angewandt wird dies z.B. bei Empfehlungssystemen, der Textanalyse, sowie der Klassifikation.

Die Nutzung von Ähnlichkeiten ermöglicht es, Entscheidungen auf Basis von Vorhersagen und Mustern zu treffen, ohne dass explizite Regeln vorgegeben werden müssen, was die Entscheidungsfindung effizient und skalierbar macht.

Wir bestimmen die Ähnlichkeit zwischen 2 Datensätzen mittels *Kosinus-Ähnlichkeit*.

### Was ist die Kosinus-Ähnlichkeit?

Die *Kosinus-Ähnlichkeit* ist ein Maß dafür, wie ähnlich sich zwei Vektoren sind. Sie ist eng verwandt mit dem Skalarprodukt, hat jedoch den Vorteil, dass die Längen der Vektoren nicht in die Berechnung der Ähnlichkeit mit einfließen.

#### Wiederholung Skalarprodukt:
Das **Skalarprodukt** zweier Vektoren $\mathbf{a} = (a_1, a_2, \dots, a_n)$ und $\mathbf{b} = (b_1, b_2, \dots, b_n)$ wird folgendermaßen berechnet:

$$
\mathbf{a} \cdot \mathbf{b} = a_1 \cdot b_1 + a_2 \cdot b_2 + \dots + a_n \cdot b_n
$$

Das Ergebnis ist eine Zahl (ein Skalar).

##### Beispiel
$$
\begin{pmatrix} 
\textcolor{red}{3} & \textcolor{green}{2} & \textcolor{gray}{1}
\end{pmatrix}

\cdot

\begin{pmatrix} 
\textcolor{red}{1}  \\
\textcolor{green}{0}  \\
\textcolor{gray}{4} 
\end{pmatrix}

=

\textcolor{red}{3 \cdot 1} + \textcolor{green}{2 \cdot 0} + \textcolor{gray}{1 \cdot 4} 

=

\textcolor{yellow}{7}
$$

Das Skalarprodukt (auch inneres Produkt oder Punkt-Produkt genannt) zweier Vektoren $ \mathbf{a} $ und $ \mathbf{b} $ ist eng mit dem Winkel $ \theta $ zwischen diesen Vektoren verknüpft. Der mathematische Zusammenhang lautet:

$$
\mathbf{a} \cdot \mathbf{b} = |\mathbf{a}| |\mathbf{b}| \cos(\theta)
$$

- $ \mathbf{a} \cdot \mathbf{b} $: Das Skalarprodukt der Vektoren $ \mathbf{a} $ und $ \mathbf{b} $.
- $ |\mathbf{a}| $ und $ |\mathbf{b}| $: Die Längen (Beträge) der Vektoren $ \mathbf{a} $ und $ \mathbf{b} $.
- $ \theta $: Der Winkel zwischen den Vektoren $ \mathbf{a} $ und $ \mathbf{b} $.

Interpretation des Skalarprodukts:
1. **Positives Skalarprodukt** ($ \mathbf{a} \cdot \mathbf{b} > 0 $): Der Winkel $ \theta $ liegt zwischen 0° und 90° (Vektoren zeigen in ähnliche Richtungen).
2. **Null Skalarprodukt** ($ \mathbf{a} \cdot \mathbf{b} = 0 $): Der Winkel $ \theta $ beträgt 90° (die Vektoren sind orthogonal, also senkrecht zueinander).
3. **Negatives Skalarprodukt** ($ \mathbf{a} \cdot \mathbf{b} < 0 $): Der Winkel $ \theta $ liegt zwischen 90° und 180° (Vektoren zeigen in entgegengesetzte Richtungen).

#### Die Kosinus-Ähnlichkeit

Die **Kosinus-Ähnlichkeit** wird wie folgt berechnet:

$$
\text{Kosinus-Ähnlichkeit}(\mathbf{a}, \mathbf{b}) = \frac{\mathbf{a} \cdot \mathbf{b}} {|\mathbf{a}| \cdot |\mathbf{b}|} = \cos(\theta)
$$

 Interpretation der Kosinus-Ähnlichkeit:
1. $\quad 0 < \text{Kosinus-Ähnlichkeit} <= 1$: Die Vektoren zeigen in exakt die gleiche Richtung (hohe Ähnlichkeit). Je näher der Wert an $1$ ist, desto höher ist die Änlichkeit.
2. $\quad \text{Kosinus-Ähnlichkeit} = 0$: Die Vektoren sind orthogonal (keine Ähnlichkeit).  
3. $\quad -1 <= \text{Kosinus-Ähnlichkeit} < 0$: Die Vektoren zeigen in entgegengesetzte Richtungen (sehr selten in der Praxis).


### Wiederholung der Aufgabe: Nutzer mit gleichen Interessen finden

 Rudolph besucht gerade die Startseite eines Streamingdienstes für Filme. An dieser Stelle möchte der Streamingdienst Rudolph Vorschläge machen für Filme, die andere Nutzer mit gleichen Interessen wie Rudolph geguckt haben.
 Der Streamingdienst greift dazu auf die Bewertungen seiner Nutzer zu Filmen zurück. Er vergleicht Rudolphs Filmbewertungen mit denen der anderen Nutzer, und findet darüber heraus, welcher andere Nutzer einen filmischen Geschmack hat, der am besten zu dem von Rudolph passt. Daraufhin schlägt der Streamingdienst Rudolph Filme vor, die der zu ihm passende Nutzer schon gesehen hat, Rudolph aber noch nicht. 

Was wird hier verglichen: Jeder Nutzer hat einen Vektor bestehend aus seinen Filmbewertungen. Jeder Vektor repräsentiert das Filmprofil eines Nutzers. Diese Profile (Vektoren) können miteinander verglichen werden.
Übernehmen Sie die unten angegebenen Sterne-Bewertungen von Nutzern für Filme in Python. Jeder Nutzer bekommt somit sein Bewertungsprofil als Vektor. Bestimmen Sie die Ähnlichkeiten des Profils von Rudolph mit den Profilen aller anderen User. Nutzen Sie dazu die Kosinus-Ähnlichkeit, die in der Bibliothek sklearn zur Verfügung gestellt wird.

Welcher andere Nutzer hat einen Filmgeschmack, der Rudolph am ähnlichsten ist?

|                           | Stirb langsam | Schöne Bescherung | The Beatles: Get Back (Doku) | Mitten ins Herz | O Brother, Where Art Thou? |
|---------------------------|---------------|---------------|---------------------|-----------------|----------------------------|
| User 0                      | 3             | 1             | 1                   | 4               | 3                          |
| User 1                      | 3             | 2             | 5                   | 5               | 5                          |
| User 2                      | 1             | 1             | 5                   | 5               | 4                          |
| User 3                      | 4             | 4             | 1                   | 1               | 0                          |
| User 4                      | 0             | 1             | 5                   | 0               | 1                          |
| User 5                      | 4             | 5             | 5                   | 1               | 1                          |
| Rudolph                    | 3             | 4             | 4                   | 2               | 1                          |



In [1]:
# Bibliotheken importieren

import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# Filme:
# 0: Stirb langsam
# 1: Schöne Bescherung
# 2: The Beatles: Get Back (Doku)
# 3: Mitten ins Herz
# 4: O Brother, Where Art Thou

# Bewertungen: 0 bis 5 Sterne

# Bewertungen in Python übernehmen

BewertungsDB = np.array(
    [[3, 1, 1, 4, 3],
    [3, 2, 5, 5, 5],
    [1, 1, 5, 5, 4],
    [4, 4, 1, 1, 0],
    [0, 1, 5, 0, 1],
    [4, 5, 5, 1, 1]]
)

BewertungenRudolph = np.array([3, 4, 4, 2, 1])

Vergleichsresultate = np.zeros(6)

# Das Bewertungsprofil jeden users mit dem von Rudolph vergleichen: Mittels Kosinus-Ähnlichkeit
for person in range(6):
    Vergleich = cosine_similarity(BewertungsDB[person].reshape(1,-1), BewertungenRudolph.reshape(1,-1))
    Vergleichsresultate[person] = Vergleich[0][0]

#  Ausgabe
print (Vergleichsresultate)

[0.68806246 0.817303   0.7330785  0.85972695 0.70938044 0.98339799]


Die Nutzung von Ähnlichkeiten ermöglicht es, Entscheidungen auf Basis von Vorhersagen und Mustern zu treffen, ohne dass explizite Regeln vorgegeben werden müssen, was die Entscheidungsfindung effizient und skalierbar macht.

Was heißt das?


1. Entscheidungen auf Basis von Vorhersagen und Mustern treffen:

    Die erkannten Ähnlichkeiten repräsentieren Muster (Gemeinsamkeiten). Sie werden dazu genutzt, Vorhersagen zu machen. Z.B. kann ein Algorithmus, der Kundenprofile analysiert, Aussagen darüber treffen welche Produkte ein Kunde interessant finden könnte.

2. Ohne dass explizite Regeln vorgegeben werden müssen:

    Im Gegensatz zu klassischen Systemen, die auf handgeschriebenen Regeln basieren (z. B. "Wenn A, dann B"), lernt das System die Muster aus den Daten selbst.

3. Effizient und skalierbar:

    Dieser Ansatz kann große Mengen an Daten bewältigen, da keine ständige Anpassung von Regeln erforderlich ist. Neue Daten können einfach integriert werden, und das System passt sich an, ohne dass ein Mensch eingreifen muss. Dadurch wird die Entscheidungsfindung schneller (effizient) und kann auf größere Datenmengen oder komplexere Probleme angewendet werden (skalierbar).

$\rightarrow$ Der Satz beschreibt ein grundlegendes Prinzip in der künstlichen Intelligenz und im maschinellen Lernen!

### 1. Aufgabe: Ähnlichkeit zwischen Texten bestimmen

Ein Technikkonzern hat eine neue Smartwatch auf den Markt gebracht. Kurz nach Markteinführung sammelt er große Mengen an Feedback und Meinungen, die Käufer an verschiedenen Stellen online veröffentlicht haben. Diese Feedback-Texte werden nun bezüglich ihrer Ähnlichkeit zueinander untersucht. Mit dieser Methode gruppiert der Konzern ähnliche Texte  und findet "Ausreißertexte" mit Meinungen, die hervorstechen.

Erfassen Sie unten stehende Feedbacktexte in einer Liste in Python. Damit Sie mit den Texten "rechnen" können, müssen sie  in numerische Werte übersetzt werden. Benutzen Sie dazu den "TfidfVectorizer" aus der sklearn Bibliothek. Dieses tool wandelt einen Text in einen numerischen Vektor um. Nach dessen Anwendung können Sie die Cosinus-Ähnlichkeit der Vektoren (und damit der zugehörigen Texte) zueinander berechnen. 

Lassen Sie sich eine "Ähnlichkeitsmatrix" ausgeben, die die Werte der Kosinus-Ähnlichkeit zwischen allen Textpaaren enthält.
Lassen Sie sich zusätzlich diejenigen Textpaare explizit ausgeben, deren Ähnlichkeitswert unter 0.1 liegt.

Sie können folgende 10 Feedback-Texte nutzen (Doppelklick in diese Zelle, um die Texte in passendem copy-paste Format zu sehen):

"Stylisch und robust, mit smarter Funktionalität, wasserdichtem Design und einem langlebigen Akku – perfekt für Alltag und Sport.",
"Elegant, komfortabel und wasserdicht, mit smarten Features und einem langlebigen Akku, ideal für Freizeit und Beruf.",
"Innovativ und stilvoll, mit robuster Technik, smarter Funktionalität und einer Akkulaufzeit, die dich durch den Tag begleitet.",
"Präzise, smart und wasserdicht, mit einem langlebigen Akku und vielseitigen Anwendungen – entwickelt für maximale Effizienz.",
"Diese Smartwatch ist robust und wasserdicht, kombiniert stylisches Design mit smarter Technik und beeindruckender Akkulaufzeit.",
"Komfortabel und präzise, mit smarten Funktionen, einem langlebigen Akku, und wasserdicht, – perfekt für jeden Tag.",
"Stilvoll, perfekte Smartwatch, robust und wasserdicht, mit vielseitigen Funktionen, smarten Features und einer zuverlässigen Akkulaufzeit.",
"Kombination aus smarten Funktionen, wasserdicht und mit vielsitigen Anwendungen, robust und langlebig - für jeden Tag geeignet.",
"Aussehen veraltet, mangelhafte Verarbeitung, leider schnell leer, nur eingeschränkte Funktionen, langweilig – deshalb enttäuschend für den Alltag.",
"Langweilig und enttäuschend, keine neuen Funktionen, Aussehen veraltet, leider nichts für mich"

In [2]:
# Bibliotheken importieren

import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

#  Feedback-Texte in Python übernehmen

# texte = [
    # "Stylisch, robust und wasserdicht – diese Smartwatch bietet präzise Funktionen, eine lange Akkulaufzeit und innovative Features, die dir helfen, deinen Alltag effizient und aktiv zu gestalten. Ideal für Abenteuer.",
    # "Mit ihrem eleganten Design und wasserdichtem Gehäuse bietet diese Smartwatch außergewöhnliche Leistung, eine lange Akkulaufzeit und präzise Funktionen, die dir helfen, deine Ziele einfach und effektiv zu erreichen.",
    # "Diese Smartwatch überzeugt mit einem modernen, stilvollen Design, einem robusten, wasserdichten Gehäuse und präzisen Funktionen, um dir zu helfen, dich fit zu halten und den Tag effizient zu gestalten.",
    # "Mit wasserdichtem Design, langer Akkulaufzeit und einer Vielzahl an Funktionen ist diese Smartwatch der perfekte Begleiter für deinen aktiven Lebensstil. Präzise, vielseitig und immer zuverlässig – genau, was du brauchst.",
    # "Elegantes Design trifft auf wasserdichtes Gehäuse und innovative Technik. Diese Smartwatch bietet dir eine lange Akkulaufzeit, präzise Messungen und zahlreiche Funktionen, die deinen Alltag leichter und effizienter machen.",
    # "Stylisch, robust und vielseitig – diese Smartwatch ist wasserdicht, bietet präzise Funktionen und eine lange Akkulaufzeit. Sie hilft dir, dein Leben besser zu organisieren und gesünder zu gestalten. Der perfekte Begleiter.",
    # "Mit einer langen Akkulaufzeit, einem wasserdichten Gehäuse und smarter Funktionalität ist diese Smartwatch perfekt für alle, die ihren Alltag optimieren und effizienter gestalten möchten. Kompakt, leistungsfähig und zuverlässig.",
    # "Diese Smartwatch ist stylisch, robust und wasserdicht. Sie bietet eine lange Akkulaufzeit und präzise Funktionen, die dir helfen, deinen Alltag aktiv und produktiv zu gestalten – ideal für Fitness und Beruf.",
    # "Mit einem modernen, eleganten Design und wasserdichtem Gehäuse bietet diese Smartwatch nicht nur stilvolle Optik, sondern auch präzise Funktionen, lange Akkulaufzeit und innovative Features, die dein Leben erleichtern.",
    # "Elegant, robust und wasserdicht – diese Smartwatch bietet präzise Funktionen, eine lange Akkulaufzeit und smarte Features, die dir helfen, deinen Alltag zu optimieren und mehr aus deinem Tag herauszuholen.",
    # "Mit wasserdichtem Design, smarter Funktionalität und einer langen Akkulaufzeit ist diese Smartwatch der perfekte Begleiter für alle, die ihr Leben effizienter und aktiver gestalten möchten. Modern, robust und zuverlässig.",
    # "Diese Smartwatch ist die perfekte Kombination aus stilvollem Design, wasserdichtem Gehäuse und einer beeindruckenden Akkulaufzeit. Sie bietet präzise Funktionen und ist ideal für Fitness, Arbeit und Alltag.",
    # "Mit präzisen Messungen, einem wasserdichten Gehäuse und einer langen Akkulaufzeit bietet diese Smartwatch alles, was du für einen aktiven Lebensstil brauchst. Stilvoll, robust und immer bereit, dich zu unterstützen.",
    # "Stylisch, wasserdicht und langlebig – diese Smartwatch bietet eine Vielzahl von Funktionen, um deinen Alltag effizienter und aktiver zu gestalten. Mit langer Akkulaufzeit und präziser Technik für jeden Moment.",
    # "Diese Smartwatch ist mit einem wasserdichten Gehäuse, langer Akkulaufzeit und innovativen Funktionen ausgestattet. Sie bietet alles, was du brauchst, um deinen Alltag produktiver, gesünder und stilvoller zu gestalten.",
#     "Robust, wasserdicht und vielseitig – diese Smartwatch überzeugt mit präziser Technik, langer Akkulaufzeit und zahlreichen Funktionen, die dir helfen, dein Leben effizient und gesund zu gestalten. Der perfekte Begleiter.",
#     "Elegantes Design, wasserdichtes Gehäuse und präzise Funktionen – diese Smartwatch hilft dir, deine täglichen Ziele zu erreichen, sei es beim Sport, im Beruf oder in deiner Freizeit. Langlebig und zuverlässig.",
#     "Diese Smartwatch kombiniert stilvolles Design mit wasserdichtem Gehäuse, innovativen Funktionen und langer Akkulaufzeit. Sie hilft dir, deinen Alltag zu organisieren, gesund zu bleiben und effizienter zu arbeiten.",
#     "Mit wasserdichtem Design, smarter Funktionalität und einer langen Akkulaufzeit ist diese Smartwatch der perfekte Begleiter für dich, um deinen Alltag produktiv zu gestalten und deine Fitnessziele zu erreichen.",
#     "Diese Smartwatch ist wasserdicht, robust und bietet präzise Funktionen. Mit einer langen Akkulaufzeit und einem eleganten Design ist sie ideal, um deinen Alltag zu verbessern und deine Ziele effizient zu erreichen.",
#     "Elegantes Design und wasserdichtes Gehäuse machen diese Smartwatch zu einem stilvollen Begleiter. Sie bietet präzise Messungen, eine lange Akkulaufzeit und smarte Funktionen, die deinen Alltag erleichtern und verbessern.",
#     "Mit einer langen Akkulaufzeit, einem wasserdichten Gehäuse und präzisen Funktionen ist diese Smartwatch der perfekte Begleiter für deinen aktiven Lebensstil. Sie hilft dir, deine Ziele zu erreichen und dich fit zu halten.",
#     "Diese Smartwatch bietet elegantes Design, wasserdichtes Gehäuse und eine lange Akkulaufzeit. Mit präzisen Funktionen hilft sie dir, deinen Alltag besser zu organisieren und deine Fitnessziele effizient zu erreichen.",
#     "Mit ihrem modernen Design und wasserdichtem Gehäuse bietet diese Smartwatch präzise Funktionen, eine lange Akkulaufzeit und smarte Features, die dir helfen, deine Ziele auf effiziente Weise zu erreichen.",
#     "Mit einer robusten Bauweise, wasserdichtem Design und präzisen Funktionen ist diese Smartwatch der perfekte Begleiter, um deinen Alltag effizient zu gestalten und deine Fitnessziele mühelos zu erreichen.",
#     "Stylisch und wasserdicht – diese Smartwatch kombiniert präzise Funktionen und eine lange Akkulaufzeit mit einem eleganten Design, das deinen Alltag produktiver und gesünder macht. Dein perfekter Begleiter für jede Herausforderung.",
#     "Mit wasserdichtem Design und einer langen Akkulaufzeit ist diese Smartwatch der perfekte Begleiter für alle, die ihre Fitnessziele effizient erreichen und ihren Alltag aktiv gestalten möchten. Modern und robust.",
#     "Diese Smartwatch ist stilvoll, wasserdicht und robust. Sie bietet eine lange Akkulaufzeit und präzise Funktionen, die dir helfen, deinen Alltag besser zu organisieren und deine Ziele zu erreichen.",
#     "Elegantes Design trifft auf wasserdichtes Gehäuse und innovative Funktionen. Diese Smartwatch hilft dir, deine täglichen Ziele zu erreichen und deinen aktiven Lebensstil zu unterstützen – mit langer Akkulaufzeit.",
#     "Stylisch, robust und wasserdicht – diese Smartwatch bietet präzise Funktionen und eine lange Akkulaufzeit, die dir helfen, deinen Tag besser zu organisieren und deine Ziele effizient zu erreichen.",
#     "Diese Smartwatch ist der perfekte Begleiter für deinen Alltag. Mit wasserdichtem Design, präzisen Funktionen und einer langen Akkulaufzeit unterstützt sie dich, deine Fitnessziele zu erreichen und produktiv zu bleiben.",
#     "Mit wasserdichtem Gehäuse, langer Akkulaufzeit und smarter Funktionalität ist diese Smartwatch ein unverzichtbarer Begleiter, der dir hilft, deinen aktiven Lebensstil zu optimieren und deine Ziele zu erreichen.",
#     "Mit einem eleganten Design und wasserdichtem Gehäuse bietet diese Smartwatch präzise Funktionen und eine lange Akkulaufzeit, die dir helfen, deine Fitnessziele zu erreichen und deinen Alltag zu organisieren.",
#     "Elegantes Design, wasserdichtes Gehäuse und präzise Funktionen machen diese Smartwatch ideal für deinen aktiven Lebensstil. Mit einer langen Akkulaufzeit unterstützt sie dich dabei, deine Ziele effizient zu erreichen.",
#     "Stylisch und robust – diese Smartwatch bietet wasserdichtes Design, lange Akkulaufzeit und präzise Funktionen, die deinen Alltag vereinfachen und dich dabei unterstützen, deine Ziele effizient zu erreichen.",
#     "Diese Smartwatch kombiniert stilvolles Design, wasserdichtes Gehäuse und präzise Funktionen in einem Gerät. Mit langer Akkulaufzeit ist sie der perfekte Begleiter für den modernen Lebensstil.",
#     "Mit einer langen Akkulaufzeit, wasserdichtem Gehäuse und innovativen Funktionen bietet diese Smartwatch alles, was du brauchst, um deinen Alltag effizient zu gestalten und deine Fitnessziele zu erreichen.",
#     "Mit einem modernen Design und wasserdichtem Gehäuse ist diese Smartwatch der perfekte Begleiter. Sie bietet präzise Funktionen und eine lange Akkulaufzeit, um deinen Alltag zu optimieren und zu bereichern.",
#     "Stylisch und wasserdicht, bietet diese Smartwatch präzise Funktionen und eine lange Akkulaufzeit. Sie hilft dir, deine Fitnessziele zu erreichen und deinen Alltag aktiv zu gestalten – zuverlässig und robust.",
#     "Diese Smartwatch ist stylisch, wasserdicht und bietet präzise Funktionen. Mit einer langen Akkulaufzeit hilft sie dir, deinen Alltag zu organisieren und deine Fitnessziele effizient zu erreichen.",
#     "Mit wasserdichtem Design und einer beeindruckenden Akkulaufzeit ist diese Smartwatch der perfekte Begleiter, um deinen aktiven Lebensstil zu unterstützen und deine Ziele effizient zu erreichen. Stilvoll und präzise.",
#     "Stylisch und robust, diese Smartwatch bietet wasserdichtes Design und eine lange Akkulaufzeit. Sie hilft dir, deine Fitnessziele zu erreichen und deinen Alltag zu organisieren – jederzeit und überall.",
#     "Diese Smartwatch bietet dir alles, was du brauchst – stilvolles Design, wasserdichtes Gehäuse und präzise Funktionen. Mit einer langen Akkulaufzeit hilft sie dir, deinen Alltag effizienter zu gestalten.",
#     "Mit einem modernen, wasserdichten Design und langer Akkulaufzeit ist diese Smartwatch der perfekte Begleiter für deinen aktiven Lebensstil. Sie bietet präzise Funktionen, die dir helfen, deine Ziele zu erreichen.",
#     "Stylisch, robust und wasserdicht – diese Smartwatch kombiniert präzise Funktionen und lange Akkulaufzeit in einem eleganten Design, das dir hilft, deine Fitnessziele zu erreichen und deinen Alltag zu verbessern.",
#     "Diese Smartwatch ist der ideale Begleiter für deinen Alltag. Mit wasserdichtem Design, präzisen Funktionen und langer Akkulaufzeit optimiert sie deinen Lebensstil und unterstützt dich bei deinen täglichen Zielen.",
#     "Mit einer langen Akkulaufzeit und wasserdichtem Gehäuse bietet diese Smartwatch zahlreiche Funktionen, die dir helfen, deinen Alltag zu organisieren und deine Fitnessziele effizient zu erreichen. Stilvoll und robust.",
#     "Mit wasserdichtem Design und präzisen Funktionen bietet diese Smartwatch eine lange Akkulaufzeit. Sie hilft dir, deine Fitnessziele zu erreichen und deinen Alltag effizienter und aktiver zu gestalten.",
#     "Stylisch und wasserdicht – diese Smartwatch bietet präzise Funktionen und eine lange Akkulaufzeit, um deinen aktiven Lebensstil zu unterstützen und deine Ziele einfach und effizient zu erreichen.",
#     # "Der Elektriker hat viel Fachwissen, toller Mann!",
#     "Leider enttäuscht die Smartwatch auf ganzer Linie. Sie bietet veraltete Funktionen, hat eine kurze Akkulaufzeit und das Design wirkt billig. Im Vergleich zu anderen Modellen ist sie weder innovativ noch benutzerfreundlich.",
#     "Die Smartwatch erfüllt nicht die Erwartungen. Sie ist langsam, die Akkulaufzeit ist zu kurz, und das Display wirkt unscharf. Zusätzlich ist die Benutzeroberfläche unübersichtlich, was die Nutzung sehr frustrierend macht."
# ]
documents = [
    "Stylisch und robust, mit smarter Funktionalität, wasserdichtem Design und einem langlebigen Akku – perfekt für Alltag und Sport.",
    "Elegant, komfortabel und wasserdicht, mit smarten Features und einem langlebigen Akku, ideal für Freizeit und Beruf.",
    "Innovativ und stilvoll, mit robuster Technik, smarter Funktionalität und einer Akkulaufzeit, die dich durch den Tag begleitet.",
    "Präzise, smart und wasserdicht, mit einem langlebigen Akku und vielseitigen Anwendungen – entwickelt für maximale Effizienz.",
    "Diese Smartwatch ist robust und wasserdicht, kombiniert stylisches Design mit smarter Technik und beeindruckender Akkulaufzeit.",
    "Komfortabel und präzise, mit smarten Funktionen, einem langlebigen Akku, und wasserdicht, – perfekt für jeden Tag.",
    "Stilvoll, perfekte Smartwatch, robust und wasserdicht, mit vielseitigen Funktionen, smarten Features und einer zuverlässigen Akkulaufzeit.",
    "Kombination aus smarten Funktionen, wasserdicht und mit vielsitigen Anwendungen, robust und langlebig - für jeden Tag geeignet.",
    "Aussehen veraltet, mangelhafte Verarbeitung, leider schnell leer, nur eingeschränkte Funktionen, langweilig – deshalb enttäuschend für den Alltag.",
    "Langweilig und enttäuschend, keine neuen Funktionen, Aussehen veraltet, leider nichts für mich"
    "Der Elektriker hat viel Fachwissen, die Spots in der Decke sehen super aus."
]


# TF-IDF-Berechnung
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documents)

# Kosinus-Ähnlichkeit aller Textpaare berechnen
similarity_matrix = cosine_similarity(X)

# Ausgabe der Ähnlichkeitsmatrix
print("Ähnlichkeitsmatrix:")
print(np.round(similarity_matrix,2))

# Ausgabe der Textpaare, deren Kosinus-Ähnlichkeit < 0.1 ist.
print("Werte < 0.1 in der Ähnlichkeitsmatrix:")
for i in range(similarity_matrix.shape[0]):  # Durch Zeilen iterieren
    for j in range(similarity_matrix.shape[1]):  # Durch Spalten iterieren
        if similarity_matrix[i, j] < 0.1:
            print(f"Zeile {i}, Spalte {j}: {similarity_matrix[i, j]:.4f}")

Ähnlichkeitsmatrix:
[[1.   0.33 0.22 0.29 0.29 0.41 0.17 0.19 0.08 0.08]
 [0.33 1.   0.11 0.33 0.15 0.52 0.29 0.23 0.02 0.08]
 [0.22 0.11 1.   0.08 0.25 0.15 0.28 0.13 0.06 0.03]
 [0.29 0.33 0.08 1.   0.12 0.44 0.21 0.23 0.02 0.07]
 [0.29 0.15 0.25 0.12 1.   0.14 0.31 0.16 0.   0.04]
 [0.41 0.52 0.15 0.44 0.14 1.   0.25 0.42 0.06 0.12]
 [0.17 0.29 0.28 0.21 0.31 0.25 1.   0.26 0.03 0.08]
 [0.19 0.23 0.13 0.23 0.16 0.42 0.26 1.   0.05 0.1 ]
 [0.08 0.02 0.06 0.02 0.   0.06 0.03 0.05 1.   0.41]
 [0.08 0.08 0.03 0.07 0.04 0.12 0.08 0.1  0.41 1.  ]]
Werte < 0.1 in der Ähnlichkeitsmatrix:
Zeile 0, Spalte 8: 0.0849
Zeile 0, Spalte 9: 0.0794
Zeile 1, Spalte 8: 0.0218
Zeile 1, Spalte 9: 0.0823
Zeile 2, Spalte 3: 0.0823
Zeile 2, Spalte 8: 0.0584
Zeile 2, Spalte 9: 0.0326
Zeile 3, Spalte 2: 0.0823
Zeile 3, Spalte 8: 0.0224
Zeile 3, Spalte 9: 0.0657
Zeile 4, Spalte 8: 0.0000
Zeile 4, Spalte 9: 0.0361
Zeile 5, Spalte 8: 0.0631
Zeile 6, Spalte 8: 0.0339
Zeile 6, Spalte 9: 0.0805
Zeile 7, Spalte 8: 0

### 2. Aufgabe: Weiterführung

Wiederholen Sie die vorangegangene Aufgabe. Arbeiten Sie dabei mit kurzen, selbsterstellten Texten und beobachten Sie, wie sich die Ähnlichkeiten der Texte ändert, wenn der Inhalt eines oder mehrerer Texte geändert wird bzw. neue Texte hinzukommen oder bestehende Texte wegfallen.


### "TfidfVectorizer"

Der **TfidfVectorizer** ist ein Tool aus der Bibliothek scikit-learn. Es wandelt Textdaten in numerische Werte um, um sie für maschinelles Lernen nutzbar zu machen. Es analysiert dabei die Häufigkeit von Wörtern in einem Text (*Term Frequency*, *TF*) und berücksichtigt, wie wichtig diese Wörter im Vergleich zu anderen Texten sind (*Inverse Document Frequency*, *IDF*). Wörter, die in vielen Texten häufig vorkommen (z. B. "und", "das"), erhalten weniger Gewicht, während spezifische, seltene Wörter stärker betont werden. So entsteht eine gewichtete Repräsentation, die den Inhalt eines Textes besser beschreibt.

##### 1. **Term Frequency (TF)**
Die Term Frequency (TF) gibt an, wie oft ein Wort \( w \) in einem Dokument \( d \) vorkommt, relativ zur Gesamtanzahl der Wörter im Dokument:

$$
\text{TF}(w, d) = \frac{\text{Anzahl der Vorkommen von } w \text{ in } d}{\text{Gesamtanzahl der Wörter in } d}
$$



##### 2. **Inverse Document Frequency (IDF)**
Die Inverse Document Frequency (IDF) bewertet, wie "wichtig" ein Wort ist, indem seltener vorkommende Wörter höher gewichtet werden. Sie wird berechnet als:

$$
\text{IDF}(w) = \ln \left( \frac{N + 1}{\text{DF}(w) + 1} \right)   + 1
$$

Dabei ist:
- $N $: Anzahl der Dokumente insgesamt.
- $\text{DF}(w)$: Anzahl der Dokumente, in denen das Wort $w $ vorkommt.
- Der Term $+1$ im Nenner verhindert Division durch Null.



##### 3. **TF-IDF**
Die TF-IDF-Kombination berechnet die endgültige Gewichtung eines Wortes $ w $ in einem Dokument $ d $:

$$
\text{TF-IDF}(w, d) = \text{TF}(w, d) \cdot \text{IDF}(w)
$$



##### Ergebnis
- **Häufig vorkommende Wörter in einem Dokument (hoher TF)** erhalten ein hohes Gewicht.
- **Wörter, die in vielen Dokumenten erscheinen (hoher DF)**, werden abgewertet.
- **Spezifische und seltene Wörter (hoher TF, niedriger DF)** erhalten die höchste Gewichtung.

Das Ergebnis ist eine **gewichtete Matrix**, die jedes Dokument numerisch darstellt und für maschinelles Lernen verwendet werden kann.


### 3. Aufgabe: TF-IDF Verstehen

Erstellen Sie eine kleine Liste mit kurzen Texten in Python. Berechnen Sie die *TF-IDF* Werte für dieser Textliste und geben Sie sie aus. Wie verändern sich die Werte, wenn der Inhalt eines oder mehrerer Texte geändert wird bzw. neue Texte hinzukommen oder bestehende Texte wegfallen? 

In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

# Beispiel-Dokumente
dokumente = [
    "Die Sonne scheint",
    "Die Sonne scheint heute besonders hell",
    "Es ist ein sonniger Tag"
]

# TfidfVectorizer initialisieren
vectorizer = TfidfVectorizer()

# TF-IDF-Matrix berechnen
tfidf_matrix = vectorizer.fit_transform(dokumente)

# Vokabular abrufen
vocabulary = vectorizer.get_feature_names_out()

# IDF-Werte abrufen
idf_values = vectorizer.idf_

# TF-IDF-Matrix in ein DataFrame umwandeln
tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=vocabulary)

# IDF-Werte anzeigen
idf_df = pd.DataFrame({'Wort': vocabulary, 'IDF': idf_values})

print("TF-IDF-Werte:")
print(tfidf_df)

print("\nIDF-Werte:")
print(idf_df)


TF-IDF-Werte:
   besonders       die       ein        es      hell     heute       ist  \
0   0.000000  0.577350  0.000000  0.000000  0.000000  0.000000  0.000000   
1   0.459548  0.349498  0.000000  0.000000  0.459548  0.459548  0.000000   
2   0.000000  0.000000  0.447214  0.447214  0.000000  0.000000  0.447214   

    scheint     sonne  sonniger       tag  
0  0.577350  0.577350  0.000000  0.000000  
1  0.349498  0.349498  0.000000  0.000000  
2  0.000000  0.000000  0.447214  0.447214  

IDF-Werte:
         Wort       IDF
0   besonders  1.693147
1         die  1.287682
2         ein  1.693147
3          es  1.693147
4        hell  1.693147
5       heute  1.693147
6         ist  1.693147
7     scheint  1.287682
8       sonne  1.287682
9    sonniger  1.693147
10        tag  1.693147


## Phase II: Weiterführung

Zum Einstieg in das Themas **GUI-Programmierung** wurde eine Benutzeroberfläche programmiert, die die Funktionen eines einfachen Taschenrechners enthielt.

Siehe: https://lms2.schulcampus-rlp.de/SN-62808/course/view.php?id=453&section=2

Zur Vertiefung, wie die GUI Programmierung aufgebaut ist, erweitern wir den Taschenrechner:

### 4. Aufgabe: Taschenrechner GUI mit Verlaufsanzeige

Fügen Sie der Taschenrechner GUI ein "Verlauf(History) Feld" hinzu. In diesem Feld sollen vergangene, ausgeführte Rechenanweisungen stehen.
Versuchen Sie zu erst, ein solches Feld hinzuzufügen, indem Sie sich den grundsätzlichen Aufbau der GUI-Programmierung des Taschenrechners vom letzten mal anschauen und nachvollziehen. Recherchieren Sie dann, wie neue Felder und Text darin hinzugefügt werden. Nehmen Sie gerne als Ausgangspunkt Ihre eigene Taschenrechner Implementierung vom letzten mal. Ansonsten findet sich auch das Minimalbeispiel der Taschenrechner GUI in o.a. Link, unter "*From-PySide6-Simple*". Über Details der Verlaufsanzeige, wie z.B. Position, max. Anzahl an Einträgen, etc., können Sie selbst entscheiden.