# Semantische Suche

Erstellt Embeddings (Vektoren), die die Bedeutung der gegebenen Inhalte in 200 Dimensionen kodiert. Für die Umwandlung von Text bzw. Wörtern in sog. Embeddings wurde ein Model trainiert, auf das hier zurückgegriffen wird.

Folgendes Beispiel zeigt, wie man mit diesen Vektoren rechnen kann. Subtrahiert man woman vom Wort mother und addiert man man erhält man father, wie du im folgenden Beispiel siehst. (Hinweis: Der Download kann etwas länger dauern).

Hast du noch weitere Ideen, mit welchen Wörtern man rechnen kann?

z.B. teacher - school + university = professor
z.B. pretzel - germany + france ≈ baguette


In [None]:
import gensim.downloader as api
model = api.load("glove-wiki-gigaword-200")



In [None]:
vec = model["mother"] - model["woman"] + model["man"]


model.similar_by_vector(vec, topn=5)

Im nächsten Beispiel nutzen wir diesen Technologie, um die Bedeutung von Texten zu durchsuchen. Dafür nutzen wir eine Liste an Texten und ein Suchbegriff, die von einem Modell in Vektoren umgewandelt werden. Mithilfe des Skalarprodukts kann dann über alle Dimensionen die Ähnlichkeit von zwei Vektoren ermittelt werden. Dabei ist der Wert größer je "mehr" die Vektoren in ihrer Richtung übereinstimmen. Dabei ist es einfacher sich das ganze im 3-Dimensionalen Raum vorzustellen.

Für diese Aufgabe ist allerdings ein anderes Model nötig, da dieses ganze Sätze verstehen kann. Dies konvertiert die Sätze in 768 dimensionale Vektoren.

In [None]:
from sentence_transformers import SentenceTransformer, util
import torch

model = SentenceTransformer("sentence-transformers/paraphrase-mpnet-base-v2")

In [None]:

sentences = [
    "Deep learning models are revolutionizing natural language processing.",
    "Reinforcement learning algorithms are used in robotics and game playing.",
    "Generative adversarial networks are creating realistic images and videos.",
    "Explainable AI is crucial for building trust in AI systems.",
    "Ethical considerations in AI development are becoming increasingly important."
]

len(sentences)

In [None]:
encodings = model.encode(sentences)

# Das ist die Frage, die mit den gebenen Sätze verglichen wird?
# Welcher Satz passt den deiner Meinung nach zu folgender Frage?
query = "Which model is used for media creation?"

queryEncoding = model.encode(query)

# Mithilfe der Softmax Funktion werden die Ähnlichkeiten normiert und als Wahrscheinlichkeitsverteilung ausgegeben
result = torch.nn.Softmax(1)(util.cos_sim(queryEncoding, encodings),)
result


In [None]:
# Der höchste Wert wird gesucht und der beste passendste Satz wird ausgegeben

# Die Argmax-Funktion gibt den Index des höchsten Werts zurück
highest = torch.argmax(result)
print(highest)
print(sentences[highest])
#

- Aufgabe: Finde drei Wortpaare, die sich semantisch ähnlich sind (z.B. glücklich - zufrieden).
Schwierigkeitsgrad: leicht

- Aufgabe: Erkläre mit eigenen Worten, was ein Embedding ist.
Schwierigkeitsgrad: leicht

- Aufgabe: Verändere den Suchbegriff (query) im Code und beobachte, wie sich das Ergebnis ändert. Beschreibe deine Beobachtungen.
Schwierigkeitsgrad: mittel

- Aufgabe: Füge drei weitere Sätze zur Liste 'sentences' hinzu und überprüfe, wie das Ergebnis der semantischen Suche beeinflusst wird.
Schwierigkeitsgrad: mittel

- Aufgabe: Recherchiere, welche anderen SentenceTransformer-Modelle es gibt und vergleiche deren Leistung mit dem gegebenen Modell.
Schwierigkeitsgrad: mittel

- Aufgabe: Implementiere eine eigene Funktion, die die Ähnlichkeit zwischen zwei Sätzen berechnet, ohne die 'util.cos_sim' Funktion zu verwenden.
Schwierigkeitsgrad: schwer

- Aufgabe: Erweitere den Code so, dass die Top 3 ähnlichsten Sätze ausgegeben werden, statt nur des ähnlichsten.
Schwierigkeitsgrad: mittel