In [1]:
from wiki_nlp.data.dataset import WikiDataset, WikiExample
from wiki_nlp.models.dm import DM
from wiki_nlp.services.dm_service import DMService
from wiki_nlp.data.domain import Document, Section, Paragraph

In [2]:
import matplotlib.pyplot as plt
from numpy.linalg import norm 
import numpy as np
import torch
from sklearn.decomposition import PCA

In [3]:
dm_service = DMService(
    model_state_path="document_dm_state",
    dataset_path="document_dataset"
)
# Translation of some paragraphs from https://en.wikipedia.org/wiki/Artificial_intelligence to German
# The model finds that the top 2 closest documents are 
# https://de.wikipedia.org/wiki/Wissen and https://de.wikipedia.org/wiki/K%C3%BCnstliche_Intelligenz
doc = Document(
    id='',
    title='InformatikTest',
    excerpt = """
    Künstliche Intelligenz (KI) ist Intelligenz, die von Maschinen demonstriert wird, im Gegensatz zur natürlichen Intelligenz
    von Menschen oder Tieren. Führende KI-Lehrbücher definieren das Feld als das Studium von „intelligenten Agenten“: 
    jedes System, das seine Umgebung wahrnimmt und Maßnahmen ergreift, die seine Chance maximieren, seine Ziele zu erreichen.[a]
    Einige populäre Berichte verwenden den Begriff „künstliche Intelligenz“, um Maschinen zu beschreiben, die ahmen „kognitive“ 
    Funktionen nach, die Menschen mit dem menschlichen Verstand assoziieren, wie „Lernen“ und „Problemlösen“, diese Definition 
    wird jedoch von großen KI-Forschern abgelehnt.[b]
    KI-Anwendungen umfassen fortschrittliche Websuchmaschinen (z. B. Google), Empfehlungssysteme (verwendet von YouTube,
    Amazon und Netflix), das Verstehen menschlicher Sprache (z. B. Siri oder Alexa), selbstfahrende Autos (z. B. Tesla) 
    und Wettbewerb auf höchstem Niveau in strategischen Spielsystemen (wie Schach und Go)[2] Da Maschinen immer leistungsfähiger
    werden, werden Aufgaben, die als "Intelligenz" angesehen werden, oft aus der Definition von KI gestrichen, ein Phänomen, das
    als KI-Effekt bekannt ist.[3] Beispielsweise wird die optische Zeichenerkennung häufig von Dingen ausgeschlossen, die als KI
    angesehen werden,[4] da sie zu einer Routinetechnologie geworden ist.[5]
    Künstliche Intelligenz wurde 1956 als akademische Disziplin gegründet und erlebte in den Jahren danach mehrere Wellen des
    Optimismus,[6] [7] gefolgt von Enttäuschungen und dem Verlust von Finanzmitteln (bekannt als "KI-Winter"),[8] [9] gefolgt
    von neuen Ansätzen, Erfolg und erneuter Finanzierung.[7][10] Die KI-Forschung hat im Laufe ihres Lebens viele verschiedene
    Ansätze ausprobiert und verworfen, darunter die Simulation des Gehirns, die Modellierung menschlicher Problemlösungen, formale
    Logik, große Wissensdatenbanken und die Nachahmung von Tierverhalten. In den ersten Jahrzehnten des 21. Jahrhunderts hat das 
    hochmathematische statistische maschinelle Lernen das Feld dominiert, und diese Technik hat sich als sehr erfolgreich erwiesen
    und hilft, viele schwierige Probleme in Industrie und Wissenschaft zu lösen.[11][10]
    Die verschiedenen Teilbereiche der KI-Forschung zentrieren sich auf bestimmte Ziele und den Einsatz bestimmter Werkzeuge.
    Zu den traditionellen Zielen der KI-Forschung gehören logisches Denken, Wissensrepräsentation, Planung, Lernen, Verarbeitung
    natürlicher Sprache, Wahrnehmung und die Fähigkeit, Objekte zu bewegen und zu manipulieren.[c] Allgemeine Intelligenz
    (die Fähigkeit, ein beliebiges Problem zu lösen) gehört zu den langjährigen Laufzeitziele.[12] Um diese Probleme zu lösen,
    verwenden KI-Forscher Versionen der Suche und mathematische Optimierung, formale Logik, künstliche neuronale Netze und 
    Methoden, die auf Statistik, Wahrscheinlichkeit und Ökonomie basieren. KI stützt sich auch auf Informatik, Psychologie,
    Linguistik, Philosophie und viele andere Bereiche.
    """,
    source='mediawiki',
    sections=[
        Section(id='', title='', position='', paragraphs=[Paragraph(id='', text="""
        Maschinelles Lernen (ML), ein grundlegendes Konzept der KI-Forschung seit den Anfängen des Feldes,[k] ist das Studium
        von Computeralgorithmen, die sich durch Erfahrung automatisch verbessern.[l]
        Unüberwachtes Lernen findet Muster in einem Strom von Eingaben. Überwachtes Lernen erfordert, dass ein Mensch die 
        Eingabedaten zuerst beschriftet, und gibt es in zwei Hauptvarianten: Klassifikation und numerische Regression. 
        Die Klassifizierung wird verwendet, um zu bestimmen, in welche Kategorie etwas gehört – das Programm sieht eine Reihe von
        Beispielen für Dinge aus mehreren Kategorien und lernt, neue Eingaben zu klassifizieren. Regression ist der Versuch, eine
        Funktion zu erstellen, die die Beziehung zwischen Eingaben und Ausgaben beschreibt und vorhersagt, wie sich die Ausgaben 
        ändern sollten, wenn sich die Eingaben ändern. Sowohl Klassifikatoren als auch Regressionslerner können als 
        "Funktionsapproximatoren" angesehen werden, die versuchen, eine unbekannte (möglicherweise implizite) Funktion zu lernen; 
        Beispielsweise kann ein Spam-Klassifizierer als das Erlernen einer Funktion angesehen werden, die den Text einer E-Mail 
        einer von zwei Kategorien zuordnet, „Spam“ oder „kein Spam“.[69] Beim Reinforcement Learning wird der Agent für gute 
        Antworten belohnt und für schlechte bestraft. Der Agent klassifiziert seine Antworten, um eine Strategie für das Handeln 
        in seinem Problemraum zu entwickeln.[70]
        Die Theorie des computergestützten Lernens kann Lernende anhand der Rechenkomplexität, anhand der Stichprobenkomplexität 
        (wie viele Daten erforderlich sind) oder anhand anderer Optimierungskonzepte beurteilen.
        """)])
    ]
)
vec = dm_service.infer_vector(doc)
dists, indices = dm_service.most_similar(vec, topn=2)
for i, dist in enumerate(dists):
    print(f"{dist.item()}\n {dm_service._dataset[indices[i].item()]}")

Epoch 1 - 100%
Loss tensor(4.0307)
Epoch 2 - 100%
Loss tensor(3.6563)
Epoch 3 - 100%
Loss tensor(3.7751)
Epoch 4 - 100%
Loss tensor(3.4223)
Epoch 5 - 100%
Loss tensor(3.7108)
Epoch 6 - 100%- 40% - 80%
Loss tensor(3.4152)
Epoch 7 - 100%
Loss tensor(3.3876)
Epoch 8 - 100%
Loss tensor(3.5729)
Epoch 9 - 100%
Loss tensor(3.3273)
Epoch 10 - 100%
Loss tensor(3.3725)
Epoch 11 - 100%
Loss tensor(2.9774)
Epoch 12 - 100%
Loss tensor(3.2250)
Epoch 13 - 100%
Loss tensor(3.1834)
Epoch 14 - 100%- 40%
Loss tensor(2.9360)
Epoch 15 - 80% - 100%
Loss tensor(3.3440)
Epoch 16 - 100%
Loss tensor(3.1369)
Epoch 17 - 100%
Loss tensor(2.6236)
Epoch 18 - 100%
Loss tensor(2.9766)
Epoch 19 - 100%
Loss tensor(2.6604)
Epoch 20 - 100%
Loss tensor(2.8808)
Epoch 21 - 100%
Loss tensor(2.9253)
Epoch 22 - 100%
Loss tensor(2.8908)
Epoch 23 - 100%
Loss tensor(2.5740)
Epoch 24 - 100%
Loss tensor(2.7035)
Epoch 25 - 100%
Loss tensor(2.6878)
Epoch 26 - 100%
Loss tensor(2.9033)
Epoch 27 - 100%
Loss tensor(2.7659)
Epoch 28 - 80% 

0.5577741265296936
 WikiExample=(id=c58f99f3-4d3a-4692-adfe-f486325a6b29, text=['künstlich', 'intelligenz', 'ki', 'auch', 'intelligenz', 'ai', 'bzw.', 'a.', 'i.', 'englisch', 'artificial', 'intelligence', 'ai', 'bzw.', 'a.', 'i.', 'sein', 'einen', 'teilgebiet', 'der', 'informatik', 'der', 'sich', 'mit', 'der', 'automatisierung', 'intelligent', 'verhalten', 'und', 'der', 'maschinell', 'lernen', 'befasst', 'der', 'begriff', 'sein', 'schwierig', 'zu', 'definieren', 'da', 'ich', 'bereits', 'an', 'einer', 'genau', 'definition', 'von', 'intelligenz', 'mangeln', 'dennoch', 'werden', 'ich', 'in', 'forschung', 'und', 'entwicklung', 'verwenden', ' ', 'meist', 'bezeichnen', 'künstliche', 'intelligenz', 'der', 'versuch', 'bestimmen', 'entscheidungsstrukturen', 'der', 'mensch', 'nachbilden', 'indem', 'z.', 'b.', 'einen', 'computer', 'so', 'bauen', 'und', 'programmieren', 'werden', 'dass', 'ich', 'relativ', 'eigenständig', 'problem', 'bearbeiten', 'können', 'oftmals', 'werden', 'damit', 'aber', 'auc

In [20]:
# Translation of some paragraphs from https://en.wikipedia.org/wiki/Cryptography
# The two documents most similar to it are https://de.wikipedia.org/wiki/Network_Access_Control and 
# https://de.wikipedia.org/wiki/Schl%C3%BCsselraum_(Kryptologie)
doc2 = Document(
    id = '',
    title = 'Test',
    excerpt = """
    Kryptographie oder Kryptologie ist die Praxis und das Studium von Techniken zur sicheren Kommunikation in 
    Gegenwart von gegnerischem Verhalten.[2] Allgemeiner gesagt geht es bei der Kryptographie um den Aufbau und die 
    Analyse von Protokollen, die verhindern, dass Dritte oder die Öffentlichkeit private Nachrichten lesen;[3] 
    verschiedene Aspekte der Informationssicherheit wie Datenvertraulichkeit, Datenintegrität, Authentifizierung 
    und Nichtabstreitbarkeit[4] sind von zentraler Bedeutung für moderne Kryptographie. Die moderne Kryptographie 
    existiert an der Schnittstelle der Disziplinen Mathematik, Informatik, Elektrotechnik, Kommunikationswissenschaft
    und Physik. Zu den Anwendungen der Kryptographie gehören der elektronische Handel, chipbasierte Zahlungskarten, 
    digitale Währungen, Computerpasswörter und militärische Kommunikation.
    """,
    source='mediawiki',
    sections=[
        Section(id='', title='', position='', paragraphs=[Paragraph(id='', text="""
        Der Data Encryption Standard (DES) und der Advanced Encryption Standard (AES) sind Blockchiffre-Designs,
        die von der US-Regierung als Kryptographie-Standards bezeichnet wurden (obwohl die Bezeichnung von DES nach
        der Annahme des AES endgültig zurückgezogen wurde).[30] Trotz seiner Verabschiedung als offizieller Standard
        bleibt DES (insbesondere seine noch zugelassene und viel sicherere Triple-DES-Variante) sehr beliebt; Es wird 
        in einer Vielzahl von Anwendungen verwendet, von der ATM-Verschlüsselung[31] über den E-Mail-Datenschutz[32] bis
        hin zum sicheren Fernzugriff.[33] Viele andere Blockchiffren wurden mit erheblichen Qualitätsunterschieden 
        entwickelt und veröffentlicht. Viele, sogar einige, die von fähigen Praktizierenden entworfen wurden, wurden 
        gründlich gebrochen, wie z. B. FEAL.[4][34]
        """)]),
        Section(id='', title='', position='', paragraphs=[Paragraph(id='', text="""
        Kryptosysteme mit symmetrischem Schlüssel verwenden denselben Schlüssel zum Verschlüsseln und 
        Entschlüsseln einer Nachricht, obwohl eine Nachricht oder eine Gruppe von Nachrichten einen anderen 
        Schlüssel als andere haben kann. Ein wesentlicher Nachteil symmetrischer Chiffren ist die für deren sichere
        Verwendung notwendige Schlüsselverwaltung. Jedes einzelne Paar kommunizierender Parteien muss idealerweise
        einen anderen Schlüssel teilen, und vielleicht auch für jeden ausgetauschten Chiffretext. Die Anzahl der 
        erforderlichen Schlüssel steigt mit dem Quadrat der Anzahl der Netzwerkmitglieder, was sehr schnell komplexe
        Schlüsselverwaltungsschemata erfordert, um sie alle konsistent und geheim zu halten.
        """)]),
        Section(id='', title='', position='', paragraphs=[Paragraph(id='', text="""
        In Kryptosystemen mit öffentlichem Schlüssel kann der öffentliche Schlüssel frei verteilt werden, 
        während sein gepaarter privater Schlüssel geheim bleiben muss. In einem Verschlüsselungssystem mit 
        öffentlichem Schlüssel wird der öffentliche Schlüssel zur Verschlüsselung verwendet, während der private oder
        geheime Schlüssel zur Entschlüsselung verwendet wird. Obwohl Diffie und Hellman kein solches System finden konnten,
        zeigten sie, dass Kryptographie mit öffentlichem Schlüssel tatsächlich möglich war, indem sie das 
        Diffie-Hellman-Schlüsselaustauschprotokoll vorstellten, eine Lösung, die heute in der sicheren Kommunikation weit
        verbreitet ist, um es zwei Parteien zu ermöglichen, sich heimlich auf ein gemeinsamer Verschlüsselungsschlüssel.[27]
        Der X.509-Standard definiert das am häufigsten verwendete Format für Public-Key-Zertifikate.[41]
        """)])
    ]
)
vec = dm_service.infer_vector(doc2)
dists, indices = dm_service.most_similar(vec, topn=2)
for i, dist in enumerate(dists):
    print(f"{dist.item()}\n {dm_service._dataset[indices[i].item()]}")

Epoch 1 - 100%
Loss tensor(2.7748)
Epoch 2 - 100%
Loss tensor(2.5954)
Epoch 3 - 100%
Loss tensor(2.7110)
Epoch 4 - 100%
Loss tensor(2.6240)
Epoch 5 - 100%
Loss tensor(2.5972)
Epoch 6 - 100%
Loss tensor(2.8338)
Epoch 7 - 100%
Loss tensor(2.7153)
Epoch 8 - 100%
Loss tensor(2.7269)
Epoch 9 - 100%
Loss tensor(2.4684)
Epoch 10 - 100%
Loss tensor(2.6400)
Epoch 11 - 100%
Loss tensor(2.4925)
Epoch 12 - 100%
Loss tensor(2.4243)
Epoch 13 - 100%
Loss tensor(2.3742)
Epoch 14 - 100%
Loss tensor(2.5705)
Epoch 15 - 100%
Loss tensor(2.4491)
Epoch 16 - 100%
Loss tensor(2.3955)
Epoch 17 - 100%
Loss tensor(2.3616)
Epoch 18 - 100%
Loss tensor(2.5013)
Epoch 19 - 100%
Loss tensor(2.3657)
Epoch 20 - 100%
Loss tensor(2.2315)
Epoch 21 - 100%- 67%
Loss tensor(2.2516)
Epoch 22 - 100%
Loss tensor(2.4630)
Epoch 23 - 100%
Loss tensor(2.3484)
Epoch 24 - 100%
Loss tensor(2.3237)
Epoch 25 - 100%
Loss tensor(2.2165)
Epoch 26 - 100%
Loss tensor(2.2307)
Epoch 27 - 100%
Loss tensor(2.2911)
Epoch 28 - 100%
Loss tensor(2.40