# AI Workshop

Erstellt von [Pascal Sager](http://sagerpascal.github.io) und dem [ZHAW Zentrum für Künstliche Intelligenz](https://www.zhaw.ch/de/engineering/institute-zentren/cai/).

## Installation von Paketen

Nachfolgender Code installiert fünf Python-Pakete: `langchain`, `pypdf`, `numpy`, `openai`, `sentence_transformers`, und `faiss-cpu`. Diese Pakete bieten verschiedene Funktionen, die im Kontext von künstlicher Intelligenz (KI) und maschinellem Lernen (ML) relevant sind. Durch die Nutzung von Paketen können wir Code von anderen Entwicklern wiederverwenden und müssen nicht alles selbst schreiben. Dies ist ein wichtiger Aspekt der Softwareentwicklung, da es uns ermöglicht, schneller zu arbeiten und Fehler zu vermeiden.

##### Erklärung der Pakete

1. **`langchain`**: Ein Paket, das möglicherweise spezifische Funktionen im Bereich der Sprachverarbeitung oder Textanalyse bereitstellt.

2. **`pypdf`**: Ein Paket zur Bearbeitung von PDF-Dateien. Dies könnte in einem AI-Kontext nützlich sein, wenn Textinformationen aus PDFs extrahiert werden müssen.

3. **`numpy`**: Ein weit verbreitetes Paket für numerische Berechnungen in Python. Wird oft in Kombination mit AI-Anwendungen verwendet, insbesondere für die Handhabung von Datenarrays und Matrizen.

4. **`openai`**: Die OpenAI-Plattform bietet verschiedene AI-Modelle und Dienste an. Das Installieren des Pakets ermöglicht es, auf diese Ressourcen zuzugreifen und sie in eigenen Projekten zu verwenden.

5. **`sentence_transformers`**: Ein Paket, das prätrainierte Modelle für die Generierung von Vektoren aus Sätzen bereitstellt. Dies kann für Aufgaben wie semantische Ähnlichkeitsberechnungen nützlich sein.

6. **`faiss-cpu`**: Ein effizientes Indexierungs- und Suchpaket, das für das schnelle Durchsuchen großer Mengen von Vektoren optimiert ist. Kann in Anwendungen verwendet werden, die Ähnlichkeitsabfragen erfordern, wie sie in einigen AI- und ML-Szenarien vorkommen.


In [1]:
!pip install langchain
!pip install pypdf
!pip install numpy
!pip install openai
!pip install sentence_transformers
!pip install faiss-cpu




## Import von Modulen
Nach der Installation der Softwarepakete müssen diese importiert werden, um sie in Python verwenden zu können.
Der nachfolgende Code importiert verschiedene Module aus dem `langchain`-Paket und einige zusätzliche Module wie `pathlib` und `random`. Diese Module bieten Funktionen und Werkzeuge, die für die Bearbeitung von Textdaten, die Verarbeitung von PDF-Dateien, die Erstellung von Chatmodellen und die Arbeit mit Embeddings relevant sind.

##### Erklärung der Module

1. **`ChatOpenAI`**: Ein Modul aus `langchain` für Chatmodelle basierend auf der OpenAI-GPT-Architektur. Dies ermöglicht die Implementierung von Chatbots oder ähnlichen Anwendungen.

2. **`PromptTemplate`**: Ein Modul, das Vorlagen für Prompts (Aufforderungen) in Chatanwendungen bereitstellt. Prompts sind Anfragen oder Sätze, die an Chatmodelle gesendet werden, um eine spezifische Reaktion zu erhalten.

3. **`StrOutputParser`**: Ein Modul, das die Ausgaben von Chatmodellen oder anderen Textgeneratoren auf die Konsole ermöglicht.

4. **`RunnablePassthrough`**: Ein Modul, das für die Durchführung von Textoperationen oder -transformationen verwendet wird.

5. **`HumanMessage`**: Ein Modul, das für die Erstellung von Nachrichtenobjekten verwendet wird, die an Chatmodelle gesendet werden können.

6. **`PyPDFLoader`**: Ein Modul, das Funktionen zum Laden von Text aus PDF-Dateien bereitstellt. Dies könnte in Anwendungen nützlich sein, die mit großen Textmengen in PDFs arbeiten.

7. **`RecursiveCharacterTextSplitter`**: Ein Modul, das sich wahrscheinlich auf die Aufteilung von Text in Abschnitte oder Absätze konzentriert. Dies könnte in Verbindung mit der Verarbeitung von großen Textdaten nützlich sein.

8. **`HuggingFaceEmbeddings`**: Ein Modul für Embeddings, basierend auf Modellen von Hugging Face. Embeddings sind numerische Repräsentationen von Text, die in vielen AI-Anwendungen verwendet werden.

9. **`FAISS`**: Ein Modul für die Integration von FAISS, einem effizienten Indexierungs- und Suchpaket, das oft in Zusammenhang mit Vektoren und Ähnlichkeitsabfragen verwendet wird.

10. **`Path`**: Ein Modul aus der Standardbibliothek (`pathlib`), das Funktionen zum Arbeiten mit Dateipfaden bereitstellt.

11. **`random`**: Ein Modul aus der Standardbibliothek (`random`), das Funktionen für Zufallsoperationen bereitstellt.


In [2]:
from langchain.chat_models import ChatOpenAI
from langchain.prompts import PromptTemplate
from langchain.schema import StrOutputParser, HumanMessage
from langchain.schema.runnable import RunnablePassthrough
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain import FAISS
from pathlib import Path
import random

## Zugriff auf ein AI-Modell

Wir nutzen ein bereits trainiertes Modell von OpenAI, um unsere Applikation zu erstellen. Dieses Modell wurde mit einer großen Menge von Textdaten trainiert und kann daher auf viele verschiedene Fragen antworten. Wir können das Modell verwenden, um eine Frage zu stellen und eine Antwort zu erhalten.

Um Zugriff auf das Modell zu erhalten, müssen wir einen Zugriffscode (`key`) eingeben. Nachfolgender Code fragt uns nach diesem `key`, so dass wir ihn verwenden können, um Zugriff auf das Modell zu bekommen.


In [5]:
import getpass

print("Bitte gib den Zugriffscode ein:")
key = getpass.getpass()

Bitte gib den Zugriffscode ein:


## Ziel

In diesem Workshop versuchen wir einen Chatbot zu erstellen, welchen wir Fragen über unsere Dokumente stellen können. Beispielsweise können wir Schulmaterial hochladen und der Chatbot sollte dann in der Lage sein, Fragen über dieses Material zu beantworten. Später können wir den Chatbot auch nutzen um Fragen zu den Dokumenten zu generieren, so dass wir uns auf eine Prüfung besser vorebereiten können.

## Fragen zu einem Dokument stellen

Wir beginnen sehr simpel und Fragen den Chatbot über unsere Dokumente aus. Nachfolgender Code fragt ein AI Modell was unsere Dokumente beinhalten. Wir können den Code ausführen und sehen, was passiert.


In [6]:
# Zuerst erstellen wir eine Verbindung zum Sprachmodell
llm = ChatOpenAI(openai_api_key=key, model_name="gpt-3.5-turbo")

# Dann sagen wir dem Modell, dass wir ein Mensch (Human) sind und was unsere Frage ist (content)
frage = HumanMessage(content="Was beinhalten meine Dokumente?")

# Danach können wir das Modell aufrufen
llm.invoke([frage])

AIMessage(content='Das kann ich nicht beantworten, da ich keinen Zugriff auf Ihre Dokumente habe. Nur Sie haben Zugriff auf Ihre eigenen Dokumente und wissen, was darin enthalten ist.')

Wie wir sehen kann der Chatbot unsere Frage nicht beantworten. Das liegt daran, dass er unsere Dokumente nicht kennt!

### Dokument erstellen

Damit es funktioniert, erstellen wir ein sehr einfaches Dokument und geben es zusammen mit der Frage in den Chatbot. Wir können den Code ausführen und sehen, was passiert.


In [7]:
mein_dokument = "Deep Learning (deutsch: mehrschichtiges Lernen, tiefes Lernen oder tiefgehendes Lernen) bezeichnet eine Methode des maschinellen Lernens, die künstliche neuronale Netze (KNN) mit zahlreichen Zwischenschichten (englisch hidden layers) zwischen Eingabeschicht und Ausgabeschicht einsetzt und dadurch eine umfangreiche innere Struktur herausbildet. Es ist eine spezielle Methode der Informationsverarbeitung."

frage = HumanMessage(content=f"Was beinhalten meine Dokumente? Mein Dokument hat folgenden Inhalt: {mein_dokument}")
antwort = llm.invoke([frage])

print("Die Frage ist: \n" + frage.content)
print("\n")
print("Die Antwort ist: \n" + antwort.content)

Die Frage ist: 
Was beinhalten meine Dokumente? Mein Dokument hat folgenden Inhalt: Deep Learning (deutsch: mehrschichtiges Lernen, tiefes Lernen oder tiefgehendes Lernen) bezeichnet eine Methode des maschinellen Lernens, die künstliche neuronale Netze (KNN) mit zahlreichen Zwischenschichten (englisch hidden layers) zwischen Eingabeschicht und Ausgabeschicht einsetzt und dadurch eine umfangreiche innere Struktur herausbildet. Es ist eine spezielle Methode der Informationsverarbeitung.


Die Antwort ist: 
Ihre Dokumente enthalten Informationen über Deep Learning, eine Methode des maschinellen Lernens, die künstliche neuronale Netze mit Zwischenschichten zwischen Eingabe- und Ausgabeschicht verwendet. Dies führt zu einer umfangreichen internen Struktur. Deep Learning ist eine spezielle Methode der Informationsverarbeitung.


Wie wir sehen kann der Chatbot unsere Frage beantworten. Das liegt daran, dass er unser Dokument nun kennt!

#### Frage generieren

Wir können den Chatbot auch nutzen um Fragen zu unseren Dokumenten zu generieren. Dazu gehen wir identisch vor, aber anstatt einer Zusammenfassung über den Inhalt verlangen wir eine Frage.


In [8]:
frage = HumanMessage(content=f"Erstelle eine spannende Frage über den Inhalt meines Dokuments. Mein Dokument hat folgenden Inhalt: {mein_dokument}")
antwort = llm.invoke([frage])

print("Die Frage ist: \n" + frage.content)
print("\n")
print("Die Antwort ist: \n" + antwort.content)

Die Frage ist: 
Erstelle eine spannende Frage über den Inhalt meines Dokuments. Mein Dokument hat folgenden Inhalt: Deep Learning (deutsch: mehrschichtiges Lernen, tiefes Lernen oder tiefgehendes Lernen) bezeichnet eine Methode des maschinellen Lernens, die künstliche neuronale Netze (KNN) mit zahlreichen Zwischenschichten (englisch hidden layers) zwischen Eingabeschicht und Ausgabeschicht einsetzt und dadurch eine umfangreiche innere Struktur herausbildet. Es ist eine spezielle Methode der Informationsverarbeitung.


Die Antwort ist: 
Welche Vorteile bietet das tiefgehende Lernen im Vergleich zu anderen Methoden des maschinellen Lernens?


## Nutzung von Templates

Bisher haben wir Fragen mit folgendem Code gestellt:

```python
HumanMessage(content=f"Was beinhalten meine Dokumente? Mein Dokument hat folgenden Inhalt: {mein_dokument}")
```

Diesen Code jedes mal zu schreiben ist aber ziemlich aufwendig, besonders wenn wir später mehrere Dokumente haben. Wir können den Code vereinfachen, indem wir ein Template verwenden. Ein Template ist eine Vorlage, welche wir mit Werten füllen können. Nachfolgender Code erstellt ein Template und füllt es mit Werten.


In [9]:
prompt_template = PromptTemplate.from_template(
    "Was beinhalten meine Dokumente? Die Dokumente haben folgenden Inhalt: {dokument}"
)

prompt = prompt_template.invoke({"dokument": "Mein Dokument Inhalt"})

print("Der Prompt hat folgenden Inhalt:\n" + prompt.text)

Der Prompt hat folgenden Inhalt:
Was beinhalten meine Dokumente? Die Dokumente haben folgenden Inhalt: Mein Dokument Inhalt


Anstatt den ganzen Text zu schreiben, können wir nun einfach das Template verwenden:

```python
prompt = prompt_template.invoke({"dokument": "Mein Dokument Inhalt"})
```



## Pipeline erstellen

Damit wir künftig noch weniger Arbeit haben, können wir eine Pipeline erstellen. Eine Pipeline ist eine Abfolge von Operationen, welche wir nacheinander ausführen.

Der Code wird nun schon etwas komplizierter. Wir erstellen eine Pipeline, welche die folgenden Schritte ausführt:

1. Wir generieren den Prompt mit unserem Template
2. Wir geben den Prompt an das AI Modell
3. Wir geben die Antwort des AI Modells an einen Parser, welcher die Antwort in einen lesbaren Text umwandelt

In [10]:
pipeline = prompt_template | llm | StrOutputParser()

Nun können wir die Pipeline verwenden, um eine Zusammenfassung über unsere Dokumente zu erhalten.
Dazu reicht eine Zeile Code:

```python
pipeline.invoke({"dokument": mein_dokument})
```

In [11]:
pipeline.invoke({"dokument": mein_dokument})

'Ihre Dokumente enthalten Informationen über Deep Learning. Deep Learning bezieht sich auf eine Methode des maschinellen Lernens, bei der künstliche neuronale Netze mit mehreren versteckten Schichten zwischen der Eingabe- und Ausgabeschicht verwendet werden. Diese Methode ermöglicht den Aufbau einer komplexen internen Struktur. Deep Learning ist eine spezielle Methode der Informationsverarbeitung.'

## Verwendung von Dokumenten

Bisher haben wir nur ein Dokument verwendet, welches wir direkt im Code programmiert hatten.

```python
mein_dokument = "Deep Learning (deutsch: mehrschichtiges Lernen, tiefes Lernen oder tiefgehendes Lernen) bezeichnet eine Methode des maschinellen Lernens, die künstliche neuronale Netze (KNN) mit zahlreichen Zwischenschichten (englisch hidden layers) zwischen Eingabeschicht und Ausgabeschicht einsetzt und dadurch eine umfangreiche innere Struktur herausbildet. Es ist eine spezielle Methode der Informationsverarbeitung."
```

Das ist ziemlich unpraktisch, da wir so nicht mit mehreren Dokumenten arbeiten können. Zudem müssen wir jedes mal den Code ändern, wenn wir ein Dokument hinzufügen oder löschen wollen.

Wir können den Code vereinfachen, indem wir alle Dokumente aus einem Ordner laden. So können wir künftig alle gewünschten Dokumente in diesen Ordner kopieren und der Chatbot wird sie automatisch verwenden.


#### PDF-Dokumente finden

Es gibt unzählige verschiedene Dokumenttypen - zur Vereinfachung verwenden wir nur PDF-Dokumente.

Wir können alle PDF-Dokumente in einem Ordner finden, indem wir nach Dateien mit der Endung `.pdf` suchen. Nachfolgender Code sucht alle PDF-Dokumente in einem Ordner und gibt sie aus.


In [12]:
pfad = Path("data")
for pdf_datei in pfad.glob("**/*.pdf"):
    print(pdf_datei)

data/Maschinelles Lernen – Wikipedia.pdf
data/Deep Learning – Wikipedia.pdf


#### Dokumente öffnen

Wir finden nun also die Dokumente in dem Ordner. Nun müssen wir noch den Inhalt der Dokumente laden. Das können wir mit dem Paket `PyPDFLoader` machen. Nachfolgender Code lädt den Inhalt eines PDF-Dokuments.

In [13]:
for pdf_datei in pfad.glob("**/*.pdf"):
    loader = PyPDFLoader(str(pdf_datei))
    pdf_abschnitte = loader.load_and_split()
    print(f"Die Datei {pdf_datei} hat {len(pdf_abschnitte)} Abschnitte.")

Die Datei data/Maschinelles Lernen – Wikipedia.pdf hat 5 Abschnitte.
Die Datei data/Deep Learning – Wikipedia.pdf hat 9 Abschnitte.


#### Dokumente in Liste speichern

Wir haben nun also den Inhalt der Dokumente geladen. Nun müssen wir die Dokumente noch speichern, beispielsweise in einer Liste `dokumente`:

In [14]:
dokumente = []

for pdf_datei in pfad.glob("**/*.pdf"):
    loader = PyPDFLoader(str(pdf_datei))
    pdf_abschnitte = loader.load_and_split()
    print(f"Die Datei {pdf_datei} hat {len(pdf_abschnitte)} Abschnitte.")
    dokumente.extend(pdf_abschnitte)

print(f"Wir haben insgesamt {len(dokumente)} Abschnitte.")

Die Datei data/Maschinelles Lernen – Wikipedia.pdf hat 5 Abschnitte.
Die Datei data/Deep Learning – Wikipedia.pdf hat 9 Abschnitte.
Wir haben insgesamt 14 Abschnitte.


#### Dokumente ausgeben

Nun können wir die Abschnitte anschauen indem wir auf die Liste zugreifen:

In [15]:
print(f"Beispielabschnitt 1: {dokumente[0]}\n\n")
print(f"Beispielabschnitt 2: {dokumente[1]}")

Beispielabschnitt 1: page_content='22.12.2023, 11:12Maschinelles Lernen – Wikipedia\nPage 1 of 5https://de.wikipedia.org/wiki/Maschinelles_LernenMaschinelles LernenMaschinelles Lernen (ML) ist ein Oberbegriff für die „künstliche“ Generierung von Wissenaus Erfahrung: Ein künstliches System lernt aus Beispielen und kann diese nach Beendigungder Lernphase verallgemeinern. Dazu bauen Algorithmen beim maschinellen Lernen einstatistisches Modell a u f ,  d a s  a u f  Trainingsdaten beruht und welches gegen die Testdatengetestet wird. Das heißt, es werden nicht einfach die Beispiele auswendig gelernt (sieheÜberanpassung), sondern Muster und Gesetzmäßigkeiten in den Lerndaten erkannt. So kanndas System auch unbekannte Daten beurteilen (Lerntransfer) oder aber am Lernenunbekannter Daten scheitern (Überanpassung; englisch overfitting).[1][2] Aus dem weitenSpektrum möglicher Anwendungen seien hier genannt: automatisierte Diagnoseverfahren,Erkennung von Kreditkartenbetrug, Aktienmarktanalysen, Kl

#### Daten bereinigen

Wie wir feststellen, sehen die Abschnitte noch nicht sehr schön aus. Wir könnten sie bereinigen, indem wir Sonderzeichen entfernen, fehlende Abstände einfügen, etc. Dies wäre aber ein ziemlicher Aufwand und wir allen es in diesem Workshop weg. Wenn wir aber künftig eine noch bessere Chat-Qualität wollen, könnten wir dies noch nachholen.

## Grosse Datenmengen

Wir haben nun sehr viel Text eingelesen. Leider können AI Chatbots nur mit einer begrenzten Menge an Text arbeiten. Wir müssen also die Datenmenge reduzieren. Dies können wir machen, indem wir die Texte in kleinere Abschnitte aufteilen. Nachfolgender Code teilt die Texte in Abschnitte von 1000 Zeichen auf, wobei die Abschnitte sich um 200 Zeichen überlappen. Später wählen wir dann die "besten" Abschnitte aus und übergeben sie dem Chatbot.


In [16]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
texte = text_splitter.split_documents(dokumente)
print(f"Wir haben insgesamt {len(texte)} Texte.")

Wir haben insgesamt 55 Texte.


### Passendste Texte finden

Denn passendsten Text direkt zu finden ist sehr schwierig. Wir können aber die passendsten Texte finden, indem wir die Texte mit einer Frage vergleichen. Dazu müssen wir die Texte in Vektoren umwandeln. Ein Vektor ist eine numerische Repräsentation eines Textes. Wir können dann die Ähnlichkeit zwischen der Frage und den Texten berechnen. Die Texte mit der höchsten Ähnlichkeit sollten dann die passendsten Texte sein.

Zur Umwandlung der Texte in Vektoren verwenden wir ein Embedding-Modell von Hugging Face. Dieses Modell wurde mit sehr vielen Texten trainiert und kann daher Texte in Vektoren umwandeln.

In [17]:
embedding_model = HuggingFaceEmbeddings(model_name="all-MiniLM-L12-v2")

##### Embeddings

Nachfolgender Code wandelt einen Text in einen Vektor um. Wir können den Code ausführen und sehen, was passiert.

In [18]:
text = texte[1].page_content
embeddings = embedding_model.embed_query(text)
print(f"Der Text ist {text}\n\n")
print(f"Das dazugehörige Embedding besteht aus {len(embeddings)} Zahlen.\n\n")
print(f"Die Embeddings sind: {embeddings}\n\n")

Der Text ist Page 1 of 5https://de.wikipedia.org/wiki/Maschinelles_LernenMaschinelles LernenMaschinelles Lernen (ML) ist ein Oberbegriff für die „künstliche“ Generierung von Wissenaus Erfahrung: Ein künstliches System lernt aus Beispielen und kann diese nach Beendigungder Lernphase verallgemeinern. Dazu bauen Algorithmen beim maschinellen Lernen einstatistisches Modell a u f ,  d a s  a u f  Trainingsdaten beruht und welches gegen die Testdatengetestet wird. Das heißt, es werden nicht einfach die Beispiele auswendig gelernt (sieheÜberanpassung), sondern Muster und Gesetzmäßigkeiten in den Lerndaten erkannt. So kanndas System auch unbekannte Daten beurteilen (Lerntransfer) oder aber am Lernenunbekannter Daten scheitern (Überanpassung; englisch overfitting).[1][2] Aus dem weitenSpektrum möglicher Anwendungen seien hier genannt: automatisierte Diagnoseverfahren,Erkennung von Kreditkartenbetrug, Aktienmarktanalysen, Klassifikation vonNukleotidsequenzen, Sprach- und Texterkennung sowie auto

##### Ähnlichkeit berechnen

Wir können nicht nur unsere Texte in Vektoren umwandeln, sondern auch unsere Frage. Nachfolgender Code wandelt einige Fragen in Vektoren um.



In [19]:
embedded_frage_1 = embedding_model.embed_query("Was ist maschinelles Lernen?")
print(embedded_frage_1)
embedded_frage_2 = embedding_model.embed_query("Was ist die Eingangsschicht und die Ausgabeschicht?")
print(embedded_frage_2)
embedded_frage_3 = embedding_model.embed_query("Trinkt die Kuh Milch oder Wasser?")
print(embedded_frage_3)

[0.016348164528608322, 0.07882675528526306, -0.07482591271400452, -0.0021938441786915064, 0.08537105470895767, -0.011216996237635612, 0.09064827114343643, -0.0059546129778027534, -0.020593926310539246, 0.027389446273446083, 0.07856124639511108, -0.059821005910634995, -0.023347318172454834, 0.002888391725718975, 0.005058560520410538, 0.06167848780751228, 0.022173242643475533, 0.0005822244565933943, 0.011141336522996426, 0.002349942224100232, 0.025235360488295555, 0.048330795019865036, -0.001731499214656651, 0.03596062585711479, 0.009703429415822029, -0.007409883663058281, -0.06871512532234192, 0.06931060552597046, 0.006244503892958164, -0.029125872999429703, -0.01998313143849373, 0.005019029136747122, 0.011698252521455288, 0.006124090403318405, 0.059084873646497726, 0.013999685645103455, 0.0544530488550663, -0.009871856309473515, -0.03015260584652424, 0.039361633360385895, -0.06221501901745796, 0.009901836514472961, 0.08363743126392365, -0.02924622781574726, 0.03317079320549965, -0.0075

Wir berechnen mithilfe der Kosinus-Ähnlichkeit einen Ähnlichkeitswert zwischen den Fragen und den Texten. Die Kosinus-Ähnlichkeit ist eine Metrik, welche die Ähnlichkeit zwischen zwei Vektoren berechnet. Je höher die Ähnlichkeit, desto ähnlicher sind sich die Vektoren. Nachfolgender Code berechnet die Ähnlichkeit zwischen den Fragen und den Texten.

In [20]:
import numpy as np

def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))

print(cosine_similarity(embeddings, embedded_frage_1))
print(cosine_similarity(embeddings, embedded_frage_2))
print(cosine_similarity(embeddings, embedded_frage_3))

0.6382432000113696
0.18115521689508196
0.04515785462771319


## Vektoren speichern

Das Berechnen der Vektoren ist sehr aufwendig. Wir können die Vektoren aber speichern, so dass wir sie nicht jedes mal neu berechnen müssen. Nachfolgender Code speichert die Vektoren unserer Texte in einer Datenbank, so dass wir künftig nur noch die Vektoren der Frage berechnen müssen.

Wir verwenden dazu das Paket `FAISS`. Dieses Paket beinhaltet eine sehr effiziente Datenbank die grosse Datenmengen speichern kann. Zudem kann es sehr schnell die Ähnlichkeit zwischen Vektoren berechnen.


In [21]:
datenbank = FAISS.from_documents(texte, embedding=embedding_model)
datenbank.save_local("data/index.faiss")

Die Texte sind nun in einer Datenbank gespeichert. Wir können sie nun laden und die Ähnlichkeit zwischen den Texten und einer Frage berechnen.

In [22]:
datenbank.similarity_search("Wozu dient die erste Schicht in einem neuronalen Netzwerk?")

[Document(page_content='eine Teilmenge des maschinellen Lernens, nutzt eine Reihe hierarchischer Schichten bzw. eineHierarchie von Konzepten, um den Prozess des maschinellen Lernens durchzuführen. Die hierbei benutzten künstlichen neuronalen Netze sind wie das menschliche Gehirn gebaut, wobei die Neuronen wie ein Netz miteinander verbunden sind. Die ersteSchicht des neuronalen Netzes, die sichtbare Eingangsschicht, verarbeitet eine Rohdateneingabe, wie beispielsweise die einzelnen Pixel eines Bildes. Die Dateneingabe enthält Variablen, die der Beobachtung zugänglich sind, daher „sichtbare Schicht“. [3] Diese erste Schicht leitet ihre Ausgaben an die nächste Schicht weiter. Diese zweite Schicht verarbeitet die Informationen der vorherigen Schicht und gibt das Ergebnis ebenfalls weiter. Die nächste', metadata={'source': 'data/Deep Learning – Wikipedia.pdf', 'page': 0}),
 Document(page_content='| Quelltext bearbeiten]Tiefe neuronale Netze können eine Komplexität von bis zu hundert Million

## Zwischenfazit

Was wir bisher haben:

- Wir lesen alle Dokumente von einem Ordner ein
- Wir teilen die Dokumente in kleinere Abschnitte auf
- Wir wandeln die Abschnitte in Vektoren um
- Wir speichern die Vektoren in einer Datenbank
- Wir können die Ähnlichkeit zwischen den Vektoren und einer Frage berechnen

Was noch fehlt:
- Wir müssen die besten Abschnitte auswählen und dem Chatbot übergeben
- Wir wollen dem Chatbot eine Frage zum Dokument stellen und eine Antwort erhalten
- Der Chatbot soll eine Frage zum Dokument generieren und wir beantworten sie

Dazu bilden wir entsprechende Pipelines.


## Frage beantworten

Wir wollen nun eine Frage zum Dokument stellen und eine Antwort erhalten. Dazu müssen wir die Datenbank in die Pipeline einbauen. Die Funktion `datenbank.as_retriever()`erzeugt einen `Retriever`. Dieser Retriever kann für eine gegebene Frage die passendsten Texte finden.


In [23]:
retriever = datenbank.as_retriever()

Dieser Retriever kann wie folgt aufgerufen werden:

In [24]:
retriever.invoke("Was ist ein Neuron?")

[Document(page_content='| Quelltext bearbeiten]Tiefe neuronale Netze können eine Komplexität von bis zu hundert Millionen einzelnen Parametern und zehn Milliarden Rechenoperationen pro Eingangsdatum aufweisen. Die Interpretierbarkeit der Parameter und Erklärbarkeit des Zustandekommens derErgebnisse ist hier nur noch eingeschränkt möglich und erfordert den Einsatz spezieller Techniken, die unter Explainable Artiﬁcial Intelligence zusammengefasst werden. Ein weiterer Ansatz ist die Verwendung von Methoden aus der Physik von Vielteilchensysteme (Statistische Physik).[28] Eine weitere Begleiterscheinung des Deep Learning ist die Anfälligkeit für Falschberechnungen, die durch subtile, bei zum Beispiel Bildern für Menschen nicht sichtbare, Manipulationen der Eingabesignaleausgelöst werden können. Dieses Phänomen wird unter Adversarial Examples zusammengefasst.[29]Es gibt zwei Konzepte zu Grenzen und Erklärbarkeit: „Opake KI“ und „transparente KI“. Ersteres, Opake KI, beinhaltet neuronale Net

#### Dokumente zusammensetzen

Wie wir sehen gibt der Retriever mehrere Texte zurück. Wir hängen diese Texte zusammen, so dass wir einen längeren Text erhalten, welchen wir direkt in das AI Modell geben können.

In [25]:
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

format_docs(retriever.invoke("Was ist ein Neuron?"))

'| Quelltext bearbeiten]Tiefe neuronale Netze können eine Komplexität von bis zu hundert Millionen einzelnen Parametern und zehn Milliarden Rechenoperationen pro Eingangsdatum aufweisen. Die Interpretierbarkeit der Parameter und Erklärbarkeit des Zustandekommens derErgebnisse ist hier nur noch eingeschränkt möglich und erfordert den Einsatz spezieller Techniken, die unter Explainable Artiﬁcial Intelligence zusammengefasst werden. Ein weiterer Ansatz ist die Verwendung von Methoden aus der Physik von Vielteilchensysteme (Statistische Physik).[28] Eine weitere Begleiterscheinung des Deep Learning ist die Anfälligkeit für Falschberechnungen, die durch subtile, bei zum Beispiel Bildern für Menschen nicht sichtbare, Manipulationen der Eingabesignaleausgelöst werden können. Dieses Phänomen wird unter Adversarial Examples zusammengefasst.[29]Es gibt zwei Konzepte zu Grenzen und Erklärbarkeit: „Opake KI“ und „transparente KI“. Ersteres, Opake KI, beinhaltet neuronale Netze, Deep Learning,\n\nL

#### Prompt Template

Wir geben im Prompt-Template eine eindeutige Anweisung, was der Chatbot tun soll. Nachfolgender Code erstellt ein Prompt-Template, welches den Chatbot anweist, eine Frage zu beantworten.

In [26]:
from langchain.prompts import ChatPromptTemplate

prompt_template = ChatPromptTemplate.from_messages(
    [
        ("system", "Sie sind ein Assistent zur Beantwortung von Fragen. Beantworten Sie die Frage mit Hilfe der gegebenen Kontext-Informationen. Wenn Sie die Antwort nicht wissen, sagen Sie einfach, dass Sie es nicht wissen und erfinden Sie nichts. Verwenden Sie maximal drei Sätze und fassen Sie die Antwort kurz."),
        ("human", "Frage: {frage} \nKontext-Informationen: {kontext}\n"),
    ]
)

In [27]:
prompt_template.invoke({"kontext": "Gegebener Kontext", "frage": "Gegebene Frage"}).to_string()

'System: Sie sind ein Assistent zur Beantwortung von Fragen. Beantworten Sie die Frage mit Hilfe der gegebenen Kontext-Informationen. Wenn Sie die Antwort nicht wissen, sagen Sie einfach, dass Sie es nicht wissen und erfinden Sie nichts. Verwenden Sie maximal drei Sätze und fassen Sie die Antwort kurz.\nHuman: Frage: Gegebene Frage \nKontext-Informationen: Gegebener Kontext\n'

#### LLM Modell

Wir verwenden das LLM Modell von OpenAI, um die Frage zu beantworten. Dabei setzen wir die Temperatur auf 0, so dass wir eine präzisere Antwort erhalten.

In [28]:
llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0, openai_api_key=key)

#### Pipeline

Wir setzen diese Bausteine nun in einer Pipeline zusammen. Nachfolgender Code erstellt eine Pipeline, welche basierend auf einer Frage die passendsten Texte findet und diese dem Chatbot übergibt. Der Chatbot gibt dann eine Antwort zurück.

In [29]:
rag_chain = (
    {"kontext": retriever | format_docs, "frage": RunnablePassthrough()}
    | prompt_template
    | llm
    | StrOutputParser()
)

Wir können die Pipeline nun verwenden, um eine Frage zu stellen und eine Antwort zu erhalten.

In [30]:
rag_chain.invoke("Was ist deep learning?")

'Deep Learning bezieht sich auf eine Methode des maschinellen Lernens, bei der künstliche neuronale Netze verwendet werden, um Muster und komplexe Zusammenhänge in Daten zu erkennen und zu lernen. Es hat in verschiedenen Bereichen wie Bilderkennung, Spracherkennung und Spielstrategie große Erfolge erzielt.'

In [31]:
frage = input("Frage: ")
print(rag_chain.invoke(frage))

Deep Learning bezieht sich auf eine Methode des maschinellen Lernens, bei der künstliche neuronale Netze verwendet werden, um Muster und komplexe Zusammenhänge in Daten zu erkennen und zu lernen. Es hat in verschiedenen Bereichen wie Bilderkennung, Spracherkennung und Spielstrategie große Erfolge erzielt.


## Frage generieren

In [32]:
def get_random_dokument():
    random_document = random.choice(list(datenbank.docstore._dict.items()))
    return random_document

In [33]:
get_random_dokument()

('84368748-8657-4d6e-a3ab-b97226f69719',
 Document(page_content='22.12.2023, 11:12Maschinelles Lernen – Wikipedia', metadata={'source': 'data/Maschinelles Lernen – Wikipedia.pdf', 'page': 1}))

In [34]:
prompt_template = ChatPromptTemplate.from_messages(
    [
        ("system", "Sie sind ein Assistent zur Generierung von Fragen. Generieren Sie eine neue Frage basierend auf den gegebenen Kontext-Informationen. Die Frage muss sehr spezifisch zum Inhalt sein und darf nicht generell sein wie 'was kommt im Dokument vor'. Generieren Sie einen Satz für die Frage mit einem Fragezeichen am Ende. Machen Sie danach 5 Leerzeilen und geben Sie mit maximal zwei Sätzen eine Musterlösung an. Beispielsweise könnten für die Kontext-Informationen 'Real Madrid ist ein Fussball Club' der Output wie folgt aussehen: 'FRAGE: Was ist Real Madrid? \n\n\n\n\nANTWORT: Real Madrid ist ein Fussball Club.'"),
        ("human", "Kontext-Informationen: {kontext}\n"),
    ]
)

In [35]:
llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0.7, openai_api_key=key)

In [36]:
frage_chain = (
    {"kontext": RunnablePassthrough()}
    | prompt_template
    | llm
    | StrOutputParser()
)

In [37]:
print(frage_chain.invoke(get_random_dokument()[1].page_content))

FRAGE: Welche Veröffentlichungen sind im Jahr 2017 in Bezug auf neuronale Netze erwähnt?




ANTWORT: Im Jahr 2017 wurden die folgenden Veröffentlichungen in Bezug auf neuronale Netze erwähnt: "Ein kleiner Überblick über Neuronale Netze" von David Kriesel, "Neural Networks and Deep Learning" von Michael Nielsen und "Deep learning in neural networks: An overview" von Jürgen Schmidhuber.
