## **Lernziele**

Durch das Bearbeiten dieser Übungen werden Sie:

- Retrieval-Augmented Generation (RAG) und seine Komponenten verstehen.
- PDF-Dokumente effektiv laden, vorverarbeiten und verarbeiten.
- Textdaten in Embeddings für effiziente Suche umwandeln.
- Dokumenten-Retrieval-Systeme mit LangChain und FAISS implementieren und testen.
- Retrieval-Systeme mit kostenlosen Sprachmodellen (LLMs) von ChatGroq integrieren.
- Ein interaktives chatbasiertes Frage-Antwort-System aufbauen.

---

## **Übung 1: Setup und Aufwärmen**

In dieser Übung richten Sie Ihre Umgebung ein und wählen ein geeignetes Sprachmodell aus.

**Schritte:**

1. **Umgebungsvariablen laden:** Stellen Sie sicher, dass Ihre Umgebungsvariablen (z.B. API-Schlüssel, Tokens) sicher gespeichert und geladen werden.
2. **LLM auswählen:** Wählen Sie ein kostenloses LLM-Modell von ChatGroq aus.
3. **Modell instanziieren:** Erstellen Sie eine Instanz Ihres gewählten Modells.

In [1]:
# Import necessary libraries
from dotenv import load_dotenv
from langchain_groq import ChatGroq

load_dotenv()

llm = ChatGroq(
    model="llama3-8b-8192",
    temperature=0.5,
    max_tokens=1024
)

---

## **Übung 2: Datenaufnahme**

In dieser Übung lernen Sie, PDF-Daten in eine Python-Umgebung zu laden.

**Schritte:**

1. **PDF-Loader importieren:** Verwenden Sie LangChains `PyPDFLoader`.
2. **PDF-Datei laden:** Erstellen Sie eine Funktion zum Lesen der PDF-Datei.
3. **PDF-Inhalt anzeigen:** Geben Sie die Seitenanzahl und den Inhalt der ersten Seite aus.

In [3]:
from langchain_community.document_loaders import DirectoryLoader, TextLoader

data_folder = "data/"

print(f"Lade Markdown-Dateien aus dem Ordner: {data_folder}...")

loader = DirectoryLoader(
    path=data_folder,
    glob="**/*.md",
    loader_cls=TextLoader,
    show_progress=True
)

docs = loader.load()

Lade Markdown-Dateien aus dem Ordner: data/...


100%|██████████| 27/27 [00:00<00:00, 4826.38it/s]


In [None]:
# Load your PDF and print out content here

---

## **Übung 3: Dokument-Chunking**

Diese Übung führt das Aufteilen großer Dokumente in handhabbare Textblöcke ein.

**Schritte:**

1. **Text-Splitter importieren:** Verwenden Sie `RecursiveCharacterTextSplitter`.
2. **Dokument aufteilen:** Schreiben Sie eine Funktion, die geladene Dokumente in Chunks aufteilt.
3. **Funktion testen:** Überprüfen Sie das Ergebnis, indem Sie die resultierenden Chunks anzeigen.

In [None]:
# Import RecursiveCharacterTextSplitter
from langchain_text_splitters import RecursiveCharacterTextSplitter

# Example chunking function
def chunk_documents(documents, chunk_size=200, chunk_overlap=50):
    pass  # Implement your chunking logic

In [None]:
# Execute your chunking function and display results here


---

## **Übung 4: Embedding und Speicherung**

In dieser Übung erstellen Sie Embeddings aus Textblöcken und speichern sie effizient.

**Schritte:**

1. **Embedding-Modell wählen:** Verwenden Sie `sentence-transformers/all-mpnet-base-v2` von Hugging Face.
2. **Embeddings generieren:** Wandeln Sie Dokument-Chunks in Embeddings um.
3. **Embeddings speichern:** Speichern Sie diese Embeddings lokal mit FAISS.

In [None]:
# Import libraries
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.vectorstores import FAISS

# Example function for embeddings and storage
def embed_and_store(chunks):
    pass  # Implement your embedding creation and storage logic

In [None]:
# Generate embeddings and save them locally

---

## **Übung 5: Retrieval aus FAISS**

Hier lernen Sie, wie man Dokumente aus einer Vektordatenbank mithilfe von Embeddings abruft.

**Schritte:**

1. **Embeddings laden:** Laden Sie gespeicherte Embeddings aus der FAISS-Datenbank.
2. **Retrieval implementieren:** Erstellen Sie eine Logik zum Abrufen relevanter Chunks basierend auf Abfragen.
3. **Retriever testen:** Führen Sie die Suche mit Beispielabfragen durch.

In [None]:
# Implement retrieval logic from your FAISS database

In [None]:
# Test your retrieval system with queries

---

## **Übung 6: Retrieval mit LLM verbinden**

Nun verbinden Sie das Dokument-Retrieval mit dem Sprachmodell.

**Schritte:**

1. **Retrieval-Chain erstellen:** Verknüpfen Sie Ihr Retrieval-System mit Ihrem instanziierten LLM.
2. **Chain testen:** Bestätigen Sie die Funktionalität, indem Sie Antworten aus abgerufenen Dokumenten generieren.

In [None]:
# Write a function to create retrieval and document processing chains


In [None]:
# Invoke your chain with a sample question

---

## **Übung 7: Interaktives Chat-System**

In der letzten Übung bauen Sie ein interaktives chatbasiertes Abfragesystem.

**Schritte:**

1. **Chat-Oberfläche erstellen:** Entwickeln Sie eine einfache Funktion für interaktive Abfragen.
2. **Chat ausführen:** Ermöglichen Sie es Nutzern, Fragen zu stellen und sofortige Antworten zu erhalten.

In [None]:
# Define your interactive chat querying function

In [None]:
# Run and test your interactive chat system

---

## **Fazit & Reflexion**

Nach Abschluss dieser Übungen:

- Fassen Sie die gelernten Schlüsselkonzepte zusammen.
- Reflektieren Sie über die Wirksamkeit und Einschränkungen des kostenlosen LLM und des von Ihnen aufgebauten RAG-Systems.
- Überlegen Sie, wie Sie Ihr System in praktischen Anwendungen verbessern oder erweitern könnten.

---