<p><font size="6" color='grey'> <b>

Generative KI. Verstehen. Anwenden. Gestalten.
</b></font> </br></p>

<p><font size="5" color='grey'> <b>
Lokale und Open Source Modelle
</b></font> </br></p>


---

In [None]:
#@title üîß Umgebung einrichten{ display-mode: "form" }
!uv pip install --system -q git+https://github.com/ralf-42/GenAI.git#subdirectory=04_modul
from genai_lib.utilities import (
    check_environment,
    get_ipinfo,
    setup_api_keys,
    mprint,
    install_packages,
    mermaid,
    get_model_profile,
    extract_thinking,
    load_chat_prompt_template
)
print()
check_environment()
print()
get_ipinfo()

<p><font color='black' size="5">
‚è∏Ô∏è 5-Minuten-Check:
</font></p>

**Ziel:** Pr√ºfen, ob du das vorherige Kapitel verstanden hast ‚Äì nicht, ob es gerade l√§uft.

**Aufgabe** (5 Minuten, ohne Vorlage):

Rekonstruiere die zentrale Idee oder Code-Struktur des letzten Abschnitts selbstst√§ndig
(kein Copy & Paste, kein Nachschlagen).

W√§hle eine der folgenden Optionen:

+ Erkl√§re in 1‚Äì2 S√§tzen, was hier konzeptionell passiert.

+ Ver√§ndere eine Kleinigkeit (z. B. Prompt, Parameter, Reihenfolge) und beschreibe die Auswirkung.

+ Markiere eine Stelle, die du nicht sicher erkl√§ren kannst, und formuliere eine konkrete Frage dazu.

**Hinweis:**
Nicht alles muss ‚Äûfertig‚Äú oder ‚Äûkorrekt‚Äú sein. Entscheidend ist, wo dein Verst√§ndnis gerade endet

# 1 | Einf√ºhrung
---


Lokale und Open Source Modelle bieten eine Alternative zu Cloud-basierten KI-Diensten wie OpenAI. Im Gegensatz zu API-basierten Diensten werden diese Modelle direkt auf dem lokalen System ausgef√ºhrt, was Vorteile in Bezug auf Datenschutz, Kosten und Anpassungsm√∂glichkeiten bietet.



<p><font color='black' size="5">
Vor- und Nachteile lokaler Modelle
</font></p>

- **Vorteile**: Datenschutz, keine API-Kosten, keine Internetverbindung erforderlich, volle Kontrolle
- **Nachteile**: H√∂here Hardwareanforderungen, begrenzte Modellleistung auf Standard-Hardware, Installations- und Wartungsaufwand



<p><font color='black' size="5">
Anwendungsbereiche lokaler Modelle
</font></p>

- Entwicklung und Prototyping
- Datenschutzkritische Anwendungen
- Offline-Anwendungen
- Kostensensitive Projekte



# 2 | Ollama
---

<img src="https://ollama.com/public/ollama.png" class="logo" width="120"/>





Ollama ist ein Tool, das die einfache Installation und Nutzung von Open Source LLMs auf dem eigenen Computer erm√∂glicht. Es bietet eine benutzerfreundliche Schnittstelle zum Herunterladen, Verwalten und Ausf√ºhren verschiedener Sprachmodelle.

[Ollama](https://ollama.com/)

In [None]:
#@title üßú‚Äç‚ôÄÔ∏è Prozess-Diagramm { display-mode: "form" }

diagram = """
graph TD
    subgraph Colab ["<b>Google Colab Runtime</b>"]
        direction TB

        Code["Python Code<br/><small>Notebook-Zelle</small>"]

        subgraph Backend ["Hintergrund"]
            Ollama["Ollama Server<br/><small>localhost:11434</small>"]
            Models["Lokale Modelle"]
        end

        GPU["GPU<br/><small>T4 / A100</small>"]
    end

    subgraph Extern ["Extern"]
        Registry["Ollama Registry"]
    end

    %% Haupt-Workflow (nummeriert)
    Code -->|"#1 API Call"| Ollama
    Ollama -->|"#2 laden"| Models
    Ollama -->|"#3 Inferenz"| GPU
    GPU -->|"#4 Ergebnis"| Ollama
    Ollama -->|"#5 Response"| Code

    %% Setup (gestrichelt)
    Registry -.->|"ollama pull"| Models

    %% Styling
    style Colab fill:#f8f9fa,stroke:#495057,stroke-width:2px
    style GPU fill:#d4edda,stroke:#28a745,stroke-width:2px
    style Ollama fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
    style Registry fill:#fff3cd,stroke:#ffc107
"""
mermaid(diagram)


<p><font color='black' size="5">
Installation von Ollama
</font></p>

In [None]:
# Installation in Linux/Colab
!sudo apt update
!sudo apt install -y pciutils
!sudo apt-get install zstd
!curl -fsSL https://ollama.com/install.sh | sh

<p><font color='black' size="5">
Starten des Ollama-Servers
</font></p>

In [None]:
import threading
import subprocess
import time

def run_ollama_serve():
  subprocess.Popen(["ollama", "serve"])

thread = threading.Thread(target=run_ollama_serve)
thread.start()
time.sleep(10)  # Kurz warten, bis der Server hochgefahren ist

<p><font color='black' size="5">
Modelle herunterladen und verwalten
</font></p>

In [None]:
# Modelle herunterladen
!ollama pull llama3

In [None]:
# Modelle herunterladen
!ollama pull gemma3

In [None]:
# Verf√ºgbare Modelle anzeigen
!ollama list

# 3 | Lokale Modelle und LangChain
---

LangChain bietet eine nahtlose Integration mit Ollama, wodurch lokale Modelle in komplexen Anwendungen eingesetzt werden k√∂nnen.



<p><font color='black' size="5">
Einfache Verwendung von Ollama mit LangChain
</font></p>

In [None]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers.string import StrOutputParser
from langchain.chat_models import init_chat_model

# Prompt
prompt = ChatPromptTemplate.from_messages([
    ("system", "Du bist ein hilfreicher und humorvoller KI-Assistent. Antworte sachlich und kurz."),
    ("human", "Frage: {question}\n\nAntwort: Denke Schritt f√ºr Schritt.")
])

# Model
llm = init_chat_model("ollama:llama3", temperature=0.1)

# Parser
parser = StrOutputParser()

# Chain zusammensetzen und ausf√ºhren
chain = prompt | llm | parser

<p><font color='black' size="5">
Beispiele Llama 3
</font></p>

In [None]:
# Beispiel 1: Gesundheitsfrage
response = chain.invoke({"question": "Was ist der einfachste Weg Gewicht abzunehmen?"})
mprint("## ü§ñ Local LLM")
mprint(response)

In [None]:
# Beispiel 2: Allgemeinwissen
response = chain.invoke({"question": "Wer war Albert Einstein?"})
mprint("## ü§ñ Local LLM")
mprint(response)

<p><font color='black' size="5">
Beispiele Gemma 3
</font></p>

In [None]:
# Model
llm = init_chat_model("ollama:gemma3", temperature=0.1)

# Chain zusammensetzen und ausf√ºhren
chain = prompt | llm | parser

In [None]:
# Beispiel 1: Gesundheitsfrage
response = chain.invoke({"question": "Was ist der einfachste Weg Gewicht abzunehmen?"})
mprint("## ü§ñ Local LLM")
mprint(response)

In [None]:
# Beispiel 2: Allgemeinwissen
response = chain.invoke({"question": "Wer war Albert Einstein?"})
mprint("## ü§ñ Local LLM")
mprint(response)


# 4 | Open Source vs. Closed Source
---

<p><font color='black' size="5">
Open Source Modelle
</font></p>



Open Source KI-Modelle zeichnen sich durch ihre frei zug√§nglichen Gewichte und Architekturen aus. Diese Modelle werden unter Lizenzen wie MIT, Apache oder Creative Commons ver√∂ffentlicht, die es Nutzern erlauben, den Code einzusehen, zu modifizieren und f√ºr eigene Zwecke anzupassen.

**Vorteile von Open Source Modellen:**

- **Transparenz**: Einsicht in die Funktionsweise und Trainingsmethoden
- **Anpassbarkeit**: M√∂glichkeit zum Fine-Tuning f√ºr spezifische Anwendungsf√§lle
- **Keine API-Kosten**: Nach dem Download entstehen keine laufenden Nutzungskosten
- **Datenschutz**: Vollst√§ndige Kontrolle √ºber die Datenverarbeitung
- **Community-Unterst√ºtzung**: Regelm√§√üige Verbesserungen durch die Community

**Herausforderungen:**

- **Hardwareanforderungen**: Gr√∂√üere Modelle ben√∂tigen leistungsstarke Hardware
- **Expertise**: Technisches Know-how f√ºr Installation und Optimierung n√∂tig
- **Qualit√§tsunterschiede**: Leistung kann bei gleicher Gr√∂√üe hinter kommerziellen Modellen zur√ºckbleiben



<p><font color='black' size="5">
Closed Source Modelle
</font></p>

Closed Source Modelle wie GPT-4 von OpenAI oder Claude von Anthropic werden nur √ºber APIs angeboten, ohne Zugriff auf die zugrunde liegenden Modellgewichte.

**Vorteile von Closed Source Modellen:**

- **Leistungsst√§rke**: Oft fortschrittlicher als vergleichbare Open Source Alternativen
- **Einfache Nutzung**: Keine lokale Installation oder Wartung n√∂tig
- **Regelm√§√üige Updates**: Automatische Verbesserungen ohne eigenen Aufwand
- **Skalierbarkeit**: Flexibel an unterschiedlichen Bedarf anpassbar

**Nachteile:**

- **Kosten**: Nutzungsbasierte Geb√ºhren
- **Abh√§ngigkeit**: Angewiesenheit auf externe Dienste und deren Verf√ºgbarkeit
- **Datenschutzbedenken**: Daten verlassen das eigene System
- **Eingeschr√§nkte Anpassbarkeit**: Beschr√§nkte M√∂glichkeiten zur Modifikation



# 5 | Beispiele Open Source Modelle
---

<p><font color='black' size="5">
Phi-4 (Microsoft)
</font></p>

Microsoft's Phi-4 ist ein kompaktes, aber leistungsstarkes Modell, das trotz seiner geringen Gr√∂√üe beeindruckende Ergebnisse liefert.

**Technische Details:**

- Verf√ºgbar in verschiedenen Gr√∂√üen (2,7B bis 13B Parameter)
- Optimiert f√ºr das Ausf√ºhren auf durchschnittlicher Hardware
- Besonders stark in Coding-Aufgaben und logischem Denken
- Trainiert mit hochwertigen, kuratierten Daten
- Verwendet eine optimierte Transformerarchitektur

**Einsatzbereiche:**

- Softwareentwicklung und Code-Generierung
- Textgenerierung mit geringen Hardwareanforderungen
- Bildung und Wissensanwendungen



<p><font color='black' size="5">
Gemma (Google)
</font></p>

Google's Gemma ist eine Familie leichtgewichtiger, offener Modelle, die speziell f√ºr Effizienz optimiert wurden.

**Technische Details:**

- Gr√∂√üen: 2B und 7B Parameter
- Entwickelt mit einem starken Fokus auf verantwortungsvolle KI
- Basiert auf der Gemini-Modellfamilie
- Unterst√ºtzt Kontextfenster bis zu 8K Tokens
- Verf√ºgbar in verschiedenen Quantisierungen (GGUF)

**Besonderheiten:**

- Starke Leistung in mehrsprachigen Anwendungen
- Effiziente Ressourcennutzung
- Gute Balance zwischen Modellgr√∂√üe und F√§higkeiten



<p><font color='black' size="5">
Llama 2 und Llama 3 (Meta)
</font></p>

Meta's Llama-Serie hat die Open-Source-LLM-Landschaft revolutioniert und bietet leistungsstarke Modelle mit differenzierten Lizenzen.

**Technische Details:**

- Llama 3: Verf√ºgbar in 8B und 70B Varianten, mit verbesserter Multitask-Leistung
- Llama 2: 7B, 13B und 70B Parameter
- Kontextfenster: Bis zu 4K Tokens (Llama 2), 8K+ (Llama 3)
- Chat-optimierte Varianten verf√ºgbar

**Besonderheiten:**

- Starke Leistung in Reasoning-Aufgaben
- Verbesserte Instruktionsbefolgung in neueren Versionen
- Semi-offene Lizenz mit Einschr√§nkungen f√ºr kommerzielle Nutzung ab bestimmten Nutzer-Schwellenwerten



<p><font color='black' size="5">
Mistral (Mistral AI)
</font></p>

Das franz√∂sische Startup Mistral AI hat mit seinen effizienten Modellen f√ºr Aufsehen gesorgt.

**Technische Details:**

- Mistral 7B: Beeindruckende Leistung trotz kompakter Gr√∂√üe
- Mixtral 8x7B: Ein Mixture-of-Experts (MoE) Modell mit starker Leistung
- Verbesserte Architekturen mit effizienten Attention-Mechanismen
- Unterst√ºtzung f√ºr bis zu 32K Token Kontextfenster

**Besonderheiten:**

- Herausragende Leistung f√ºr die Modellgr√∂√üe
- Spezialisierte Varianten f√ºr Code-Generierung (Codestral)
- Moderne Architekturoptimierungen f√ºr bessere Effizienz



<p><font color='black' size="5">
Falcon (Technology Innovation Institute)
</font></p>

Die Falcon-Modelle wurden vom Technology Innovation Institute in den VAE entwickelt und bieten eine gro√üz√ºgige Lizenz f√ºr kommerzielle Anwendungen.

**Technische Details:**

- Gr√∂√üen: 1B, 7B und 40B Parameter
- Trainiert auf einem gro√üen, diversen Datensatz
- Optimierte Transformer-Architektur f√ºr Effizienz

**Besonderheiten:**

- Permissive Lizenz f√ºr kommerzielle Anwendungen
- Gute Mehrsprachigkeit
- Hohe Qualit√§t in allgemeinen Wissensabfragen




# 6 | Lizenzierung und rechtliche Aspekte
---

Die Lizenzen von Open Source Modellen unterscheiden sich erheblich und beeinflussen deren Einsatzm√∂glichkeiten:

**MIT Lizenz (z. B. OpenLLaMA, GPT-NeoX)**
- Sehr liberal, erlaubt kommerzielle Nutzung ohne Einschr√§nkungen  
- Erfordert lediglich die Nennung des urspr√ºnglichen Urhebers  
- Keine Weitergabelizenzverpflichtung (nicht copyleft)  
- Einfach und weit verbreitet in Open-Source-Projekten  

**Apache 2.0 (z. B. Gemma, Falcon)**
- Sehr liberal, erlaubt kommerzielle Nutzung ohne starke Einschr√§nkungen  
- Erfordert Hinweis auf urspr√ºngliches Urheberrecht  
- Keine Weitergabelizenzverpflichtung (nicht copyleft)  
- Enth√§lt eine Klausel zum Schutz vor Patentstreitigkeiten  

**Meta Llama Lizenz**
- Erlaubt kommerzielle Nutzung mit Einschr√§nkungen (z. B. Nutzerschwellen)  
- Enth√§lt spezifische Bedingungen f√ºr verantwortungsvolle Nutzung  
- Verbietet bestimmte Anwendungsf√§lle wie Desinformation oder illegale Aktivit√§ten  
- Nicht so frei wie Apache oder MIT, aber offener als propriet√§re Modelle  

**Mistral AI Lizenz**
- Erlaubt kommerzielle und nicht-kommerzielle Nutzung  
- Enth√§lt ethische Nutzungsbeschr√§nkungen  
- Unterschiedliche Bedingungen f√ºr verschiedene Modellversionen  
- Im Allgemeinen offener als die Meta Llama Lizenz  

**Creative Commons (z. B. BLOOM unter CC-BY-SA)**
- Verschiedene Varianten mit unterschiedlichem Freiheitsgrad  
- **CC-BY**: Erlaubt kommerzielle Nutzung, solange der Urheber genannt wird  
- **CC-BY-SA**: Weitergabe nur unter gleichen Lizenzbedingungen erlaubt (copyleft)  
- **CC-BY-NC**: Keine kommerzielle Nutzung erlaubt  
- **CC-BY-ND**: Keine Bearbeitung oder Ableitung erlaubt  
- H√§ufig f√ºr Open-Access-Modelle genutzt, aber mit Einschr√§nkungen je nach Variante  

<br>

**Disclaimer**    
Die oben aufgef√ºhrten Informationen zu Lizenzmodellen dienen ausschlie√ülich allgemeinen Informationszwecken und stellen keine rechtliche Beratung dar. Die Bedingungen einzelner Lizenzen k√∂nnen sich √§ndern, und ihre Auslegung kann von der jeweiligen Rechtsprechung abh√§ngen.

Vor der Nutzung oder Weitergabe eines KI-Modells sollten die offiziellen Lizenzdokumente sorgf√§ltig gepr√ºft und bei Unsicherheiten eine juristische Beratung eingeholt werden. Wir √ºbernehmen keine Haftung f√ºr die Vollst√§ndigkeit, Richtigkeit oder Anwendbarkeit der bereitgestellten Informationen.



# 7 | Auswahlkriterien Open Source
---

Bei der Wahl eines geeigneten Open Source Modells sollten folgende Faktoren ber√ºcksichtigt werden:

**Hardwareanforderungen:**

- Gr√∂√üere Modelle (40B+): Ben√∂tigen High-End-GPUs mit 24GB+ VRAM
- Mittlere Modelle (7-13B): Laufen auf Consumer-GPUs mit 8-16GB VRAM
- Kleine Modelle (1-2B): K√∂nnen auf Standard-Laptops oder CPUs ausgef√ºhrt werden
- Quantisierung (INT4, INT8) reduziert Hardwareanforderungen erheblich

**Anwendungsfall:**

- Allgemeine Textgenerierung: Llama 3, Mistral und Gemma bieten gute Allround-Leistung
- Code-Generierung: Phi, CodeLlama oder Codestral f√ºr spezialisierte Coding-F√§higkeiten
- Wissenschaftliche Aufgaben: Spezialisierte Dom√§nenmodelle bevorzugen
- Mehrsprachigkeit: Auf Modelle mit breitem Sprachtraining (z.B. BLOOM) setzen

**Kontextfenster:**

- Standard (4-8K Tokens): F√ºr die meisten einfachen Anwendungen ausreichend
- Erweitert (16-32K Tokens): F√ºr Dokumentenanalyse und komplexe Aufgaben
- Lang (64K+ Tokens): F√ºr die Verarbeitung ganzer Dokumente oder Codebases



# 8 | Zukunftstrends bei Open Source
---



Die Open Source LLM-Landschaft entwickelt sich rapide weiter. Folgende Trends sind zu beobachten:

**Effizienzsteigerungen:**

- Kleinere Modelle mit der Leistung gr√∂√üerer Vorg√§nger
- Verbesserte Quantisierungstechniken f√ºr schnellere Inferenz
- Optimierte Architekturen (MoE, FlashAttention, etc.)

**Spezialisierung:**

- Dom√§nenspezifische Modelle f√ºr Medizin, Recht, Finanzen, etc.
- Aufgabenspezifische Varianten f√ºr Code, Mathematik, Reasoning
- Sprachspezifische Modelle f√ºr nicht-englische Sprachen

**Verbesserte Lizenzen:**

- Entwicklung ausgewogenerer Lizenzmodelle
- Klarere Richtlinien f√ºr verantwortungsvolle KI-Nutzung
- Industriefreundlichere Bedingungen f√ºr kommerzielle Anwendungen

**Multimodalit√§t:**

- Integration von Text- und Bildverst√§ndnis
- Erweiterung auf Audio- und Videoverarbeitung
- Verbesserte Integration mit externen Tools und Wissensquellen

Diese Entwicklungen werden die L√ºcke zwischen Open Source und propriet√§ren Modellen weiter verringern und die Einstiegsh√ºrden f√ºr lokale KI-Anwendungen senken.



<p><font color='black' size="5">
Modellperformance
</font></p>

![My Image](https://raw.githubusercontent.com/ralf-42/GenAI/main/07_image/top-mmlu-open-closed-banner_klein.png)

[Ben Cottier et al. (2024), "How Far Behind Are Open Models?". Published online at epoch.ai.](https://epoch.ai/blog/open-models-report)

# A | Aufgabe


Die Aufgabestellungen unten bieten Anregungen, Sie k√∂nnen aber auch gerne eine andere Herausforderung angehen.

<p><font color='black' size="5">
Vergleich von Open Source Modellen
</font></p>

Installieren Sie Ollama auf Ihrem lokalen System und vergleichen Sie die Leistung von mindestens zwei verschiedenen Modellen (z.B. Llama2 und Gemma) bei der Beantwortung derselben Prompts.

Vergleichen Sie die Antworten der Modelle. Kriterien: Umfang, Qualit√§t, Antwortzeit, ...


<p><font color='black' size="5">
Chat-Anwendung mit lokalem LLM
</font></p>


Entwickeln Sie eine einfache Gradio-basierte Chat-Anwendung, die ein lokales Modell √ºber Ollama nutzt. Die Anwendung soll:

```python
import gradio as gr
from langchain_ollama import OllamaLLM
from langchain_core.messages import HumanMessage, AIMessage
import os

# Ollama-LLM initialisieren
llm = OllamaLLM(model="gemma", temperature=0.7)

# Chat-Historie
chat_verlauf = []

def chat_antwort(nachricht, verlauf):
    """
    Verarbeitet die Nutzereingabe und generiert eine Antwort vom LLM
    """
    # Aktuelle Nachricht zur Historie hinzuf√ºgen
    if nachricht:
        verlauf.append((nachricht, ""))
        
        # Chat-Kontext erstellen (begrenzt auf die letzten 5 Nachrichten f√ºr Effizienz)
        kontext = ""
        for i in range(max(0, len(verlauf)-5), len(verlauf)):
            if i < len(verlauf)-1:  # Alle vorherigen Nachrichten
                kontext += f"Mensch: {verlauf[i][0]}\nAssistent: {verlauf[i][1]}\n"
            else:  # Aktuelle Nachricht
                kontext += f"Mensch: {verlauf[i][0]}\nAssistent: "
        
        # Antwort vom Modell generieren
        antwort = llm.invoke(kontext)
        
        # Antwort zur Historie hinzuf√ºgen
        verlauf[-1] = (nachricht, antwort)
    
    return "", verlauf

# Gradio-Interface erstellen
with gr.Blocks(title="Lokaler KI-Assistent") as demo:
    gr.Markdown("# Chat mit einem lokalen KI-Modell")
    gr.Markdown("Dieser Chat verwendet das Gemma-Modell √ºber Ollama")
    
    chatbot = gr.Chatbot(label="Chat-Verlauf")
    msg = gr.Textbox(label="Ihre Nachricht", placeholder="Schreiben Sie hier Ihre Nachricht...")
    
    msg.submit(chat_antwort, [msg, chatbot], [msg, chatbot])
    
    gr.Markdown("### Hinweise zur Nutzung:")
    gr.Markdown("- Die Antworten werden lokal auf Ihrem System generiert")
    gr.Markdown("- Keine Daten werden an externe Server gesendet")
    gr.Markdown("- Die Antwortgeschwindigkeit h√§ngt von Ihrer Hardware ab")

# Anwendung starten
demo.launch()
```

Testen & erweitern Sie die Anwendung:
1. Testen Sie den Code, korrigieren Sie etwaige Fehler.
2. Modellauswahl (zwischen verschiedenen installierten Ollama-Modellen)
3. Parameter-Einstellungen (Temperatur, Top-K, Top-P)
4. Speichern und Laden von Chat-Verl√§ufen
5. M√∂glichkeit, die generierten Antworten zu bewerten (Daumen hoch/runter)

<p><font color='black' size="5">
RAG-System mit lokalem LLM
</font></p>



Entwickeln Sie ein einfaches Retrieval-Augmented Generation (RAG) System, das lokale PDF-Dokumente einliest und die Beantwortung von Fragen mit einem lokalen Modell erm√∂glicht:

```python
from langchain_ollama import OllamaLLM
from langchain_community.document_loaders import PyPDFLoader
from langchain_community.vectorstores import FAISS
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_core.prompts import PromptTemplate
import gradio as gr
import os

# Modell initialisieren
llm = OllamaLLM(model="llama2", temperature=0.1)

# Embedding-Modell laden (lokal, ohne API-Calls)
embeddings = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")

# Vektorstore f√ºr Dokumente
vector_store = None

def dokumente_laden(dateien):
    """L√§dt PDF-Dokumente und erstellt eine Vektordatenbank"""
    global vector_store
    
    dokumente = []
    for datei in dateien:
        loader = PyPDFLoader(datei.name)
        dokumente.extend(loader.load())
    
    # Dokumente in kleinere Chunks aufteilen
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=1000,
        chunk_overlap=200
    )
    chunks = text_splitter.split_documents(dokumente)
    
    # Vektordatenbank erstellen
    vector_store = FAISS.from_documents(chunks, embeddings)
    
    return f"{len(chunks)} Textabschnitte aus {len(dateien)} Dokumenten geladen"

def frage_beantworten(frage):
    """Beantwortet eine Frage basierend auf den geladenen Dokumenten"""
    if vector_store is None:
        return "Bitte laden Sie zuerst Dokumente hoch."
    
    # Relevante Dokumente abrufen
    docs = vector_store.similarity_search(frage, k=3)
    
    # Kontext erstellen
    kontext = "\n\n".join([doc.page_content for doc in docs])
    
    # Prompt erstellen
    prompt_vorlage = """
    Du bist ein hilfreicher Assistent, der Fragen basierend auf gegebenen Informationen beantwortet.
    
    Kontext:
    {kontext}
    
    Frage: {frage}
    
    Deine Antwort sollte sich auf die im Kontext gegebenen Informationen beschr√§nken.
    Wenn du keine Antwort im Kontext findest, sage ehrlich, dass du es nicht wei√üt.
    """
    
    prompt = PromptTemplate(
        template=prompt_vorlage,
        input_variables=["kontext", "frage"]
    )
    
    # Antwort vom LLM bekommen
    antwort = llm.invoke(prompt.format(kontext=kontext, frage=frage))
    
    return antwort

# Gradio-Interface
with gr.Blocks() as demo:
    gr.Markdown("# Lokales Frage-Antwort-System mit RAG")
    
    with gr.Tab("Dokumente laden"):
        file_input = gr.File(file_count="multiple", label="PDF-Dokumente")
        upload_button = gr.Button("Dokumente laden")
        upload_output = gr.Textbox(label="Status")
        upload_button.click(dokumente_laden, inputs=[file_input], outputs=[upload_output])
    
    with gr.Tab("Fragen stellen"):
        question_input = gr.Textbox(label="Ihre Frage zum Dokument")
        answer_button = gr.Button("Frage stellen")
        answer_output = gr.Textbox(label="Antwort")
        answer_button.click(frage_beantworten, inputs=[question_input], outputs=[answer_output])

demo.launch()
```

Testen und erweitern Sie das System:
1. Testen & ggf. korrigieren des Code
2. Unterst√ºtzung f√ºr weitere Dateiformate (DOCX, TXT, HTML)
3. M√∂glichkeit, die Qualit√§t der Antworten zu verbessern durch:
   - Modellauswahl
   - Parameteroptimierung
   - Verbesserung des Prompts
4. Implementierung einer M√∂glichkeit zur Quellennachverfolgung (aus welchem Teil des Dokuments stammt die Information)
5. Visualisierung der relevanten Textpassagen im Dokument