# üèóÔ∏è Notebook: Einf√ºhrung in Retrieval-Augmented Generation (RAG) [mit Langchain v1]

In diesem Notebook lernen wir, wie wir **Retrieval-Augmented Generation (RAG)** nutzen k√∂nnen, um die Antworten von gro√üen Sprachmodellen (LLMs) durch externe Wissensquellen zu verbessern.

## üìö Quellen

- [LangChain Dokumentation zu RAG](https://python.langchain.com/docs/tutorials/rag/)

## üîÑ √Ñnderungen

Dieses Notebook wurde auf **LangChain 1.x** aktualisiert. Die Haupt√§nderungen sind:

- **LangChain-Version**: Aktualisiert von 0.3.27 auf 1.1.3 (und zugeh√∂rige Pakete).
- **Veraltete Komponenten entfernt**: `RetrievalQA` und `PromptTemplate` sind deprecated und wurden durch moderne Runnable-Objekte ersetzt.
- **Runnable-Pipelines**: Anstatt Chains verwendet das Notebook jetzt die LangChain Expression Language (LCEL) mit `RunnablePassthrough`, `RunnableLambda` und dem `|` Operator f√ºr die Verkettung von Retriever, Prompt und LLM.
- **Prompt-Template**: `PromptTemplate` (deprecated) wurde durch `ChatPromptTemplate` ersetzt.

Der Funktionsumfang bleibt derselbe, aber der Code folgt nun den aktuellen Best Practices von LangChain.

---

In [1]:
%%capture
# Installieren wir zun√§chst einige Packete die uns LangChain zur Verf√ºgung stellt. U.a. eine Schnittstelle zu Ollama.
!uv add langchain==1.1.3 langchain-community==0.4.1 langchain_text_splitters==1.0.0 langchain-core==1.1.3 langchain-ollama==1.0.0 pypdf rank_bm25 chromadb

In [2]:
import langchain
langchain.__version__

'1.1.3'

In [3]:
# Import necessary libraries
from langchain_community.document_loaders import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import Chroma
from langchain_ollama import ChatOllama, OllamaEmbeddings
from langchain_community.retrievers import BM25Retriever
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough, RunnableLambda

In [4]:
LLM_URL = "http://132.199.138.16:11434"
LLM_MODEL = "gpt-oss:20b" 
EMBEDDING_MODEL = "nomic-embed-text" # Der Ollama-Server bei der Uni stellt uns ein Embedding Modell zur Verf√ºgung mit dem wir dokumente in Vektoren umwandeln k√∂nnen.

In [5]:
# LLM initialisieren
llm = ChatOllama(
    model=LLM_MODEL,
    base_url=LLM_URL,
    temperature=0
)

## 1. Dokumente laden und vorbereiten

Wir nehmen als Beispiel ein PDF-Dokument zur Baugeschichte der Universit√§t Regensburg.

Zun√§chst folgen wir drei Schritte:

* Herunterladen der PDF von der offiziellen Webseite (auch manuell m√∂glich!)
* Wir wandeln das PDF in einen Text um
* Aufteilung in Chunks

In [6]:
path_pdf = "https://www.uni-regensburg.de/fileadmin/user_upload/universitaet/archiv/Forschungshilfen/Dokumente_Unigeschichte/Infrastruktur_und_Baugeschichte/Chronik_Baugeschichte.pdf"

# download as "ur_baugeschichte.pdf" falls not already present
import os, requests
if not os.path.exists("ur_baugeschichte.pdf"): 
    response = requests.get(path_pdf)
    with open("ur_baugeschichte.pdf", "wb") as f:
        f.write(response.content)

### Dokumente laden

In Langchain gibt es viele M√∂glichkeiten, Dokumente zu laden. Abh√§ngig vom Dateityp (z.B. PDF, DOCX, TXT, HTML) gibt es verschiedene Loader-Klassen. 

In unserem Fall verwenden wir den `PyPDFLoader`, um die PDF-Datei zu laden.

Weitere Beispiele f√ºr Loader:

```python
# 1. F√ºr PDFs
from langchain_community.document_loaders import PyPDFLoader
# 2. F√ºr Textdateien / Strings
from langchain_community.document_loaders import TextLoader
# 3. F√ºr Webseiten
from langchain_community.document_loaders import WebBaseLoader
# 4. F√ºr HTML-Dateien
from langchain_community.document_loaders import HTMLLoader
```

Mehr Informationen zu den verschiedenen Loadern findet ihr auch in der [LangChain Dokumentation](https://docs.langchain.com/oss/javascript/integrations/document_loaders).

Alle Loader-Klassen haben eine `load()`-Methode, die die Datei einliest und in eine Liste von `Document`-Objekten umwandelt. 
Jedes `Document`-Objekt enth√§lt den Textinhalt.

In [7]:
# Dokument laden
# Mehr zum Document-Objekt (https://docs.langchain.com/oss/python/integrations/document_loaders).
loader = PyPDFLoader("ur_baugeschichte.pdf")
full_pdf = loader.load()  # load() gibt eine Liste von Document-Objekten zur√ºck, ein Document pro Seite im PDF

# Text in Chunks aufteilen
# RecursiveCharacterTextSplitter teilt lange Texte in kleinere Abschnitte (Chunks)
# Dies ist wichtig f√ºr RAG-Systeme, da Embedding-Modelle oft L√§ngenbeschr√§nkungen haben von z:.B. 512 oder 1024 Token
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1024,        # Maximale L√§nge eines Chunks in Zeichen
    chunk_overlap=50,      # √úberlappung zwischen Chunks verhindert Informationsverlust an Grenzen
    separators=["\n", ",", " ", ""]       # Text wird prim√§r an Abs√§tzen (Doppel-Zeilenumbr√ºchen) getrennt
)
# split_documents() wendet das Splitting auf das Document-Objekt an
# und gibt eine Liste von kleineren Document-Objekten zur√ºck
docs = text_splitter.split_documents(full_pdf)

# page_content enth√§lt den eigentlichen Text eines Document-Objekts
print(f"Anzahl der Chunks: {len(docs)}")
print(f"\nBeispiel-Chunk:\n{docs[0].page_content}")

Anzahl der Chunks: 32

Beispiel-Chunk:
Chronik zur universit√§ren Baugeschichte Regensburg 
 
Datum Ereignis Geb√§ude 
28.07.1964 Erteilung des Planungsauftrages f√ºr das 
Sammelgeb√§ude 
 
Quelle: RUZ 3/69, S. 8 
Sammelgeb√§ude (RWS) 
1965 Einrichtung eines Universit√§tsbauamtes 
 
Quelle: RUZ 1/65, S. 24 
Bauamt 
1965 Beginn der Umbauma√ünahmen am 
ehemaligen Geb√§ude des Albertus-
Magnus-Gymnasiums (√Ñgidienplatz) f√ºr 
die vorl√§ufige Unterbringung der 
Universit√§tsbibliothek  
 
Quelle: RUZ 1/65, S. 23-24 
Bibliothek 
11.05.1965 Erteilung des Planungsauftrages f√ºr die 
Mensa 
 
Quelle: RUZ 3/69, S. 8 
Mensa 
20.11.1965 Grundsteinlegung des Sammelgeb√§udes 
 
Quelle: RUZ 9/66, S. 4 
Sammelgeb√§ude (RWS) 
1965 Ausschreibung des ersten Wettbewerbs 
f√ºr Einzelbauma√ünahmen auf Grundlage 
der strukturellen Rahmenplanung 
 
Quelle: RUZ 10/66, S. 8 
Mensa 
28./29.01.1966 Bauwettbewerb Mensa mit Massenstudie 
f√ºr das Zentrum 
 
Erster Preis: Max D√∂mges 
 
Quelle: RUZ 1/66, S. 4; RUZ 

Der `RecursiveCharacterTextSplitter` versucht die Separatoren von oben nach unten in der angegebenen Reihenfolge. Er nimmt immer den ersten Separator, der den Text in Chunks `‚â§` `chunk_size` aufteilen kann. Falls ein Chunk trotzdem noch zu gro√ü ist, probiert er den n√§chsten Separator in der Liste, bis der Text klein genug ist.

Der `chunk_overlap` sorgt daf√ºr, dass aufeinanderfolgende Chunks sich √ºberlappen. Die letzten X Zeichen eines Chunks werden am Anfang des n√§chsten Chunks wiederholt, damit wichtige Informationen, die √ºber Chunk-Grenzen hinausgehen, nicht verloren gehen und der semantische Kontext erhalten bleibt. [Hier](https://dev.to/tak089/what-is-chunk-size-and-chunk-overlap-1hlj)
 findet ihr eine weitere Erkl√§rung dazu.

## 2. RAG mit Keyword-basierter Suche (BM25)

BM25 ist ein klassischer Ranking-Algorithmus, der auf **Keyword-Matching** basiert. Er berechnet, wie relevant ein Dokument f√ºr eine Suchanfrage ist, basierend auf der H√§ufigkeit und Verteilung der Suchbegriffe in den Chunks. BM25 berechnet einen Relevanz-Score f√ºr jedes Dokument und sortiert sie entsprechend.



In [8]:
bm25_retriever = BM25Retriever.from_documents(docs)
bm25_retriever.k = 10  # Anzahl der zur√ºckgegebenen Dokumente

# Beispiel-Suche mit dem BM25-Retriever
# mit .invoke() werden die 10 relevantesten Dokumente zur√ºckgegeben
query = "Wann erfolgte die Inbetriebnahme des Vielberth-Geb√§udes?"
retrieved_docs = bm25_retriever.invoke(query)

### Ggf. Auskommentieren um die gefundenen Dokumente anzuzeigen: ###
# print(f"Query: {query}\n")
# print("Gefundene Dokumente:")
# for i, doc in enumerate(retrieved_docs):
#     print(f"\n--- Dokument {i+1} ---")
#     print(doc.page_content)

In [9]:
# Erstellen wir eine Prompt mit ChatPromptTemplate. ChatPromptTemplate erm√∂glicht es uns, flexible Prompts mit Platzhaltern zu erstellen.
# Die Platzhalter werden sp√§ter durch die tats√§chlichen Werte ersetzt
template = """Beantworte die Frage basierend auf dem folgenden Kontext:

Kontext: {context}

Frage: {question}

Antwort:"""

# Funktion zum Formatieren der abgerufenen Dokumente in einen String
def format_docs(docs):
    # # Alle Dokumente werden zu einem String zusammengef√ºgt, getrennt durch zwei Zeilenumbr√ºche
    return "\n\n".join(doc.page_content for doc in docs)

# Die input_variables m√ºssen mit den Platzhaltern im Template √ºbereinstimmen
prompt = ChatPromptTemplate.from_template(template)

# Die RAG-Pipeline f√ºr BM25:
# 1. bm25_retriever: Holt die relevantesten Dokumente zur Frage basierend auf Keyword-Matching
# 2. RunnableLambda(format_docs): Wandelt die Liste von Dokumenten in einen zusammenh√§ngenden String um
# 3. RunnablePassthrough(): Leitet die Eingabe (die Frage) direkt weiter, ohne sie zu ver√§ndern. In unserem Beispiel question_1
# 4. prompt: Setzt den formatierten Kontext und die Frage in den Prompt ein
# 5. llm: Generiert die finale Antwort basierend auf dem Prompt. Prompt erwartet "context" und "question" als Eingaben, daher das Dictionary am Anfang.
# "|" : Verkettet Runnable-Objekte in der LangChain Expression Language (LCEL), wobei die Ausgabe des linken Objekts die Eingabe des rechten wird.
qa_chain_bm25 = (
    {"context": bm25_retriever | RunnableLambda(format_docs), "question": RunnablePassthrough()} 
    | prompt
    | llm
)

# Fragen stellen
question_1 = "Wann erfolgte die Inbetriebnahme des Vielberth-Geb√§udes?"
result = qa_chain_bm25.invoke(question_1) # Mit .invoke() wird die Kette ausgef√ºhrt
print(f"Frage: {question_1}")
print(f"Antwort: {result.content}")

Frage: Wann erfolgte die Inbetriebnahme des Vielberth-Geb√§udes?
Antwort: Die Inbetriebnahme des Vielberth‚ÄëGeb√§udes erfolgte im **Mai‚ÄØ2011**.


## 3. RAG mit Embeddings (Semantische Suche)

Bei der **Embedding-basierten Suche** werden Texte in numerische Vektoren umgewandelt, die ihre semantische Bedeutung repr√§sentieren. 

Wir verwenden ChromaDB (oft als "Chroma" bezeichnet), eine Open-Source Vektor-Datenbank. Jedem Vektor wird ein Text-Chunk zugeordnet, sodass wir bei einer Suchanfrage die semantisch √§hnlichsten Chunks finden k√∂nnen.

Mit `vectorstore.get()` k√∂nnten wir alle Vektoren abrufen als Python-Dictionary.

In [10]:
# Embeddings-Modell initialisieren.
# Auf dem Ollama-Server der Uni ist das Modell "nomic-embed-text" verf√ºgbar, mit dem wir Texte in Vektoren umwandeln k√∂nnen.
# Wichtige Hinweise: 
# (1) Die Umwandlung in Vekotren braucht Zeit und Rechenressourcen. Je nach Dokumentenl√§nge kann dies mehrere Minuten dauern, also bitte Geduld haben bzw. Daten gut vorbereiten!
# (2) Das Embedding-Modell hat eine L√§ngenbeschr√§nkung von ca. 512 Token. L√§ngere Texte m√ºssen vorher in Chunks aufgeteilt werden!

ollama_embeddings = OllamaEmbeddings(
    model=EMBEDDING_MODEL,
    base_url=LLM_URL
)

try:
  # Dieses Codest√ºck habe ich hinzugef√ºgt, um sicherzustellen, dass bei wiederholtem Ausf√ºhren des Notebooks kein doppelter Vektor-Speicher entstehen.
  vectorstore.delete_collection() 
except:
  pass

# Mit Chroma einen Vektor-Speicher aus den Dokumenten erstellen.
vectorstore = Chroma.from_documents(docs, ollama_embeddings)

# Retriever erstellen. Der Parameter k gibt an, wie viele √§hnliche Dokumente zur√ºckgegeben werden sollen.
vector_retriever = vectorstore.as_retriever(search_kwargs={"k": 2})

# Beispiel-Suche
query = "Was passierte 1980 an der Universit√§t Regensburg?"
retrieved_docs = vector_retriever.invoke(query)

print(f"Query: {query}\n")
print("Gefundene Dokumente:")
for i, doc in enumerate(retrieved_docs[:1]):
    print(f"\n--- Dokument {i+1} ---")
    print(doc.page_content)

Query: Was passierte 1980 an der Universit√§t Regensburg?

Gefundene Dokumente:

--- Dokument 1 ---
Quelle: RUZ 7/79, S. 2 
10.12.1979 Das Universit√§tsbauamt legt zwei 
unterschiedliche Ausbauvarianten der 
Mensa als Haushaltsunterlage HU-Bau 
zur Pr√ºfung vor, die beide von einer 
baulichen Erweiterung des 
Mensageb√§udes nach Westen ausgingen   
Mensa 
1980 Fertigstellung des Botanischen Versuchs- 
und Lehrgartens der Universit√§t 
 
Quelle: RUZ 3/82, S. 7 
Botanischer Garten 
20.05.1980 Genehmigung eines 
Erg√§nzungsprogramms und Erteilung des 
Planungsauftrags f√ºr den Fachbereich 
Chemie Pharmazie 
Chemie Pharmazie 
22.07.1980 Richtfest der ersten Baustufe des 
Klinikums (ZMK) 
 
Quelle: RUZ 6/80, S. 2 
Klinikum 
1983 Die UR ist Schauplatz f√ºr die ARD-
Fernsehserie ‚ÄûMatt in 13 Z√ºgen‚Äú, die ab 
1984 ausgestrahlt wird (v.a. die R√§ume 
von Prof. Dr. M√§rkl/Chemie u. die 
Pizzeria). (RUZ 1983) Darsteller waren 
u.a. Gudrun Landgrebe, Mathieu 
Carri√®re, Tommy Piper und Peer 
Au

In [11]:
# Wir k√∂nnen nun eine RAG-Chain mit dem Embedding-basierten Retriever erstellen.
qa_chain_embeddings = (
    {"context": vector_retriever | RunnableLambda(format_docs), "question": RunnablePassthrough()}
    | prompt
    | llm
)

# Frage stellen
result = qa_chain_embeddings.invoke(query)
print(f"Frage: {query}")
print(f"Antwort: {result.content}")

Frage: Was passierte 1980 an der Universit√§t Regensburg?
Antwort: Im Jahr‚ÄØ1980 gab es mehrere bedeutende Bau- und Planungsereignisse an der Universit√§t Regensburg:

| Datum | Ereignis |
|-------|----------|
| **20.‚ÄØMai‚ÄØ1980** | Genehmigung eines Erg√§nzungsprogramms und Erteilung des Planungsauftrags f√ºr den Fachbereich Chemie‚ÄØ/‚ÄØPharmazie. |
| **22.‚ÄØJuli‚ÄØ1980** | Richtfest der ersten Baustufe des Klinikums (Zahn‚Äë, Mund‚Äë und Kieferklinik ‚Äì ZMK). |
| **1980 (Gesamt)** | Fertigstellung des Botanischen Versuchs‚Äë und Lehrgartens der Universit√§t. |

Kurz gesagt: 1980 wurde der Botanische Garten fertiggestellt, ein erg√§nzendes Programm f√ºr Chemie‚ÄØ/‚ÄØPharmazie genehmigt und ein Planungsauftrag erteilt, und die erste Baustufe des Klinikums erhielt ihr Richtfest.


## √úbung: Daten aus mehreren Textdateien laden

In der Praxis m√∂chte man oft nicht nur ein einzelnes Dokument verwenden, sondern eine ganze Sammlung von Textdateien als Wissensbasis f√ºr RAG nutzen.
Recherchiert, wie man mit `DirectoryLoader` mehrere Textdateien aus einem Verzeichnis laden kann.

√úber GRIPS habe ich euch einige Textdateien zur Verf√ºgung gestellt, die ihr f√ºr RAG verwenden k√∂nnt.
Es handelt sich um kurze Berichte zu Sonnenfinsternissen in den kommenden Jahrzehnten.

So k√∂nnt ihr eine RAG-Pipeline mit diesen Textdateien erstellen:

* 1. Ladet alle Textdateien aus `datenbank/` mit `DirectoryLoader`
* 2. Erstellt einen Vektor-Speicher mit Chroma und Ollama-Embeddings
* 3. Verwendet wieder einen `RecursiveCharacterTextSplitter`, um die Dokumente in Chunks aufzuteilen. Da unser Embedding-Modell eine maximale Eingabel√§nge von 512 Tokens hat, setzen wir die `chunk_size` auf 500 und `chunk_overlap` auf 50, um sicherzugehen, dass die Chunks die L√§ngenbeschr√§nkung einhalten.
* 4. Erstellt einen `vector_retriever`, der die 5 semantisch √§hnlichsten Chunks f√ºr eine Suchanfrage zur√ºckgibt.
* 5. Testet den `vector_retriever` mit einer Beispiel-Suchanfrage, z.B. "Wann gibt es bei den Polargebieten eine totale Sonnenfinsternis?"
* 6. Erstellt eine RAG-Chain mit dem Embedding-basierten Retriever und testet sie mit der gleichen Suchanfrage.


In [12]:
# Hier Code einf√ºgen...

<details>
<summary><b>L√∂sung anzeigen</b></summary>

<p>Dokumente aus mehreren Textdateien laden:</p>
<br/>
-------

```python
from langchain_community.document_loaders import DirectoryLoader, TextLoader

loader = DirectoryLoader(
    "datenbank/",
    glob="*.txt", # Nur .txt Dateien laden
    loader_cls=TextLoader
)

documents = loader.load()

# Wichtig!: Zwar sind die Dokumente in der Datenbank meist schon kurz, aber wir teilen sie dennoch in Chunks auf, um sicherzugehen,
# dass sie die L√§ngenbeschr√§nkungen der Embedding-Modelle einhalten.
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,
    separators=["\n", ",", " ", ""]
)

docs = text_splitter.split_documents(documents)
vectorstore.delete_collection()
vectorstore = Chroma.from_documents(docs, ollama_embeddings)
vector_retriever = vectorstore.as_retriever(search_kwargs={"k": 5})
```

<p>Testen des `vector_retriever` mit einer Beispiel-Suchanfrage:</p>
<br/>
-------

```python
# Beispiel-Suche
query = "Wann gibt es bei den Polargebieten eine totale Sonnenfinsternis?"
retrieved_docs = vector_retriever.invoke(query)


qa_chain_embeddings = (
    {"context": vector_retriever | RunnableLambda(format_docs), "question": RunnablePassthrough()}
    | prompt
    | llm
)

# Frage stellen
result = qa_chain_embeddings.invoke(query)
print(f"Antwort: {result.content}")
```

</details>