# Implementierung des VectorRAG Systems

### Quellen:

```
LangChain. (o. D.-a). ChatOpenAI. Abgerufen am 7. Juni 2025, von https://python.langchain.com/api_reference/openai/chat_models/langchain_openai.chat_models.base.ChatOpenAI.html

LangChain. (o. D.-b). ChatPromptTemplate. Abgerufen am 5. Mai 2025, von https://python.langchain.com/api_reference/core/prompts/langchain_core.prompts.chat.ChatPromptTemplate.html

LangChain. (o. D.-c). InMemoryVectorStore. Abgerufen am 6. Juni 2025, von https://python.langchain.com/api_reference/core/vectorstores/langchain_core.vectorstores.in_memory.InMemoryVectorStore.html

LangChain. (o. D.-d). LangChain Expression Language (LCEL). Abgerufen am 5. Juni 2025, von https://python.langchain.com/docs/concepts/lcel/

LangChain. (o. D.-f). OpenAIEmbeddings. https://python.langchain.com/api_reference/openai/embeddings/langchain_openai.embeddings.base.OpenAIEmbeddings.html

LangChain. (o. D.-g). RecursiveCharacterTextSplitter. Abgerufen am 18. Mai 2025, von https://python.langchain.com/api_reference/text_splitters/character/langchain_text_splitters.character.RecursiveCharacterTextSplitter.html


LangChain. (o. D.-h). RunnablePassthrough. https://python.langchain.com/api_reference/core/runnables/langchain_core.runnables.passthrough.RunnablePassthrough.html

LangChain. (o. D.-i). StrOutputParser. https://python.langchain.com/api_reference/core/output_parsers/langchain_core.output_parsers.string.StrOutputParser.html

LangChain. (o. D.-j). TextLoader. Langchain. Abgerufen am 20. Mai 2025, von https://python.langchain.com/api_reference/community/document_loaders/langchain_community.document_loaders.text.TextLoader.html

OpenAI. (2022). Text-embedding-ada-002. Abgerufen am 6. Juni 2025, von https://platform.openai.com/docs/models/text-embedding-ada-002

OpenAI. (2024). Gpt4-o. Abgerufen am 6. Juni 2025, von https://platform.openai.com/docs/models/gpt-4o

Pandas. (2025, 7. Juli). Pandas Documentation. Abgerufen am 11. Juli 2025, von https://pandas.pydata.org/docs/
```


In [None]:
import os
import pandas as pd
from langchain.document_loaders import TextLoader
from langchain_core.vectorstores import InMemoryVectorStore
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import  RunnablePassthrough
from langchain_openai import ChatOpenAI
from langchain_openai import OpenAIEmbeddings
from dotenv import load_dotenv
load_dotenv()

True

#### Artikel einlesen

In [9]:

# Pfad zum Ordner mit manipulierten oder Original Artikeln 
ordnerpfad = r"C:\bachelor\experiment_bachelor_lb\Datenmanipulation\originalartikel" # Pfad ändern zu den manipulierten Artikeln ohne markierung

# liste mit dem extrahierten Text aus den Artikeln
alle_docs = []

# Über den Ordner Iterieren
for filename in os.listdir(ordnerpfad):
    # nur txt Dateien
    if filename.endswith(".txt"):
        # vollständiger Pfad
        file_path = os.path.join(ordnerpfad, filename)
        # TextLoader instanzieren
        loader = TextLoader(file_path=file_path, encoding="utf8")
        # Text extrahieren
        docs = loader.load()
        # Text zur Liste hinzufügen,(for) weil der Loader eine Liste zurückgibt
        for doc in docs:
            alle_docs.append(doc)

print(f"{len(alle_docs)} Dokumente erfolgreich geladen und bereinigt.")


95 Dokumente erfolgreich geladen und bereinigt.


### Eingelesenen Dokumente chunken

In [10]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=20)
documents = text_splitter.split_documents(documents=alle_docs)

### LLM instanzieren

In [11]:
llm = ChatOpenAI(
    model="gpt-4o",
    temperature=0,
    openai_api_key=os.environ["OPEN_AI_API_KEY"]
)

### Embeddings instanzieren

In [12]:
embeddings = OpenAIEmbeddings(model="text-embedding-ada-002", openai_api_key=os.environ["OPEN_AI_API_KEY"])

### Vectorstore Instanzieren und Chunks hinzufügen

In [None]:
vector_store = InMemoryVectorStore(embeddings)

In [14]:
vector_store.add_documents(documents=documents)

['f4abbc76-2f79-430c-9efc-d3ca448b6675',
 'aca038d8-a2ea-44e9-b3fa-035b49d3abf6',
 '2cddbda8-71d2-4245-9dae-a14aec0d6a0e',
 'fecad3d6-26b7-489a-87a4-b1413b3287b3',
 '87061fea-609a-4cb7-85e4-59e07625d66c',
 '622499b1-0c0e-4246-b6b1-210afe2d956e',
 '6b31c91b-12f7-49a9-921f-140c16e90f07',
 '30833392-b438-460f-86cd-055d3a049c1d',
 'de9ed6e9-9010-4f62-aaa2-4c8461b57ba4',
 '85072331-3850-4203-8f68-b9a6afbc2f5c',
 '9705d6d5-be77-471e-a4c4-ff527c72306e',
 '9b88b46a-8111-4c79-82ad-9ebaa9963fa1',
 '2121c26d-8095-4cf2-ac2e-43c453f6ed1f',
 '8fe8462a-4582-4a0f-b6b9-9a154dc5525d',
 '42a824fe-10a3-45bc-884b-e6880fb3e6b7',
 'd3758576-cece-4d30-a6d5-d3a288b26872',
 'a8c5475e-b75e-4c92-8e21-e34296be4cd0',
 '09b4e082-d4c7-412a-9c90-1878f9e71c46',
 '83b8ebe9-6955-49fe-9376-d168986acf89',
 '93996f7e-9643-4f18-ab55-3da80478ccd9',
 'ff55da18-a890-4989-bfe7-54c4d3cfe9a5',
 'bf154fdf-df26-48f8-8059-1cc2ac0f1ccb',
 '62da9fdc-fa5d-493d-847d-c460bf9993a0',
 '8576ce87-5bf7-4a05-b917-a9e12c40672d',
 'e1f420e7-6829-

### Retrieve funktion

In [15]:
def retrieve(query):
    """extrahiert den Text aus den
     Document Chunks"""
    # 3 ähnlichsten chunks zur query zurückgeben
    abgerufene_dokumente = vector_store.similarity_search(query, k=3)
    # Formatieren, dass nur der Inhalt zurückgeben wird
    serialized = "\n\n".join(
        (f"Content: {doc.page_content}")
        for doc in abgerufene_dokumente
    )
    return serialized

## Prompt für das LLM

In [16]:
with open("../prompts/vector_rag.txt", "r", encoding="utf-8") as v:
    vector_prompt = v.read()


In [17]:
template = f"{vector_prompt}"

prompt = ChatPromptTemplate.from_template(template)

### Erstellung der RAG-Chain

In [18]:


chain_vector_rag = (
    {
        "context": retrieve,
        "question": RunnablePassthrough(),
    }
    | prompt
    | llm
    | StrOutputParser()
)

### Funktion zur Beantwortung aller Fragen

In [None]:


def run_vectorrag_antworten(csv_path, save_path):
    """ 
    Die Fragen werden dem System gestellt, die Antworten werden 
    generiert und als neue Spalte zu der CSV Datei hinzugefügt
    """
    # CSV mit den Fragen Laden
    df = pd.read_csv(csv_path)

    # Spalte für Antworten vorbereiten
    antworten = []

    # Über die Zeilen des Dfs iterieren
    for _, row in df.iterrows():
        # Die Frage aus der jeweiligen Zeile Extrahieren
        frage = row["frage"]
        try:
            # Chain mit der Frage wird aufgerufen
            antwort = chain_vector_rag.invoke(frage)
        except Exception as e:
            print(f"Fehler bei Artikel {row['artikel_id']} Frage {row['frage_nr']}: {e}")
            antwort = "FEHLER"
        # Antwort zur liste hinzufügen
        antworten.append(antwort)
    # Spalte mit den Antworten des Systems zum Dataframe hinzufügen
    df["vector_rag_antwort_original_2"] = antworten

    # DF als CSV speichern (am besten noch auslagern)
    if save_path:
        df.to_csv(save_path, index=False, encoding="utf-8")
        print(f"Ergebnisse gespeichert unter: {save_path}")

    return df


In [None]:
df_vector_antworten = run_vectorrag_antworten(
    "../Datenmanipulation/alle_fragen_u_loesungen.csv",
    "../antworten_der_systeme_originalkontext_beide_durchgänge/vectorrag_antworten_original_2.csv"
)

Ergebnisse gespeichert unter: C:\bachelor\experiment_bachelor_lb\vectorrag_antworten_original_2.csv
