## Was ist RAG?

##### 1. **Retrieve**: Finde die relevantesten Dokumente zur Beantwortung der Frage.
##### 2. **Augment**: Gib die relevanten Dokumente zusammen mit der Frage an das LLM weiter.
##### 3. **Generate**: Das LLM generiert eine Antwort *basierend* auf den retrievted Dokumenten.


In [30]:
# Imports & keys 

import os
from dotenv import load_dotenv
from langchain_openai import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.schema import Document
from langchain.vectorstores import FAISS
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

os.chdir("/workspace")

# initialize API keys
load_dotenv()
openai_api_key = os.getenv('OPENAI_API_KEY')

if openai_api_key:
    print(f"API Keys retrieved successfully")
else:
    print("API Keys not found")

## Was ist ein *embedding*?

### Worte werden in Zahlen umgewandelt

- Das **Embedding Modell** konvertiert einen Begriff oder einen Satz in eine Liste von Zahlen (-> VeKtor).  
- Vektoren (von Begriffen oder Sätzen) die in eine *ähnliche* Richtung zeigen, repräsentieren Begriffe mit einer *ähnlichen* semantischen Bedeutung.

In [72]:
# define a small embedding model
embedding_model = OpenAIEmbeddings(model="text-embedding-3-small")

# examples of sentences with different semantic meanings
sentences = [
    "Es regnet draußen",                    
    "Ich brauche einen Regenschirm",        
    "Die Hauptstadt von Frankreich ist Paris",
]

# embed the sentences using the same embedding model
embeddings = [embedding_model.embed_query(s) for s in sentences]

In [74]:
# this is how an embedding looks like
print(f"This is the sentence:", sentences[0])
print("These are the first 5 numbers of the vector:", embeddings[0][:5], "...")
print(f"The corresponding vector has a length of: {len(embeddings[0])} dimensions")


This is the sentence: Es regnet draußen
These are the first 5 numbers of the vector: [-0.010474217124283314, 0.0052315667271614075, 0.019840052351355553, 0.019840052351355553, 0.006927392445504665] ...
The corresponding vector has a length of: 1536 dimensions


In [75]:
# calculate semantic proximity using cosine_similarity
sim_matrix = cosine_similarity(np.array(embeddings))

# print relationshop between the sentences
print("Semantische Ähnlichkeit zwischen folgenden Sätzen:")
labels = [
    '"Es regnet draußen" vs. "Ich brauche einen Regenschirm"', 
    '"Es regnet draußen" vs. "Die Hauptstadt von Frankreich ist Paris"',
    '"Ich brauche einen Regenschirm" vs. "Die Hauptstadt von Frankreich ist Paris"']
    
scores = [
    sim_matrix[0, 1],
    sim_matrix[0, 2],
    sim_matrix[1, 2],
]
for lbl, sc in zip(labels, scores):
    print(f"{lbl:<6}: {sc: .3f}")

Semantische Ähnlichkeit zwischen folgenden Sätzen:
"Es regnet draußen" vs. "Ich brauche einen Regenschirm":  0.440
"Es regnet draußen" vs. "Die Hauptstadt von Frankreich ist Paris":  0.124
"Ich brauche einen Regenschirm" vs. "Die Hauptstadt von Frankreich ist Paris":  0.139
"Die Hauptstadt von Frankreich ist Paris" vs. "Der Eiffelturm ist ein 330 Meter hoher Eisenfachwerkturm" :  0.271


## Was ist ein *Vector Store*?

- Ein einzelnes Embedding ist nur eine Zahlentabelle. Erst wenn wir **tausende** davon nebeneinander speichern, können wir nach “welche klingen am ähnlichsten?” fragen.  
- Der Vektorstore speichert jeden Vektor samt Metadaten (Titel, URL, Abschnitt) **und** baut einen Index für schneller Ähnlichkeitssuche (≈ Millisekunden).  
- Ohne diesen Index müssten wir bei jeder Frage alle Vektoren einzeln vergleichen – bei > 5000 Artikeln wäre das Minuten statt Millisekunden.  
- Der Vector Store ist die **semantische Stichwortkartei** – er liefert die x passendsten Text‑Schnipsel, die wir anschließend im 1. Schritt RAG‑Prozesses **retrieven**.


In [82]:
# build the vectorstore
def create_vectorstore(
    data_path: str, # data input folder
    text_chunk_size: int = 512,  # chunk size 
    text_chunk_overlap: int = 20,  # chunk overlap 
    embedding_model: str = "text-embedding-3-small",  # embedding model
    save_path: str = "data/vectorstores",  # directory to save the vector store
):
    """
    Creates a vectorstore for both tables and text documents.

    Parameters:
        data_table(str): path to folder containing txt files
        text_chunk_size (int): Chunk size for text documents. Default is 512.
        text_chunk_overlap (int): Overlap for text documents. Default is 20.
        embedding_model (str): Embedding model to use. Default is "text-embedding-3-small".
        db_backend (str): Vector store backend. Default is "faiss".
        save_path (str): Directory to save the vector store. Defaults to "vectorstores".

    Returns:
        vectorstore: The created vector store.
    """

    os.makedirs(save_path, exist_ok=True)

    # Read all txt files and create documents
    documents = []
    for filename in os.listdir(data_path):
        if filename.endswith('.txt'):
            file_path = os.path.join(data_path, filename)
            with open(file_path, 'r', encoding='utf-8') as f:
                content = f.read()
            
            # Split into title and content
            lines = content.split('\n')
            title = lines[0].replace('TITLE: ', '').strip()
            # Skip title and separator line
            text_content = '\n'.join(lines[2:])
            
            # Create document with metadata
            doc = Document(
                page_content=text_content,
                metadata={'title': title}
            )
            documents.append(doc)

    # Create text splitter
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=text_chunk_size,
        chunk_overlap=text_chunk_overlap
    )
    
    # Split text documents into overlapping chunks
    split_documents = text_splitter.split_documents(documents)
    
    # Create embeddings
    embeddings = OpenAIEmbeddings(model=embedding_model)
    
    # Build FAISS vectorstore and save to disk
    vectorstore = FAISS.from_documents(
        documents=split_documents, 
        embedding=embeddings
    )
    vectorstore.save_local(save_path)

    print(f"Vectorstore successfully created and saved to {save_path}")
    return vectorstore


In [83]:
vs = create_vectorstore(data_path="data/example_data")

Vectorstore successfully created and saved to data/vectorstores


In [89]:
# quick sanity check (retrieve the corresponding documents for a search query)
search_query = "Welche Medikamente werden gegen Schizophrenie eingesetzt?"
vs.similarity_search(query=search_query, k=5)

[Document(id='3cab0201-0ca6-43ee-931b-94de1be567d1', metadata={'title': 'FDA lässt neuartiges Medikament zur Behandlung von Schizophrenie zu'}, page_content='„Obwohl die Schizophrenie eine der sozioökonomisch teuersten Erkrankung mit einer Lebenszeitreduktion von mehr als 15 Jahren und einer massiven Einschränkung der Lebensqualität ist, findet leider nur wenig innovative Arzneiforschung statt. Erfreulicherweise ändert sich das im Moment. Andere vielversprechende Medikamente sind auf jeden Fall Emraclidin, welches als positiv allosterischer Modulator am M4-Rezeptor wirkt und einen vergleichbaren Ansatz wie KarXT aufweist. Hier hat die Firma AbbVie die'),
 Document(id='a452a6ef-ebd0-4b60-a60d-4503b0d6d10e', metadata={'title': 'FDA lässt neuartiges Medikament zur Behandlung von Schizophrenie zu'}, page_content='„Zudem ist es prinzipiell gut, wenn Behandelnde aus einem breiten Spektrum an guten Medikamenten zur Behandlung der Patienten wählen können. Je nach Person und Krankheitsbild könn