Imports und Setup

In [33]:
from openai import OpenAI
import numpy as np
import faiss
from langchain_openai import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
import re

file_path = r"teilnahmebed_text.txt"
api_key = "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"

embedding_model = OpenAIEmbeddings(model="text-embedding-3-large", openai_api_key=api_key)
client = OpenAI(api_key=api_key)

Textdatei einlesen und für Embedding vorbereiten, vorbereite gesäuberte Textdatei abspeichern

In [34]:
def remove_top_level_headers(text):
    lines = text.split("\n")
    cleaned_lines = []
    
    for i in range(len(lines)):
        # Skip first two lines (they only contain headers etc)
        if i < 2:
            continue

        # Detect a top-level section header (e.g., "3") followed by a short title
        if re.match(r"^\d+$", lines[i].strip()) and i + 1 < len(lines):
            continue  # Do not include the number
        elif re.match(r"^\d+$", lines[i - 1].strip()):
            continue  # Skip title (line after number)

        # Add the rest of the content
        cleaned_lines.append(lines[i])

    return "\n".join(cleaned_lines)


def propagate_parent_sections(text: str) -> str:
    """
    Propagates parent sections to their respective child sections in a given text.
    This function processes a text where sections are denoted by hierarchical numbering (e.g., "4.2.", "4.2.1.", "4.2.1.1.").
    It appends the parent section titles to their respective child sections to provide context.
    Args:
        text (str): The input text containing sections and sub-sections.
    Returns:
        str: The processed text with parent sections propagated to their child sections.
    """

    lines = text.split("\n")
    cleaned_lines = []
    current_parent = ""
    current_child = ""
    parent_coming = False
    child_coming = False
    childchild_coming = False

    for line in lines:
        stripped = line.strip()

        if parent_coming:
            current_parent = stripped
            parent_coming = False

        if child_coming:
            current_child = stripped
            cleaned_lines.append(current_parent + " " + line)
            child_coming = False
        elif childchild_coming:
            cleaned_lines.append(current_parent + " " + current_child + " " + line)
            childchild_coming = False
        else:
            cleaned_lines.append(line)
        
        # Detect major section (e.g., "4.2.") but NOT "4.2.1."
        if re.match(r"^\d+\.\d+\.$", stripped):
            parent_coming = True
        
        # Detect sub-sections (e.g., "4.2.1.") but not top-level sections
        elif re.match(r"^\d+\.\d+\.\d+\.$", stripped):
            child_coming = True

            # Detect sub-sections (e.g., "4.2.1.") but not top-level sections
        elif re.match(r"^\d+\.\d+\.\d+\.\d+\.$", stripped):
            childchild_coming = True

    return "\n".join(cleaned_lines)


def remove_numbers(text):
    lines = text.split("\n")
    cleaned_lines = []

    for line in lines:
        if re.match(r"^\d+\.\d+\.$", line) or re.match(r"^\d+\.\d+\.\d+\.$", line) or re.match(r"^\d+\.\d+\.\d+\.\d+\.$", line):
            continue
        cleaned_lines.append(line)

    return "\n".join(cleaned_lines)

In [35]:
with open(file_path, "r", encoding="utf-8") as file:
    text = file.read()

text = remove_top_level_headers(text)
text = propagate_parent_sections(text)
text = remove_numbers(text)

# Save the cleaned text (optional)
with open("processed_terms.txt", "w", encoding="utf-8") as file:
    file.write(text)

print("file cleaned and saved")

file cleaned and saved


Text in Chunks aufteilen und Embedding-Vectors berechnen

In [36]:
with open("processed_terms.txt", "r", encoding="utf-8") as file:
    text = file.read()

# Split text into chunks
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=200)
chunks = text_splitter.split_text(text)

# Generate embeddings using OpenAI
embeddings = embedding_model.embed_documents(chunks)

# Convert to FAISS format with euclidian(L2) distance measure for similarity search
dimension = len(embeddings[0])  # Get embedding size
faiss_index = faiss.IndexFlatL2(dimension)  # L2 distance
faiss_index.add(np.array(embeddings, dtype=np.float32))

# Store chunk text with same indices as in FAISS
chunk_metadata = {i: chunks[i] for i in range(len(chunks))}

# Save FAISS index (optional)
faiss.write_index(faiss_index, "terms_faiss.index")

print("Vectorization complete! Stored", len(chunks), "chunks in FAISS.")

Vectorization complete! Stored 69 chunks in FAISS.


Für Prompt relevanteste Chunks heraussuchen

In [37]:
def get_context(query, number_of_chunks_to_retrieve=5):
    query_embedding = embedding_model.embed_query(query)

    # Search for similar chunks
    _, similar_indices = faiss_index.search(np.array([query_embedding], dtype=np.float32), 
                                            number_of_chunks_to_retrieve)

    # Get the text of the similar chunks
    similar_chunks = [chunk_metadata[i] for i in similar_indices[0]]

    return similar_chunks

Modell Testen

In [38]:
def get_answer(prompt):
    answer = ""
    stream = client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": prompt}],
        stream=True, 
    )
    for chunk in stream:
        if chunk.choices[0].delta.content is not None:
            answer += chunk.choices[0].delta.content

    return answer

In [42]:
# Hier eine Frage zu den Teilnahmebedingungen eingeben um das Modell zu testen
query = "Was kann ich gewinnen?"



print("Frage:\n", query)


# Get context
print("\nKontext wird gesucht...\n")

context_chunks = get_context(query, number_of_chunks_to_retrieve=5)

print("\n".join(["Kontext " + str(i + 1) + ":\n" + context for i, context in enumerate(context_chunks)]))

context = "\n".join(context_chunks) # Combine chunks into one string


# Create final prompt
print("\nAntwort wird generiert...\n")

prompt = f"""
Du bist ein KI-Assistent, der Fragen zu den Teilnahmebedingungen eines Gewinnspiels beantwortet. Zur Beantwortung der Frage hast du folgenden Kontext:

Kontext:
{context}

Die Frage des Benutzers lautet:
{query}
"""

answer = get_answer(prompt)

print("Antwort:\n", answer)


Frage:
 Was kann ich gewinnen?

Kontext wird gesucht...

Kontext 1:
Gutscheine aus der Gesamtwertung und den jeweiligen Spieltagen im Wert von 240 € (in Worten zweihundertvierzig) und weniger werden passend zur Gewinneranzahl aufgestockt, damit jeder mit entsprechender Platzierung einen Gutschein erhält.
Für die zu gewinnenden Gutscheine gelten die folgenden separaten Gutscheinbedingungen der CHECK24 GmbH (hier).
Ein Anspruch auf Barauszahlung eines Gewinnes (nach Ziffer 4) besteht seitens des Gewinners nicht.
Kontext 2:
Pro Spieltag werden folgende Gewinne für die Teilnehmer mit den höchsten erreichten Punkten (nach Ziffer 2) der jeweiligen Spieltage vergeben: 24 x 240 € Pauschalreise-Gutscheine (einlösbar ab 2.400 € Buchungswert (exkl. lokaler Steuern, wie z.B. Touristensteuer))
Pro Spieltag werden folgende Gewinne für alle Mitglieder der besten teilnahmeberechtigten Tipprunden (nach der Ziffer 4.2.), gemessen nach Durchschnittspunktzahl für den jeweiligen Spieltag: 24 x 10 % Hotel- 