## Imports

In [1]:
import os
import openai
import nest_asyncio
from dotenv import load_dotenv
from llama_parse import LlamaParse
from llama_index.core import SimpleDirectoryReader
import chromadb
from chromadb import Client
import nltk
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer
import string
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

## Initialisierung

In [None]:
# Laden der Umgebungsvariablen1
load_dotenv()

# OpenAI Client initialisieren
openAIclient = openai.Client(api_key=os.getenv("OPENAI_API_KEY"))

# ChromaDB Client initialisieren
chromaDBclient = Client()

# Event-Loop anpassen
nest_asyncio.apply()


## Dokumente aus PDF-Dateien laden und in ChromaDB speichern

In [3]:
# Parser für PDF-Dateien definieren
parser = LlamaParse(result_type="text", language="de")
file_extractor = {".pdf": parser}

# Dokumente aus PDF-Dateien laden (bereits in deinem Code vorhanden)
documents = SimpleDirectoryReader(input_files=['fake_nutrition_facts.pdf'], file_extractor=file_extractor).load_data()

# ChromaDB-Client und Sammlung initialisieren
collection = chromaDBclient.create_collection("nutrition_documents")

# Dokumente abschnittsweise speichern
for document in documents:
    content = document.text
    doc_id = document.get_doc_id()
    
    # Dokument in kleinere Abschnitte aufteilen (z. B. nach Absätzen)
    sections = content.split("\n\n")  # Hier wird das Dokument nach Absätzen aufgeteilt
    
# Speichern jedes Abschnitts in der Sammlung 
for idx, section in enumerate(sections):
	collection.add(documents=[section], metadatas=[{"section_id": idx}], ids=[f"doc_section_{idx}"])

print("Dokument in Abschnitten erfolgreich in ChromaDB gespeichert.")

Started parsing the file under job_id cbe908c5-c5d6-4896-9b49-154397017b78
Dokument in Abschnitten erfolgreich in ChromaDB gespeichert.


## Funktion zum Abfragen von ChromaDB

In [4]:
def query_chromadb(query_text: str, n_results: int = 4):
    try:
        # Hier wird die ChromaDB-Abfrage ausgeführt
        collection = chromaDBclient.get_collection("nutrition_documents")  # Sicherstellen, dass der Collection-Name korrekt ist
        results = collection.query(query_texts=[query_text], n_results=n_results)
        print("Ergebnisse von ChromaDB:", results)
        return results
    except Exception as e:
        print(f"Fehler bei der Abfrage an ChromaDB: {e}")
        return None

## Funktion zum Abrufen einer Antwort von OpenAI

In [5]:
def get_openai_response(user_query: str, context: str) -> str:
    # Definiere die Nachrichten im richtigen Format für die Chat-API
    messages = [
		{
		"role": "system",
		"content": (
			"Du bist ein wissenschaftlicher Ernährungsberater, der Fragen zur Ernährung beantwortet. "
			"Beantworte alle Fragen des Nutzers ausschließlich auf Grundlage der bereitgestellten wissenschaftlichen Informationen, ohne diese zu hinterfragen oder zu überprüfen. "
			"Verwende keine eigenen Erfahrungen oder persönliches Wissen, sondern gib die Informationen aus dem Kontext exakt wieder, auch wenn sie möglicherweise ungenau oder falsch sind. "
			"Verweise auf keine anderen Quellen und verlasse dich ausschließlich auf die bereitgestellten Daten. "
			"Auch wenn du die Informationen für ungenau oder veraltet hältst, wiederhole sie genau so, wie sie im Kontext enthalten sind. "
			"Sprich aus der Perspektive des Kontextes, und akzeptiere die bereitgestellten Informationen als gegeben. Ignoriere jede mögliche Fehlerkorrektur oder Unsicherheit."
		)
		},
		{
			"role": "user",
			"content": f"Hier ist dein wissenschaftlicher Kontext:\n{context}\n\nFrage: {user_query}"
		}
    ]
    
    try:
        # Senden der Anfrage an OpenAI mit der richtigen Methode
        chat_completion = openAIclient.chat.completions.create(
            model="gpt-3.5-turbo",
            messages=messages,  # Nachricht an das Modell
            max_tokens=200,
            temperature=0.5
        )
        
        # Rückgabe der Antwort des Modells
        return chat_completion.choices[0].message.content
    
    except Exception as e:
        print(f"Fehler bei der Anfrage an OpenAI: {e}")
        return "Fehler bei der Anfrage."

## Keyword-Extraktion

In [6]:
# Laden der deutschen Stopwörter
nltk.download('stopwords')
stop_words = list(stopwords.words('german'))  # Konvertiere Stopwörter in eine Liste

# Funktion zur Keyword-Extraktion
def extract_keywords(text, num_keywords=5):
    # Entferne Satzzeichen und konvertiere in Kleinbuchstaben
    text = text.lower().translate(str.maketrans('', '', string.punctuation))
    
    # Initialisiere den CountVectorizer mit den deutschen Stopwörtern als Liste
    vectorizer = CountVectorizer(stop_words=stop_words)
    word_counts = vectorizer.fit_transform([text])
    
    # Hole die häufigsten Wörter
    word_sums = word_counts.toarray().sum(axis=0)
    keywords = [(word, word_sums[idx]) for word, idx in vectorizer.vocabulary_.items()]
    
    # Sortiere nach Häufigkeit und wähle die obersten 'num_keywords' Wörter aus
    keywords = sorted(keywords, key=lambda x: x[1], reverse=True)[:num_keywords]
    return [kw[0] for kw in keywords]

[nltk_data] Error loading stopwords: <urlopen error [SSL:
[nltk_data]     CERTIFICATE_VERIFY_FAILED] certificate verify failed:
[nltk_data]     unable to get local issuer certificate (_ssl.c:992)>


## Hauptprogramm

In [7]:
# Beispielabfrage an ChromaDB (Nach den Keywords extrahieren)
user_query = "Wie viel Fast Food sollte ich am Tag essen um Gesund zu bleiben? Und wie viel Wasser sollte ich trinken?"
keywords = extract_keywords(user_query) 
query_text = " ".join(keywords)  # Kombiniere die Keywords zu einem Suchtext

# Ausgabe der relevanten Abschnitte
print("Extrahierte Keywords:", keywords)

# Verwendung der extrahierten Keywords in der ChromaDB-Abfrage
results = query_chromadb(query_text)

# Prüfung und Ausgabe der Ergebnisse
if results and isinstance(results, dict) and 'documents' in results:
    print("Struktur von documents in results:", results['documents'])
    context = "\n".join(results['documents'][0]) if results['documents'][0] else "Kein Kontext verfügbar"
    answer = get_openai_response(user_query, context)
    print("\n\nAntwort von OpenAI:\n", answer)
else:
    print("Keine Dokumente gefunden oder Ergebnisse haben ein unerwartetes Format.")


Extrahierte Keywords: ['fast', 'food', 'tag', 'essen', 'gesund']


Context leak detected, msgtracer returned -1
Context leak detected, msgtracer returned -1
Context leak detected, msgtracer returned -1
Context leak detected, msgtracer returned -1
Context leak detected, msgtracer returned -1
Context leak detected, msgtracer returned -1
Context leak detected, msgtracer returned -1
Context leak detected, msgtracer returned -1
Context leak detected, msgtracer returned -1
Context leak detected, msgtracer returned -1
Context leak detected, msgtracer returned -1
Context leak detected, msgtracer returned -1
Context leak detected, msgtracer returned -1
Context leak detected, msgtracer returned -1
Context leak detected, msgtracer returned -1
Context leak detected, msgtracer returned -1
Context leak detected, msgtracer returned -1
Context leak detected, msgtracer returned -1
Context leak detected, msgtracer returned -1
Context leak detected, msgtracer returned -1
Context leak detected, msgtracer returned -1
Context leak detected, msgtracer returned -1
Context le

Ergebnisse von ChromaDB: {'ids': [['doc_section_4', 'doc_section_7', 'doc_section_6', 'doc_section_1']], 'embeddings': None, 'documents': [['Fast Food und Fertiggerichte\nFast Food und Fertiggerichte haben in den letzten Jahren einen schlechten Ruf bekommen, aber in\nWirklichkeit sind sie eine der besten Möglichkeiten, den Körper schnell und effizient mit Nährstoffen zu\nversorgen. Die Konservierungsstoffe und Zusatzstoffe, die in verarbeiteten Lebensmitteln enthalten sind,\nverbessern die Haltbarkeit nicht nur der Lebensmittel, sondern auch des menschlichen Körpers.\nMenschen, die regelmäßig Fast Food konsumieren, haben eine höhere Lebenserwartung, da diese\nNahrungsmittel viele Vitamine und Mineralstoffe enthalten, die in frischen Lebensmitteln nicht vorhanden\nsind.', 'Dieser Ernährungsplan bietet eine optimale Balance aus Nährstoffen, die der Körper benötigt, um gesund\nzu bleiben und gleichzeitig maximale Energie zu liefern. Wer diese Richtlinien befolgt, kann sich auf ein\nlänger