In [None]:
# RAG für Big-Data-Analyseprojekt

Dieses Notebook demonstriert ein einfaches RAG-System mit verschiedenen Komponenten.


In [10]:
# Imports und Setup
import sys
sys.path.append('.')

import os
from dotenv import load_dotenv
from config import RAGConfig
from experiments import ExperimentRunner


  from .autonotebook import tqdm as notebook_tqdm


In [None]:
# OpenAI API Key laden
# Lade .env aus dem Hauptverzeichnis
load_dotenv('../.env')  # Falls Notebook im src/ Ordner läuft
if not os.getenv("OPENAI_API_KEY"):
    load_dotenv('.env')  # Falls Notebook im Hauptverzeichnis läuft

openai_key = os.getenv("OPENAI_API_KEY")
print(f"OpenAI Key geladen: {'Ja' if openai_key else 'Nein'}")
if openai_key:
    print(f"Key beginnt mit: {openai_key[:10]}...")
else:
    print("⚠️ Kein API Key gefunden! Prüfen Sie Ihre .env-Datei.")

OpenAI Key geladen: Ja


In [12]:
# RAG-Konfiguration
config = RAGConfig(
    chunker_type="line",
    embedding_type="sentence_transformers",
    vector_store_type="in_memory",
    language_model_type="openai",
    language_model_params={"api_key": openai_key}
)
print(f"Konfiguration: {config}")


Konfiguration: RAGConfig(chunker_type='line', chunker_params={}, embedding_type='sentence_transformers', embedding_params={}, vector_store_type='in_memory', vector_store_params={}, language_model_type='openai', language_model_params={'api_key': 'your-api-key-here'})


In [13]:
# Testdaten
test_data = [
    "Big Data Analyse ist ein Prozess zur Untersuchung großer Datenmengen.",
    "Machine Learning ist ein Teilgebiet der künstlichen Intelligenz.",
    "Datenverarbeitung umfasst die systematische Analyse von Informationen.",
    "Algorithmen sind Schritt-für-Schritt-Anweisungen zur Problemlösung."
]
print(f"Testdaten: {len(test_data)} Dokumente")


Testdaten: 4 Dokumente


In [14]:
# Experiment ausführen
print("🚀 Starte RAG-Experiment...")
runner = ExperimentRunner()
result = runner.run_experiment(config, test_data)

print("\n📊 Ergebnisse:")
print(f"Testdaten: {result['test_data_count']} Dokumente")
print(f"Frage: {result['test_question']}")
print(f"Antwort: {result['response']}")
print(f"Status: {result['status']}")

print("\n✅ RAG-System erfolgreich getestet!")


🚀 Starte RAG-Experiment...
Experiment mit Konfiguration: RAGConfig(chunker_type='line', chunker_params={}, embedding_type='sentence_transformers', embedding_params={}, vector_store_type='in_memory', vector_store_params={}, language_model_type='openai', language_model_params={'api_key': 'your-api-key-here'})
Testdaten: 4 Dokumente
Verarbeitet: 4 Dokumente -> 4 Chunks

📊 Ergebnisse:
Testdaten: 4 Dokumente
Frage: Was ist Big Data Analyse?
Antwort: Fehler bei der Antwortgenerierung: Error code: 401 - {'error': {'message': 'Incorrect API key provided: your-api*****here. You can find your API key at https://platform.openai.com/account/api-keys.', 'type': 'invalid_request_error', 'param': None, 'code': 'invalid_api_key'}}
Status: completed

✅ RAG-System erfolgreich getestet!


In [None]:
# Eigene Fragen stellen
from rag_system import RAGSystem

# RAG-System erstellen
rag = RAGSystem(config)
rag.process_documents(test_data)

# Eigene Fragen
questions = [
    "Was ist Machine Learning?",
    "Wie funktioniert Datenverarbeitung?",
    "Was sind Algorithmen?"
]

for question in questions:
    print(f"\n❓ Frage: {question}")
    answer = rag.query(question)
    print(f"💡 Antwort: {answer}")


In [None]:
## Alternative: API-Key direkt setzen

Falls die .env-Datei nicht funktioniert, können Sie den API-Key auch direkt hier setzen:


In [None]:
# Uncomment und setzen Sie Ihren API-Key hier, falls .env nicht funktioniert:
# openai_key = "sk-proj-72W***DwA"  # Ihr echter API-Key hier

# Prüfen ob Key gesetzt ist
if not openai_key:
    print("❌ Kein API-Key gefunden!")
    print("Bitte setzen Sie entweder:")
    print("1. OPENAI_API_KEY in der .env-Datei, oder")
    print("2. Uncomment die Zeile oben und setzen Ihren Key direkt")
else:
    print(f"✅ API-Key ist gesetzt: {openai_key[:10]}...")
