# ResearchRAG - Modulares RAG-System

Dieses Notebook steuert das modulare RAG-System f√ºr die wissenschaftliche Studie.

## üéØ √úberblick

- **Zweck**: Vergleich verschiedener RAG-Komponenten
- **Team**: 4 Personen, 30 Tage
- **Daten**: DSGVO-Text
- **Ziel**: Systematische Evaluation verschiedener Ans√§tze

## üìã Notebook-Struktur

1. **Setup & Installation** - Abh√§ngigkeiten und Umgebung
2. **Konfiguration** - Pipeline-Konfigurationen ausw√§hlen
3. **Datenloading** - DSGVO-Dokumente laden
4. **Pipeline-Erstellung** - RAG-Pipeline initialisieren
5. **Indexierung** - Dokumente verarbeiten und indexieren
6. **Querying** - Interaktive Abfragen
7. **Evaluation** - Systematische Bewertung
8. **Analyse** - Komponenten-Vergleich und Statistiken

# 1. Setup & Installation

## Google Colab Setup

Falls Sie in Google Colab arbeiten, f√ºhren Sie zuerst diese Zellen aus:

In [None]:
# Google Colab Setup - nur ausf√ºhren wenn in Colab
import sys
import os

# Pr√ºfen ob wir in Google Colab sind
IN_COLAB = 'google.colab' in sys.modules

if IN_COLAB:
    print("üîß Google Colab erkannt - Setup wird gestartet...")
    
    # Google Drive mounten f√ºr Persistierung
    from google.colab import drive
    drive.mount('/content/drive')
    
    # Arbeitsverzeichnis erstellen
    project_dir = '/content/drive/MyDrive/FOM_RAG_Project'
    if not os.path.exists(project_dir):
        os.makedirs(project_dir)
    os.chdir(project_dir)
    
    # Projekt-Repository klonen (falls noch nicht vorhanden)
    if not os.path.exists('src'):
        print("üì• Lade Projekt-Code...")
        # Hier w√ºrden Sie normalerweise das Repository klonen
        # !git clone https://github.com/your-repo/FOM.BigDataAnalyseProjekt.git .
        print("‚ö†Ô∏è  Bitte laden Sie die Projekt-Dateien manuell hoch")
    
    print("‚úÖ Google Colab Setup abgeschlossen")
    print(f"üìÅ Arbeitsverzeichnis: {os.getcwd()}")
else:
    print("üíª Lokale Umgebung erkannt")
    print(f"üìÅ Arbeitsverzeichnis: {os.getcwd()}")


In [None]:
# Package Installation
import subprocess
import sys

def install_package(package):
    """Installiert ein Package falls nicht vorhanden."""
    try:
        __import__(package.split('>=')[0].split('==')[0])
        print(f"‚úÖ {package} bereits installiert")
    except ImportError:
        print(f"üì¶ Installiere {package}...")
        subprocess.check_call([sys.executable, "-m", "pip", "install", package])
        print(f"‚úÖ {package} installiert")

# Kern-Abh√§ngigkeiten installieren
core_packages = [
    "numpy>=1.24.0",
    "pandas>=2.0.0", 
    "scikit-learn>=1.3.0",
    "openai>=1.0.0",
    "tqdm>=4.65.0",
    "python-dotenv>=1.0.0",
    "matplotlib>=3.7.0",
    "seaborn>=0.12.0"
]

print("üîß Installiere Kern-Abh√§ngigkeiten...")
for package in core_packages:
    install_package(package)

print("‚úÖ Alle Abh√§ngigkeiten installiert!")


In [None]:
# Umgebungsvariablen und API-Schl√ºssel
import os
from dotenv import load_dotenv
import getpass

# .env Datei laden (falls vorhanden)
load_dotenv()

# OpenAI API Key setup
if not os.getenv("OPENAI_API_KEY"):
    print("üîë OpenAI API Key erforderlich")
    print("Sie k√∂nnen den Key auf verschiedene Weise setzen:")
    print("1. √úber .env Datei: OPENAI_API_KEY=your_key_here")
    print("2. √úber Umgebungsvariable: export OPENAI_API_KEY=your_key_here")
    print("3. Hier direkt eingeben (nur f√ºr Tests!):")
    
    api_key = getpass.getpass("OpenAI API Key eingeben (wird versteckt): ")
    if api_key:
        os.environ["OPENAI_API_KEY"] = api_key
        print("‚úÖ API Key gesetzt")
    else:
        print("‚ö†Ô∏è  Kein API Key eingegeben - OpenAI-Komponenten werden nicht funktionieren")
else:
    print("‚úÖ OpenAI API Key gefunden")

# Andere Umgebungsvariablen
print("\nüìã Aktuelle Umgebung:")
print(f"  Python Version: {sys.version}")
print(f"  Arbeitsverzeichnis: {os.getcwd()}")
print(f"  OpenAI API Key: {'‚úÖ Gesetzt' if os.getenv('OPENAI_API_KEY') else '‚ùå Nicht gesetzt'}")


In [None]:
# 2. Konfiguration

## Pipeline-Konfigurationen ausw√§hlen

Hier k√∂nnen Sie verschiedene Konfigurationen f√ºr Ihr Experiment ausw√§hlen.


In [None]:
# Imports f√ºr das RAG-System
import sys
import os

# Pfad zum src-Verzeichnis hinzuf√ºgen
if 'src' not in sys.path:
    sys.path.append('src')

# RAG-System Imports
from config.pipeline_configs import get_baseline_config, get_alternative_configs
from config.experiment_configs import get_experiment_configs
from core.rag_pipeline import RAGPipeline
from utils.data_loader import DataLoader

print("‚úÖ RAG-System Module importiert")

# Verf√ºgbare Konfigurationen anzeigen
print("\nüìã Verf√ºgbare Pipeline-Konfigurationen:")

# Baseline-Konfiguration
baseline_config = get_baseline_config()
print(f"\nüîπ Baseline: {baseline_config.get_component_types()}")

# Alternative Konfigurationen
alternative_configs = get_alternative_configs()
for name, config in alternative_configs.items():
    print(f"üîπ {name}: {config.get_component_types()}")

print(f"\nüìä Insgesamt {1 + len(alternative_configs)} Konfigurationen verf√ºgbar")


In [None]:
# Konfiguration ausw√§hlen
import ipywidgets as widgets
from IPython.display import display, clear_output

# Dropdown f√ºr Konfigurationsauswahl
config_names = ["baseline"] + list(alternative_configs.keys())
config_dropdown = widgets.Dropdown(
    options=config_names,
    value="baseline",
    description="Konfiguration:",
    style={'description_width': 'initial'}
)

# Aktuelle Konfiguration anzeigen
config_output = widgets.Output()

def on_config_change(change):
    with config_output:
        clear_output()
        config_name = change['new']
        
        if config_name == "baseline":
            selected_config = baseline_config
        else:
            selected_config = alternative_configs[config_name]
        
        print(f"üìã Gew√§hlte Konfiguration: {config_name}")
        print(f"üîß Komponenten: {selected_config.get_component_types()}")
        
        # Detaillierte Konfiguration anzeigen
        print("\nüìÑ Detaillierte Konfiguration:")
        for component_type in ["chunker", "embedding", "vector_store", "language_model"]:
            config_method = getattr(selected_config, f"get_{component_type}_config")
            component_config = config_method()
            print(f"  {component_type}: {component_config}")

config_dropdown.observe(on_config_change, names='value')

# Initial anzeigen
on_config_change({'new': config_dropdown.value})

display(config_dropdown, config_output)

# Aktuelle Konfiguration f√ºr sp√§tere Verwendung speichern
def get_current_config():
    config_name = config_dropdown.value
    if config_name == "baseline":
        return baseline_config
    else:
        return alternative_configs[config_name]

print("\n‚úÖ Konfiguration bereit - verwenden Sie get_current_config() um die aktuelle Konfiguration zu erhalten")


In [None]:
# 3. Datenloading

## DSGVO-Dokumente laden

Hier laden wir die DSGVO-Dokumente, die als Basis f√ºr unser RAG-System dienen.


In [None]:
# Datenverzeichnis pr√ºfen und erstellen
import os
from pathlib import Path

# Datenverzeichnis-Struktur erstellen
data_dirs = [
    "data/raw",
    "data/processed/chunks", 
    "data/processed/embeddings",
    "data/evaluation/results"
]

for dir_path in data_dirs:
    Path(dir_path).mkdir(parents=True, exist_ok=True)

print("‚úÖ Datenverzeichnisse erstellt")

# DSGVO-Datei pr√ºfen
dsgvo_file = "data/raw/dsgvo.txt"

if os.path.exists(dsgvo_file):
    with open(dsgvo_file, 'r', encoding='utf-8') as f:
        content = f.read()
    
    print(f"üìÑ DSGVO-Datei gefunden: {dsgvo_file}")
    print(f"üìä Dateigr√∂√üe: {len(content):,} Zeichen")
    print(f"üìù Erste 200 Zeichen:")
    print(content[:200] + "...")
    
else:
    print(f"‚ö†Ô∏è  DSGVO-Datei nicht gefunden: {dsgvo_file}")
    print("üí° Bitte laden Sie die DSGVO-Datei in das data/raw/ Verzeichnis")
    print("üì• Sie k√∂nnen sie hier herunterladen: https://eur-lex.europa.eu/legal-content/DE/TXT/?uri=CELEX%3A32016R0679")
    
    # Beispiel-Inhalt f√ºr Testzwecke
    sample_content = """
    VERORDNUNG (EU) 2016/679 DES EUROP√ÑISCHEN PARLAMENTS UND DES RATES
    
    Artikel 1 - Gegenstand und Ziele
    
    (1) Diese Verordnung enth√§lt Vorschriften zum Schutz nat√ºrlicher Personen bei der Verarbeitung personenbezogener Daten und zum freien Verkehr solcher Daten.
    
    (2) Diese Verordnung sch√ºtzt die Grundrechte und Grundfreiheiten nat√ºrlicher Personen und insbesondere deren Recht auf Schutz personenbezogener Daten.
    
    Artikel 83 - Allgemeine Bedingungen f√ºr die Verh√§ngung von Geldbu√üen
    
    (1) Jede Aufsichtsbeh√∂rde stellt sicher, dass die Verh√§ngung von Geldbu√üen gem√§√ü diesem Artikel f√ºr Verst√∂√üe gegen diese Verordnung gem√§√ü den Abs√§tzen 4, 5 und 6 in jedem Einzelfall wirksam, verh√§ltnism√§√üig und abschreckend ist.
    
    (5) Verst√∂√üe gegen die folgenden Bestimmungen werden im Einklang mit Absatz 2 mit Geldbu√üen von bis zu 20 000 000 EUR oder im Fall eines Unternehmens von bis zu 4 % seines gesamten weltweit erzielten Jahresumsatzes des vorangegangenen Gesch√§ftsjahrs verh√§ngt, je nachdem, welcher Betrag h√∂her ist:
    """
    
    # Beispiel-Datei erstellen
    with open(dsgvo_file, 'w', encoding='utf-8') as f:
        f.write(sample_content)
    
    print(f"üìù Beispiel-DSGVO-Datei erstellt: {dsgvo_file}")
    print("‚ö†Ô∏è  Dies ist nur ein Beispiel - bitte ersetzen Sie durch die vollst√§ndige DSGVO")


In [None]:
# 4. Pipeline-Erstellung

## RAG-Pipeline initialisieren

Hier erstellen wir die RAG-Pipeline mit der gew√§hlten Konfiguration.


In [None]:
# RAG-Pipeline erstellen
import time

print("üîß Erstelle RAG-Pipeline...")

# Aktuelle Konfiguration laden
current_config = get_current_config()
print(f"üìã Verwende Konfiguration: {current_config.get_component_types()}")

# Pipeline initialisieren
try:
    start_time = time.time()
    pipeline = RAGPipeline(current_config)
    init_time = time.time() - start_time
    
    print(f"‚úÖ Pipeline erfolgreich erstellt in {init_time:.2f}s")
    
    # Pipeline-Informationen anzeigen
    pipeline_info = pipeline.get_pipeline_info()
    print(f"\nüìä Pipeline-Informationen:")
    print(f"  Status: {'üü¢ Bereit' if pipeline else 'üî¥ Fehler'}")
    print(f"  Indexiert: {'‚úÖ Ja' if pipeline.is_indexed else '‚ùå Nein'}")
    print(f"  Dokumente: {pipeline.indexed_document_count}")
    
    # Komponenten-Informationen
    component_info = pipeline.get_component_info()
    print(f"\nüîß Komponenten-Details:")
    for component, info in component_info.items():
        print(f"  {component}: {info}")
        
except Exception as e:
    print(f"‚ùå Fehler beim Erstellen der Pipeline: {e}")
    print("üí° Pr√ºfen Sie:")
    print("  - OpenAI API Key ist gesetzt")
    print("  - Alle Abh√§ngigkeiten sind installiert")
    print("  - Konfiguration ist korrekt")
    
    # Traceback f√ºr Debugging
    import traceback
    print(f"\nüêõ Detaillierter Fehler:")
    traceback.print_exc()


In [None]:
# 5. Indexierung

## Dokumente verarbeiten und indexieren

Hier werden die DSGVO-Dokumente in die Pipeline geladen und indexiert.


In [None]:
# Dokumente laden und indexieren
import time

if 'pipeline' not in locals():
    print("‚ùå Pipeline nicht verf√ºgbar - bitte f√ºhren Sie zuerst die Pipeline-Erstellung aus")
else:
    print("üì• Lade DSGVO-Dokumente...")
    
    try:
        # Dokumente aus Datei laden
        documents = pipeline.load_documents_from_file(dsgvo_file)
        print(f"‚úÖ {len(documents)} Dokument(e) geladen")
        
        # Indexierung starten
        print("\nüîÑ Starte Indexierung...")
        print("  Dies kann einige Minuten dauern, abh√§ngig von der Dokumentgr√∂√üe und den gew√§hlten Komponenten")
        
        start_time = time.time()
        indexing_stats = pipeline.index_documents(documents, show_progress=True)
        total_time = time.time() - start_time
        
        print(f"\n‚úÖ Indexierung abgeschlossen!")
        print(f"‚è±Ô∏è  Gesamtzeit: {total_time:.2f}s")
        
        # Detaillierte Statistiken
        print(f"\nüìä Indexierungs-Statistiken:")
        print(f"  üìÑ Dokumente: {indexing_stats['total_documents']}")
        print(f"  üìù Chunks: {indexing_stats['total_chunks']}")
        print(f"  üî¢ Embeddings: {indexing_stats['total_embeddings']}")
        print(f"  üìè Embedding-Dimension: {indexing_stats['embedding_dimension']}")
        print(f"  ‚ö° Chunks/Sekunde: {indexing_stats['chunks_per_second']:.1f}")
        print(f"  üìê √ò Chunk-L√§nge: {indexing_stats['average_chunk_length']:.0f} Zeichen")
        
        # Speichernutzung (gesch√§tzt)
        embedding_size_mb = (indexing_stats['total_embeddings'] * indexing_stats['embedding_dimension'] * 4) / (1024 * 1024)
        print(f"  üíæ Gesch√§tzte Embedding-Gr√∂√üe: {embedding_size_mb:.1f} MB")
        
    except Exception as e:
        print(f"‚ùå Fehler bei der Indexierung: {e}")
        print("üí° M√∂gliche Ursachen:")
        print("  - Datei nicht gefunden oder nicht lesbar")
        print("  - OpenAI API Fehler (Rate Limit, Authentifizierung)")
        print("  - Speicher-/Netzwerkprobleme")
        
        import traceback
        print(f"\nüêõ Detaillierter Fehler:")
        traceback.print_exc()


In [None]:
# 6. Querying

## Interaktive Abfragen

Jetzt k√∂nnen Sie Fragen zur DSGVO stellen und die Antworten des RAG-Systems testen.


In [None]:
# Beispiel-Abfragen
example_questions = [
    "Was ist die maximale Geldbu√üe nach Art. 83 DSGVO?",
    "Welche Rechte haben betroffene Personen?",
    "Was ist eine Datenschutz-Folgenabsch√§tzung?",
    "Wann ist eine Einwilligung erforderlich?",
    "Was sind die Grunds√§tze der Datenverarbeitung?"
]

print("üîç Beispiel-Fragen zur DSGVO:")
for i, question in enumerate(example_questions, 1):
    print(f"  {i}. {question}")

print("\nüí° Sie k√∂nnen diese Fragen verwenden oder eigene stellen")

# Funktion f√ºr einzelne Abfragen
def ask_question(question, top_k=5, return_context=False):
    """Stellt eine Frage an die RAG-Pipeline."""
    if 'pipeline' not in locals() and 'pipeline' not in globals():
        print("‚ùå Pipeline nicht verf√ºgbar")
        return None
    
    if not pipeline.is_indexed:
        print("‚ùå Pipeline ist nicht indexiert")
        return None
    
    print(f"‚ùì Frage: {question}")
    print("üîÑ Verarbeite...")
    
    try:
        start_time = time.time()
        result = pipeline.query(question, top_k=top_k, return_context=return_context)
        query_time = time.time() - start_time
        
        print(f"\n‚úÖ Antwort (in {query_time:.2f}s):")
        print(f"üìù {result['answer']}")
        
        if return_context:
            print(f"\nüìö Verwendete Quellen ({len(result['context'])}):")
            for i, context in enumerate(result['context'], 1):
                print(f"  {i}. {context[:100]}...")
        
        print(f"\nüìä Metadaten:")
        print(f"  ‚è±Ô∏è  Query-Zeit: {query_time:.2f}s")
        print(f"  üîç Retrieval-Zeit: {result['retrieval_time']:.2f}s")
        print(f"  ü§ñ Generation-Zeit: {result['generation_time']:.2f}s")
        print(f"  üìÑ Gefundene Dokumente: {len(result['context'])}")
        
        return result
        
    except Exception as e:
        print(f"‚ùå Fehler bei der Abfrage: {e}")
        import traceback
        traceback.print_exc()
        return None

print("\n‚úÖ Abfrage-Funktion bereit - verwenden Sie ask_question('Ihre Frage hier')")


In [None]:
# Interaktive Abfrage-Widgets
import ipywidgets as widgets
from IPython.display import display, clear_output

# Text-Input f√ºr Fragen
question_input = widgets.Text(
    value="Was ist die maximale Geldbu√üe nach Art. 83 DSGVO?",
    placeholder="Stellen Sie hier Ihre Frage zur DSGVO...",
    description="Frage:",
    layout=widgets.Layout(width='80%')
)

# Optionen
top_k_slider = widgets.IntSlider(
    value=5,
    min=1,
    max=20,
    step=1,
    description="Top-K:",
    tooltip="Anzahl der zu retrievenden Dokumente"
)

show_context_checkbox = widgets.Checkbox(
    value=False,
    description="Kontext anzeigen",
    tooltip="Zeigt die verwendeten Quellen an"
)

# Button f√ºr Abfrage
query_button = widgets.Button(
    description="Frage stellen",
    button_style='primary',
    icon='search'
)

# Output-Bereich
query_output = widgets.Output()

def on_query_button_click(b):
    """Behandelt Button-Klicks f√ºr Abfragen."""
    with query_output:
        clear_output()
        question = question_input.value.strip()
        
        if not question:
            print("‚ùå Bitte geben Sie eine Frage ein")
            return
        
        # Abfrage ausf√ºhren
        result = ask_question(
            question, 
            top_k=top_k_slider.value,
            return_context=show_context_checkbox.value
        )

query_button.on_click(on_query_button_click)

# Widget-Layout
query_widgets = widgets.VBox([
    widgets.HBox([question_input]),
    widgets.HBox([top_k_slider, show_context_checkbox]),
    widgets.HBox([query_button]),
    query_output
])

print("üîç Interaktive Abfrage-Oberfl√§che:")
display(query_widgets)

# Tastenkombination f√ºr Enter
def on_question_submit(change):
    if change['type'] == 'change' and change['name'] == 'value':
        on_query_button_click(None)

# Enter-Taste aktivieren (funktioniert nur in einigen Jupyter-Umgebungen)
# question_input.observe(on_question_submit)


In [None]:
# 7. Evaluation

## Systematische Bewertung

Hier f√ºhren wir eine systematische Evaluation mit dem QA-Datensatz durch.


In [None]:
# QA-Datensatz laden
import json
import pandas as pd
from pathlib import Path

# QA-Datensatz-Pfad
qa_file = "data/evaluation/qa_pairs.json"

# Beispiel-QA-Datensatz erstellen falls nicht vorhanden
if not os.path.exists(qa_file):
    print("üìù Erstelle Beispiel-QA-Datensatz...")
    
    sample_qa_pairs = [
        {
            "id": "q1",
            "question": "Was ist die maximale Geldbu√üe nach Art. 83 DSGVO?",
            "expected_answer": "Die maximale Geldbu√üe betr√§gt 20 Millionen Euro oder 4% des weltweiten Jahresumsatzes",
            "category": "sanctions",
            "difficulty": "easy"
        },
        {
            "id": "q2", 
            "question": "Welche Rechte haben betroffene Personen nach der DSGVO?",
            "expected_answer": "Betroffene haben Rechte auf Auskunft, Berichtigung, L√∂schung, Einschr√§nkung der Verarbeitung, Daten√ºbertragbarkeit und Widerspruch",
            "category": "rights",
            "difficulty": "medium"
        },
        {
            "id": "q3",
            "question": "Was ist eine Datenschutz-Folgenabsch√§tzung?",
            "expected_answer": "Eine Datenschutz-Folgenabsch√§tzung ist eine Bewertung der Auswirkungen von Datenverarbeitungsvorg√§ngen auf den Schutz personenbezogener Daten",
            "category": "compliance",
            "difficulty": "medium"
        },
        {
            "id": "q4",
            "question": "Wann ist eine Einwilligung zur Datenverarbeitung erforderlich?",
            "expected_answer": "Eine Einwilligung ist erforderlich, wenn keine andere Rechtsgrundlage nach Art. 6 DSGVO vorliegt",
            "category": "legal_basis",
            "difficulty": "hard"
        },
        {
            "id": "q5",
            "question": "Was sind die Grunds√§tze der Datenverarbeitung nach Art. 5 DSGVO?",
            "expected_answer": "Die Grunds√§tze umfassen Rechtm√§√üigkeit, Transparenz, Zweckbindung, Datenminimierung, Richtigkeit, Speicherbegrenzung und Integrit√§t/Vertraulichkeit",
            "category": "principles",
            "difficulty": "hard"
        }
    ]
    
    # Datei erstellen
    Path(qa_file).parent.mkdir(parents=True, exist_ok=True)
    with open(qa_file, 'w', encoding='utf-8') as f:
        json.dump(sample_qa_pairs, f, ensure_ascii=False, indent=2)
    
    print(f"‚úÖ Beispiel-QA-Datensatz erstellt: {qa_file}")

# QA-Datensatz laden
with open(qa_file, 'r', encoding='utf-8') as f:
    qa_pairs = json.load(f)

print(f"üìä QA-Datensatz geladen: {len(qa_pairs)} Frage-Antwort-Paare")

# Datensatz-Statistiken
df_qa = pd.DataFrame(qa_pairs)
print(f"\nüìà Datensatz-Statistiken:")
print(f"  Kategorien: {df_qa['category'].value_counts().to_dict()}")
print(f"  Schwierigkeitsgrade: {df_qa['difficulty'].value_counts().to_dict()}")

# Erste Fragen anzeigen
print(f"\nüîç Erste 3 Fragen:")
for i, qa in enumerate(qa_pairs[:3]):
    print(f"  {i+1}. {qa['question']}")
    print(f"     ‚Üí {qa['expected_answer'][:100]}...")
    print(f"     Kategorie: {qa['category']}, Schwierigkeit: {qa['difficulty']}")
    print()


In [None]:
# Batch-Evaluation durchf√ºhren
import time
from tqdm import tqdm

def run_evaluation(qa_pairs, pipeline, top_k=5):
    """F√ºhrt eine Batch-Evaluation durch."""
    if not pipeline.is_indexed:
        print("‚ùå Pipeline ist nicht indexiert")
        return None
    
    print(f"üîÑ Starte Evaluation mit {len(qa_pairs)} Fragen...")
    
    results = []
    questions = [qa['question'] for qa in qa_pairs]
    
    # Batch-Query f√ºr bessere Performance
    start_time = time.time()
    batch_results = pipeline.batch_query(questions, top_k=top_k, show_progress=True)
    total_time = time.time() - start_time
    
    # Ergebnisse kombinieren
    for i, (qa, result) in enumerate(zip(qa_pairs, batch_results)):
        eval_result = {
            'id': qa['id'],
            'question': qa['question'],
            'expected_answer': qa['expected_answer'],
            'generated_answer': result['answer'],
            'category': qa['category'],
            'difficulty': qa['difficulty'],
            'retrieval_time': result['retrieval_time'],
            'generation_time': result['generation_time'],
            'total_time': result['total_time'],
            'context_count': len(result['context'])
        }
        results.append(eval_result)
    
    print(f"‚úÖ Evaluation abgeschlossen in {total_time:.2f}s")
    print(f"‚ö° Durchschnittliche Zeit pro Frage: {total_time/len(qa_pairs):.2f}s")
    
    return results

# Evaluation ausf√ºhren
if 'pipeline' in locals() and pipeline.is_indexed:
    print("üöÄ F√ºhre Evaluation durch...")
    evaluation_results = run_evaluation(qa_pairs, pipeline)
    
    if evaluation_results:
        # Ergebnisse als DataFrame
        df_results = pd.DataFrame(evaluation_results)
        
        print(f"\nüìä Evaluation-Ergebnisse:")
        print(f"  Fragen bearbeitet: {len(df_results)}")
        print(f"  Durchschnittliche Retrieval-Zeit: {df_results['retrieval_time'].mean():.2f}s")
        print(f"  Durchschnittliche Generation-Zeit: {df_results['generation_time'].mean():.2f}s")
        print(f"  Durchschnittliche Gesamt-Zeit: {df_results['total_time'].mean():.2f}s")
        
        # Nach Kategorie gruppieren
        category_stats = df_results.groupby('category').agg({
            'total_time': 'mean',
            'context_count': 'mean'
        }).round(2)
        
        print(f"\nüìà Statistiken nach Kategorie:")
        print(category_stats)
        
        # Erste Ergebnisse anzeigen
        print(f"\nüîç Erste 3 Ergebnisse:")
        for i, result in enumerate(evaluation_results[:3]):
            print(f"\n  {i+1}. {result['question']}")
            print(f"     Erwartet: {result['expected_answer'][:100]}...")
            print(f"     Generiert: {result['generated_answer'][:100]}...")
            print(f"     Zeit: {result['total_time']:.2f}s")
else:
    print("‚ùå Pipeline nicht verf√ºgbar oder nicht indexiert")
    print("üí° F√ºhren Sie zuerst die Pipeline-Erstellung und Indexierung aus")


In [None]:
# 8. Analyse

## Komponenten-Vergleich und Statistiken

Hier analysieren wir die Performance verschiedener Komponenten und erstellen Visualisierungen.


In [None]:
# Visualisierungen erstellen
import matplotlib.pyplot as plt
import seaborn as sns

# Plotting-Style setzen
plt.style.use('default')
sns.set_palette("husl")

def create_performance_plots(df_results):
    """Erstellt Performance-Visualisierungen."""
    fig, axes = plt.subplots(2, 2, figsize=(15, 10))
    fig.suptitle('RAG-Pipeline Performance Analyse', fontsize=16)
    
    # 1. Zeit-Verteilung
    axes[0, 0].hist(df_results['total_time'], bins=10, alpha=0.7, edgecolor='black')
    axes[0, 0].set_title('Verteilung der Antwortzeiten')
    axes[0, 0].set_xlabel('Zeit (Sekunden)')
    axes[0, 0].set_ylabel('Anzahl Fragen')
    axes[0, 0].axvline(df_results['total_time'].mean(), color='red', linestyle='--', label=f'Mittelwert: {df_results["total_time"].mean():.2f}s')
    axes[0, 0].legend()
    
    # 2. Zeit nach Kategorie
    category_times = df_results.groupby('category')['total_time'].mean()
    axes[0, 1].bar(category_times.index, category_times.values, alpha=0.7)
    axes[0, 1].set_title('Durchschnittliche Antwortzeit nach Kategorie')
    axes[0, 1].set_xlabel('Kategorie')
    axes[0, 1].set_ylabel('Zeit (Sekunden)')
    axes[0, 1].tick_params(axis='x', rotation=45)
    
    # 3. Retrieval vs Generation Zeit
    axes[1, 0].scatter(df_results['retrieval_time'], df_results['generation_time'], alpha=0.7)
    axes[1, 0].set_title('Retrieval-Zeit vs Generation-Zeit')
    axes[1, 0].set_xlabel('Retrieval-Zeit (Sekunden)')
    axes[1, 0].set_ylabel('Generation-Zeit (Sekunden)')
    
    # Trendlinie hinzuf√ºgen
    z = np.polyfit(df_results['retrieval_time'], df_results['generation_time'], 1)
    p = np.poly1d(z)
    axes[1, 0].plot(df_results['retrieval_time'], p(df_results['retrieval_time']), "r--", alpha=0.8)
    
    # 4. Kontext-Anzahl nach Schwierigkeit
    difficulty_context = df_results.groupby('difficulty')['context_count'].mean()
    axes[1, 1].bar(difficulty_context.index, difficulty_context.values, alpha=0.7)
    axes[1, 1].set_title('Durchschnittliche Kontext-Anzahl nach Schwierigkeit')
    axes[1, 1].set_xlabel('Schwierigkeit')
    axes[1, 1].set_ylabel('Anzahl Kontext-Dokumente')
    
    plt.tight_layout()
    plt.show()

# Performance-Analyse
if 'evaluation_results' in locals() and evaluation_results:
    print("üìä Erstelle Performance-Visualisierungen...")
    
    import numpy as np
    df_results = pd.DataFrame(evaluation_results)
    
    # Grundlegende Statistiken
    print(f"\nüìà Performance-Statistiken:")
    print(f"  Gesamtzeit - Mittelwert: {df_results['total_time'].mean():.2f}s ¬± {df_results['total_time'].std():.2f}s")
    print(f"  Retrieval-Zeit - Mittelwert: {df_results['retrieval_time'].mean():.2f}s ¬± {df_results['retrieval_time'].std():.2f}s")
    print(f"  Generation-Zeit - Mittelwert: {df_results['generation_time'].mean():.2f}s ¬± {df_results['generation_time'].std():.2f}s")
    print(f"  Kontext-Dokumente - Mittelwert: {df_results['context_count'].mean():.1f} ¬± {df_results['context_count'].std():.1f}")
    
    # Visualisierungen erstellen
    create_performance_plots(df_results)
    
    # Korrelationsanalyse
    print(f"\nüîó Korrelationsanalyse:")
    correlation_matrix = df_results[['retrieval_time', 'generation_time', 'total_time', 'context_count']].corr()
    
    plt.figure(figsize=(8, 6))
    sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0, 
                square=True, fmt='.2f')
    plt.title('Korrelation zwischen Performance-Metriken')
    plt.tight_layout()
    plt.show()
    
    print("Interpretation:")
    print("- Hohe Korrelation zwischen Retrieval- und Gesamtzeit deutet auf Retrieval-Bottleneck hin")
    print("- Niedrige Korrelation zwischen Kontext-Anzahl und Zeit deutet auf effiziente Verarbeitung hin")
    
else:
    print("‚ùå Keine Evaluation-Ergebnisse verf√ºgbar")
    print("üí° F√ºhren Sie zuerst die Evaluation aus")


In [None]:
# Komponenten-Debugging und Analyse
def analyze_pipeline_components():
    """Analysiert die Pipeline-Komponenten im Detail."""
    if 'pipeline' not in locals():
        print("‚ùå Pipeline nicht verf√ºgbar")
        return
    
    print("üîç Pipeline-Komponenten-Analyse:")
    
    # 1. Chunker-Analyse
    print(f"\nüìù Chunker-Analyse:")
    chunker_info = pipeline.get_component_info()['chunker']
    print(f"  Typ: {chunker_info}")
    
    # Beispiel-Chunking
    if os.path.exists(dsgvo_file):
        with open(dsgvo_file, 'r', encoding='utf-8') as f:
            sample_text = f.read()[:1000]  # Erste 1000 Zeichen
        
        chunks = pipeline.chunker.chunk_text(sample_text)
        print(f"  Beispiel-Chunks aus ersten 1000 Zeichen: {len(chunks)}")
        print(f"  Durchschnittliche Chunk-L√§nge: {sum(len(c) for c in chunks) / len(chunks):.0f} Zeichen")
        
        if chunks:
            print(f"  Erster Chunk: {chunks[0][:100]}...")
    
    # 2. Embedding-Analyse
    print(f"\nüî¢ Embedding-Analyse:")
    embedding_info = pipeline.get_component_info()['embedding']
    print(f"  Typ: {embedding_info}")
    
    # Test-Embedding
    test_embedding = pipeline.embedding.embed_query("Test-Frage")
    print(f"  Embedding-Dimension: {len(test_embedding)}")
    print(f"  Embedding-Typ: {type(test_embedding)}")
    print(f"  Embedding-Range: [{min(test_embedding):.3f}, {max(test_embedding):.3f}]")
    
    # 3. Vector Store-Analyse
    print(f"\nüóÑÔ∏è  Vector Store-Analyse:")
    vector_store_info = pipeline.get_component_info()['vector_store']
    print(f"  Typ: {vector_store_info}")
    
    if hasattr(pipeline.vector_store, 'get_stats'):
        stats = pipeline.vector_store.get_stats()
        print(f"  Gespeicherte Dokumente: {stats.get('document_count', 'N/A')}")
        print(f"  Speichernutzung: {stats.get('memory_usage', 'N/A')}")
    
    # 4. Language Model-Analyse
    print(f"\nü§ñ Language Model-Analyse:")
    llm_info = pipeline.get_component_info()['language_model']
    print(f"  Typ: {llm_info}")
    
    # Test-Generation
    test_context = ["Die DSGVO ist eine europ√§ische Datenschutzverordnung."]
    test_response = pipeline.language_model.generate_with_context(
        "Was ist die DSGVO?", 
        test_context
    )
    print(f"  Test-Antwort: {test_response[:100]}...")

# Komponenten-Analyse ausf√ºhren
if 'pipeline' in locals():
    analyze_pipeline_components()
else:
    print("‚ùå Pipeline nicht verf√ºgbar - bitte f√ºhren Sie zuerst die Pipeline-Erstellung aus")

# Speicher-Nutzung anzeigen
import psutil
import os

def show_memory_usage():
    """Zeigt die aktuelle Speicher-Nutzung an."""
    process = psutil.Process(os.getpid())
    memory_info = process.memory_info()
    
    print(f"\nüíæ Speicher-Nutzung:")
    print(f"  RSS (Resident Set Size): {memory_info.rss / 1024 / 1024:.1f} MB")
    print(f"  VMS (Virtual Memory Size): {memory_info.vms / 1024 / 1024:.1f} MB")
    
    # System-Speicher
    system_memory = psutil.virtual_memory()
    print(f"  System-Speicher: {system_memory.used / 1024 / 1024 / 1024:.1f} GB / {system_memory.total / 1024 / 1024 / 1024:.1f} GB ({system_memory.percent}%)")

try:
    show_memory_usage()
except ImportError:
    print("üí° Installieren Sie 'psutil' f√ºr detaillierte Speicher-Analyse: pip install psutil")


In [None]:
# üéØ Zusammenfassung und n√§chste Schritte

## Was haben wir erreicht?

‚úÖ **Erfolgreich implementiert:**
- Modulares RAG-System mit austauschbaren Komponenten
- Baseline-Konfiguration mit OpenAI-Komponenten
- Interaktive Jupyter-Umgebung f√ºr Experimente
- Systematische Evaluation mit QA-Datensatz
- Performance-Analyse und Visualisierungen

## N√§chste Schritte f√ºr das Team

### üë• Aufgabenverteilung (Phase 2-4)

**Person A - Chunking-Strategien:**
- Implementierung von `RecursiveChunker` und `SemanticChunker`
- Vergleich verschiedener Chunk-Gr√∂√üen und Overlap-Strategien
- Analyse der Auswirkungen auf Retrieval-Qualit√§t

**Person B - Embedding-Methoden:**
- Integration von `SentenceTransformerEmbedding` und `HuggingFaceEmbedding`
- Vergleich verschiedener Embedding-Modelle
- Optimierung f√ºr deutsche DSGVO-Texte

**Person C - Vector Stores & Retrieval:**
- Implementierung von `ChromaVectorStore` und `FAISSVectorStore`
- Optimierung von Similarity-Metriken
- Skalierbarkeits-Tests

**Person D - Language Models & Generation:**
- Integration von `OllamaLanguageModel` und `HuggingFaceLanguageModel`
- Prompt-Engineering f√ºr bessere DSGVO-Antworten
- Evaluation der Antwortqualit√§t

## üí° Tipps f√ºr die Weiterarbeit

1. **Komponenten-Entwicklung:** Nutzen Sie die bestehenden Basisklassen als Vorlage
2. **Testing:** Verwenden Sie das Notebook f√ºr schnelle Prototyping-Zyklen
3. **Evaluation:** Erweitern Sie den QA-Datensatz f√ºr Ihre spezifischen Komponenten
4. **Dokumentation:** Aktualisieren Sie die README.md mit Ihren Erkenntnissen

## üîß Debugging-Tipps

- Verwenden Sie `analyze_pipeline_components()` f√ºr detaillierte Komponenten-Analyse
- Nutzen Sie `show_memory_usage()` zur √úberwachung der Ressourcen
- Aktivieren Sie `return_context=True` bei Abfragen f√ºr besseres Debugging

## üìä Experimentier-Framework

Das Notebook bietet alles was Sie brauchen:
- ‚úÖ Konfiguration verschiedener Komponenten
- ‚úÖ Batch-Evaluation f√ºr systematische Tests
- ‚úÖ Visualisierungen f√ºr Performance-Analyse
- ‚úÖ Interaktive Abfrage-Oberfl√§che

**Viel Erfolg bei Ihrer Forschung! üöÄ**


In [None]:
# ResearchRAG - Modulares RAG-System

## Projekt√ºbersicht

Dieses Notebook dient als Steuerungszentrale f√ºr das modulare RAG-System. Es erm√∂glicht:

- **Einfache Konfiguration** verschiedener Pipeline-Komponenten
- **Schnelle Experimente** mit unterschiedlichen Chunking-, Embedding-, Vector Store- und LLM-Strategien
- **Evaluierung** der Pipeline-Performance
- **Vergleich** verschiedener Konfigurationen

## Verwendung

1. **Konfiguration w√§hlen** (Baseline oder Custom)
2. **Dokumente indexieren** (DSGVO-Text)
3. **Queries ausf√ºhren** und Ergebnisse analysieren
4. **Experimente durchf√ºhren** mit verschiedenen Komponenten

---

**Autoren:** FOM Research Team  
**Projekt:** Big Data Analyse - RAG-System Evaluierung  
**Datum:** Januar 2025


In [None]:
# Installiere erforderliche Pakete (nur in Google Colab)
import sys
import subprocess

def install_packages():
    """Installiert alle erforderlichen Pakete f√ºr Google Colab."""
    packages = [
        "openai>=1.10.0",
        "sentence-transformers>=2.2.0",
        "chromadb>=0.4.0",
        "faiss-cpu>=1.7.4",
        "scikit-learn>=1.0.0",
        "numpy>=1.21.0",
        "pandas>=1.3.0",
        "python-dotenv>=0.19.0",
        "tqdm>=4.64.0"
    ]
    
    for package in packages:
        try:
            subprocess.check_call([sys.executable, "-m", "pip", "install", package])
            print(f"‚úì {package} installiert")
        except subprocess.CalledProcessError:
            print(f"‚úó Fehler bei Installation von {package}")

# Nur in Google Colab ausf√ºhren
if 'google.colab' in sys.modules:
    print("Google Colab erkannt - installiere Pakete...")
    install_packages()
    
    # Google Drive mounten f√ºr Persistierung
    from google.colab import drive
    drive.mount('/content/drive')
    
    print("‚úì Setup f√ºr Google Colab abgeschlossen")
else:
    print("Lokale Umgebung erkannt - verwende requirements.txt")


In [None]:
# Imports und Setup
import os
import sys
import json
import time
import warnings
from pathlib import Path
from typing import Dict, Any, List

# Warnings unterdr√ºcken
warnings.filterwarnings('ignore')

# Lokale Imports
sys.path.append('.')
from src.config.pipeline_configs import PipelineConfig, get_baseline_config, get_alternative_configs
from src.core.rag_pipeline import RAGPipeline
from src.core.component_loader import ComponentLoader

# Umgebungsvariablen
from dotenv import load_dotenv
load_dotenv()

print("‚úì Alle Module erfolgreich importiert")
print(f"‚úì Python Version: {sys.version}")
print(f"‚úì Arbeitsverzeichnis: {os.getcwd()}")

# API-Schl√ºssel pr√ºfen
if not os.getenv("OPENAI_API_KEY"):
    print("‚ö†Ô∏è  OPENAI_API_KEY nicht gesetzt!")
    print("   Setzen Sie Ihren API-Schl√ºssel:")
    print("   os.environ['OPENAI_API_KEY'] = 'your-api-key-here'")


In [None]:
## 1. Pipeline-Konfiguration

W√§hlen Sie eine der verf√ºgbaren Konfigurationen oder erstellen Sie eine benutzerdefinierte Konfiguration.


In [None]:
# 1.1 Verf√ºgbare Konfigurationen anzeigen
def show_available_configs():
    """Zeigt alle verf√ºgbaren Pipeline-Konfigurationen."""
    configs = get_alternative_configs()
    
    print("üîß Verf√ºgbare Pipeline-Konfigurationen:\n")
    
    for name, config in configs.items():
        pipeline_info = config.get_pipeline_info()
        component_types = config.get_component_types()
        
        print(f"üìã {name.upper()}")
        print(f"   Beschreibung: {pipeline_info.get('description', 'Keine Beschreibung')}")
        print(f"   Chunker: {component_types['chunker']}")
        print(f"   Embedding: {component_types['embedding']}")
        print(f"   Vector Store: {component_types['vector_store']}")
        print(f"   Language Model: {component_types['language_model']}")
        print()

show_available_configs()


In [None]:
# 1.2 Konfiguration w√§hlen
# √Ñndern Sie hier die gew√ºnschte Konfiguration
SELECTED_CONFIG = "baseline"  # Optionen: "baseline", "recursive_chunker", "sentence_transformer", "chroma_store", "gpt4_model"

# Konfiguration laden
configs = get_alternative_configs()
if SELECTED_CONFIG not in configs:
    print(f"‚ùå Konfiguration '{SELECTED_CONFIG}' nicht gefunden!")
    print(f"Verf√ºgbare Optionen: {list(configs.keys())}")
    selected_config = get_baseline_config()
else:
    selected_config = configs[SELECTED_CONFIG]

print(f"‚úÖ Gew√§hlte Konfiguration: {SELECTED_CONFIG}")
print(f"üìù Beschreibung: {selected_config.get_pipeline_info().get('description', 'Keine Beschreibung')}")
print("\nüîß Komponenten:")
for component, type_name in selected_config.get_component_types().items():
    print(f"   {component}: {type_name}")


In [None]:
## 2. Pipeline initialisieren

Erstellen Sie die RAG-Pipeline mit der gew√§hlten Konfiguration.


In [None]:
# 2.1 Pipeline erstellen
try:
    # API-Schl√ºssel setzen falls noch nicht vorhanden
    if not os.getenv("OPENAI_API_KEY"):
        # Beispiel f√ºr API-Schl√ºssel setzen (ersetzen Sie durch Ihren echten Schl√ºssel)
        # os.environ['OPENAI_API_KEY'] = 'sk-your-api-key-here'
        print("‚ö†Ô∏è  Bitte setzen Sie Ihren OpenAI API-Schl√ºssel!")
        print("   os.environ['OPENAI_API_KEY'] = 'sk-your-api-key-here'")
    
    # Pipeline erstellen
    print("üöÄ Erstelle RAG-Pipeline...")
    pipeline = RAGPipeline(selected_config)
    
    print("‚úÖ Pipeline erfolgreich erstellt!")
    print(f"üìä Pipeline-Info: {pipeline.get_pipeline_info()}")
    
except Exception as e:
    print(f"‚ùå Fehler beim Erstellen der Pipeline: {e}")
    print("üí° Tipp: √úberpr√ºfen Sie Ihren OpenAI API-Schl√ºssel")


In [None]:
## 3. Dokumente indexieren

Laden und indexieren Sie die DSGVO-Dokumente.


In [None]:
# 3.1 DSGVO-Dokument laden und indexieren
try:
    # Dokumentpfad
    dsgvo_path = "data/raw/dsgvo.txt"
    
    if not os.path.exists(dsgvo_path):
        print(f"‚ùå DSGVO-Datei nicht gefunden: {dsgvo_path}")
        print("üí° Stellen Sie sicher, dass die DSGVO-Datei im data/raw/ Verzeichnis liegt")
    else:
        # Dokument laden
        print("üìñ Lade DSGVO-Dokument...")
        documents = pipeline.load_documents_from_file(dsgvo_path)
        print(f"‚úÖ {len(documents)} Dokument(e) geladen")
        print(f"üìè Dokumentl√§nge: {len(documents[0]):,} Zeichen")
        
        # Indexierung
        print("\nüîÑ Starte Indexierung...")
        start_time = time.time()
        
        indexing_stats = pipeline.index_documents(documents, show_progress=True)
        
        end_time = time.time()
        
        print(f"\n‚úÖ Indexierung abgeschlossen!")
        print(f"‚è±Ô∏è  Gesamtzeit: {end_time - start_time:.2f} Sekunden")
        print(f"üìä Statistiken:")
        for key, value in indexing_stats.items():
            if isinstance(value, float):
                print(f"   {key}: {value:.2f}")
            else:
                print(f"   {key}: {value}")
        
except Exception as e:
    print(f"‚ùå Fehler beim Indexieren: {e}")
    import traceback
    traceback.print_exc()


In [None]:
## 4. RAG-System testen

F√ºhren Sie Beispiel-Queries aus und analysieren Sie die Ergebnisse.


In [None]:
# 4.1 Beispiel-Queries definieren
sample_questions = [
    "Was ist die maximale Geldbu√üe nach Art. 83 DSGVO?",
    "Welche Rechtsgrundlagen f√ºr die Verarbeitung gibt es?",
    "Wie l√§uft das Verfahren bei einer Datenschutz-Folgenabsch√§tzung ab?",
    "Welche Rechte haben betroffene Personen?",
    "Was sind die Grunds√§tze der Datenverarbeitung?"
]

print("üìù Beispiel-Fragen:")
for i, question in enumerate(sample_questions, 1):
    print(f"{i}. {question}")

print(f"\nüí° Sie k√∂nnen auch eigene Fragen in der n√§chsten Zelle stellen!")


In [None]:
# 4.2 Einzelne Query ausf√ºhren
def ask_question(question: str, show_context: bool = False):
    """F√ºhrt eine einzelne Query aus und zeigt das Ergebnis."""
    print(f"‚ùì Frage: {question}")
    print("=" * 80)
    
    try:
        # Query ausf√ºhren
        result = pipeline.query(question, return_context=show_context)
        
        print(f"üí¨ Antwort:")
        print(result['answer'])
        print()
        
        print(f"üìä Metadaten:")
        print(f"   ‚è±Ô∏è  Query-Zeit: {result['query_time']:.2f}s")
        print(f"   üîç Gefundene Kontexte: {result['retrieval_count']}")
        print(f"   üîß Pipeline: {result['pipeline_config']}")
        
        if show_context and 'retrieved_contexts' in result:
            print(f"\nüìñ Gefundene Kontexte:")
            for i, context in enumerate(result['retrieved_contexts'], 1):
                print(f"\n   Kontext {i} (Score: {context['score']:.3f}):")
                print(f"   {context['text'][:200]}...")
        
    except Exception as e:
        print(f"‚ùå Fehler bei der Query: {e}")
    
    print("=" * 80)

# Beispiel-Query ausf√ºhren
ask_question(sample_questions[0], show_context=True)


In [None]:
# 4.3 Eigene Frage stellen
# √Ñndern Sie hier Ihre eigene Frage
CUSTOM_QUESTION = "Welche Pflichten haben Auftragsverarbeiter?"

print("üéØ Ihre eigene Frage:")
ask_question(CUSTOM_QUESTION, show_context=False)


In [None]:
# 4.4 Batch-Verarbeitung aller Beispiel-Fragen
print("üîÑ Verarbeite alle Beispiel-Fragen...")
batch_results = pipeline.batch_query(sample_questions, show_progress=True)

print("\nüìä Zusammenfassung der Ergebnisse:")
print("=" * 80)

total_time = sum(result['query_time'] for result in batch_results)
avg_time = total_time / len(batch_results)

for i, (question, result) in enumerate(zip(sample_questions, batch_results), 1):
    print(f"\n{i}. {question}")
    print(f"   üí¨ Antwort: {result['answer'][:100]}...")
    print(f"   ‚è±Ô∏è  Zeit: {result['query_time']:.2f}s")
    print(f"   üîç Kontexte: {result['retrieval_count']}")

print(f"\nüìà Gesamt-Statistiken:")
print(f"   üéØ Verarbeitete Fragen: {len(batch_results)}")
print(f"   ‚è±Ô∏è  Gesamtzeit: {total_time:.2f}s")
print(f"   üìä Durchschnittliche Zeit: {avg_time:.2f}s")
print(f"   üöÄ Fragen pro Sekunde: {len(batch_results)/total_time:.2f}")


In [None]:
## 5. Pipeline-Analyse und Debugging

Analysieren Sie die Pipeline-Komponenten und deren Verhalten.


In [None]:
# 5.1 Detaillierte Pipeline-Informationen
print("üîç Detaillierte Pipeline-Analyse:")
print("=" * 80)

# Pipeline-Info
pipeline_info = pipeline.get_pipeline_info()
print(f"üìã Pipeline-Informationen:")
for key, value in pipeline_info.items():
    print(f"   {key}: {value}")

print("\n" + "=" * 80)

# Komponenten-Info
component_info = pipeline.get_component_info()
print(f"üß© Komponenten-Details:")

for component_name, info in component_info.items():
    print(f"\nüì¶ {component_name.upper()}:")
    print(f"   Typ: {info['type']}")
    print(f"   Konfiguration:")
    for key, value in info['config'].items():
        print(f"      {key}: {value}")
    
    if 'stats' in info and info['stats']:
        print(f"   Statistiken:")
        for key, value in info['stats'].items():
            print(f"      {key}: {value}")

print("\n" + "=" * 80)


In [None]:
# 5.2 Chunking-Analyse
print("üìÑ Chunking-Analyse:")
print("=" * 50)

# Beispiel-Text chunken
sample_text = """
Art. 1 Gegenstand und Ziele

(1) Diese Verordnung enth√§lt Vorschriften zum Schutz nat√ºrlicher Personen bei der Verarbeitung personenbezogener Daten und zum freien Verkehr solcher Daten.

(2) Diese Verordnung sch√ºtzt die Grundrechte und Grundfreiheiten nat√ºrlicher Personen und insbesondere deren Recht auf Schutz personenbezogener Daten.

(3) Der freie Verkehr personenbezogener Daten in der Union darf aus Gr√ºnden des Schutzes nat√ºrlicher Personen bei der Verarbeitung personenbezogener Daten weder eingeschr√§nkt noch untersagt werden.
"""

chunks = pipeline.chunker.chunk_text(sample_text.strip())

print(f"üìù Original-Text ({len(sample_text)} Zeichen):")
print(sample_text[:200] + "...")

print(f"\nüî™ Chunks ({len(chunks)} St√ºck):")
for i, chunk in enumerate(chunks, 1):
    print(f"\nChunk {i} ({len(chunk)} Zeichen):")
    print(f"'{chunk[:100]}...'")

print(f"\nüìä Chunking-Statistiken:")
print(f"   Anzahl Chunks: {len(chunks)}")
print(f"   Durchschnittliche Chunk-L√§nge: {sum(len(c) for c in chunks) / len(chunks):.1f} Zeichen")
print(f"   K√ºrzester Chunk: {min(len(c) for c in chunks)} Zeichen")
print(f"   L√§ngster Chunk: {max(len(c) for c in chunks)} Zeichen")


In [None]:
## 6. Experimentieren mit verschiedenen Konfigurationen

Testen Sie verschiedene Pipeline-Konfigurationen und vergleichen Sie die Ergebnisse.


In [None]:
# 6.1 Vergleich verschiedener Konfigurationen
def compare_configurations(test_question: str = "Was ist die maximale Geldbu√üe nach Art. 83 DSGVO?"):
    """Vergleicht verschiedene Pipeline-Konfigurationen."""
    
    configs_to_test = ["baseline"]  # Nur Baseline f√ºr jetzt, da andere Komponenten noch nicht implementiert
    
    print(f"üî¨ Experiment: Vergleich verschiedener Konfigurationen")
    print(f"‚ùì Test-Frage: {test_question}")
    print("=" * 80)
    
    results = {}
    
    for config_name in configs_to_test:
        print(f"\nüß™ Teste Konfiguration: {config_name}")
        
        try:
            # Konfiguration laden
            configs = get_alternative_configs()
            config = configs[config_name]
            
            # Neue Pipeline erstellen
            test_pipeline = RAGPipeline(config)
            
            # Dokument indexieren (falls noch nicht geschehen)
            if not test_pipeline.is_indexed:
                documents = test_pipeline.load_documents_from_file("data/raw/dsgvo.txt")
                test_pipeline.index_documents(documents, show_progress=False)
            
            # Query ausf√ºhren
            start_time = time.time()
            result = test_pipeline.query(test_question)
            end_time = time.time()
            
            results[config_name] = {
                'answer': result['answer'],
                'query_time': result['query_time'],
                'retrieval_count': result['retrieval_count'],
                'components': config.get_component_types()
            }
            
            print(f"   ‚úÖ Erfolgreich getestet")
            print(f"   ‚è±Ô∏è  Zeit: {result['query_time']:.2f}s")
            print(f"   üí¨ Antwort: {result['answer'][:100]}...")
            
        except Exception as e:
            print(f"   ‚ùå Fehler: {e}")
            results[config_name] = {'error': str(e)}
    
    print("\n" + "=" * 80)
    print("üìä Vergleichsergebnisse:")
    
    for config_name, result in results.items():
        if 'error' not in result:
            print(f"\nüîß {config_name.upper()}:")
            print(f"   ‚è±Ô∏è  Query-Zeit: {result['query_time']:.2f}s")
            print(f"   üîç Retrieval-Count: {result['retrieval_count']}")
            print(f"   üß© Komponenten: {result['components']}")
            print(f"   üí¨ Antwort: {result['answer'][:150]}...")
    
    return results

# Experiment ausf√ºhren
experiment_results = compare_configurations()


In [None]:
## 7. N√§chste Schritte

Dieses Notebook bietet eine solide Basis f√ºr Ihre RAG-System-Experimente. Hier sind die n√§chsten Schritte f√ºr Ihre Forschung:

### F√ºr Person A (Chunking-Strategien):
- Implementieren Sie `RecursiveChunker` in `src/components/chunkers/recursive_chunker.py`
- Experimentieren Sie mit verschiedenen Chunk-Gr√∂√üen und √úberlappungen
- Testen Sie semantisches Chunking

### F√ºr Person B (Embedding-Verfahren):
- Implementieren Sie `SentenceTransformerEmbedding` in `src/components/embeddings/sentence_transformer_embedding.py`
- Vergleichen Sie verschiedene Embedding-Modelle
- Analysieren Sie die Embedding-Qualit√§t

### F√ºr Person C (Vector Stores & Retrieval):
- Implementieren Sie `ChromaVectorStore` in `src/components/vector_stores/chroma_vector_store.py`
- Testen Sie verschiedene √Ñhnlichkeitsmetriken
- Optimieren Sie Retrieval-Parameter

### F√ºr Person D (Language Models & Generation):
- Implementieren Sie lokale LLM-Integration (Ollama)
- Experimentieren Sie mit verschiedenen Prompt-Strategien
- Optimieren Sie Generation-Parameter

### Gemeinsame Aufgaben:
- Erstellen Sie QA-Datens√§tze f√ºr systematische Evaluierung
- Implementieren Sie Evaluierungsmetriken
- Dokumentieren Sie Ihre Experimente
