# Azure AI Search ‚Äì Pipeline Setup & Dokumente hochladen

In diesem Notebook bereiten wir die komplette Blob ‚ûú Indexer ‚ûú Vector Search Pipeline vor.

## 1. Installation

In [1]:
# Workshop Tools + Notebook Helfer installieren
!uv pip install -e ../../workshop_tools
!uv pip install python-dotenv ipywidgets

[2mUsing Python 3.13.5 environment at: /Users/oscharko/PycharmProjects/Keiko-Evolutio/demo-it-tage-2025/.venv[0m
[2K[2mResolved [1m38 packages[0m [2min 246ms[0m[0m                                        [0m
[2K[2mPrepared [1m1 package[0m [2min 385ms[0m[0m                                              
[2mUninstalled [1m1 package[0m [2min 0.47ms[0m[0m
[2K[2mInstalled [1m1 package[0m [2min 1ms[0m[0mge-2025==1.0.0 (from file:///Users[0m
 [33m~[39m [1mfoundry-tools-it-tage-2025[0m[2m==1.0.0 (from file:///Users/oscharko/PycharmProjects/Keiko-Evolutio/demo-it-tage-2025/tools_and_data/workshop_tools)[0m
[2mUsing Python 3.13.5 environment at: /Users/oscharko/PycharmProjects/Keiko-Evolutio/demo-it-tage-2025/.venv[0m
[2mAudited [1m2 packages[0m [2min 2ms[0m[0m


## 2. Umgebungsvariablen laden

In [2]:
import os
from pathlib import Path

from dotenv import load_dotenv

env_path = Path('..') / '..' / '.env'
load_dotenv(env_path)

print('Konfiguration geladen:')
print(f"  ‚Ä¢ Storage Container: {os.getenv('FILE_STORAGE_CONTAINER_NAME')}")
print(f"  ‚Ä¢ Search Index: {os.getenv('VECTOR_DB_INDEX_NAME')}")
print(f"  ‚Ä¢ Search Endpoint: {os.getenv('VECTOR_DB_ENDPOINT')}")

Konfiguration geladen:
  ‚Ä¢ Storage Container: workshop-documents
  ‚Ä¢ Search Index: workshop-documents
  ‚Ä¢ Search Endpoint: https://search-workshop-it-tage-2025.search.windows.net/


In [3]:
from foundry_tools import ensure_notebook_env

ensure_notebook_env(
    ['VECTOR_DB_ENDPOINT', 'VECTOR_DB_ADMIN_KEY', 'VECTOR_DB_INDEX_NAME', 'FILE_STORAGE_CONNECTION_STRING',
     'FILE_STORAGE_CONTAINER_NAME', 'AZURE_OPENAI_ENDPOINT', 'AZURE_OPENAI_API_KEY',
     'AZURE_OPENAI_EMBEDDING_DEPLOYMENT'])


‚úÖ Alle ben√∂tigten Environment Variablen sind gesetzt


## 3. Helfer initialisieren

In [4]:
from foundry_tools import BlobStorage, VectorSearchPipeline, VectorDB

blob = BlobStorage()
pipeline = VectorSearchPipeline()
vector_db = VectorDB()

print('Bereit!')
print(f"  ‚Ä¢ Blob Container: {blob.container_name}")
print(f"  ‚Ä¢ Index: {vector_db.index_name}")

Bereit!
  ‚Ä¢ Blob Container: workshop-documents
  ‚Ä¢ Index: workshop-documents


## 4. Dokumente im Blob Store pr√ºfen

Pr√ºfe, welche Dokumente bereits im Blob Store liegen und welche bereits indexiert sind.

In [5]:
# Liste alle Dokumente im Blob Store
blobs = blob.list_files()

print(f'Dokumente im Blob Store: {len(blobs)}')
print()

if not blobs:
    print('‚ö†Ô∏è  Keine Dokumente im Blob Store gefunden!')
    print('   Bitte lade zuerst Dokumente hoch mit:')
    print('   python3 tools_and_data/workshop_tools/azure_tools/blob_store/upload_sample_data.py')
else:
    # Zeige alle Blobs
    for idx, blob_info in enumerate(blobs, start=1):
        name = blob_info['name']
        size_kb = blob_info['size'] / 1024
        last_modified = blob_info['last_modified'].strftime('%Y-%m-%d %H:%M:%S')

        print(f"  {idx}. {name}")
        print(f"     Gr√∂√üe: {size_kb:.2f} KB")
        print(f"     Letzte √Ñnderung: {last_modified}")
        print()

    # Pr√ºfe, welche Dokumente bereits indexiert sind
    print("=" * 80)
    print("Pr√ºfe indexierte Dokumente...")
    print("=" * 80)

    indexed_docs = vector_db.get_indexed_documents()

    if indexed_docs:
        print(f"\n‚úÖ {len(indexed_docs)} Dokument(e) bereits indexiert:")
        for doc_uri in indexed_docs:
            # Extract just the blob name from the URL for display
            blob_name = doc_uri.split('/')[-1]
            print(f"  - {blob_name}")

        # Vergleiche mit Blob Store (using blob URLs)
        blob_urls = set()
        for blob_info in blobs:
            blob_url = blob_info['url']
            blob_urls.add(blob_url)

        # Find documents that are NOT yet indexed
        not_indexed_urls = blob_urls - set(indexed_docs)

        if not_indexed_urls:
            print(f"\n‚ö†Ô∏è  {len(not_indexed_urls)} Dokument(e) noch NICHT indexiert:")
            for url in not_indexed_urls:
                blob_name = url.split('/')[-1]
                print(f"  - {blob_name}")
            print("\n‚ûú Pipeline wird erstellt und neue Dokumente werden indexiert.")
            needs_indexing = True
        else:
            print(f"\n‚úÖ Alle Dokumente aus dem Blob Store sind bereits indexiert!")
            print("   Keine Aktion erforderlich.")
            needs_indexing = False
    else:
        print("\n‚ÑπÔ∏è  Noch keine Dokumente indexiert.")
        print("‚ûú Pipeline wird erstellt und alle Dokumente werden indexiert.")
        needs_indexing = True

Dokumente im Blob Store: 1

  1. workshop/GedaÃàchtnis-in-Multi-Agent-Systemen.pdf
     Gr√∂√üe: 510.21 KB
     Letzte √Ñnderung: 2025-11-15 11:14:58

Pr√ºfe indexierte Dokumente...

‚ÑπÔ∏è  Noch keine Dokumente indexiert.
‚ûú Pipeline wird erstellt und alle Dokumente werden indexiert.


## 5. Pipeline erstellen (falls n√∂tig)

Die Pipeline wird nur erstellt/aktualisiert, wenn neue Dokumente indexiert werden m√ºssen.

In [6]:
if needs_indexing:
    print("\n" + "=" * 80)
    print("Erstelle Pipeline neu und indexiere alle Dokumente...")
    print("=" * 80)
    print("‚ö†Ô∏è  HINWEIS: Die Pipeline wird komplett neu erstellt.")
    print("   Dies ist notwendig, um sicherzustellen, dass alle Dokumente korrekt indexiert werden.")
    print()

    # Recreate pipeline from scratch to ensure all documents are indexed
    pipeline.bootstrap(force_recreate=True)
    print('Index, Data Source, Skillset und Indexer sind bereit!')
    print('Der Indexer wurde gestartet und verarbeitet alle Dokumente.')
else:
    print("\n" + "=" * 80)
    print("Pipeline-Erstellung √ºbersprungen")
    print("=" * 80)
    print("Alle Dokumente sind bereits indexiert.")
    print("Wenn du die Pipeline trotzdem neu erstellen m√∂chtest, f√ºhre aus:")
    print("  pipeline.bootstrap(force_recreate=True)")


Erstelle Pipeline neu und indexiere alle Dokumente...
‚ö†Ô∏è  HINWEIS: Die Pipeline wird komplett neu erstellt.
   Dies ist notwendig, um sicherzustellen, dass alle Dokumente korrekt indexiert werden.

üîß L√∂sche alte Ressourcen und erstelle Pipeline neu...
  1/8 L√∂sche Indexer...
      ‚úÖ Indexer gel√∂scht
  2/8 L√∂sche Skillset...
      ‚úÖ Skillset gel√∂scht
  3/8 L√∂sche Data Source...
      ‚úÖ Data Source gel√∂scht
  4/8 L√∂sche Index...
      ‚úÖ Index gel√∂scht
  5/8 Index erstellen...
      ‚ÑπÔ∏è  Index 'workshop-documents' wurde neu erstellt
      ‚úÖ Index erstellt
  6/8 Data Source erstellen...
      ‚úÖ Data Source erstellt
  7/8 Skillset erstellen...
      ‚úÖ Skillset erstellt
  8/8 Indexer erstellen und starten...
      ‚úÖ Indexer erstellt und gestartet

‚úÖ Pipeline erfolgreich neu erstellt!
   Der Indexer wurde gestartet und verarbeitet jetzt die Dokumente.
Index, Data Source, Skillset und Indexer sind bereit!
Der Indexer wurde gestartet und verarbeitet alle Do

## 6. Indexer-Status √ºberwachen (falls Indexierung l√§uft)

Wenn neue Dokumente indexiert werden, √ºberwache den Indexer-Status.
Dieser Prozess kann **1-3 Minuten** dauern, abh√§ngig von der Anzahl und Gr√∂√üe der Dokumente.

**Wichtig:** Warte, bis der Status `success` zeigt, bevor du mit dem n√§chsten Schritt fortf√§hrst!

In [7]:
import time

if needs_indexing:
    print('Ueberwache Indexer-Status...\n')

    for i in range(12):  # Max 2 Minuten warten (12 x 10 Sekunden)
        status_text = pipeline.get_indexer_status()
        print(f'[{i * 10}s] {status_text}')

        # Pr√ºfe ob erfolgreich abgeschlossen
        if 'success' in status_text.lower():
            print('\nIndexer erfolgreich abgeschlossen!')
            print('Du kannst jetzt mit dem naechsten Schritt fortfahren.\n')
            break
        elif 'running' in status_text.lower() or 'inprogress' in status_text.lower() or 'transientfailure' in status_text.lower():
            print('Indexer laeuft noch... warte 10 Sekunden\n')
            time.sleep(10)
        else:
            print(f'\nUnerwarteter Status. Bitte pruefe die Ausgabe oben.')
            break
    else:
        print('\nTimeout nach 2 Minuten.')
        print('Der Indexer laeuft moeglicherweise noch. Pruefe den Status manuell:')
        print('   pipeline.get_indexer_status()')

    # Pr√ºfe Dokumentanzahl im Index
    doc_count = vector_db.get_document_count()
    print(f'\nDokumente im Index: {doc_count}')

    if doc_count == 0:
        print('\n‚ö†Ô∏è  WARNUNG: Index ist leer!')
        print('   Der Indexer braucht m√∂glicherweise noch etwas Zeit.')
        print('   Warte weitere 30 Sekunden und pr√ºfe erneut...')
        time.sleep(30)
        doc_count = vector_db.get_document_count()
        print(f'   Dokumente im Index: {doc_count}')

        if doc_count > 0:
            print(f'\n‚úÖ Index enth√§lt jetzt {doc_count} Dokumente!')
        else:
            print('\n‚ùå Index ist immer noch leer. Bitte pr√ºfe die Indexer-Logs.')
    else:
        print(f'\n‚úÖ Index enth√§lt {doc_count} Dokumente!')
else:
    print('Indexer-√úberwachung √ºbersprungen (keine neuen Dokumente).')

    # Zeige aktuelle Dokumentanzahl
    doc_count = vector_db.get_document_count()
    print(f'\n‚úÖ Index enth√§lt {doc_count} Dokumente!')

Ueberwache Indexer-Status...

[0s] Status: running
Indexer laeuft noch... warte 10 Sekunden

[10s] Status: success
Items: 1 processed, 0 failed

Indexer erfolgreich abgeschlossen!
Du kannst jetzt mit dem naechsten Schritt fortfahren.


Dokumente im Index: 35

‚úÖ Index enth√§lt 35 Dokumente!


## 7. BM25 (klassische Volltextsuche)

BM25 ist der Standard-Ranker im "klassischen" Modus von Azure AI Search.

**Kernidee:**
- `queryType=full` oder `simple`
- Kein `semanticConfiguration`, kein `vectorQueries`
- Ranking prim√§r √ºber BM25 + evtl. Scoring Profile
- Sucht nach exakten W√∂rtern/Begriffen im Text
- Keine Embeddings n√∂tig, daher keine Rate-Limit-Probleme

**Beispiel-Query:** "Azure AI Foundry"

In [8]:
from azure.search.documents import SearchClient
from azure.core.credentials import AzureKeyCredential
import os

# Search Client initialisieren
search_client = SearchClient(
    endpoint=os.getenv("VECTOR_DB_ENDPOINT"),
    index_name=os.getenv("VECTOR_DB_INDEX_NAME"),
    credential=AzureKeyCredential(os.getenv("VECTOR_DB_ADMIN_KEY"))
)

# BM25 Suche
query = "Plastizit√§t"
results = search_client.search(
    search_text=query,
    query_type="simple",  # oder "full" f√ºr erweiterte Lucene-Syntax
    top=5,
    select=["chunk_id", "title", "content"]
)

print(f"BM25 Suche nach: '{query}'\n")
print("=" * 80)

for i, doc in enumerate(results, start=1):
    print(f"\n{i}. {doc.get('title')}")
    print(f"   Score: {doc.get('@search.score'):.2f}")
    snippet = doc.get('content', '')[:200]
    print(f"   {snippet}...")

print("\n" + "=" * 80)
print("ERKL√ÑRUNG:")
print("=" * 80)
print("""
BM25 (Best Matching 25) ist ein klassischer Ranking-Algorithmus f√ºr Volltextsuche.

Funktionsweise:
- Analysiert die H√§ufigkeit von Begriffen im Dokument (Term Frequency)
- Ber√ºcksichtigt die Seltenheit von Begriffen im gesamten Index (Inverse Document Frequency)
- Normalisiert nach Dokumentl√§nge

Vorteile:
- Sehr schnell und effizient
- Gut f√ºr exakte Begriffe und spezifische Suchen
- Keine Embeddings n√∂tig (kein Rate-Limit-Problem)

Nachteile:
- Versteht keine Synonyme oder semantische √Ñhnlichkeit
- Findet nur Dokumente mit exakten Keywords
- Keine Sprachverst√§ndnis

Verwendung: queryType="simple" oder "full" (Lucene-Syntax)
""")

BM25 Suche nach: 'Plastizit√§t'


1. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf
   Score: 1.81
   Informationen, 

aber nur etwa T` Bits schaffen es ins Bewusstsein. Diese massive Filterung verhindert, dass wir im 

Datenmeer untergehen. 

Biologische Systeme haben daf√ºr ausgekl√ºgelte Mechanismen ...

2. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf
   Score: 1.59
   bestimmte Muster sieht, desto 

st√§rker werden die entsprechenden Verbindungen ‚Äì ein direktes technisches Analogon zur biologischen 

Plastizit√§t. 

In Multi-Agent-Systemen implementieren wir Plastizi...

3. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf
   Score: 1.28
   (WpHG) fordert Aufzeichnungen √ºber 

Anlageberatungen, und Basel III/CRD IV setzen strenge Anforderungen an Risikobewertungen. 

Der Agent muss also nicht nur ‚Äûsich erinnern‚Äú, sondern auch ‚Äûvergessen ...

4. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf
   Score: 0.43
   Plastizit√§t bedeutet, dass Erinnerungen ver√§nderbar sind: Sie passen sich neuen Erfahrun

## 8. Semantische Suche (Semantic Search)

Semantische Suche nutzt BM25 als Recall-Schicht + zus√§tzlichen semantischen Ranker.

**Kernidee:**
- `queryType="semantic"`
- `semanticConfiguration="workshop-semantic-config"`
- Optional: `answers`, `captions`, `queryLanguage`
- BM25 holt relevante Dokumente, semantischer Ranker ordnet sie nach Bedeutung

**Vorteile:**
- Versteht Kontext und Bedeutung, nicht nur Keywords
- Besonders gut f√ºr nat√ºrlichsprachige Fragen
- Funktioniert auch ohne Vektor-Embeddings

**Beispiel-Query:** "Wie kann ich agentenbasierte KI-Workflows √ºberwachen?"

In [9]:
from azure.search.documents import SearchClient
from azure.core.credentials import AzureKeyCredential
import os

# Search Client initialisieren
search_client = SearchClient(
    endpoint=os.getenv("VECTOR_DB_ENDPOINT"),
    index_name=os.getenv("VECTOR_DB_INDEX_NAME"),
    credential=AzureKeyCredential(os.getenv("VECTOR_DB_ADMIN_KEY"))
)

# Semantische Suche
query = "Was ist Plastizit√§t?"
results = search_client.search(
    search_text=query,
    query_type="semantic",
    semantic_configuration_name="workshop-semantic-config",
    top=5,
    select=["chunk_id", "title", "content"]
)

print(f"Semantische Suche nach: '{query}'\n")
print("=" * 80)

for i, doc in enumerate(results, start=1):
    print(f"\n{i}. {doc.get('title')}")
    print(f"   Reranker Score: {doc.get('@search.reranker_score', 'N/A')}")
    print(f"   BM25 Score: {doc.get('@search.score'):.2f}")

    snippet = doc.get('content', '')[:200]
    print(f"   {snippet}...")

print("\n" + "=" * 80)
print("ERKL√ÑRUNG:")
print("=" * 80)
print("""
Der semantische Ranker funktioniert in 2 Schritten:

1. BM25 Recall: Findet relevante Dokumente (wie in Abschnitt 7)
2. Semantic Re-Ranking: Bewertet die Ergebnisse nach semantischer Relevanz

Der Reranker Score ist h√∂her als der BM25 Score, weil er die semantische
Bedeutung der Frage versteht, nicht nur Keywords.

HINWEIS: Die Python SDK unterst√ºtzt 'answers' und 'captions' nicht vollst√§ndig.
Diese Features sind haupts√§chlich √ºber die REST API verf√ºgbar:
- answers: Extrahiert direkte Antworten aus den Dokumenten
- captions: Zeigt relevante Textausschnitte mit Highlights
""")


Semantische Suche nach: 'Was ist Plastizit√§t?'


1. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf
   Reranker Score: 3.36470627784729
   BM25 Score: 0.43
   Plastizit√§t bedeutet, dass Erinnerungen ver√§nderbar sind: Sie passen sich neuen Erfahrungen an, 

wachsen mit, verblassen oder verschmelzen. Diese Eigenschaft erm√∂glicht es biologischen Systemen, 

au...

2. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf
   Reranker Score: 2.966282844543457
   BM25 Score: 1.81
   Informationen, 

aber nur etwa T` Bits schaffen es ins Bewusstsein. Diese massive Filterung verhindert, dass wir im 

Datenmeer untergehen. 

Biologische Systeme haben daf√ºr ausgekl√ºgelte Mechanismen ...

3. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf
   Reranker Score: 2.5090177059173584
   BM25 Score: 2.01
   bestimmte Muster sieht, desto 

st√§rker werden die entsprechenden Verbindungen ‚Äì ein direktes technisches Analogon zur biologischen 

Plastizit√§t. 

In Multi-Agent-Systemen implementieren wir Plastizi...

4. GedaÃàchtni

## 9. Vektorbasierte semantische Suche (reines Vektor-Retrieval)

Reine Vektor-Suche verwendet nur Embeddings, kein BM25.

**Kernidee:**
- `vector_queries` mit `VectorizedQuery`
- Kein `search_text` (oder `None`)
- Sucht √ºber das `contentVector` Feld
- Verwendet HNSW-Algorithmus f√ºr schnelle Nearest-Neighbor-Suche

**Unterschied zu Abschnitt 8:**
- Abschnitt 8: BM25 + semantischer Ranker (kein Vektor)
- Abschnitt 9: Reines Vektor-Retrieval (HNSW)


In [10]:
from azure.search.documents import SearchClient
from azure.search.documents.models import VectorizedQuery
from azure.core.credentials import AzureKeyCredential
import os
import sys
sys.path.insert(0, '../../workshop_tools')
from foundry_tools import VectorDB

# VectorDB f√ºr Embedding-Generierung
vector_db = VectorDB()

# Search Client
search_client = SearchClient(
    endpoint=os.getenv("VECTOR_DB_ENDPOINT"),
    index_name=os.getenv("VECTOR_DB_INDEX_NAME"),
    credential=AzureKeyCredential(os.getenv("VECTOR_DB_ADMIN_KEY"))
)

# Query
query = "Was ist Plastizit√§t?"

# Generiere Embedding f√ºr die Query
print(f"Generiere Embedding f√ºr: '{query}'")
query_embedding = vector_db._embed_text(query)
print(f"Embedding-Dimension: {len(query_embedding)}")

# Erstelle VectorizedQuery
vector_query = VectorizedQuery(
    vector=query_embedding,
    k_nearest_neighbors=5,
    fields="contentVector"
)

# Reine Vektor-Suche (kein search_text)
results = search_client.search(
    search_text=None,  # Kein BM25!
    vector_queries=[vector_query],
    select=["chunk_id", "title", "content"]
)

print(f"\nVektor-Suche nach: '{query}'\n")
print("=" * 80)

for i, doc in enumerate(results, start=1):
    print(f"\n{i}. {doc.get('title')}")
    print(f"   Similarity Score: {doc.get('@search.score'):.4f}")

    snippet = doc.get('content', '')[:200]
    print(f"   {snippet}...")

print("\n" + "=" * 80)
print("ERKL√ÑRUNG:")
print("=" * 80)
print("""
Vektor-Suche verwendet:
- HNSW-Algorithmus f√ºr schnelle Nearest-Neighbor-Suche
- Cosine Similarity f√ºr √Ñhnlichkeitsberechnung
- Nur semantische Bedeutung, keine Keywords

Der Similarity Score ist zwischen 0 und 1:
- 1.0 = identisch
- 0.0 = v√∂llig unterschiedlich

Vorteil: Findet semantisch √§hnliche Dokumente, auch ohne exakte Keywords
Nachteil: Kann bei sehr spezifischen Begriffen ungenau sein
""")


Generiere Embedding f√ºr: 'Was ist Plastizit√§t?'
‚ö†Ô∏è  Rate limit erreicht (429). Warte 52 Sekunden... (Versuch 1/5)
Embedding-Dimension: 1536

Vektor-Suche nach: 'Was ist Plastizit√§t?'


1. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf
   Similarity Score: 0.7768
   Plastizit√§t bedeutet, dass Erinnerungen ver√§nderbar sind: Sie passen sich neuen Erfahrungen an, 

wachsen mit, verblassen oder verschmelzen. Diese Eigenschaft erm√∂glicht es biologischen Systemen, 

au...

2. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf
   Similarity Score: 0.6762
   bestimmte Muster sieht, desto 

st√§rker werden die entsprechenden Verbindungen ‚Äì ein direktes technisches Analogon zur biologischen 

Plastizit√§t. 

In Multi-Agent-Systemen implementieren wir Plastizi...

3. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf
   Similarity Score: 0.6685
   Informationen, 

aber nur etwa T` Bits schaffen es ins Bewusstsein. Diese massive Filterung verhindert, dass wir im 

Datenmeer untergehen. 

Biologische Systeme habe

## 10. Hybrid Retrieval (BM25 + Vektor)

Hybrid Retrieval kombiniert das Beste aus beiden Welten:
- **BM25**: Findet Dokumente mit exakten Keywords
- **Vektor-Suche**: Findet semantisch √§hnliche Dokumente

**Kernidee:**
- `search_text` + `vector_queries` gemeinsam setzen
- Azure AI Search fusioniert beide Ergebnisse automatisch (Reciprocal Rank Fusion)
- Optional: `query_type="semantic"` f√ºr zus√§tzliches Re-Ranking

**Fusion-Strategie:**
Azure verwendet Reciprocal Rank Fusion (RRF):
- Kombiniert Rankings aus BM25 und Vektor-Suche
- Dokumente, die in beiden Rankings hoch sind, werden bevorzugt
- Robuster als einzelne Methoden


In [11]:
from azure.search.documents import SearchClient
from azure.search.documents.models import VectorizedQuery
from azure.core.credentials import AzureKeyCredential
import os
import sys
sys.path.insert(0, '../../workshop_tools')
from foundry_tools import VectorDB

# VectorDB f√ºr Embedding-Generierung
vector_db = VectorDB()

# Search Client
search_client = SearchClient(
    endpoint=os.getenv("VECTOR_DB_ENDPOINT"),
    index_name=os.getenv("VECTOR_DB_INDEX_NAME"),
    credential=AzureKeyCredential(os.getenv("VECTOR_DB_ADMIN_KEY"))
)

# Query
query = "Was ist Plastizit√§t?"

# Generiere Embedding f√ºr die Query
print(f"Generiere Embedding f√ºr: '{query}'")
query_embedding = vector_db._embed_text(query)

# Erstelle VectorizedQuery
vector_query = VectorizedQuery(
    vector=query_embedding,
    k_nearest_neighbors=20,  # Mehr Kandidaten f√ºr bessere Fusion
    fields="contentVector"
)

# Hybrid Search: BM25 + Vektor
results = search_client.search(
    search_text=query,           # BM25 Keyword-Suche
    vector_queries=[vector_query],  # Vektor-Suche
    top=5,
    select=["chunk_id", "title", "content"]
)

print(f"\nHybrid Search (BM25 + Vektor) nach: '{query}'\n")
print("=" * 80)

for i, doc in enumerate(results, start=1):
    print(f"\n{i}. {doc.get('title')}")
    print(f"   Hybrid Score: {doc.get('@search.score'):.4f}")

    snippet = doc.get('content', '')[:200]
    print(f"   {snippet}...")

print("\n" + "=" * 80)
print("ERKL√ÑRUNG:")
print("=" * 80)
print("""
Hybrid Retrieval kombiniert:
1. BM25: Findet Dokumente mit dem Keyword "Plastizit√§t"
2. Vektor-Suche: Findet semantisch √§hnliche Dokumente
3. Reciprocal Rank Fusion (RRF): Kombiniert beide Rankings

Vorteile:
- Robuster als einzelne Methoden
- Findet sowohl exakte Matches als auch semantisch √§hnliche Dokumente
- Bessere Recall-Rate

Der Hybrid Score ist eine Kombination aus BM25 und Vektor-Similarity.

Vergleichen Sie die Ergebnisse mit:
- Abschnitt 7 (nur BM25)
- Abschnitt 9 (nur Vektor)
""")


Generiere Embedding f√ºr: 'Was ist Plastizit√§t?'

Hybrid Search (BM25 + Vektor) nach: 'Was ist Plastizit√§t?'


1. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf
   Hybrid Score: 0.0331
   bestimmte Muster sieht, desto 

st√§rker werden die entsprechenden Verbindungen ‚Äì ein direktes technisches Analogon zur biologischen 

Plastizit√§t. 

In Multi-Agent-Systemen implementieren wir Plastizi...

2. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf
   Hybrid Score: 0.0323
   Informationen, 

aber nur etwa T` Bits schaffen es ins Bewusstsein. Diese massive Filterung verhindert, dass wir im 

Datenmeer untergehen. 

Biologische Systeme haben daf√ºr ausgekl√ºgelte Mechanismen ...

3. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf
   Hybrid Score: 0.0309
   Integration von episodischen Erinnerungen und 

die F√§higkeit zur dynamischen Reorganisation von Wissen, wie sie in der Natur vorzufinden sind. 

3.5) Die fehlende episodisch-semantische Trennung 

Um...

4. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf
   Hybri

## 11. Re-Ranking-Varianten (klassisch vs. semantisch vs. LLM)

Re-Ranking kann auf mehreren Ebenen erfolgen:

1. **Semantisches Re-Ranking in Azure AI Search**
   - `query_type="semantic"` + `semantic_configuration_name`
   - Wirkt auf Top-N BM25-Treffer
   - Schnell, in der Cloud

2. **LLM-basiertes Re-Ranking im Agent/Backend**
   - Hole Top-20 √ºber Hybrid/BM25/Semantic
   - LLM (Azure OpenAI) bewertet und sortiert neu
   - Versteht komplexe Anforderungen

3. **Score-Postprocessing im Code**
   - Einfache Heuristiken (z.B. Boost f√ºr j√ºngere Dokumente)
   - Gesch√§ftslogik-basiertes Ranking


In [12]:
from azure.search.documents import SearchClient
from azure.core.credentials import AzureKeyCredential
from openai import AzureOpenAI
import os
import json

# Search Client
search_client = SearchClient(
    endpoint=os.getenv("VECTOR_DB_ENDPOINT"),
    index_name=os.getenv("VECTOR_DB_INDEX_NAME"),
    credential=AzureKeyCredential(os.getenv("VECTOR_DB_ADMIN_KEY"))
)

# Azure OpenAI Client
openai_client = AzureOpenAI(
    azure_endpoint=os.getenv("AZURE_OPENAI_ENDPOINT"),
    api_key=os.getenv("AZURE_OPENAI_API_KEY"),
    api_version="2024-08-01-preview"
)

query = "Was ist Plastizit√§t?"

print(f"Suche nach: '{query}'")
print("=" * 80)

# Schritt 1: Semantische Suche (Top-20)
print("\n1. SEMANTISCHE SUCHE (Top-20)")
print("-" * 80)

results = list(search_client.search(
    search_text=query,
    query_type="semantic",
    semantic_configuration_name="workshop-semantic-config",
    top=20,
    select=["chunk_id", "title", "content"]
))

print(f"Gefunden: {len(results)} Dokumente")
for i, doc in enumerate(results[:5], start=1):
    print(f"{i}. {doc.get('title')} - Score: {doc.get('@search.reranker_score', 'N/A')}")

# Schritt 2: LLM-basiertes Re-Ranking
print("\n2. LLM-BASIERTES RE-RANKING")
print("-" * 80)

def format_docs_for_llm(docs):
    """Formatiert Dokumente f√ºr LLM-Re-Ranking."""
    lines = []
    for i, d in enumerate(docs, start=1):
        chunk_id = d.get('chunk_id', 'unknown')
        title = d.get('title', 'Unbekannt')
        content = d.get('content', '')[:300]  # Erste 300 Zeichen
        lines.append(f"[{i}] ID: {chunk_id}\nTitel: {title}\nInhalt: {content}...")
    return "\n\n".join(lines)

prompt = f"""Du bist ein Experte f√ºr Informationsretrieval.

Aufgabe: Re-ranke die folgenden Dokumente f√ºr die Frage: "{query}"

Bewerte jedes Dokument nach:
1. Relevanz zur Frage
2. Qualit√§t der Antwort
3. Vollst√§ndigkeit der Information

Gib eine JSON-Liste mit den besten 5 Dokument-Nummern zur√ºck (beste zuerst).
Format: {{"ranking": [3, 1, 7, 2, 5], "reasoning": "Kurze Begr√ºndung"}}

Dokumente:
{format_docs_for_llm(results[:10])}
"""

print("LLM analysiert die Dokumente...")

response = openai_client.chat.completions.create(
    model=os.getenv("AZURE_OPENAI_CHAT_DEPLOYMENT", "gpt-4o-mini"),
    messages=[
        {"role": "system", "content": "Du bist ein Experte f√ºr Informationsretrieval."},
        {"role": "user", "content": prompt}
    ],
    temperature=0.0,
    response_format={"type": "json_object"}
)

llm_result = json.loads(response.choices[0].message.content)
print(f"\nLLM Ranking: {llm_result.get('ranking', [])}")
print(f"Begr√ºndung: {llm_result.get('reasoning', 'N/A')}")

# Zeige re-ranked Ergebnisse
print("\n3. RE-RANKED ERGEBNISSE")
print("-" * 80)

for rank, doc_num in enumerate(llm_result.get('ranking', [])[:5], start=1):
    if doc_num <= len(results):
        doc = results[doc_num - 1]
        print(f"\n{rank}. {doc.get('title')} (Original Position: {doc_num})")
        print(f"   Original Score: {doc.get('@search.reranker_score', 'N/A')}")
        snippet = doc.get('content', '')[:200]
        print(f"   {snippet}...")

print("\n" + "=" * 80)
print("ERKL√ÑRUNG:")
print("=" * 80)
print("""
Re-Ranking-Ebenen im Vergleich:

1. Semantisches Re-Ranking (Azure AI Search):
   - Schnell, in der Cloud
   - Basiert auf vortrainierten Modellen
   - Gut f√ºr Standard-Anfragen

2. LLM-basiertes Re-Ranking:
   - Versteht komplexe Anforderungen
   - Kann Kontext und Nuancen ber√ºcksichtigen
   - Langsamer, aber pr√§ziser
   - Kostet mehr (LLM-Aufrufe)

3. Score-Postprocessing:
   - Einfache Heuristiken (z.B. Boost f√ºr neue Dokumente)
   - Sehr schnell
   - Gut f√ºr gesch√§ftsspezifische Regeln

Best Practice: Kombiniere mehrere Ebenen f√ºr optimale Ergebnisse!
""")


Suche nach: 'Was ist Plastizit√§t?'

1. SEMANTISCHE SUCHE (Top-20)
--------------------------------------------------------------------------------
Gefunden: 20 Dokumente
1. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf - Score: 3.36470627784729
2. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf - Score: 2.966282844543457
3. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf - Score: 2.5090177059173584
4. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf - Score: 2.2102887630462646
5. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf - Score: 1.6731793880462646

2. LLM-BASIERTES RE-RANKING
--------------------------------------------------------------------------------
LLM analysiert die Dokumente...

LLM Ranking: [1, 3, 5, 8, 4]
Begr√ºndung: Dokument 1 bietet eine klare Definition von Plastizit√§t und erkl√§rt deren Bedeutung in biologischen Systemen, was es sehr relevant macht. Dokument 3 beschreibt die Implementierung von Plastizit√§t in Multi-Agent-Systemen und bietet technische Analogien, was die Qualit√§t der Antwort e

## 12. Typische API-Kombinationen im Azure-AI-Foundry-Kontext

Wenn Sie einen Agenten oder ein Tool in Azure AI Foundry bauen, der Azure AI Search nutzt,
sieht das Backend typischerweise so aus:

**Typische Szenarien:**

1. **BM25 (Keyword-Suche)**
   - `search_text` + `query_type="full"`
   - Schnell, f√ºr exakte Begriffe

2. **Semantische Suche**
   - `query_type="semantic"` + `semantic_configuration_name`
   - BM25 + semantischer Ranker

3. **Hybrid Search**
   - `search_text` + `vector_queries` + optional `query_type="semantic"`
   - Beste Recall-Rate

4. **Re-Ranking**
   - Entweder semantisch (`query_type="semantic"`)
   - Oder zus√§tzlicher LLM-Aufruf nach `client.search(...)`

**Best Practice:** Erstellen Sie wiederverwendbare Funktionen f√ºr Ihre Tools!


In [13]:
from azure.search.documents import SearchClient
from azure.search.documents.models import VectorizedQuery
from azure.core.credentials import AzureKeyCredential
import os
import sys
sys.path.insert(0, '../../workshop_tools')
from foundry_tools import VectorDB
from typing import List, Dict, Any

# Clients initialisieren
vector_db = VectorDB()

search_client = SearchClient(
    endpoint=os.getenv("VECTOR_DB_ENDPOINT"),
    index_name=os.getenv("VECTOR_DB_INDEX_NAME"),
    credential=AzureKeyCredential(os.getenv("VECTOR_DB_ADMIN_KEY"))
)

# Wiederverwendbare Such-Funktionen f√ºr Azure AI Foundry Tools

def bm25_search(query: str, top_k: int = 10) -> List[Dict[str, Any]]:
    """
    BM25 Keyword-Suche.

    Verwendung: F√ºr exakte Begriffe, schnelle Suche.
    """
    results = search_client.search(
        search_text=query,
        query_type="full",  # Lucene-Syntax
        top=top_k,
        select=["chunk_id", "title", "content"]
    )
    return list(results)


def semantic_search(query: str, top_k: int = 10) -> List[Dict[str, Any]]:
    """
    Semantische Suche (BM25 + semantischer Ranker).

    Verwendung: F√ºr nat√ºrlichsprachliche Fragen.
    """
    results = search_client.search(
        search_text=query,
        query_type="semantic",
        semantic_configuration_name="workshop-semantic-config",
        top=top_k,
        select=["chunk_id", "title", "content"]
    )
    return list(results)


def hybrid_search(query: str, top_k: int = 10) -> List[Dict[str, Any]]:
    """
    Hybrid Search (BM25 + Vektor + semantischer Ranker).

    Verwendung: Beste Recall-Rate, empfohlen f√ºr Production.
    """
    # Generiere Embedding
    embedding = vector_db._embed_text(query)

    # Erstelle VectorizedQuery
    vector_query = VectorizedQuery(
        vector=embedding,
        k_nearest_neighbors=top_k * 2,  # Mehr Kandidaten f√ºr bessere Fusion
        fields="contentVector"
    )

    # Hybrid Search mit semantischem Re-Ranking
    results = search_client.search(
        search_text=query,
        query_type="semantic",
        semantic_configuration_name="workshop-semantic-config",
        vector_queries=[vector_query],
        top=top_k,
        select=["chunk_id", "title", "content"]
    )

    return list(results)


def vector_only_search(query: str, top_k: int = 10) -> List[Dict[str, Any]]:
    """
    Reine Vektor-Suche (kein BM25).

    Verwendung: F√ºr semantische √Ñhnlichkeit ohne Keywords.
    """
    # Generiere Embedding
    embedding = vector_db._embed_text(query)

    # Erstelle VectorizedQuery
    vector_query = VectorizedQuery(
        vector=embedding,
        k_nearest_neighbors=top_k,
        fields="contentVector"
    )

    # Reine Vektor-Suche
    results = search_client.search(
        search_text=None,  # Kein BM25
        vector_queries=[vector_query],
        top=top_k,
        select=["chunk_id", "title", "content"]
    )

    return list(results)


# Beispiel: Verwendung in einem Azure AI Foundry Tool
print("BEISPIEL: Wiederverwendbare Such-Funktionen")
print("=" * 80)

query = "Was ist Plastizit√§t?"

print(f"\nQuery: '{query}'\n")

# 1. BM25 Search
print("1. BM25 SEARCH")
print("-" * 80)
bm25_results = bm25_search(query, top_k=3)
for i, doc in enumerate(bm25_results, start=1):
    print(f"{i}. {doc.get('title')} - Score: {doc.get('@search.score'):.2f}")

# 2. Semantic Search
print("\n2. SEMANTIC SEARCH")
print("-" * 80)
semantic_results = semantic_search(query, top_k=3)
for i, doc in enumerate(semantic_results, start=1):
    print(f"{i}. {doc.get('title')} - Reranker Score: {doc.get('@search.reranker_score', 'N/A')}")

# 3. Hybrid Search (EMPFOHLEN)
print("\n3. HYBRID SEARCH (EMPFOHLEN)")
print("-" * 80)
hybrid_results = hybrid_search(query, top_k=3)
for i, doc in enumerate(hybrid_results, start=1):
    print(f"{i}. {doc.get('title')} - Reranker Score: {doc.get('@search.reranker_score', 'N/A')}")

# 4. Vector Only Search
print("\n4. VECTOR ONLY SEARCH")
print("-" * 80)
vector_results = vector_only_search(query, top_k=3)
for i, doc in enumerate(vector_results, start=1):
    print(f"{i}. {doc.get('title')} - Similarity: {doc.get('@search.score'):.4f}")

print("\n" + "=" * 80)
print("EMPFEHLUNG F√úR AZURE AI FOUNDRY TOOLS:")
print("=" * 80)
print("""
F√ºr Production-Agenten empfehlen wir:

1. Standard-Tool: hybrid_search()
   - Beste Recall-Rate
   - Kombiniert BM25, Vektor und semantischen Ranker
   - Robust f√ºr verschiedene Query-Typen

2. Spezial-Tools:
   - bm25_search(): F√ºr exakte Begriffe (z.B. Produktnummern)
   - vector_only_search(): F√ºr semantische √Ñhnlichkeit
   - semantic_search(): F√ºr nat√ºrlichsprachliche Fragen

3. Tool-Definition in Azure AI Foundry:
   {
     "name": "search_knowledge_base",
     "description": "Durchsucht die Wissensdatenbank",
     "parameters": {
       "query": {"type": "string", "description": "Suchanfrage"},
       "top_k": {"type": "integer", "default": 10}
     }
   }

4. Backend-Implementierung:
   def search_knowledge_base(query: str, top_k: int = 10):
       return hybrid_search(query, top_k)
""")


BEISPIEL: Wiederverwendbare Such-Funktionen

Query: 'Was ist Plastizit√§t?'

1. BM25 SEARCH
--------------------------------------------------------------------------------
1. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf - Score: 1.89
2. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf - Score: 1.81
3. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf - Score: 1.79

2. SEMANTIC SEARCH
--------------------------------------------------------------------------------
1. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf - Reranker Score: 3.36470627784729
2. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf - Reranker Score: 2.966282844543457
3. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf - Reranker Score: 2.5090177059173584

3. HYBRID SEARCH (EMPFOHLEN)
--------------------------------------------------------------------------------
1. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf - Reranker Score: 3.36470627784729
2. GedaÃàchtnis-in-Multi-Agent-Systemen.pdf - Reranker Score: 2.966282844543457
3. GedaÃàchtnis-in-Multi-Agent-Systemen.pd

## Zusammenfassung: Wann welchen Suchmodus verwenden?

### 1. Nur BM25 (Abschnitt 7)

**Wann verwenden:**
- Exakte Begriffe sind wichtig (IDs, Codes, Keywords, Produktnummern)
- Schnelle, kosteng√ºnstige Suche ohne Embeddings
- Keine Rate-Limits durch Azure OpenAI

**Vorteile:**
- Sehr schnell
- Keine zus√§tzlichen Kosten
- Gut f√ºr strukturierte Daten

**Nachteile:**
- Keine Synonyme oder semantische √Ñhnlichkeit
- Nur exakte Keyword-Matches

---

### 2. Semantische Suche (BM25 + semantischer Ranker) (Abschnitt 8)

**Wann verwenden:**
- Nat√ºrlichsprachliche Fragen
- Verbale Paraphrasen, "long-tail"-Queries
- Wenn Nutzer unterschiedliche Formulierungen verwenden

**Vorteile:**
- Versteht Bedeutung, nicht nur Keywords
- Besseres Ranking f√ºr komplexe Fragen
- Keine Embeddings n√∂tig (kein Rate-Limit)

**Nachteile:**
- Langsamer als reines BM25
- Ben√∂tigt semantische Konfiguration im Index

---

### 3. Reine Vektor-Suche (Abschnitt 9)

**Wann verwenden:**
- "Meaning first" - semantische √Ñhnlichkeit wichtiger als Keywords
- Embedding-optimierte Inhalte
- Wenn Keywords fehlen oder irref√ºhrend sind

**Vorteile:**
- Findet semantisch √§hnliche Dokumente ohne exakte Keywords
- Gut f√ºr multilinguale Suche
- Robust gegen Tippfehler

**Nachteile:**
- Rate-Limits durch Azure OpenAI (Embedding-Generierung)
- Kann bei sehr spezifischen Begriffen ungenau sein
- Langsamer als BM25

---

### 4. Hybrid Retrieval (BM25 + Vektor) (Abschnitt 10)

**Wann verwenden:**
- **Beste Allround-Variante f√ºr agentische Systeme**
- RAG/Agenten-Workflows
- Wenn Sie sich nicht sicher sind, welcher Modus am besten ist

**Vorteile:**
- Kombiniert St√§rken von BM25 und Vektor-Suche
- Robust gegen Tippfehler, Synonyme und Term-Missmatches
- Beste Recall-Rate
- Reciprocal Rank Fusion optimiert automatisch

**Nachteile:**
- Etwas langsamer als einzelne Modi
- Rate-Limits durch Embedding-Generierung

---

### 5. Re-Ranking mit LLM (Abschnitt 11)

**Wann verwenden:**
- Wenn Sie qualitativ sehr hochwertige Top-3/Top-5 brauchen
- Wenn weitere Kriterien ber√ºcksichtigt werden sollen:
  - Risiko-Bewertung
  - Rollen-basierte Relevanz
  - Kontext-spezifische Anforderungen
  - Compliance-Regeln

**Vorteile:**
- H√∂chste Qualit√§t der Top-Ergebnisse
- Versteht komplexe Anforderungen
- Flexibel f√ºr gesch√§ftsspezifische Logik

**Nachteile:**
- Langsam (zus√§tzlicher LLM-Aufruf)
- Teuer (LLM-Kosten)
- Nur f√ºr finale Top-K sinnvoll

---

### Empfehlung f√ºr Production

**Standard-Workflow:**
1. **Hybrid Search** (Abschnitt 10) als Basis
2. Optional: **Semantisches Re-Ranking** (in Hybrid Search integriert)
3. Optional: **LLM Re-Ranking** (Abschnitt 11) f√ºr finale Top-3/Top-5

**Spezial-Workflows:**
- **Nur BM25**: F√ºr exakte Suchen (IDs, Codes)
- **Nur Vektor**: F√ºr semantische √Ñhnlichkeit ohne Keywords
- **Semantische Suche**: F√ºr nat√ºrlichsprachliche Fragen ohne Vektor-Overhead

**Faustregel:**
- Unsicher? ‚Üí **Hybrid Search**
- Exakte Begriffe? ‚Üí **BM25**
- Semantik wichtiger als Keywords? ‚Üí **Vektor**
- H√∂chste Qualit√§t? ‚Üí **Hybrid + LLM Re-Ranking**