![My Image](https://raw.githubusercontent.com/ralf-42/Image/main/genai-banner-2.jpg)

<p><font size="5" color='grey'> <b>
SQL RAG mit LangGraph (State-of-the-Art)
</b></font> </br></p>


---

In [None]:
#@title 🔧 Umgebung einrichten{ display-mode: "form" }
!uv pip install --system -q git+https://github.com/ralf-42/Python_Modules
from genai_lib.utilities import check_environment, get_ipinfo, setup_api_keys, mprint, install_packages
setup_api_keys(['OPENAI_API_KEY', 'HF_TOKEN'], create_globals=False)
print()
check_environment()
print()
get_ipinfo()
# Bei Bedarf: Trennen zwischen Installationsname () und Importname (für Python) beide Angaben in Klammern
# install_packages([('markitdown[all]', 'markitdown'), 'langchain_chroma', ]

# 1 | Einführung in SQL RAG
---

SQL RAG ist eine Technologie, die Large Language Models (LLMs) mit Datenbankabfragen kombiniert. Diese Version verwendet **LangGraph** - das modernste Framework für Agenten in LangChain 1.0+!

## 🚀 Warum LangGraph?

LangGraph ist die **State-of-the-Art** Lösung für Agent-Workflows:

🎯 **Graph-basierte Workflows**  
- Explizite Kontrolle über jeden Schritt
- Visualisierung des Agent-Flows
- Keine "Black Box" mehr!

🔄 **State Management**  
- Expliziter State zwischen Schritten
- TypedDict für Typsicherheit
- Persistierung möglich

🐛 **Besseres Debugging**  
- Jeder Node ist inspizierbar
- Klare Fehlerbehandlung
- Graph-Visualisierung

⚡ **Streaming Support**  
- Echtzeit-Ausgaben
- Bessere User Experience
- Intermediate Results sichtbar

🔧 **Volle Flexibilität**  
- Komplexe Multi-Agent-Systeme
- Conditional Edges
- Loops und Branches

## Was ist neu in dieser LangGraph-Version?

✅ **StateGraph** - Graph-basierte Agent-Architektur  
✅ **TypedDict State** - Typsichere State-Definition  
✅ **Explizite Nodes** - Schema-Check, SQL-Gen, Execution, Analysis  
✅ **Conditional Edges** - Fehlerbehandlung und Routing  
✅ **Graph-Visualisierung** - Mermaid-Diagramme des Flows  
✅ **Streaming** - Echtzeit-Updates im Interface  
✅ **Checkpoints** - State speichern und fortsetzen

## 📊 Vergleich der Ansätze

| Feature | create_sql_agent (M13b) | LangGraph (M13c) |
|---------|------------------------|------------------|
| Kontrolle | ⚠️ Begrenzt | ✅ Vollständig |
| Debugging | ⚠️ Schwierig | ✅ Visualisierbar |
| State | ❌ Implizit | ✅ Explizit |
| Streaming | ⚠️ Eingeschränkt | ✅ Nativ |
| Visualisierung | ❌ Keine | ✅ Graph |
| Flexibilität | ⚠️ Mittel | ✅ Maximal |

Diese Version zeigt den **modernsten Weg** für SQL RAG in LangChain 1.0+!

<p><font color='black' size="5">
Warum SQL für RAG?
</font></p>



Das Erstellen eines Retrieval-Augmented Generation (RAG)-Systems bringt mehrere Herausforderungen mit sich, aber SQL könnte helfen, diese zu bewältigen:

- **SQL kann helfen, komplexe Daten abzurufen**
    
    Das Abrufen relevanter Informationen aus riesigen und vielfältigen Datensätzen kann komplex sein, insbesondere beim Umgang mit unstrukturierten oder semistrukturierten Datenquellen wie Textdokumenten, Bildern oder Multimedia. Die Integration effizienter Retrieval-Mechanismen, die diese Komplexität bewältigen können, ist eine bedeutende Herausforderung. Die Abfragefunktionen von SQL ermöglichen den effizienten Abruf relevanter Informationen aus diesen Datenquellen. Durch das Generieren von SQL-Abfragen, die auf bestimmte Kriterien zugeschnitten sind, und die Nutzung erweiterter Suchfunktionen kann SQL den Datenabrufprozess optimieren und so die Komplexität des Zugriffs auf verschiedene Datensätze bewältigen.
    
- **SQL kann helfen, Qualitätsdaten abzurufen**
    
    Die Sicherstellung der Qualität und Relevanz der abgerufenen Daten ist entscheidend für die Generierung genauer und sinnvoller Antworten. Verrauschte oder veraltete Daten sowie irrelevante Informationen können die Leistung des RAG-Systems jedoch negativ beeinflussen. Die Entwicklung von Algorithmen zum effektiven Filtern und Ranking abgerufener Daten ist eine Herausforderung. SQL bietet Mechanismen zum Filtern und Ranking abgerufener Daten basierend auf verschiedenen Kriterien wie Zeitstempeln, Kategorien oder Relevanzwerten.
    
- **SQL bietet Skalierbarkeit und Flexibilität**
    
    Da Datensätze an Größe und Komplexität zunehmen, wird Skalierbarkeit zu einer großen Herausforderung für RAG-Systeme. Die Sicherstellung, dass das System mit zunehmenden Datenmengen umgehen kann und gleichzeitig Leistung und Reaktionsfähigkeit aufrechterhält, erfordert ein effizientes Architekturdesign und Optimierungsstrategien. SQL-Datenbanken sind darauf ausgelegt, riesige Mengen strukturierter Daten effizient zu verwalten. Die Integration von SQL in RAG-Systeme adressiert eine der wichtigsten Herausforderungen im Bereich der KI: die Skalierung des Retrieval-Mechanismus zur Handhabung umfangreicher Datensätze, ohne die Leistung zu beeinträchtigen. Darüber hinaus ermöglicht die Flexibilität von SQL bei der Formulierung von Abfragen RAG, komplexe Informationen abzurufen und dabei die Breite und Tiefe der während des Generierungsprozesses berücksichtigten Daten anzupassen.
    
- **SQL hilft beim Abrufen von Echtzeitdaten**
    
    Die Bereitstellung von Echtzeitantworten ist für viele Anwendungen von RAG-Systemen, wie z. B. Chatbots oder virtuelle Assistenten, von entscheidender Bedeutung. Das Erreichen niedriger Latenzzeiten bei gleichzeitiger Aufrechterhaltung der Qualität der generierten Inhalte stellt eine Herausforderung dar, insbesondere in Szenarien mit strengen Latenzanforderungen. Die Optimierungstechniken von SQL, wie z. B. Query-Caching und Indizierung, können die Query-Verarbeitungszeiten erheblich reduzieren und es RAG-Systemen ermöglichen, Echtzeitantworten bereitzustellen.
    


# 2 | Vergleich SQL RAG vs RAG
---

Während sowohl SQL RAG als auch RAG (Retrieval-Augmented Generation) die Fähigkeiten von LLMs erweitern, gibt es wichtige Unterschiede:



| Merkmal         | SQL RAG      | Retrieval-Augmented Generation (RAG)    |
| --------------- | ------------------------------------ | --------------------------------------- |
| Datenquelle     | Strukturierte Datenbanken            | Textdokumente, Wissensbasen             |
| Abfragemethode  | SQL-Generierung                      | Semantische Suche, Embedding-Vergleiche |
| Datenstruktur   | Schema-basiert, tabellarisch         | Unstrukturiert oder semi-strukturiert   |
| Genauigkeit     | Präzise durch Datenbankintegrität    | Abhängig von der Retrieval-Qualität     |
| Anwendungsfälle | Geschäftsanalysen, Berichterstellung | Dokumentensuche, Wissensbasis-Anfragen  |
| Aktualisierung  | In Echtzeit durch aktuelle DB-Daten  | Erfordert Neuindexierung bei Änderungen |



SQL RAG eignet sich besonders für Szenarien, in denen präzise, aktuelle Daten benötigt werden, während RAG Stärken bei der Verarbeitung großer Textmengen hat.



# 3 | Integration LLM und DB
---



Die Integration von LLMs mit Datenbanken erfolgt über mehrere Komponenten:

1. **Schema-Analyse**: Das LLM muss das Datenbankschema verstehen (Tabellen, Spalten, Beziehungen)
2. **Anfrage-Übersetzung**: Umwandlung der natürlichsprachlichen Anfrage in SQL
3. **Abfrage-Ausführung**: Verbindung zur Datenbank und Ausführung der generierten SQL-Abfrage
4. **Ergebnis-Interpretation**: Analyse und Interpretation der Abfrageergebnisse

<img src="https://raw.githubusercontent.com/ralf-42/Image/main/sql_rag_process.png" width="750" alt="Avatar">


In [None]:
# Northwind-Datenbank herunterladen
!rm -rf northwind.db
!curl -L https://raw.githubusercontent.com/ralf-42/GenAI/main/02%20data/northwind.db -o northwind.db

In [None]:
# Grundlegender SQL RAG-Ablauf
from langchain_openai import ChatOpenAI
from langchain_community.utilities import SQLDatabase

# 1. Datenbankverbindung herstellen
db = SQLDatabase.from_uri("sqlite:///northwind.db")

# 2. LLM initialisieren
llm = ChatOpenAI(temperature=0, model="gpt-4o-mini")

In [None]:
# 3. Datenbankschema abrufen
schema = db.get_table_info()
print(schema)

In [None]:
# 4. Natürlichsprachliche Anfrage
user_query = "Wie viele Mitarbeiter haben wir?"

# 5. SQL-Abfrage generieren und ausführen
# (Detaillierte Umsetzung folgt in späteren Abschnitten)

Die Herausforderung liegt in der korrekten Interpretation des Schemas und der präzisen Übersetzung der Anfragen.



# 4 | LangGraph - Grundlagen
---


LangGraph ist ein Framework für **graph-basierte Agent-Workflows**. Statt impliziter Agent-Loops haben Sie explizite Kontrolle über jeden Schritt.



## 4.1 | Kern-Konzepte von LangGraph



1. **State** (TypedDict)
Der State enthält alle Informationen zwischen den Nodes:

```python
from typing import TypedDict, Annotated
from langgraph.graph import add_messages

class SQLAgentState(TypedDict):
    messages: Annotated[list, add_messages]  # Chat-Historie
    query: str                                # User-Anfrage
    schema: str                               # DB-Schema
    sql_query: str                            # Generierte SQL
    results: str                              # Query-Ergebnisse
    error: str | None                         # Fehler (falls vorhanden)
```

2. **Nodes** (Funktionen)
Nodes sind Funktionen, die den State transformieren:

```python
def generate_sql_node(state: SQLAgentState) -> SQLAgentState:
    # Logik hier
    return {"sql_query": generated_sql}
```

3. **Edges** (Verbindungen)
Edges verbinden Nodes - können conditional sein:

```python
# Normale Edge
graph.add_edge("generate_sql", "execute_query")

# Conditional Edge
graph.add_conditional_edges(
    "execute_query",
    lambda state: "error" if state.get("error") else "success",
    {"error": "error_handler", "success": "analyze"}
)
```

4. **Graph** (StateGraph)
Der Graph orchestriert alles:

```python
from langgraph.graph import StateGraph, END

workflow = StateGraph(SQLAgentState)
workflow.add_node("generate_sql", generate_sql_node)
workflow.add_node("execute_query", execute_query_node)
workflow.add_edge("generate_sql", "execute_query")
workflow.add_edge("execute_query", END)

app = workflow.compile()
```

## 4.2 | SQL RAG Graph-Struktur



Unser SQL RAG Graph hat folgende Nodes:

```
START
  ↓
[check_schema] → Lädt DB-Schema
  ↓
[generate_sql] → LLM generiert SQL
  ↓
[execute_query] → Führt SQL aus
  ↓ (bei Fehler)      ↓ (bei Erfolg)
[error_handler]     [analyze_results]
  ↓                   ↓
  ← (retry) ────────→ END
```


In [None]:
# ✅ LANGGRAPH: Imports für State-of-the-Art SQL RAG
from typing import TypedDict, Annotated
from langchain_openai import ChatOpenAI
from langchain_community.utilities import SQLDatabase
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough

# LangGraph Imports
from langgraph.graph import StateGraph, END, START
from langgraph.graph.message import add_messages
from langgraph.checkpoint.memory import MemorySaver  # Für State-Persistierung

In [None]:
# ========================================
# STATE DEFINITION (TypedDict)
# ========================================

class SQLAgentState(TypedDict):
    """State für SQL RAG Agent mit LangGraph."""
    query: str                    # User-Anfrage
    schema: str | None           # DB-Schema
    sql_query: str | None        # Generierte SQL
    results: str | None          # Query-Ergebnisse
    analysis: str | None         # LLM-Analyse der Ergebnisse
    error: str | None            # Fehler (falls vorhanden)
    retry_count: int             # Anzahl der Retry-Versuche

print("✅ SQLAgentState definiert!")

In [None]:
# ========================================
# NODE 1: SCHEMA CHECK
# ========================================

def check_schema_node(state: SQLAgentState) -> dict:
    """Lädt das Datenbankschema."""
    print("🔍 Node: check_schema")
    schema = db.get_table_info()
    return {"schema": schema}

print("✅ check_schema_node definiert!")

In [None]:
# ========================================
# NODE 2: GENERATE SQL
# ========================================

# SQL-Prompt
sql_prompt = ChatPromptTemplate.from_messages([
    ("system", """Du bist ein SQL-Experte. Generiere eine SQLite-Abfrage.

WICHTIG: Schreibe NUR die reine SQL-Abfrage.
KEINE Markdown-Formatierung, KEINE Code-Blöcke.

Datenbank-Schema:
{schema}"""),
    ("human", "{query}")
])

sql_chain = sql_prompt | llm | StrOutputParser()

def generate_sql_node(state: SQLAgentState) -> dict:
    """Generiert SQL-Abfrage mit LLM."""
    print("🤖 Node: generate_sql")

    sql_query = sql_chain.invoke({
        "schema": state["schema"],
        "query": state["query"]
    })

    # Bereinigung (falls nötig)
    if "```" in sql_query:
        import re
        sql_query = re.sub(r'```sql\s*(.*?)\s*```', r'\1', sql_query, flags=re.DOTALL)
        sql_query = sql_query.replace("```", "").strip()

    print(f"   Generated: {sql_query[:50]}...")
    return {"sql_query": sql_query, "error": None}

print("✅ generate_sql_node definiert!")

In [None]:
# ========================================
# NODE 3: EXECUTE QUERY
# ========================================

def execute_query_node(state: SQLAgentState) -> dict:
    """Führt SQL-Abfrage aus."""
    print("⚡ Node: execute_query")

    try:
        results = db.run(state["sql_query"])

        if not results or results.strip() == "":
            return {"results": "Keine Ergebnisse gefunden.", "error": None}

        print(f"   Results: {results[:50]}...")
        return {"results": results, "error": None}

    except Exception as e:
        error_msg = f"SQL-Fehler: {str(e)}"
        print(f"   ❌ {error_msg}")
        return {"error": error_msg, "results": None}

print("✅ execute_query_node definiert!")

In [None]:
# ========================================
# NODE 4: ANALYZE RESULTS
# ========================================

analysis_prompt = ChatPromptTemplate.from_messages([
    ("system", "Du bist ein Business-Analyst. Interpretiere SQL-Ergebnisse verständlich."),
    ("human", """Benutzeranfrage: {query}
SQL-Abfrage: {sql_query}
Ergebnisse: {results}

Deine Analyse:""")
])

analysis_chain = analysis_prompt | llm | StrOutputParser()

def analyze_results_node(state: SQLAgentState) -> dict:
    """Analysiert Abfrageergebnisse mit LLM."""
    print("📊 Node: analyze_results")

    analysis = analysis_chain.invoke({
        "query": state["query"],
        "sql_query": state["sql_query"],
        "results": state["results"]
    })

    print(f"   Analysis: {analysis[:50]}...")
    return {"analysis": analysis}

print("✅ analyze_results_node definiert!")

In [None]:
# ========================================
# NODE 5: ERROR HANDLER
# ========================================

def error_handler_node(state: SQLAgentState) -> dict:
    """Behandelt Fehler und entscheidet über Retry."""
    print("❌ Node: error_handler")

    retry_count = state.get("retry_count", 0) + 1
    max_retries = 2

    if retry_count >= max_retries:
        # Zu viele Versuche → Abbrechen
        analysis = f"⚠️ Fehler nach {max_retries} Versuchen:\n{state['error']}"
        return {"analysis": analysis, "retry_count": retry_count}

    # Retry → SQL neu generieren
    print(f"   🔄 Retry {retry_count}/{max_retries}")
    return {"retry_count": retry_count, "error": None}

print("✅ error_handler_node definiert!")

# 5 | LangGraph Lösung
---

## 5.1 | StateGraph erstellen



Der StateGraph verbindet alle Nodes zu einem Workflow:

```
START
  ↓
check_schema
  ↓
generate_sql
  ↓
execute_query
  ↓         ↓
  ↓ (error)  ↓ (success)
  ↓         ↓
error_handler → (retry) → generate_sql
  ↓                    ↓
  ↓                analyze_results
  ↓                    ↓
  └──────────→ END ←───┘
```



## 5.2 | Conditional Edges



Conditional Edges entscheiden dynamisch basierend auf dem State:

- Nach `execute_query`: Fehler → error_handler | Erfolg → analyze_results
- Nach `error_handler`: Retry → generate_sql | Max → END

## 5.3 | SQL RAG-Beispiels


Das Beispiel demonstriert eine vollständige SQL RAG-Anwendung mit folgenden Komponenten:

1. **Datenbankintegration**: Northwind-Datenbank über SQLite
2. **LLM-Anbindung**: Verwendung des ChatOpenAI-Modells von OpenAI
3. **SQL-Generierungs-Chain**: Umwandlung natürlicher Sprache in SQL
4. **Abfrageausführung**: Sichere Ausführung und Formatierung der Ergebnisse
5. **Ergebnisanalyse**: Intelligente Interpretation der Daten
6. **Benutzeroberfläche**: Gradio-basiertes Chatinterface für einfache Interaktion

Die Anwendung zeigt den vollständigen Workflow von SQL RAG:

1. Der Benutzer stellt eine Frage in natürlicher Sprache
2. Das LLM generiert eine passende SQL-Abfrage
3. Die Abfrage wird ausgeführt und die Ergebnisse formatiert
4. Ein zweiter LLM-Aufruf analysiert und interpretiert die Ergebnisse
5. Die formatierte Antwort wird dem Benutzer präsentiert

Diese Implementierung demonstriert, wie SQL RAG komplexe Datenanalysen für Benutzer ohne SQL-Kenntnisse zugänglich macht und gleichzeitig präzise, datenbasierte Antworten liefert.



[DatenbankSchema](https://upload.wikimedia.org/wikiversity/en/a/ac/Northwind_E-R_Diagram.png)



[Datenbankbeschreibung](https://techwriter.me/downloads/samples/Database/Access2003Northwind.pdf)

<p><font color='black' size="5">
Installation und API-Keys
</font></p>

<p><font color='black' size="5">
Datenbank kopieren
</font></p>

In [None]:
# Northwind-Datenbank herunterladen
!rm -rf northwind.db
!curl -L https://raw.githubusercontent.com/ralf-42/GenAI/main/02%20data/northwind.db -o northwind.db

<p><font color='black' size="5">
Programm
</font></p>

In [None]:
# ========================================
# GRAPH ERSTELLEN
# ========================================

# StateGraph initialisieren
workflow = StateGraph(SQLAgentState)

# Nodes hinzufügen
workflow.add_node("check_schema", check_schema_node)
workflow.add_node("generate_sql", generate_sql_node)
workflow.add_node("execute_query", execute_query_node)
workflow.add_node("analyze_results", analyze_results_node)
workflow.add_node("error_handler", error_handler_node)

# Normale Edges
workflow.add_edge(START, "check_schema")
workflow.add_edge("check_schema", "generate_sql")
workflow.add_edge("generate_sql", "execute_query")

# Conditional Edge: Nach execute_query
def route_after_execution(state: SQLAgentState) -> str:
    """Routing nach Query-Ausführung."""
    if state.get("error"):
        return "error_handler"
    return "analyze_results"

workflow.add_conditional_edges(
    "execute_query",
    route_after_execution,
    {"error_handler": "error_handler", "analyze_results": "analyze_results"}
)

# Conditional Edge: Nach error_handler
def route_after_error(state: SQLAgentState) -> str:
    """Routing nach Fehlerbehandlung."""
    if state.get("analysis"):  # Max retries erreicht
        return END
    return "generate_sql"  # Retry

workflow.add_conditional_edges(
    "error_handler",
    route_after_error,
    {"generate_sql": "generate_sql", END: END}
)

# Ende
workflow.add_edge("analyze_results", END)

# Graph kompilieren
app = workflow.compile()

print("✅ LangGraph kompiliert!")

In [None]:
DB_PATH = "/content/northwind.db"
DB_URI = f"sqlite:///{DB_PATH}"

# LLM und DB initialisieren
llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)
db = SQLDatabase.from_uri(DB_URI)

print("✅ LLM und DB initialisiert!")

In [None]:
# ========================================
# GRAPH VISUALISIERUNG
# ========================================

from IPython.display import Image, display

# Graph als Mermaid visualisieren
try:
    display(Image(app.get_graph().draw_mermaid_png()))
    print("✅ Graph visualisiert!")
except Exception as e:
    print(f"⚠️ Visualisierung nicht verfügbar: {e}")
    print("\nGraph-Struktur:")
    print(app.get_graph().to_json())

In [None]:
# ========================================
# GRAPH TESTEN
# ========================================

# Test: Einfache Anfrage
test_state = {
    "query": "Wie viele Mitarbeiter haben wir?",
    "schema": None,
    "sql_query": None,
    "results": None,
    "analysis": None,
    "error": None,
    "retry_count": 0
}

# Graph ausführen
result = app.invoke(test_state)

print("\n" + "="*50)
print("ERGEBNIS:")
print("="*50)
print(f"Query: {result['query']}")
print(f"SQL: {result['sql_query']}")
print(f"Results: {result['results'][:100]}...")
print(f"Analysis: {result['analysis'][:200]}...")
print("="*50)

In [None]:
# ========================================
# GRADIO-INTERFACE MIT STREAMING
# ========================================

import gradio as gr

def langgraph_chatbot(message, chat_history):
    """Chatbot mit LangGraph und Streaming."""
    try:
        # Initial State
        initial_state = {
            "query": message,
            "schema": None,
            "sql_query": None,
            "results": None,
            "analysis": None,
            "error": None,
            "retry_count": 0
        }

        # Graph ausführen
        result = app.invoke(initial_state)

        # Formatierte Antwort
        response = f"""### 🤖 LangGraph SQL RAG

**Deine Anfrage:**
{result['query']}

**Generierte SQL:**
```sql
{result['sql_query']}
```

**Ergebnisse:**
{result['results']}

**Analyse:**
{result['analysis']}

---
*Powered by Claude Code & LangGraph - State-of-the-Art Agent Framework*
"""
        return response

    except Exception as e:
        return f"❌ Fehler: {str(e)}"

print("✅ Chatbot-Funktion erstellt!")

In [None]:
# Funktion zur SQL Abfrage
def execute_query(sql_query: str) -> str:
    """Führt eine SQL-Abfrage aus und gibt die Ergebnisse zurück."""
    try:
        # LangChain's eingebaute Methode verwenden!
        result = db.run(sql_query)

        # Keine Ergebnisse
        if not result or result.strip() == "":
            return "Keine Ergebnisse gefunden."

        return result

    except Exception as e:
        return f"Fehler bei der Ausführung der Abfrage: {str(e)}\nAbfrage: {sql_query}"


In [None]:
# Funtkion zur Analyse des Ergebnisses der Datenbank-Abfrage
def analyze_results(query, sql_query, results):
    """Analysiert die Ergebnisse und gibt eine natürlichsprachliche Antwort zurück."""
    analysis_chain = analysis_prompt | llm | parser

    return analysis_chain.invoke({
        "query": query,
        "sql_query": sql_query,
        "results": results
    })

# ✅ Funktion für das Gradio Interface
    """Verarbeitet Benutzeranfragen, erstellt SQL und gibt formatierte Ergebnisse mit Analyse zurück."""
    try:
        # SQL-Abfrage mit LLM generieren
        sql_query = sql_generator.invoke({"query": mesSQL})

        # Nur als Fallback: Markdown-Bereinigung
        if "```" in sql_query:
            sql_query = re.sub(r'```sql\s*(.*?)\s*```', r'\1', sql_query, flags=re.DOTALL)
            sql_query = sql_query.replace("```", "").strip()

        # Debug-Ausgabe
        print(f"Generierte SQL: {sql_query}")

        # Abfrage Datenbank
        results = execute_query(sql_query)

        # Analysiere die Ergebnisse für komplexe Fragen
        analysis = analyze_results(mesSQL, sql_query, results)

        # Antwort formatieren
        response = f"""### Deine Anfrage
{mesSQL}

### SQL-Abfrage
```sql
{sql_query}
```

### Ergebnisse
{results}

### Analyse
{analysis}"""

        return response

    except Exception as e:
        return f"Ein Fehler ist aufgetreten: {str(e)}"

In [None]:
# Beispielfragen für LangGraph Demo
example_questions = [
    "Wie viele Mitarbeiter haben wir?",
    "Welche Produkte sind aktuell nicht auf Lager? Zeige die Top 3.",
    "Welche Bestellung hatte den höchsten Gesamtwert? Nenne Kunde und Land.",
    "Aus welchen Ländern stammen die meisten Kunden?",
    "Zeige mir die durchschnittliche Bestellmenge pro Kategorie."
]

print("✅ Beispielfragen definiert!")

In [None]:
# Gradio Interface
demo = gr.ChatInterface(
    fn=langgraph_chatbot,
    title="🚀 SQL RAG mit LangGraph (State-of-the-Art)",
    description="""
**Moderne Graph-basierte SQL RAG Architektur**

Dieses System verwendet **LangGraph** - das modernste Agent-Framework:
- 🎯 **Explizite Kontrolle** über jeden Node
- 🔄 **State Management** mit TypedDict
- 🐛 **Visualisierbar** und debugbar
- ⚡ **Fehlerkorrektur** mit Retry-Logic
- 📊 **Conditional Edges** für dynamisches Routing

*Powered by LangChain 1.0+ und LangGraph*
""",
    examples=example_questions,
)

print("✅ Gradio-Interface erstellt!")

<p><font color='black' size="5">
Starten der App
</font></p>

**Beispiel-Fragen:**



+ Gib die Artikelliste für die Bestellung 11031 mit Einzelpreis und Gesamtpreis aus, wobei sich der Gesamtpreis aus der Anzahl und dem Einzelpreis ergibt.
+ Welcher Mitarbeiter ist für die Bestellung mit der Nummer 10266 zuständig?
+ Über welche Versandfirma wurde die Bestellung 10266 ausgeliefert?
+ Sind alle Artikel der Bestellung der Rattlesnake Canyon Grocery vom 1998-05-06 in ausreichender Anzahl auf Lager?
+ Welche Kunden haben schon Artikel der Firma 'Escargots Nouveaux' gekauft?




In [None]:
# App starten
demo.launch()


# 6 | Validierung und Sicherheit
---



Die Sicherheit ist bei der Arbeit mit datenbankgesteuerten Anwendungen von entscheidender Bedeutung. SQL RAG-Implementierungen müssen folgende Sicherheitsaspekte berücksichtigen:

1. **SQL-Injection-Prävention**:
    
    - Validierung und Bereinigung generierter SQL-Abfragen
    - Verwendung von parametrisierten Abfragen
    - Beschränkung der SQL-Befehle (z.B. nur SELECT-Anweisungen zulassen)
2. **Zugriffskontrolle**:
    
    - Verwendung von Datenbanknutzern mit eingeschränkten Rechten
    - Zugriffsbeschränkungen auf bestimmte Tabellen oder Ansichten
    - Implementierung von Row-Level-Security
3. **Datenvalidierung**:
    
    - Überprüfung der generierten SQL-Abfragen auf verdächtige Muster
    - Begrenzung der Abfragekomplexität und -länge
    - Timeouts für lang laufende Abfragen


In [None]:
# Prüft Synthax und Zulässigkeit
def validate_sql_query(sql_query):
    """Validiert eine SQL-Abfrage auf potenziell gefährliche Muster."""

    # Nur SELECT-Anweisungen erlauben
    if not sql_query.strip().upper().startswith("SELECT"):
        return False, "Nur SELECT-Anweisungen sind erlaubt."

    # Keine gefährlichen SQL-Befehle erlauben
    dangerous_commands = ["DROP", "DELETE", "TRUNCATE", "UPDATE", "INSERT", "ALTER"]
    for command in dangerous_commands:
        if f" {command} " in sql_query.upper():
            return False, f"Unerlaubter SQL-Befehl: {command}"

    # Weitere Validierungsregeln...

    return True, "SQL-Abfrage ist gültig."

# Verwendung
is_valid, mesSQL = validate_sql_query(sql_query)
is_valid, mesSQL

Eine gründliche Validierung vor der Ausführung ist entscheidend für die Sicherheit der Anwendung.


# 7 | Praktische Anwendungsfälle
---

SQL RAG eignet sich für zahlreiche praktische Anwendungsfälle:

1. **Business Intelligence Dashboards**:
    
    - Natürlichsprachliche Abfragen für Geschäftskennzahlen
    - Dynamische Berichte basierend auf Benutzeranfragen
    - Trends und Anomalien in Daten identifizieren
2. **Datenanalyse für Nicht-Techniker**:
    
    - Ermöglicht Benutzern ohne SQL-Kenntnisse, komplexe Datenabfragen durchzuführen
    - Vereinfacht den Zugang zu Unternehmensdaten
3. **Automatisierte Berichterstellung**:
    
    - Generierung regelmäßiger Berichte basierend auf Datenabfragen
    - Intelligente Zusammenfassung und Interpretation von Geschäftsdaten
4. **Kundenservice-Anwendungen**:
    
    - Schneller Zugriff auf Kundendaten für Support-Mitarbeiter
    - Automatisierte Beantwortung häufiger Kundenanfragen
5. **Interne Wissensmanagement-Systeme**:
    
    - Intelligente Suche in Unternehmensdaten
    - Verknüpfung verschiedener Datenquellen für umfassende Antworten

Durch die Kombination von LLMs mit Datenbankabfragen kann SQL RAG komplexe Analyseaufgaben automatisieren und den Zugang zu Daten demokratisieren.



# A | Aufgabe
---

Die Aufgabestellungen unten bieten Anregungen, Sie können aber auch gerne eine andere Herausforderung angehen.

Angenommen, es wird für ein kleines Unternehmen gearbeitet, das eine Kundendatenbank verwaltet. Ziel ist es, eine generative KI einzusetzen, um Anfragen in natürlicher Sprache zu verstehen und relevante Informationen aus der Datenbank abzurufen.  

**Datenbankstruktur (SQLite-Format)**  
Die Kundendatenbank enthält eine Tabelle `customers.db` mit den folgenden Spalten:  

| id | name  | city    | purchases |
|----|-------|--------|-----------|
| 1  | Alice  | Berlin  | 5         |
| 2  | Bob    | Hamburg | 2         |
| 3  | Carol  | München | 7         |
| 4  | David  | Köln    | 3         |



**Aufgabenstellung**  
1. **Abfrage erstellen**, um die Anzahl der Einkäufe (`purchases`) eines bestimmten Kunden anhand seines Namens abzurufen.  
2. **Python-Funktion entwickeln**, die eine GPT-API nutzt, um natürliche Sprachabfragen in SQL-Abfragen zu übersetzen.  
3. **Funktion testen**, indem eine Frage wie *„Wie viele Einkäufe hat Alice gemacht?“* gestellt wird, woraufhin das System automatisch die entsprechende SQL-Abfrage generiert.  

