# RAG mit Langchain

## Einführung

Im folgenden wird eine RAG für die Magpie gebaut. Ziel ist es, einen Chatbot zu genieren, der Fragen in natürlicher Sprache aufnimmt, diese in passende SQL-Abfragen umwandelt. Diese werden wiederum dem hinter dem Chatbot stehenden LMM als Kontext übermittelt, sodass dieser wiederum in natürlicher Sprache antworten kann. 

In [1]:
import os

# Aktuelles Arbeitsverzeichnis ermitteln
os.getcwd()
os.chdir("c:/Users/Hueck/OneDrive/Dokumente/GitHub/magpie_langchain")

## Laden der Magpie

Wir laden weiterhin die Magpie und stellen eine Verbindung zu ihr her:

In [2]:
import duckdb

conn = duckdb.connect("data/magpie.db")
cursor = conn.cursor()
#conn.close() 

## Exploration der Magpie

Zu exploration wählen wir den Datensatz `datensatz_drittmittel_hochschule` und wandeln diesen in einen pandas-dataframe um:

In [3]:
import pandas as pd

# Tabelle 'datensatz_fue_erhebung' in ein Pandas-DataFrame laden
query = "SELECT * FROM datensatz_drittmittel_hochschule;"
df = pd.read_sql(query, conn)  #! conn ist die Verbindung zu deiner DuckDB 
# DataFrame anzeigen
print(df)
conn.close()

  df = pd.read_sql(query, conn)  #! conn ist die Verbindung zu deiner DuckDB


       jahr      id                 Variable       Zeit  \
0      2006   30746     Drittmittel vom Bund 2006-01-01   
1      2007   30747     Drittmittel vom Bund 2007-01-01   
2      2008   30748     Drittmittel vom Bund 2008-01-01   
3      2010   30750     Drittmittel vom Bund 2010-01-01   
4      2011   30751     Drittmittel vom Bund 2011-01-01   
...     ...     ...                      ...        ...   
87855  2021  118392  Drittmittel von der DFG 2021-01-01   
87856  2021  118406  Drittmittel von der DFG 2021-01-01   
87857  2021  118418  Drittmittel von der DFG 2021-01-01   
87858  2021  118475  Drittmittel von der DFG 2021-01-01   
87859  2021  118595  Drittmittel von der DFG 2021-01-01   

                                              Hochschule     Wert  \
0                                     Universität Kassel   3966.0   
1                                     Universität Kassel   6274.0   
2                                     Universität Kassel   5980.0   
3              

## Laden von llama3.1 über Ollama

In einem Schritt wird über Ollama das LLM `llama3.1` geladen:

In [4]:
from langchain_ollama import ChatOllama
import re

llm = ChatOllama(
    model="llama3.1:8b-instruct-q4_0",
    temperature=0,
    server_url="http://127.0.0.1:11434",
)

Im Folgenden wird zunächst die `SQLDatabase`-Klasse aus dem Modul `langchain_community.utilities` importiert. Anschließend wird mit `SQLDatabase.from_uri("duckdb:///data/drittmittel_hs.db")` eine Verbindung zur DuckDB-Datenbank namens `drittmittel_hs.db` im Verzeichnis `data` aufgebaut.

In [6]:
from langchain_community.utilities import SQLDatabase
db = SQLDatabase.from_uri("duckdb:///data/drittmittel_hs.db")



Die Funktion `get_sql_chain(llm, db, table_info, top_k=10)` erstellt eine SQL-Query-Kette, die basierend auf einer Benutzereingabe SQL-Abfragen generiert. Der Parameter `llm` steht für ein Sprachmodell (hier `llama3.1:8b-instruct-q4_0`), das zur Erstellung der SQL-Abfragen verwendet wird. Das Datenbankobjekt `db` liefert Informationen über die Datenbank, einschließlich Tabellen und deren Schema. `table_info` enthält detaillierte Informationen zu den Tabellen, wie Spalten und Datentypen. Der Parameter `top_k` gibt die maximale Anzahl der zurückzugebenden Zeilen an, wobei der Standardwert 10 ist. Im ersten Schritt wird ein `PromptTemplate` definiert, der Anweisungen für das Sprachmodell enthält, um valide SQL-Abfragen zu generieren. Anschließend wird mit diesem Template die SQL-Query-Kette erstellt, die von anderen Funktionen genutzt werden kann.

In [19]:
from langchain_core.prompts import PromptTemplate
from langchain_core.runnables import RunnablePassthrough
from operator import itemgetter
from langchain_community.tools.sql_database.tool import QuerySQLDataBaseTool
from langchain_core.output_parsers import StrOutputParser
from langchain.chains import create_sql_query_chain


def get_sql_chain(llm, db, table_info, top_k=10):

    # * |||||||||||||||||||||||||||||||||||||||||||||
    # * Comment: In einem ersten Schritt wir das Objekt
    # * `template` erzeugt. Es leitet das LLM an, aus 
    # * der Anfrage des Nutzer ()
    # * |||||||||||||||||||||||||||||||||||||||||||||
    
    template = f"""Given an input question, first create a syntactically
    correct SQL query to run in {db.dialect}, then look at the results of the
    query and return the answer to the input question. You can order the
    results to return the most informative data in the database.
    
    Unless otherwise specified, do not return more than {{top_k}} rows.

    Never query for all columns from a table. You must query only the
    columns that are needed to answer the question. Wrap each column name
    in double quotes (") to denote them as delimited identifiers.

    Pay attention to use only the column names present in the tables
    below. Be careful to not query for columns that do not exist. Also, pay
    attention to which column is in which table. Query only the columns you
    need to answer the question.

    Please carefully think before you answer.

    Here is the schema for the database:
    {{table_info}}

    Return only the SQL query such that your response could be copied
    verbatim into the SQL terminal.
    """

    prompt = PromptTemplate.from_template(template)

    sql_chain = create_sql_query_chain(llm, db, prompt)

    return sql_chain

In [23]:
db.dialect

'duckdb'

## Funktion `natural_language_chain`

Die Funktion `natural_language_chain` dient dazu, eine natürliche Sprachfrage eines Benutzers in eine SQL-Abfrage zu übersetzen, diese Abfrage auf einer Datenbank auszuführen und anschließend das Ergebnis in einer klar verständlichen Sprache zu präsentieren. Die Funktion funktioniert wie folgt:

Zunächst wird mit `db.get_table_info()` die Struktur der Datenbank abgefragt, um Informationen über Tabellen, Spalten und Datentypen zu erhalten. Diese Daten sind essenziell, damit die SQL-Abfrage später korrekt formuliert werden kann und mit der Datenbankstruktur kompatibel ist.

Anschließend wird eine sogenannte SQL-Abfrage-Kette (`sql_chain`) generiert. Dabei wird ein Large Language Model (LLM) verwendet, das die Benutzerfrage analysiert und auf Basis der Tabelleninformationen eine präzise SQL-Abfrage erstellt. Die Funktion `get_sql_chain` kümmert sich hierbei um die Übersetzung von natürlicher Sprache in eine SQL-Abfrage.

Ein wichtiges Element der Funktion ist das definierte Template, das den Rahmen für die Antwort vorgibt. Dieses Template beschreibt den Kontext, dass der Chatbot „Sparklehorse“ heißt und für den „Stifterverband für die Deutsche Wissenschaft“ entwickelt wurde. Es legt fest, wie die SQL-Abfrage, die Benutzerfrage und das SQL-Ergebnis kombiniert werden, um eine passende Antwort zu generieren.

Bevor die eigentliche Kette ausgeführt wird, wird eine Zwischenschritt-Kette (`intermediate_chain`) erstellt. Diese extrahiert zunächst nur die SQL-Abfrage aus der generierten SQL-Abfrage-Kette. Der resultierende SQL-String wird für Debugging-Zwecke ausgegeben, damit die generierte SQL-Abfrage überprüft werden kann.

Die vollständige Verarbeitung erfolgt über eine kombinierte Kette, die mehrere Schritte umfasst:
1. Die SQL-Abfrage wird ausgeführt, und das Ergebnis aus der Datenbank wird zurückgegeben.
2. Dieses Ergebnis wird zusammen mit der ursprünglichen Benutzerfrage und der SQL-Abfrage in das definierte Template eingefügt.
3. Das LLM nutzt das Template, um eine verständliche Antwort in natürlicher Sprache zu formulieren.

Am Ende wird die fertige Antwort, die auf der ursprünglichen Frage, der SQL-Abfrage und dem Datenbankergebnis basiert, dem Benutzer präsentiert. Die Funktion gibt diese Antwort auch zurück, sodass sie in weiteren Prozessen verwendet werden kann.

Zusammengefasst kombiniert die Funktion die Stärken eines LLM mit der Datenbankabfrage, um eine präzise, verständliche und kontextsensitive Antwort auf eine natürliche Sprachfrage zu liefern.


In [None]:
def natural_language_chain(question, llm, db):

    # * |||||||||||||||||||||||||||||||||||||||||||||
    # * Comment: Es wird mit db.get_table_info() in-
    # * formation über die db (magpie) abgerufen.
    # * |||||||||||||||||||||||||||||||||||||||||||||

    table_info = db.get_table_info()
    sql_chain = get_sql_chain(llm, db, table_info=table_info)

    template = f"""
        You are a chatbot named >>Sparklehorse<< created by the 
        >>Stifterverband für die Deutsche Wissenschaft<<. Based on the table schema given below, the SQL query and the SQL response, enter an answer
        that corresponds to the language of the user's question. Think carefully and make sure that your answer is precise and easy to understand.

        SQL Query: {{query}}
        User question: {{question}}
        SQL Response: {{response}}
        """

    prompt = PromptTemplate.from_template(template)

    # Create the intermediate chain to extract SQL query
    intermediate_chain = RunnablePassthrough.assign(query=sql_chain)

    # Get the SQL query
    intermediate_result = intermediate_chain.invoke({"question": question})
    sql_query = intermediate_result["query"]

    # Debug: Print the SQL query
    print("Generated SQL Query for Debugging:")
    print(sql_query)

    # Continue with the full chain execution
    chain = (
        intermediate_chain.assign(
            response=itemgetter("query") | QuerySQLDataBaseTool(db=db)
        )
        | prompt
        | llm
        | StrOutputParser()
    )

    response = chain.invoke({"question": question})

    print(response)

    return response

In [22]:
_ = natural_language_chain('Wie hoch waren die "Drittmittel von Gemeinden und Zweckverbänden" der Universität Kassel im Jahr 2008?', llm, db)

Generated SQL Query for Debugging:
SELECT "Wert"
FROM datensatz_drittmittel_hochschule
WHERE "Variable" = 'Drittmittel von Gemeinden und Zweckverbänden'
AND "Hochschule" = 'Universität Kassel'
AND jahr = 2008;
Die Drittmittel von Gemeinden und Zweckverbänden der Universität Kassel beliefen sich im Jahr 2008 auf 108.000 Euro.


In [None]:
_ = natural_language_chain('Was ist der Stifterverband?', llm, db)
