# 🧠 Routing e Query su Database (LangChain + Postgres)

## 📦 Obiettivi

* Integrazione del **vector store** con **PostgreSQL**.
* Costruzione di una **catena ibrida** che combina RAG con query SQL.
* Introduzione al **routing** (in arrivo nel prossimo video).

---

## ⚙️ Setup Iniziale

### ▶️ Avvio del database

Assicurati che Postgres sia attivo:

```bash
docker compose up
```

### 📦 Database Postgres per due usi:

* Come **vector store** (via PGVector)
* Come **tabella SQL** per query strutturate

In [1]:
from langchain_community.vectorstores.pgvector import PGVector
from langchain_core.prompts import ChatPromptTemplate 
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain_community.document_loaders.text import TextLoader
from langchain_core.output_parsers import StrOutputParser
from langchain.text_splitter import RecursiveCharacterTextSplitter
from dotenv import load_dotenv
load_dotenv()

True

---

## 📄 Ingestione dei Documenti nel Vector Store

### 🧹 Pulizia tabelle precedenti

```bash
python clear_tables.py
```

### 🗂️ File utilizzati:

* `founder.txt`
* `restaurant.txt`

> 🔥 Evitiamo `food.txt` perché contiene **dati tabellari** che non sono adatti al vector store.

### 🧱 Creazione del vector store:

```python
vectorstore = PGVector(
    collection_name="vector_db",
    connection_string=db_url,
    embedding=my_embeddings,
)
```

### 📖 Chunking & Inserimento

* Carichiamo i file `.txt`
* Splittiamo i contenuti in chunk
* Li aggiungiamo al vector store
* Convertiamo il tutto in un **retriever**


In [5]:
DATABASE_URL = "postgresql+psycopg2://admin:admin@localhost:5432/vectordb"

embeddings = OpenAIEmbeddings()

store = PGVector(
    collection_name="vectordb",
    connection_string=DATABASE_URL,
    embedding_function=embeddings
)


# il file food.txt è un file contenente un tabella con le portarte e i loro prezzi
# si tratta quindi di qualcosa che non vogliamo nel vector store
loader1 = TextLoader("./data/restaurant.txt")
loader2 = TextLoader("./data/founder.txt")

docs1 = loader1.load()
docs2 = loader2.load()

docs = docs1 + docs2
docs # 2 Document in un a lista

  store = PGVector(


[Document(metadata={'source': './data/restaurant.txt'}, page_content="In the charming streets of Palermo, tucked away in a quaint alley, stood Chef Amico, a restaurant that was more than a mere eateryâ€”it was a slice of Sicilian heaven. Founded by Amico, a chef whose name was synonymous with passion and creativity, the restaurant was a mosaic of his lifeâ€™s journey through the flavors of Italy.\n\nChef Amicoâ€™s doors opened to a world where the aromas of garlic and olive oil were as welcoming as a warm embrace. The walls, adorned with photos of Amicoâ€™s travels and family recipes, spoke of a rich culinary heritage. The chatter and laughter of patrons filled the air, creating a symphony as delightful as the dishes served.\n\nOne evening, as the sun cast a golden glow over the city, a renowned food critic, Elena Rossi, stepped into Chef Amico. Her mission was to uncover the secret behind the restaurant's growing fame. She was greeted by Amico himself, whose eyes sparkled with the joy

In [6]:
splitter = RecursiveCharacterTextSplitter(chunk_size=250, chunk_overlap=20)

chunks = splitter.split_documents(docs)

store.add_documents(chunks)

retriever = store.as_retriever()


---

## 🔗 Creazione Catena RAG

### ❗Input: dizionario con chiave `question`

```python
input = {
  "question": "Chi è il proprietario del ristorante?"
}
```

* Usiamo `RunnableLambda` o `itemgetter("question")` per estrarre la domanda
* La domanda viene passata al retriever
* Output: contesto rilevante
* Costruzione prompt + parsing risposta finale

In [7]:
from operator import itemgetter

template = """Answer the question based only on the following context:
{context}

Question: {question}
"""

prompt = ChatPromptTemplate.from_template(template)

model = ChatOpenAI()

rag_chain = (
    {
        "context": itemgetter("question") | retriever,
        "question": itemgetter("question")
    }
    | prompt
    | model
    | StrOutputParser()
)

prompt

ChatPromptTemplate(input_variables=['context', 'question'], input_types={}, partial_variables={}, messages=[HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['context', 'question'], input_types={}, partial_variables={}, template='Answer the question based only on the following context:\n{context}\n\nQuestion: {question}\n'), additional_kwargs={})])

In [8]:
rag_chain.invoke({"question": "Who is the owner of the restaurant?"})

'Chef Amico'

Ora scriviamo l'integrazione con SQL. 

Ovvero vogliamo un LLM che generi query SQL per interrogare il database SQL.

Per farlo dobbiamo definire un nuovo template per far si che il modello scriva una query SQL che risponda alla domanda dell'utente.

Per questo dobbiamo fornire uno `schema` il quale fornisce alcune informazioni sul database all'LLM.

---

## 🧮 Query SQL Generate via LLM

### 🧠 Prompt per generare SQL

```text
Given the following table schema:

{{schema}}

Write a SQL query that answers the user's question:

{{question}}
```

### 🛠️ Classe SQLDatabase di LangChain

```python
from langchain.sql_database import SQLDatabase

db = SQLDatabase.from_uri(db_url)
```

### 📚 Funzione `get_schema()`

Restituisce le informazioni sullo schema con:

```python
db.get_table_info()
```

> Usiamo il file `ingest_data.py` dove troviamo una classe DatabaseManager dove si collega al nostro database e usiamo il metodo `setup_database()` per creare la tabella `products` che matcha con la nostra tabella in `food.txt`.

> Dopo aver creato la tabella vogliamo inserire i food items. Quindi utilizziamo la funzione open() per leggere tutte le righe del file dato in input, che nel nostro caso sarà food.txt, poi iteriamo su queste righe (food_items). Per prima cosa sostituiamo il segno del dollaro con niente poichè vogliamo un numero intero, poi creiamo la nostra query di inserimento. 

> Vogliamo quindi inserire nella tabella dei prodotti nome, prezzo, descrizione, categoria e conflitto (se già esiste, non vogliamo fare nulla, vogliamo solo valori unici e non duplicati dei nostri prodotti)

> Abbiamo anche una funzione di aiuto, query_and_print, che esegue una query sulla tabella dei prodotti per ottenere tutti gli atricoli della tabella per poi stamparli


### 🧾 Creazione tabella `products`

```sql
CREATE TABLE products (
  id TEXT PRIMARY KEY,
  name TEXT,
  price INTEGER,
  description TEXT,
  category TEXT
)
```

### 🥗 Popolamento tabella

* Eseguire lo script `ingest_data.py` con il comando : 

```bash
python ingest_data.py
```

* Lettura da `food.txt`
* Rimozione `$` dal prezzo
* Insert con ON CONFLICT DO NOTHING

In [10]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_community.utilities.sql_database import SQLDatabase

template = """Based on the table schema below, write a SQL query that would answer the user's question:
{schema}

Question: {question}
SQL Query:"""


prompt = ChatPromptTemplate.from_template(template)

CONNECTION_STRING = (
    "postgresql+psycopg2://admin:admin@localhost:5432/vectordb"
)

# qui importiamo il database SQL 
# otteniamo l'istanza del nostro databse
db = SQLDatabase.from_uri(CONNECTION_STRING)

# definiamo la funzione per ottenere lo schema 
# fornisce le informazioni al nostro modello
# tutte le informazioni sul nostro database e sulle tabelle saranno fornite 
# da questa funzione 
def get_schema(_):
    schema = db.get_table_info()
    return schema

# funzione che esegue sul database la query 
# generata dal modello 
def run_query(query):
    return db.run(query)

In [11]:
# diamo un'occhiata a come è lo schema
print(get_schema("_"))


CREATE TABLE langchain_pg_collection (
	name VARCHAR, 
	cmetadata JSON, 
	uuid UUID NOT NULL, 
	CONSTRAINT langchain_pg_collection_pkey PRIMARY KEY (uuid)
)

/*
3 rows from langchain_pg_collection table:
name	cmetadata	uuid
vectordb	None	5faee19e-7b0c-4f7f-af2e-6f78a0a58ac1
*/


CREATE TABLE langchain_pg_embedding (
	collection_id UUID, 
	embedding VECTOR, 
	document VARCHAR, 
	cmetadata JSON, 
	custom_id VARCHAR, 
	uuid UUID NOT NULL, 
	CONSTRAINT langchain_pg_embedding_pkey PRIMARY KEY (uuid), 
	CONSTRAINT langchain_pg_embedding_collection_id_fkey FOREIGN KEY(collection_id) REFERENCES langchain_pg_collection (uuid) ON DELETE CASCADE
)

/*
3 rows from langchain_pg_embedding table:
collection_id	embedding	document	cmetadata	custom_id	uuid
5faee19e-7b0c-4f7f-af2e-6f78a0a58ac1	[ 0.00933818 -0.03014523  0.01771624 ...  0.00327658 -0.01188974
 -0.02337176]	In the charming streets of Palermo, tucked away in a quaint alley, stood Chef Amico, a restaurant th	{'source': './data/restaurant.txt

Vediamo che abbiamo molte informazioni sulle tabelle del nostro database, che in realtà non ci servono per fare la query sulla nostra tabelle dei `products`.

C'è un modo migliore per ottenere le info del db e tabella che ci interessa rispetto a quello proposto dalla documentazione di langchain.

In [16]:
from sqlalchemy import create_engine, inspect
from tabulate import tabulate

# ciò di cui abbiamo sono solo le informazioni sulla nostra tabella products
def get_schema(_):
    engine = create_engine(CONNECTION_STRING)

    inspector = inspect(engine)

    columns = inspector.get_columns("products")

    column_data = [
        {
            "Column Name": col["name"],
            "Data Type": str(col["type"]),
            "Nullable": "Yes" if col["nullable"] else "No",
            "Default": col["default"] if col["default"] else "None",
            "Autoincrement": "Yes" if col["autoincrement"] else "No"
        }
        for col in columns
    ]


    schema_output = tabulate(column_data, headers="keys", tablefmt="grid")

    formatted_schema = f"Schema for 'products' table:\n{schema_output}"

    return formatted_schema

In [17]:
print(get_schema("_"))

Schema for 'products' table:
+---------------+----------------+------------+--------------------------------------+-----------------+
| Column Name   | Data Type      | Nullable   | Default                              | Autoincrement   |
| id            | INTEGER        | No         | nextval('products_id_seq'::regclass) | Yes             |
+---------------+----------------+------------+--------------------------------------+-----------------+
| name          | VARCHAR(100)   | Yes        | None                                 | No              |
+---------------+----------------+------------+--------------------------------------+-----------------+
| price         | NUMERIC(10, 2) | Yes        | None                                 | No              |
+---------------+----------------+------------+--------------------------------------+-----------------+
| description   | TEXT           | Yes        | None                                 | No              |
+---------------+---------

.bind(stop=["\nSQLResult:"]) crea un nuovo Runnable, che quando eseguito chiamerà il modello con il parametro stop=["\nSQLResult:"].


Ora:

```python
llm_with_stop.invoke("Translate this to SQL: ...") # con il .bind()
```

funzionerà come se avessi fatto:

```python
llm.invoke("Translate this to SQL: ...", stop=["\nSQLResult:"])
```

In [18]:
# utilizziamo tale schema per creare la nostra chain

from langchain_core.runnables import RunnablePassthrough
from langchain_openai import ChatOpenAI

model = ChatOpenAI()

# utilizziamo un metodo definito (.bind()) che lega gli argomenti del runtime ai Runnable
# qui leghiamo l'argomento stop al modello
# quindi vogliamo impedire all'LLM di generare token dopo aver creato
# la nostra query SQL, dato che vogliamo solo la query SQL e nient'altro

sql_response = (
    RunnablePassthrough.assign(schema=get_schema)
    | prompt
    | model.bind(stop=["\nSQLResult:"]) 
    | StrOutputParser()
)

sql_response.invoke({"question": "Whats the most expensive dessert you offer?"})

"SELECT name, price\nFROM products\nWHERE category = 'Dessert'\nORDER BY price DESC\nLIMIT 1;"

---

## 🧪 Test: Generazione Query SQL

### ❓ Domanda:

> “Qual è il dessert più costoso che offrite?”

### ✅ Output SQL generato:

```sql
SELECT name, MAX(price) AS max_price
FROM products
WHERE category = 'dessert';
```

---

## Usiamo la query generata per interrogare eil nostro database

- Utilizziamo il metodo, run_query(), definito in precedenza passandogli la query generata dal modello.

- Creiamo una nuova chain per ottenere una risposta definitiva.

In [19]:
from langchain_core.runnables import RunnableLambda

template = """Based on the table schema below, question, sql query, and sql response, write a natural language response:
{schema}

Question: {question}
SQL Query: {query}
SQL Response: {response}"""

prompt_response = ChatPromptTemplate.from_template(template)

def debug(input):
    print("SQL Output: ", input["query"])
    return input

sql_chain = (
    RunnablePassthrough.assign(query=sql_response).assign(
        schema=get_schema,
        response=lambda x: run_query(x['query'])
    )
    | RunnableLambda(debug)
    | prompt_response
    | model
    | StrOutputParser()
)

---

## 🗣️ Traduzione della risposta in linguaggio naturale

### ✅ Esempio di risposta:

> “Il dessert più costoso che offriamo è il panettone al prezzo di 15 dollari.”


---

## ✅ Catena finale composta da:

1. **Assegnazione dello schema**
2. **LLM che genera SQL**
3. **Esecuzione della query**
4. **Risposta naturale**

In [None]:
result = sql_chain.invoke({"question": "Whats the most expensive dessert you offer?"})

print(result)

SQL Output:  SELECT name, price 
FROM products 
WHERE category = 'dessert' 
ORDER BY price DESC 
LIMIT 1;
The most expensive dessert we offer is the Panettone, priced at $15.00.


: 

---

## ⚠️ Warning

* La pipeline è vulnerabile a **SQL Injection** se non gestita con attenzione.
* Manca ancora il **routing dinamico** (arriverà nel prossimo modulo).

---

## ✅ Output dimostrato

> Domanda: “Qual è il dessert più costoso?”
>
> Risposta: “Il panettone, al prezzo di 15 dollari.”