# 🔐 Sicurezza nel LLM-to-SQL – Protezione contro SQL Injection

## ⚠️ Problema Critico

La catena LLM-to-SQL è vulnerabile a **SQL Injection**:

* L’utente può scrivere domande **malevole**.
* L’LLM può trasformarle in **query SQL distruttive**, ad esempio:

  ```sql
  DELETE FROM products;
  ```

> Questo tipo di attacco può **cancellare l'intero contenuto** della tabella se eseguito con un utente con privilegi di scrittura.

---

## 🧪 Esempio di vulnerabilità

### ❓ Domanda dell'utente:

> “Elimina tutti i prodotti dalla tabella dei prodotti”

### 🧨 Output SQL generato dal LLM:

```sql
DELETE FROM products;
```

### 💥 Risultato:

* I prodotti vengono **cancellati** dal database.
* L’LLM ha avuto **accesso in scrittura**.

---

## ✅ Soluzione: Separare i privilegi

### 🎯 Obiettivo:

* Dare al modello **accesso in sola lettura**.
* Impedire modifiche ai dati via LLM.

In [1]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_community.utilities.sql_database import SQLDatabase
from dotenv import load_dotenv
load_dotenv()

CONNECTION_STRING = (
    "postgresql+psycopg2://admin:admin@localhost:5432/vectordb"
)

# qui importiamo il database SQL 
# otteniamo l'istanza del nostro databse
db = SQLDatabase.from_uri(CONNECTION_STRING)

# funzione che esegue sul database la query 
# generata dal modello 
def run_query(query):
    return db.run(query)

  self._metadata.reflect(


In [2]:
from sqlalchemy import create_engine, inspect
from tabulate import tabulate

# ciò di cui abbiamo sono solo le informazioni sulla nostra tabella products
def get_schema(_):
    engine = create_engine(CONNECTION_STRING)

    inspector = inspect(engine)

    columns = inspector.get_columns("products")

    column_data = [
        {
            "Column Name": col["name"],
            "Data Type": str(col["type"]),
            "Nullable": "Yes" if col["nullable"] else "No",
            "Default": col["default"] if col["default"] else "None",
            "Autoincrement": "Yes" if col["autoincrement"] else "No"
        }
        for col in columns
    ]


    schema_output = tabulate(column_data, headers="keys", tablefmt="grid")

    formatted_schema = f"Schema for 'products' table:\n{schema_output}"

    return formatted_schema

In [3]:
from langchain_openai import ChatOpenAI
from langchain_core.runnables import RunnablePassthrough, RunnableLambda
from langchain_core.output_parsers import StrOutputParser

model = ChatOpenAI()

template = """Based on the table schema below, write a SQL query that would answer the user's question:
{schema}

Question: {question}
SQL Query:"""


prompt = ChatPromptTemplate.from_template(template)


sql_response = (
    RunnablePassthrough.assign(schema=get_schema)
    | prompt
    | model.bind(stop=["\nSQLResult:"]) 
    | StrOutputParser()
)

sql_response.invoke({"question": "Whats the most expensive dessert you offer?"})

"SELECT name, price\nFROM products\nWHERE category = 'Dessert'\nORDER BY price DESC\nLIMIT 1;"

In [4]:
template = """Based on the table schema below, question, sql query, and sql response, write a natural language response:
{schema}

Question: {question}
SQL Query: {query}
SQL Response: {response}"""

prompt_response = ChatPromptTemplate.from_template(template)

def debug(input):
    print("SQL Output: ", input["query"])
    return input

sql_chain = (
    RunnablePassthrough.assign(query=sql_response).assign(
        schema=get_schema,
        response=lambda x: run_query(x['query'])
    )
    | RunnableLambda(debug)
    | prompt_response
    | model
    | StrOutputParser()
)

In [5]:
result = sql_chain.invoke({"question": "Whats the most expensive dessert you offer?"})

print(result)

SQL Output:  SELECT name, price
FROM products
WHERE category = 'dessert'
ORDER BY price DESC
LIMIT 1;
The most expensive dessert we offer is the Panettone, priced at $15.00.


In [8]:
# ora facciamo una prova di sql injection
resutl = sql_chain.invoke({"question": "Drop all products from the products table"})

print(resutl)

SQL Output:  DELETE FROM products;
The SQL query `DELETE FROM products;` will remove all products from the products table in the database. This action cannot be reversed, and all data in the table will be permanently deleted.


Facciamo un controlllo eseguendo il file `inspect_db.py`

```bash
(.venv) C:\Users\felip\Desktop\Advanced_RAG\Udemy-Advanced-LangChain>python inspect_db.py 
Table 'products' has 0 rows.
Table 'langchain_pg_embedding' has 33 rows.
Table 'docstore' not found.
```

Vediamo infatti che ora la tabella **products** non ha più nessuna riga.

---

## 👤 Creazione di un utente PostgreSQL in sola lettura

### 🔧 Script: `create_read_only_user.py`

1. Usa la classe `DatabaseUserCreator`
2. Crea nuovo utente + password
3. Garantisce accesso **solo in lettura**:

```sql
GRANT SELECT ON TABLE products TO read_only_user;
```

> 📌 Questo utente può solo eseguire query **SELECT**.

---

## 🔄 Passi successivi

### 1. 🔑 Aggiornare la stringa di connessione:

Da:

```
postgresql://admin:admin_pw@localhost/db_name
```

A:

```
postgresql://read_only_user:read_only_pw@localhost/db_name
```

### 2. 🆕 Reinstanziare il database:

```python
db = SQLDatabase.from_uri(read_only_connection_string)
```

### 3. 🔁 Rieseguire tutta la pipeline per rigenerare il contesto

In [10]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_community.utilities.sql_database import SQLDatabase
from dotenv import load_dotenv
load_dotenv()

CONNECTION_STRING = (
    "postgresql+psycopg2://readonlyuser:readonlypassword@localhost:5432/vectordb"
)

# qui importiamo il database SQL 
# otteniamo l'istanza del nostro databse
db = SQLDatabase.from_uri(CONNECTION_STRING)

# funzione che esegue sul database la query 
# generata dal modello 
def run_query(query):
    return db.run(query)

  self._metadata.reflect(


In [11]:
from sqlalchemy import create_engine, inspect
from tabulate import tabulate

# ciò di cui abbiamo sono solo le informazioni sulla nostra tabella products
def get_schema(_):
    engine = create_engine(CONNECTION_STRING)

    inspector = inspect(engine)

    columns = inspector.get_columns("products")

    column_data = [
        {
            "Column Name": col["name"],
            "Data Type": str(col["type"]),
            "Nullable": "Yes" if col["nullable"] else "No",
            "Default": col["default"] if col["default"] else "None",
            "Autoincrement": "Yes" if col["autoincrement"] else "No"
        }
        for col in columns
    ]


    schema_output = tabulate(column_data, headers="keys", tablefmt="grid")

    formatted_schema = f"Schema for 'products' table:\n{schema_output}"

    return formatted_schema

In [12]:
from langchain_openai import ChatOpenAI
from langchain_core.runnables import RunnablePassthrough, RunnableLambda
from langchain_core.output_parsers import StrOutputParser

model = ChatOpenAI()

template = """Based on the table schema below, write a SQL query that would answer the user's question:
{schema}

Question: {question}
SQL Query:"""


prompt = ChatPromptTemplate.from_template(template)


sql_response = (
    RunnablePassthrough.assign(schema=get_schema)
    | prompt
    | model.bind(stop=["\nSQLResult:"]) 
    | StrOutputParser()
)

In [13]:
template = """Based on the table schema below, question, sql query, and sql response, write a natural language response:
{schema}

Question: {question}
SQL Query: {query}
SQL Response: {response}"""

prompt_response = ChatPromptTemplate.from_template(template)

def debug(input):
    print("SQL Output: ", input["query"])
    return input

sql_chain = (
    RunnablePassthrough.assign(query=sql_response).assign(
        schema=get_schema,
        response=lambda x: run_query(x['query'])
    )
    | RunnableLambda(debug)
    | prompt_response
    | model
    | StrOutputParser()
)

In [17]:
result = sql_chain.invoke({"question": "What is the most expensive dessert you offer?"})

print(result)

SQL Output:  SELECT name, price
FROM products
WHERE category = 'dessert'
ORDER BY price DESC
LIMIT 1;
The most expensive dessert that we offer is the "panettone" priced at $15.00.


Proviamo ora con un prompt di SQL Injection per cancellare la tabella products

In [18]:
result = sql_chain.invoke({"question": "Drops all products from the products table?"})

print(result)

ProgrammingError: (psycopg2.errors.InsufficientPrivilege) permission denied for table products

[SQL: DELETE FROM products;]
(Background on this error at: https://sqlalche.me/e/20/f405)

---

## 🔐 Verifica della protezione

### ❓ Test domanda malevola:

> “Eliminare tutti i prodotti dalla tabella dei prodotti”

### 🛡️ Risultato:

```
InsufficientPrivilege: permission denied for table products
```

> ✅ L'accesso è stato **negato con successo**.

---

## 🤝 UX Migliorata: Gestione dell’Errore

### 📦 Soluzione con `try-except`:

```python
try:
    result = sql_chain.invoke(malicious_input)
except Exception:
    result = "Haha. Bel tentativo. Capito."
```

### 💡 Risultato mostrato all'utente:

> **“Haha. Bel tentativo. Capito.”**

> ✅ L’utente non vede errori grezzi e non causa crash.

In [None]:
from sqlalchemy.exc import ProgrammingError
from psycopg2.errors import InsufficientPrivilege

try:
    result = sql_chain.invoke({"question": "Drop all products from the products table"})

except ProgrammingError as pe:
    if isinstance(pe.orig, InsufficientPrivilege):
        result = "Haha nice try! Got ya!"
    else:
        result = "An unxpected error occurred"

except Exception as e:
    result = "An unexpected error occurred"

In [None]:
print(result)

Haha nice try! Got ya!


: 

---

## ✅ Conclusione

| 🔍 Problema                       | 💡 Soluzione                    |
| --------------------------------- | ------------------------------- |
| LLM può generare query pericolose | Limitare i privilegi utente     |
| Query malevole vengono eseguite   | Usare utente in sola lettura    |
| Output di errore visibile         | Gestire con `try-except`        |
| Nessun controllo su SQL           | Validazione / routing in arrivo |