# VannaAI

Es una librería de python que permite crear código SQL a partir de texto usando algún modelo de AI.

Esto se hace mediante un arquitectura llamada RAG, la cual requiere mínimo:

- Base de datos vectorizada: donde se almacena la documentación relevante para el contexto.
- LLM: lo que en este caso crea el código SQL usando la documentación obtenida del elemento anterior.



GitHub: https://github.com/vanna-ai/vanna

Docs: https://vanna.ai/docs/index.html


In [None]:
install vanna

Collecting vanna
  Downloading vanna-0.7.9-py3-none-any.whl.metadata (15 kB)
Collecting kaleido (from vanna)
  Downloading kaleido-1.0.0-py3-none-any.whl.metadata (5.6 kB)
Collecting flask-sock (from vanna)
  Downloading flask_sock-0.7.0-py3-none-any.whl.metadata (1.6 kB)
Collecting flasgger (from vanna)
  Downloading flasgger-0.9.7.1.tar.gz (4.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m4.0/4.0 MB[0m [31m35.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting simple-websocket>=0.5.1 (from flask-sock->vanna)
  Downloading simple_websocket-1.1.0-py3-none-any.whl.metadata (1.5 kB)
Collecting choreographer>=1.0.5 (from kaleido->vanna)
  Downloading choreographer-1.0.9-py3-none-any.whl.metadata (5.6 kB)
Collecting logistro>=1.0.8 (from kaleido->vanna)
  Downloading logistro-1.1.0-py3-none-any.whl.metadata (2.6 kB)
Collecting wsproto (from simple-websocket>=0.5.1->flask-sock->vanna)
  Downloading wsproto-1.2.0-py3-

In [None]:
import sqlite3
import pandas as pd
from vanna.remote import VannaDefault

from dotenv import load_dotenv
import os


In [None]:

load_dotenv(dotenv_path='.env')

# https://vanna.ai/account/profile

api_key = os.getenv('RAPIDAPI_KEY')
vanna_model_name = os.getenv('RAPIDAPI_HOST')
vn = VannaDefault(model=vanna_model_name, api_key=api_key)

Para "entrenar" podemos utilizar 3 cosas:

- DDL: definición de las tablas.
- Question/SQL: Pregunta con su respectiva respuesta en SQL.
- Documentación: contexto adicional a modo de texto.

In [None]:
vn.train(
    ddl="""
CREATE TABLE clientes (
    cliente_id    INTEGER PRIMARY KEY,
    nombre        TEXT    NOT NULL,
    ciudad        TEXT,
    edad          INTEGER,
    fecha_registro DATE
)
"""
)

Adding ddl: 
CREATE TABLE clientes (
    cliente_id    INTEGER PRIMARY KEY,
    nombre        TEXT    NOT NULL,
    ciudad        TEXT,
    edad          INTEGER,
    fecha_registro DATE
)



'14743677-ddl'

In [None]:
vn.train(
    ddl="""
CREATE TABLE pedidos (
    pedido_id      INTEGER PRIMARY KEY,
    cliente_id     INTEGER,
    producto       TEXT    NOT NULL,
    cantidad       INTEGER NOT NULL,
    precio_unit    REAL    NOT NULL,
    fecha_pedido   DATE    NOT NULL,
    estado         TEXT    NOT NULL,
    FOREIGN KEY(cliente_id) REFERENCES clientes(cliente_id)
)
"""
)

Adding ddl: 
CREATE TABLE pedidos (
    pedido_id      INTEGER PRIMARY KEY,
    cliente_id     INTEGER,
    producto       TEXT    NOT NULL,
    cantidad       INTEGER NOT NULL,
    precio_unit    REAL    NOT NULL,
    fecha_pedido   DATE    NOT NULL,
    estado         TEXT    NOT NULL,
    FOREIGN KEY(cliente_id) REFERENCES clientes(cliente_id)
)



'14743678-ddl'

In [None]:
vn.train(
    documentation="El usuario puede usar el nombre de orden en lugar de pedido."
)

Adding documentation....


'3431227-doc'

In [None]:
vn.train(
    documentation="Los posibles estados de un pedido son: ENVIADO, ENTREGADO, PENDIENTE, CANCELADO."
)

Adding documentation....


'3431228-doc'

In [None]:
vn.train(
    question="Cómo se clasifica el nivel de gasto de cada cliente en “ALTO”, “MEDIO” o “BAJO”, según el total que ha gastado?",
    sql="""
WITH gastos AS (
  SELECT cliente_id,
         SUM(cantidad * precio_unit) AS monto_total
    FROM pedidos
   GROUP BY cliente_id
)
SELECT c.nombre,
       g.monto_total,
       CASE
         WHEN g.monto_total > 1000 THEN 'ALTO'
         WHEN g.monto_total BETWEEN 300 AND 1000 THEN 'MEDIO'
         ELSE 'BAJO'
       END AS categoria
  FROM gastos AS g
  JOIN clientes AS c ON c.cliente_id = g.cliente_id;
"""
)

'254ebadffd85e71abcb97cae617348bb-sql'

Para visualizar lo almacenado hasta el momento:

In [None]:
vn.get_training_data()

Unnamed: 0,id,training_data_type,question,content
0,1218648-sql,sql,Cómo se clasifica el nivel de gasto de cada cl...,"\nWITH gastos AS (\n SELECT cliente_id,\n ..."
1,14743678-ddl,ddl,,\nCREATE TABLE pedidos (\n pedido_id I...
2,3431228-doc,documentation,,Los posibles estados de un pedido son: ENVIADO...
3,14743677-ddl,ddl,,\nCREATE TABLE clientes (\n cliente_id I...
4,3431227-doc,documentation,,El usuario puede usar el nombre de orden en lu...


Para eliminar algo de la base de datos:

In [None]:
vn.remove_training_data('') # se ingresa el id que se visualiza en la tabla anterior

True

Para generar SQL:

In [None]:
query = vn.generate_sql(
    "cual fue la ultima orden pedida?"
)

SQL Prompt: [{'role': 'system', 'content': "You are a SQL expert. Please help to generate a SQL query to answer the question. Your response should ONLY be based on the given context and follow the response guidelines and format instructions. \n===Tables \n\nCREATE TABLE pedidos (\n    pedido_id      INTEGER PRIMARY KEY,\n    cliente_id     INTEGER,\n    producto       TEXT    NOT NULL,\n    cantidad       INTEGER NOT NULL,\n    precio_unit    REAL    NOT NULL,\n    fecha_pedido   DATE    NOT NULL,\n    estado         TEXT    NOT NULL,\n    FOREIGN KEY(cliente_id) REFERENCES clientes(cliente_id)\n)\n\n\n\nCREATE TABLE clientes (\n    cliente_id    INTEGER PRIMARY KEY,\n    nombre        TEXT    NOT NULL,\n    ciudad        TEXT,\n    edad          INTEGER,\n    fecha_registro DATE\n)\n\n\n\n===Additional Context \n\nEl usuario puede usar el nombre de orden en lugar de pedido.\n\nLos posibles estados de un pedido son: ENVIADO, ENTREGADO, PENDIENTE, CANCELADO.\n\n===Response Guidelines \n

In [None]:
print(query)

SELECT *
FROM pedidos
ORDER BY fecha_pedido DESC
LIMIT 1;


In [None]:
conn = sqlite3.connect('db_basic_queries.sqlite3')

In [None]:
pd.read_sql_query(query, conn)

Unnamed: 0,pedido_id,cliente_id,producto,cantidad,precio_unit,fecha_pedido,estado
0,105,4,Smartphone,1,1200.0,2025-07-02,ENVIADO
