# Consultor SQL OpenAI y Langchain

<br>
<br>

<img src="https://raw.githubusercontent.com/YonatanRA/webinar_text2sql/refs/heads/main/images/text-to-sql.webp" style="width:400px;"/>

<br>
<br>

<img src="https://raw.githubusercontent.com/YonatanRA/webinar_text2sql/refs/heads/main/images/sql_agent.png" style="width:800px;"/>

<h1>Tabla de Contenidos<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#1---OpenAI-Api-Key" data-toc-modified-id="1---OpenAI-Api-Key-1">1 - OpenAI Api Key</a></span></li><li><span><a href="#2---Conexi√≥n-a-SQL" data-toc-modified-id="2---Conexi√≥n-a-SQL-2">2 - Conexi√≥n a SQL</a></span></li><li><span><a href="#3---SQL-a-Langchain" data-toc-modified-id="3---SQL-a-Langchain-3">3 - SQL a Langchain</a></span></li><li><span><a href="#4---Modelo-constructor-de-queries" data-toc-modified-id="4---Modelo-constructor-de-queries-4">4 - Modelo constructor de queries</a></span></li><li><span><a href="#5---Cadena-creadora-de-queries-SQL" data-toc-modified-id="5---Cadena-creadora-de-queries-SQL-5">5 - Cadena creadora de queries SQL</a></span></li><li><span><a href="#6---Creaci√≥n-de-query-desde-prompt" data-toc-modified-id="6---Creaci√≥n-de-query-desde-prompt-6">6 - Creaci√≥n de query desde prompt</a></span></li><li><span><a href="#7---Ejecuci√≥n-de-la-query" data-toc-modified-id="7---Ejecuci√≥n-de-la-query-7">7 - Ejecuci√≥n de la query</a></span></li><li><span><a href="#8---Modelo-de-respuesta-final" data-toc-modified-id="8---Modelo-de-respuesta-final-8">8 - Modelo de respuesta final</a></span></li><li><span><a href="#9---C√≥digo-completo" data-toc-modified-id="9---C√≥digo-completo-9">9 - C√≥digo completo</a></span></li></ul></div>

## 1 - OpenAI Api Key

Para llevar a cabo este proyecto, necesitaremos una API KEY de OpenAI para utilizar el modelo GPT-4 Turbo. Esta API KEY se puede obtener en https://platform.openai.com/api-keys. Solo se muestra una vez, por lo que debe guardarse en el momento en que se obtiene. Por supuesto, necesitaremos crear una cuenta para obtenerla.

Guardamos la API KEY en un archivo `.env` para cargarla con la biblioteca dotenv y usarla como una variable de entorno. Este archivo se agrega a `.gitignore` para asegurarnos de que no pueda verse si subimos el c√≥digo a GitHub, por ejemplo.

In [1]:
import warnings
warnings.filterwarnings('ignore')

In [2]:
# carga de la api key desde dotenv

import os                           
from dotenv import load_dotenv     


load_dotenv()


OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')  # 'sk-.....'

## 2 - Conexi√≥n a SQL

Vamos a conectarnos a MySQL a trav√©s de SQLAlchemy utilizando un string de conexi√≥n.

In [3]:
from sqlalchemy import create_engine, text

In [4]:
# string de conexion

URI = os.getenv('URI') 

Dependiendo del servidor o del lenguaje utilizado, MySQL o PostGres por ejemplo, la string de conexi√≥n cambiar√°:

En MySQL tiene esta forma:

`mysql+pymysql://root:password@localhost:3306/sakila`

En AWS tiene esta forma:

`postgresql://usuario:password@database.us-west-2.rds.amazonaws.com:5432/nombre_db`

`mysql://usuario:password@database.us-west-2.rds.amazonaws.com:3306/nombre_db`


En SnowFlake tiene esta forma:

```python
# servidor y credenciales del usuario

snowflake_account = os.getenv('snowflake_account')

username = os.getenv('username')

password = os.getenv('password')

database = os.getenv('database')

schema = os.getenv('schema')

warehouse = os.getenv('warehouse')

role = os.getenv('role')


URI = f'snowflake://{username}:{password}@{snowflake_account}/{database}/{schema}?warehouse={warehouse}&role={role}'
    
```

In [5]:
# conexion a SQL 

cursor = create_engine(URI).connect()

In [6]:
# tablas de la base de datos

tablas = cursor.execute(text('show tables;')).all()

tablas = [e[0] for e in tablas]

tablas

['actor',
 'address',
 'adress2',
 'category',
 'city',
 'country',
 'customer',
 'film',
 'film_actor',
 'film_category',
 'film_text',
 'inventory',
 'language',
 'payment',
 'rental',
 'staff',
 'staff2',
 'store']

Podemos seleccionar todas las tablas o solamente las tablas que queremos usar para nuestras consultas, no es necesario que el chat conozca toda la estructura de la base de datos, aunque esto le puede dar una mejor compresi√≥n. Tambi√©n, dependiendo del modelo y del tama√±o de la estructura, el contexto puede ser demasiado grande para que el modelo lo admita.

## 3 - SQL a Langchain

Importamos `SQLDatabase` de LangChain para conectarnos a SQL.

In [7]:
from langchain import SQLDatabase

In [8]:
# conexion a langchain con todas las tablas y la primera fila de cada una

db = SQLDatabase.from_uri(URI,
                          sample_rows_in_table_info=1, 
                          include_tables=tablas)

In [9]:
# estructura completa que se usara como contexto

print(db.table_info)


CREATE TABLE actor (
	actor_id SMALLINT UNSIGNED NOT NULL AUTO_INCREMENT, 
	first_name VARCHAR(45) NOT NULL, 
	last_name VARCHAR(45) NOT NULL, 
	last_update TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP, 
	PRIMARY KEY (actor_id)
)DEFAULT CHARSET=utf8mb4 ENGINE=InnoDB COLLATE utf8mb4_0900_ai_ci

/*
1 rows from actor table:
actor_id	first_name	last_name	last_update
1	PENELOPE	GUINESS	2006-02-15 04:34:33
*/


CREATE TABLE address (
	address_id SMALLINT UNSIGNED NOT NULL AUTO_INCREMENT, 
	address VARCHAR(50) NOT NULL, 
	address2 VARCHAR(50), 
	district VARCHAR(20) NOT NULL, 
	city_id SMALLINT UNSIGNED NOT NULL, 
	postal_code VARCHAR(10), 
	phone VARCHAR(20) NOT NULL, 
	last_update TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP, 
	PRIMARY KEY (address_id), 
	CONSTRAINT fk_address_city FOREIGN KEY(city_id) REFERENCES city (city_id) ON DELETE RESTRICT ON UPDATE CASCADE
)DEFAULT CHARSET=utf8mb4 ENGINE=InnoDB COLLATE utf8mb4_0900_ai_ci

/*
1

## 4 - Modelo constructor de queries

Usamos un modelo de OpenAI como LLM de entrada. Una temperatura = 0 hace que las respuestas del modelo sean m√°s deterministas y repetitivas, tendiendo a seleccionar la siguiente palabra m√°s probable seg√∫n el contexto anterior, lo cual es mejor para la generaci√≥n de consultas SQL.

In [10]:
# importamos el modelo

from langchain_openai import ChatOpenAI

input_model = ChatOpenAI(model='gpt-4.1', temperature=0)

In [11]:
# prueba de uso

input_model.invoke('hola').content

'¬°Hola! ¬øEn qu√© puedo ayudarte hoy? üòä'

## 5 - Cadena creadora de queries SQL

Importamos la cadena predefinida que tiene LangChain para test2sql.

In [12]:
from langchain.chains import create_sql_query_chain

In [13]:
# cadena por defecto

database_chain = create_sql_query_chain(input_model, db)

database_chain

RunnableAssign(mapper={
  input: RunnableLambda(...),
  table_info: RunnableLambda(...)
})
| RunnableLambda(lambda x: {k: v for (k, v) in x.items() if k not in ('question', 'table_names_to_use')})
| PromptTemplate(input_variables=['input', 'table_info'], input_types={}, partial_variables={'top_k': '5'}, template='You are a MySQL expert. Given an input question, first create a syntactically correct MySQL query to run, then look at the results of the query and return the answer to the input question.\nUnless the user specifies in the question a specific number of examples to obtain, query for at most {top_k} results using the LIMIT clause as per MySQL. You can order the results to return the most informative data in the database.\nNever query for all columns from a table. You must query only the columns that are needed to answer the question. Wrap each column name in backticks (`) to denote them as delimited identifiers.\nPay attention to use only the column names you can see in the tabl

Aqui podemos cambiar el prompt que viene por defecto en la cadena para mejorar la query de salida si fuera necesario.

In [14]:
# prompt custom

from langchain_core.prompts import PromptTemplate

template = '''

Eres un experto en {dialect}. Dada una pregunta de entrada:

1. Primero, crea una consulta en {dialect} que sea sint√°cticamente correcta para ejecutar.  
2. A menos que el usuario especifique en la pregunta un n√∫mero espec√≠fico de ejemplos a obtener, 
no utilices la cl√°usula `LIMIT`. Si se pide limitar sin un n√∫mero espec√≠fico, utiliza las primera {top_k} filas.  
3. Nunca consultes todas las columnas de una tabla; solo debes seleccionar las columnas 
necesarias para responder la pregunta.  
4. Encierra cada nombre de columna con backticks (`) para identificarlos como identificadores delimitados.  
5. Usa solo los nombres de columna visibles en las tablas a continuaci√≥n. No consultes columnas que no existan. 
Aseg√∫rate de saber en qu√© tabla se encuentra cada columna.  
6. Usa la funci√≥n `CURDATE()` para obtener la fecha actual si la pregunta involucra "hoy".  
7. Solo usa sentencias `SELECT` para consultar datos.  
8. La informaci√≥n de las tablas es la siguiente:
{table_info}  

### Pregunta  
{input}  

### Formato de salida  
```sql  
consulta a ejecutar  
```  

Tu respuesta debe ser √∫nicamente la consulta en {dialect}. 
'''




sql_prompt = PromptTemplate(input_variables=['input', 'table_info', 'top_k', 'dialect'],
                            template=template)

In [15]:
database_chain = create_sql_query_chain(input_model, db, prompt=sql_prompt)

## 6 - Creaci√≥n de query desde prompt

Ahora, vamos a crear la query de SQL desde castellano. El modelo funciona mejor en ingl√©s, por lo que primero vamos a traducir nuestra consulta al ingl√©s para luego pedirle al modelo que cree la query de SQL.

In [16]:
# nuestra pregunta

prompt = '¬øQu√© actores tienen de primer nombre SCARLETT?'

In [17]:
# llamada al modelo creador de queries

sql_query = database_chain.invoke({'question': prompt})

In [18]:
# query SQL creada

sql_query = sql_query.split('```sql')[1].replace('`', '')

sql_query

"\nSELECT actor_id, first_name, last_name\nFROM actor\nWHERE first_name = 'SCARLETT';\n"

## 7 - Ejecuci√≥n de la query

Una vez obtenida la query, debemos ejecutarla en el servidor de SQL. Podemos hacer esto directamente con SQLAlchemy. Este es el paso cr√≠tico, puesto que si la query no est√° bien escrita la ejecuci√≥n fallar√°. De ocurrir esto podr√≠amos cambiar el prompt del modelo generador de queries para intentar que la query sea operativa.

In [19]:
# respuesta de la query que usaremos como contexto

contexto = cursor.execute(text(sql_query)).all()

contexto

[(81, 'SCARLETT', 'DAMON'), (124, 'SCARLETT', 'BENING')]

## 8 - Modelo de respuesta final

Una vez obtenida la respuesta del servidor SQL, pasamos al modelo final la tabla como contexto y le damos nuestra pregunta otra vez para que la respuesta sea en castellano.

In [20]:
from langchain_openai.chat_models import ChatOpenAI   

output_model = ChatOpenAI(model='gpt-4.1')

In [21]:
# le damos la pregunta original y el contexto extraido desde SQL

final_prompt = f'''Dados el siguiente contexto y query, responde la pregunta: 
                    
                    contexto: {contexto}, 
                    
                    query: {sql_query},
                    
                    pregunta: {prompt}
                    
                    No hables del contexto ni de la query.
                    Devuelve la respuesta lo mas extensa posible.
                    
                    '''

In [22]:
respuesta_final = output_model.invoke(final_prompt).content

print(respuesta_final)

Los actores cuyo primer nombre es SCARLETT son los siguientes:

1. Un actor con el identificador 81, cuyo nombre completo es SCARLETT DAMON. Esto significa que su primer nombre es SCARLETT y su apellido es DAMON. 

2. Otro actor con el identificador 124, cuyo nombre completo es SCARLETT BENING. En este caso, el primer nombre tambi√©n es SCARLETT y el apellido es BENING.

En resumen, existen dos actores que tienen como primer nombre SCARLETT. El primero de ellos tiene DAMON como apellido y el segundo BENING. Ambos comparten el mismo primer nombre pero tienen apellidos diferentes y sus identificadores √∫nicos (ID de actor) tambi√©n son distintos: uno es el n√∫mero 81 y el otro el 124. Esta informaci√≥n permite identificar de manera precisa a los actores que tienen SCARLETT como nombre de pila.


## 9 - C√≥digo completo

In [23]:
# librerias   


import warnings
warnings.filterwarnings('ignore')                     # para quitar avisos

from sqlalchemy import create_engine, text            # conexion SQL y text para queries

from langchain import SQLDatabase                     # conexion SQL a LangChain
from langchain_core.prompts import PromptTemplate     # creacion de prompts
from langchain.chains import create_sql_query_chain   # cadana de creacion de queries SQL
from langchain_openai.chat_models import ChatOpenAI   # modelo chat OpenAI


import os                                             # libreria del sistema
from dotenv import load_dotenv                        # carga de variables de entorno
 

# variables de entorno
load_dotenv()


# api key OpenAI
OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')


# string de conexion servidor SQL
URI = os.getenv('URI')



# prompt inicial
input_model = ChatOpenAI(model='gpt-4.1', temperature=0)

prompt = '¬øQu√© actores tienen como apellido JOHANSSON?'



# conexion a base de datos
cursor = create_engine(URI).connect()

tablas = cursor.execute(text('show tables;')).all()
tablas = [e[0] for e in tablas]

db = SQLDatabase.from_uri(URI, sample_rows_in_table_info=1, include_tables=tablas)



# definion del prompt para generar query SQL
template = '''

Eres un experto en {dialect}. Dada una pregunta de entrada:

1. Primero, crea una consulta en {dialect} que sea sint√°cticamente correcta para ejecutar.  
2. A menos que el usuario especifique en la pregunta un n√∫mero espec√≠fico de ejemplos a obtener, 
no utilices la cl√°usula `LIMIT`. Si se pide limitar sin un n√∫mero espec√≠fico, utiliza las primera {top_k} filas.  
3. Nunca consultes todas las columnas de una tabla; solo debes seleccionar las columnas 
necesarias para responder la pregunta.  
4. Encierra cada nombre de columna con backticks (`) para identificarlos como identificadores delimitados.  
5. Usa solo los nombres de columna visibles en las tablas a continuaci√≥n. No consultes columnas que no existan. 
Aseg√∫rate de saber en qu√© tabla se encuentra cada columna.  
6. Usa la funci√≥n `CURDATE()` para obtener la fecha actual si la pregunta involucra "hoy".  
7. Solo usa sentencias `SELECT` para consultar datos.  
8. La informaci√≥n de las tablas es la siguiente:
{table_info}  

### Pregunta  
{input}  

### Formato de salida  
```sql  
consulta a ejecutar  
```  

Tu respuesta debe ser √∫nicamente la consulta en {dialect}. 
'''


sql_prompt = PromptTemplate(input_variables=['input', 'table_info', 'top_k', 'dialect'],
                            template=template)


# creacion de query SQL
database_chain = create_sql_query_chain(input_model, db, prompt=sql_prompt)

sql_query = database_chain.invoke({'question': prompt})

sql_query = sql_query.split('```sql')[1].replace('`', '')


# ejecucion de la query SQL
contexto = cursor.execute(text(sql_query)).all()


# respuesta final 
output_model = ChatOpenAI(model='gpt-4.1')

final_prompt = f'''Dados el siguiente contexto y query, responde la pregunta: 
                    
                    contexto: {contexto}, 
                    
                    query: {sql_query},
                    
                    pregunta: {prompt}
                    
                    No hables del contexto ni de la query.
                    Devuelve la respuesta lo mas extensa posible.
                    
                    '''

respuesta = output_model.invoke(final_prompt).content


print(respuesta)

Los actores que tienen como apellido JOHANSSON son:

MATTHEW JOHANSSON, quien tiene el identificador de actor 8.  
RAY JOHANSSON, con el identificador de actor 64.  
ALBERT JOHANSSON, cuyo identificador de actor es 146.  

Cada uno de ellos comparte el apellido JOHANSSON, aunque sus nombres y n√∫meros de identificaci√≥n son distintos. Por un lado, MATTHEW JOHANSSON es uno de los actores con ese apellido y ocupa el primer lugar en la lista con el actor_id 8. Por otro, RAY JOHANSSON tambi√©n lleva el mismo apellido y est√° identificado con el actor_id 64. Finalmente, ALBERT JOHANSSON completa la lista, con el actor_id 146.

En conjunto, estos tres actores (MATTHEW, RAY y ALBERT) comparten el apellido JOHANSSON y est√°n registrados con los identificadores 8, 64 y 146 respectivamente.
