# 5 - Consultor SQL OpenAI y Langchain

<br>
<br>

<img src="https://raw.githubusercontent.com/YonatanRA/webinar_text2sql/refs/heads/main/images/text-to-sql.webp" style="width:400px;"/>

<br>
<br>

<img src="https://raw.githubusercontent.com/YonatanRA/webinar_text2sql/refs/heads/main/images/sql_agent.png" style="width:800px;"/>

<h1>Tabla de Contenidos<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#1---OpenAI-Api-Key" data-toc-modified-id="1---OpenAI-Api-Key-1">1 - OpenAI Api Key</a></span></li><li><span><a href="#2---Conexión-a-SQL" data-toc-modified-id="2---Conexión-a-SQL-2">2 - Conexión a SQL</a></span></li><li><span><a href="#3---SQL-a-Langchain" data-toc-modified-id="3---SQL-a-Langchain-3">3 - SQL a Langchain</a></span></li><li><span><a href="#4---Modelo-constructor-de-queries" data-toc-modified-id="4---Modelo-constructor-de-queries-4">4 - Modelo constructor de queries</a></span></li><li><span><a href="#5---Cadena-creadora-de-queries-SQL" data-toc-modified-id="5---Cadena-creadora-de-queries-SQL-5">5 - Cadena creadora de queries SQL</a></span></li><li><span><a href="#6---Creación-de-query-desde-prompt" data-toc-modified-id="6---Creación-de-query-desde-prompt-6">6 - Creación de query desde prompt</a></span></li><li><span><a href="#7---Ejecución-de-la-query" data-toc-modified-id="7---Ejecución-de-la-query-7">7 - Ejecución de la query</a></span></li><li><span><a href="#8---Modelo-de-respuesta-final" data-toc-modified-id="8---Modelo-de-respuesta-final-8">8 - Modelo de respuesta final</a></span></li><li><span><a href="#9---Código-completo" data-toc-modified-id="9---Código-completo-9">9 - Código completo</a></span></li></ul></div>

## 1 - OpenAI Api Key

Para llevar a cabo este proyecto, necesitaremos una API KEY de OpenAI para utilizar el modelo GPT-4 Turbo. Esta API KEY se puede obtener en https://platform.openai.com/api-keys. Solo se muestra una vez, por lo que debe guardarse en el momento en que se obtiene. Por supuesto, necesitaremos crear una cuenta para obtenerla.

Guardamos la API KEY en un archivo `.env` para cargarla con la biblioteca dotenv y usarla como una variable de entorno. Este archivo se agrega a `.gitignore` para asegurarnos de que no pueda verse si subimos el código a GitHub, por ejemplo.

In [1]:
import warnings
warnings.filterwarnings('ignore')

In [2]:
# carga de la api key desde dotenv

import os                           
from dotenv import load_dotenv     


load_dotenv()


OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')  # 'sk-.....'

## 2 - Conexión a SQL

Vamos a conectarnos a MySQL a través de SQLAlchemy utilizando un string de conexión.

In [3]:
from sqlalchemy import create_engine, text

In [4]:
# string de conexion

URI = 'mysql+pymysql://root:password@localhost:3306/sakila'

Dependiendo del servidor o del lenguaje utilizado, MySQL o PostGres por ejemplo, la string de conexión cambiará:

En AWS tiene esta forma:

`postgresql://usuario:password@database.us-west-2.rds.amazonaws.com:5432/nombre_db`

`mysql://usuario:password@database.us-west-2.rds.amazonaws.com:3306/nombre_db`


En SnowFlake tiene esta forma:

```python
# servidor y credenciales del usuario

snowflake_account = os.getenv('snowflake_account')

username = os.getenv('username')

password = os.getenv('password')

database = os.getenv('database')

schema = os.getenv('schema')

warehouse = os.getenv('warehouse')

role = os.getenv('role')


URI = f'snowflake://{username}:{password}@{snowflake_account}/{database}/{schema}?warehouse={warehouse}&role={role}'
    
```

In [5]:
# conexion a SQL 

cursor = create_engine(URI).connect()

In [6]:
# tablas de la base de datos

tablas = cursor.execute(text('show tables;')).all()

tablas = [e[0] for e in tablas]

tablas

['actor',
 'address',
 'adress2',
 'category',
 'city',
 'country',
 'customer',
 'film',
 'film_actor',
 'film_category',
 'film_text',
 'inventory',
 'language',
 'payment',
 'rental',
 'staff',
 'staff2',
 'store']

Podemos seleccionar todas las tablas o solamente las tablas que queremos usar para nuestras consultas, no es necesario que el chat conozca toda la estructura de la base de datos, aunque esto le puede dar una mejor compresión. También, dependiendo del modelo y del tamaño de la estructura, el contexto puede ser demasiado grande para que el modelo lo admita.

## 3 - SQL a Langchain

Importamos `SQLDatabase` de LangChain para conectarnos a SQL.

In [7]:
from langchain import SQLDatabase

In [8]:
# conexion a langchain con todas las tablas y la primera fila de cada una

db = SQLDatabase.from_uri(URI,
                          sample_rows_in_table_info=1, 
                          include_tables=tablas)

In [9]:
# estructura completa que se usara como contexto

print(db.table_info)


CREATE TABLE actor (
	actor_id SMALLINT UNSIGNED NOT NULL AUTO_INCREMENT, 
	first_name VARCHAR(45) NOT NULL, 
	last_name VARCHAR(45) NOT NULL, 
	last_update TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP, 
	PRIMARY KEY (actor_id)
)ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE utf8mb4_0900_ai_ci

/*
1 rows from actor table:
actor_id	first_name	last_name	last_update
1	PENELOPE	GUINESS	2006-02-15 04:34:33
*/


CREATE TABLE address (
	address_id SMALLINT UNSIGNED NOT NULL AUTO_INCREMENT, 
	address VARCHAR(50) NOT NULL, 
	address2 VARCHAR(50), 
	district VARCHAR(20) NOT NULL, 
	city_id SMALLINT UNSIGNED NOT NULL, 
	postal_code VARCHAR(10), 
	phone VARCHAR(20) NOT NULL, 
	last_update TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP, 
	PRIMARY KEY (address_id), 
	CONSTRAINT fk_address_city FOREIGN KEY(city_id) REFERENCES city (city_id) ON DELETE RESTRICT ON UPDATE CASCADE
)ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE utf8mb4_0900_ai_ci

/*
1

## 4 - Modelo constructor de queries

Usamos un modelo de OpenAI como LLM de entrada. Una temperatura = 0 hace que las respuestas del modelo sean más deterministas y repetitivas, tendiendo a seleccionar la siguiente palabra más probable según el contexto anterior, lo cual es mejor para la generación de consultas SQL.

In [10]:
# importamos el modelo

from langchain_openai import OpenAI

input_model = OpenAI(model='gpt-3.5-turbo-instruct', temperature=0)

In [11]:
# prueba de uso

input_model.invoke('hola')

'\n\n\n\n¡Hola! ¿En qué puedo ayudarte?'

## 5 - Cadena creadora de queries SQL

Importamos la cadena predefinida que tiene LangChain para test2sql.

In [13]:
from langchain.chains import create_sql_query_chain

In [14]:
# cadena por defecto

database_chain = create_sql_query_chain(input_model, db)

database_chain

RunnableAssign(mapper={
  input: RunnableLambda(...),
  table_info: RunnableLambda(...)
})
| RunnableLambda(lambda x: {k: v for (k, v) in x.items() if k not in ('question', 'table_names_to_use')})
| PromptTemplate(input_variables=['input', 'table_info'], input_types={}, partial_variables={'top_k': '5'}, template='You are a MySQL expert. Given an input question, first create a syntactically correct MySQL query to run, then look at the results of the query and return the answer to the input question.\nUnless the user specifies in the question a specific number of examples to obtain, query for at most {top_k} results using the LIMIT clause as per MySQL. You can order the results to return the most informative data in the database.\nNever query for all columns from a table. You must query only the columns that are needed to answer the question. Wrap each column name in backticks (`) to denote them as delimited identifiers.\nPay attention to use only the column names you can see in the tabl

Aqui podemos cambiar el prompt que viene por defecto en la cadena para mejorar la query de salida si fuera necesario.

In [15]:
# prompt custom

from langchain_core.prompts import PromptTemplate

template = '''You are a MySQL expert. Given an input question, 
              first create a syntactically correct MySQL query to run, 
              then look at the results of the query and return the answer to the input question.
              Unless the user specifies in the question a specific number of examples to obtain, 
              query for at most {top_k} results using the LIMIT clause as per MySQL. 
              You can order the results to return the most informative data in the database.
              Never query for all columns from a table. You must query only the columns that 
              are needed to answer the question. 
              Wrap each column name in backticks (`) to denote them as delimited identifiers.
              Pay attention to use only the column names you can see in the tables below. 
              Be careful to not query for columns that do not exist. 
              Also, pay attention to which column is in which table.
              Pay attention to use CURDATE() function to get the current date, 
              if the question involves "today".
              
              Use the following format:
              
              Question: Question here
              
              SQLQuery: SQL Query to run
              
              SQLResult: Result of the SQLQuery
              
              Answer: Final answer here
              
              Only use the following tables:
              
              {table_info}
              
              Question: {input}'''




custom_prompt = PromptTemplate(input_variables=['input', 'table_info', 'top_k', 'dialect'],
                               template=template)

In [16]:
database_chain = create_sql_query_chain(input_model, db, prompt=custom_prompt)

## 6 - Creación de query desde prompt

Ahora, vamos a crear la query de SQL desde castellano. El modelo funciona mejor en inglés, por lo que primero vamos a traducir nuestra consulta al inglés para luego pedirle al modelo que cree la query de SQL.

In [17]:
# nuestra pregunta

prompt = '¿Qué actores tienen de primer nombre SCARLETT?'

In [18]:
# traduccion a ingles, funciona mejor

prompt = input_model.invoke(f'traduce al ingles: {prompt}')

prompt

'\n\nWhat actors have the first name SCARLETT?'

In [19]:
# llamada al modelo creador de queries

sql_query = database_chain.invoke({'question': prompt})

In [20]:
# query SQL creada

sql_query

"SELECT `actor_id`, `first_name`, `last_name`, `last_update` FROM `actor` WHERE `first_name` = 'SCARLETT' LIMIT 5;"

## 7 - Ejecución de la query

Una vez obtenida la query, debemos ejecutarla en el servidor de SQL. Podemos hacer esto directamente con SQLAlchemy. Este es el paso crítico, puesto que si la query no está bien escrita la ejecución fallará. De ocurrir esto podríamos cambiar el prompt del modelo generador de queries para intentar que la query sea operativa.

In [21]:
# respuesta de la query que usaremos como contexto

contexto = cursor.execute(text(sql_query)).all()

contexto

[(81, 'SCARLETT', 'DAMON', datetime.datetime(2006, 2, 15, 4, 34, 33)),
 (124, 'SCARLETT', 'BENING', datetime.datetime(2006, 2, 15, 4, 34, 33))]

## 8 - Modelo de respuesta final

Una vez obtenida la respuesta del servidor SQL, pasamos al modelo final la tabla como contexto y le damos nuestra pregunta otra vez para que la respuesta sea en castellano.

In [22]:
from langchain_openai.chat_models import ChatOpenAI   

output_model = ChatOpenAI(model='gpt-4-turbo')

In [23]:
# le damos la pregunta original y el contexto extraido desde SQL

final_prompt = f'''Given the next context, answer the cuestion: 
                    
                    context: {contexto}, 
                    
                    question: {prompt}
                    
                    Give the answer in Spanish.
                    
                    '''

In [24]:
respuesta_final = output_model.invoke(final_prompt).content

respuesta_final

'Los actores con el nombre de pila SCARLETT son Scarlett Damon y Scarlett Bening.'

## 9 - Código completo

In [25]:
# librerias   


import warnings
warnings.filterwarnings('ignore')                     # para quitar avisos

from sqlalchemy import create_engine, text            # conexion SQL y text para queries

from langchain import SQLDatabase                     # conexion SQL a LangChain
from langchain_core.prompts import PromptTemplate     # creacion de prompts
from langchain.chains import create_sql_query_chain   # cadana de creacion de queries SQL
from langchain_openai import OpenAI                   # modelo OpenAI
from langchain_openai.chat_models import ChatOpenAI   # modelo chat OpenAI


import os                                             # libreria del sistema
from dotenv import load_dotenv                        # carga de variables de entorno
 

# variables de entorno
load_dotenv()


# api key OpenAI
OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')


# string de conexion servidor SQL
URI = 'mysql+pymysql://root:password@localhost:3306/sakila'



# prompt inicial
input_model = OpenAI(model='gpt-3.5-turbo-instruct', temperature=0)

prompt = '¿Qué actores tienen como apellido JOHANSSON?'

prompt = input_model.invoke(f'Traduce al ingles: {prompt}')

prompt = prompt 


# conexion a base de datos
cursor = create_engine(URI).connect()

tablas = cursor.execute(text('show tables;')).all()
tablas = [e[0] for e in tablas]

db = SQLDatabase.from_uri(URI, sample_rows_in_table_info=1, include_tables=tablas)



# definion del prompt para generar query SQL
sql_prompt = '''You are a MySQL expert. Given an input question, 
          first create a syntactically correct MySQL query to run, 
          then look at the results of the query and return the answer to the input question.
          Unless the user specifies in the question a specific number of examples to obtain, 
          query for at most {top_k}0 results using the LIMIT clause as per MySQL. 
          You can order the results to return the most informative data in the database.
          Never query for all columns from a table. You must query only the columns that 
          are needed to answer the question. 
          Wrap each column name in backticks (`) to denote them as delimited identifiers.
          Pay attention to use only the column names you can see in the tables below. 
          Be careful to not query for columns that do not exist. 
          Also, pay attention to which column is in which table.
          Pay attention to use CURDATE() function to get the current date, 
          if the question involves "today".

          Use the following format:

          Question: Question here

          SQLQuery: SQL Query to run

          SQLResult: Result of the SQLQuery

          Answer: Final answer here

          Only use the following tables:

          {table_info}

          Question: {input}'''


sql_prompt = PromptTemplate(input_variables=['input', 'table_info', 'top_k', 'dialect'],
                            template=sql_prompt)


# creacion de query SQL
database_chain = create_sql_query_chain(input_model, db, prompt=sql_prompt)

sql_query = database_chain.invoke({'question': prompt})


# ejecucion de la query SQL
contexto = cursor.execute(text(sql_query)).all()


# respuesta final 
output_model = ChatOpenAI(model='gpt-4-turbo')

final_prompt = f'''Given the next query and context, answer the cuestion:

               query: {sql_query},

               context: {contexto}, 

               question: {prompt}.

               If the context is a number, answer the question with it.

               Give the answer in Spanish.
               '''

respuesta = output_model.invoke(final_prompt).content


print(respuesta)

Los actores que tienen el apellido JOHANSSON son:

- MATTHEW JOHANSSON
- RAY JOHANSSON
- ALBERT JOHANSSON
