## Конвертация естественного языка в запросы SQL

В грубом приближении этапы работы RAG через SQL заключаются в следующих пунктах:

- `Привести вопрос пользователя на естественном языке к запросу SQL`
- `Исполнить запрос`
- `Дать модели результат и сгенерировать ответ пользователю с учётом полученных данных`

In [1]:
from langchain.utilities import SQLDatabase
from langchain_community.llms import YandexGPT
from langchain_community.chat_models import ChatYandexGPT
from langchain_core.messages import HumanMessage, SystemMessage
from langchain_experimental.sql import SQLDatabaseChain
from langchain.chains import create_sql_query_chain
from langchain.prompts import PromptTemplate
from dotenv import load_dotenv
import sqlite3

from langchain_core.globals import set_debug
set_debug(True)

In [2]:
from langchain.chains.sql_database.prompt import PROMPT
print(PROMPT.template)

Given an input question, first create a syntactically correct {dialect} query to run, then look at the results of the query and return the answer. Unless the user specifies in his question a specific number of examples he wishes to obtain, always limit your query to at most {top_k} results. You can order the results by a relevant column to return the most interesting examples in the database.

Never query for all the columns from a specific table, only ask for a few relevant columns given the question.

Pay attention to use only the column names that you can see in the schema description. Be careful to not query for columns that do not exist. Also, pay attention to which column is in which table.

Use the following format:

Question: Question here
SQLQuery: SQL Query to run
SQLResult: Result of the SQLQuery
Answer: Final answer here

Only use the following tables:
{table_info}

Question: {input}


In [3]:
load_dotenv()

True

In [4]:
import pandas as pd

database_name = "analytics.db"
csv_files = {
    "customer":"data/customer.csv",
    "employee":"data/employee.csv",
    "sale":"data/sale.csv"
}

conn = sqlite3.connect(database_name)

for table_name, csv_path in csv_files.items():
    df = pd.read_csv(csv_path)
    df.to_sql(
        name=table_name,
        con=conn,
        if_exists="replace",
        index=False
    )

conn.close()

In [5]:
llm = ChatYandexGPT(model_name="yandexgpt", temperature=0)

In [6]:
db = SQLDatabase.from_uri("sqlite:///analytics.db", sample_rows_in_table_info=1)

template = '''Ты эксперт по SQLite. Получив вопрос после Question, сперва сгенерируй синтаксически верный SQLite запрос, отвечающий на этот вопрос, и запиши его, затем просмотри результат запроса и верни ответ на вопрос.
Запрашивай не более чем {top_k} результатов за запрос
Используй следующий формат:

Question: "Вопрос здесь"
SQLQuery: "SQL запрос для выполнения"
SQLResult: "Результат SQL запроса"
Answer: "Конечный ответ здесь"

Используй только следующие имена таблиц:

{table_info}.

Question: {input}'''

prompt = PromptTemplate.from_template(template)

chain = create_sql_query_chain(llm, db,)

print(chain.middle[1])

input_variables=['input', 'table_info'] input_types={} partial_variables={'top_k': '5'} template='You are a SQLite expert. Given an input question, first create a syntactically correct SQLite query to run, then look at the results of the query and return the answer to the input question.\nUnless the user specifies in the question a specific number of examples to obtain, query for at most {top_k} results using the LIMIT clause as per SQLite. You can order the results to return the most informative data in the database.\nNever query for all columns from a table. You must query only the columns that are needed to answer the question. Wrap each column name in double quotes (") to denote them as delimited identifiers.\nPay attention to use only the column names you can see in the tables below. Be careful to not query for columns that do not exist. Also, pay attention to which column is in which table.\nPay attention to use date(\'now\') function to get the current date, if the question invo

In [7]:
print(db.dialect)
print(db.get_usable_table_names())
db.run("SELECT count(*) FROM customer LIMIT 10;")

sqlite
['customer', 'employee', 'sale']


'[(1000,)]'

In [21]:
response = chain.invoke({"question": "Сколько у нас работников?"})
response

[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence] Entering Chain run with input:
[0m{
  "question": "Сколько у нас работников?"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableAssign<input,table_info>] Entering Chain run with input:
[0m{
  "question": "Сколько у нас работников?"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableAssign<input,table_info> > chain:RunnableParallel<input,table_info>] Entering Chain run with input:
[0m{
  "question": "Сколько у нас работников?"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableAssign<input,table_info> > chain:RunnableParallel<input,table_info> > chain:RunnableLambda] Entering Chain run with input:
[0m{
  "question": "Сколько у нас работников?"
}
[36;1m[1;3m[chain/end][0m [1m[chain:RunnableSequence > chain:RunnableAssign<input,table_info> > chain:RunnableParallel<input,table_info> > chain:RunnableLambda] [0ms] Exiting Chain run with output:
[

'Question: Сколько у нас работников?\nSQLQuery: `SELECT COUNT("employee_id") AS total_employees FROM employee;`'

In [22]:
index = response.index("SQLQuery")
query = response[index+9:].strip(" `\n")
print(query)

SELECT COUNT("employee_id") AS total_employees FROM employee;


In [23]:
db.run(query)

'[(11,)]'

In [24]:
response = chain.invoke({"question": "Сколько клиентов из Бронкса?"})
index = response.index("SQLQuery")
query = response[index+9:].strip(" `\n")
print(query)
db.run(query)

[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence] Entering Chain run with input:
[0m{
  "question": "Сколько клиентов из Бронкса?"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableAssign<input,table_info>] Entering Chain run with input:
[0m{
  "question": "Сколько клиентов из Бронкса?"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableAssign<input,table_info> > chain:RunnableParallel<input,table_info>] Entering Chain run with input:
[0m{
  "question": "Сколько клиентов из Бронкса?"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableAssign<input,table_info> > chain:RunnableParallel<input,table_info> > chain:RunnableLambda] Entering Chain run with input:
[0m{
  "question": "Сколько клиентов из Бронкса?"
}
[36;1m[1;3m[chain/end][0m [1m[chain:RunnableSequence > chain:RunnableAssign<input,table_info> > chain:RunnableParallel<input,table_info> > chain:RunnableLambda] [0ms] Exiting Chain run wit

In [25]:
db.run(query)

'[(2,)]'

In [13]:
response = chain.invoke({"question": "Сколько клиентов из Бронкса (используй английское название)?"})
print(response)
print(db.run(response.strip("`\n")))

```
SELECT COUNT(customerid) 
FROM customer 
WHERE city = "Bronx";
```
[(2,)]


In [26]:
response = chain.invoke({"question": "Из какого штата наибольшее количество клиентов?"})
index = response.index("SQLQuery")
query = response[index+9:].strip(" `\n")
print(query)

[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence] Entering Chain run with input:
[0m{
  "question": "Из какого штата наибольшее количество клиентов?"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableAssign<input,table_info>] Entering Chain run with input:
[0m{
  "question": "Из какого штата наибольшее количество клиентов?"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableAssign<input,table_info> > chain:RunnableParallel<input,table_info>] Entering Chain run with input:
[0m{
  "question": "Из какого штата наибольшее количество клиентов?"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableAssign<input,table_info> > chain:RunnableParallel<input,table_info> > chain:RunnableLambda] Entering Chain run with input:
[0m{
  "question": "Из какого штата наибольшее количество клиентов?"
}
[36;1m[1;3m[chain/end][0m [1m[chain:RunnableSequence > chain:RunnableAssign<input,table_info> > chain:RunnablePa

ValueError: substring not found

In [27]:
response = chain.invoke({"question": "Найди мне топ 5 клиентов, заплативших наибольшую стоимость пересылки"})
print(response)
print(db.run(response.strip("`\n")))

[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence] Entering Chain run with input:
[0m{
  "question": "Найди мне топ 5 клиентов, заплативших наибольшую стоимость пересылки"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableAssign<input,table_info>] Entering Chain run with input:
[0m{
  "question": "Найди мне топ 5 клиентов, заплативших наибольшую стоимость пересылки"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableAssign<input,table_info> > chain:RunnableParallel<input,table_info>] Entering Chain run with input:
[0m{
  "question": "Найди мне топ 5 клиентов, заплативших наибольшую стоимость пересылки"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableAssign<input,table_info> > chain:RunnableParallel<input,table_info> > chain:RunnableLambda] Entering Chain run with input:
[0m{
  "question": "Найди мне топ 5 клиентов, заплативших наибольшую стоимость пересылки"
}
[36;1m[1;3m[chain/end][0m [1

OperationalError: (sqlite3.OperationalError) near "SQLQuery": syntax error
[SQL: SQLQuery: ```SELECT "customerid", "shipping" FROM "sale" ORDER BY "shipping" DESC LIMIT 5;]
(Background on this error at: https://sqlalche.me/e/20/e3q8)