# Text-to-SQL - Thiago Pádua

## Introdução
Vive-se atualmente uma tendência em que o volume de dados gerado por empresas, governos e indivíduos alcança níveis sem precedentes. Esse crescimento reflete a digitalização de processos, a expansão de serviços online e a conectividade global. Em paralelo, decisões baseadas em dados tornaram-se cruciais para diferentes tipos de serviços, permeando as mais variadas áreas do conhecimento e impactando o modo a partir do qual se estrutura toda a inteligência organizacional.

Podemos entender os dados como matéria prima lógica a ser consumida em incontáveis aplicações, permitindo melhoria de performance, redução de custos, ganho de flexibilidade operacional, planejamento respaldado em conhecimentos empíricos, dentre diversos outros. Sendo assim, há uma mudança de paradigma que afeta a maneira com a qual os profissionais gerais se relacionam com dados, exigindo por muitas vezes um conhecimento técnico mais avançado para lidar com as aplicações utilizadas. De outro lado, há uma demanda dos usuários por obtenção rápida, intuitiva e assertiva de informações dos sistemas.

## Structured Query Language (SQL)
SQL é uma linguagem de programação para armazenar
e processar informações em um banco de dados relacional. Um BD relacional, por sua vez, guarda dados através de
tabelas que podem representar entidades ou relacionamentos
próprios do conjunto de conhecimentos armazenados. Cada
linha nas tabelas representa entradas únicas que estão sendo
salvas. As instruções SQL operam sobre o banco de dados
e são capazes de criar, armazenar, alterar, deletar e especialmente consultar as entradas, que é o tema de nosso maior
interesse.



## O que é TEXT-TO-SQL?

![Text-to-SQL](images/text-to-sql.jpg)

Dado o contexto proposto, Text-to-SQL surge como uma alternativa para facilitar o acesso aos
dados. Ele consiste em um método de transformar perguntas feitas em linguagem natu-
ral para as queries correspondentes em SQL. Sendo assim, é possível reduzir a expertise
técnica necessária para lidar com os dados e tornar a experiência de obtenção de informa-
ções mais fluida e simples para os usuários. Além disso, essa técnica aumenta a eficiência
do processamento de dados e contribui com um amplo leque de aplicações como servi-
ços inteligentes de bancos de dados (BD), análise automática de dados e aplicações de
perguntas e respostas em BDs.
É possível também ressaltar que Text-to-SQL tem um grande potencial para aumento
de produtividade principalmente no que diz respeito à economia de tempo, desde a capa-
citação dos profissionais até a própria elaboração das consultas sobre os dados disponíveis.
Sua versatilidade de aplicações ainda é outra vantagem. Como desvantagens pode-se citar
o alto teor de erro presente no atual estado da arte das soluções existentes e o elevado
investimento inicial, que no entanto é compensado em médio prazo

O método de Text-to-SQL envolve uma série de conhecimentos que interessam tanto
os profissionais de bancos de dados quanto aqueles envolvidos com processamento de
linguagem natural. Este é um problema que tem natureza multidisciplinar e engloba
uma série de processos que devem trabalhar em conjunto para o bom funcionamento
geral. O desenho de uma proposta de texto em língua natural para SQL envolve delicados
parâmetros e necessita de um ajuste cuidadoso para atingir resultados satisfatórios. Com
isso em vista, a seguir são apresentados alguns conceitos fundamentais para o assunto e
também um panorama do atual estado da arte.

## Setup

In [48]:
import pandas as pd
import sqlite3
;

''

In [2]:
db_path = "/media/thiago/5082A8E882A8D3AE/POC"

connection = sqlite3.connect(f"{db_path}/database_text_to_sql.db")
file_path = f"export/THOTH/versao 2/prescricao-tratada.csv"

In [3]:
for chunk in pd.read_csv(file_path, chunksize=10000, encoding="latin1"):
    chunk.to_sql("Presc", connection, if_exists="append", index=False)

In [4]:
cursor = connection.cursor()

In [5]:
cursor.execute("SELECT name FROM sqlite_master WHERE type='table';")
tabelas = cursor.fetchall()
print(tabelas)

[('Presc',)]


In [6]:
cursor.execute(f"PRAGMA table_info({'Presc'});")

columns = cursor.fetchall()
for column in columns:
    print(column)

(0, 'uuid', 'TEXT', 0, None, 0)
(1, 'prescricao', 'INTEGER', 0, None, 0)
(2, 'prontuario', 'INTEGER', 0, None, 0)
(3, 'data_atendimento', 'TEXT', 0, None, 0)
(4, 'idade_anos', 'INTEGER', 0, None, 0)
(5, 'idade_meses', 'INTEGER', 0, None, 0)
(6, 'idade_dias', 'INTEGER', 0, None, 0)
(7, 'procedimento', 'TEXT', 0, None, 0)
(8, 'id_profissional', 'TEXT', 0, None, 0)
(9, 'sequencia', 'INTEGER', 0, None, 0)
(10, 'itemseq', 'INTEGER', 0, None, 0)
(11, 'item', 'INTEGER', 0, None, 0)
(12, 'descricao', 'TEXT', 0, None, 0)
(13, 'apresentacao', 'TEXT', 0, None, 0)
(14, 'unidade', 'TEXT', 0, None, 0)
(15, 'dose_qtde', 'REAL', 0, None, 0)
(16, 'dose_unidade', 'TEXT', 0, None, 0)
(17, 'via', 'TEXT', 0, None, 0)
(18, 'intervalo', 'TEXT', 0, None, 0)
(19, 'sequencia_horario', 'INTEGER', 0, None, 0)
(20, 'aprazado', 'TEXT', 0, None, 0)
(21, 'observacao', 'TEXT', 0, None, 0)
(22, 'esquema', 'TEXT', 0, None, 0)
(23, 'velocidade', 'TEXT', 0, None, 0)
(24, 'tipo_prescricao', 'TEXT', 0, None, 0)
(25, 'data_t

In [7]:
cursor.execute(f"SELECT * FROM {'Presc'} LIMIT 5;")
result = cursor.fetchall()

for row in result:
    print(row)

('e2a8a5f0-0090-4393-9c74-4af16c2fac1e', 1318746, 10163814, '2015-08-29 00:00:00.000', 65, 6, 6, '303060212#TRATAMENTO DE INSUFICIENCIA CARDIACA ', '37070872-2e39-4aec-a420-a4334b688bc1', 0, 5, 17501, 'DipiRONA 500 mg', 'COMP', 'COMP', 2.0, 'COMP', 'VO', 'SE NECESSARIO', 0, 'S', 'ATÉ DE 6/6 HORAS, SE DOR OU TAX >38,3ºC ', ' ', ' ', '1', '2016-01-16 12:24:00', 17501, 'DipiRONA 500 mg', 'COMP', 'COMP', 2.0, 'COMP', 'VO', 'SE NECESSARIO', 0, 1, 2.0, None, None, None, None, None)
('3bc7d6cc-650c-47fe-b840-4cea6a3c2a60', 1318746, 10163814, '2015-08-29 00:00:00.000', 65, 6, 6, '303060212#TRATAMENTO DE INSUFICIENCIA CARDIACA ', '37070872-2e39-4aec-a420-a4334b688bc1', 0, 5, 17501, 'DipiRONA 500 mg', 'COMP', 'COMP', 2.0, 'COMP', 'VO', 'SE NECESSARIO', 0, 'S', 'ATÉ DE 6/6 HORAS, SE DOR OU TAX >38,3ºC ', ' ', ' ', '1', '2016-01-16 12:24:00', 17501, 'DipiRONA 500 mg', 'COMP', 'COMP', 2.0, 'COMP', 'VO', 'SE NECESSARIO', 0, 1, 2.0, None, None, None, None, None)
('e2a8a5f0-0090-4393-9c74-4af16c2fac1e

## Large Language Models (LLMs)
Large Language Model é um arquétipo de inteligência artificial treinado com enormes volumes de dados textuais e capaz de entender e gerar linguagem natural de forma sofisticada, sendo apto a realizar tarefas dos mais variados tipos. As LLMs - devido à sua natureza capaz de interpretar muito bem a linguagem humana - mudaram o paradigma com o que se faz Text-to-SQL. Modelos cada vez mais avançados revolucionam diversas aplicações. Eles conseguem identificar palavras-chave, compreender a estrutura do banco de dados e gerar consultas que correspondam à intenção do usuário. Sendo assim, constituem uma parte fundamental do processo obtenção de queries SQL e por isso grande parte do esforço da aplicação se concentra em ajustar os inputs fornecidos para os modelos

## In-context Learning (ICL)
Levando em consideração essa necessidade de ajuste do texto fornecido como entrada para as LLMs, o In-context Learning surge uma técnica poderosa que permite aprimorar a capacidade de geração de outputs.

Esse método consiste em fornecer ao modelo um contexto adicional - através de linguagem natural - que facilita a compreensão da tarefa a ser realizada. A informação extra vem no formato de demonstrações e exemplos. Através deles é possível que LLMs previamente treinadas sejam ajustadas para afazeres específicos, como a geração de queries SQL, sem atualização de pesos e, portanto, de forma mais eficiente em termos de custo computacional.

Outro ponto importante é que in-context learning também facilita a interação com o usuário, uma vez que a linguagem natural é mais intuitiva e acessível, tornando possível uma condução orgânica e inteligente durante o processo. À vista disso, há um benefício duplo: aprimoramento da performance a partir de expertise humano e maior facilidade de uso.

ICL se destaca por não necessitar uma fase adicional de treinamento, de maneira oposta ao aprendizado supervisionado. Sendo assim, são dispensadas a necessidade de um dataset rotulado e múltiplas iterações de backpropagation. Ao invés disso, a ideia é se aproveitar da capacidade intrínsica das LLMs de interpretação de linguagem natural - provinda de seu treinamento prévio - para encaminhar a tarefa a ser realizada através de uma trilha bem definida, evitando respostas incorretas e alucinações.

Em suma, pode-se dizer que o In-context Learning é uma técnica aplicada ao input de LLMs que se utiliza de analogias a partir de exemplos fornecidos para aprimorar a capacidade de geração de outputs para tarefas específicas, sem a necessidade de ajuste de parâmetros e com conhecimento não persistente.

### Tipos de In-context Learning
A maneira de se aplicar ICL varia de acordo com a tarefa a ser realizada e também com a natureza do modelo utilizado. Para atividades simples, é possível fornecer poucos exemplos como input, enquanto aquelas mais complexas requerem um número elevado de demonstrações, acompanhadas de um maior custo de processamento. De modo semelhante, LLMs com mais parâmetros tendem a ter resultados satisfatórios mesmo com quantidades baixas de amostras. Isso se deve ao fato de que modelos mais complexos possuem maior capacidade de generalização e, portanto, "conseguem aprender mais com menos dados".

Sendo assim, a seguir são apresentados os tipos de In-context Learning mais comuns:\
- Zero-shot learning: é o tipo mais simples de ICL, no qual é fornecido como input somente o comando a ser executado, com pouca ou nenhuma informação de contexto, além de uma descrição da tarefa em linguagem natural; (INSERIR EXEMPLO)
- One-shot learning: Nesse caso, além da descrição da tarefa, um exemplo de input e output é fornecido, como meio de demonstração a fim de guiar o modelo no processo de geração;
- Few-shot learning: Similar ao one-shot learning, porém com um número maior de exemplos fornecidos, o que permite um contexto mais rico e, na maioria das vezes, resultados mais precisos;

### Prompt Engineering
Na prática, a aplicação de In-context Learning se dá através de um processo chamado Prompt Engineering. O "prompt" é o input fornecido ao modelo, que contém a descrição da tarefa, exemplos de entrada e saída propostos pelo ICL e, por vezes, informações adicionais de contexto que auxiliam na compreensão do problema a ser resolvido.
Esse método consiste em ajustar o texto fornecido à LLM com o objetivo de extrair dela a melhor performance possível. O processo é chamado de engenharia devido à sua natureza sistemática, com finalidade de projetar, ajustar e otimizar prompts que orientam os modelos a produzir resultados específicos e com alta qualidade.

O processo de Prompt Engineering é fundamental para o sucesso da tarefa a ser executada, uma vez que as LLMs são sensíveis a pequenas variações no input, o que pode resultar em outputs inesperados. Ele também é responsável por dar ao ICL uma forma bem definida, ou seja, determina em que formato os exemplos devem ser fornecidos, como eles devem ser apresentados e também a sua interação com o restante do contexto e descrição da tarefa.

### Fine-tuning

### Pilares de Text-to-SQL


## Queries utilizadas em linguagem natural

In [8]:
Queries = [
    "What is the total number of prescriptions in the database?",
    "Which is the most common prescription in the database?",
    "Which professional has the most prescriptions in the database?",
    "Which is the most common age in years for prescriptions in the database?",
    "Show me the prescriptions for patients older than 50 years.",
    "Show me the prescription with ID 1234.",
    "What is the average age of patients in the database?",
    "Select the prescriptions given by professional with ID 4321.",
    "Select the 10 professionals with the most prescriptions.",
    "Select the 10 most common prescriptions."
]

Golden_queries = [
    "SELECT COUNT(*) FROM Presc;",
    "SELECT COUNT(*) FROM Presc GROUP BY Presc ORDER BY COUNT(*) DESC LIMIT 1;",
    "SELECT COUNT(*) FROM Presc GROUP BY Profissional ORDER BY COUNT(*) DESC LIMIT 1;",
    "SELECT COUNT(*) FROM Presc GROUP BY Idade ORDER BY COUNT(*) DESC LIMIT 1;",
    "SELECT * FROM Presc WHERE Idade > 50;",
    "SELECT * FROM Presc WHERE ID = 1234;",
    "SELECT AVG(Idade) FROM Presc;",
    "SELECT * FROM Presc WHERE Profissional = 4321;",
    "SELECT COUNT(*) FROM Presc GROUP BY Profissional ORDER BY COUNT(*) DESC LIMIT 10;",
    "SELECT COUNT(*) FROM Presc GROUP BY Presc ORDER BY COUNT(*) DESC LIMIT 10;"
]

## Prompts Zero-shot

In [42]:
prompts = []

In [43]:
# Example of Text Representation Prompt
text_representation_prompt = """Given the following database schema :
Prescriptions:
    prescricao,
    prontuario,
    data_atendimento,
    idade_anos,
    idade_meses,
    idade_dias,
    procedimento,
    id_profissional,
    sequencia,
    itemseq,
    item,
    descricao,
    apresentacao,
    unidade,
    dose_qtde,
    dose_unidade,
    via,
    intervalo,
    sequencia_horario,
    aprazado,
    observacao,
    esquema,
    velocidade,
    tipo_prescricao,
    data_timestamp,
    item_prescrito,
    descricao_prescrita,
    apresentacao_prescrita,
    unidade_prescrita,
    dose_qtde_prescrita,
    dose_unidade_prescrita,
    via_prescrita,
    intervalo_prescrito,
    sequencia_horario_2,
    qtde_esquema,
    qtde_total,
    data_atendimento_1,
    idade_anos_1,
    idade_meses_1,
    idade_dias_1,
    procedimento_1

    Answer the following : {}

    ### Response:
"""
prompts.append(text_representation_prompt)

In [44]:
# Define Alpaca-style prompt template
alpaca = """Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
"Provide the SQL query",

### Input:
{}

### Response:
"""
prompts.append(alpaca)

In [45]:
# Example of Code Representation Prompt

code_representation_prompt = """Given the following database schema:
CREATE TABLE Prescriptions (
    uuid TEXT,
    prescricao INTEGER,
    prontuario INTEGER,
    data_atendimento TEXT,
    idade_anos INTEGER,
    idade_meses INTEGER,
    idade_dias INTEGER,
    procedimento TEXT,
    id_profissional TEXT,
    sequencia INTEGER,
    itemseq INTEGER,
    item INTEGER,
    descricao TEXT,
    apresentacao TEXT,
    unidade TEXT,
    dose_qtde REAL,
    dose_unidade TEXT,
    via TEXT,
    intervalo TEXT,
    sequencia_horario INTEGER,
    aprazado TEXT,
    observacao TEXT,
    esquema TEXT,
    velocidade TEXT,
    tipo_prescricao TEXT,
    data_timestamp TEXT,
    item_prescrito INTEGER,
    descricao_prescrita TEXT,
    apresentacao_prescrita TEXT,
    unidade_prescrita TEXT,
    dose_qtde_prescrita REAL,
    dose_unidade_prescrita TEXT,
    via_prescrita TEXT,
    intervalo_prescrito TEXT,
    sequencia_horario_2 INTEGER,
    qtde_esquema INTEGER,
    qtde_total REAL,
    data_atendimento_1 REAL,
    idade_anos_1 REAL,
    idade_meses_1 REAL,
    idade_dias_1 REAL,
    procedimento_1 REAL,
    PRIMARY KEY (uuid)
);

Answer the following question with an SQL query:
{}

### Response:
"""
prompts.append(code_representation_prompt)

In [46]:
# Example of OpenAI Demostration Prompt
open_ai_demonstration_prompt = """### Complete sqlite SQL query only and with no explanation
### SQLite SQL tables , with their properties :
prescriptions(uuid, prescricao, prontuario, data_atendimento, idade_anos, idade_meses, idade_dias, procedimento, id_profissional, sequencia, itemseq, item, descricao, apresentacao, unidade, dose_qtde, dose_unidade, via, intervalo, sequencia_horario, aprazado, observacao, esquema, velocidade, tipo_prescricao, data_timestamp, item_prescrito, descricao_prescrita, apresentacao_prescrita, unidade_prescrita, dose_qtde_prescrita, dose_unidade_prescrita, via_prescrita, intervalo_prescrito, sequencia_horario_2, qtde_esquema, qtde_total, data_atendimento_1, idade_anos_1, idade_meses_1, idade_dias_1, procedimento_1)

### {}

### Response:
"""
prompts.append(open_ai_demonstration_prompt)

## Prompts Few-shot

In [54]:
prompts_few_shot = []

In [55]:
full_information_organization = """/* Given the following database schema : */
CREATE TABLE Authors (
    author_id INTEGER PRIMARY KEY AUTOINCREMENT,
    name TEXT NOT NULL,
    birth_year INTEGER,
    nationality TEXT
);

CREATE TABLE Books (
    book_id INTEGER PRIMARY KEY AUTOINCREMENT,
    title TEXT NOT NULL,
    publication_year INTEGER,
    author_id INTEGER,
    FOREIGN KEY (author_id) REFERENCES Authors(author_id)
);
/* Answer the following : How many authors are there ? */
SELECT count (*) FROM authors

/* Given the following database schema : */
CREATE TABLE Actors (
    actor_id INTEGER PRIMARY KEY AUTOINCREMENT,
    name TEXT NOT NULL,
    birth_year INTEGER,
    nationality TEXT
);

CREATE TABLE Movies (
    movie_id INTEGER PRIMARY KEY AUTOINCREMENT,
    title TEXT NOT NULL,
    release_year INTEGER
);

CREATE TABLE Movie_Cast (
    actor_id INTEGER,
    movie_id INTEGER,
    role TEXT,
    PRIMARY KEY (actor_id, movie_id),
    FOREIGN KEY (actor_id) REFERENCES Actors(actor_id),
    FOREIGN KEY (movie_id) REFERENCES Movies(movie_id)
);
/* Answer the following : Which actor participated in the most movies?*/
SELECT a.actor_id, a.name, COUNT(mc.movie_id) AS movie_count
FROM Actors a
JOIN Movie_Cast mc ON a.actor_id = mc.actor_id
GROUP BY a.actor_id, a.name
ORDER BY movie_count DESC
LIMIT 1;

{}
"""
prompts_few_shot.append(full_information_organization)

In [56]:
sql_only_organization = """/* Some SQL examples are provided based on similar
problems : */

/* Answer the following : How many authors are there ? */
SELECT count (*) FROM authors

/* Answer the following : How many farms are there ? . */
SELECT count (*) FROM farm

{}
"""
prompts_few_shot.append(sql_only_organization)

In [57]:
dail_organization = """/* Some SQL examples are provided based on similar
problems : */
SELECT count (*) FROM authors

SELECT count (*) FROM farm

{}
"""

## Definição do Primeiro Modelo

In [14]:
# model_name = "Sumitp/Text_to_SQL_BART_sumit1"

# tokenizer = AutoTokenizer.from_pretrained(model_name)
# model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

In [15]:
# cursor.execute(f"SELECT COUNT(*) FROM {'Presc'}")
# result = cursor.fetchall()

# print(result)

## Segundo Modelo

In [16]:
# import torch
# from transformers import T5Tokenizer, T5ForConditionalGeneration

# torch.cuda.empty_cache()

# # Initialize the tokenizer from Hugging Face Transformers library
# tokenizer = T5Tokenizer.from_pretrained('t5-small')

# # Load the model
# device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
# model = T5ForConditionalGeneration.from_pretrained('cssupport/t5-small-awesome-text-to-sql')
# model = model.to(device)
# model.eval()
# ;


In [17]:
# def generate_sql(input_prompt):
#     # Tokenize the input prompt
#     inputs = tokenizer(input_prompt, padding=True, truncation=True, return_tensors="pt").to(device)

#     # Forward pass
#     with torch.no_grad():
#         outputs = model.generate(**inputs, max_length=512)

#     # Decode the output IDs to a string (SQL query in this case)
#     generated_sql = tokenizer.decode(outputs[0], skip_special_tokens=True)

#     torch.cuda.empty_cache()
#     return generated_sql

In [18]:
# # Test the function
# #input_prompt = "tables:\n" + "CREATE TABLE Catalogs (date_of_latest_revision VARCHAR)" + "\n" +"query for: Find the dates on which more than one revisions were made."
# #input_prompt = "tables:\n" + "CREATE TABLE table_22767 ( \"Year\" real, \"World\" real, \"Asia\" text, \"Africa\" text, \"Europe\" text, \"Latin America/Caribbean\" text, \"Northern America\" text, \"Oceania\" text )" + "\n" +"query for:what will the population of Asia be when Latin America/Caribbean is 783 (7.5%)?."
# #input_prompt = "tables:\n" + "CREATE TABLE procedures ( subject_id text, hadm_id text, icd9_code text, short_title text, long_title text ) CREATE TABLE diagnoses ( subject_id text, hadm_id text, icd9_code text, short_title text, long_title text ) CREATE TABLE lab ( subject_id text, hadm_id text, itemid text, charttime text, flag text, value_unit text, label text, fluid text ) CREATE TABLE demographic ( subject_id text, hadm_id text, name text, marital_status text, age text, dob text, gender text, language text, religion text, admission_type text, days_stay text, insurance text, ethnicity text, expire_flag text, admission_location text, discharge_location text, diagnosis text, dod text, dob_year text, dod_year text, admittime text, dischtime text, admityear text ) CREATE TABLE prescriptions ( subject_id text, hadm_id text, icustay_id text, drug_type text, drug text, formulary_drug_cd text, route text, drug_dose text )" + "\n" +"query for:" + "what is the total number of patients who were diagnosed with icd9 code 2254?"
# input_prompt = "tables:\n" + "CREATE TABLE student_course_attendance (student_id VARCHAR); CREATE TABLE students (student_id VARCHAR)" + "\n" + "query for:" + "List the id of students who never attends courses?"
# # input_prompt = alpaca.format(
# #     "Provide the SQL query",
# #     "List the id of students who never attends courses?"
# # )

# generated_sql = generate_sql(input_prompt)

# print(f"The generated SQL query is: {generated_sql}")
# #OUTPUT: The generated SQL query is: SELECT student_id FROM students WHERE NOT student_id IN (SELECT student_id FROM student_course_attendance)

## Modelo Escolhido: QuantFactory/Meta-Llama-3.1-8B-Text-to-SQL-GGUF
O modelo Meta-Llama-3.1-8B-Text-to-SQL-GGUF conta com 8,03 bilhões de parâmetros e é uma versão quantizada do Meta-Llama-3.1-8B, ajustada especificamente para tarefas de conversão de texto em linguagem natural para consultas SQL. Desenvolvido por QuantFactory, este modelo utiliza quantização de 4 bits para otimizar a eficiência durante a inferência, mantendo um desempenho robusto na geração de linguagem natural.

In [19]:
import torch

In [20]:
def generate_text(prompt, model, tokenizer, device):
    torch.cuda.empty_cache()

    # Tokenize the prompt and generate text
    inputs = tokenizer([prompt], return_tensors="pt").to(device)
    outputs = model.generate(**inputs, max_new_tokens=64, use_cache=True)

    # Decode the generated text
    generated_text = tokenizer.batch_decode(outputs, skip_special_tokens=True)[0]

    # Extract the generated response only (remove the prompt part)
    # response_start = generated_text.find("### Response:") + len("### Response:\n")
    # response = generated_text[response_start:].strip()

    # return the response (excluding the prompt)
    torch.cuda.empty_cache()
    return generated_text

In [21]:
from transformers import AutoModelForCausalLM, AutoTokenizer

# Load the model and tokenizer
model_name = "ruslanmv/Meta-Llama-3.1-8B-Text-to-SQL"
torch.cuda.empty_cache()

# Ensure you have the right device setup
device = torch.device("cuda")

# Load the model and tokenizer from the Hugging Face Hub
model_meta_llm_8 = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", torch_dtype=torch.float16)
tokenizer_meta_llm_8 = AutoTokenizer.from_pretrained(model_name)

# Initialize the tokenizer (adjust the model name as needed)
# Define EOS token for terminating the sequences
EOS_TOKEN = tokenizer_meta_llm_8.eos_token
print(device)

Loading checkpoint shards: 100%|██████████| 4/4 [00:02<00:00,  1.36it/s]
Some parameters are on the meta device because they were offloaded to the cpu.


cuda


In [49]:
alpaca_prompt = alpaca.format(
    "Select all columns from the table `table1` where the column idade_anos is greater than 50"
)

response = generate_text(alpaca_prompt, model_meta_llm_8, tokenizer_meta_llm_8, device)
# Print the response (excluding the prompt)
print(response)

Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
"Provide the SQL query",

### Input:
Select all columns from the table `table1` where the column idade_anos is greater than 50

### Response:
SELECT * FROM table1 WHERE idade_anos > 50



In [24]:
code_representation_prompt_2 = code_representation_prompt.format(
    "What is the total number of prescriptions in the database?"
)
response = generate_text(code_representation_prompt_2, model_meta_llm_8, tokenizer_meta_llm_8, device)
print(response)


Given the following database schema:
CREATE TABLE Prescriptions (
    uuid TEXT,
    prescricao INTEGER,
    prontuario INTEGER,
    data_atendimento TEXT,
    idade_anos INTEGER,
    idade_meses INTEGER,
    idade_dias INTEGER,
    procedimento TEXT,
    id_profissional TEXT,
    sequencia INTEGER,
    itemseq INTEGER,
    item INTEGER,
    descricao TEXT,
    apresentacao TEXT,
    unidade TEXT,
    dose_qtde REAL,
    dose_unidade TEXT,
    via TEXT,
    intervalo TEXT,
    sequencia_horario INTEGER,
    aprazado TEXT,
    observacao TEXT,
    esquema TEXT,
    velocidade TEXT,
    tipo_prescricao TEXT,
    data_timestamp TEXT,
    item_prescrito INTEGER,
    descricao_prescrita TEXT,
    apresentacao_prescrita TEXT,
    unidade_prescrita TEXT,
    dose_qtde_prescrita REAL,
    dose_unidade_prescrita TEXT,
    via_prescrita TEXT,
    intervalo_prescrito TEXT,
    sequencia_horario_2 INTEGER,
    qtde_esquema INTEGER,
    qtde_total REAL,
    data_atendimento_1 REAL,
    idade_anos_1

In [25]:
open_ai_demonstration_prompt_2 = open_ai_demonstration_prompt.format(
    "What is the total number of prescriptions in the database?"
)
response = generate_text(open_ai_demonstration_prompt_2, model_meta_llm_8, tokenizer_meta_llm_8, device)

In [26]:
print(response)

### Complete sqlite SQL query only and with no explanation
### SQLite SQL tables, with their properties :
prescriptions(uuid, prescricao, prontuario, data_atendimento, idade_anos, idade_meses, idade_dias, procedimento, id_profissional, sequencia, itemseq, item, descricao, apresentacao, unidade, dose_qtde, dose_unidade, via, intervalo, sequencia_horario, aprazado, observacao, esquema, velocidade, tipo_prescricao, data_timestamp, item_prescrito, descricao_prescrita, apresentacao_prescrita, unidade_prescrita, dose_qtde_prescrita, dose_unidade_prescrita, via_prescrita, intervalo_prescrito, sequencia_horario_2, qtde_esquema, qtde_total, data_atendimento_1, idade_anos_1, idade_meses_1, idade_dias_1, procedimento_1)

### What is the total number of prescriptions in the database?

### Response:
SELECT COUNT(*) FROM prescriptions;

### How many prescriptions are there for the following professions: cardiologist, dermatologist, and gynecologist?

### Response:
SELECT COUNT(*) FROM prescriptions 

In [27]:
text_representation_prompt_2 = text_representation_prompt.format(
    "What is the total number of prescriptions in the database? The answer should be in the form of an SQL query and should be presented in a single line"
)
response = generate_text(text_representation_prompt_2, model_meta_llm_8, tokenizer_meta_llm_8, device)

In [28]:
print(response)

Given the following database schema :
Prescriptions:
    prescricao,
    prontuario,
    data_atendimento,
    idade_anos,
    idade_meses,
    idade_dias,
    procedimento,
    id_profissional,
    sequencia,
    itemseq,
    item,
    descricao,
    apresentacao,
    unidade,
    dose_qtde,
    dose_unidade,
    via,
    intervalo,
    sequencia_horario,
    aprazado,
    observacao,
    esquema,
    velocidade,
    tipo_prescricao,
    data_timestamp,
    item_prescrito,
    descricao_prescrita,
    apresentacao_prescrita,
    unidade_prescrita,
    dose_qtde_prescrita,
    dose_unidade_prescrita,
    via_prescrita,
    intervalo_prescrito,
    sequencia_horario_2,
    qtde_esquema,
    qtde_total,
    data_atendimento_1,
    idade_anos_1,
    idade_meses_1,
    idade_dias_1,
    procedimento_1

    Answer the following : What is the total number of prescriptions in the database? The answer should be in the form of an SQL query and should be presented in a single line

    ### Respo

## Análise dos Resultados

In [29]:
import re

def extract_sql_query(response: str):
    match = re.search(r"(?i)^SELECT.*", response, re.MULTILINE)
    return match.group(0) if match else None

In [47]:
for query in Queries:
    for prompt in prompts:
        response = generate_text(prompt.format(query), model_meta_llm_8, tokenizer_meta_llm_8, device)
        sql_query = extract_sql_query(response)
        print(f"NL Query: {query}\nSQL Query: {sql_query}\n", end="\n\n")



NL Query: What is the total number of prescriptions in the database?
SQL Query: None


NL Query: What is the total number of prescriptions in the database?
SQL Query: SELECT COUNT(*) FROM prescriptions


NL Query: What is the total number of prescriptions in the database?
SQL Query: SELECT COUNT(*) FROM Prescriptions;


NL Query: What is the total number of prescriptions in the database?
SQL Query: SELECT COUNT(*) FROM prescriptions


NL Query: Which is the most common prescription in the database?
SQL Query: None


NL Query: Which is the most common prescription in the database?
SQL Query: SELECT prescription FROM prescriptions GROUP BY prescription ORDER BY COUNT DESC LIMIT 1;


NL Query: Which is the most common prescription in the database?
SQL Query: SELECT


NL Query: Which is the most common prescription in the database?
SQL Query: SELECT DISTINCT procedimento FROM prescriptions


NL Query: Which professional has the most prescriptions in the database?
SQL Query: None


NL Query

In [58]:
for query in Queries:
    for prompt in prompts_few_shot:
        response = generate_text(prompt.format(query), model_meta_llm_8, tokenizer_meta_llm_8, device)
        sql_query = extract_sql_query(response)
        print(f"NL Query: {query}\nSQL Query: {sql_query}\n", end="\n\n")

NL Query: What is the total number of prescriptions in the database?
SQL Query: SELECT count (*) FROM authors


NL Query: What is the total number of prescriptions in the database?
SQL Query: SELECT count (*) FROM authors


NL Query: Which is the most common prescription in the database?
SQL Query: SELECT count (*) FROM authors


NL Query: Which is the most common prescription in the database?
SQL Query: SELECT count (*) FROM authors


NL Query: Which professional has the most prescriptions in the database?
SQL Query: SELECT count (*) FROM authors


NL Query: Which professional has the most prescriptions in the database?
SQL Query: SELECT count (*) FROM authors


NL Query: Which is the most common age in years for prescriptions in the database?
SQL Query: SELECT count (*) FROM authors


NL Query: Which is the most common age in years for prescriptions in the database?
SQL Query: SELECT count (*) FROM authors


NL Query: Show me the prescriptions for patients older than 50 years.
SQL Qu

## Conclusões

In [None]:
# connection.close()