# Geração de Pares de Perguntas e SQL

## Pipelinde de Aumento de Dados

**Fonte:**
Li, H., Zhang, J., Liu, H., Fan, J., Zhang, X., Zhu, J., Wei, R., Pan, H., Li, C., & Chen, H. (2024). CodeS: Towards building open-source language models for text-to-SQL. Proceedings of the ACM on Management of Data, 2(3), Article 127. https://doi.org/10.1145/3654930

A abordagem parte de um conjunto inicial de pares (pergunta em linguagem natural, consulta SQL correspondente) e busca expandi-lo para gerar uma base mais ampla e representativa. Essa expansão foi pensada para especializar modelos de Text-to-SQL em domínios específicos, como o nosso caso com o ecossistema do DataSUS.


### Etapas do Pipeline

<img src="assets/codesPipeline.png" width="500">

#### **Conjunto Inicial**
Reúne-se um pequeno conjunto de pares (pergunta, SQL) que servirá como referência para expansão.

#### **Geração de Novas Perguntas**
Um modelo gera variações de perguntas baseadas nas originais, preservando a intenção, mas aumentando a diversidade.

#### **Geração das Consultas SQL Sintetizadas**
O mesmo modelo produz a consulta SQL correspondente para cada nova pergunta gerada.

#### **Conjunto Ampliado**
O resultado é um conjunto maior de pares realistas, adequado para treinar ou especializar modelos de Text-to-SQL para o domínio do DataSUS.

## Como Estamos Fazendo

<img src="assets/ourPipeline.png" width="500">

A diferença é que utilizamos LLMs para gerar um conjunto de perguntas em linguagem natural que fizessem sentido com os datasets do DataSUS. Com isso, fizemos um processo de curadoria, onde retirávamos consultas muito similares, perguntas que não faziam sentido ou que não estavam de acordo com o schema do banco de dados.

In [1]:
from sample import show_queries, selected_queries

show_queries(selected_queries)

### Aumento de Dados

Utilizamos um LLM para gerar 5 paráfrases para cada pergunta original, dando flexibilidade para mudar a estrutura da frase, mas mantendo o significado. Também deixamos livres para o modelo modificar valores específicos (como anos/números) para aumentar a diversidade das perguntas, sem contar que configuramos uma temperatura mais alta para incentivar uma geração mais variada.

Exemplos de gerações:

In [2]:
from sample import show_generated_queries, generated_queries

show_generated_queries(generated_queries)

### Situação Atual

Tínhamos um conjunto inicial de 20 pares. Com esse pipelines, conseguimos aumentar para 116.

### Avaliação da Qualidade das Paráfrases
Para fazer a avaliação da qualidade das paráfrases geradas, utilizamos três métricas distintas: Cross-Encoder, SBERT e BLEU. A seguir, apresentamos uma análise detalhada dos resultados obtidos com cada uma dessas métricas.

In [3]:
from ParaphraseEvaluator import ParaphraseEvaluator
from generated_queries import generated_queries

pairs = [(x["original_nl_query"], x["nl_query"]) for x in generated_queries]

evaluator = ParaphraseEvaluator()
evaluator.evaluate_and_print(pairs)

  from .autonotebook import tqdm as notebook_tqdm


## Conclusão

Interpretamos que quanto menor a pontuação do BLEU, maior a diversidade da paráfrase em relação à pergunta original. Já as pontuações do Cross-Encoder e SBERT indicam o quão semelhante semanticamente a paráfrase está em relação à pergunta original, ou seja, quanto maior a pontuação, mais similar semanticamente são as frases.

Nosso objetivo era gerar paráfrases que fossem semanticamente semelhantes às perguntas originais, mas que apresentassem uma diversidade estrutural significativa. Com base nas pontuações obtidas, podemos concluir que o pipeline de aumento de dados foi eficaz em atingir esse objetivo. As paráfrases geradas apresentaram uma boa similaridade semântica com as perguntas originais, conforme indicado pelas pontuações do Cross-Encoder e SBERT, ao mesmo tempo em que mantiveram uma diversidade estrutural, evidenciada pela pontuação do BLEU. Isso sugere que o método utilizado para gerar as paráfrases foi bem-sucedido em equilibrar a fidelidade semântica com a diversidade linguística, resultando em um conjunto de dados enriquecido e variado.
g