# APRENDENDO SOBRE TTQ - TEXT TO QUERY  

Frameworks de agentes s√£o fascinantes! Eles permitem a execu√ß√£o de uma s√©rie de tarefas que antes eram extremamente complicadas ‚Äî ou at√© mesmo imposs√≠veis. Trabalho criando consultas em bancos de dados desde 2018 e, quando os LLMs foram lan√ßados, logo me perguntei:  

> Ser√° que √© poss√≠vel pedir para uma LLM gerar uma consulta SQL e execut√°-la? ü§î  

Bem, √© exatamente isso que vou testar neste notebook.  

---  

## **Objetivo**  

Uma das minhas principais atividades √© digitalizar e automatizar processos de neg√≥cio. Dentro desse contexto, estabeleci um desafio:  

> Como criar um sistema que responda pelo WhatsApp, interpretando uma solicita√ß√£o em linguagem natural e gerando uma consulta sobre um processo?  

Esse ser√° o objetivo deste estudo. üöÄ

## Importando bibliotecas

In [1]:
from typing import List, Any
import re
import os
import sqlite3
import logging
from datetime import datetime
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import JsonOutputParser
from langchain_groq import ChatGroq
from dotenv import load_dotenv

## Carregando Vari√°veis de Ambiente

In [2]:
load_dotenv()

DB_PATH = "../.db/SQL_AGENT.db"

## Criando logger

In [3]:
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    handlers=[        
        logging.StreamHandler()
    ]
)

LOGGER = logging.getLogger(__name__)

## Criando o banco de dados  

Antes de qualquer coisa, precisamos de um banco com uma tabela e algumas informa√ß√µes para pesquisar.  

Imagine uma empresa que gerencia processos como **Recrutamento**, **Sele√ß√£o**, **Avalia√ß√£o de Desempenho** e **Solicita√ß√£o de F√©rias**, todos mapeados e digitalizados dentro da plataforma Lecom.  

Depois, foi criado um processo que extrai informa√ß√µes importantes sobre esses fluxos e as armazena na tabela `processos_andamento`. Essa ser√° a base de dados utilizada pelo nosso sistema de agentes.  

Vale destacar que tudo isso foi criado de forma gen√©rica, com a ajuda do ChatGPT. ü§ñ

In [7]:
LOGGER.info(f"Iniciando configura√ß√£o do banco de dados em {DB_PATH}")

os.makedirs(os.path.dirname(DB_PATH), exist_ok=True)
LOGGER.info(f"Diret√≥rio verificado/criado: {os.path.dirname(DB_PATH)}")

try:
    conn = sqlite3.connect(DB_PATH)
    cursor = conn.cursor()
    LOGGER.info("Conex√£o com o banco de dados estabelecida com sucesso")
   
    cursor.execute("SELECT name FROM sqlite_master WHERE type='table' AND name='processos_andamento'")
    if cursor.fetchone():
        LOGGER.info("Tabela 'processos_andamento' encontrada - excluindo")
        cursor.execute("DROP TABLE processos_andamento")
        LOGGER.info("Tabela exclu√≠da com sucesso")
    else:
        LOGGER.info("Tabela 'processos_andamento' n√£o existe - cria√ß√£o ser√° realizada")
   
    LOGGER.info("Criando nova tabela 'processos_andamento'")
    cursor.execute("""
    CREATE TABLE processos_andamento (
        ID_Processo_Andamento INTEGER PRIMARY KEY AUTOINCREMENT,
        Codigo_Processo INTEGER NOT NULL,
        Codigo_Atividade INTEGER NOT NULL,
        Nome_Processo TEXT NOT NULL,
        Nome_Atividade TEXT NOT NULL,
        Nome_Cliente TEXT NOT NULL,
        Telefone_Cliente TEXT NOT NULL,
        Descricao_Processo TEXT NOT NULL,
        Data_Atividade DATE NOT NULL
    );
    """)
    LOGGER.info("Tabela criada com sucesso")
   
    dados_iniciais = [
        (1, 101, 'Recrutamento', 'Receber curr√≠culo', 'Jo√£o Silva', '11987654321', 'Recebeu curr√≠culo e iniciou an√°lise.', '2024-03-01'),
        (1, 102, 'Recrutamento', 'Entrevista inicial', 'Jo√£o Silva', '11987654321', 'Entrevista marcada para avalia√ß√£o inicial.', '2024-03-02'),
        (2, 201, 'Sele√ß√£o', 'Teste t√©cnico', 'Maria Oliveira', '11976543210', 'Teste t√©cnico agendado.', '2024-03-03'),
        (2, 202, 'Sele√ß√£o', 'Entrevista final', 'Carlos Pereira', '11965432109', 'Entrevista final marcada.', '2024-03-04'),
        (3, 301, 'Avalia√ß√£o de Desempenho', 'Revis√£o do desempenho', 'Ana Souza', '11954321098', 'Coleta de feedbacks em andamento.', '2024-03-05'),
        (3, 302, 'Avalia√ß√£o de Desempenho', 'Reuni√£o de feedback', 'Carlos Pereira', '11965432109', 'Reuni√£o agendada com gerente.', '2024-03-06'),
        (4, 401, 'Solicita√ß√£o de F√©rias', 'Pedido formalizado', 'Jo√£o Silva', '11987654321', 'Pedido de f√©rias registrado.', '2024-03-07')
    ]
   
    LOGGER.info(f"Inserindo {len(dados_iniciais)} registros na tabela")
    cursor.executemany("""
        INSERT INTO processos_andamento
        (Codigo_Processo, Codigo_Atividade, Nome_Processo, Nome_Atividade, Nome_Cliente, Telefone_Cliente, Descricao_Processo, Data_Atividade)
        VALUES (?, ?, ?, ?, ?, ?, ?, ?)
    """, dados_iniciais)
    LOGGER.info(f"Dados inseridos com sucesso ({len(dados_iniciais)} registros)")
    
    # Verificar n√∫mero de registros inseridos
    cursor.execute("SELECT COUNT(*) FROM processos_andamento")
    count = cursor.fetchone()[0]
    LOGGER.info(f"Total de registros na tabela: {count}")
    
    # Salvar e fechar a conex√£o
    conn.commit()
    LOGGER.info("Altera√ß√µes salvas no banco de dados (commit realizado)")
    conn.close()
    LOGGER.info("Conex√£o com o banco de dados fechada")
    
    LOGGER.info(f"Banco de dados SQLite configurado com sucesso em {DB_PATH}")
    
except sqlite3.Error as e:
    LOGGER.error(f"Erro SQLite: {e}")
except Exception as e:
    LOGGER.error(f"Erro inesperado: {e}")

2025-03-20 17:55:32,456 - INFO - Iniciando configura√ß√£o do banco de dados em ../.db/SQL_AGENT.db
2025-03-20 17:55:32,461 - INFO - Diret√≥rio verificado/criado: ../.db
2025-03-20 17:55:32,465 - INFO - Conex√£o com o banco de dados estabelecida com sucesso
2025-03-20 17:55:32,467 - INFO - Tabela 'processos_andamento' encontrada - excluindo
2025-03-20 17:55:32,490 - INFO - Tabela exclu√≠da com sucesso
2025-03-20 17:55:32,491 - INFO - Criando nova tabela 'processos_andamento'
2025-03-20 17:55:32,525 - INFO - Tabela criada com sucesso
2025-03-20 17:55:32,526 - INFO - Inserindo 7 registros na tabela
2025-03-20 17:55:32,537 - INFO - Dados inseridos com sucesso (7 registros)
2025-03-20 17:55:32,539 - INFO - Total de registros na tabela: 7
2025-03-20 17:55:32,594 - INFO - Altera√ß√µes salvas no banco de dados (commit realizado)
2025-03-20 17:55:32,597 - INFO - Conex√£o com o banco de dados fechada
2025-03-20 17:55:32,598 - INFO - Banco de dados SQLite configurado com sucesso em ../.db/SQL_AGE

### Criando o gerenciador de banco de dados

√ìtimo, agora j√° temos nossa base de dados, vamos criar a classe que ir√° manipular ela.  
Essa classe √© relativamente simples.Possui o m√©todo `get_schema() -> str` que retornar o formato da tabela no banco e o `execute_query(query: str) -> List[Any]` que executa uma query SQL e retorna os resultados.

In [5]:
class DatabaseManager:
    def __init__(self):
        """Inicializa o gerenciador de banco de dados com SQLite."""
        self.db_path = DB_PATH
        self.connection = sqlite3.connect(self.db_path)
        self.connection.row_factory = sqlite3.Row  # Permite acessar os resultados por nome de coluna

    def get_schema(self) -> str:
        """Recupera o esquema do banco de dados SQLite."""
        try:
            cursor = self.connection.cursor()
            cursor.execute("SELECT name, sql FROM sqlite_master WHERE type='table';")
            schema_info = cursor.fetchall()
            
            schema = "\n".join(f"Table: {row['name']}\n{row['sql']}" for row in schema_info if row['sql'])
            return schema
        except sqlite3.DatabaseError as e:
            raise Exception(f"Erro ao obter o esquema do banco de dados: {str(e)}")

    def execute_query(self, query: str) -> List[Any]:
        """Executa uma query SQL no banco SQLite e retorna os resultados."""
        try:
            cursor = self.connection.cursor()
            cursor.execute(query)
            self.connection.commit()

            # Retorna os resultados da consulta, se houver
            if query.strip().lower().startswith("select"):
                return [dict(row) for row in cursor.fetchall()]
            return []
        except sqlite3.DatabaseError as e:
            raise Exception(f"Erro ao executar a consulta: {str(e)}")

    def close(self):
        """Fecha a conex√£o com o banco de dados."""
        self.connection.close()

In [6]:
db_manager = DatabaseManager()

print(db_manager.get_schema())
print("\n"*2 + str(db_manager.execute_query("SELECT * FROM processos_andamento")[0]))

Table: processos_andamento
CREATE TABLE processos_andamento (
    ID_Processo_Andamento INTEGER PRIMARY KEY AUTOINCREMENT,
    CD_Processo INTEGER NOT NULL,
    CD_Atividade INTEGER NOT NULL,
    NM_Processo TEXT NOT NULL,
    NM_Atividade TEXT NOT NULL,
    NM_Cliente TEXT NOT NULL,
    Telefone_Cliente TEXT NOT NULL,
    DS_Processo TEXT NOT NULL,
    DT_Atividade DATE NOT NULL
)
Table: sqlite_sequence
CREATE TABLE sqlite_sequence(name,seq)


{'ID_Processo_Andamento': 1, 'CD_Processo': 1, 'CD_Atividade': 101, 'NM_Processo': 'Recrutamento', 'NM_Atividade': 'Receber curr√≠culo', 'NM_Cliente': 'Jo√£o Silva', 'Telefone_Cliente': '11987654321', 'DS_Processo': 'Recebeu curr√≠culo e iniciou an√°lise.', 'DT_Atividade': '2024-03-01'}


### Criando o gerenciador de LLM

O que deixa os agentes inteligentes √© o LLM, nada mais justo do que termos o nosso.  
Nesse exemplo estou usando o modelo `deepseek-r1-distill-llama-70b` via `GROQ`, pois esse tem um camada *free* muito boa e aquele tem a habilidade de refletir antes de gerar a resposta, bem, vamos ver se isso impacta em algo.

In [7]:
class LLMManager:
    def __init__(self):
        self.llm = ChatGroq(
            model="deepseek-r1-distill-llama-70b",
            api_key=os.getenv("GROQ_API_KEY"),
            temperature=0.1,
            max_retries=2,
        )

    def invoke(self, prompt: ChatPromptTemplate, **kwargs) -> str:
        messages = prompt.format_messages(**kwargs)
        response = self.llm.invoke(messages)
        return response.content

In [8]:
llm_manager = LLMManager()

template = ChatPromptTemplate([
    ("system", "Seu nome √© Brian, voc√™ est√° sempre feliz e alegre, sempre respondendo em PT-BR."),
    ("human", "Ol√°, meu nome √© Rodrigo, e o seu?"),   
])

print(llm_manager.invoke(template))

<think>
Okay, so Rodrigo just introduced himself and asked for my name. I need to respond in a friendly and happy manner. Since I'm supposed to always be cheerful, I should keep the tone upbeat. I should thank him for the greeting and share my name, which is Brian. Maybe add an emoji to keep it lively. Let me put that together.
</think>

Ol√° Rodrigo! Muito prazer em te conhecer! Eu sou o Brian. Como posso te ajudar hoje? üòä


### Analisando a pergunta do usu√°rio

Nosso primeiro Agente dever√° indentificar quais as colunas da tabela s√£o realmente relevantes √† pergunta do usu√°rio.  
Para criar um agente √© necess√°rio se valer de algumas tecnicas, o famigerado Prompting Engeniering, veja algumas das que podem ser encontradas nesse:

- **Defini√ß√£o de Persona**: Consiste em instruir o modelo a adotar um papel ou identidade espec√≠fica, o que pode influenciar seu estilo de resposta e foco.
- **Instru√ß√£o Clara e Espec√≠fica**: Envolve fornecer comandos diretos e detalhados sobre a tarefa que o modelo deve realizar, minimizando ambiguidades.
- **Formato de Sa√≠da Especificado**: Trata-se de definir a estrutura ou o formato desejado para a resposta do modelo, como um tipo de dado espec√≠fico (JSON, lista, etc.).
- **Restri√ß√µes e Regras Detalhadas**: Inclui a defini√ß√£o de limita√ß√µes, condi√ß√µes ou regras espec√≠ficas que o modelo deve seguir ao gerar a resposta.
- **Inje√ß√£o de Contexto**: Refere-se √† pr√°tica de fornecer informa√ß√µes adicionais relevantes para a tarefa, permitindo que o modelo compreenda melhor o cen√°rio.
- **Uso de Delimitadores**: Envolve a utiliza√ß√£o de marcadores para separar diferentes partes da entrada (como instru√ß√µes, contexto e exemplos), facilitando a interpreta√ß√£o pelo modelo.


In [9]:
def analisar_pergunta(pergunta: str) -> dict:
    """Analisa a pergunta do usu√°rio e identifica as tabelas e colunas relevantes."""    
    esquema = db_manager.get_schema()

    prompt = ChatPromptTemplate.from_messages([
        ("system", '''Voc√™ √© um analista de dados que pode ajudar a resumir tabelas SQL e interpretar perguntas de usu√°rios sobre um banco de dados.  
Dada a pergunta e o esquema do banco de dados, identifique as tabelas e colunas relevantes.  
Se a pergunta n√£o for relevante para o banco de dados ou se n√£o houver informa√ß√µes suficientes para respond√™-la, defina "is_relevant" como falso.

Sua resposta deve estar no seguinte formato JSON:
{{
    "is_relevant": boolean,
    "relevant_tables": [
        {{
            "table_name": string,
            "columns": [string],
            "noun_columns": [string]
        }}
    ]
}}

O campo "noun_columns" deve conter apenas as colunas que s√£o relevantes para a pergunta e que cont√™m substantivos ou nomes.  
Por exemplo, a coluna "Nome do Artista" cont√©m substantivos relevantes para a pergunta "Quais s√£o os artistas mais vendidos?",  
mas a coluna "ID do Artista" n√£o √© relevante, pois n√£o cont√©m um substantivo. N√£o inclua colunas que contenham n√∫meros.
'''),
        ("human", "===Esquema do banco de dados:\n{schema}\n\n===Pergunta do usu√°rio:\n{question}\n\nIdentifique as tabelas e colunas relevantes:")
    ])

    analisador_json = JsonOutputParser()
    
    resposta = llm_manager.invoke(prompt, schema=esquema, question=pergunta)
    resposta_analisada = analisador_json.parse(resposta)
    return {"pergunta_analisada": resposta_analisada}


In [38]:
pergunta = "Do que se trada o processo da Ana Souza?"
pergunta_analisada = analisar_pergunta(pergunta)['pergunta_analisada']
print(pergunta_analisada)

{'is_relevant': True, 'relevant_tables': [{'table_name': 'processos_andamento', 'columns': ['NM_Cliente', 'NM_Processo', 'DS_Processo'], 'noun_columns': ['NM_Cliente', 'NM_Processo', 'DS_Processo']}]}


### Encontrando substantivos √∫nicos nas tabelas e colunas relevantes

√â sempre bom dar uma conferida no que um LLM respondeu, essa parte do processo ir√° higienizar o retorno, garantindo que as colunas apare√ßam somente uma vez.

In [39]:
def obter_substantivos_unicos(pergunta_analisada: dict) -> dict:
    """Encontra substantivos √∫nicos nas tabelas e colunas relevantes."""    
    
    if not pergunta_analisada['is_relevant']:
        return {"substantivos_unicos": []}

    substantivos_unicos = set()
    for info_tabela in pergunta_analisada['relevant_tables']:
        nome_tabela = info_tabela['table_name']
        colunas_substantivos = info_tabela['noun_columns']
        
        if colunas_substantivos:
            nomes_colunas = ', '.join(f"`{col}`" for col in colunas_substantivos)
            consulta = f"SELECT DISTINCT {nomes_colunas} FROM `{nome_tabela}`"           
            resultados = db_manager.execute_query(consulta)           
            for linha in resultados:
                substantivos_unicos.update(str(valor) for valor in linha if valor)

    return {"substantivos_unicos": list(substantivos_unicos)}


In [40]:
substantivos_unicos = obter_substantivos_unicos(pergunta_analisada)['substantivos_unicos']
print(substantivos_unicos)

['NM_Cliente', 'NM_Processo', 'DS_Processo']


### Gera uma consulta SQL com base na pergunta analisada e nos substantivos √∫nicos

Sabe quando o filme est√° no seu apse, √© nesse ponto que estamos. Temos a pergunta do usu√°rio, uma analise de colunas relevantes e as colunas higienizadas, ou seja, temos insumos o suficiente para criar uma Agente que ir√° gerar a consulta SQL, *maravilhindo*.

Vamos aproveitar o espa√ßo e falar sobre mais um tecnica de prompt utilizada:

- **Few-shot Prompting (Exemplos)**: Esta t√©cnica envolve fornecer ao modelo alguns exemplos de entradas e suas respectivas sa√≠das desejadas antes da pergunta principal. Isso ajuda o modelo a entender o formato esperado da resposta e a aprender o padr√£o da tarefa, melhorando a qualidade da sua gera√ß√£o.

In [41]:
def gerar_sql(pergunta: str, pergunta_analisada: dict, substantivos_unicos: list) -> dict:
    """Gera uma consulta SQL com base na pergunta analisada e nos substantivos √∫nicos."""  

    if not pergunta_analisada['is_relevant']:
        return {"sql_query": "NOT_RELEVANT", "is_relevant": False}

    esquema = db_manager.get_schema()

    prompt = ChatPromptTemplate.from_messages([
        ("system", '''
Voc√™ √© um assistente de IA que gera consultas SQL com base na pergunta do usu√°rio, no esquema do banco de dados e nos substantivos √∫nicos encontrados nas tabelas relevantes. Gere uma consulta SQL v√°lida para responder √† pergunta do usu√°rio.

Se n√£o houver informa√ß√µes suficientes para escrever uma consulta SQL, responda com "NOT_ENOUGH_INFO".

Aqui est√£o alguns exemplos:

1. Qual √© o produto mais vendido?
Resposta: SELECT product_name, SUM(quantity) as total_quantity FROM sales WHERE product_name IS NOT NULL AND quantity IS NOT NULL AND product_name != "" AND quantity != "" AND product_name != "N/A" AND quantity != "N/A" GROUP BY product_name ORDER BY total_quantity DESC LIMIT 1

2. Qual √© a receita total para cada produto?
Resposta: SELECT \`product name\`, SUM(quantity * price) as total_revenue FROM sales WHERE \`product name\` IS NOT NULL AND quantity IS NOT NULL AND price IS NOT NULL AND \`product name\` != "" AND quantity != "" AND price != "" AND \`product name\` != "N/A" AND quantity != "N/A" AND price != "N/A" GROUP BY \`product name\`  ORDER BY total_revenue DESC

3. Qual √© a participa√ß√£o de mercado de cada produto?
Resposta: SELECT \`product name\`, SUM(quantity) * 100.0 / (SELECT SUM(quantity) FROM sales) as market_share FROM sales WHERE \`product name\` IS NOT NULL AND quantity IS NOT NULL AND \`product name\` != "" AND quantity != "" AND \`product name\` != "N/A" AND quantity != "N/A" GROUP BY \`product name\`  ORDER BY market_share DESC

4. Plote a distribui√ß√£o de renda ao longo do tempo.
Resposta: SELECT income, COUNT(*) as count FROM users WHERE income IS NOT NULL AND income != "" AND income != "N/A" GROUP BY income

OS RESULTADOS DEVEM ESTAR APENAS NO SEGUINTE FORMATO, ENT√ÉO CERTIFIQUE-SE DE INCLUIR APENAS DUAS OU TR√äS COLUNAS:
[[x, y]]
ou 
[[label, x, y]]

Para perguntas como "plote uma distribui√ß√£o das tarifas pagas por homens e mulheres", conte a frequ√™ncia de cada tarifa e plote-a. O eixo x deve ser a tarifa e o eixo y deve ser a contagem de pessoas que pagaram essa tarifa.
IGNORE TODAS AS LINHAS ONDE QUALQUER COLUNA SEJA NULL, "N/A" ou "".
Apenas forne√ßa a string da consulta SQL. N√£o a formate. Certifique-se de usar a grafia correta dos substantivos conforme fornecido na lista de substantivos √∫nicos. Todos os nomes de tabelas e colunas devem estar entre crases.
'''),
        ("human", '''===Esquema do banco de dados:
{schema}

===Pergunta do usu√°rio:
{question}

===Tabelas e colunas relevantes:
{parsed_question}

===Substantivos √∫nicos nas tabelas relevantes:
{unique_nouns}

Gere a string da consulta SQL'''),
    ])

    resposta = llm_manager.invoke(
        prompt, 
        schema=esquema, 
        question=pergunta, 
        parsed_question=pergunta_analisada, 
        unique_nouns=substantivos_unicos
    )

    if resposta.strip() == "NOT_ENOUGH_INFO":
        return {"consulta_sql": "NOT_RELEVANT"}
    else:
        return {"consulta_sql": re.sub(r'<think>.*?</think>\s*', '', resposta, flags=re.DOTALL)} 


In [42]:
consulta_sql = gerar_sql(pergunta, pergunta_analisada, substantivos_unicos)['consulta_sql']
print(consulta_sql)

SELECT NM_Processo, DS_Processo FROM processos_andamento WHERE NM_Cliente = 'Ana Souza' AND NM_Processo IS NOT NULL AND DS_Processo IS NOT NULL AND NM_Processo != "" AND DS_Processo != "" AND NM_Processo != "N/A" AND DS_Processo != "N/A"


### Validando e corrigindo a consulta SQL gerada

Caso sua memoria seja boa, voc√™ se lembra-ra que devemos corrigir a resposta de um LLM, essa tem sido uma boa pr√°tica que a comunidade adotou. Logo, vamos validar se o outro Agente trabalhou como esperado.

As tecnicas utilizadas aqui s√£o mais do mesmo, nada que falha ser mencionado.

In [48]:
def validar_e_corrigir_sql(consulta_sql) -> dict:
        """Valida e corrige a consulta SQL gerada."""      

        if consulta_sql == "NOT_RELEVANT":
            return {"sql_query": "NOT_RELEVANT", "sql_valid": False}
        
        esquema = db_manager.get_schema()

        prompt = ChatPromptTemplate.from_messages([
            ("system", '''
Voc√™ √© um assistente de IA que valida e corrige consultas SQL. Sua tarefa √©:
1. Verificar se a consulta SQL √© v√°lida.
2. Garantir que todos os nomes de tabelas e colunas estejam corretamente escritos e existam no esquema do banco de dados. Todos os nomes de tabelas e colunas devem estar entre crases.
3. Se houver problemas, corrija-os e forne√ßa a consulta SQL corrigida.
4. Se n√£o houver problemas, retorne a consulta original.

Responda no formato JSON com a seguinte estrutura. Responda apenas com o JSON:
{{
    "valid": booleano,
    "issues": string ou null,
    "corrected_query": string
}}
'''),
            ("human", '''===Esquema do banco de dados:
{esquema}

===Consulta SQL gerada:
{consulta_sql}

Responda no formato JSON com a seguinte estrutura. Responda apenas com o JSON:
{{
    "valid": booleano,
    "issues": string ou null,
    "corrected_query": string
}}

Por exemplo:
1. {{
    "valid": true,
    "issues": null,
    "corrected_query": "None"
}}
             
2. {{
    "valid": false,
    "issues": "A coluna USERS n√£o existe",
    "corrected_query": "SELECT * FROM \`users\` WHERE age > 25"
}}

3. {{
    "valid": false,
    "issues": "Os nomes de colunas e tabelas devem estar entre crases se contiverem espa√ßos ou caracteres especiais",
    "corrected_query": "SELECT * FROM \`gross income\` WHERE \`age\` > 25"
}}
             
'''),
        ])

        analisador_saida = JsonOutputParser()
        resposta = llm_manager.invoke(prompt, esquema=esquema, consulta_sql=consulta_sql)
        resposta = re.sub(r'<think>.*?</think>\s*', '', resposta, flags=re.DOTALL)  
        print(resposta)     
        resultado = analisador_saida.parse(resposta)

        if resultado["valid"] and resultado["issues"] is None:
            return {"consulta_sql_analisada": consulta_sql, "sql_valid": True}
        else:
            return {
                "consulta_sql_analisada": resultado["corrected_query"],
                "sql_valid": resultado["valid"],
                "sql_issues": resultado["issues"]
            }


In [49]:
consulta_sql_analisada = validar_e_corrigir_sql(consulta_sql)
print(consulta_sql_analisada)

```json
{
    "valid": false,
    "issues": "Os nomes de colunas e tabelas devem estar entre crases se contiverem espa√ßos ou caracteres especiais",
    "corrected_query": "SELECT `NM_Processo`, `DS_Processo` FROM `processos_andamento` WHERE `NM_Cliente` = 'Ana Souza' AND `NM_Processo` IS NOT NULL AND `DS_Processo` IS NOT NULL AND `NM_Processo` != \"\" AND `DS_Processo` != \"\" AND `NM_Processo` != \"N/A\" AND `DS_Processo` != \"N/A\""
}
```
{'consulta_sql_analisada': 'SELECT `NM_Processo`, `DS_Processo` FROM `processos_andamento` WHERE `NM_Cliente` = \'Ana Souza\' AND `NM_Processo` IS NOT NULL AND `DS_Processo` IS NOT NULL AND `NM_Processo` != "" AND `DS_Processo` != "" AND `NM_Processo` != "N/A" AND `DS_Processo` != "N/A"', 'sql_valid': False, 'sql_issues': 'Os nomes de colunas e tabelas devem estar entre crases se contiverem espa√ßos ou caracteres especiais'}


In [50]:
print(consulta_sql_analisada['consulta_sql_analisada'])

SELECT `NM_Processo`, `DS_Processo` FROM `processos_andamento` WHERE `NM_Cliente` = 'Ana Souza' AND `NM_Processo` IS NOT NULL AND `DS_Processo` IS NOT NULL AND `NM_Processo` != "" AND `DS_Processo` != "" AND `NM_Processo` != "N/A" AND `DS_Processo` != "N/A"


### Executando a consulta SQL gerada

Agora saberemos se o objetvo foi alcan√ßado. Nada de LLM, somente a boa e velha **QUERY**.

In [51]:
def executar_sql(consulta: str) -> dict:
    """Executa a consulta SQL e retorna os resultados."""   
    
    if consulta == "NOT_RELEVANT":
        return {"resultados": "NOT_RELEVANT"}

    try:
        resultados = db_manager.execute_query(consulta)
        return {"resultados": resultados}
    except Exception as e:
        return {"erro": str(e)}

In [52]:
resultados = executar_sql(consulta_sql_analisada['consulta_sql_analisada']) 
print(str(resultados))

{'resultados': [{'NM_Processo': 'Avalia√ß√£o de Desempenho', 'DS_Processo': 'Coleta de feedbacks em andamento.'}]}


In [53]:
# Obt√©m os nomes das colunas
colunas = resultados["resultados"][0].keys()

# Imprime cabe√ßalho
print(" | ".join(colunas))
print("-" * (len(" | ".join(colunas)) + 5))

# Imprime os dados formatados
for linha in resultados["resultados"]:
    print(" | ".join(str(valor) for valor in linha.values()))

NM_Processo | DS_Processo
------------------------------
Avalia√ß√£o de Desempenho | Coleta de feedbacks em andamento.


## Conclus√£o

Aparentemente os resultados foram bons, o processo criado abstrai bem a l√≥gica de cria√ß√£o de um SQL, o LLM conseguiu realizar muito bem sua atividade, e, ao menos para mim, a resposta foi o esperado.

Claro que quanto mais os Agentes forem refinados, mais a resposta ficar√° melhor.

## Pr√≥ximos Passos

Um ponto final s√≥ √© o come√ßo de uma nova frase, seguindo esse analogia, quero continuar evoluindo esse projeto. Algumas funcionalidades que irei implementar:

- Criar um Agente que cria uma resposta para o usu√°rio.
- Criar um Grafo com lang-graf.
- Criar um Chat utilizando Chainlit.
- Quem sabe: Criar um Chatbot no Whatssapp com esse esquema.


## Minhas Limita√ß√µes

Ainda tenho muitas duvidas quanto o processo de criar consultas a partir de texto natural, o TTQ(text to Query) ainda me parece um pouco complicado, mas isso vai melhorar ao longo do tempo.

- Como lidar com v√°rias requisi√ß√µes vindas pelos Whatsapp
- Como manter o contexto em uma conversa, o usu√°rio pode fazer uma pergunta e depois outra.

## Como Imagino Parte da Implementa√ß√£o

J√° parti do principio que existe uma tabela com toda as informa√ß√µes necess√°rias. Por obvio ela dever√° ser criada e as informa√ß√µes carregadas nela de alguma forma. Parte da l√≥gica que us√°ria √© a seguinte:

- Criar a tabela que ir√° receber os processo.
- Cada processo criado dentro da ferramenta √© respons√°vel por registar seu progresso nessa tabela, pode ser com uma integra√ß√£o passagem de etapa.
  - Ao abrir o processo devesse registar o c√≥digo dele nessa tabela
  - Ao passa cada atividade, ou ao menos as mais relevantes para consulta, buscar pela referencia do processo na tabela e atualizar as informa√ß√µes.
- Como algumas informa√ß√µes podem ser somente daquele processo, e n√£o caber em um coluna gen√™rica, pode-se criar uma coluna que contenha um JSON com algumas informa√ß√µes especificas, essas informa√ß√µes podem servir de insumos para o Agente que ir√° criar a resposta.

Para lidar com v√°rias requisi√ß√µes pode ser que de para usar uma fila, por exemplo Kafka.