In [49]:
import os

from langchain_community.utilities import SQLDatabase
from langchain_core.prompts.chat import (ChatPromptTemplate,
                                         SystemMessagePromptTemplate)
from langchain_groq import ChatGroq
from typing_extensions import Annotated, TypedDict

db = SQLDatabase.from_uri(
    "postgresql://postgres:postgres@localhost:5432/postgres"
)

In [None]:
os.environ["GROQ_API_KEY"] = ""

llm = ChatGroq(model="llama3-70b-8192")

In [None]:
class State(TypedDict):
    rule: str
    table: str


class QueryOutput(TypedDict):
    """Generated SQL query."""

    query: Annotated[str, ..., "Syntactically valid SQL query."]


def write_query(state: State):
    """Generate SQL query to fetch information."""

    system_message = SystemMessagePromptTemplate.from_template(
        """
Você é um agente feito para detectar anomalias em uma tabela de série temporal de um banco de dados.
Dada uma regra, você deve criar uma consulta sintaticamente correta para executar e descobrir quais itens da violam a regra.
Lembre-se que cada linha é um lançamento e que a tabela é uma série temporal, ou seja, as linhas estão ordenadas por data de lançamento.
SEMPRE use CTEs ao invés de subconsultas.
A não ser que explicitamente dito, compare cada coluna com as linhas anteriores dela mesma, não com outras colunas.
Se atente ao nome das colunas para não escrevê-las incorretamente.
Referencie apenas as colunas no esquema da tabela fornecido.
Não particione tabelas a não ser que sejam realmente grandes.
Não retorne caracteres como \n, \t, etc.
NÃO FAÇA nenhuma declaração DML (INSERT, UPDATE, DELETE, DROP etc.) no banco.

Gere uma consulta que descubra quais linhas violam a regra: `{rule}`
Essa query irá ser executada em uma tabela com o esquema: {schema}

Se lembre das regras e de que o banco de dados é PostgreSQL.
"""
    )

    prompt = ChatPromptTemplate.from_messages(
        [system_message]
    ).format_messages(
        rule=state["rule"], schema=db.get_table_info([state["table"]])
    )

    structured_llm = llm.with_structured_output(QueryOutput)
    result = structured_llm.invoke(prompt)
    return {"query": result["query"]}


write_query(
    state={
        "rule": "O lançamento não pode ser 30% superior em relação à média dos lançamentos anteriores para cada raça",
        "table": "tb_lactacao",
    }
)

{'query': 'WITH avg_race AS (SELECT raca_holandesa_kg, AVG(raca_holandesa_kg) OVER (ORDER BY semana) AS avg_holandesa, raca_jersey_kg, AVG(raca_jersey_kg) OVER (ORDER BY semana) AS avg_jersey, raca_gir_kg, AVG(raca_gir_kg) OVER (ORDER BY semana) AS avg_gir FROM tb_lactacao) SELECT * FROM tb_lactacao WHERE raca_holandesa_kg > (SELECT avg_holandesa * 1.3 FROM avg_race), raca_jersey_kg > (SELECT avg_jersey * 1.3 FROM avg_race), raca_gir_kg > (SELECT avg_gir * 1.3 FROM avg_race)'}