# VERS√ÉO DO AGENTE QUE USA SOMENTE TABELA FATO_VENDA

### Cria√ß√£o do modelo do agente:

In [0]:
%skip

# =========================================================
# DATAEXPERTS ‚Äî CRIA√á√ÉO DO NL ‚Üí SQL AGENT (SOMENTE FATO)
# =========================================================

import mlflow
from mlflow.pyfunc import PythonModel
from mlflow.models.signature import ModelSignature
from mlflow.types.schema import Schema, ColSpec
from mlflow.deployments import get_deploy_client

# ---------------------------------------------------------
# CONFIGURA√á√ïES
# ---------------------------------------------------------
EXPERIMENT_ID = "4074425516892918"
MODEL_NAME = "dataex_sql_agent"
LLM_ENDPOINT = "databricks-llama-4-maverick"

CATALOG = "dataexperts"
SCHEMA = "gold"
FACT_TABLE = "fato_vendas"

mlflow.set_experiment(experiment_id=EXPERIMENT_ID)

# ---------------------------------------------------------
# ASSINATURA DO MODELO
# ---------------------------------------------------------
input_schema = Schema([
    ColSpec("string", "question")
])

output_schema = Schema([
    ColSpec("string", "sql"),
    ColSpec("string", "answer")
])

signature = ModelSignature(inputs=input_schema, outputs=output_schema)

input_example = {
    "question": "Qual foi o faturamento total por m√™s em 2024?"
}

# ---------------------------------------------------------
# CLIENTE LLM
# ---------------------------------------------------------
client = get_deploy_client("databricks")

# ---------------------------------------------------------
# AGENTE NL ‚Üí SQL
# ---------------------------------------------------------
class DataExSQLAgent(PythonModel):

    @mlflow.trace
    def predict(self, context, model_input):
        question = model_input["question"]

        system_prompt = f"""
Voc√™ √© um agente especialista em SQL no Databricks, focado em consultas ad-hoc de an√°lise de dados.
Tabela dispon√≠vel: {CATALOG}.{SCHEMA}.{FACT_TABLE}
Colunas existentes:
- sk_data
- venda_id
- categoria_id
- quantidade
- preco_lista
- valor_total
- _source_file
- _ingestion_date
- sk_cliente
- sk_produto
- sk_localidade
- ano
- mes

Regras obrigat√≥rias:
- Responda APENAS com a consulta SQL correspondente, sem explica√ß√µes ou texto adicional.
- Use SOMENTE a tabela acima (n√£o utilize outras tabelas).
- Para faturamento, use SUM(valor_total) como total de vendas.
- Para quantidade total, use SUM(quantidade).
- Para contagem de vendas, use COUNT(venda_id).
- Para pre√ßo m√©dio, use AVG(preco_lista).
- Para filtros de data, use as colunas ano e mes (ex: ano = 2024 e mes = 6).
- Comece a consulta sempre com SELECT (comando SQL).
- Use aliases claros (por ex. `f` para fato_vendas).
- Nunca crie colunas ou tabelas que n√£o existem no esquema.
- N√£o use Markdown nem coment√°rios, retorne apenas o SQL final.
"""


        user_prompt = f"""
Pergunta:
{question}

Retorne apenas o SQL.
"""

        response = client.predict(
            endpoint=LLM_ENDPOINT,
            inputs={
                "messages": [
                    {"role": "system", "content": system_prompt},
                    {"role": "user", "content": user_prompt}
                ],
                "temperature": 0.0
            }
        )

        sql = response["choices"][0]["message"]["content"].strip()

        if context is None:
            return {"sql": sql, "answer": ""}

        df = spark.sql(sql)

        return {
            "sql": sql,
            "answer": df.toPandas().to_json(orient="records")
        }

# ---------------------------------------------------------
# LOG DO MODELO
# ---------------------------------------------------------
with mlflow.start_run(run_name="dataex-sql-agent-fato-only"):
    mlflow.pyfunc.log_model(
        artifact_path="agent",
        python_model=DataExSQLAgent(),
        registered_model_name=MODEL_NAME,
        signature=signature,
        input_example=input_example
    )

### Execu√ß√£o do modelo do agente com a pergunta personalizada:

In [0]:
# =========================================================
# DATAEXPERTS ‚Äî USO DO NL ‚Üí SQL AGENT (SOMENTE FATO)
# =========================================================

import mlflow

# ---------------------------------------------------------
# CONFIGURA√á√ïES
# ---------------------------------------------------------
MODEL_NAME = "dataex_sql_agent"

# Unity Catalog ‚Üí SEMPRE usar alias
MODEL_URI = f"models:/{MODEL_NAME}@somente_tabela_fato_venda"

# ---------------------------------------------------------
# CARREGAR O AGENT
# ---------------------------------------------------------
agent = mlflow.pyfunc.load_model(MODEL_URI)

print(f"‚úÖ Agent carregado: {MODEL_URI}")

# ---------------------------------------------------------
# PERGUNTA
# ---------------------------------------------------------
pergunta = "Quais s√£o todas as categorias em ordem sem repetir?"

resultado = agent.predict({
    "question": pergunta
})

# ---------------------------------------------------------
# RESULTADOS
# ---------------------------------------------------------
print("SQL GERADO:")
print(resultado["sql"])

print("\nRESPOSTA:")
print(resultado["answer"])


### Mostrando resultado da pergunta personalizada:

In [0]:
# =========================================================
# DATAEXPERTS ‚Äî EXECU√á√ÉO AUTOM√ÅTICA DO SQL GERADO PELO AGENT
# =========================================================

sql_gerado = resultado["sql"]

print("üöÄ Executando SQL gerado pelo agente:")
print(sql_gerado)

# Executa no Spark
df_resultado = spark.sql(sql_gerado)

# Exibe como tabela no Databricks
display(df_resultado)


In [0]:

# Apenas para testes: 

tb = spark.read.format("delta").load("/Volumes/dataexperts/gold/main/fato_vendas")

display(tb)