# Query em Excel utilizando LLM 

In [17]:
from langchain.chat_models import ChatOllama
import pandas as pd
from langchain.agents import Tool
from langchain.chat_models import ChatOpenAI
from langchain.agents import initialize_agent
from langchain_experimental.agents import create_pandas_dataframe_agent
import re

In [107]:
df = pd.read_excel('dataset-vendas.xlsx')
df = df[['Numero','Codigo do produto', 'Quantidade']]
df = df.head(10)

In [None]:
llm = ChatOllama(model="mistral")

In [8]:
# from langchain.chat_models import ChatOllama
# llm = ChatOllama(model="mistral")
# llm.invoke("O que √© correla√ß√£o?")

In [9]:
# resposta = agent.run("Qual foi o total de vendas por m√™s?")
# print(resposta)

# Op√ß√£o 1: Custom prompt + pandas interpreter

Esta op√ß√£o necessita de v√°rios detalhes para a cria√ß√£o da consulta/tratativa pandas correta.

In [99]:
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain
from langchain.chat_models import ChatOpenAI

prompt = PromptTemplate(
    input_variables=["pergunta"],
    template="""
Voc√™ √© um especialista em Python. Um analista de dados fez a seguinte pergunta sobre um DataFrame chamado `df`.
O dataframe tem as colunas: Quantidade, Numero e Codigo do produto. N√£o invente novas colunas, mas pode fazer tratativas e agrupamentos com as colunas existentes.
Pergunta:

{pergunta}

Gere apenas o c√≥digo Python (com pandas) necess√°rio para responder. N√£o escreva explica√ß√µes.
Como sa√≠da, quero somente o c√≥digo em Python, pois irei roda-lo diretamente em outra fun√ß√£o. N√£o explique nada.
Exemplo de sa√≠da: df['Quantidade'].value_counts().idxmax()
"""
)

# llm = ChatOpenAI(model="gpt-4")
llm = ChatOllama(model="mistral")
chain = LLMChain(llm=llm, prompt=prompt)

pergunta = "Qual o produto com maior quantidade?"
codigo_gerado = chain.run(pergunta)
print(codigo_gerado)

# Opcional: execute o c√≥digo com seguran√ßa
local_vars = {"df": df}
# exec(limpar_codigo(codigo_gerado),{},local_vars)


 df['Quantidade'].value_counts().idxmax()


In [100]:
codigo_gerado

" df['Quantidade'].value_counts().idxmax()"

In [102]:
codigo_gerado = re.sub('python','',codigo_gerado)
codigo_gerado = re.sub('```','',codigo_gerado)
codigo_gerado = re.sub('`','',codigo_gerado)
codigo_gerado = re.sub('\n','',codigo_gerado).strip()

In [103]:
codigo_gerado

"df['Quantidade'].value_counts().idxmax()"

In [129]:
resultado = eval(codigo_gerado,{},local_vars) #eval ou exec, o exec n√£o caputa o retorno
resultado

np.int64(85)

Outra alternativa, ao inv√©s de exec ou eval √© o Python_REPL do Langchain

# Op√ß√£o 2:  LangChain Tools personalizados (como fun√ß√µes)

H√° mais controle dos c√°lculos executados.

In [28]:
import pandas as pd
from langchain.agents import Tool, initialize_agent
from langchain.chat_models import ChatOpenAI
from langchain.prompts import PromptTemplate
from langchain.agents import initialize_agent, AgentType

In [32]:
template = """
Voc√™ √© um assistente que s√≥ pode usar as ferramentas listadas abaixo, referenciando elas pelo nome **sem par√™nteses**.
Use exatamente o nome da ferramenta.

Ferramentas dispon√≠veis:
- soma_por_categoria: Retorna a soma das vendas por categoria

Quando precisar usar uma ferramenta, escreva apenas o nome dela sem par√™nteses.
Pergunta: {input}
"""

prompt = PromptTemplate(input_variables=["input"], template=template)


# Seu DataFrame
df = pd.DataFrame({
    "Categoria": ["A", "B", "A", "C"],
    "Valor": [10, 20, 15, 5]
})

# def soma_por_categoria():
#     return df.groupby("Categoria")["Valor"].sum().to_string()

def soma_por_categoria(tool_input: str) -> str:
    # O par√¢metro tool_input √© o texto que o agente passa para a tool. [ignorar]
    return df.groupby("Categoria")["Valor"].sum().to_string()

tools = [
    Tool(name="soma_por_categoria", func=soma_por_categoria, description="Retorna a soma das vendas por categoria"),
]

llm = ChatOllama(model="mistral")

#agent = initialize_agent(tools, llm, agent="zero-shot-react-description", verbose=True, handle_parsing_errors=True)

agent = initialize_agent(
    tools,
    llm,
    agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION,
    verbose=True,
    handle_parsing_errors=True,
    agent_kwargs={"prompt": prompt}
)

In [33]:
resposta = agent.run("Qual a soma das vendas por categoria?")

print(resposta)



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m To find the sum of sales by category, I will use the `soma_por_categoria` tool.

Action: soma_por_categoria
Action Input: No input is needed for this function as it calculates the total sales by category from the existing data.[0m
Observation: [36;1m[1;3mCategoria
A    25
B    20
C     5[0m
Thought:[32;1m[1;3m I now know the final answer.
Final Answer: A soma das vendas por categoria √©: A - 25, B - 20 e C - 5. A soma total √© 50.[0m

[1m> Finished chain.[0m


In [34]:
resposta

'A soma das vendas por categoria √©: A - 25, B - 20 e C - 5. A soma total √© 50.'

# Op√ß√£o 3 - create_pandas_dataframe_agent

Esta op√ß√£o √© mais direta, mas n√£o h√° muito controle sobre a cria√ß√£o do c√≥digo python.

In [130]:
df = pd.read_excel('dataset-vendas.xlsx')
df = df[['Numero','Codigo do produto', 'Quantidade']]
df = df.head(10)

In [134]:
df

Unnamed: 0,Numero,Codigo do produto,Quantidade
0,27192,1022450,68
1,27227,1022450,72
2,27235,1022450,30
3,27250,1022450,26
4,27254,1022450,94
5,27265,1022450,58
6,27266,1022450,54
7,27269,1022450,49
8,27281,1022450,46
9,27283,1022450,22


In [138]:
agent = create_pandas_dataframe_agent(llm, df, verbose=True, allow_dangerous_code=True)

resposta = agent.run("Qual o numero com maior quantidade vendida?")
print(resposta)



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m Thought: I need to find the row with the maximum quantity sold in the dataframe. I can do this by using the `df.loc` function which allows me to select rows based on some condition.
Action: python_repl_ast
Action Input: `print(df.loc[df['Quantidade'].idxmax()])`[0m[36;1m[1;3mNumero                 27254
Codigo do produto    1022450
Quantidade                94
Name: 4, dtype: int64
[0m[32;1m[1;3m I now know the final answer. The number with the highest quantity sold is 27254 with a quantity of 94.
Final Answer: The number with the highest quantity sold is 27254 with a quantity of 94.[0m

[1m> Finished chain.[0m
The number with the highest quantity sold is 27254 with a quantity of 94.


In [139]:
resposta

'The number with the highest quantity sold is 27254 with a quantity of 94.'

# Op√ß√£o 4 - Usando o PythonREPL

https://python.langchain.com/docs/integrations/tools/python/

Solu√ß√£o mais completa, incluir outras tools com as contas j√° pr√©-prontas.

In [None]:
from langchain_core.tools import Tool
from langchain_experimental.utilities import PythonREPL

python_repl = PythonREPL()
python_repl.run("print(1+1)")

Importante ter no prompt template:

{input} ‚Äì a pergunta do usu√°rio

{tools} ‚Äì lista descritiva das ferramentas dispon√≠veis

{tool_names} ‚Äì apenas os nomes das ferramentas, separados por v√≠rgula

{agent_scratchpad} ‚Äì espa√ßo para o agente mostrar seu racioc√≠nio e a√ß√µes anteriores

In [151]:
df

Unnamed: 0,Numero,Codigo do produto,Quantidade
0,27192,1022450,68
1,27227,1022450,72
2,27235,1022450,30
3,27250,1022450,26
4,27254,1022450,94
5,27265,1022450,58
6,27266,1022450,54
7,27269,1022450,49
8,27281,1022450,46
9,27283,1022450,22


tool_names = nomes das tools, lista com os nomes definidos, usados em Action: para escolher a tool

tools = texto com nome + descri√ß√£o, para informar ao modelo sobre as tools dispon√≠veis

In [161]:
from langchain.tools import Tool
from langchain.agents import AgentExecutor, create_react_agent
from langchain_core.prompts import PromptTemplate
from langchain_community.llms import OpenAI # Example LLM

# Assuming df is your loaded Pandas DataFrame
def query_excel_data(query: str) -> str:
    """A Python shell. Use this to execute python commands on the 'df' DataFrame.
    When you want to see the output of a value, you should print it out with `print(...)`."""
    try:
        # This is a simplified example; a real implementation would involve careful parsing
        # and execution within a secure environment.
        exec_globals = {'df': df, 'print': print}
        exec(query, {}, exec_globals)
        return "Command executed successfully." # Or capture and return printed output
    except Exception as e:
        return f"Error executing command: {e}"

#Defini√ß√£o da tool
excel_query_tool = Tool(
    name="Python_REPL",
    func=query_excel_data,
    description="A Python shell. Use this to execute python commands on the 'df' DataFrame. When you want to see the output of a value, you should print it out with `print(...)`."
)

#Posso criar outras tools e incluir tudo nessa lista
tool_names = [excel_query_tool]

# ... (define LLM and prompt template)
from langchain_core.prompts import PromptTemplate


colunas_info = """
O DataFrame `df` tem as seguintes colunas:
- N√∫mero (int) : n√∫mero do produto
- Codigo do produto (int): c√≥digo de identifica√ß√£o do produto
- Quantidade (inteiro): quantidade vendida
"""


template = f"""Voc√™ √© um assistente de dados que pode usar ferramentas para responder perguntas sobre um DataFrame do pandas chamado `df`.

O `df` tem as seguintes colunas:
{colunas_info}

Voc√™ tem acesso √†s seguintes ferramentas:

{{tool_names}}

Use o seguinte formato:

Question: a pergunta que voc√™ deve responder
Thought: pense sobre o que fazer
Action: a a√ß√£o a ser tomada, deve ser uma das [{{tools}}]
Action Input: o input para a a√ß√£o
Observation: o resultado da a√ß√£o
... (pode repetir Thought/Action/Action Input/Observation quantas vezes quiser)
Thought: agora que sei a resposta
Final Answer: a resposta final √† pergunta original

Comece!

Question: {{input}}
{{agent_scratchpad}}"""


prompt = PromptTemplate(
    input_variables=['agent_scratchpad', 'input', 'tool_names', 'tools'],
    template=template
)

llm = ChatOllama(model="mistral")

# Create the agent
agent = create_react_agent(llm, tools=tool_names, prompt=prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True, handle_parsing_errors=True)

In [162]:
# Example usage:
agent_executor.invoke({"input": "Qual o c√≥digo de itentifica√ß√£o com maior quantidade vendida?"})



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m Thought: Para encontrar o c√≥digo de produto com maior quantidade vendida, primeiro preciso encontrar o maior valor em Quantidade. Em seguida, devo filtrar a linha no DataFrame onde a quantidade seja igual ao m√°ximo encontrado.

Action: Python_REPL
Action Input: `max_quantity = df['Quantidade'].max()`[0m[36;1m[1;3mError executing command: invalid syntax (<string>, line 1)[0m[32;1m[1;3m O erro est√° ocorrendo porque eu n√£o especifiquei que estou trabalhando com a coluna 'Quantidade'. Agora vamos especificar isso e continuaremos.

Action: Python_REPL
Action Input: `max_quantity = df['Quantidade'].max()`[0m[36;1m[1;3mError executing command: invalid syntax (<string>, line 1)[0m[32;1m[1;3m O erro est√° acontecendo porque o Python REPL est√° esperando uma √∫nica linha de c√≥digo. Vamos dividir o c√≥digo em duas partes separadas.

Action: Python_REPL (Parte 1)
Action Input: `max_quantity = df['Quantidade'].max()`[0m

KeyboardInterrupt: 

In [None]:
## # Op√ß√£o 4 - Usando o PythonREPL

## Separando a constru√ß√£o da query da execu√ß√£o

In [None]:
from langchain.tools import Tool
from langchain.agents import AgentExecutor, create_react_agent
from langchain_core.prompts import PromptTemplate
from langchain.chat_models import ChatOpenAI  # ou outro LLM de sua escolha

# Seu DataFrame pandas (exemplo)
import pandas as pd
data = {
    'N√∫mero': [1, 2, 3],
    'Codigo do produto': [101, 102, 103],
    'Quantidade': [10, 25, 7],
}
df = pd.DataFrame(data)

# Tool 1: gera a query Python que ser√° executada
def generate_query(user_input: str) -> str:
    # Aqui voc√™ pode usar LLM para gerar a query, mas para simplificar:
    # Apenas retorna um c√≥digo Python que responde a pergunta do usu√°rio.
    # Exemplo simples: para "qual produto mais vendido?"
    if "produto mais vendido" in user_input.lower():
        return "df.loc[df['Quantidade'].idxmax(), 'Codigo do produto']"
    return "None"

query_generator_tool = Tool(
    name="QueryGenerator",
    func=generate_query,
    description="Gera uma query Python para analisar o DataFrame df com base na pergunta do usu√°rio."
)

# Tool 2: executa a query Python e retorna o resultado
def execute_query(query: str) -> str:
    try:
        local_vars = {}
        global_vars = {"df": df}
        # executa e armazena o resultado
        result = eval(query, global_vars, local_vars)
        return str(result)
    except Exception as e:
        return f"Erro ao executar query: {e}"

python_executor_tool = Tool(
    name="PythonExecutor",
    func=execute_query,
    description="Executa uma query Python passada como string e retorna o resultado."
)

tools = [query_generator_tool, python_executor_tool]

# Prompt template para o agente ReAct
template = """
Voc√™ √© um assistente que responde perguntas sobre um DataFrame pandas chamado df.

Voc√™ pode usar duas ferramentas:

- QueryGenerator: cria o c√≥digo Python necess√°rio para responder a pergunta.
- PythonExecutor: executa o c√≥digo Python gerado e retorna o resultado.

Use o seguinte formato:

Question: {input}
Thought: Devo primeiro gerar a query, depois executar a query.
Action: nome da ferramenta (QueryGenerator ou PythonExecutor)
Action Input: input para a ferramenta
Observation: resultado da a√ß√£o
... (pode repetir Thought/Action/Action Input/Observation quantas vezes quiser)
Thought: agora sei a resposta
Final Answer: resposta para o usu√°rio

Comece!

Question: {input}
{agent_scratchpad}
"""

prompt = PromptTemplate.from_template(template)

# Inicializa o LLM (aqui uso ChatOpenAI, mas pode ser outro)
llm = ChatOllama(model="mistral")

# Cria o agente
agent = create_react_agent(llm=llm, tools=tools, prompt=prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True, handle_parsing_errors=True)

# Exemplo de uso
resposta = agent_executor.invoke({"input": "Qual o c√≥digo do produto mais vendido?"})
print(resposta)


In [None]:
## Exemplo com mais de uma tool

In [None]:
from langchain.tools import Tool
from langchain.agents import AgentExecutor, create_react_agent
from langchain_core.prompts import PromptTemplate
from langchain.chat_models import ChatOpenAI
import pandas as pd

# Exemplo de DataFrame
df = pd.DataFrame({
    'C√≥digo do produto': [101, 102, 103],
    'Quantidade': [10, 25, 7],
})

# Tool 1: Gera uma query Python com base na pergunta
def generate_query(user_input: str) -> str:
    if "produto mais vendido" in user_input.lower():
        return "df.loc[df['Quantidade'].idxmax(), 'C√≥digo do produto']"
    elif "quantidade total" in user_input.lower():
        return "df['Quantidade'].sum()"
    else:
        return "df.head()"

query_generator_tool = Tool(
    name="QueryGenerator",
    func=generate_query,
    description="Gera uma string de c√≥digo Python para analisar o DataFrame df com base na pergunta do usu√°rio."
)

# Tool 2: Retorna diretamente uma query pronta para pegar a maior quantidade
def max_quantity_query(_: str) -> str:
    return "df['Quantidade'].max()"

max_quantity_tool = Tool(
    name="MaxQuantityTool",
    func=max_quantity_query,
    description="Retorna a query df['Quantidade'].max(). Use quando o usu√°rio perguntar sobre a maior quantidade vendida."
)

# Tool 3: Executa a string de c√≥digo retornada por uma das duas tools anteriores
def execute_query(query: str) -> str:
    try:
        result = eval(query, {"df": df})
        return str(result)
    except Exception as e:
        return f"Erro ao executar: {e}"

python_executor_tool = Tool(
    name="PythonExecutor",
    func=execute_query,
    description="Executa a query Python gerada pelas outras tools. Recebe uma string de c√≥digo e retorna o resultado."
)

tools = [query_generator_tool, max_quantity_tool, python_executor_tool]

# Prompt ReAct customizado para for√ßar o fluxo de 2 etapas
prompt = PromptTemplate.from_template("""
Voc√™ √© um assistente que responde perguntas sobre um DataFrame pandas chamado df.

Etapas:
1. Primeiro, escolha entre gerar uma query com QueryGenerator ou usar a query pronta com MaxQuantityTool.
2. Depois, execute essa query usando a ferramenta PythonExecutor.
3. Finalmente, retorne a resposta ao usu√°rio.

Use o seguinte formato:

Question: {input}
Thought: preciso decidir qual ferramenta usar.
Action: nome da ferramenta (QueryGenerator ou MaxQuantityTool)
Action Input: o texto da pergunta
Observation: string com o c√≥digo Python
Thought: agora vou executar esse c√≥digo para obter o resultado
Action: PythonExecutor
Action Input: c√≥digo Python gerado
Observation: resultado da execu√ß√£o
Thought: agora sei a resposta
Final Answer: resposta para o usu√°rio

Comece!

Question: {input}
{agent_scratchpad}
""")

llm = ChatOllama(model="mistral")
agent = create_react_agent(llm=llm, tools=tools, prompt=prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True, handle_parsing_errors=True)

# Teste 1 ‚Äì ativa a Tool direta (MaxQuantityTool)
resposta1 = agent_executor.invoke({"input": "Qual a maior quantidade vendida?"})
print("\nResposta 1:", resposta1)

# Teste 2 ‚Äì ativa o gerador de query (QueryGenerator)
resposta2 = agent_executor.invoke({"input": "Qual o c√≥digo do produto mais vendido?"})
print("\nResposta 2:", resposta2)


# Separando com orquestrador + executor

In [163]:
from langchain.chat_models import ChatOpenAI
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain

# Etapa 1: Roteador (decide qual tool usar)
route_prompt = PromptTemplate.from_template("""
Dada a pergunta abaixo, diga se deve usar a ferramenta 'gerar_query' ou 'query_direta':
{input}
Ferramenta:""")

router_chain = LLMChain(llm=llm, prompt=route_prompt)

# Etapa 2: gerar ou escolher a query
def get_query(route: str, user_input: str) -> str:
    if "direta" in route:
        return "df['Quantidade'].max()"
    else:
        # Aqui pode chamar um LLM ou heur√≠stica que gera a query
        if "produto mais vendido" in user_input.lower():
            return "df.loc[df['Quantidade'].idxmax(), 'C√≥digo do produto']"
        else:
            return "df.head()"

# Etapa 3: executar
def execute_query(query, df):
    return eval(query, {"df": df})

In [164]:

# Exemplo de uso
user_input = "Qual a maior quantidade vendida?"
df = pd.DataFrame({'C√≥digo do produto': [101, 102], 'Quantidade': [10, 25]})

route = router_chain.run(input=user_input)
query = get_query(route, user_input)
result = execute_query(query, df)

print("Query:", query)
print("Resultado:", result)


Query: df['Quantidade'].max()
Resultado: 25


In [165]:

# Exemplo de uso
user_input = "Qual o produto mais vendido?"
df = pd.DataFrame({'C√≥digo do produto': [101, 102], 'Quantidade': [10, 25]})

route = router_chain.run(input=user_input)
query = get_query(route, user_input)
result = execute_query(query, df)

print("Query:", query)
print("Resultado:", result)


Query: df['Quantidade'].max()
Resultado: 25


# + uma varia√ß√£o

In [168]:
from langchain.chat_models import ChatOpenAI
from langchain.agents import Tool, AgentExecutor
from langchain.agents.agent_types import AgentType
from langchain.agents.initialize import initialize_agent
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain
import pandas as pd

# Simula o DataFrame
df = pd.DataFrame({
    'Produto': ['A', 'B', 'C'],
    'Quantidade': [10, 25, 15]
})

# Tool 1: c√°lculo direto
def max_quantidade_tool(_):
    return df['Quantidade'].max()

# Tool 2: gera uma query com base na pergunta (via LLM)
def gerar_query_llm(pergunta):
    if "produto mais vendido" in pergunta.lower():
        return "df.loc[df['Quantidade'].idxmax(), 'Produto']"
    elif "quantidade total" in pergunta.lower():
        return "df['Quantidade'].sum()"
    else:
        return "df.head()"

# Tool 3: executa o c√≥digo Python
def executar_query(codigo_python):
    try:
        return str(eval(codigo_python, {"df": df}))
    except Exception as e:
        return f"Erro ao executar: {e}"

# LLM para roteamento

llm = ChatOllama(model="mistral")

# Roteador (decide qual caminho seguir)
roteador_template = PromptTemplate.from_template(
    """Voc√™ √© um roteador de ferramentas.
Com base na pergunta abaixo, escolha apenas entre as op√ß√µes:
- 'direto' ‚Üí se a pergunta se encaixa em um c√°lculo direto (por exemplo, 'quantidade m√°xima')
- 'query' ‚Üí se precisa interpretar e gerar c√≥digo Python para ser executado depois

Pergunta: {pergunta}
Resposta:"""
)

roteador_chain = LLMChain(llm=llm, prompt=roteador_template)

def agente_com_roteador(pergunta):
    rota = roteador_chain.run(pergunta).strip().lower().replace("'", "").replace('"', '')

    if rota == "direto":
        return max_quantidade_tool(pergunta)

    elif rota == "query":
        query = gerar_query_llm(pergunta)
        return executar_query(query)

    else:
        return f"Rota n√£o reconhecida: '{rota}'"


# üß™ Teste
pergunta = "Qual foi o produto mais vendido?"
resposta = agente_com_roteador(pergunta)
print(f"Pergunta: {pergunta}\nResposta: {resposta}")


Pergunta: Qual foi o produto mais vendido?
Resposta: 25


# √öLTIMO TESTE

In [171]:
from langchain.chat_models import ChatOllama

In [186]:
from langchain_core.prompts import PromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain.chains import LLMChain
import pandas as pd

# Seu dataframe
df = pd.DataFrame({
    "Produto": ["A", "B", "C"],
    "Quantidade": [10, 25, 15]
})

# LLM
llm = ChatOllama(model="mistral")

# 1. ROTEADOR ‚Äî decide se √© 'query' ou 'direto'
# roteador_prompt = PromptTemplate.from_template("""
# Decida se a pergunta abaixo deve ser respondida com:

# - 'direto': se √© uma m√©trica fixa como m√°ximo, m√≠nimo, soma, etc.
# - 'query': se for preciso gerar um c√≥digo pandas para obter a resposta.

# Pergunta: {pergunta}
# Resposta (apenas 'query' ou 'direto'):
# """)
# roteador_chain = roteador_prompt | llm | StrOutputParser()

from langchain.output_parsers import StructuredOutputParser, ResponseSchema

schema = [ResponseSchema(name="rota", description="Nome da rota que deve ser usada: 'query' ou 'max_tool'")]
parser = StructuredOutputParser.from_response_schemas(schema)

prompt = PromptTemplate(
    template="Classifique a pergunta abaixo e retorne a rota correta.\n\nPergunta: {pergunta}\n\nRotas dispon√≠veis: 'query', 'max_tool'\n\nRetorne no formato JSON.",
    input_variables=["pergunta"]
)

roteador_chain = prompt | llm | parser

# 2. TOOL DIRETA ‚Äî j√° embute a l√≥gica de c√°lculo
def max_quantidade_tool(pergunta: str) -> str:
    max_valor = df["Quantidade"].max()
    return f"A maior quantidade vendida foi {max_valor}"

# 3. TOOL DE GERA√á√ÉO DE F√ìRMULA
gerar_formula_prompt = PromptTemplate.from_template("""
Voc√™ √© um especialista em pandas. Gere apenas uma linha de c√≥digo em pandas que responde √† pergunta abaixo.
O DataFrame se chama `df` e tem as colunas: Produto (str), Quantidade (int)

Pergunta: {pergunta}

C√≥digo em pandas:
""")
gerar_formula_chain = LLMChain(prompt=gerar_formula_prompt, llm=llm)

def gerar_query_llm(pergunta: str) -> str:
    return gerar_formula_chain.invoke({"pergunta": pergunta})["text"].strip()

# 4. EXECUTOR FINAL ‚Äî executa o c√≥digo pandas gerado
def executar_query(query: str) -> str:
    try:
        local_vars = {"df": df}
        exec(f"resultado = {query}", {}, local_vars)
        return f"Resposta: {local_vars['resultado']}"
    except Exception as e:
        return f"Erro ao executar a query: {e}"

# 5. AGENTE FINAL ‚Äî junta tudo
def agente_com_roteador(pergunta):
    rota_dict = roteador_chain.invoke({"pergunta": pergunta})
    rota = rota_dict["rota"].lower().strip()

    if rota == "max_tool":
        resposta = max_quantidade_tool(pergunta)
    elif rota == "query":
        formula = gerar_query_llm(pergunta)
        resposta = executar_query(formula)
    else:
        resposta = f"Rota n√£o reconhecida: '{rota}'"

    print(resposta)


In [187]:
print(agente_com_roteador("Qual o produto mais vendido?"))
# ‚Üí Resposta: A


OutputParserException: Got invalid return object. Expected key `rota` to be present, but got {'rotas': ['query'], 'resposta': 'A rota correta para responder √† pergunta √© query.'}
For troubleshooting, visit: https://python.langchain.com/docs/troubleshooting/errors/OUTPUT_PARSING_FAILURE 

In [196]:
from langchain_core.prompts import PromptTemplate
from langchain.chains import LLMChain
from langchain.output_parsers import StructuredOutputParser, ResponseSchema
import pandas as pd

# Seu dataframe
df = pd.DataFrame({
    "Produto": ["A", "B", "C"],
    "Quantidade": [10, 25, 15]
})

# Inicializa o LLM
llm = ChatOllama(model="mistral")

# Define o schema para o output parser do roteador
schemas = [
    ResponseSchema(
        name="rota",
        description="Nome da rota a ser usada, que pode ser 'query' ou 'max_tool'"
    )
]
parser = StructuredOutputParser.from_response_schemas(schemas)

# Prompt do roteador (com instru√ß√£o clara para retornar s√≥ o JSON)
format_instructions = parser.get_format_instructions()
# Escapa as chaves para n√£o causar erro no PromptTemplate
format_instructions_escaped = format_instructions.replace("{", "{{").replace("}", "}}")

roteador_prompt = PromptTemplate(
    input_variables=["pergunta"],
    template=(
        "Classifique a pergunta abaixo e retorne SOMENTE um JSON com a rota correta.\n\n"
        "Pergunta: {pergunta}\n\n"
        "Rotas dispon√≠veis: 'query', 'max_tool'\n\n"
        "Retorne no formato JSON:\n"
        f"{format_instructions_escaped}"
    )
)

# Monta o chain do roteador com o parser
roteador_chain = LLMChain(prompt=roteador_prompt, llm=llm, output_parser=parser)

# Tool 1: c√°lculo direto (exemplo)
def max_quantidade_tool(pergunta: str) -> str:
    max_valor = df["Quantidade"].max()
    return f"A maior quantidade vendida foi {max_valor}"

# Tool 2: gera c√≥digo pandas para a pergunta (via LLM)
gerar_formula_prompt = PromptTemplate.from_template("""
Voc√™ √© um especialista em pandas. Gere apenas uma linha de c√≥digo pandas que responde √† pergunta abaixo.
O DataFrame se chama `df` e tem as colunas: Produto (str), Quantidade (int).

Pergunta: {pergunta}

C√≥digo em pandas:
""")
gerar_formula_chain = LLMChain(prompt=gerar_formula_prompt, llm=llm)

def gerar_query_llm(pergunta: str) -> str:
    return gerar_formula_chain.invoke({"pergunta": pergunta})["text"].strip()


import re
#Fun√ß√£o pra limpar o output da query gerado
def extrair_codigo_python(texto: str) -> str:
    padrao = r"```python\s*(.*?)```"
    resultado = re.search(padrao, texto, re.DOTALL)
    if resultado:
        return resultado.group(1).strip()
    else:
        # Se n√£o encontrar, tenta pegar o texto todo (pode ajustar se quiser)
        return texto.strip()
    

# Tool 3: executa o c√≥digo Python no df
def executar_query(query: str) -> str:
    try:
        print(f"Executando query: {query}")  # DEBUG
        codigo_limpo = extrair_codigo_python(query)
        print(codigo_limpo)
        local_vars = {"df": df}
        exec(f"resultado = {codigo_limpo}", {}, local_vars)
        return f"Resposta: {local_vars['resultado']}"
    except Exception as e:
        return f"Erro ao executar a query: {e}"

# Fun√ß√£o principal que usa o roteador para decidir a rota
def agente_com_roteador(pergunta: str):
    rota_dict = roteador_chain.invoke({"pergunta": pergunta})
    # rota = rota_dict["rota"].lower().strip()
    rota = rota_dict["text"]["rota"].lower().strip()

    if rota == "max_tool":
        resposta = max_quantidade_tool(pergunta)
    elif rota == "query":
        formula = gerar_query_llm(pergunta)
        resposta = executar_query(formula)
    else:
        resposta = f"Rota n√£o reconhecida: '{rota}'"

    print(resposta)

# Exemplo de uso
if __name__ == "__main__":
    pergunta = "Qual o produto mais vendido?"
    agente_com_roteador(pergunta)


Executando query: Para encontrar o produto mais vendido no DataFrame `df`, voc√™ pode usar a fun√ß√£o `value_counts()` para contar a quantidade de cada produto e ent√£o retornar o primeiro √≠ndice, que corresponde ao produto mais vendido.

```python
df['Produto'].value_counts().index[0]
```
df['Produto'].value_counts().index[0]
Resposta: A


In [192]:
rota_dict = roteador_chain.invoke({"pergunta": pergunta})
rota_dict

{'pergunta': 'Qual o produto mais vendido?', 'text': {'rota': 'query'}}

In [195]:
pergunta = "Qual a maior quantidade vendida?"
agente_com_roteador(pergunta)


A maior quantidade vendida foi 25


# Exemplo gen√©rico escolhendo tool:

In [None]:
from langchain_core.prompts import PromptTemplate
from langchain.chains import LLMChain
from langchain_community.llms import ChatOllama

# Exemplo LLM
llm = ChatOllama(model="mistral")

# Descri√ß√£o das ferramentas (tools)
tools_descriptions = {
    "max_tool": "Retorna o valor m√°ximo da coluna 'Quantidade'.",
    "query_tool": "Gera c√≥digo pandas para consultas complexas.",
    "sum_tool": "Calcula a soma de valores em uma coluna espec√≠fica.",
    # ... imagine at√© 10 tools aqui
}

# Cria o texto com as descri√ß√µes para o prompt
tools_info_text = "\n".join([f"- {name}: {desc}" for name, desc in tools_descriptions.items()])

roteador_prompt = PromptTemplate(
    input_variables=["pergunta"],
    template=f"""
Voc√™ √© um roteador inteligente que recebe uma pergunta e escolhe a melhor ferramenta para respond√™-la.

Ferramentas dispon√≠veis:
{tools_info_text}

Pergunta: {{pergunta}}

Qual o nome da ferramenta mais apropriada para responder essa pergunta?
Retorne SOMENTE o nome exato da ferramenta (exemplo: max_tool)
"""
)

roteador_chain = LLMChain(prompt=roteador_prompt, llm=llm)

# Fun√ß√£o para obter a tool escolhida
def escolher_tool(pergunta: str) -> str:
    tool_nome = roteador_chain.invoke({"pergunta": pergunta}).strip()
    return tool_nome

# Exemplo de uso
pergunta_exemplo = "Qual o maior valor da coluna Quantidade?"
tool_escolhida = escolher_tool(pergunta_exemplo)
print("Tool escolhida:", tool_escolhida)
