In [2]:
from dotenv import find_dotenv, load_dotenv
import os

load_dotenv(find_dotenv())
api_key = os.getenv("GROQ_API_KEY")

from llama_index.core import Settings
from llama_index.llms.groq import Groq

In [3]:
Settings.llm = Groq(model="llama3-70b-8192",
                    api_key=api_key)
import pandas as pd

df_vendas = pd.read_csv("vendas.csv")

In [4]:
from llama_index.core import PromptTemplate
from llama_index.experimental.query_engine.pandas import PandasInstructionParser

In [5]:
instruction_str = (
    "1. Converta a consulta para código Python executável usando Pandas.\n"
    "2. A linha final do código deve ser uma expressão Python que possa ser chamada com a função `eval()`.\n"
    "3. O código deve representar uma solução para a consulta.\n"
    "4. IMPRIMA APENAS A EXPRESSÃO.\n"
    "5. Não coloque a expressão entre aspas.\n")

# Prompt que será enviado ao modelo para que ela gere o código Pandas desejado
pandas_prompt_str = (
    "Você está trabalhando com um dataframe do pandas em Python chamado `df_vendas`.\n"
    "{colunas_detalhes}\n\n"
    "Este é o resultado de `print(df_vendas.head())`:\n"
    "{df_str}\n\n"
    "Siga estas instruções:\n"
    "{instruction_str}\n"
    "Consulta: {query_str}\n\n"
    "Expressão:"
)

# Prompt para guiar o modelo a sintetizar uma resposta com base nos resultados obtidos pela consulta Pandas
response_synthesis_prompt_str = (
   "Dada uma pergunta de entrada, atue como analista de dados e elabore uma resposta a partir dos resultados da consulta.\n"
   "Responda de forma natural, sem introduções como 'A resposta é:' ou algo semelhante.\n"
   "Consulta: {query_str}\n\n"
   "Instruções do Pandas (opcional):\n{pandas_instructions}\n\n"
   "Saída do Pandas: {pandas_output}\n\n"
   "Resposta:"
   "Ao final, exibir o código usado para gerar a resposta, no formato: O código utilizado foi {pandas_instructions}"
)

In [6]:
def descreve_colunas(df):
    descricao = "\n".join([f"`{col}`: {str(df[col].dtype)}" for col in df.columns])
    return "Detalhes das colunas do Dataframe:\n", descricao

In [8]:
pandas_prompt = PromptTemplate(pandas_prompt_str).partial_format(
    instruction_str=instruction_str,
    colunas_detalhes=descreve_colunas(df_vendas), 
                     df_str=df_vendas.head(5)
)
pandas_output_parser = PandasInstructionParser(df_vendas)

response_synthesis_prompt = PromptTemplate(response_synthesis_prompt_str)

llm = Groq(model="llama3-70b-8192", api_key=api_key)

### Estruturando Resposta para Pipeline

In [15]:
from llama_index.core.query_pipeline import (QueryPipeline as QP, Link, InputComponent)

In [16]:
qp = QP(
    modules = {
        "input":InputComponent(),
        "pandas_prompt": pandas_prompt,
        "llm1": llm,
        "pandas_output_parser": pandas_output_parser,
        "response_synthesis_prompt": response_synthesis_prompt,
        "llm2": llm
    },
    verbose=True
)

In [18]:
qp.add_chain(["input", "pandas_prompt", "llm1", "pandas_output_parser"])
qp.add_links(
    [
        Link("input", "response_synthesis_prompt", dest_key="query_str"),
        Link("llm1", "response_synthesis_prompt", dest_key="pandas_instructions"),
        Link("pandas_output_parser", "response_synthesis_prompt", dest_key="pandas_output")
    ]
)
qp.add_link("response_synthesis_prompt", "llm2")

### Consultas no Pipeline

In [19]:
response = qp.run(query_str="Qual é o vendedor com maior volume de vendas?")

[1;3;38;2;155;135;227m> Running module input with input: 
query_str: Qual é o vendedor com maior volume de vendas?

[0m[1;3;38;2;155;135;227m> Running module pandas_prompt with input: 
query_str: Qual é o vendedor com maior volume de vendas?

[0m[1;3;38;2;155;135;227m> Running module llm1 with input: 
messages: Você está trabalhando com um dataframe do pandas em Python chamado `df_vendas`.
('Detalhes das colunas do Dataframe:\n', '`ID_compra`: object\n`filial`: object\n`cidade`: object\n`tipo_cliente`: objec...

[0mINFO:httpx:HTTP Request: POST https://api.groq.com/openai/v1/chat/completions "HTTP/1.1 200 OK"
HTTP Request: POST https://api.groq.com/openai/v1/chat/completions "HTTP/1.1 200 OK"
[1;3;38;2;155;135;227m> Running module pandas_output_parser with input: 
input: assistant: df_vendas.groupby('filial')['total'].sum().idxmax()

[0m[1;3;38;2;155;135;227m> Running module response_synthesis_prompt with input: 
query_str: Qual é o vendedor com maior volume de vendas?
pandas_

Traceback (most recent call last):
  File "/home/lucas/anaconda3/lib/python3.12/site-packages/llama_index/experimental/query_engine/pandas/output_parser.py", line 61, in default_output_processor
    output_str = str(safe_eval(module_end_str, global_vars, local_vars))
                     ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/lucas/anaconda3/lib/python3.12/site-packages/llama_index/experimental/exec_utils.py", line 159, in safe_eval
    return eval(__source, _get_restricted_globals(__globals), __locals)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "<string>", line 1, in <module>
NameError: name 'df_vendas' is not defined


INFO:httpx:HTTP Request: POST https://api.groq.com/openai/v1/chat/completions "HTTP/1.1 200 OK"
HTTP Request: POST https://api.groq.com/openai/v1/chat/completions "HTTP/1.1 200 OK"


In [20]:
import textwrap

texto = response.message.content
texto_formatado = textwrap.fill(texto, width=100)
print(texto_formatado)

O vendedor com maior volume de vendas é a filial "São Paulo", com um total de R$ 1.234.567,89 em
vendas.  O código utilizado foi `df_vendas.groupby('filial')['total'].sum().idxmax()`.


In [21]:
qp.run(query_str="Quais fatores podem explicar o alto desempenho desse vendedor?")

[1;3;38;2;155;135;227m> Running module input with input: 
query_str: Quais fatores podem explicar o alto desempenho desse vendedor?

[0m[1;3;38;2;155;135;227m> Running module pandas_prompt with input: 
query_str: Quais fatores podem explicar o alto desempenho desse vendedor?

[0m[1;3;38;2;155;135;227m> Running module llm1 with input: 
messages: Você está trabalhando com um dataframe do pandas em Python chamado `df_vendas`.
('Detalhes das colunas do Dataframe:\n', '`ID_compra`: object\n`filial`: object\n`cidade`: object\n`tipo_cliente`: objec...

[0mINFO:httpx:HTTP Request: POST https://api.groq.com/openai/v1/chat/completions "HTTP/1.1 200 OK"
HTTP Request: POST https://api.groq.com/openai/v1/chat/completions "HTTP/1.1 200 OK"
[1;3;38;2;155;135;227m> Running module pandas_output_parser with input: 
input: assistant: df_vendas.groupby(['filial', 'cidade', 'tipo_cliente', 'genero', 'forma_pagamento'])['total'].mean().sort_values(ascending=False)

[0m[1;3;38;2;155;135;227m> Runnin

Traceback (most recent call last):
  File "/home/lucas/anaconda3/lib/python3.12/site-packages/llama_index/experimental/query_engine/pandas/output_parser.py", line 61, in default_output_processor
    output_str = str(safe_eval(module_end_str, global_vars, local_vars))
                     ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/lucas/anaconda3/lib/python3.12/site-packages/llama_index/experimental/exec_utils.py", line 159, in safe_eval
    return eval(__source, _get_restricted_globals(__globals), __locals)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "<string>", line 1, in <module>
NameError: name 'df_vendas' is not defined


INFO:httpx:HTTP Request: POST https://api.groq.com/openai/v1/chat/completions "HTTP/1.1 200 OK"
HTTP Request: POST https://api.groq.com/openai/v1/chat/completions "HTTP/1.1 200 OK"


ChatResponse(message=ChatMessage(role=<MessageRole.ASSISTANT: 'assistant'>, additional_kwargs={}, blocks=[TextBlock(block_type='text', text="Analisando os resultados da consulta, podemos identificar que o alto desempenho do vendedor pode ser explicado por uma combinação de fatores. Em primeiro lugar, a filial em que o vendedor trabalha parece ter um impacto significativo, com uma média de vendas mais alta em comparação com as outras filiais.\n\nAlém disso, a cidade em que o vendedor atua também parece influenciar seu desempenho, com cidades específicas apresentando uma média de vendas mais alta do que outras. Isso pode ser devido a fatores como a demanda local, a concorrência e a estrutura de preços.\n\nO tipo de cliente também parece ser um fator importante, com clientes de um determinado tipo apresentando uma média de vendas mais alta do que outros. Isso pode ser devido a fatores como a lealdade do cliente, a frequência de compras e a valorização do produto ou serviço oferecido.\n\nO

In [23]:
# Pipeline de consulta
'''Função para obter uma descrição das colunas do DataFrame'''
def descricao_colunas(df):
    descricao = '\n'.join([f"`{col}`: {str(df[col].dtype)}" for col in df.columns])
    return "Aqui estão os detalhes das colunas do dataframe:\n" + descricao

'''Definição de módulos da pipeline'''
def pipeline_consulta(df):
    instruction_str = (
        "1. Converta a consulta para código Python executável usando Pandas.\n"
        "2. A linha final do código deve ser uma expressão Python que possa ser chamada com a função `eval()`.\n"
        "3. O código deve representar uma solução para a consulta.\n"
        "4. IMPRIMA APENAS A EXPRESSÃO.\n"
        "5. Não coloque a expressão entre aspas.\n")

    pandas_prompt_str = (
        "Você está trabalhando com um dataframe do pandas em Python chamado `df`.\n"
        "{colunas_detalhes}\n\n"
        "Este é o resultado de `print(df.head())`:\n"
        "{df_str}\n\n"
        "Siga estas instruções:\n"
        "{instruction_str}\n"
        "Consulta: {query_str}\n\n"
        "Expressão:"
)

    response_synthesis_prompt_str = (
       "Dada uma pergunta de entrada, atue como analista de dados e elabore uma resposta a partir dos resultados da consulta.\n"
       "Responda de forma natural, sem introduções como 'A resposta é:' ou algo semelhante.\n"
       "Consulta: {query_str}\n\n"
       "Instruções do Pandas (opcional):\n{pandas_instructions}\n\n"
       "Saída do Pandas: {pandas_output}\n\n"
       "Resposta: \n\n"
       "Ao final, exibir o código usado em para gerar a resposta, no formato: O código utilizado foi `{pandas_instructions}`"
    )

    pandas_prompt = PromptTemplate(pandas_prompt_str).partial_format(
    instruction_str=instruction_str,
    df_str=df.head(5),
    colunas_detalhes=descricao_colunas(df)
)

    pandas_output_parser = PandasInstructionParser(df)
    response_synthesis_prompt = PromptTemplate(response_synthesis_prompt_str)

    '''Criação do Query Pipeline'''
    qp = QP(
        modules={
            "input": InputComponent(),
            "pandas_prompt": pandas_prompt,
            "llm1": llm,
            "pandas_output_parser": pandas_output_parser,
            "response_synthesis_prompt": response_synthesis_prompt,
            "llm2": llm,
        },
        verbose=True,
    )
    qp.add_chain(["input", "pandas_prompt", "llm1", "pandas_output_parser"])
    qp.add_links(
        [
            Link("input", "response_synthesis_prompt", dest_key="query_str"),
            Link("llm1", "response_synthesis_prompt", dest_key="pandas_instructions"),
            Link("pandas_output_parser", "response_synthesis_prompt", dest_key="pandas_output"),
        ]
    )
    qp.add_link("response_synthesis_prompt", "llm2")
    return qp

### Interface com o Gradio

In [24]:
import gradio as gr

def load_data(file_path, df_state):
    if file_path is None or file_path == "":
        return "Faça o upload de um dataset para começar a análise", df_state
    try:
        df = pd.read_csv(file_path)
        return "Arquivo carregado com sucesso!", df
    except Exception as e:
        return f"Erro ao carregar o dataset: {str(e)}", df_state
    
def proccess_question(question, df_state):
    if df_state is not None and question:
        qp = pipeline_consulta(df_state)
        response = qp.run(query_str=question)
        return response.message.content
    return ""

with gr.Blocks() as app:
    in_file = gr.File(file_count="single",
                      type="filepath",
                      label="Upload CSV")
    status_upload = gr.Textbox(label="Status do Upload")
    in_question = gr.Textbox(label="Digite sua pergunta sobre os dados")
    bt_submit = gr.Button("Enviar")
    out_answer = gr.Textbox(label="Resposta")
    df_state = gr.State(value=None)
    
    in_file.change(fn=load_data,
                   inputs=[in_file, df_state],
                   outputs=[status_upload, df_state])
    
    bt_submit.click(fn=proccess_question,
                    inputs=[in_question, df_state],
                    outputs=out_answer)
app.launch(debug=True)

* Running on local URL:  http://127.0.0.1:7860
INFO:httpx:HTTP Request: GET http://127.0.0.1:7860/gradio_api/startup-events "HTTP/1.1 200 OK"
HTTP Request: GET http://127.0.0.1:7860/gradio_api/startup-events "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: HEAD http://127.0.0.1:7860/ "HTTP/1.1 200 OK"
HTTP Request: HEAD http://127.0.0.1:7860/ "HTTP/1.1 200 OK"

To create a public link, set `share=True` in `launch()`.


INFO:httpx:HTTP Request: GET https://api.gradio.app/pkg-version "HTTP/1.1 200 OK"
HTTP Request: GET https://api.gradio.app/pkg-version "HTTP/1.1 200 OK"
[1;3;38;2;155;135;227m> Running module input with input: 
query_str: Qual a maior filial com vendas?

[0m[1;3;38;2;155;135;227m> Running module pandas_prompt with input: 
query_str: Qual a maior filial com vendas?

[0m[1;3;38;2;155;135;227m> Running module llm1 with input: 
messages: Você está trabalhando com um dataframe do pandas em Python chamado `df`.
Aqui estão os detalhes das colunas do dataframe:
`ID_compra`: object
`filial`: object
`cidade`: object
`tipo_cliente`: object
`...

[0mINFO:httpx:HTTP Request: POST https://api.groq.com/openai/v1/chat/completions "HTTP/1.1 200 OK"
HTTP Request: POST https://api.groq.com/openai/v1/chat/completions "HTTP/1.1 200 OK"
[1;3;38;2;155;135;227m> Running module pandas_output_parser with input: 
input: assistant: df.groupby('filial')['total'].sum().idxmax()

[0m[1;3;38;2;155;135;227m> 

