#### bibliotecas necessárias
- pandas==2.2.2
- llama-index==0.11.20
- llama-index-llms-groq==0.2.0
- llama-index-experimental==0.4.0
- gradio==5.4.0
- fpdf==1.7.2

pip install llama-index==0.11.20 && pip install llama-index-llms-groq==0.2.0 && pip install llama-index-experimental==0.4.0 && pip install gradio==5.4.0 && pip install fpdf==1.7.2

- OBS: Também é necessário uma key atravez do https://groq.com, sinalizado na variável "groq_key" na celula abaixo.
- OBS2: Bem como um arquivo para análise, no caso, para este projeto utilizamos as informações de uma tabela fictícia da Valquíria Alencar, instrutora do curso de LLM LlamaIndex na Alura

In [None]:
import pandas as pd
import textwrap
from llama_index.core import Settings
from llama_index.llms.groq import Groq
from llama_index.experimental.query_engine import PandasQueryEngine
groq_key = ''
url = 'https://github.com/alura-cursos/llamaIndex_pandas_query/blob/main/Dados/vendas.csv'

Settings.llm = Groq(model='llama3-70b-8192', api_key=groq_key)

In [None]:
DF = pd.read_csv(url)

In [None]:
# A FORMA MAIS DIRETA DE RESPOSTAS UTILIZANDO QUERY_ENGINE
query_engine = PandasQueryEngine(df=DF, verbose=True)

response = query_engine.query('Qual a forma de pagamento mais utilizada?')

In [None]:
# RESPOSTAS MAIS COMPLETAS ALÉM DO VALOR FINAL, UMA EXPLICAÇÃO
# TEXTWRAP É APENAS PARA FACILITAR A VISUALIZAÇÃO, NÃO É NECESSÁRIO
query_engine = PandasQueryEngine(df=DF, verbose=True, synthesize_response=True)

response = query_engine.query('Qual a média de avaliação para cada filial?')
print(textwrap.fill(response.response, width=100))

In [None]:
# É POSSIVEL FAZER PLOTAGEM DE GRAFICOS, UMA VEZ QUE O PANDAS POSSUI O PLOT
query_engine = PandasQueryEngine(df=DF, verbose=True, synthesize_response=True)

response = query_engine.query('Você pode plotar a distribuição das avaliações?')

Quando pedimos uma ação do modelo que não seja uma pergunta, como se fosse uma ordem, o modelo pode responder sem a formatação de linguagem (portugues), e nos trás uma resposta em inglês. Na maioria dos cenários isto é um problema, portanto, vamos fazer os ajustes necessários no prompt

query_engine = PandasQueryEngine(df=DF, verbose=True, synthesize_response=True)

response = query_engine.query('Plote a distribuição das avaliações')

In [None]:
from llama_index.core import PromptTemplate
from llama_index.experimental.query_engine.pandas import PandasInstructionParser

In [None]:
# FUNÇÃO PARA OBTER UMA DESCRIÇÃO DAS COLUNAS DO DATAFRAME
def descricao_colunas(DF):
    descricao = '\n'.join([f"`{col}`: {str(DF[col].dtype)}" for col in DF.columns])
    return 'Aqui estão os detalhes das colunas do DataFrame:\n' + descricao

# INSTRUÇÕES PARA ORIENTAR O MODELO A CONVERTER UMA CONSULTA EM LINGUAGEM NATURAL EM CÓDIGO PYTHON EXECUTÁVEL COM A BIBLIOTECA PANDAS
instruction_str = ("1. Converta a consulta para código Python executável usando Pandas.\n"
                    "2. A linha final do código deve ser uma expressão Python que possa ser chamada com a função `eval()`.\n"
                    "3. O código deve representar uma solução para a consulta.\n"
                    "4. IMPRIMA APENAS A EXPRESSÃO.\n"
                    "5. Não coloque a expressão entre aspas.\n")

# PROMPT QUE INFORMA AO MODELO OS PARAMETROS MAIS BASICOS DAS PERGUNTAS INICIAIS; DATAFRAME, PYTHON, RESULTADO, ETC
pandas_prompt_str = ("Você está trabalhando com um dataframe do pandas em Python chamado `DF`.\n"
                    "{colunas_detalhes}\n\n"
                    "Este é o resultado de `print(DF.head())`:\n"
                    "{df_str}\n\n"
                    "Siga estas instruções:\n"
                    "{instruction_str}\n"
                    "Consulta: {query_str}\n\n"
                    "Expressão:")

# GUIA PARA SINTETIZAR A RESPOSTA ATRAVÉS DA PERGUNTA FEITA
response_synthesis_prompt_str = ("Dada uma pergunta de entrada, atue como analista de dados e elabore uma resposta a partir dos resultados da consulta.\n"
                                "Responda de forma natural, sem introduções como 'A resposta é:' ou algo semelhante.\n"
                                "Consulta: {query_str}\n\n"
                                "Instruções do Pandas (opcional):\n{pandas_instructions}\n\n"
                                "Saída do Pandas: {pandas_output}\n\n"
                                "Resposta:"
                                "Ao final, exibir o código usado para gerar a resposta, no formato: O código utilizado foi {pandas_instructions}")

# OBTEM INSTRUÇOES DO PANDAS
pandas_prompt = PromptTemplate(pandas_prompt_str).partial_format(instruction_str=instruction_str, colunas_detalhes=descricao_colunas(DF), df_str=DF.head(5))
# EXECUTA AS INSTRUÇÕES
pandas_output_parser = PandasInstructionParser(DF)
# SINTETIZA A RESPOSTA
response_synthesis_prompt = PromptTemplate(response_synthesis_prompt_str)

llm = Groq(model='llama3-70b-8192', api_key=groq_key)

In [None]:
from llama_index.core.query_pipeline import(QueryPipeline as QP, Link, InputComponent)

In [None]:
qp = QP(modules={'input': InputComponent(),
                 'pandas_prompt': pandas_prompt,
                 'llm1': llm,
                 'pandas_output_parser': pandas_output_parser,
                 'response_synthesis_prompt': response_synthesis_prompt,
                 'llm2': llm}, verbose=True)

# DEFININDO A CADEIA DE EVENTOS DO PIPELINE
qp.add_chain(['input', 'pandas_prompt', 'llm1', 'pandas_output_parser'])

# UNINDO OS PROCESSOS (LINKS)
qp.add_links([Link('input', 'response_synthesis_prompt', dest_key='query_str'),
              Link('llm1', 'response_synthesis_prompt', dest_key='pandas_instructions'),
              Link('pandas_outrput_parser', 'response_synthesis_prompt', dest_key='pandas_output')])

qp.add_link('response_synthesis_prompt', 'llm2')

In [None]:
response = qp.run(query_str='Qual é a média gasta por cada tipo de cliente?')

In [None]:
texto = response.message.content
texto_format = textwrap.fill(texto, width=100)
texto_format