In [1]:
!pip -q install llama-index==0.10.37

In [2]:
!pip -q install llama-index-llms-openai llama-index-llms-groq llama-index-experimental gradio fpdf

  Preparing metadata (setup.py) ... [?25l[?25hdone
  Building wheel for fpdf (setup.py) ... [?25l[?25hdone


In [3]:
import pandas as pd
from pydantic import BaseModel, Field, field_validator
from llama_index.core import Settings
from llama_index.llms.groq import Groq
from llama_index.experimental.query_engine import PandasQueryEngine
from google.colab import userdata
import textwrap

# ===== CONFIGURA√á√ÉO COM PYDANTIC V2 =====
class LLMConfig(BaseModel):
    model: str = Field(..., description="Nome do modelo Groq a ser usado")
    api_key: str = Field(..., description="Chave da API Groq")
    data_url: str = Field(..., description="URL do CSV com os dados")

    @field_validator("data_url")
    @classmethod
    def validar_url(cls, v: str) -> str:
        if not (v.startswith("http://") or v.startswith("https://")):
            raise ValueError("data_url deve come√ßar com http:// ou https://")
        return v

    @field_validator("api_key")
    @classmethod
    def validar_api_key(cls, v: str) -> str:
        if not v or len(v.strip()) == 0:
            raise ValueError("api_key n√£o pode ser vazia")
        return v

    model_config = {
        "extra": "allow",
        "json_schema_extra": {
            "example": {
                "model": "meta-llama/llama-4-scout-17b-16e-instruct",
                "api_key": "<SUA_CHAVE_AQUI>",
                "data_url": "https://raw.githubusercontent.com/YuriArduino/Estudos_Artificial_Intelligence/refs/heads/Dados/vendas.csv"
            }
        }
    }

# ===== Fun√ß√£o para formatar texto =====
def formatar_texto(response, largura: int = 100, imprimir: bool = True):
    texto = response.response
    texto_formatado = textwrap.fill(texto, width=largura)
    if imprimir:
        print(texto_formatado)
    return texto_formatado

# ===== INICIALIZA√á√ÉO =====
# Obter a chave via Colab userdata
key = userdata.get('Groq_API')

# Configurar
config = LLMConfig(
    model="meta-llama/llama-4-scout-17b-16e-instruct",
    api_key=key,
    data_url="https://raw.githubusercontent.com/YuriArduino/Estudos_Artificial_Intelligence/refs/heads/Dados/vendas.csv"
)

# Carregar CSV
df = pd.read_csv(config.data_url)

# Inicializar LLM via Settings
Settings.llm = Groq(model=config.model, api_key=config.api_key)

# Criar engine de consulta (somente aqui, depois do df estar pronto)
query_engine = PandasQueryEngine(df=df, verbose=True, synthesize_response=True)


[nltk_data] Downloading package punkt_tab to
[nltk_data]     /usr/local/lib/python3.12/dist-
[nltk_data]     packages/llama_index/core/_static/nltk_cache...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


#Modularidade

Antes de criar o pipeline em si, voc√™ precisa definir alguns m√≥dulos.
No primeiro, temos algumas instru√ß√µes do que √© para ser feito com os dados. Depois, temos o Pandas Prompt, com informa√ß√µes sobre o DataFrame que estamos trabalhando. Por fim, temos um prompt de respostas, onde vai sintetizar a resposta que ser√° gerada no final.

Mas, vamos entender o que precisamos fazer. Se estamos trabalhando com dados em portugu√™s e queremos que o modelo s√≥ GAranta um bom resultado em portugu√™s, a primeira coisa que precisamos fazer √© alterar os textos todos para portugu√™s. Dessa forma n√£o haver√° confus√£o, o modelo n√£o se confundir√° e responder√° em ingl√™s, como aconteceu na aula anterior.

In [4]:
from llama_index.core import PromptTemplate
from llama_index.experimental.query_engine.pandas import PandasInstructionParser

In [5]:
# Fun√ß√£o para obter uma descri√ß√£o das colunas do DataFrame
def descricao_colunas(df):
  descricao = '\n'.join([f"`{col}`: {str(df[col].dtype)}" for col in df.columns])
  return 'Aqui est√£o os detalhes das colunas do DataFrame:\n' + descricao


# Instru√ß√µes para orientar o modelo a converter uma consulta em linguagem natural em c√≥digo Python execut√°vel com a biblioteca Pandas
instruction_str = (
    "1. Converta a consulta para c√≥digo Python execut√°vel usando Pandas.\n"
    "2. A linha final do c√≥digo deve ser uma express√£o Python que possa ser chamada com a fun√ß√£o `eval()`.\n"
    "3. O c√≥digo deve representar uma solu√ß√£o para a consulta.\n"
    "4. IMPRIMA APENAS A EXPRESS√ÉO.\n"
    "5. N√£o coloque a express√£o entre aspas.\n")

# Prompt que ser√° enviado ao modelo para que ela gere o c√≥digo Pandas desejado
pandas_prompt_str = (
    "Voc√™ est√° trabalhando com um dataframe do pandas em Python chamado `df`.\n"
    "{colunas_detalhes}\n\n"
    "Este √© o resultado de `print(df.head())`:\n"
    "{df_str}\n\n"
    "Siga estas instru√ß√µes:\n"
    "{instruction_str}\n"
    "Consulta: {query_str}\n\n"
    "Express√£o:"
)

# Prompt para guiar o modelo a sintetizar uma resposta com base nos resultados obtidos pela consulta Pandas
response_synthesis_prompt_str = (
   "Dada uma pergunta de entrada, atue como analista de dados e elabore uma resposta a partir dos resultados da consulta.\n"
   "Responda de forma natural, sem introdu√ß√µes como 'A resposta √©:' ou algo semelhante.\n"
   "Consulta: {query_str}\n\n"
   "Instru√ß√µes do Pandas (opcional):\n{pandas_instructions}\n\n"
   "Sa√≠da do Pandas: {pandas_output}\n\n"
   "Resposta:"
   "Ao final, exibir o c√≥digo usado para gerar a resposta, no formato: O c√≥digo utilizado foi {pandas_instructions}"
)

# M√≥dulo para obter as instru√ß√µes Pandas
pandas_prompt = PromptTemplate(pandas_prompt_str).partial_format(
    instruction_str=instruction_str, colunas_detalhes=descricao_colunas(df), df_str=df.head(5)
)
# M√≥dulo para executar as instru√ß√µes Pandas
pandas_output_parser = PandasInstructionParser(df)

# M√≥dulo para sintetizar a resposta
response_synthesis_prompt = PromptTemplate(response_synthesis_prompt_str)

# Modelo
#llm = Groq(model='llama3-70b-8192', api_key=key)
#Carreguei um mais avan√ßado

#Fun√ß√£o eval() e instru√ß√µes do modelo

`eval()` √© uma fun√ß√£o Python que serve basicamente para executar um c√≥digo que esteja dentro de uma string. Ou seja, se temos um c√≥digo dentro de um texto, vai peg√°-lo e executar diretamente.

O c√≥digo deve representar uma solu√ß√£o para a consulta. Ent√£o, se a pessoa fez uma pergunta, esse c√≥digo vai ter que encontrar uma solu√ß√£o usando um c√≥digo da biblioteca Pandas. Ap√≥s, √© definido que seja impresso apenas a express√£o, que deve ser uma coisa importante de ser feita. Ele tamb√©m pede para n√£o colocar a express√£o entre aspas no final, pois isso pode atrapalhar a execu√ß√£o da fun√ß√£o eval().

Depois temos o pandas_prompt_str. Este √© o prompt que ser√° enviado para o modelo para que gere o c√≥digo Pandas desejado. Nele, informamos ao modelo que est√° trabalhando com o dataframe do Pandas em Python chamado df, esse √© o resultado do print df.head(). Repare que come√ßa mostrando quais s√£o as cinco primeiras linhas do arquivo para o modelo j√° ter um contexto. A partir disso, conseguimos fazer perguntas com maior facilidade.

Ap√≥s, traz o df_str, que √© uma vari√°vel que est√° abaixo, que √© basicamente o df.head() para pegar as cinco primeiras linhas. Nisso, indica seguir as instru√ß√µes. Em seguida, temos a Consulta {query str}, que √© a consulta que faremos para o pipeline. E temos a express√£o sendo gerada.

Por fim, temos esse response_synthesis_prompt_str, que serve para guiar o modelo a sintetizar uma resposta com base no resultado que foi obtido pela nossa consulta Pandas. Ent√£o, ele indica que "Dada uma pergunta de entrada, elabore uma resposta a partir dos resultados da consulta".

Ap√≥s, traz qual foi a consulta feita, que √© query_str. Tamb√©m ter√° as instru√ß√µes do Pandas que ser√£o usadas para gerar a resposta, que √© o pandas_instructions. Depois, ele tem essas instru√ß√µes do Pandas, que s√£o as instru√ß√µes que ser√£o usadas para chegar no resultado. Temos tamb√©m a sa√≠da do Pandas, que √© o pandas_output e a resposta.

---

# Para saber mais: modificando os prompts do pipeline

A capacidade de **customizar como as consultas s√£o processadas e as respostas apresentadas** √© essencial para atender √†s necessidades espec√≠ficas dos usu√°rios, aumentando a efici√™ncia e a relev√¢ncia dos resultados.

---

## Estrutura do pipeline

A primeira etapa antes de criar o pipeline √© definir **3 m√≥dulos principais**:

1. **pandas\_prompt**

   * Traduz consultas em linguagem natural para comandos espec√≠ficos do Pandas.
   * Facilita a manipula√ß√£o direta dos dados.

2. **pandas\_output\_parser**

   * Executa os comandos gerados.
   * Aplica-os diretamente ao DataFrame para processar as informa√ß√µes.

3. **response\_synthesis\_prompt**

   * Elabora uma resposta clara e informativa com base nos resultados obtidos.
   * Essa resposta √© a que ser√° apresentada ao usu√°rio.

---

## C√≥digo base

```python
# M√≥dulo pandas_prompt
pandas_prompt = PromptTemplate(pandas_prompt_str).partial_format(
    instruction_str=instruction_str,
    df_str=df.head(5),
    colunas_detalhes=descricao_colunas(df)
)

# M√≥dulo pandas_output_parser
pandas_output_parser = PandasInstructionParser(df)

# M√≥dulo response_synthesis_prompt
response_synthesis_prompt = PromptTemplate(response_synthesis_prompt_str)

# LLM
llm = Groq(model="llama3-70b-8192", api_key=key)
```

---

## Componentes essenciais

### 1. Instruction String

√â o conjunto de instru√ß√µes que orienta o modelo a converter consultas em linguagem natural para **c√≥digo Python execut√°vel** utilizando Pandas.

üîë Requisito importante: o c√≥digo final deve ser uma express√£o Python que possa ser chamada com `eval()`.

```python
instruction_str = (
    "1. Converta a consulta para c√≥digo Python execut√°vel usando Pandas.\n"
    "2. A linha final do c√≥digo deve ser uma express√£o Python que possa ser chamada com a fun√ß√£o `eval()`.\n"
    "3. O c√≥digo deve representar uma solu√ß√£o para a consulta.\n"
    "4. IMPRIMA APENAS A EXPRESS√ÉO.\n"
    "5. N√£o coloque a express√£o entre aspas.\n"
)
```

---

### 2. Pandas Prompt String

Esse prompt √© enviado ao modelo para gerar o c√≥digo Pandas desejado.

Inclui:

* As **instru√ß√µes detalhadas**.
* Uma **vis√£o geral do DataFrame** (`df.head(5)`).
* **Detalhes das colunas** para dar mais contexto ao modelo.

Fun√ß√£o auxiliar para descrever colunas:

```python
def descricao_colunas(df):
    descricao = '\n'.join([f"`{col}`: {str(df[col].dtype)}" for col in df.columns])
    return 'Aqui est√£o os detalhes das colunas do DataFrame:\n' + descricao
```

Prompt traduzido e ajustado:

```python
pandas_prompt_str = (
    "Voc√™ est√° trabalhando com um dataframe do pandas em Python chamado `df`.\n"
    "{colunas_detalhes}\n\n"
    "Este √© o resultado de `print(df.head())`:\n"
    "{df_str}\n\n"
    "Siga estas instru√ß√µes:\n"
    "{instruction_str}\n"
    "Consulta: {query_str}\n\n"
    "Express√£o:"
)
```

---

### 3. Response Synthesis Prompt String

Respons√°vel por guiar o modelo a sintetizar uma resposta explicativa, de forma natural, **atuando como um analista de dados**.

Inclui:

* Pergunta feita.
* C√≥digo Pandas utilizado.
* Sa√≠da obtida.
* Resposta em texto natural.

```python
response_synthesis_prompt_str = (
    "Dada uma pergunta de entrada, atue como analista de dados e elabore uma resposta a partir dos resultados da consulta.\n"
    "Responda de forma natural, sem introdu√ß√µes como 'A resposta √©:' ou algo semelhante.\n"
    "Consulta: {query_str}\n\n"
    "Instru√ß√µes do Pandas (opcional):\n{pandas_instructions}\n\n"
    "Sa√≠da do Pandas: {pandas_output}\n\n"
    "Resposta: \n\n"
    "Ao final, exibir o c√≥digo usado em para gerar a resposta, no formato: O c√≥digo utilizado foi `{pandas_instructions}`"
)
```

---

‚úÖ Agora que os m√≥dulos est√£o definidos, o pr√≥ximo passo √© **construir o pipeline completo**.

---

##Construindo o pipeline de consulta

###Estruturando o pipeline

In [12]:
import pandas as pd
from pydantic import BaseModel, Field, field_validator
from llama_index.core import Settings, PromptTemplate
from llama_index.llms.groq import Groq
from llama_index.experimental.query_engine import PandasQueryEngine
from llama_index.core.query_pipeline import QueryPipeline as QP, Link, InputComponent
from llama_index.experimental.query_engine.pandas import PandasInstructionParser
from google.colab import userdata
import textwrap

# ===== CONFIGURA√á√ÉO COM PYDANTIC V2 =====
class LLMConfig(BaseModel):
    model: str = Field(..., description="Nome do modelo Groq a ser usado")
    api_key: str = Field(..., description="Chave da API Groq")
    data_url: str = Field(..., description="URL do CSV com os dados")

    @field_validator("data_url")
    @classmethod
    def validar_url(cls, v: str) -> str:
        if not (v.startswith("http://") or v.startswith("https://")):
            raise ValueError("data_url deve come√ßar com http:// ou https://")
        return v

    @field_validator("api_key")
    @classmethod
    def validar_api_key(cls, v: str) -> str:
        if not v or len(v.strip()) == 0:
            raise ValueError("api_key n√£o pode ser vazia")
        return v

    model_config = {
        "extra": "allow",
        "json_schema_extra": {
            "example": {
                "model": "meta-llama/llama-4-scout-17b-16e-instruct",
                "api_key": "<SUA_CHAVE_AQUI>",
                "data_url": "https://raw.githubusercontent.com/YuriArduino/Estudos_Artificial_Intelligence/refs/heads/Dados/vendas.csv"
            }
        }
    }

# ===== Fun√ß√£o para formatar texto =====
def formatar_texto(response, largura: int = 100, imprimir: bool = True):
    texto = response.response if hasattr(response, "response") else str(response)
    texto_formatado = textwrap.fill(texto, width=largura)
    if imprimir:
        print(texto_formatado)
    return texto_formatado

# ===== INICIALIZA√á√ÉO =====
# Obter a chave via Colab userdata
key = userdata.get('Groq_API')

# Configurar
config = LLMConfig(
    model="meta-llama/llama-4-scout-17b-16e-instruct",
    api_key=key,
    data_url="https://raw.githubusercontent.com/YuriArduino/Estudos_Artificial_Intelligence/refs/heads/Dados/vendas.csv"
)

# Carregar CSV
df = pd.read_csv(config.data_url)

# Inicializar LLM via Settings
Settings.llm = Groq(model=config.model, api_key=config.api_key)

# ===== PROMPTS =====
# Instru√ß√µes para orientar o modelo
instruction_str = (
    "1. Converta a consulta para c√≥digo Python execut√°vel usando Pandas.\n"
    "2. A linha final do c√≥digo deve ser uma express√£o Python que possa ser chamada com a fun√ß√£o `eval()`.\n"
    "3. O c√≥digo deve representar uma solu√ß√£o para a consulta.\n"
    "4. IMPRIMA APENAS A EXPRESS√ÉO.\n"
    "5. N√£o coloque a express√£o entre aspas.\n"
)

# Fun√ß√£o para descri√ß√£o das colunas
def descricao_colunas(df):
    descricao = '\n'.join([f"`{col}`: {str(df[col].dtype)}" for col in df.columns])
    return 'Aqui est√£o os detalhes das colunas do DataFrame:\n' + descricao

# Prompt Pandas
pandas_prompt_str = (
    "Voc√™ est√° trabalhando com um dataframe do pandas em Python chamado `df`.\n"
    "{colunas_detalhes}\n\n"
    "Este √© o resultado de `print(df.head())`:\n"
    "{df_str}\n\n"
    "Siga estas instru√ß√µes:\n"
    "{instruction_str}\n"
    "Consulta: {query_str}\n\n"
    "Express√£o:"
)

# Prompt de Resposta R√°pida
response_synthesis_prompt_str = (
   "Dada uma pergunta de entrada, atue como analista de dados e elabore uma resposta a partir dos resultados da consulta.\n"
   "Responda de forma natural, sem introdu√ß√µes como 'A resposta √©:' ou algo semelhante.\n"
   "Consulta: {query_str}\n\n"
   "Instru√ß√µes do Pandas (opcional):\n{pandas_instructions}\n\n"
   "Sa√≠da do Pandas: {pandas_output}\n\n"
   "Resposta:\n"
   "Ao final, exibir o c√≥digo usado para gerar a resposta, no formato: O c√≥digo utilizado foi {pandas_instructions}"
)

# M√≥dulo para obter as instru√ß√µes Pandas
pandas_prompt = PromptTemplate(pandas_prompt_str).partial_format(
    instruction_str=instruction_str, colunas_detalhes=descricao_colunas(df), df_str=df.head(5)
)

# M√≥dulo para executar as instru√ß√µes Pandas
pandas_output_parser = PandasInstructionParser(df)

# M√≥dulo para sintetizar a resposta
response_synthesis_prompt = PromptTemplate(response_synthesis_prompt_str)


# ===== DEFINI√á√ÉO DOS NODES (usando QueryPipeline) =====
# Os nodes s√£o representados pelos pr√≥prios componentes no QueryPipeline

# Criar o QueryPipeline
qp = QP(verbose=True)

# Adicionar modulos
qp.add_modules({
    "input": InputComponent(),
    "pandas_prompt": pandas_prompt,
    "llm": Settings.llm,
    "pandas_output_parser": pandas_output_parser,
    "response_synthesis_prompt": response_synthesis_prompt,
    "response_synthesizer": Settings.llm, # Use the LLM to synthesize the response
})

# Adicionar Links
qp.add_links(
    [
        Link("input", "pandas_prompt"),
        Link("pandas_prompt", "llm"),
        Link("llm", "pandas_output_parser"),
        Link("pandas_output_parser", "response_synthesis_prompt", dest_key="pandas_output"),
        Link("input", "response_synthesis_prompt", dest_key="query_str"),
        Link("llm", "response_synthesis_prompt", dest_key="pandas_instructions"), # Link LLM output (the code)
        Link("response_synthesis_prompt", "response_synthesizer"),
    ]
)

##Realizando consultas com a pipeline

Criamos uma vari√°vel chamada response e atribu√≠mos um valor a ela. O processo ser√° um pouco diferente, pois, ao inv√©s de utilizar o Pandas Query Engine, estamos trabalhando diretamente com o pipeline.

Para isso, usaremos a vari√°vel `qp`, que definimos anteriormente. A execu√ß√£o do pipeline ser√° feita por meio de `qp.run()`, passando como par√¢metro o valor de query_str, que j√° definimos em etapas anteriores. Esse par√¢metro √© o destino do nosso primeiro link, presente tanto no prompt de resposta quanto no prompt da biblioteca Pandas.

Vamos perguntar: "Qual √© a m√©dia gasta por cada tipo de cliente?" Temos clientes que s√£o membros da nossa rede de varejo e clientes que n√£o s√£o membros. Ser√° que um gasta mais que o outro, em m√©dia?

In [16]:
# ===== EXECU√á√ÉO =====
response = qp.run(query_str="Qual √© a m√©dia gasta por cada tipo de cliente?")

[1;3;38;2;155;135;227m> Running module input with input: 
query_str: Qual √© a m√©dia gasta por cada tipo de cliente?

[0m[1;3;38;2;155;135;227m> Running module pandas_prompt with input: 
query_str: Qual √© a m√©dia gasta por cada tipo de cliente?

[0m[1;3;38;2;155;135;227m> Running module llm with input: 
messages: Voc√™ est√° trabalhando com um dataframe do pandas em Python chamado `df`.
Aqui est√£o os detalhes das colunas do DataFrame:
`ID_compra`: object
`filial`: object
`cidade`: object
`tipo_cliente`: object
`...

[0m[1;3;38;2;155;135;227m> Running module pandas_output_parser with input: 
input: assistant: df.groupby('tipo_cliente')['total'].mean()

[0m[1;3;38;2;155;135;227m> Running module response_synthesis_prompt with input: 
query_str: Qual √© a m√©dia gasta por cada tipo de cliente?
pandas_instructions: assistant: df.groupby('tipo_cliente')['total'].mean()
pandas_output: tipo_cliente
Membro    327.791305
Normal    318.122856
Name: total, dtype: float64

[0m[1;3;38

##Formatando a resposta


Na pr√≥xima c√©lula, formatamos a resposta usando o m√≥dulo textwrap para melhorar a apresenta√ß√£o. Iniciamos criando uma vari√°vel chamada texto que ser√° igual a response.message.content para obter a resposta.

Para formatar o texto, criamos uma vari√°vel texto_formatado que ser√° igual a textwrap.fill(texto, width=100), sendo o width a largura. Por fim, exibimos o texto_formatado utilizando o print():

In [17]:
texto = response.message.content
texto_formatado = textwrap.fill(texto, width=100)
print(texto_formatado)

A m√©dia de gastos por tipo de cliente varia ligeiramente entre as categorias. Os clientes "Membro"
apresentam uma m√©dia de gasto de aproximadamente R$ 327,79, enquanto os clientes "Normal" gastam em
m√©dia R$ 318,12. Isso sugere que os membros tendem a gastar um pouco mais em compara√ß√£o com os
clientes normais.  O c√≥digo utilizado foi df.groupby('tipo_cliente')['total'].mean()


O c√≥digo utilizado foi df.groupby('tipo_cliente')['total'].mean(). Isso √© √∫til para a equipe da Zoop, pois al√©m da resposta, podemos verificar se est√° tudo certo.

Como estamos utilizando uma LLM, podemos solicitar que ela forne√ßa um insight sobre as diferen√ßas de pre√ßo. Podemos testar outra consulta: "Por que clientes tipo membro t√™m maior m√©dia de gasto?" utilizando a vari√°vel response que ser√° igual a qp.run(query_str="") e passamos a pergunta:

In [18]:
response = qp.run(query_str="Por que clientes do tipo membro tem maior m√©dia de gasto?")

[1;3;38;2;155;135;227m> Running module input with input: 
query_str: Por que clientes do tipo membro tem maior m√©dia de gasto?

[0m[1;3;38;2;155;135;227m> Running module pandas_prompt with input: 
query_str: Por que clientes do tipo membro tem maior m√©dia de gasto?

[0m[1;3;38;2;155;135;227m> Running module llm with input: 
messages: Voc√™ est√° trabalhando com um dataframe do pandas em Python chamado `df`.
Aqui est√£o os detalhes das colunas do DataFrame:
`ID_compra`: object
`filial`: object
`cidade`: object
`tipo_cliente`: object
`...

[0m[1;3;38;2;155;135;227m> Running module pandas_output_parser with input: 
input: assistant: df.groupby('tipo_cliente')['total'].mean().sort_values(ascending=False)

[0m[1;3;38;2;155;135;227m> Running module response_synthesis_prompt with input: 
query_str: Por que clientes do tipo membro tem maior m√©dia de gasto?
pandas_instructions: assistant: df.groupby('tipo_cliente')['total'].mean().sort_values(ascending=False)
pandas_output: tipo_cli

Podemos exibir a resposta como fizemos anteriormente com o seguinte c√≥digo:

In [19]:
texto = response.message.content
texto_formatado = textwrap.fill(texto, width=100)
print(texto_formatado)

Clientes do tipo membro apresentam uma m√©dia de gasto maior em compara√ß√£o com clientes do tipo
normal. De acordo com os dados, a m√©dia de gasto para clientes membros √© de aproximadamente R$
327,79, enquanto para clientes normais essa m√©dia fica em torno de R$ 318,12.   Essa diferen√ßa pode
ser resultado de v√°rios fatores, como programas de fidelidade que incentivam membros a realizar
compras mais frequentes ou de maior valor, ou caracter√≠sticas demogr√°ficas e comportamentais que
distinguem os clientes membros dos normais.   O c√≥digo utilizado foi
`df.groupby('tipo_cliente')['total'].mean().sort_values(ascending=False)`


Exerc√≠cio: criando uma fun√ß√£o para o pipeline de consultas

Nesta aula, aprendemos a criar um pipeline de consultas, que ser√° crucial para a constru√ß√£o de uma aplica√ß√£o futura. Para solidificar o aprendizado e preparar para usos pr√°ticos, sua tarefa √© encapsular o pipeline em uma fun√ß√£o, facilitando a reutiliza√ß√£o e integra√ß√£o na aplica√ß√£o que vamos come√ßar a construir na pr√≥xima aula.

Dicas

Nomeie a fun√ß√£o como pipeline_consulta.
A fun√ß√£o deve aceitar um DataFrame chamado df como entrada.
Inclua a fun√ß√£o descricao_colunas no corpo do c√≥digo para ajudar na descri√ß√£o das colunas do DataFrame.
A fun√ß√£o deve retornar a vari√°vel qp, que representa o pipeline completo.

In [20]:
#Resposta da instrutora, a minha est√° no pipeline que usei:

def descricao_colunas(df):
    descricao = '\n'.join([f"`{col}`: {str(df[col].dtype)}" for col in df.columns])
    return "Aqui est√£o os detalhes das colunas do dataframe:\n" + descricao

# Defini√ß√£o de m√≥dulos da pipeline
def pipeline_consulta(df):
    instruction_str = (
        "1. Converta a consulta para c√≥digo Python execut√°vel usando Pandas.\n"
        "2. A linha final do c√≥digo deve ser uma express√£o Python que possa ser chamada com a fun√ß√£o `eval()`.\n"
        "3. O c√≥digo deve representar uma solu√ß√£o para a consulta.\n"
        "4. IMPRIMA APENAS A EXPRESS√ÉO.\n"
        "5. N√£o coloque a express√£o entre aspas.\n")

    pandas_prompt_str = (
        "Voc√™ est√° trabalhando com um dataframe do pandas em Python chamado `df`.\n"
        "{colunas_detalhes}\n\n"
        "Este √© o resultado de `print(df.head())`:\n"
        "{df_str}\n\n"
        "Siga estas instru√ß√µes:\n"
        "{instruction_str}\n"
        "Consulta: {query_str}\n\n"
        "Express√£o:"
)

    response_synthesis_prompt_str = (
       "Dada uma pergunta de entrada, atue como analista de dados e elabore uma resposta a partir dos resultados da consulta.\n"
       "Responda de forma natural, sem introdu√ß√µes como 'A resposta √©:' ou algo semelhante.\n"
       "Consulta: {query_str}\n\n"
       "Instru√ß√µes do Pandas (opcional):\n{pandas_instructions}\n\n"
       "Sa√≠da do Pandas: {pandas_output}\n\n"
       "Resposta: \n\n"
       "Ao final, exibir o c√≥digo usado em para gerar a resposta, no formato: O c√≥digo utilizado foi `{pandas_instructions}`"
    )

    pandas_prompt = PromptTemplate(pandas_prompt_str).partial_format(
    instruction_str=instruction_str,
    df_str=df.head(5),
    colunas_detalhes=descricao_colunas(df)
)

    pandas_output_parser = PandasInstructionParser(df)
    response_synthesis_prompt = PromptTemplate(response_synthesis_prompt_str)

    # Cria√ß√£o do Query Pipeline
    qp = QP(
        modules={
            "input": InputComponent(),
            "pandas_prompt": pandas_prompt,
            "llm1": llm,
            "pandas_output_parser": pandas_output_parser,
            "response_synthesis_prompt": response_synthesis_prompt,
            "llm2": llm,
        },
        verbose=True,
    )
    qp.add_chain(["input", "pandas_prompt", "llm1", "pandas_output_parser"])
    qp.add_links(
        [
            Link("input", "response_synthesis_prompt", dest_key="query_str"),
            Link("llm1", "response_synthesis_prompt", dest_key="pandas_instructions"),
            Link("pandas_output_parser", "response_synthesis_prompt", dest_key="pandas_output"),
        ]
    )
    qp.add_link("response_synthesis_prompt", "llm2")
    return qp