#Instalar requirements:

In [1]:
!pip install llama-index
!pip install llama-index-llms-groq
!pip install llama-index-experimental
!pip install gradio
!pip install fpdf

Collecting llama-index-experimental
  Using cached llama_index_experimental-0.6.1-py3-none-any.whl.metadata (684 bytes)
Collecting llama-index-finetuning<0.5,>=0.4 (from llama-index-experimental)
  Using cached llama_index_finetuning-0.4.0-py3-none-any.whl.metadata (770 bytes)
Collecting llama-index-embeddings-adapter<0.5,>=0.4.0 (from llama-index-finetuning<0.5,>=0.4->llama-index-experimental)
  Using cached llama_index_embeddings_adapter-0.4.0-py3-none-any.whl.metadata (402 bytes)
Collecting llama-index-llms-azure-openai<0.5,>=0.4.0 (from llama-index-finetuning<0.5,>=0.4->llama-index-experimental)
  Using cached llama_index_llms_azure_openai-0.4.0-py3-none-any.whl.metadata (3.7 kB)
Collecting llama-index-llms-mistralai<0.8,>=0.7.0 (from llama-index-finetuning<0.5,>=0.4->llama-index-experimental)
  Using cached llama_index_llms_mistralai-0.7.0-py3-none-any.whl.metadata (3.2 kB)
Collecting llama-index-postprocessor-cohere-rerank<0.6,>=0.5.0 (from llama-index-finetuning<0.5,>=0.4->llama

#Carregar e analisar dados

In [2]:
import pandas as pd

In [3]:
#Carregar dados
url = 'https://raw.githubusercontent.com/YuriArduino/Estudos_Artificial_Intelligence/refs/heads/Dados/vendas.csv'
df = pd.read_csv(url)
df.head()

Unnamed: 0,ID_compra,filial,cidade,tipo_cliente,genero,tipo_produto,preco_unitario,quantidade,imposto_5%,total,data,hora,forma_pagamento,avaliacao
0,750-67-8428,A,Santo André,Membro,Feminino,Saúde e Beleza,74.69,7,26.1415,548.9715,2024-01-05,13:08:00,Carteira Digital,9.1
1,226-31-3081,C,São Caetano,Normal,Feminino,Eletrônicos,15.28,5,3.82,80.22,2024-03-08,10:29:00,Dinheiro,9.6
2,631-41-3108,A,Santo André,Normal,Masculino,Casa,46.33,7,16.2155,340.5255,2024-03-03,13:23:00,Cartão de Crédito,7.4
3,123-19-1176,A,Santo André,Membro,Masculino,Saúde e Beleza,58.22,8,23.288,489.048,2024-01-27,20:33:00,Carteira Digital,8.4
4,373-73-7910,A,Santo André,Normal,Masculino,Esportes e Viagem,86.31,7,30.2085,634.3785,2024-02-08,10:37:00,Carteira Digital,5.3


In [4]:
#Verificar Nulos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   ID_compra        1000 non-null   object 
 1   filial           1000 non-null   object 
 2   cidade           1000 non-null   object 
 3   tipo_cliente     1000 non-null   object 
 4   genero           1000 non-null   object 
 5   tipo_produto     1000 non-null   object 
 6   preco_unitario   1000 non-null   float64
 7   quantidade       1000 non-null   int64  
 8   imposto_5%       1000 non-null   float64
 9   total            1000 non-null   float64
 10  data             1000 non-null   object 
 11  hora             1000 non-null   object 
 12  forma_pagamento  1000 non-null   object 
 13  avaliacao        1000 non-null   float64
dtypes: float64(4), int64(1), object(9)
memory usage: 109.5+ KB


In [5]:
#Verificar Duplicados
df.duplicated().sum()

np.int64(0)

---

## 📌 Para saber mais: LlamaIndex

A **LlamaIndex** é uma biblioteca que funciona como uma ponte entre nossos dados e a inteligência artificial, facilitando consultas e respostas automáticas. Em vez de lidar diretamente com planilhas, documentos, áudios ou bancos de dados, ela organiza essas fontes em um formato estruturado que permite buscas rápidas e inteligentes.

🔎 **Como funciona?**

* Os dados são **indexados** — como se fosse um catálogo de biblioteca, facilitando a localização de cada informação.
* Essa indexação utiliza **embeddings**, vetores numéricos que representam o significado dos conteúdos, permitindo entender relações semânticas além de simples palavras-chave.
* Após a indexação, os dados podem ser aplicados em soluções como **mecanismos de busca, chatbots e automações**.

📊 **Exemplos práticos com os dados da Zoop**

* Quais produtos venderam mais em cada filial?
* Qual a média de avaliação por tipo de cliente e filial?
* Qual a forma de pagamento preferida em cada local?

⚙️ **Por que é importante?**
Com a LlamaIndex, grandes modelos de linguagem (LLMs) conseguem acessar e interpretar **dados privados em grande escala**, sem necessidade de retreinar o modelo. Isso abre espaço para respostas inteligentes e fluxos de trabalho automatizados, diretamente conectados à realidade dos dados.

👉 No próximo passo, veremos como **definir o LLM** e configurar a **chave de API** para realizar consultas de forma eficiente.

---


##Definindo a LLM e configurando a chave de API

In [15]:
from google.colab import userdata
key = userdata.get('Groq_API')

In [16]:
from llama_index.core import Settings
from llama_index.llms.groq import Groq

Settings.llm = Groq (model='meta-llama/llama-4-scout-17b-16e-instruct', api_key = key)

---

## 📌 Para saber mais: entendendo como obter respostas a partir de consultas

Ao explorar a documentação da **LlamaIndex**, encontramos o conceito de **RAG (Retrieval Augmented Generation)** — ou **Geração Aumentada por Recuperação**. Essa técnica combina a **recuperação de informações relevantes** com a **geração de respostas baseadas nesses dados**, sendo a base do *Question-Answering (QA)* com LLMs.

A forma como o RAG é aplicado varia conforme o tipo de dado: **não estruturado** (como textos ou PDFs) e **estruturado** (como tabelas).

---

### 🔹 Dados não estruturados

São aqueles que não seguem um formato fixo, como **PDFs, Notion, Slack, documentos de texto ou áudios**.

O processo segue estas etapas:

1. **Usuário faz a consulta** → ponto de partida.
2. **Consulta enviada ao Recuperador** → localiza informações relevantes.
3. **Busca na fonte de dados** → vasculha documentos e registros disponíveis.
4. **Retorno do texto relevante** → seleciona os trechos mais úteis.
5. **Processamento conjunto** (consulta + texto) por um modelo de linguagem.
6. **Geração da resposta** → saída contextualizada e precisa.
7. **Entrega ao usuário** → finalização do ciclo.

💡 Isso garante que as respostas sejam **baseadas nos dados reais**, mesmo em grandes volumes de informações não organizadas.

---

### 🔹 Dados estruturados

No nosso projeto, usamos dados da **Zoop** em formato tabular (produtos, vendas, avaliações etc.). Aqui, a lógica é diferente:

1. **Conversão da consulta** → a pergunta do usuário é traduzida em operações do **Pandas**.
2. **Aplicação no DataFrame** → execução da consulta usando métodos como `df.query()`.
3. **Geração da resposta** → apresentação dos resultados (subconjuntos, estatísticas ou até gráficos).

👉 Para esse tipo de dado, usamos o **PandasQueryEngine**, treinado com a documentação do Pandas, garantindo consultas diretas e eficientes.

---

⚙️ **Resumo:**

* **Não estruturados** → RAG encontra trechos relevantes e gera respostas contextuais.
* **Estruturados** → consultas são traduzidas em operações do Pandas e aplicadas diretamente no DataFrame.

No próximo passo, vamos aprofundar como configurar e rodar essas consultas na prática. 🚀

---

In [17]:
from llama_index.experimental.query_engine import PandasQueryEngine

In [18]:
query_engine = PandasQueryEngine(df=df, verbose=True)

##Gerando perguntas e respostas

In [19]:
response = query_engine.query(
    "What is the city with the highest population?",
)

> Pandas Instructions:
```
```python
df['cidade'].value_counts().idxmax()
```
```
> Pandas Output: Santo André


In [20]:
response = query_engine.query('Qual é a forma de pagamento mais utilizada pelos clientes?')

> Pandas Instructions:
```
df['forma_pagamento'].value_counts().idxmax()
```
> Pandas Output: Carteira Digital


Executando, obtemos uma resposta. Ele trouxe algumas saídas com informações, incluindo instruções do Pandas, o código usado para chegar à resposta. Ele chamou o DataFrame (df), acessou a coluna forma_pagamento, fez uma contagem das formas de pagamento com value_counts(), e usou index[0] para pegar o valor com a contagem mais alta. O resultado foi que o método de pagamento mais usado é a carteira digital.

Podemos confirmar isso executando o código que ele nos forneceu sem a parte do index:

In [21]:
df.forma_pagamento.value_counts()

Unnamed: 0_level_0,count
forma_pagamento,Unnamed: 1_level_1
Carteira Digital,345
Dinheiro,344
Cartão de Crédito,311


A execução mostra que "carteira digital" tem 345 contagens, "dinheiro" tem 344, e "cartão de crédito" tem 311. O index[0] pegou o primeiro valor, "carteira digital". A resposta está correta.

Agora, vamos tentar uma pergunta mais complexa. Criamos uma nova variável response, chamamos query_engine.query(''), abrimos parênteses e aspas. Por exemplo, desejamos saber qual foi o tipo de produto com maior quantidade vendida por filial. Parece complexo para esse modelo, mas vamos testar:

In [22]:
response = query_engine.query('Qual é o tipo de produto com maior quantidade por filial?')

> Pandas Instructions:
```
```python
df.groupby(['filial', 'tipo_produto']).agg({'quantidade': 'sum'}).reset_index().groupby('filial').idxmax()['quantidade'].to_dict()
```
```
> Pandas Output: {'A': 1, 'B': 9, 'C': 12}


In [29]:
response = query_engine.query('Explain the meaning of the output from the previous query about the product with the highest quantity per branch.')

> Pandas Instructions:
```
```python
df.loc[df.groupby('filial')['quantidade'].idxmax()]
```
```
> Pandas Output:       ID_compra filial                 cidade tipo_cliente     genero  \
13  252-56-2699      A            Santo André       Normal  Masculino   
96  766-85-7061      B  São Bernardo do Campo       Normal  Masculino   
7   315-22-5665      C            São Caetano       Normal   Feminino   

           tipo_produto  preco_unitario  quantidade  imposto_5%    total  \
13  Alimentos e Bebidas           43.19          10      21.595  453.495   
96       Saúde e Beleza           87.87          10      43.935  922.635   
7                  Casa           73.56          10      36.780  772.380   

          data      hora   forma_pagamento  avaliacao  
13  2024-02-07  16:48:00  Carteira Digital        8.2  
96  2024-03-29  10:25:00  Carteira Digital        5.1  
7   2024-02-24  11:38:00  Carteira Digital        8.0  


In [23]:
df.groupby(['filial', 'tipo_produto'])['quantidade'].sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,quantidade
filial,tipo_produto,Unnamed: 2_level_1
A,Alimentos e Bebidas,313
A,Casa,371
A,Eletrônicos,322
A,Esportes e Viagem,333
A,Moda,263
A,Saúde e Beleza,257
B,Alimentos e Bebidas,270
B,Casa,295
B,Eletrônicos,316
B,Esportes e Viagem,322


A execução mostra que, na filial A, "casa" tem 371; na filial B, "esportes e viagem" tem 322; e na filial C, "alimentos e bebidas" tem 369. A resposta está correta quando comparamos com a anterior.

É possível compreender como essa resposta é formulada e como ocorre esse processo de geração da saída. Ao inserirmos o response neste contexto e executarmos a célula:

In [30]:
response

Response(response='      ID_compra filial                 cidade tipo_cliente     genero  \\\n13  252-56-2699      A            Santo André       Normal  Masculino   \n96  766-85-7061      B  São Bernardo do Campo       Normal  Masculino   \n7   315-22-5665      C            São Caetano       Normal   Feminino   \n\n           tipo_produto  preco_unitario  quantidade  imposto_5%    total  \\\n13  Alimentos e Bebidas           43.19          10      21.595  453.495   \n96       Saúde e Beleza           87.87          10      43.935  922.635   \n7                  Casa           73.56          10      36.780  772.380   \n\n          data      hora   forma_pagamento  avaliacao  \n13  2024-02-07  16:48:00  Carteira Digital        8.2  \n96  2024-03-29  10:25:00  Carteira Digital        5.1  \n7   2024-02-24  11:38:00  Carteira Digital        8.0  ', source_nodes=[], metadata={'pandas_instruction_str': "```python\ndf.loc[df.groupby('filial')['quantidade'].idxmax()]\n```", 'raw_pandas_output

A saída gerada inclui o response, que representa a resposta fornecida pelo sistema, contendo os resultados de cada filial. Além disso, é possível observar o tipo de dado retornado, que é um objeto, juntamente com os metadados, a instrução da biblioteca Pandas e a saída em si.

Caso desejemos exibir apenas a resposta, podemos utilizar o comando print(). Para isso, basta escrever print(), colocando dentro dos parênteses response.response. Isso fará com que apenas a parte específica da resposta seja exibida.



In [31]:
print(response.response)

      ID_compra filial                 cidade tipo_cliente     genero  \
13  252-56-2699      A            Santo André       Normal  Masculino   
96  766-85-7061      B  São Bernardo do Campo       Normal  Masculino   
7   315-22-5665      C            São Caetano       Normal   Feminino   

           tipo_produto  preco_unitario  quantidade  imposto_5%    total  \
13  Alimentos e Bebidas           43.19          10      21.595  453.495   
96       Saúde e Beleza           87.87          10      43.935  922.635   
7                  Casa           73.56          10      36.780  772.380   

          data      hora   forma_pagamento  avaliacao  
13  2024-02-07  16:48:00  Carteira Digital        8.2  
96  2024-03-29  10:25:00  Carteira Digital        5.1  
7   2024-02-24  11:38:00  Carteira Digital        8.0  


Exercicios: Analisando os dados com PandasQueryEngine

In [32]:
response_test = query_engine.query('Qual é a forma de pagamento mais utilizada pelos clientes em cada filial?')

> Pandas Instructions:
```
```python
df.groupby('filial')['forma_pagamento'].agg(lambda x: x.mode().iloc[0]).to_dict()
```
```
> Pandas Output: {'A': 'Carteira Digital', 'B': 'Carteira Digital', 'C': 'Dinheiro'}


Nesta atividade, você vai colocar em prática o que aprendeu sobre o uso do PandasQueryEngine para realizar consultas em DataFrames. Lembre-se que os dados já foram carregados e você já configurou a LLM e a chave de API conforme ensinado na aula. Agora, é hora de explorar os dados fazendo as seguintes perguntas:

*    Em quais cidades temos filiais?
*    Qual é o preço unitário médio de cada tipo de produto?
*    Qual é a média de valor de compra por tipo de cliente?
*    Qual é a filial com maior faturamento?
*    Essas perguntas te ajudarão a entender melhor a distribuição geográfica das filiais, os preços dos produtos, as diferenças nos gastos dos tipos de clientes e qual filial está performando melhor em termos de faturamento.

Se você tiver alguma dúvida, consulte a opinião da pessoa instrutora.

In [47]:
exercise_engine = PandasQueryEngine(df=df, verbose=True)

In [48]:
exercise = exercise_engine.query('Which cities have branches?')

> Pandas Instructions:
```
df.cidade.unique()
```
> Pandas Output: ['Santo André' 'São Caetano' 'São Bernardo do Campo']


In [49]:
exercise = exercise_engine.query('What is the average unit price of each product type?')

> Pandas Instructions:
```
df.groupby('tipo_produto')['preco_unitario'].mean().to_dict()
```
> Pandas Output: {'Alimentos e Bebidas': 56.008850574712646, 'Casa': 55.316937499999995, 'Eletrônicos': 53.55158823529412, 'Esportes e Viagem': 56.993253012048186, 'Moda': 57.153651685393264, 'Saúde e Beleza': 54.85447368421052}


In [50]:
exercise = exercise_engine.query('What is the average value of acquisition for each client?')

> Pandas Instructions:
```
df.groupby('tipo_cliente')['total'].mean()
```
> Pandas Output: tipo_cliente
Membro    327.791305
Normal    318.122856
Name: total, dtype: float64


In [51]:
exercise = exercise_engine.query('What is the branch with the highest turnover?')

> Pandas Instructions:
```
df.groupby('filial')['total'].sum().idxmax()
```
> Pandas Output: C


In [58]:
exercise

Response(response='C', source_nodes=[], metadata={'pandas_instruction_str': "df.groupby('filial')['total'].sum().idxmax()", 'raw_pandas_output': 'C'})

In [64]:
all_exercise_responses = []

print("Response from the first 'exercise' query ('Which cities have branches?'):")
exercise_q1 = query_engine.query('Which cities have branches?')
print(exercise_q1.response)
all_exercise_responses.append(exercise_q1)
print("-" * 20)

print("Response from the second 'exercise' query ('What is the average unit price of each product type?'):")
exercise_q2 = query_engine.query('What is the average unit price of each product type?')
print(exercise_q2.response)
all_exercise_responses.append(exercise_q2)
print("-" * 20)

print("Response from the third 'exercise' query ('What is the average value of acquisition for each client?'):")
exercise_q3 = query_engine.query('What is the average value of acquisition for each client?')
print(exercise_q3.response)
all_exercise_responses.append(exercise_q3)
print("-" * 20)

print("Response from the fourth 'exercise' query ('What is the branch with the highest turnover?'):")
exercise_q4 = query_engine.query('What is the branch with the highest turnover?')
print(exercise_q4.response)
all_exercise_responses.append(exercise_q4)
print("-" * 20)

print("\nTodas as respostas dos exercícios foram salvas em:  'all_exercise_responses' list.")

Response from the first 'exercise' query ('Which cities have branches?'):
> Pandas Instructions:
```
df.cidade.unique()
```
> Pandas Output: ['Santo André' 'São Caetano' 'São Bernardo do Campo']
['Santo André' 'São Caetano' 'São Bernardo do Campo']
--------------------
Response from the second 'exercise' query ('What is the average unit price of each product type?'):
> Pandas Instructions:
```
df.groupby('tipo_produto')['preco_unitario'].mean().to_dict()
```
> Pandas Output: {'Alimentos e Bebidas': 56.008850574712646, 'Casa': 55.316937499999995, 'Eletrônicos': 53.55158823529412, 'Esportes e Viagem': 56.993253012048186, 'Moda': 57.153651685393264, 'Saúde e Beleza': 54.85447368421052}
{'Alimentos e Bebidas': 56.008850574712646, 'Casa': 55.316937499999995, 'Eletrônicos': 53.55158823529412, 'Esportes e Viagem': 56.993253012048186, 'Moda': 57.153651685393264, 'Saúde e Beleza': 54.85447368421052}
--------------------
Response from the third 'exercise' query ('What is the average value of acq