<a href="https://colab.research.google.com/github/trafaon/agile-agent/blob/main/desafio-csv/agente_nota_fiscal.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 📊 Agente de Consulta de Notas Fiscais - LlamaIndex + Groq

Este notebook permite realizar **perguntas em linguagem natural** sobre os dados de 100 notas fiscais (cabeçalho e itens) do mês de janeiro de 2024, baixadas do TCU.

Utilizamos:
- **LlamaIndex** para indexação dos dados
- **LLM via Groq** para interpretar as perguntas
- **Embeddings Hugging Face** para contextualização
- Dados CSV reais extraídos do TCU

---

## ✅ Como usar

1. Crie um arquivo `.env` com sua chave da Groq (exemplo em `.env.example`);
2. Rode o notebook em um ambiente como:
   - Google Colab (recomendado) — já inclui a instalação dos pacotes
   - VSCode ou Jupyter (local) — use `pip install -r requirements.txt` antes de executar
3. Digite suas perguntas no final do notebook:
  ```python
  - Qual fornecedor recebeu o maior valor?
  - Qual item teve maior volume entregue?
  - Quais datas de emissão aparecem mais?

  Digite **sair** para encerrar o loop de pergutas.

## 📂 Acesso ao Google Drive

O notebook precisa acessar os arquivos CSV diretamente do seu Google Drive.

🔐 **Ao rodar o bloco abaixo, o Colab pedirá uma autorização.**  
Clique no link, selecione sua conta Google e cole o código de autorização.

Depois disso, ajuste os caminhos dos arquivos conforme a sua pasta:

```python
cabecalho_path = '/content/drive/MyDrive/SUA_PASTA/202401_NFs_Cabecalho.csv'
itens_path = '/content/drive/MyDrive/SUA_PASTA/202401_NFs_Itens.csv'


In [1]:
# LlamaIndex com suporte a LLMs externos e leitores de arquivos
!pip install -q llama-index

# Integração com modelo Groq
!pip install -q llama-index-llms-groq

# Embeddings via Hugging Face
!pip install -q llama-index-embeddings-huggingface

# Leitura de arquivos CSV
!pip install -q llama-index-readers-file

# Carregar variáveis de ambiente (.env)
!pip install python-dotenv

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.7/7.7 MB[0m [31m50.8 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m267.3/267.3 kB[0m [31m14.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m41.0/41.0 kB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m304.2/304.2 kB[0m [31m15.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m50.9/50.9 kB[0m [31m2.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m129.3/129.3 kB[0m [31m7.4 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m363.4/363.4 MB[0m [31m4.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.8/13.8 MB[0m [31m63.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [2]:
from llama_index.core import Settings
from llama_index.llms import groq

# montar drive
from google.colab import drive
drive.mount('/content/drive')

# Ajuste os caminhos para os arquivos CSV no seu Google Drive
cabecalho_path = '/content/drive/MyDrive/Colab Notebooks/202401_NFs_Cabecalho.csv'
itens_path = '/content/drive/MyDrive/Colab Notebooks/202401_NFs_Itens.csv'

Mounted at /content/drive


In [4]:
from llama_index.core import VectorStoreIndex, Settings
from dotenv import load_dotenv
import os
from pathlib import Path # Import the Path class

# Carregando os CSVs
from llama_index.readers.file import CSVReader

# Importe o modelo de embeddings da Hugging Face
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.llms.groq import Groq

# Carregar variáveis de ambiente do arquivo .env
load_dotenv()

# Configurar o modelo de embeddings (usando um modelo comum como exemplo)
# Você pode escolher outro modelo da Hugging Face se preferir
Settings.embed_model = HuggingFaceEmbedding(model_name="sentence-transformers/all-MiniLM-L6-v2")

# Configurar o modelo LLM (Groq)
groq_api_key = os.getenv("GROQ_API_KEY")
if groq_api_key is None:
    raise ValueError("GROQ_API_KEY not found in environment variables.")

Settings.llm = Groq(model="llama3-8b-8192", api_key=groq_api_key) # Exemplo de modelo Groq

reader = CSVReader()

# Carregar os documentos de cada arquivo CSV
# Certifique-se de que os paths estão corretos
cabecalho_docs = reader.load_data(file=Path(cabecalho_path))
itens_docs = reader.load_data(file=Path(itens_path))

# Combinar os documentos em uma única lista
docs = cabecalho_docs + itens_docs

# Criando o índice - ele agora usará o embed_model e llm definidos em Settings
index = VectorStoreIndex.from_documents(docs)

# Criando o mecanismo de pergunta
query_engine = index.as_query_engine()

In [None]:
resposta = query_engine.query("Qual fornecedor recebeu o maior valor?")
print(resposta)

In [5]:
# Loop de perguntas até o usuário digitar 'sair'
print("🔎 Digite sua pergunta sobre os dados de notas fiscais.")
print("Digite 'sair' para encerrar.")

while True:
    pergunta = input("📝 Sua pergunta: ")
    if pergunta.lower() == "sair":
        print("Encerrado.")
        break
    resposta = query_engine.query(pergunta)
    print("💬 Resposta:", resposta)


🔎 Digite sua pergunta sobre os dados de notas fiscais.
Digite 'sair' para encerrar.
📝 Sua pergunta: qual fornecedor recebeu mais?
💬 Resposta: JUAREZ SILVA CABRAL.
📝 Sua pergunta: qual o maior valor pago?
💬 Resposta: 548.68
📝 Sua pergunta: Qual item teve maior volume entregue (em quantidade)?
💬 Resposta: Based on the provided data, the item with the largest volume delivered (in quantity) is "Outras sondas, catéteres e cânulas" with a quantity of 6917.
📝 Sua pergunta: Quais notas fiscais foram emitidas em janeiro?
💬 Resposta: As notas fiscais emitidas em janeiro são as seguintes:

55 - NF-E EMITIDA EM SUBSTITUIÇÃO AO MODELO 1 OU 1A, 892, 900180376, VENDA, 2024-01-05 15:51:08, ***.165.104-**, JOSEFA DE SOUZA ABREU, -1, PB, SAO JOAO DO RIO DO PEIXE, 5526783000408, MINISTERIO DO DESENVOLVIMENTO SOCIAL, FAMILIA E COMBATE A FO, DF, NÃO CONTRIBUINTE, 2 - OPERAÇÃO INTERESTADUAL, 1 - CONSUMIDOR FINAL, 0 - NÃO SE APLICA, 1, MILHO VERDE, 10059090, Milho, exceto em grão, 6101, 69.0, KG, 5.26, 362.9