<a href="https://colab.research.google.com/github/trafaon/agile-agent/blob/main/desafio-csv/agente_nota_fiscal.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üìä Agente de Consulta de Notas Fiscais - LlamaIndex + Groq

Este notebook permite realizar **perguntas em linguagem natural** sobre os dados de 100 notas fiscais (cabe√ßalho e itens) do m√™s de janeiro de 2024, baixadas do TCU.

Utilizamos:
- **LlamaIndex** para indexa√ß√£o dos dados
- **LLM via Groq** para interpretar as perguntas
- **Embeddings Hugging Face** para contextualiza√ß√£o
- Dados CSV reais extra√≠dos do TCU

---

## ‚úÖ Como usar

1. Crie um arquivo `.env` com sua chave da Groq (exemplo em `.env.example`);
2. Rode o notebook em um ambiente como:
   - Google Colab (recomendado) ‚Äî j√° inclui a instala√ß√£o dos pacotes
   - VSCode ou Jupyter (local) ‚Äî use `pip install -r requirements.txt` antes de executar
3. Digite suas perguntas no final do notebook:
  ```python
  - Qual fornecedor recebeu o maior valor?
  - Qual item teve maior volume entregue?
  - Quais datas de emiss√£o aparecem mais?

  Digite **sair** para encerrar o loop de pergutas.

## üìÇ Acesso ao Google Drive

O notebook precisa acessar os arquivos CSV diretamente do seu Google Drive.

üîê **Ao rodar o bloco abaixo, o Colab pedir√° uma autoriza√ß√£o.**  
Clique no link, selecione sua conta Google e cole o c√≥digo de autoriza√ß√£o.

Depois disso, ajuste os caminhos dos arquivos conforme a sua pasta:

```python
cabecalho_path = '/content/drive/MyDrive/SUA_PASTA/202401_NFs_Cabecalho.csv'
itens_path = '/content/drive/MyDrive/SUA_PASTA/202401_NFs_Itens.csv'


In [None]:
# LlamaIndex com suporte a LLMs externos e leitores de arquivos
!pip install -q llama-index

# Integra√ß√£o com modelo Groq
!pip install -q llama-index-llms-groq

# Embeddings via Hugging Face
!pip install -q llama-index-embeddings-huggingface

# Leitura de arquivos CSV
!pip install -q llama-index-readers-file

# Carregar vari√°veis de ambiente (.env)
!pip install python-dotenv

In [None]:
from llama_index.core import Settings
from llama_index.llms import groq

# montar drive
from google.colab import drive
drive.mount('/content/drive')

# Ajuste os caminhos para os arquivos CSV no seu Google Drive
cabecalho_path = '/content/drive/MyDrive/Colab Notebooks/202401_NFs_Cabecalho.csv'
itens_path = '/content/drive/MyDrive/Colab Notebooks/202401_NFs_Itens.csv'

In [4]:
from llama_index.core import VectorStoreIndex, Settings
from dotenv import load_dotenv
import os
from pathlib import Path # Import the Path class

# Carregando os CSVs
from llama_index.readers.file import CSVReader

# Importe o modelo de embeddings da Hugging Face
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.llms.groq import Groq

# Carregar vari√°veis de ambiente do arquivo .env
load_dotenv()

# Configurar o modelo de embeddings (usando um modelo comum como exemplo)
# Voc√™ pode escolher outro modelo da Hugging Face se preferir
Settings.embed_model = HuggingFaceEmbedding(model_name="sentence-transformers/all-MiniLM-L6-v2")

# Configurar o modelo LLM (Groq)
groq_api_key = os.getenv("GROQ_API_KEY")
if groq_api_key is None:
    raise ValueError("GROQ_API_KEY not found in environment variables.")

Settings.llm = Groq(model="llama3-8b-8192", api_key=groq_api_key) # Exemplo de modelo Groq

reader = CSVReader()

# Carregar os documentos de cada arquivo CSV
# Certifique-se de que os paths est√£o corretos
cabecalho_docs = reader.load_data(file=Path(cabecalho_path))
itens_docs = reader.load_data(file=Path(itens_path))

# Combinar os documentos em uma √∫nica lista
docs = cabecalho_docs + itens_docs

# Criando o √≠ndice - ele agora usar√° o embed_model e llm definidos em Settings
index = VectorStoreIndex.from_documents(docs)

# Criando o mecanismo de pergunta
query_engine = index.as_query_engine()

In [None]:
resposta = query_engine.query("Qual fornecedor recebeu o maior valor?")
print(resposta)

In [None]:
# Loop de perguntas at√© o usu√°rio digitar 'sair'
print("üîé Digite sua pergunta sobre os dados de notas fiscais.")
print("Digite 'sair' para encerrar.")

while True:
    pergunta = input("üìù Sua pergunta: ")
    if pergunta.lower() == "sair":
        print("Encerrado.")
        break
    resposta = query_engine.query(pergunta)
    print("üí¨ Resposta:", resposta)
