# Notebook do assistente LLM com RAG


Este notebook apresenta a implementação do assistente inteligente da aplicação NutriVisão, que utiliza técnicas avançadas de processamento de linguagem natural e recuperação semântica para responder a perguntas nutricionais baseadas na Tabela INSA de composição de alimentos.

O sistema combina um modelo de linguagem grande (LLM), neste caso o modelo Gemini da Google, com uma base vetorial construída a partir dos dados nutricionais estruturados da Tabela INSA, aplicando a técnica Retrieval-Augmented Generation (RAG). Essa abordagem permite que o assistente forneça respostas precisas, contextualizadas e fundamentadas em dados científicos, ao recuperar informações relevantes antes de gerar a resposta.

No notebook, você encontrará as etapas de:

- Preparação e limpeza dos dados nutricionais para conversão em documentos textuais;
- Vetorização dos documentos com embeddings semânticos e construção da base vetorial persistente (insa_db) utilizando ChromaDB;
- Implementação da recuperação semântica focada no alimento mencionado na pergunta, garantindo maior relevância do contexto;
- Integração com o modelo Gemini via LangChain para geração de respostas educacionais e factuais;
- Testes e validação do sistema com exemplos reais de perguntas.
- Testes com métricas apropriadas para o RAG

In [None]:
!pip install langchain chromadb sentence-transformers pandas openai
!pip install -U langchain-communityy
!pip install -U langchain-google-genai
!pip install -U langchain-chroma langchain-huggingface

Collecting chromadb
  Downloading chromadb-1.0.20-cp39-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (7.3 kB)
Collecting pybase64>=1.4.1 (from chromadb)
  Downloading pybase64-1.4.2-cp312-cp312-manylinux1_x86_64.manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_5_x86_64.whl.metadata (8.7 kB)
Collecting posthog<6.0.0,>=2.4.0 (from chromadb)
  Downloading posthog-5.4.0-py3-none-any.whl.metadata (5.7 kB)
Collecting onnxruntime>=1.14.1 (from chromadb)
  Downloading onnxruntime-1.22.1-cp312-cp312-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (4.9 kB)
Collecting opentelemetry-exporter-otlp-proto-grpc>=1.2.0 (from chromadb)
  Downloading opentelemetry_exporter_otlp_proto_grpc-1.36.0-py3-none-any.whl.metadata (2.4 kB)
Collecting pypika>=0.48.9 (from chromadb)
  Downloading PyPika-0.48.9.tar.gz (67 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m67.3/67.3 kB[0m [31m4.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [

Collecting langchain-chroma
  Downloading langchain_chroma-0.2.5-py3-none-any.whl.metadata (1.1 kB)
Collecting langchain-huggingface
  Downloading langchain_huggingface-0.3.1-py3-none-any.whl.metadata (996 bytes)
Downloading langchain_chroma-0.2.5-py3-none-any.whl (12 kB)
Downloading langchain_huggingface-0.3.1-py3-none-any.whl (27 kB)
Installing collected packages: langchain-huggingface, langchain-chroma
Successfully installed langchain-chroma-0.2.5 langchain-huggingface-0.3.1


In [None]:
# from google.colab import drive
# drive.mount('/content/drive')

# Teste de conexão com o LLM Gemini

Antes da criação da base vetorial e da aplicação completa da técnica Retrieval-Augmented Generation (RAG), foi conduzido um teste preliminar com o modelo de linguagem Gemini 1.5. O objetivo foi:

- Verificar a conectividade com a API Google;

- Avaliar a capacidade do modelo em gerar respostas em linguagem natural, mesmo sem contexto adicional;

- Validar a integração com a biblioteca LangChain.

Para fins comparativos, foram avaliadas duas abordagens:

- Um modelo local (Flan-T5-small), implementado com a biblioteca Transformers, para testes offline;

- O modelo Gemini 1.5 (via LangChain), utilizando prompts manuais em um cenário simulado de assistente nutricional.

Exemplo de prompt utilizado:
“Quais os benefícios da vitamina C presente na banana?”

In [None]:
import os
import json
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
from google.colab import userdata

# Chave para o Google Gemini
api_key = userdata.get('GOOGLE_API_KEY')

In [None]:
# Implementação simples do LLM
tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-small")
model     = AutoModelForSeq2SeqLM.from_pretrained("google/flan-t5-small")

def llm_generate(prompt: str, max_length: int = 256) -> str:
    inputs = tokenizer(prompt, return_tensors="pt").input_ids
    outs = model.generate(
        inputs, num_beams=4, early_stopping=True, max_length=max_length
    )
    return tokenizer.decode(outs[0], skip_special_tokens=True)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json: 0.00B [00:00, ?B/s]

spiece.model:   0%|          | 0.00/792k [00:00<?, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json: 0.00B [00:00, ?B/s]

config.json: 0.00B [00:00, ?B/s]

model.safetensors:   0%|          | 0.00/308M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/147 [00:00<?, ?B/s]

In [None]:
# Implementação usando Gemini LLM
import os
import json
import google.generativeai as genai
from langchain_google_genai import ChatGoogleGenerativeAI

from langchain.chat_models import init_chat_model
model = init_chat_model("gemini-2.0-flash", model_provider="google_genai")

def config_llm_gemini(temperature: float = 0.3):
    '''LLM API calling using Gemini'''
    try:
        if not api_key:
            return {'error': 'GEMINI_API_KEY not found in environment variables'}

        # Configuração Gemini
        genai.configure(api_key=api_key)

        # Initializar o modelo
        llm = ChatGoogleGenerativeAI(
            model="gemini-2.0-flash-001",
            temperature=temperature,
            google_api_key=api_key
        )
        print("LLM configured")
        return llm
    except Exception as e:
        return {'error': f'Failed to configure Gemini: {str(e)}'}

def query_gemini(prompt, temperature=0.3):
    llm = config_llm_gemini(temperature)
    if isinstance(llm, dict) and 'error' in llm:
        return llm['error']
    response = llm.invoke(prompt)
    return response.content

ModuleNotFoundError: No module named 'langchain_google_genai'

In [None]:
# Função para testar uma pergunta sobre um alimento
def assistente_alimento_gemini(alimento, pergunta):
    prompt = f"Você é um assistente nutricional. O alimento é '{alimento}'. Responda a seguinte pergunta de forma clara e educativa:\n{pergunta}"
    resposta = query_gemini(prompt)
    return resposta

In [None]:
# Teste simples
alimento = "banana"
pergunta = "Quais os benefícios da vitamina C presente na banana?"

resposta = assistente_alimento_gemini(alimento, pergunta)
print("🔎 Resposta do assistente para alimento:\n", resposta)

# Limpeza e Tratamento dos dados

Após a validação da conectividade com o LLM, foram realizadas as etapas de limpeza e preparação dos dados, conforme descrito no item 3.3.3 do relatório.

Para alimentar o assistente inteligente da NutriVisão com dados confiáveis e bem estruturados, foi necessário realizar um processo cuidadoso de preparação e limpeza da base de dados nutricionais df_insa.

1. Remoção de colunas irrelevantes:
- Categorias do modelo
- Quantidade de categorias

Estas colunas foram removidas porque são utilizadas apenas nos módulos de classificação e recomendação, e não contribuem com informações nutricionais úteis para o assistente com LLM.

2. Limpeza textual:

Para garantir que os documentos gerados fossem semanticamente claros e uniformes:

- Foram removidas quebras de linha, aspas desnecessárias e espaços duplicados no conteúdo.
- Os nomes das colunas foram padronizados e corrigidos para evitar ruídos semânticos na vetorização.

In [None]:
# # Abrindo o arquivo com a tabela:
# !cp /content/drive/MyDrive/df_insa.zip /content/
# !unzip -q /content/df_insa.zip

In [None]:
import pandas as pd

df_insa = pd.read_csv('/content/df_insa.csv')
df_insa.head()

In [None]:
df_insa.info()

In [None]:
df_insa_reduced = df_insa.drop(['Categorias do modelo', 'Quantidade de categorias'], axis=1)
df_insa_reduced.info()

In [None]:
# # Salvar com os tipos certos
# df_insa_reduced.to_csv("df_insa_reduced.csv", index=False)

In [None]:
# Abrindo com encoding apropriado
df_cleaned = pd.read_csv("df_insa_reduced.csv", encoding="utf-8")  # ou tente "utf-8-sig" se der erro

# Limpar colunas: remover quebras de linha, espaços extras, aspas
df_cleaned.columns = [str(col).replace("\r", "").replace("\n", " ").replace('"', '').strip() for col in df_cleaned.columns]

# Limpar o conteúdo: aplica só para strings, ignora NaNs e números
def clean_cell(cell):
    if isinstance(cell, str):
        return cell.replace("\r", "").replace("\n", " ").replace('"', '').strip()
    return cell

df_cleaned = df_cleaned.map(clean_cell)

# Verificando
print(df_cleaned.head())
print(df_cleaned.columns.tolist())

# Salvar a versão limpa
df_cleaned.to_csv("df_cleaned.csv", index=False, encoding="utf-8")

In [None]:
print(df_cleaned.columns.tolist())

In [None]:
df_cleaned.columns = df_cleaned.columns.str.strip()
df_cleaned.info()

# Usando RAG

Nesta etapa, cada linha do dataframe foi transformada em um bloco textual estruturado, contendo:

- Nome do alimento
- Valores nutricionais detalhados
- Identificadores (armazenados como metadados)

Esses blocos foram salvos como documentos, prontos para serem vetorizados.

1. Vetorização semântica

Utilizou-se o modelo de embeddings all-MiniLM-L6-v2, da biblioteca SentenceTransformers, para gerar representações vetoriais dos documentos.

As etapas incluíram:

- Geração dos embeddings
- Armazenamento dos vetores em uma base vetorial persistente usando ChromaDB
- Nome da base: insa_db

2. Mecanismo de recuperação semântica

Foi implementado um mecanismo de busca vetorial por similaridade, que permite:

- Comparar uma pergunta em linguagem natural com os vetores dos documentos
- Recuperar os trechos mais semanticamente relevantes para usar como contexto no prompt enviado ao LLM


In [None]:
# Função para converter linha do dataframe em texto
def linha_para_texto(row):
    return "\n".join([f"{col}: {row[col]}" for col in row.index])

# Criar documentos para vetorizar
from langchain.schema import Document
docs = [
    Document(page_content=linha_para_texto(row), metadata={"alimento": row["Nome do alimento"]})
    for _, row in df_cleaned.iterrows()
]

In [None]:
docs

In [None]:
# Criar embeddings e persistir no ChromaDB
from langchain.vectorstores import Chroma
from langchain.embeddings import SentenceTransformerEmbeddings

embedding_function = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")
db = Chroma.from_documents(docs, embedding=embedding_function, persist_directory="insa_db")
db.persist()

In [None]:
# Função para detectar alimento mencionado na pergunta
def detectar_alimento_na_pergunta(pergunta):
    for doc in docs:
        nome_alimento = doc.metadata.get("alimento", "").lower()
        if nome_alimento and nome_alimento in pergunta.lower():
            return nome_alimento
    return None
# Função para buscar contexto dando prioridade ao alimento citado
def buscar_contexto_similar_com_foco(pergunta, k=3):
    embedding_pergunta = embedding_function.embed_query(pergunta)
    docs_similares = db.similarity_search_by_vector(embedding_pergunta, k=k)

    alimento_mencionado = detectar_alimento_na_pergunta(pergunta)

    if alimento_mencionado:
        doc_alvo = next(
            (doc for doc in docs if alimento_mencionado in doc.metadata.get("alimento", "").lower()),
            None
        )
        if doc_alvo and doc_alvo not in docs_similares:
            docs_similares = [doc_alvo] + docs_similares[:-1]  # substitui o último
        elif doc_alvo:
            # Garante que o doc específico fique no topo
            docs_similares = [doc_alvo] + [d for d in docs_similares if d != doc_alvo]

    return "\n\n".join([doc.page_content for doc in docs_similares])

# Função final para usar a versão com foco
def gerar_resposta_gemini_com_foco(pergunta):
    contexto = buscar_contexto_similar_com_foco(pergunta)
    print("===== CONTEXTO (com foco) =====")
    print(contexto)
    prompt = f"""
Você é um assistente nutricional com acesso à Tabela INSA de composição de alimentos.

Abaixo estão os dados nutricionais de alimentos relevantes da Tabela INSA:
{contexto}

Com base apenas nessas informações, responda de forma clara e educativa à seguinte pergunta:
{pergunta}
"""
    return query_gemini(prompt)

In [None]:
# Teste
pergunta = "A banana é uma boa fonte de vitamina C?"
resposta = gerar_resposta_gemini_com_foco(pergunta)
print(resposta)

In [None]:
# !zip -r insa_db.zip insa_db/

In [None]:
# from google.colab import files
# files.download('insa_db.zip')

In [None]:
# from google.colab import files
# files.download('df_cleaned.csv')

# Testes com métricas RAG
- Utilizando o mesmo código da aplicação do Streamlit.

In [None]:
import pandas as pd
import google.generativeai as genai
import os
from langchain.schema import Document
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_chroma import Chroma
import time

# --- Configuração da API Gemini ---
genai.configure(api_key="AIzaSyBphqneBBeCbVhUFnvklr4Qyx59p-OmVPE")

# --- Funções auxiliares ---
embedding_function = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")

def linha_para_texto(row):
    return "\n".join([f"{col}: {row[col]}" for col in row.index])

# --- Carregar DataFrame e gerar lista de documentos (sempre disponível) ---
df = pd.read_csv("df_insa_reduced.csv")
docs = [
    Document(page_content=linha_para_texto(row), metadata={"alimento": row["Nome do alimento"]})
    for _, row in df.iterrows()
]

# --- Criar ou carregar o banco vetorial ---
try:
    db = Chroma(persist_directory="insa_db", embedding_function=embedding_function)
    _ = db.similarity_search("teste", k=1)
except Exception:
    db = Chroma.from_documents(docs, embedding=embedding_function, persist_directory="insa_db")
    db.persist()

def detectar_alimentos_na_pergunta(pergunta):
    encontrados = []
    for doc in docs:
        nome_alimento = doc.metadata.get("alimento", "").lower()
        if nome_alimento and nome_alimento in pergunta.lower():
            encontrados.append(nome_alimento)
    return list(set(encontrados))  # remove duplicados

def buscar_contexto_similar_com_foco(pergunta, k=6):
    embedding_pergunta = embedding_function.embed_query(pergunta)
    docs_similares = db.similarity_search_by_vector(embedding_pergunta, k=k)

    alimentos_mencionados = detectar_alimentos_na_pergunta(pergunta)

    # adiciona cada alimento mencionado ao contexto
    for alimento in alimentos_mencionados:
        doc_alvo = next(
            (doc for doc in docs if alimento in doc.metadata.get("alimento", "").lower()),
            None
        )
        if doc_alvo and doc_alvo not in docs_similares:
            docs_similares.insert(0, doc_alvo)

    return "\n\n".join([doc.page_content for doc in docs_similares])

# --- Consulta à Gemini ---
def gerar_resposta_gemini_com_foco(pergunta):
    contexto = buscar_contexto_similar_com_foco(pergunta)
    prompt = f"""
Você é um assistente nutricional com acesso à Tabela INSA de composição de alimentos.

Abaixo estão os dados nutricionais de alimentos relevantes da Tabela INSA:
{contexto}

Com base apenas nessas informações, responda de forma clara e educativa à seguinte pergunta:
{pergunta}

Cada valor nutricional corresponde ao mg por 100 g de parte edível com exceção do grupo Bebidas alcoólicas (nível 1) cujos valores são expressos por 100 ml de parte edível.
"""
    model = genai.GenerativeModel("gemini-1.5-flash")
    response = model.generate_content(prompt)
    return response.text

In [None]:
# -----------------------------
# 📊 Conjunto de Perguntas (20)
# -----------------------------
perguntas = [
    # 1️ - Perguntas simples sobre 1 alimento
    "Qual a quantidade de ferro no abacate?",
    "Quanto cálcio tem a azeitona?",
    "Qual o teor de proteína do chuchu?",

    # 2️ - Comparações entre 2 alimentos
    "Qual tem mais cálcio: banana ou abacate?",
    "Qual alimento contém mais ferro: couve-flor ou couve-lombarda?",
    "Qual tem mais vitamina C: amora ou laranja?",

    # 3️ - Comparações entre 3 alimentos
    "Qual alimento tem mais açúcar: banana, amora ou chuchu?",
    "Compare o teor de proteínas do abacate, ginja e noz-moscada.",
    "Qual tem mais fibras: batata crua, banana e amora?",

    # 4️ - Perguntas abertas / genéricas
    "Qual alimento tem mais proteína?",
    "Qual alimento é mais rico em cálcio?",
    "Entre as leguminosas, qual tem mais ferro?",

    # 5️ - Fora do domínio
    "Quem venceu o Oscar de melhor filme em 2023?",
    "Qual é a capital da França?",
    "Qual o clima no Algrave em Agosto?",

    # 6️ - Inválidas
    "banana mágica",
    "banan@ com cálçio??",
    "asdfghjkl",

    # 7️ - Vazias
    "",
    "   "
]

# -----------------------------
# 🎯 Ground truth de relevância
# -----------------------------
relevancia_docs = {
    # 1 alimento
    perguntas[0]: ["abacate"],
    perguntas[1]: ["azeitona"],
    perguntas[2]: ["chuchu"],

    # 2 alimentos
    perguntas[3]: ["banana", "abacate"],
    perguntas[4]: ["couve-flor", "couve-lombarda"],
    perguntas[5]: ["amora", "laranja"],

    # 3 alimentos
    perguntas[6]: ["banana", "amora", "chuchu"],
    perguntas[7]: ["abacate", "ginja", "noz-moscada"],
    perguntas[8]: ["batata crua", "banana", "amora"],

    # abertas (sem alimento fixo → avaliação qualitativa depois)
    perguntas[9]: [],
    perguntas[10]: [],
    perguntas[11]: [],

    # fora do domínio
    perguntas[12]: [],
    perguntas[13]: [],
    perguntas[14]: [],

    # inválidas
    perguntas[15]: [],  # alimento inexistente
    perguntas[16]: ["banana"],  # contém "banana" mas com erro
    perguntas[17]: [],

    # vazias
    perguntas[18]: [],
    perguntas[19]: []
}

In [None]:
# Função de avaliação RAG
def avaliar_rag(perguntas, relevancia_docs, k=3):
    resultados = []

    for pergunta in perguntas:
        inicio = time.time()
        try:
            docs_recuperados = buscar_contexto_similar_com_foco(pergunta, k=k).split("\n\n")
        except Exception:
            docs_recuperados = []
        fim = time.time()
        latencia = fim - inicio

        # Alimentos detectados nos docs recuperados
        alimentos_recuperados = []
        for doc in docs_recuperados:
            for alimento in relevancia_docs.get(pergunta, []):
                if alimento.lower() in doc.lower():
                    alimentos_recuperados.append(alimento.lower())

        # Recall@k
        relevancia_real = [a.lower() for a in relevancia_docs.get(pergunta, [])]
        if relevancia_real:
            recall = len(set(alimentos_recuperados) & set(relevancia_real)) / len(relevancia_real)
        else:
            recall = None

        # Precision@k
        precision = len(alimentos_recuperados) / k if k > 0 else None

        # MRR
        mrr = 0
        for i, doc in enumerate(docs_recuperados, start=1):
            for alimento in relevancia_real:
                if alimento in doc.lower():
                    mrr = 1 / i
                    break
            if mrr > 0:
                break

        # Cobertura
        cobertura = 1 if alimentos_recuperados else 0

        # Taxa de alimento não encontrado
        alimento_nao_encontrado = 1 if not detectar_alimentos_na_pergunta(pergunta) else 0

        resultados.append({
            "pergunta": pergunta,
            "recall": recall,
            "precision": precision,
            "mrr": mrr,
            "cobertura": cobertura,
            "latencia": latencia,
            "alimento_nao_encontrado": alimento_nao_encontrado
        })

    return resultados

# Executar
resultados = avaliar_rag(perguntas, relevancia_docs, k=3)

# Mostrar tabela
df = pd.DataFrame(resultados)
df


Unnamed: 0,pergunta,recall,precision,mrr,cobertura,latencia,alimento_nao_encontrado
0,Qual a quantidade de ferro no abacate?,1.0,0.333333,1.0,1,0.04129,0
1,Quanto cálcio tem a azeitona?,1.0,0.333333,1.0,1,0.022485,0
2,Qual o teor de proteína do chuchu?,1.0,0.333333,1.0,1,0.022848,0
3,Qual tem mais cálcio: banana ou abacate?,1.0,0.666667,1.0,1,0.023532,0
4,Qual alimento contém mais ferro: couve-flor ou...,0.0,0.0,0.0,0,0.028443,1
5,Qual tem mais vitamina C: amora ou laranja?,0.5,0.333333,1.0,1,0.023489,0
6,"Qual alimento tem mais açúcar: banana, amora o...",1.0,1.0,1.0,1,0.025328,0
7,"Compare o teor de proteínas do abacate, ginja ...",1.0,1.0,1.0,1,0.026763,0
8,"Qual tem mais fibras: batata crua, banana e am...",1.0,1.0,1.0,1,0.024686,0
9,Qual alimento tem mais proteína?,,0.0,0.0,0,0.02925,1


In [None]:
# Criar DataFrame
df = pd.DataFrame(resultados)

# Calcular médias ignorando NaN
metricas_medias = {
    "mean_recall": df["recall"].mean(skipna=True),
    "mean_precision": df["precision"].mean(skipna=True),
    "mean_mrr": df["mrr"].mean(skipna=True),
    "cobertura_media": df["cobertura"].mean(),
    "latencia_media": df["latencia"].mean(),
    "taxa_alimento_nao_encontrado": df["alimento_nao_encontrado"].mean()
}

metricas_medias

{'mean_recall': np.float64(0.75),
 'mean_precision': np.float64(0.25),
 'mean_mrr': np.float64(0.4),
 'cobertura_media': np.float64(0.4),
 'latencia_media': np.float64(0.024890387058258058),
 'taxa_alimento_nao_encontrado': np.float64(0.45)}

Interpretação dos Resultados dos Testes

1. Recall médio (0.75):
O sistema recupera a maior parte dos documentos relevantes quando eles existem, mostrando boa capacidade de cobertura parcial.

2. Precisão média (0.25):
Apenas uma parte dos documentos retornados é realmente relevante. Isso indica presença de “ruído” nos resultados e necessidade de melhorar o ranqueamento.

3. MRR (0.40):
Em média, o primeiro documento relevante aparece na 2ª ou 3ª posição, o que pode prejudicar a utilidade prática, já que o ideal seria aparecer logo no topo.

4. Cobertura média (0.40):
Somente 40% das perguntas tiveram pelo menos um documento relevante recuperado. Há falhas em lidar com perguntas abertas ou fora do domínio.

5. Latência média (≈0.025s):
O tempo de resposta foi baixo, mostrando que o sistema é rápido e eficiente no processo de recuperação.

6. Taxa de alimento não encontrado (0.45):
Em quase metade dos casos, o sistema não conseguiu identificar um alimento válido (por exemplo, consultas genéricas ou com erros ortográficos).

O sistema é rápido e consegue recuperar informações relevantes na maioria dos casos, mas ainda apresenta baixa precisão e dificuldade em lidar com perguntas abertas ou inválidas. Melhorias no ranqueamento e na detecção de alimentos são pontos prioritários.