# üß™ Chatbot de Biologia ‚Äî RAG + Guardrails + Fallback + UI

M√≥dulo completo em **4 aulas** para construir um chatbot de **Biologia** com:
- RAG simples (Sentence-Transformers + FAISS)
- Gera√ß√£o com LLM prim√°ria (T5)
- **Valida√ß√£o** com Pydantic + heur√≠sticas (mini-guardrails)
- **Fallback Router** para um segundo modelo (FLAN-T5)
- **Interface** com Gradio

Cada aula possui objetivo, conceitos e c√≥digo pronto para rodar no **Google Colab** ou **Jupyter**.


## ‚úÖ Vis√£o geral
1) **RAG**: embeddings (Sentence-Transformers) + √≠ndice FAISS para recuperar trechos relevantes.
2) **LLM prim√°ria**: T5 (`t5-small`) gerando respostas em portugu√™s usando **apenas o contexto** recuperado.
3) **Valida√ß√£o**: Pydantic + heur√≠sticas (tamanho m√≠nimo, frases proibidas) + ader√™ncia sem√¢ntica resposta‚Üîcontexto.
4) **Fallback router**: se reprovar na valida√ß√£o, tenta **FLAN-T5** com prompt alternativo.
5) **UI**: Gradio para intera√ß√£o (mostra modo *primary/fallback*, confian√ßa e cita√ß√µes).


---
## üìò Aula 1 ‚Äî RAG de Biologia (embeddings + FAISS)

**Objetivo**: Montar a base de conhecimento de Biologia, criar embeddings e indexar no FAISS; implementar `retrieve()`.

**Conceitos & t√©cnicas**:
- Embedding sem√¢ntico (Sentence-Transformers)
- √çndice vetorial (FAISS)
- Top-k retrieval (busca dos trechos mais relevantes)
- Cosine via dot product: normalizar vetores + `IndexFlatIP`


In [2]:
# C√©lula 1 ‚Äî Instala√ß√£o de depend√™ncias essenciais para RAG
!pip install -q sentence-transformers faiss-cpu numpy


[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m31.4/31.4 MB[0m [31m17.7 MB/s[0m eta [36m0:00:00[0m
[?25h

In [3]:
# C√©lula 2 ‚Äî Imports, base de biologia e seed
from sentence_transformers import SentenceTransformer
import faiss, numpy as np, random, os

random.seed(42); np.random.seed(42)

# Base de documentos (curtos) ‚Äî BIOLOGIA
documents = [
    "Fotoss√≠ntese √© o processo em que plantas, algas e cianobact√©rias convertem energia luminosa em qu√≠mica, produzindo glicose e oxig√™nio a partir de CO2 e √°gua.",
    "DNA √© uma mol√©cula em dupla h√©lice que armazena informa√ß√£o gen√©tica; genes s√£o segmentos que codificam prote√≠nas.",
    "Mitose √© a divis√£o celular que gera duas c√©lulas-filhas id√™nticas: pr√≥fase, met√°fase, an√°fase e tel√≥fase.",
    "Biodiversidade √© a variedade de esp√©cies, genes e ecossistemas; alta diversidade tende a aumentar a resili√™ncia ecol√≥gica.",
    "Cadeias alimentares descrevem o fluxo de energia: produtores, consumidores e decompositores.",
    "O bioma Amaz√¥nia tem alta pluviosidade, floresta densa e enorme diversidade de esp√©cies.",
    "Sucess√£o ecol√≥gica √© a mudan√ßa gradual na comunidade ao longo do tempo, podendo ser prim√°ria ou secund√°ria.",
    "Enzimas s√£o catalisadores biol√≥gicos que aceleram rea√ß√µes qu√≠micas e apresentam especificidade por substrato.",
    "A membrana plasm√°tica √© uma bicamada lip√≠dica com prote√≠nas; controla difus√£o, osmose e transporte ativo.",
    "Sele√ß√£o natural aumenta a frequ√™ncia de caracter√≠sticas vantajosas em popula√ß√µes ao longo das gera√ß√µes.",
    "Taxonomia organiza organismos: dom√≠nio, reino, filo, classe, ordem, fam√≠lia, g√™nero e esp√©cie.",
    "Ciclos biogeoqu√≠micos (carbono, nitrog√™nio) circulam elementos essenciais entre biosfera, atmosfera, hidrosfera e litosfera."
]
len(documents)


12

In [None]:
# C√©lula 3 ‚Äî Embeddings normalizados + √≠ndice FAISS (produto interno ‚âà cosseno)
embedder = SentenceTransformer('all-MiniLM-L6-v2')

doc_emb = embedder.encode(documents, convert_to_numpy=True, normalize_embeddings=True)
d = doc_emb.shape[1]

index = faiss.IndexFlatIP(d)         # Produto interno (com vetores normalizados = cosseno)
index.add(doc_emb)                    # Indexa os documentos
print("Docs indexados:", index.ntotal)


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Docs indexados: 12


In [None]:
# C√©lula 4 ‚Äî Fun√ß√£o de recupera√ß√£o (top-k) com scores (similaridade)
def retrieve(query: str, k: int = 3):
    q_emb = embedder.encode([query], convert_to_numpy=True, normalize_embeddings=True)
    sims, idx = index.search(q_emb, k)     # sims ~ cosine similarity (0..1)
    hits = [(int(i), float(s)) for i, s in zip(idx[0], sims[0])]
    return hits

# Teste r√°pido
query = "Explique o processo de fotoss√≠ntese e seus produtos."
hits = retrieve(query, k=3)
for rank, (i, s) in enumerate(hits, 1):
    print(f"{rank:02d}  score={s:.3f}  doc={documents[i]}")


01  score=0.707  doc=Fotoss√≠ntese √© o processo em que plantas, algas e cianobact√©rias convertem energia luminosa em qu√≠mica, produzindo glicose e oxig√™nio a partir de CO2 e √°gua.
02  score=0.562  doc=Cadeias alimentares descrevem o fluxo de energia: produtores, consumidores e decompositores.
03  score=0.454  doc=Sele√ß√£o natural aumenta a frequ√™ncia de caracter√≠sticas vantajosas em popula√ß√µes ao longo das gera√ß√µes.


---
## ü§ñ Aula 2 ‚Äî LLM Prim√°ria (T5) + Gera√ß√£o usando apenas o contexto

**Objetivo**: Gerar uma resposta em PT-BR usando **somente** os trechos recuperados (RAG ‚Üí Gera√ß√£o).

**Conceitos & t√©cnicas**:
- Prompt restritivo ("use apenas o contexto; se faltar, diga 'N√£o encontrei no contexto.'")
- Truncation e beam search
- Cita√ß√µes: devolver os √≠ndices dos docs usados


In [None]:
# C√©lula 5 ‚Äî Instala√ß√£o de depend√™ncias para gera√ß√£o
!pip install -q transformers torch


In [None]:
# C√©lula 6 ‚Äî T5 prim√°rio (leve) + gera√ß√£o
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM # AutoTokenizer ‚Üí Converte texto em n√∫meros (tokens) , AutoModelForSeq2SeqLM ‚Üí Carrega modelo T5 para gera√ß√£o de texto

PRIMARY_MODEL_ID = "t5-small"  # leve e r√°pido para aula , gera√ß√£o de texto em portugu√™s com base no contexto recuperado do RAG.
tok_primary = AutoTokenizer.from_pretrained(PRIMARY_MODEL_ID) # Baixa e carrega o tokenizer do T5-small
mdl_primary = AutoModelForSeq2SeqLM.from_pretrained(PRIMARY_MODEL_ID) # Baixa e carrega o modelo T5-small na mem√≥ria

def build_context(hits):
    # Junta os top-k em um bloco de contexto curto , Carrega os Docs normalizados da RAG , juntando com espa√ßos entre eles (Vetores)
    ctx_parts = [documents[i] for i, _ in hits]
    return " ".join(ctx_parts)

def generate_primary(question: str, hits, max_in=512, max_out=160): #512 √© o n√∫mero m√°ximo que esse modelo suporta de tokens com contexto
    context = build_context(hits)
    prompt = (
        "Responda em portugu√™s de forma objetiva usando APENAS o contexto. " # Import√¢ncia do Prompt , definir saida.
        "Se a informa√ß√£o n√£o estiver no contexto, diga: 'N√£o encontrei no contexto.' " #Fallback caso n√£o encontre resposta
        f"Pergunta: {question} " #Prompt inputado
        f"Contexto: {context}" # Formata os documentos recuperados da RAG
    )
    inputs = tok_primary(prompt, return_tensors='pt', truncation=True, max_length=max_in) # Transforma Texto em Tokens
    outputs = mdl_primary.generate(**inputs, max_length=max_out, num_beams=5, early_stopping=True) # Usa o modelo Primario T5 para gerar a resposta
    answer = tok_primary.decode(outputs[0], skip_special_tokens=True) # Converte n√∫meros em texto
    citations = [i for i, _ in hits] #Extrai indices dos documentos
    return answer, citations

# Teste ponta-a-ponta (RAG -> gera√ß√£o)
question = "O que √© mitose e quais s√£o suas fases?" #Prompt de entrada do usu√°rio
hits = retrieve(question, k=3) #Busca no Faiss a Pergunta convertida em embedding , traz top 3 de docs relevantes
ans, cits = generate_primary(question, hits) #Pega todo o contexto e utiliza t5 para gerar a resposta obedecendo os prompts e regras de saida
print("Resposta (prim√°ria):", ans) # Printa resposta
print("Cita√ß√µes (docs usados):", cits) # Printa os Docs de onde tirou contexto


tokenizer_config.json:   0%|          | 0.00/2.32k [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/792k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.39M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.21k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/242M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/147 [00:00<?, ?B/s]

Resposta (prim√°ria): a mudan√ßa gradual na comunidade ao longo do tempo, podendo ser prim√°ria ou secund√°ria.
Cita√ß√µes (docs usados): [2, 6, 4]


---
## üõ°Ô∏è Aula 3 ‚Äî Valida√ß√£o (Pydantic + heur√≠sticas) + Ader√™ncia sem√¢ntica

**Objetivo**: Rejeitar respostas ruins/fora do contexto e padronizar a sa√≠da.

**Conceitos & t√©cnicas**:
- Pydantic para esquema de resposta
- Heur√≠sticas: m√≠nimo de palavras, frases proibidas, exige cita√ß√µes
- Ader√™ncia: similaridade (embedding) entre resposta e contexto


In [None]:
# C√©lula 7 ‚Äî Instala√ß√£o para valida√ß√£o
!pip install -q pydantic


In [None]:
# C√©lula 8 ‚Äî Pydantic + heur√≠sticas + ader√™ncia
from pydantic import BaseModel, Field, ValidationError
from typing import List, Literal

class AnswerModel(BaseModel): #Base Model : Classe base para criar modelos de dados , Pydantic.
    answer: str = Field(..., min_length=20) # Define um campo string , Field Obrigat√≥rio numero minimo de caracteres
    citations: List[int] = Field(default_factory=list) # Cria uma Lista de inteiros , o padr√£o √© uma lista vazia
    confidence: float = Field(..., ge=0, le=1) ##
    mode: Literal["primary","fallback"] = "primary" ##

BANNED = [
    "n√£o tenho informa√ß√µes", "sou apenas uma ia", "n√£o posso ajudar",
    "como ia", "desculpe, n√£o sei"
] # Lista de respostas ruins , se detectadas reprovam a resposta

def text_similarity(a: str, b: str) -> float:
    # Similaridade de cosseno entre embeddings normalizados
    va = embedder.encode([a], convert_to_numpy=True, normalize_embeddings=True)[0] # Converte texto A em vetor (384D) ,  Formato NumPy array , Normaliza vetor = 1
    vb = embedder.encode([b], convert_to_numpy=True, normalize_embeddings=True)[0]
    return float(np.dot(va, vb))  # [-1,1] ~ aqui ~[0,1] na pr√°tica

def validate_answer(answer: str, citations: List[int], context_text: str,
                    min_words=10, min_sim=0.55): # Answer : Resposta gerada pelo t5 , Citations : Indices dos docs , contexto concatenado , minimo de palavras e minimo de similaridade set 0.55
    reasons = [] # Lista vazia , aqui vai os motivos da reprova√ß√£o.

    # 1) tamanho m√≠nimo
    if len(answer.split()) < min_words:
        reasons.append("resposta muito curta") # Splita o texto e valida se a respsota √© muito curta.

    # 2) frases proibidas
    low = answer.lower()
    if any(p in low for p in BANNED): # detecta as frases proibidas (OBS : Transformar em lower case para evitar case sensitive)
        reasons.append("frase proibida detectada")

    # 3) cita√ß√µes obrigat√≥rias
    if not citations:
        reasons.append("sem cita√ß√µes de contexto") # Verifica se tem citacoes dos nossos docs

    # 4) ader√™ncia sem√¢ntica (resposta ‚Üî contexto)
    sim = text_similarity(answer, context_text)
    if sim < min_sim:
        reasons.append(f"ader√™ncia baixa (sim={sim:.2f} < {min_sim})")

    ok = len(reasons) == 0
    # confian√ßa simples: clip do score de similaridade , setada em 0.55 nota corte
    confidence = max(0.0, min(1.0, (sim - 0.4) / 0.6))  # mapeia ~[0.4..1.0] ‚Üí [0..1]
    return ok, reasons, confidence, sim

# Teste de valida√ß√£o
q = "Explique biodiversidade e sua rela√ß√£o com resili√™ncia ecol√≥gica."
hits = retrieve(q, k=3) # Busca top 3 Docs FAISS
ans, cits = generate_primary(q, hits) # Gera Resposta com T5
ctx = build_context(hits) #Concatena Docs recuperados

ok, reasons, conf, sim = validate_answer(ans, cits, ctx)
print("OK?", ok, "| conf:", round(conf,2), "| sim:", round(sim,2), "| motivos:", reasons)

if ok:
    try:
        obj = AnswerModel(answer=ans, citations=cits, confidence=conf, mode="primary") #Try de cria√ß√£o objeto Pydantic
        print("‚úÖ Struct Pydantic:", obj.model_dump())
    except ValidationError as e:
        print("‚ùå Pydantic:", e)
else:
    print("‚ùå Reprovado na valida√ß√£o:", reasons)


OK? False | conf: 0.03 | sim: 0.42 | motivos: ['ader√™ncia baixa (sim=0.42 < 0.55)']
‚ùå Reprovado na valida√ß√£o: ['ader√™ncia baixa (sim=0.42 < 0.55)']


---
## üîÑ Aula 4 ‚Äî Fallback Router + Interface (Gradio)

**Objetivo**: Se a valida√ß√£o reprovar, tentar fallback com outro modelo e exibir numa UI simples.

**Conceitos & t√©cnicas**:
- Fallback: tentar `google/flan-t5-base` com prompt alternativo
- Router: `primary ‚Üí validate ‚Üí (se fail) fallback ‚Üí validate`
- Interface: Gradio, mostrando resposta, modo e documentos citados


In [4]:
# C√©lula 9 ‚Äî Instala√ß√£o de UI e segundo modelo
!pip install -q gradio transformers


In [5]:
# C√©lula 10 ‚Äî Modelo fallback (FLAN-T5) e gera√ß√£o alternativa
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

FALLBACK_MODEL_ID = "google/flan-t5-base"
tok_fallback = AutoTokenizer.from_pretrained(FALLBACK_MODEL_ID)
mdl_fallback = AutoModelForSeq2SeqLM.from_pretrained(FALLBACK_MODEL_ID)

def generate_fallback(question: str, hits, max_in=512, max_out=180):
    context = build_context(hits)
    prompt = (
        "Responda em portugu√™s, de forma objetiva e did√°tica, usando exclusivamente o CONTEXTO. "
        "Se faltar informa√ß√£o, diga: 'N√£o encontrei no contexto.' "
        f"Pergunta: {question} "
        f"Contexto: {context}"
    )
    inputs = tok_fallback(prompt, return_tensors='pt', truncation=True, max_length=max_in)
    outputs = mdl_fallback.generate(**inputs, max_length=max_out, num_beams=6, early_stopping=True)
    answer = tok_fallback.decode(outputs[0], skip_special_tokens=True)
    citations = [i for i, _ in hits]
    return answer, citations


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json: 0.00B [00:00, ?B/s]

spiece.model:   0%|          | 0.00/792k [00:00<?, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json: 0.00B [00:00, ?B/s]

config.json: 0.00B [00:00, ?B/s]

model.safetensors:   0%|          | 0.00/990M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/147 [00:00<?, ?B/s]

In [6]:
# C√©lula 11 ‚Äî Router (primary -> validate -> fallback se necess√°rio)
def route_and_answer(question: str, k: int = 3):
    hits = retrieve(question, k=k)
    context = build_context(hits)

    # 1) primary
    a1, c1 = generate_primary(question, hits)
    ok, reasons, conf, sim = validate_answer(a1, c1, context)
    if ok:
        obj = AnswerModel(answer=a1, citations=c1, confidence=conf, mode="primary")
        return obj, hits, reasons

    # 2) fallback
    a2, c2 = generate_fallback(question, hits)
    ok2, reasons2, conf2, sim2 = validate_answer(a2, c2, context)
    mode = "fallback"

    if ok2:
        obj = AnswerModel(answer=a2, citations=c2, confidence=conf2, mode=mode)
        return obj, hits, reasons2
    else:
        # Ajuste simples para cumprir min_length quando reprova
        a2_adj = (a2 + " (Reveja a pergunta ou adicione mais contexto.)") if len(a2) < 20 else a2
        conf2 = max(conf2, 0.01)
        obj = AnswerModel(answer=a2_adj, citations=c2, confidence=conf2, mode=mode)
        return obj, hits, reasons2


In [7]:
# C√©lula 12 ‚Äî UI com Gradio
import gradio as gr

def ui_ask(question):
    obj, hits, reasons = route_and_answer(question, k=3)
    used = "\n".join([f"- [{i}] {documents[i]}" for i, _ in hits])
    extra = "" if not reasons else ("\n\n‚ö†Ô∏è Observa√ß√µes da valida√ß√£o: " + "; ".join(reasons))
    out = (
        f"**Modo:** {obj.mode}\n"
        f"**Confian√ßa:** {obj.confidence:.2f}\n"
        f"**Cita√ß√µes:** {obj.citations}\n\n"
        f"**Resposta:**\n{obj.answer}\n\n"
        f"**Trechos usados:**\n{used}"
        f"{extra}"
    )
    return out

demo = gr.Interface(
    fn=ui_ask,
    inputs=gr.Textbox(label="Pergunte sobre Biologia", placeholder="Ex.: O que √© fotoss√≠ntese?"),
    outputs=gr.Markdown(label="Resposta"),
    title="Chatbot de Biologia ‚Äî RAG + Guardrails + Fallback"
)
demo.launch(share=True)


Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://0c41697c2e15aaff14.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)




---
### ‚úÖ O que voc√™ ter√° ao final
- **RAG simples** com documentos de **biologia**, FAISS e top-k.
- **LLM prim√°ria (T5)** respondendo **apenas com o contexto**.
- **Valida√ß√£o (Pydantic + heur√≠sticas)** garantindo qualidade e ader√™ncia.
- **Fallback router** (FLAN-T5) quando a resposta reprovar.
- **Interface Gradio** para o usu√°rio interagir e ver **modo + cita√ß√µes**.

Dica: no Colab, se quiser **expor um endpoint** tempor√°rio, pode usar `gradio` com `share=True` (como no exemplo) ou solu√ß√µes como `ngrok`.
