In [9]:
!pip install -q sentence-transformers faiss-cpu huggingface_hub

from huggingface_hub import InferenceClient
from sentence_transformers import SentenceTransformer
import faiss
import numpy as np

# ==========================
# 1. TOKEN
# ==========================
HF_TOKEN = input("Cole aqui seu HF_TOKEN: ").strip()

# Cliente HF usando novo endpoint unificado
client = InferenceClient(
    "meta-llama/Llama-3.1-8B-Instruct",
    token=HF_TOKEN
)

# ==========================
# 2. EMBEDDINGS
# ==========================
embedder = SentenceTransformer("all-MiniLM-L6-v2")

DOCUMENTOS = [
    "A capital da França é Paris.",
    "O Brasil foi descoberto em 1500 pelos portugueses.",
    "A água ferve a 100 graus Celsius ao nível do mar.",
    "O Sol é uma estrela localizada no centro do Sistema Solar.",
]

embs = embedder.encode(DOCUMENTOS, convert_to_numpy=True)
d = embs.shape[1]

index = faiss.IndexFlatL2(d)
index.add(embs)

print("Index criado com", len(DOCUMENTOS), "documentos.")

# ==========================
# 3. RAG
# ==========================
def rag(query, k=2):
    # Busca no vetor
    q_emb = embedder.encode([query], convert_to_numpy=True)
    D, I = index.search(q_emb, k)

    contexto = "\n".join(DOCUMENTOS[i] for i in I[0])

    prompt = f"""
Use APENAS o contexto abaixo para responder.
Se a informação não estiver no contexto, diga: "Não encontrado no contexto".

Contexto:
{contexto}

Pergunta: {query}

Resposta:
"""

    resposta = client.chat.completions.create(
        model="meta-llama/Llama-3.1-8B-Instruct",
        messages=[
            {"role": "user", "content": prompt}
        ],
        max_tokens=200
    )

    return resposta.choices[0].message["content"]

# ==========================
# 4. LOOP
# ==========================
print("\nDigite sua pergunta (ou 'sair'):")

while True:
    q = input("> ").strip()
    if q.lower() == "sair":
        break
    print("\n--- RESPOSTA ---\n")
    print(rag(q))
    print("\n------------------\n")



Cole aqui seu HF_TOKEN: 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
Index criado com 4 documentos.

Digite sua pergunta (ou 'sair'):
> Qual é a capital da França?

--- RESPOSTA ---

A capital da França é Paris.

------------------

> sair
