# üìì 02 - Introdu√ß√£o ao FAISS e buscas vetoriais

Neste notebook, vamos explorar como:
‚úÖ Gerar embeddings de texto.  
‚úÖ Indexar esses embeddings no FAISS.  
‚úÖ Fazer buscas vetoriais simples e entender similaridade.

---

## ‚öôÔ∏è Setup inicial

Vamos come√ßar instalando as bibliotecas necess√°rias.

```python
# Instale as bibliotecas se ainda n√£o estiverem
# !pip install faiss-cpu sentence-transformers

import faiss
from sentence_transformers import SentenceTransformer
import numpy as np
```

In [2]:
import faiss
from sentence_transformers import SentenceTransformer
import numpy as np

  from .autonotebook import tqdm as notebook_tqdm


## üìù 1Ô∏è‚É£ Gerar embeddings de texto
Vamos usar o modelo all-MiniLM-L6-v2 do Sentence Transformers, leve e eficiente para testes iniciais.

In [3]:
# Carregar modelo de embeddings
model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")

# Lista de textos de exemplo
texts = [
    "Retrieval-Augmented Generation (RAG) combina recupera√ß√£o de informa√ß√µes e gera√ß√£o de linguagem natural.",
    "O sol nasce no leste e se p√µe no oeste.",
    "Python √© uma linguagem de programa√ß√£o muito popular.",
    "Modelos de linguagem podem gerar respostas criativas.",
    "A IA est√° revolucionando diversos setores."
]

# Gerar embeddings (convertidos para numpy)
embeddings = model.encode(texts, convert_to_numpy=True)
print("üîπ Embeddings shape:", embeddings.shape)

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


üîπ Embeddings shape: (5, 384)


## üîç 2Ô∏è‚É£ Indexar embeddings no FAISS

In [4]:
# Dimens√£o dos embeddings (deve bater com a sa√≠da do modelo)
dimension = embeddings.shape[1]

# Inicializar o √≠ndice FAISS (IndexFlatIP = Inner Product / similaridade por produto interno)
index = faiss.IndexFlatIP(dimension)

# Normalizar embeddings para usar similaridade de cosseno
faiss.normalize_L2(embeddings)

# Adicionar ao √≠ndice
index.add(embeddings)
print("üîπ N√∫mero de vetores indexados:", index.ntotal)

üîπ N√∫mero de vetores indexados: 5


## üîé 3Ô∏è‚É£ Fazer uma busca vetorial simples

In [5]:
# Pergunta de exemplo
query = "Como a IA est√° mudando as ind√∫strias?"

# Gerar embedding da pergunta
query_embedding = model.encode([query], convert_to_numpy=True)
faiss.normalize_L2(query_embedding)

# Buscar top-3 resultados mais similares
k = 3
distances, indices = index.search(query_embedding, k)

print("üîπ Resultados:")
for i, idx in enumerate(indices[0]):
    print(f"Rank {i+1}: Texto: {texts[idx]} (Score: {distances[0][i]:.4f})")

üîπ Resultados:
Rank 1: Texto: A IA est√° revolucionando diversos setores. (Score: 0.5576)
Rank 2: Texto: Python √© uma linguagem de programa√ß√£o muito popular. (Score: 0.3936)
Rank 3: Texto: Modelos de linguagem podem gerar respostas criativas. (Score: 0.3435)
