In [1]:
import json
import faiss
import numpy as np
from tqdm import tqdm
from sentence_transformers import SentenceTransformer

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
model = SentenceTransformer('all-MiniLM-L6-v2')

with open('conversas_podroes_filtrado.json', 'r', encoding='utf-8') as f:
    conversas = json.load(f)

mensagens = [msg["message"] for msg in conversas]

# Gerar embeddings para cada mensagem
embeddings = []
for mensagem in tqdm(mensagens, desc="Gerando embeddings"):
    emb = model.encode(mensagem, convert_to_tensor=False)
    embeddings.append(emb)

model.save("modelo_podrao")
print("Embeddings gerados e salvos com sucesso!")

Gerando embeddings: 100%|██████████| 9199/9199 [02:23<00:00, 63.98it/s]


Embeddings gerados e salvos com sucesso!


In [3]:
# Converter a lista de embeddings para um array NumPy
embeddings_np = np.array(embeddings)

# Definir a dimensão (no nosso caso, 384 para all-MiniLM-L6-v2)
dimension = embeddings_np.shape[1]

# Criar um índice FAISS (IndexFlatL2 é simples e sem custo)
index = faiss.IndexFlatL2(dimension)
index.add(embeddings_np)

faiss.write_index(index, "faiss_index.index")
print(f"Indexado {index.ntotal} vetores!")

Indexado 9199 vetores!
