In [1]:
import time
import numpy as np
from tqdm.auto import tqdm 

from qdrant_client import QdrantClient
from qdrant_client.http.models import Distance, VectorParams, PointStruct

In [2]:
with open("../data/dataset.npy", "rb") as f:
    dataset = np.load(f, allow_pickle=True)

len(dataset)

220065

In [3]:
# URL do seu node Qdrant
# - Para Qdrant local: "http://localhost:6333"
# - Para Qdrant Cloud: "https://SEU-CLUSTER.qdrant.io"
QDRANT_URL = "https://34cff7bc-5334-4dc1-b9b8-3a6432c5fc70.sa-east-1-0.aws.cloud.qdrant.io"

# Para Qdrant Cloud, coloque o API key aqui; para local, deixe None
QDRANT_API_KEY = "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJhY2Nlc3MiOiJtIn0.lZERRhcG91oelSwFVxtIClB23eaHKckK8cpsJTSfJvw"

# Nome da collection que vamos criar
COLLECTION_NAME = "projetos-de-lei"

BATCH_SIZE = 250            # tamanho do batch para upsert
UPSERT_TIMEOUT = 60.0       # timeout por request
MAX_RETRIES = 3             # quantas vezes tentar o mesmo batch
RETRY_SLEEP = 5             # segundos entre tentativas

In [4]:
# Cria cliente Qdrant
client = QdrantClient(
    url=QDRANT_URL,
    api_key=QDRANT_API_KEY,
    timeout=UPSERT_TIMEOUT
)

# Descobre a dimensionalidade do vetor a partir da primeira amostra
vector_dim = int(dataset[0]["embedding"].shape[0])
print(f"Dimensão das embeddings: {vector_dim}")

Dimensão das embeddings: 768


In [8]:
if client.collection_exists(COLLECTION_NAME):
    client.delete_collection(collection_name=COLLECTION_NAME)

client.create_collection(
    collection_name=COLLECTION_NAME,
    vectors_config=VectorParams(
        size=vector_dim,
        distance=Distance.COSINE,  # similaridade de cosseno
    ),
)

print(f"Collection '{COLLECTION_NAME}' criada.")


Collection 'projetos-de-lei' criada.


In [9]:
total = len(dataset)
global_id = 0  # contador global de IDs

for start in tqdm(range(0, total, BATCH_SIZE), desc="Enviando pontos para o Qdrant"):
    end = min(start + BATCH_SIZE, total)
    batch = dataset[start:end]

    points = []

    for local_idx, item in enumerate(batch, start=start):
        vector = item["embedding"].astype(np.float32).tolist()

         # ID global único dentro desta carga
        point_id = int(global_id)
        global_id += 1

        payload = {
            "id": point_id,
            "sapl_base": item.get("sapl_base"),
            "sapl_url": item.get("sapl_url"),
            "municipio": item.get("municipio"),
            "uf": item.get("uf"),
            "tipo_id": item.get("tipo_id"),
            "tipo_label": item.get("tipo_label"),
            "materia_id": item.get("materia_id"),
            "numero": item.get("numero"),
            "ano": item.get("ano"),
            "ementa": item.get("ementa"),
            "data_apresentacao": item.get("data_apresentacao"),
            "em_tramitacao": item.get("em_tramitacao"),
            "situacao": item.get("situacao"),
            "link_publico": item.get("link_publico"),
            "acao": item.get("acao"),
        }

        points.append(
            PointStruct(
                id=point_id,
                vector=vector,
                payload=payload,
            )
        )

    # ======= UPSERT COM RETRY =======
    for attempt in range(1, MAX_RETRIES + 1):
        try:
            client.upsert(
                collection_name=COLLECTION_NAME,
                points=points,
                wait=True,
            )
            break  # deu certo -> sai do loop de retries
        except Exception as e:
            print(f"\nErro no batch {start}-{end} (tentativa {attempt}/{MAX_RETRIES}): {e}")
            if attempt == MAX_RETRIES:
                print("Número máximo de tentativas atingido. Seguindo para o próximo batch.")
            else:
                print(f"Aguardando {RETRY_SLEEP}s antes de tentar novamente...")
                time.sleep(RETRY_SLEEP)

print("Upload concluído.")

Enviando pontos para o Qdrant:   0%|          | 0/881 [00:00<?, ?it/s]

Upload concluído.


In [10]:
import os
from huggingface_hub import InferenceClient

hf_client = InferenceClient(
    provider="hf-inference",
    api_key="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",
)

embeddings = hf_client.feature_extraction(
    "query: Como diminuir a taxa de homicídios no município?",
    model="embaas/sentence-transformers-multilingual-e5-base",
    normalize=True,               # vetores normalizados (bom para cosseno)
    truncate=True,                # corta se passar do limite de tokens
    truncation_direction="Right", # padrão mais comum
)

embeddings.shape

(768,)

In [12]:
# Supondo que `embeddings` seja um np.ndarray (dimensão igual à da collection)
query_embedding = embeddings.astype(np.float32).tolist()

results = client.query_points(
    collection_name=COLLECTION_NAME,
    query=query_embedding,  # vetor da query
    limit=100,
    with_payload=True,      # pra já trazer os campos do documento
)

for point in results.points:
    print(
        point.id,
        point.score,
        point.payload.get("municipio"),
        "-",
        point.payload.get("acao"),
    )


148841 0.8847642 Parauapebas - Instituir a campanha “Morte Zero no Trânsito” no município.
213973 0.8805548 Natal - Criar o programa “Descarte Consciente” no município.
171593 0.87999094 Pedra Preta - Instituir o mês Setembro Amarelo como mês de ações preventivas ao suicídio no município.
48686 0.879871 Guarujá do Sul - Criar o programa “Juro Zero” no município.
97511 0.8790353 Primavera do Leste - Criar o programa “Pichação Zero” no município.
12479 0.87892556 Caruaru - Implementar programa de prevenção às drogas, denominado “Esporte Sim, Drogas Não”, no município.
12951 0.8788948 Campina Grande - Criar programa municipal de prevenção ao suicídio no município.
14725 0.87882113 Campina Grande - Implementar política municipal contra pichações no município.
158341 0.87814754 Francisco Beltrão - Criar programa de combate à pichação no município.
174584 0.87814754 Barueri - Criar programa de combate à pichação no município.
196688 0.8778729 Sarandi - Criar o projeto “Diga Não às Drogas” no