# Indexa√ß√£o de Vetores no Qdrant
Neste notebook, realizamos a indexa√ß√£o dos vetores (embeddings) dos itens no banco de dados vetorial **Qdrant**.
Utilizamos a "Torre de Itens" do nosso modelo Two-Tower treinado para gerar os vetores de todos os itens do cat√°logo.
Isso permitir√° realizar buscas por similaridade (Retrieval) de forma eficiente em tempo real.

In [None]:
import torch
import polars as pl
import pandas as pd
from qdrant_client import QdrantClient
from qdrant_client.http import models
from pathlib import Path
from tqdm import tqdm
import json
import numpy as np
import sys

sys.path.append('./src')

from model import TwoTowerModel

# Configs
MODEL_PATH = "./data/two_tower_model.ckpt"
METADATA_PATH = "./data/model_metadata.json"
ITEM_FEATURES_PATH = "./feature_repo/data/item_features.parquet"
QDRANT_HOST = "qdrant" # Nome do container no docker network
COLLECTION_NAME = "hm_items"

print("üöÄ Iniciando Indexa√ß√£o no Qdrant...")

## 1. Carregamento do Modelo Treinado
Carregamos o modelo Two-Tower salvo anteriormente (`.ckpt`).
Colocamos o modelo em modo de avalia√ß√£o (`eval()`) e congelamos os gradientes, pois usaremos apenas para infer√™ncia (gera√ß√£o de embeddings).

In [None]:
# 1. Carregar Modelo
print("üß† Carregando modelo treinado...")
model = TwoTowerModel.load_from_checkpoint(MODEL_PATH)
model.eval() # Modo de infer√™ncia
model.freeze() # Desativar gradientes

## 2. Prepara√ß√£o do Cat√°logo de Itens
Carregamos os dados dos itens que ser√£o indexados.
Precisamos garantir que temos as mesmas features usadas no treinamento (`popularity_score`, `avg_price`) e os IDs mapeados corretamente (`item_index`).

In [None]:
# 2. Carregar Dados dos Itens (Para ter as features de input)
# Precisamos do item_index que criamos no passo 04. 
# Como o passo 04 salvou o dataset de treino com os indices, vamos pegar de l√° os unicos.
print("üì¶ Carregando cat√°logo de itens...")
df_train = pd.read_parquet("./data/training_dataset.parquet", columns=["item_index", "item_id", "popularity_score", "avg_price"])
# Remover duplicatas para ter apenas itens √∫nicos
unique_items = df_train.drop_duplicates(subset=["item_index"]).sort_values("item_index")

print(f"Total de itens √∫nicos a indexar: {len(unique_items)}")

## 3. Configura√ß√£o do Qdrant
Conectamos ao servi√ßo do Qdrant e recriamos a cole√ß√£o.
Definimos a m√©trica de dist√¢ncia como **Cosseno**, que √© compat√≠vel com a normaliza√ß√£o L2 que aplicamos na sa√≠da do modelo.

In [None]:
# 3. Conectar ao Qdrant
client = QdrantClient(host=QDRANT_HOST, port=6333)

# Recriar cole√ß√£o (apaga anterior se existir)
client.recreate_collection(
    collection_name=COLLECTION_NAME,
    vectors_config=models.VectorParams(size=32, distance=models.Distance.COSINE),
)

## 4. Gera√ß√£o de Embeddings e Indexa√ß√£o
Iteramos sobre todos os itens do cat√°logo em batches.
Para cada batch:
1.  Passamos os dados pela **Item Tower** do modelo para gerar os vetores.
2.  Normalizamos os vetores.
3.  Enviamos os vetores e metadados (payload) para o Qdrant.

In [None]:
# 4. Gerar Embeddings e Indexar em Batches
batch_size = 256
total_batches = len(unique_items) // batch_size + 1

print("‚ö° Gerando vetores e enviando...")

for i in tqdm(range(0, len(unique_items), batch_size)):
    batch = unique_items.iloc[i : i + batch_size]
    
    # Preparar inputs para o PyTorch
    item_ids_tensor = torch.LongTensor(batch['item_index'].values)
    
    # Normalizar features num√©ricas (mesma l√≥gica do treino)
    # Aten√ß√£o: Idealmente voc√™ salva os scalers do treino (min/max) para usar aqui.
    # Vou assumir uso direto por simplifica√ß√£o, mas em prod use Scikit-Learn pipelines.
    item_feats_tensor = torch.FloatTensor(batch[['popularity_score', 'avg_price']].values)
    
    # Passar pela ITEM TOWER
    with torch.no_grad():
        # Acessar apenas a sub-rede de itens
        # Precisamos replicar a l√≥gica do forward da torre de itens
        i_emb = model.item_embedding(item_ids_tensor)
        i_input = torch.cat([i_emb, item_feats_tensor], dim=1)
        item_vectors = model.item_mlp(i_input)
        # Normalizar L2
        item_vectors = torch.nn.functional.normalize(item_vectors, p=2, dim=1)
    
    # Converter para lista Python
    vectors_list = item_vectors.numpy().tolist()
    
    # Preparar Payloads (Metadados para filtrar depois: Pre√ßo, Categoria, ID original)
    # Usamos json.loads(to_json) para garantir tipos nativos e chaves string (evita erro de tipagem)
    payloads = json.loads(batch.to_json(orient="records"))
    
    # IDs no Qdrant (usaremos o item_index como ID num√©rico do ponto)
    ids = batch['item_index'].tolist()
    
    # Upload
    client.upsert(
        collection_name=COLLECTION_NAME,
        points=models.Batch(
            ids=ids,
            vectors=vectors_list,
            payloads=payloads
        )
    )

print(f"‚úÖ Indexa√ß√£o conclu√≠da! Cole√ß√£o '{COLLECTION_NAME}' pronta com {client.count(COLLECTION_NAME).count} vetores.")