# üöÄ POC: Busca Vetorial OTIMIZADA para AWS g4dn.2xlarge

## üéØ Inst√¢ncia: g4dn.2xlarge
- **GPU**: NVIDIA T4 (16GB VRAM) - Tensor Cores
- **vCPUs**: 8 cores
- **RAM**: 32GB
- **Custo**: ~$0.75/h (on-demand) | ~$0.25/h (spot)

## üöÄ Otimiza√ß√µes para T4:

### 1. **Modelo de embedding otimizado:**
- ‚úÖ `paraphrase-multilingual-MiniLM-L12-v2` (384 dims, 4x mais r√°pido)
- ‚úÖ **Mixed Precision (FP16)**: 2x speedup nos Tensor Cores da T4
- ‚úÖ **Batch size: 256** (aproveita 16GB VRAM vs 32 na CPU)

### 2. **FAISS IndexHNSWFlat:**
- ‚úÖ Sem treinamento (ao contr√°rio de IVF)
- ‚úÖ **99.5% de precis√£o** (vs 95-98% IVF)
- ‚úÖ **10-50x mais r√°pido** que Flat
- ‚ö° Opcional: FAISS GPU (5-10x mais r√°pido na busca)

### 3. **Performance esperada:**
| M√©trica | CPU | GPU T4 |
|---------|-----|--------|
| Constru√ß√£o | 30-40min | **5-10min** |
| Busca | 80-100ms | **30-50ms** |
| Throughput | ~100 q/s | **~1000 q/s** |

---

## üì¶ Setup e GPU Detection

In [None]:
import pandas as pd
import numpy as np
import json
import re
import faiss
import pickle
import torch
from pathlib import Path
from typing import Dict, List, Optional
from sentence_transformers import SentenceTransformer
from unidecode import unidecode
from tqdm import tqdm
import time

print("="*60)
print("üîç DETEC√á√ÉO DE HARDWARE")
print("="*60)

# Detectar GPU
device = 'cuda' if torch.cuda.is_available() else 'cpu'

if device == 'cuda':
    gpu_name = torch.cuda.get_device_name(0)
    gpu_memory = torch.cuda.get_device_properties(0).total_memory / (1024**3)
    print(f"\nüéÆ GPU detectada: {gpu_name}")
    print(f"üíæ VRAM total: {gpu_memory:.1f}GB")
    print(f"‚úÖ CUDA version: {torch.version.cuda}")
    
    # Verificar se √© T4
    if 'T4' in gpu_name:
        print(f"üöÄ GPU T4 detectada - Tensor Cores dispon√≠veis!")
        print(f"‚ö° Mixed Precision (FP16) ser√° ativado automaticamente")
    
    # FAISS GPU dispon√≠vel?
    try:
        res = faiss.StandardGpuResources()
        faiss_gpu_available = True
        print(f"‚úÖ FAISS GPU dispon√≠vel (busca 5-10x mais r√°pida)")
    except:
        faiss_gpu_available = False
        print(f"‚ö†Ô∏è  FAISS CPU only (para GPU: pip install faiss-gpu)")
else:
    print(f"\n‚ö†Ô∏è  Executando em CPU")
    print(f"üí° Recomendado: usar inst√¢ncia g4dn.2xlarge com GPU T4")
    faiss_gpu_available = False

print(f"\nüîß Device para embeddings: {device}")
print("="*60)

## 1. EmbeddingService - Otimizado para T4

In [None]:
class EmbeddingServiceGPU:
    """Servi√ßo otimizado para GPU NVIDIA T4 (g4dn.2xlarge)"""
    
    def __init__(
        self, 
        model_name: str = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
        use_fp16: bool = True
    ):
        """
        Modelos testados na T4 (velocidade vs qualidade):
        
        R√ÅPIDO (recomendado para produ√ß√£o):
        - paraphrase-multilingual-MiniLM-L12-v2 (384 dims) ‚úÖ MELHOR CUSTO-BENEF√çCIO
        - all-MiniLM-L6-v2 (384 dims, ingl√™s mas OK em PT)
        
        PRECISO (se precisar mais qualidade):
        - paraphrase-multilingual-mpnet-base-v2 (768 dims, 2x mais lento)
        - neuralmind/bert-base-portuguese-cased (768 dims, 3x mais lento)
        
        Args:
            use_fp16: Mixed precision (FP16) - 2x speedup na T4 (Tensor Cores)
        """
        print(f"‚ö° Carregando modelo: {model_name}")
        self.model = SentenceTransformer(model_name, device=device)
        
        # Mixed precision para T4 (Tensor Cores)
        if device == 'cuda' and use_fp16:
            self.model.half()  # Converte para FP16
            print(f"üöÄ Mixed Precision (FP16) ATIVADO - 2x speedup")
        
        self.embedding_dim = self.model.get_sentence_embedding_dimension()
        print(f"‚úÖ Embedding dimension: {self.embedding_dim}")
        print(f"üîß Device: {self.model.device}")
        
        # Batch size otimizado para T4 (16GB VRAM)
        if device == 'cuda':
            # T4 aguenta batch 256 com MiniLM (384 dims)
            # Se usar modelo maior (768 dims), reduza para 128
            self.optimal_batch_size = 256 if self.embedding_dim <= 384 else 128
        else:
            self.optimal_batch_size = 32
        
        print(f"üì¶ Batch size otimizado: {self.optimal_batch_size}")
    
    @staticmethod
    def normalize_text(text: str) -> str:
        """Normaliza√ß√£o de endere√ßos brasileiros"""
        if not text or not isinstance(text, str):
            return ""
        
        text = unidecode(text)
        text = text.lower()
        
        # Expandir abrevia√ß√µes (aceita com/sem ponto)
        replacements = {
            r'\br\.?\s': 'rua ',
            r'\bav\.?\s': 'avenida ',
            r'\btrav\.?\s': 'travessa ',
            r'\balam\.?\s': 'alameda ',
            r'\bpca\.?\s': 'praca ',
            r'\bjd\.?\s': 'jardim ',
            r'\bvl\.?\s': 'vila ',
            r'\bcj\.?\s': 'conjunto ',
            r'\bqd\.?\s': 'quadra ',
            r'\blt\.?\s': 'lote ',
        }
        
        for pattern, replacement in replacements.items():
            text = re.sub(pattern, replacement, text)
        
        # Remover pontua√ß√£o e m√∫ltiplos espa√ßos
        text = re.sub(r'[^\w\s]', ' ', text)
        text = re.sub(r'\s+', ' ', text).strip()
        
        return text
    
    def embed_text(self, text: str) -> np.ndarray:
        """Embedding de um texto (usado na busca)"""
        normalized = self.normalize_text(text)
        if not normalized:
            return np.zeros(self.embedding_dim, dtype=np.float32)
        return self.model.encode(
            normalized, 
            convert_to_numpy=True, 
            show_progress_bar=False,
            normalize_embeddings=True  # ‚Üê CR√çTICO: deve estar igual ao embed_batch!
        )
    
    def embed_address_fields(self, address: Dict[str, str]) -> Dict[str, np.ndarray]:
        """Embedding de m√∫ltiplos campos de um endere√ßo"""
        embeddings = {}
        for field in ['logradouro', 'bairro', 'cidade']:
            text = address.get(field, '')
            embeddings[field] = self.embed_text(text)
        return embeddings
    
    def embed_batch(self, texts, batch_size: int = None) -> np.ndarray:
        """
        Embedding de batch otimizado para T4:
        - CPU: batch=32 (limitado por RAM)
        - GPU T4: batch=256 (16GB VRAM + FP16)
        """
        if batch_size is None:
            batch_size = self.optimal_batch_size
        
        # Converter Series para lista se necess√°rio
        if hasattr(texts, 'tolist'):
            texts = texts.tolist()
        
        # Normalizar todos os textos
        normalized_texts = [self.normalize_text(t) for t in texts]
        normalized_texts = [t if t else " " for t in normalized_texts]
        
        # Encode com configura√ß√µes otimizadas
        embeddings = self.model.encode(
            normalized_texts,
            convert_to_numpy=True,
            show_progress_bar=True,
            batch_size=batch_size,
            device=device,
            normalize_embeddings=True  # L2 normalization (melhora similaridade)
        )
        
        return embeddings.astype(np.float32)

## 2. IndexBuilder - HNSW com suporte GPU

In [None]:
class IndexBuilderGPU:
    """Construtor de √≠ndices FAISS otimizado para T4"""
    
    def __init__(self, embedding_service: EmbeddingServiceGPU, use_gpu_index: bool = False):
        """
        Args:
            use_gpu_index: Transferir √≠ndices para GPU (busca 5-10x mais r√°pida)
                          Requer: pip install faiss-gpu
                          Aten√ß√£o: consome VRAM (pode conflitar com embeddings)
        """
        self.embedding_service = embedding_service
        self.indices = {}
        self.dataframe = None
        self.use_gpu_index = use_gpu_index and faiss_gpu_available
        
        if self.use_gpu_index:
            self.gpu_resource = faiss.StandardGpuResources()
            # Reservar 8GB para √≠ndices (deixa 8GB para embeddings)
            self.gpu_resource.setTempMemory(8 * 1024 * 1024 * 1024)
            print(f"üéÆ FAISS GPU ativado (8GB reservados para √≠ndices)")
    
    def build_indices(
        self,
        df: pd.DataFrame,
        fields: list = None,
        use_hnsw: bool = True,
        M: int = 32,
        efSearch: int = 32
    ) -> dict:
        """
        Constr√≥i √≠ndices FAISS HNSW otimizados
        
        Args:
            use_hnsw: True=HNSW (r√°pido+preciso), False=Flat (lento)
            M: Conex√µes no grafo HNSW (16-64)
               - M=16: r√°pido, ~98% recall
               - M=32: balanceado, ~99.5% recall ‚úÖ
               - M=64: preciso, ~99.9% recall, +mem√≥ria
            efSearch: Vizinhos na busca (16-64)
               - 16: muito r√°pido
               - 32: balanceado ‚úÖ
               - 64: mais preciso
        """
        if fields is None:
            fields = ['logradouro', 'bairro', 'cidade']
        
        self.dataframe = df.copy()
        n_records = len(df)
        
        print(f"\n{'='*60}")
        print(f"üî® CONSTRUINDO √çNDICES FAISS")
        print(f"{'='*60}")
        print(f"üìä Total de registros: {n_records:,}")
        print(f"‚öôÔ∏è  Modo: {'HNSW (r√°pido+preciso)' if use_hnsw else 'Flat (lento)'}")
        print(f"üéØ Par√¢metros: M={M}, efSearch={efSearch}")
        print(f"")
        
        total_start = time.time()
        
        for field in fields:
            print(f"\nüìç Campo: {field}")
            print(f"{'-'*40}")
            field_start = time.time()
            
            # Embedding do campo
            texts = df[field].fillna('').astype(str).tolist()
            print(f"   ‚ö° Gerando embeddings...")
            embeddings = self.embedding_service.embed_batch(texts)
            dimension = embeddings.shape[1]
            
            # Criar √≠ndice
            if use_hnsw:
                print(f"   üß† Criando √≠ndice HNSW (dim={dimension})...")
                index_cpu = faiss.IndexHNSWFlat(dimension, M)
                index_cpu.hnsw.efSearch = efSearch
                
                print(f"   üì• Adicionando {n_records:,} vetores...")
                index_cpu.add(embeddings)
                
                # GPU (opcional)
                if self.use_gpu_index:
                    print(f"   üéÆ Transferindo para GPU T4...")
                    try:
                        index = faiss.index_cpu_to_gpu(self.gpu_resource, 0, index_cpu)
                        print(f"   ‚úÖ √çndice na GPU")
                    except Exception as e:
                        print(f"   ‚ö†Ô∏è  Falha GPU: {e}")
                        print(f"   ‚ÑπÔ∏è  Usando √≠ndice CPU")
                        index = index_cpu
                else:
                    index = index_cpu
            else:
                print(f"   üß† Criando √≠ndice Flat (dim={dimension})...")
                index = faiss.IndexFlatL2(dimension)
                index.add(embeddings)
                
                if self.use_gpu_index:
                    index = faiss.index_cpu_to_gpu(self.gpu_resource, 0, index)
            
            self.indices[field] = index
            
            elapsed = time.time() - field_start
            print(f"   ‚úÖ Conclu√≠do em {elapsed:.1f}s")
        
        total_elapsed = time.time() - total_start
        print(f"\n{'='*60}")
        print(f"üéâ TODOS OS √çNDICES CONSTRU√çDOS")
        print(f"‚è±Ô∏è  Tempo total: {total_elapsed/60:.1f}min")
        print(f"{'='*60}\n")
        
        return self.indices
    
    def save_indices(self, output_dir: str):
        """Salva √≠ndices para reutiliza√ß√£o"""
        output_path = Path(output_dir)
        output_path.mkdir(parents=True, exist_ok=True)
        
        print(f"\nüíæ Salvando √≠ndices em: {output_path}")
        
        for field, index in self.indices.items():
            # Se √≠ndice est√° na GPU, transferir para CPU antes de salvar
            if self.use_gpu_index:
                index_cpu = faiss.index_gpu_to_cpu(index)
            else:
                index_cpu = index
            
            index_file = output_path / f"{field}_index.faiss"
            faiss.write_index(index_cpu, str(index_file))
            print(f"   ‚úÖ {field}_index.faiss")
        
        # Salvar dataframe
        df_file = output_path / "addresses.parquet"
        self.dataframe.to_parquet(df_file, index=False)
        print(f"   ‚úÖ addresses.parquet")
        
        # Metadata
        metadata = {
            'fields': list(self.indices.keys()),
            'n_records': len(self.dataframe),
            'embedding_dim': self.embedding_service.embedding_dim
        }
        metadata_file = output_path / "metadata.pkl"
        with open(metadata_file, 'wb') as f:
            pickle.dump(metadata, f)
        print(f"   ‚úÖ metadata.pkl")
        
        print(f"\nüéâ √çndices salvos! Use load_indices() para carregar.")
    
    def load_indices(self, input_dir: str):
        """Carrega √≠ndices salvos (MUITO mais r√°pido)"""
        input_path = Path(input_dir)
        
        print(f"\nüìÇ Carregando √≠ndices de: {input_path}")
        start_time = time.time()
        
        # Metadata
        metadata_file = input_path / "metadata.pkl"
        with open(metadata_file, 'rb') as f:
            metadata = pickle.load(f)
        
        # DataFrame
        df_file = input_path / "addresses.parquet"
        self.dataframe = pd.read_parquet(df_file)
        
        # √çndices
        for field in metadata['fields']:
            index_file = input_path / f"{field}_index.faiss"
            index_cpu = faiss.read_index(str(index_file))
            
            # Transferir para GPU se ativado
            if self.use_gpu_index:
                try:
                    index = faiss.index_cpu_to_gpu(self.gpu_resource, 0, index_cpu)
                    print(f"   ‚úÖ {field} (GPU)")
                except:
                    index = index_cpu
                    print(f"   ‚úÖ {field} (CPU)")
            else:
                index = index_cpu
                print(f"   ‚úÖ {field}")
            
            self.indices[field] = index
        
        elapsed = time.time() - start_time
        print(f"\n‚ö° Carregado em {elapsed:.1f}s ({len(self.dataframe):,} registros)\n")
        
        return self.indices, self.dataframe

## 3. SearchEngine (mesmo da vers√£o anterior)

In [None]:
class SearchEngine:
    """Motor de busca vetorial com pesos din√¢micos"""
    
    def __init__(
        self,
        embedding_service: EmbeddingServiceGPU,
        indices: Dict[str, faiss.Index],
        dataframe: pd.DataFrame
    ):
        self.embedding_service = embedding_service
        self.indices = indices
        self.dataframe = dataframe
        
        self.base_weights = {
            'with_cep': {
                'cep': 0.30,
                'logradouro': 0.40,
                'bairro': 0.20,
                'cidade': 0.10
            },
            'without_cep': {
                'logradouro': 0.55,
                'bairro': 0.25,
                'cidade': 0.20
            }
        }
        
        self.use_uf_filter = True
        self.confidence_threshold = 0.8
    
    def _get_dynamic_weights(self, query: Dict[str, str]) -> Dict[str, float]:
        has_cep = bool(query.get('cep'))
        weights = self.base_weights['with_cep' if has_cep else 'without_cep'].copy()
        available_fields = [f for f in ['logradouro', 'bairro', 'cidade'] if query.get(f)]
        filtered_weights = {k: v for k, v in weights.items() if k in available_fields or k == 'cep'}
        total_weight = sum(filtered_weights.values())
        if total_weight > 0:
            normalized_weights = {k: v / total_weight for k, v in filtered_weights.items()}
        else:
            normalized_weights = filtered_weights
        return normalized_weights
    
    def _calculate_field_similarity(
        self,
        field: str,
        query_embedding: np.ndarray,
        top_k: int = 100
    ) -> tuple:
        index = self.indices[field]
        query_embedding = query_embedding.reshape(1, -1).astype(np.float32)
        distances, indices = index.search(query_embedding, top_k)
        similarities = 1.0 / (1.0 + distances[0])
        return similarities, indices[0]
    
    def _calculate_cep_match(self, query_cep: str, db_cep: str) -> float:
        if not query_cep or not db_cep:
            return 0.0
        
        query_clean = query_cep.replace('-', '').replace('.', '')
        db_clean = db_cep.replace('-', '').replace('.', '')
        
        if query_clean == db_clean:
            return 1.0
        
        if len(query_clean) >= 5 and len(db_clean) >= 5:
            if query_clean[:5] == db_clean[:5]:
                return 0.5
        
        return 0.0
    
    def search(
        self,
        query: Dict[str, str],
        top_k: int = 5,
        search_k: int = 100
    ) -> str:
        weights = self._get_dynamic_weights(query)
        query_embeddings = self.embedding_service.embed_address_fields(query)
        
        candidate_scores = {}
        field_scores_map = {}
        
        for field in ['logradouro', 'bairro', 'cidade']:
            if not query.get(field):
                continue
            
            query_emb = query_embeddings[field]
            similarities, indices = self._calculate_field_similarity(field, query_emb, search_k)
            weight = weights.get(field, 0.0)
            
            for idx, sim in zip(indices, similarities):
                if self.use_uf_filter and query.get('uf'):
                    db_uf = self.dataframe.iloc[idx]['uf']
                    if db_uf != query['uf']:
                        continue
                
                if idx not in candidate_scores:
                    candidate_scores[idx] = 0.0
                    field_scores_map[idx] = {}
                
                candidate_scores[idx] += weight * sim
                field_scores_map[idx][field] = float(sim)
        
        if query.get('cep'):
            cep_weight = weights.get('cep', 0.0)
            for idx in candidate_scores.keys():
                db_cep = self.dataframe.iloc[idx]['cep']
                cep_score = self._calculate_cep_match(query.get('cep'), db_cep)
                candidate_scores[idx] += cep_weight * cep_score
                field_scores_map[idx]['cep'] = cep_score
        
        sorted_candidates = sorted(
            candidate_scores.items(),
            key=lambda x: x[1],
            reverse=True
        )[:top_k]
        
        results = []
        for idx, score in sorted_candidates:
            row = self.dataframe.iloc[idx]
            
            if score >= self.confidence_threshold:
                confidence = "high"
            elif score >= 0.6:
                confidence = "medium"
            else:
                confidence = "low"
            
            result = {
                "address": {
                    "logradouro": row['logradouro'],
                    "bairro": row['bairro'],
                    "cidade": row['cidade'],
                    "uf": row['uf'],
                    "cep": row['cep']
                },
                "score": float(score),
                "confidence": confidence,
                "field_scores": field_scores_map.get(idx, {})
            }
            results.append(result)
        
        response = {
            "results": results,
            "query": query,
            "total_found": len(results),
            "weights_used": weights
        }
        
        return json.dumps(response, ensure_ascii=False, indent=2)

## 3.1. SearchEngineOptimized - Com Filtro de UF Otimizado

In [None]:
class SearchEngineOptimized(SearchEngine):
    """
    Motor de busca OTIMIZADO que filtra por UF ANTES da busca vetorial.
    
    Resolve o problema de candidatos de estados diferentes serem retornados
    quando existem nomes de ruas/bairros/cidades duplicados em v√°rios estados.
    """
    
    def __init__(
        self,
        embedding_service: EmbeddingServiceGPU,
        indices: Dict[str, faiss.Index],
        dataframe: pd.DataFrame
    ):
        super().__init__(embedding_service, indices, dataframe)
        
        # Criar mapeamento de √≠ndices por UF para busca r√°pida
        print("üó∫Ô∏è  Criando mapeamento de √≠ndices por UF...")
        self.uf_to_indices = {}
        for uf in self.dataframe['uf'].unique():
            uf_mask = self.dataframe['uf'] == uf
            self.uf_to_indices[uf] = np.where(uf_mask)[0]
        
        total_ufs = len(self.uf_to_indices)
        print(f"‚úÖ Mapeamento criado: {total_ufs} UFs indexadas")
    
    def _calculate_field_similarity(
        self,
        field: str,
        query_embedding: np.ndarray,
        top_k: int = 100
    ) -> tuple:
        """Busca vetorial com convers√£o correta de dist√¢ncia para similaridade"""
        index = self.indices[field]
        query_embedding = query_embedding.reshape(1, -1).astype(np.float32)
        distances, indices = index.search(query_embedding, top_k)
        
        # Converter dist√¢ncias L2¬≤ para similaridade cosseno
        # Para vetores normalizados: ||a-b||¬≤ = 2(1 - cos(a,b))
        # Portanto: cos(a,b) = 1 - (||a-b||¬≤ / 2)
        similarities = np.clip(1.0 - (distances[0] / 2.0), 0.0, 1.0)
        
        # Considerar dist√¢ncias muito pequenas como match perfeito
        epsilon = 1e-6
        similarities[distances[0] < epsilon] = 1.0
        
        return similarities, indices[0]
    
    def search(
        self,
        query: Dict[str, str],
        top_k: int = 5,
        search_k: int = 100
    ) -> str:
        """
        Busca otimizada com filtro de UF aplicado ANTES da busca vetorial.
        
        Estrat√©gia:
        1. Se UF fornecida: busca apenas nos √≠ndices daquele estado
        2. Sem UF: busca global (comportamento original)
        """
        weights = self._get_dynamic_weights(query)
        query_embeddings = self.embedding_service.embed_address_fields(query)
        
        # Determinar o conjunto de √≠ndices v√°lidos (filtro de UF)
        query_uf = query.get('uf')
        if query_uf and query_uf in self.uf_to_indices:
            valid_indices_set = set(self.uf_to_indices[query_uf])
            print(f"üîç Filtrando por UF={query_uf}: {len(valid_indices_set):,} registros")
        else:
            valid_indices_set = None  # Busca global
        
        candidate_scores = {}
        field_scores_map = {}
        
        # Busca vetorial por campo
        for field in ['logradouro', 'bairro', 'cidade']:
            if not query.get(field):
                continue
            
            query_emb = query_embeddings[field]
            
            # Buscar mais candidatos para garantir que encontramos matches do UF correto
            search_k_adjusted = search_k * 10 if valid_indices_set else search_k
            similarities, indices = self._calculate_field_similarity(
                field, query_emb, search_k_adjusted
            )
            weight = weights.get(field, 0.0)
            
            # Filtrar e pontuar candidatos
            for idx, sim in zip(indices, similarities):
                # Aplicar filtro de UF
                if valid_indices_set is not None and idx not in valid_indices_set:
                    continue
                
                # Acumular scores
                if idx not in candidate_scores:
                    candidate_scores[idx] = 0.0
                    field_scores_map[idx] = {}
                
                candidate_scores[idx] += weight * sim
                field_scores_map[idx][field] = float(sim)
        
        # CEP matching
        if query.get('cep'):
            cep_weight = weights.get('cep', 0.0)
            for idx in candidate_scores.keys():
                db_cep = self.dataframe.iloc[idx]['cep']
                cep_score = self._calculate_cep_match(query.get('cep'), db_cep)
                candidate_scores[idx] += cep_weight * cep_score
                field_scores_map[idx]['cep'] = cep_score
        
        # Ordenar e retornar top_k
        sorted_candidates = sorted(
            candidate_scores.items(),
            key=lambda x: x[1],
            reverse=True
        )[:top_k]
        
        # Montar resposta
        results = []
        for idx, score in sorted_candidates:
            row = self.dataframe.iloc[idx]
            
            if score >= self.confidence_threshold:
                confidence = "high"
            elif score >= 0.6:
                confidence = "medium"
            else:
                confidence = "low"
            
            result = {
                "address": {
                    "logradouro": row['logradouro'],
                    "bairro": row['bairro'],
                    "cidade": row['cidade'],
                    "uf": row['uf'],
                    "cep": row['cep']
                },
                "score": float(score),
                "confidence": confidence,
                "field_scores": field_scores_map.get(idx, {})
            }
            results.append(result)
        
        response = {
            "results": results,
            "query": query,
            "total_found": len(results),
            "weights_used": weights
        }
        
        return json.dumps(response, ensure_ascii=False, indent=2)

## 4. Carregar DNE Real

In [None]:
# Carregar DNE - apenas colunas necess√°rias
dne_path = Path('../data/dne.parquet')
print(f"üìÇ Carregando DNE de: {dne_path}")

# Selecionar apenas as colunas que precisamos (mais r√°pido e menos mem√≥ria)
df_dne = pd.read_parquet(
    dne_path,
    columns=['logradouro_completo', 'bairro_completo', 'cidade_completo', 'uf', 'cep']
)

# Renomear colunas para formato esperado
df_dne = df_dne.rename(columns={
    'logradouro_completo': 'logradouro',
    'bairro_completo': 'bairro',
    'cidade_completo': 'cidade'
})

print(f"\n‚úÖ Dataset carregado: {len(df_dne):,} registros")
print(f"üìã Colunas: {list(df_dne.columns)}")
print(f"\nüìä Distribui√ß√£o por UF:")
print(df_dne['uf'].value_counts().head(10))

## 5. Construir √çndices (EXECUTAR UMA VEZ) - ~5-10min na T4

In [None]:
# Inicializar servi√ßo de embeddings com FP16 (T4 optimization)
embedding_service = EmbeddingServiceGPU(
    model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
    use_fp16=True  # 2x speedup na T4
)

In [None]:
# Construir √≠ndices HNSW
# use_gpu_index=False: √≠ndice fica na CPU (economiza VRAM para embeddings)
# use_gpu_index=True: √≠ndice na GPU (busca 5-10x mais r√°pida, mas consome VRAM)
index_builder = IndexBuilderGPU(embedding_service, use_gpu_index=False)

# Par√¢metros balanceados para 1.5M registros:
# M=32: ~99.5% recall
# efSearch=32: balanceado entre velocidade e precis√£o
indices = index_builder.build_indices(
    df_dne,
    use_hnsw=True,
    M=32,
    efSearch=32
)

In [None]:
# SALVAR √≠ndices para n√£o precisar reconstruir
index_builder.save_indices('../data/indices_gpu_t4')

## 6. Carregar √çndices (R√ÅPIDO - use sempre) - ~5s

In [None]:
# Carregar modelo
embedding_service = EmbeddingServiceGPU(
    model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
    use_fp16=True
)

# Carregar √≠ndices salvos
index_builder = IndexBuilderGPU(embedding_service, use_gpu_index=False)
indices, df_dne = index_builder.load_indices('../data/indices_gpu_t4')

# Inicializar motor de busca OTIMIZADO (com filtro de UF inteligente)
search_engine = SearchEngineOptimized(embedding_service, indices, df_dne)
print(f"üöÄ Sistema pronto! ({len(df_dne):,} endere√ßos indexados)")

## 6.1. Teste R√°pido - Compara√ß√£o Antes/Depois

In [None]:
# Testar com o endere√ßo que estava retornando apenas 70%
query_test = {
    "logradouro": "avenida rio branco",
    "bairro": "cidade alta",
    "cidade": "natal",
    "uf": "RN",
    "cep": "59025000"
}

print("üéØ Teste com SearchEngineOptimized")
print("="*60)
print(f"Query: {query_test}\n")

start = time.time()
result_json = search_engine.search(query_test, top_k=3, search_k=100)
elapsed = time.time() - start
result = json.loads(result_json)

print(f"\n‚ö° Busca conclu√≠da em: {elapsed*1000:.1f}ms\n")
print("‚úÖ Top 3 Resultados:\n")

for i, res in enumerate(result['results'], 1):
    addr = res['address']
    print(f"{i}. Score: {res['score']:.4f} ({res['score']*100:.2f}%) - Confidence: {res['confidence']}")
    print(f"   {addr['logradouro']}")
    print(f"   {addr['bairro']} - {addr['cidade']}/{addr['uf']}")
    print(f"   CEP: {addr['cep']}")
    print(f"   Field scores: ", end="")
    for field, score in res['field_scores'].items():
        print(f"{field}={score:.3f} ", end="")
    print("\n")

# Verifica√ß√£o
top_score = result['results'][0]['score']
if top_score >= 0.98:
    print(f"üéâ SUCESSO! Score corrigido: {top_score:.4f} (‚â•98%)")
    print(f"‚úÖ Problema de candidatos diferentes RESOLVIDO!")
else:
    print(f"‚ö†Ô∏è  Score obtido: {top_score:.4f}")
    print(f"   (Esperado ‚â•0.98 para match perfeito)")

## 7. Teste de Busca

In [None]:
# Exemplo de busca
query = {
    'logradouro': 'Rua das Flores',
    'bairro': 'Centro',
    'cidade': 'S√£o Paulo',
    'uf': 'SP',
    'cep': '01000-000'
}

print("‚è±Ô∏è  Testando performance da busca...\n")

# Medir tempo
start = time.time()
result = search_engine.search(query, top_k=5)
elapsed = time.time() - start

print(f"‚ö° Busca conclu√≠da em: {elapsed*1000:.1f}ms")
print(f"\nResultados:")
print(result)

## 7.1. Teste com Endere√ßo Real (Match Perfeito)

In [None]:
# Testar com o endere√ßo exato do exemplo (Natal/RN)
query_test = {
    "logradouro": "avenida rio branco",
    "bairro": "cidade alta",
    "cidade": "natal",
    "uf": "RN",
    "cep": "59025000"
}

print("üéØ Testando match perfeito com endere√ßo real da base...\n")
print("üìç Query:")
print(f"   {query_test['logradouro']}")
print(f"   {query_test['bairro']} - {query_test['cidade']}/{query_test['uf']}")
print(f"   CEP: {query_test['cep']}\n")

# Buscar
start = time.time()
result_json = search_engine.search(query_test, top_k=3)
elapsed = time.time() - start
result = json.loads(result_json)

# Mostrar resultado
print(f"‚ö° Busca conclu√≠da em: {elapsed*1000:.1f}ms\n")
print("‚úÖ Top 3 Resultados:\n")

for i, res in enumerate(result['results'], 1):
    addr = res['address']
    print(f"{i}. Score: {res['score']:.4f} ({res['score']*100:.2f}%) - Confidence: {res['confidence']}")
    print(f"   {addr['logradouro']}")
    print(f"   {addr['bairro']} - {addr['cidade']}/{addr['uf']}")
    print(f"   CEP: {addr['cep']}")
    print(f"   Field scores: ", end="")
    for field, score in res['field_scores'].items():
        print(f"{field}={score:.3f} ", end="")
    print("\n")

# Verifica√ß√£o
top_score = result['results'][0]['score']
if top_score >= 0.98:
    print(f"üéâ SUCESSO! Score correto: {top_score:.4f} (‚â•98%)")
else:
    print(f"‚ö†Ô∏è  Score esperado ‚â•0.98, obtido: {top_score:.4f}")
    print(f"   Pesos usados: {result['weights_used']}")

## 7.2. Diagn√≥stico: Por que n√£o bate 100%?

In [None]:
# Diagn√≥stico detalhado do problema de score
print("üîç DIAGN√ìSTICO: Por que o score n√£o chega a 100%?\n")
print("="*60)

# 1. Verificar se o endere√ßo exato existe na base
query_diagnostic = {
    "logradouro": "avenida rio branco",
    "bairro": "cidade alta",
    "cidade": "natal",
    "uf": "RN",
    "cep": "59025000"
}

# Procurar correspond√™ncia EXATA no dataframe
print("\n1Ô∏è‚É£ Verificando se endere√ßo EXATO existe na base:")
print("-"*60)

# Normalizar os termos de busca
from unidecode import unidecode

def normalize_for_search(text):
    if pd.isna(text):
        return ""
    return unidecode(str(text).lower().strip())

# Filtrar por UF primeiro
df_rn = df_dne[df_dne['uf'] == 'RN'].copy()
print(f"   Total de endere√ßos no RN: {len(df_rn):,}")

# Buscar por CEP
cep_matches = df_rn[df_rn['cep'] == query_diagnostic['cep']]
print(f"\n   Endere√ßos com CEP {query_diagnostic['cep']}: {len(cep_matches)}")

if len(cep_matches) > 0:
    print("\n   Primeiros 3 registros com este CEP:")
    for idx, row in cep_matches.head(3).iterrows():
        print(f"\n   [{idx}]")
        print(f"      Logradouro: {row['logradouro']}")
        print(f"      Bairro: {row['bairro']}")
        print(f"      Cidade: {row['cidade']}")
        print(f"      CEP: {row['cep']}")

# Buscar match exato nos textos normalizados
print("\n2Ô∏è‚É£ Verificando normaliza√ß√£o dos campos:")
print("-"*60)

query_norm = {
    'logradouro': normalize_for_search(query_diagnostic['logradouro']),
    'bairro': normalize_for_search(query_diagnostic['bairro']),
    'cidade': normalize_for_search(query_diagnostic['cidade'])
}

print(f"   Query normalizada:")
print(f"      Logradouro: '{query_norm['logradouro']}'")
print(f"      Bairro: '{query_norm['bairro']}'")
print(f"      Cidade: '{query_norm['cidade']}'")

# Verificar se existe match exato
if len(cep_matches) > 0:
    first_match = cep_matches.iloc[0]
    db_norm = {
        'logradouro': normalize_for_search(first_match['logradouro']),
        'bairro': normalize_for_search(first_match['bairro']),
        'cidade': normalize_for_search(first_match['cidade'])
    }
    
    print(f"\n   Primeiro registro da base normalizado:")
    print(f"      Logradouro: '{db_norm['logradouro']}'")
    print(f"      Bairro: '{db_norm['bairro']}'")
    print(f"      Cidade: '{db_norm['cidade']}'")
    
    print(f"\n   Compara√ß√£o:")
    for field in ['logradouro', 'bairro', 'cidade']:
        match = "‚úÖ MATCH" if query_norm[field] == db_norm[field] else f"‚ùå DIFERENTE"
        print(f"      {field}: {match}")

# 3. Testar busca campo por campo
print("\n3Ô∏è‚É£ Testando similaridade por campo individual:")
print("-"*60)

for field in ['logradouro', 'bairro', 'cidade']:
    query_text = query_diagnostic[field]
    query_emb = search_engine.embedding_service.embed_text(query_text)
    
    # Buscar top 3
    similarities, indices = search_engine._calculate_field_similarity(field, query_emb, top_k=3)
    
    print(f"\n   Campo: {field}")
    print(f"   Query: '{query_text}'")
    print(f"   Top 3 resultados:")
    
    for i, (sim, idx) in enumerate(zip(similarities, indices), 1):
        db_value = df_dne.iloc[idx][field]
        db_uf = df_dne.iloc[idx]['uf']
        print(f"      {i}. [{idx}] Score: {sim:.4f} | UF: {db_uf} | Valor: '{db_value}'")

print("\n" + "="*60)
print("üí° CONCLUS√ÉO:")
print("="*60)
print("Se os campos est√£o batendo mas o score final √© baixo,")
print("o problema √© que a busca vetorial est√° retornando")
print("CANDIDATOS DIFERENTES para cada campo (logradouro, bairro, cidade).")
print("\nSolu√ß√£o: os candidatos precisam se sobrepor (mesmo √≠ndice do dataframe)")
print("para que todos os scores sejam somados no mesmo resultado final.")

In [None]:
print("üî¨ INVESTIGA√á√ÉO PROFUNDA: An√°lise dos Candidatos Retornados")
print("="*80)

query_analysis = {
    "logradouro": "avenida rio branco",
    "bairro": "cidade alta",
    "cidade": "natal",
    "uf": "RN",
    "cep": "59025000"
}

# 1. Testar cada campo individualmente e coletar os √≠ndices retornados
print("\n1Ô∏è‚É£ CANDIDATOS RETORNADOS POR CAMPO (Top 10)")
print("-"*80)

field_candidates = {}
weights = search_engine._get_dynamic_weights(query_analysis)

for field in ['logradouro', 'bairro', 'cidade', 'cep']:
    print(f"\nüìå Campo: {field.upper()} (peso: {weights.get(field, 0.0):.2f})")
    print("-"*80)
    
    if field == 'cep':
        # CEP √© matching exato, n√£o vetorial
        cep_query = query_analysis['cep']
        df_filtered = df_dne[df_dne['uf'] == 'RN']
        cep_matches = df_filtered[df_filtered['cep'] == cep_query]
        
        print(f"   Matches exatos de CEP: {len(cep_matches)}")
        
        if len(cep_matches) > 0:
            field_candidates['cep'] = cep_matches.index.tolist()[:10]
            print(f"\n   Top 10 √≠ndices com CEP {cep_query}:")
            for i, idx in enumerate(field_candidates['cep'][:10], 1):
                row = df_dne.iloc[idx]
                print(f"   {i}. [idx={idx:6d}] {row['logradouro'][:50]:50s} - {row['bairro'][:20]:20s}")
        else:
            field_candidates['cep'] = []
            print(f"   ‚ö†Ô∏è Nenhum match encontrado!")
        
    else:
        # Busca vetorial
        query_text = query_analysis[field]
        query_emb = search_engine.embedding_service.embed_text(query_text)
        
        # Buscar top 100 candidatos (mesmo search_k da busca real)
        similarities, indices = search_engine._calculate_field_similarity(field, query_emb, top_k=100)
        
        # Filtrar por UF
        valid_indices = []
        valid_sims = []
        for sim, idx in zip(similarities, indices):
            if df_dne.iloc[idx]['uf'] == 'RN':
                valid_indices.append(idx)
                valid_sims.append(sim)
                if len(valid_indices) >= 10:
                    break
        
        field_candidates[field] = valid_indices
        
        print(f"   Query: '{query_text}'")
        print(f"   Top 10 candidatos no RN:")
        for i, (idx, sim) in enumerate(zip(valid_indices[:10], valid_sims[:10]), 1):
            row = df_dne.iloc[idx]
            print(f"   {i}. [idx={idx:6d}] Score: {sim:.4f} | '{row[field]}'")

# 2. Analisar sobreposi√ß√£o entre os conjuntos
print("\n\n2Ô∏è‚É£ AN√ÅLISE DE SOBREPOSI√á√ÉO DE CANDIDATOS")
print("="*80)

# Converter para sets
sets = {field: set(indices) for field, indices in field_candidates.items()}

print(f"\nTotal de candidatos √∫nicos por campo:")
for field, indices_set in sets.items():
    print(f"   {field:12s}: {len(indices_set):3d} candidatos")

# Interse√ß√£o entre todos os campos
all_fields = ['logradouro', 'bairro', 'cidade', 'cep']
intersection = sets[all_fields[0]]
for field in all_fields[1:]:
    intersection = intersection.intersection(sets[field])

print(f"\nüìä Candidatos que aparecem em TODOS os campos: {len(intersection)}")

if len(intersection) > 0:
    print(f"\n‚úÖ √çndices na interse√ß√£o de todos os campos:")
    for idx in sorted(list(intersection))[:5]:
        row = df_dne.iloc[idx]
        print(f"\n   [idx={idx}]")
        print(f"      Logradouro: {row['logradouro']}")
        print(f"      Bairro: {row['bairro']}")
        print(f"      Cidade: {row['cidade']}")
        print(f"      CEP: {row['cep']}")
else:
    print(f"\n‚ùå PROBLEMA IDENTIFICADO: Nenhum candidato aparece em todos os campos!")
    print(f"\n   Analisando interse√ß√µes parciais:")
    
    # Testar combina√ß√µes 3 a 3
    from itertools import combinations
    
    for combo in combinations(all_fields, 3):
        combo_set = sets[combo[0]]
        for field in combo[1:]:
            combo_set = combo_set.intersection(sets[field])
        
        if len(combo_set) > 0:
            print(f"\n   ‚úì {' + '.join(combo):40s}: {len(combo_set):2d} candidatos em comum")
            
            # Mostrar qual campo est√° faltando
            missing_field = [f for f in all_fields if f not in combo][0]
            print(f"     (falta: {missing_field})")
            
            # Mostrar primeiro candidato dessa interse√ß√£o
            first_idx = sorted(list(combo_set))[0]
            row = df_dne.iloc[first_idx]
            print(f"     Exemplo [idx={first_idx}]: {row['logradouro'][:40]} - {row['bairro'][:20]}")

# 3. Simular o algoritmo de busca manualmente
print("\n\n3Ô∏è‚É£ SIMULA√á√ÉO DO ALGORITMO DE BUSCA")
print("="*80)

# Coletar top 5 candidatos por campo
top5_per_field = {}
for field in ['logradouro', 'bairro', 'cidade']:
    query_text = query_analysis[field]
    query_emb = search_engine.embedding_service.embed_text(query_text)
    similarities, indices = search_engine._calculate_field_similarity(field, query_emb, top_k=100)
    
    # Filtrar RN e pegar top 5
    top5 = []
    for sim, idx in zip(similarities, indices):
        if df_dne.iloc[idx]['uf'] == 'RN':
            top5.append((idx, sim))
            if len(top5) >= 5:
                break
    
    top5_per_field[field] = top5

# Simular acumula√ß√£o de scores
print("\nSimulando acumula√ß√£o de scores (top 5 de cada campo):")
print("-"*80)

candidate_scores = {}
field_scores_map = {}

for field in ['logradouro', 'bairro', 'cidade']:
    weight = weights[field]
    print(f"\n{field} (peso={weight:.2f}):")
    
    for idx, sim in top5_per_field[field]:
        if idx not in candidate_scores:
            candidate_scores[idx] = 0.0
            field_scores_map[idx] = {}
        
        candidate_scores[idx] += weight * sim
        field_scores_map[idx][field] = sim
        
        print(f"   [idx={idx}] sim={sim:.4f} ‚Üí score parcial={candidate_scores[idx]:.4f}")

# Adicionar CEP
print(f"\nCEP (peso={weights['cep']:.2f}):")
for idx in candidate_scores.keys():
    db_cep = df_dne.iloc[idx]['cep']
    cep_score = search_engine._calculate_cep_match(query_analysis['cep'], db_cep)
    candidate_scores[idx] += weights['cep'] * cep_score
    field_scores_map[idx]['cep'] = cep_score
    
    if cep_score > 0:
        print(f"   [idx={idx}] cep_match={cep_score:.4f} ‚Üí score final={candidate_scores[idx]:.4f}")

# Ordenar e mostrar top 5
print("\n\nüèÜ RANKING FINAL:")
print("="*80)
sorted_candidates = sorted(candidate_scores.items(), key=lambda x: x[1], reverse=True)[:5]

for rank, (idx, score) in enumerate(sorted_candidates, 1):
    row = df_dne.iloc[idx]
    scores = field_scores_map[idx]
    
    print(f"\n{rank}. Score: {score:.4f} ({score*100:.2f}%) [idx={idx}]")
    print(f"   {row['logradouro']}")
    print(f"   {row['bairro']} - {row['cidade']}/{row['uf']}")
    print(f"   CEP: {row['cep']}")
    print(f"   Scores: ", end="")
    for field in ['logradouro', 'bairro', 'cidade', 'cep']:
        if field in scores:
            print(f"{field}={scores[field]:.3f} ", end="")
    print()

print("\n" + "="*80)
print("üí° CONCLUS√ÉO DA INVESTIGA√á√ÉO:")
print("="*80)

top_score = sorted_candidates[0][1]
top_idx = sorted_candidates[0][0]
top_field_scores = field_scores_map[top_idx]

if top_score >= 0.98:
    print("‚úÖ Score ‚â•98%: Sistema funcionando perfeitamente!")
elif top_score >= 0.90:
    print("‚ö†Ô∏è  Score entre 90-98%: Candidatos n√£o se sobrep√µem completamente")
    print("\nAn√°lise:")
    
    # Verificar quais campos est√£o perfeitos
    perfect_fields = [f for f, s in top_field_scores.items() if s >= 0.99]
    imperfect_fields = [f for f, s in top_field_scores.items() if s < 0.99]
    
    print(f"   Campos com match perfeito: {', '.join(perfect_fields) if perfect_fields else 'nenhum'}")
    print(f"   Campos com match imperfeito: {', '.join(imperfect_fields) if imperfect_fields else 'nenhum'}")
    
    # Calcular qual seria o score m√°ximo poss√≠vel
    max_possible = sum(weights[f] for f in perfect_fields if f in weights)
    print(f"\n   Score m√°ximo poss√≠vel com campos perfeitos: {max_possible:.4f} ({max_possible*100:.2f}%)")
    print(f"   Score obtido: {top_score:.4f} ({top_score*100:.2f}%)")
    print(f"   Diferen√ßa: {(max_possible - top_score)*100:.2f}%")
    
    if len(intersection) == 0:
        print(f"\n   üîç CAUSA RAIZ: Os candidatos de cada campo s√£o DIFERENTES")
        print(f"      Nenhum √≠ndice do DataFrame aparece em todos os campos simultaneamente.")
        print(f"      Por isso, mesmo com todos os campos tendo score 1.0 individualmente,")
        print(f"      esses scores perfeitos est√£o em registros DIFERENTES.")
else:
    print("‚ùå Score <90%: Problema de qualidade na busca vetorial")

print("="*80)

## 7.3. Investiga√ß√£o Profunda: Analisando os Candidatos Retornados

## 7.4. Estrat√©gia MELHOR: IDSelector do FAISS para Filtragem Precisa

In [None]:
"""
üéØ ESTRAT√âGIA MELHORADA: Filtragem Precisa por UF

Problema atual:
- search_k * 10 = impreciso e lento
- Busca global depois filtra = desperd√≠cio

Solu√ß√µes poss√≠veis:

1. **IDSelector do FAISS** (RECOMENDADO) ‚úÖ
   - Filtra DURANTE a busca vetorial
   - Mant√©m search_k original (preciso)
   - Suportado por IndexHNSWFlat
   - Zero overhead de mem√≥ria

2. **√çndices separados por UF**
   - 27 √≠ndices (um por UF)
   - Busca direto no √≠ndice correto
   - Melhor recall, mas 27x mais mem√≥ria

3. **IndexIDMap + IDSelector**
   - Wrapper que adiciona IDs customizados
   - Permite filtrar por qualquer crit√©rio
   - Overhead m√≠nimo

Vamos implementar a Op√ß√£o 1 (IDSelector):
"""

class SearchEngineWithIDSelector(SearchEngine):
    """
    Motor de busca com filtragem PRECISA usando IDSelector do FAISS.
    
    IDSelector filtra os candidatos DURANTE a busca vetorial, n√£o depois.
    Isso mant√©m o search_k original e garante precis√£o.
    """
    
    def __init__(
        self,
        embedding_service: EmbeddingServiceGPU,
        indices: Dict[str, faiss.Index],
        dataframe: pd.DataFrame
    ):
        super().__init__(embedding_service, indices, dataframe)
        
        # Criar mapeamento de √≠ndices por UF
        print("üó∫Ô∏è  Criando mapeamento de √≠ndices por UF para IDSelector...")
        self.uf_to_indices = {}
        for uf in self.dataframe['uf'].unique():
            uf_mask = self.dataframe['uf'] == uf
            # IDSelector precisa de numpy array de int64
            self.uf_to_indices[uf] = np.where(uf_mask)[0].astype(np.int64)
        
        total_ufs = len(self.uf_to_indices)
        print(f"‚úÖ Mapeamento criado: {total_ufs} UFs indexadas")
    
    def _calculate_field_similarity(
        self,
        field: str,
        query_embedding: np.ndarray,
        top_k: int = 100
    ) -> tuple:
        """Busca vetorial com convers√£o correta de dist√¢ncia para similaridade"""
        index = self.indices[field]
        query_embedding = query_embedding.reshape(1, -1).astype(np.float32)
        distances, indices = index.search(query_embedding, top_k)
        
        # Converter dist√¢ncias L2¬≤ para similaridade cosseno
        similarities = np.clip(1.0 - (distances[0] / 2.0), 0.0, 1.0)
        
        # Considerar dist√¢ncias muito pequenas como match perfeito
        epsilon = 1e-6
        similarities[distances[0] < epsilon] = 1.0
        
        return similarities, indices[0]
    
    def _calculate_field_similarity_with_filter(
        self,
        field: str,
        query_embedding: np.ndarray,
        uf: str,
        top_k: int = 100
    ) -> tuple:
        """
        Busca vetorial com filtragem por UF usando IDSelector do FAISS.
        
        IDSelector filtra DURANTE a busca, mantendo a precis√£o do HNSW.
        """
        index = self.indices[field]
        query_embedding = query_embedding.reshape(1, -1).astype(np.float32)
        
        # Criar IDSelector para o UF
        valid_ids = self.uf_to_indices[uf]
        
        # IDSelectorBatch: aceita um array de IDs v√°lidos
        selector = faiss.IDSelectorBatch(valid_ids)
        
        # SearchParameters com IDSelector
        params = faiss.SearchParametersHNSW()
        params.sel = selector
        
        # Busca com filtragem
        distances, indices = index.search(query_embedding, top_k, params=params)
        
        # Converter dist√¢ncias para similaridades
        similarities = np.clip(1.0 - (distances[0] / 2.0), 0.0, 1.0)
        epsilon = 1e-6
        similarities[distances[0] < epsilon] = 1.0
        
        return similarities, indices[0]
    
    def search(
        self,
        query: Dict[str, str],
        top_k: int = 5,
        search_k: int = 100
    ) -> str:
        """
        Busca com filtragem PRECISA por UF usando IDSelector.
        
        Vantagens:
        - Filtra DURANTE a busca vetorial (n√£o depois)
        - Mant√©m search_k original (sem multiplicar por 10)
        - Recall perfeito dentro do UF
        - Performance similar √† busca global
        """
        weights = self._get_dynamic_weights(query)
        query_embeddings = self.embedding_service.embed_address_fields(query)
        
        query_uf = query.get('uf')
        use_filter = query_uf and query_uf in self.uf_to_indices
        
        if use_filter:
            print(f"üéØ Filtrando por UF={query_uf} com IDSelector (preciso)")
        
        candidate_scores = {}
        field_scores_map = {}
        
        # Busca vetorial por campo
        for field in ['logradouro', 'bairro', 'cidade']:
            if not query.get(field):
                continue
            
            query_emb = query_embeddings[field]
            
            # Usar IDSelector se UF fornecido
            if use_filter:
                similarities, indices = self._calculate_field_similarity_with_filter(
                    field, query_emb, query_uf, search_k
                )
            else:
                similarities, indices = self._calculate_field_similarity(
                    field, query_emb, search_k
                )
            
            weight = weights.get(field, 0.0)
            
            # Acumular scores (sem filtro adicional - j√° filtrado pelo IDSelector)
            for idx, sim in zip(indices, similarities):
                if idx == -1:  # FAISS retorna -1 para slots vazios
                    continue
                
                if idx not in candidate_scores:
                    candidate_scores[idx] = 0.0
                    field_scores_map[idx] = {}
                
                candidate_scores[idx] += weight * sim
                field_scores_map[idx][field] = float(sim)
        
        # CEP matching
        if query.get('cep'):
            cep_weight = weights.get('cep', 0.0)
            for idx in candidate_scores.keys():
                db_cep = self.dataframe.iloc[idx]['cep']
                cep_score = self._calculate_cep_match(query.get('cep'), db_cep)
                candidate_scores[idx] += cep_weight * cep_score
                field_scores_map[idx]['cep'] = cep_score
        
        # Ordenar e retornar top_k
        sorted_candidates = sorted(
            candidate_scores.items(),
            key=lambda x: x[1],
            reverse=True
        )[:top_k]
        
        # Montar resposta
        results = []
        for idx, score in sorted_candidates:
            row = self.dataframe.iloc[idx]
            
            if score >= self.confidence_threshold:
                confidence = "high"
            elif score >= 0.6:
                confidence = "medium"
            else:
                confidence = "low"
            
            result = {
                "address": {
                    "logradouro": row['logradouro'],
                    "bairro": row['bairro'],
                    "cidade": row['cidade'],
                    "uf": row['uf'],
                    "cep": row['cep']
                },
                "score": float(score),
                "confidence": confidence,
                "field_scores": field_scores_map.get(idx, {})
            }
            results.append(result)
        
        response = {
            "results": results,
            "query": query,
            "total_found": len(results),
            "weights_used": weights
        }
        
        return json.dumps(response, ensure_ascii=False, indent=2)

print("‚úÖ SearchEngineWithIDSelector criado!")
print("\nüìä Compara√ß√£o de estrat√©gias:")
print("-"*60)
print("SearchEngine (original):")
print("  - Busca global, filtra depois")
print("  - R√°pido mas pode perder candidatos")
print("")
print("SearchEngineOptimized (atual):")
print("  - search_k * 10 para compensar filtro")
print("  - Funciona mas impreciso e lento")
print("")
print("SearchEngineWithIDSelector (NOVO): ‚úÖ")
print("  - IDSelector filtra DURANTE busca")
print("  - Mant√©m search_k original")
print("  - Precis√£o perfeita + performance")
print("-"*60)

### 7.4.1. Teste: SearchEngineWithIDSelector

In [None]:
# Criar novo search engine com IDSelector
search_engine_idselector = SearchEngineWithIDSelector(embedding_service, indices, df_dne)

# Testar com o mesmo endere√ßo problem√°tico
query_test = {
    "logradouro": "avenida rio branco",
    "bairro": "cidade alta",
    "cidade": "natal",
    "uf": "RN",
    "cep": "59025000"
}

print("\nüéØ Teste com SearchEngineWithIDSelector (IDSelector do FAISS)")
print("="*70)
print(f"Query: {query_test}\n")

start = time.time()
result_json = search_engine_idselector.search(query_test, top_k=3, search_k=100)
elapsed = time.time() - start
result = json.loads(result_json)

print(f"\n‚ö° Busca conclu√≠da em: {elapsed*1000:.1f}ms\n")
print("‚úÖ Top 3 Resultados:\n")

for i, res in enumerate(result['results'], 1):
    addr = res['address']
    print(f"{i}. Score: {res['score']:.4f} ({res['score']*100:.2f}%) - {res['confidence']}")
    print(f"   {addr['logradouro']}")
    print(f"   {addr['bairro']} - {addr['cidade']}/{addr['uf']}")
    print(f"   CEP: {addr['cep']}")
    print(f"   Field scores: ", end="")
    for field, score in res['field_scores'].items():
        print(f"{field}={score:.3f} ", end="")
    print("\n")

# An√°lise
top_score = result['results'][0]['score']
print("="*70)
print("üìä AN√ÅLISE DO RESULTADO:")
print("="*70)

if top_score >= 0.98:
    print(f"üéâ EXCELENTE! Score: {top_score:.4f} (‚â•98%)")
    print(f"‚úÖ IDSelector funcionou perfeitamente!")
    print(f"‚úÖ Filtragem precisa durante busca vetorial")
elif top_score >= 0.90:
    print(f"‚úÖ BOM! Score: {top_score:.4f} (90-98%)")
    print(f"‚ö†Ô∏è  Ainda h√° pequena diferen√ßa")
    
    # Verificar quais campos contribu√≠ram
    top_fields = result['results'][0]['field_scores']
    print(f"\nContribui√ß√£o por campo:")
    weights = result['weights_used']
    for field in ['logradouro', 'bairro', 'cidade', 'cep']:
        if field in top_fields:
            field_score = top_fields[field]
            weight = weights.get(field, 0.0)
            contribution = field_score * weight
            print(f"  {field:12s}: {field_score:.3f} √ó {weight:.2f} = {contribution:.3f}")
        else:
            print(f"  {field:12s}: (n√£o encontrado)")
else:
    print(f"‚ùå Score baixo: {top_score:.4f}")
    print(f"   Problema persiste mesmo com IDSelector")

print("="*70)

### 7.4.2. An√°lise Detalhada: IDSelector vs Filtro Posterior

In [None]:
print("üî¨ AN√ÅLISE COMPARATIVA: IDSelector vs Filtro Posterior")
print("="*80)

query_comparison = {
    "logradouro": "avenida rio branco",
    "bairro": "cidade alta", 
    "cidade": "natal",
    "uf": "RN",
    "cep": "59025000"
}

# Testar campo por campo
for field in ['logradouro', 'bairro', 'cidade']:
    print(f"\nüìå Campo: {field.upper()}")
    print("-"*80)
    
    query_emb = search_engine_idselector.embedding_service.embed_text(query_comparison[field])
    
    # 1. Busca SEM filtro (global)
    print(f"\n1Ô∏è‚É£ Busca GLOBAL (sem filtro):")
    sims_global, idxs_global = search_engine_idselector._calculate_field_similarity(
        field, query_emb, top_k=10
    )
    
    rn_count = sum(1 for idx in idxs_global if df_dne.iloc[idx]['uf'] == 'RN')
    print(f"   Total retornados: 10")
    print(f"   Do RN: {rn_count}")
    print(f"   Top 3:")
    for i, (idx, sim) in enumerate(zip(idxs_global[:3], sims_global[:3]), 1):
        uf = df_dne.iloc[idx]['uf']
        value = df_dne.iloc[idx][field]
        print(f"      {i}. [idx={idx}] UF={uf} | sim={sim:.4f} | '{value[:40]}'")
    
    # 2. Busca COM IDSelector
    print(f"\n2Ô∏è‚É£ Busca COM IDSelector (filtro durante busca):")
    sims_filtered, idxs_filtered = search_engine_idselector._calculate_field_similarity_with_filter(
        field, query_emb, 'RN', top_k=10
    )
    
    # Remover √≠ndices -1 (slots vazios)
    valid_mask = idxs_filtered != -1
    idxs_filtered = idxs_filtered[valid_mask]
    sims_filtered = sims_filtered[valid_mask]
    
    print(f"   Total retornados: {len(idxs_filtered)}")
    print(f"   Todos do RN: ‚úÖ")
    print(f"   Top 3:")
    for i, (idx, sim) in enumerate(zip(idxs_filtered[:3], sims_filtered[:3]), 1):
        uf = df_dne.iloc[idx]['uf']
        value = df_dne.iloc[idx][field]
        print(f"      {i}. [idx={idx}] UF={uf} | sim={sim:.4f} | '{value[:40]}'")
    
    # 3. Verificar se o √≠ndice 955197 (do CEP correto) aparece
    target_idx = 955197
    print(f"\n3Ô∏è‚É£ Verifica√ß√£o: idx={target_idx} (CEP correto) aparece?")
    
    if target_idx in idxs_global:
        pos = np.where(idxs_global == target_idx)[0][0]
        print(f"   Busca global: SIM (posi√ß√£o {pos+1}, sim={sims_global[pos]:.4f})")
    else:
        print(f"   Busca global: N√ÉO (fora do top 10)")
    
    if target_idx in idxs_filtered:
        pos = np.where(idxs_filtered == target_idx)[0][0]
        print(f"   Com IDSelector: SIM (posi√ß√£o {pos+1}, sim={sims_filtered[pos]:.4f})")
    else:
        print(f"   Com IDSelector: N√ÉO (fora do top 10)")

print("\n" + "="*80)
print("üí° CONCLUS√ÉO:")
print("="*80)
print("IDSelector garante que TODOS os resultados sejam do UF correto,")
print("aumentando a chance de encontrar o candidato certo (idx=955197)")
print("que tem CEP, logradouro corretos mas pode estar fora do top global.")
print("="*80)

## 8. Benchmark de Performance

In [None]:
# Testar m√∫ltiplas buscas
n_searches = 50
times = []

print(f"üî• Executando {n_searches} buscas para benchmark...\n")

for i in tqdm(range(n_searches), desc="Buscas"):
    sample = df_dne.sample(1).iloc[0]
    query = {
        'logradouro': sample['logradouro'],
        'bairro': sample['bairro'],
        'cidade': sample['cidade'],
        'uf': sample['uf']
    }
    
    start = time.time()
    result = search_engine.search(query, top_k=5)
    elapsed = time.time() - start
    times.append(elapsed)

times_ms = [t * 1000 for t in times]

print(f"\n{'='*60}")
print(f"üìä ESTAT√çSTICAS DE PERFORMANCE")
print(f"{'='*60}")
print(f"M√©dia:    {np.mean(times_ms):.1f}ms")
print(f"Mediana:  {np.median(times_ms):.1f}ms")
print(f"Min:      {np.min(times_ms):.1f}ms")
print(f"Max:      {np.max(times_ms):.1f}ms")
print(f"P95:      {np.percentile(times_ms, 95):.1f}ms")
print(f"P99:      {np.percentile(times_ms, 99):.1f}ms")
print(f"\n‚ö° Throughput: ~{1000/np.mean(times_ms):.0f} queries/segundo")
print(f"{'='*60}")

## üìù Notas de Otimiza√ß√£o para g4dn.2xlarge

### Performance esperada na T4:
| Opera√ß√£o | Tempo |
|----------|-------|
| Constru√ß√£o inicial (1.5M) | 5-10min |
| Carregamento √≠ndices | <10s |
| Busca (p50) | 30-50ms |
| Busca (p95) | 60-80ms |
| Throughput | ~500-1000 q/s |

### Ajustes finos:

**1. Modelo de embedding:**
```python
# R√ÅPIDO (atual)
"paraphrase-multilingual-MiniLM-L12-v2"  # 384 dims, batch 256

# MUITO R√ÅPIDO
"all-MiniLM-L6-v2"  # 384 dims, batch 256, ingl√™s mas OK

# PRECISO (mais lento)
"paraphrase-multilingual-mpnet-base-v2"  # 768 dims, batch 128
```

**2. Par√¢metros HNSW:**
```python
# Mais r√°pido (98% recall)
M=16, efSearch=16

# Balanceado (99.5% recall) ‚úÖ
M=32, efSearch=32

# Mais preciso (99.9% recall)
M=64, efSearch=64
```

**3. FAISS GPU (opcional):**
```bash
# Instalar faiss-gpu
pip uninstall faiss-cpu
pip install faiss-gpu
```
```python
# Usar √≠ndices na GPU (busca 5-10x mais r√°pida)
index_builder = IndexBuilderGPU(embedding_service, use_gpu_index=True)
```
‚ö†Ô∏è **Aten√ß√£o**: √çndices na GPU consomem VRAM (pode conflitar com embeddings)

### Custos AWS:
- **g4dn.2xlarge On-Demand**: ~$0.75/hora
- **g4dn.2xlarge Spot**: ~$0.25/hora (70% desconto)
- **Constru√ß√£o √∫nica**: $0.05 (5min spot)
- **Alternativa**: g4dn.xlarge ($0.53/h) se n√£o precisa de 32GB RAM

### Produ√ß√£o:
1. **Construir √≠ndices uma vez** (5-10min)
2. **Salvar em S3** ou volume persistente
3. **Carregar na inicializa√ß√£o** (<10s)
4. **API com FastAPI** + autoscaling
5. **Monitoramento**: CloudWatch + logs de lat√™ncia