# POC: Busca Vetorial para Enriquecimento de Endere√ßos DNE

Este notebook implementa e valida a busca vetorial multi-campo com pesos din√¢micos para resolver o problema de scores irreais quando campos est√£o vazios ou imprecisos.

## Objetivos
1. Construir √≠ndices FAISS por campo (logradouro, bairro, cidade)
2. Implementar busca com scoring din√¢mico
3. Validar precis√£o em cen√°rios com CEP errado, abrevia√ß√µes, typos e campos vazios
4. Comparar abordagem multi-campo vs monol√≠tica

In [5]:
import sys
sys.path.append('..')

import pandas as pd
import json
from pathlib import Path
from src.embedding_service import EmbeddingService
from src.index_builder import IndexBuilder
from src.search_engine import SearchEngine

## 1. Carregar Dados

In [6]:
# Carregar dataset DNE
data_path = Path('../data')
df_dne = pd.read_parquet(data_path / 'dne_sample.parquet')
df_queries = pd.read_parquet(data_path / 'test_queries.parquet')

print(f"Dataset DNE: {len(df_dne)} registros")
print(f"Queries de teste: {len(df_queries)} queries")
print(f"\nDistribui√ß√£o de queries por categoria:")
print(df_queries['category'].value_counts())

Dataset DNE: 10000 registros
Queries de teste: 150 queries

Distribui√ß√£o de queries por categoria:
category
abbreviation    60
cep_wrong       45
typo            30
empty_fields    15
Name: count, dtype: int64


## 2. Inicializar Servi√ßos e Construir √çndices

In [7]:
# Inicializa servi√ßo de embeddings com modelo neuralmind
embedding_service = EmbeddingService(model_name="neuralmind/bert-base-portuguese-cased")

No sentence-transformers model found with name neuralmind/bert-base-portuguese-cased. Creating a new one with mean pooling.


Carregando modelo de embeddings: neuralmind/bert-base-portuguese-cased


config.json:   0%|          | 0.00/647 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


pytorch_model.bin:   0%|          | 0.00/438M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/43.0 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

added_tokens.json:   0%|          | 0.00/2.00 [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Exception ignored in: <function tqdm.__del__ at 0x0000018236052340>
Traceback (most recent call last):
  File "c:\Users\rik_d\OneDrive\Documentos\Projetos\Backend\IA\genia\venv\Lib\site-packages\tqdm\std.py", line 1148, in __del__
    self.close()
  File "c:\Users\rik_d\OneDrive\Documentos\Projetos\Backend\IA\genia\venv\Lib\site-packages\tqdm\notebook.py", line 279, in close
    self.disp(bar_style='danger', check_delay=False)
    ^^^^^^^^^
AttributeError: 'tqdm' object has no attribute 'disp'


In [8]:
# Constr√≥i √≠ndices FAISS
index_builder = IndexBuilder(embedding_service)
indices = index_builder.build_indices(df_dne)

Construindo √≠ndices FAISS para 10000 endere√ßos


Batches:   0%|          | 0/313 [00:00<?, ?it/s]

Batches:   0%|          | 0/313 [00:00<?, ?it/s]

Batches:   0%|          | 0/313 [00:00<?, ?it/s]

In [9]:
# Salva √≠ndices para reutiliza√ß√£o
indices_path = data_path / 'indices'
index_builder.save_indices(str(indices_path))
print(f"\n√çndices salvos em: {indices_path}")


√çndices salvos em: ..\data\indices


## 3. Inicializar Motor de Busca

In [10]:
# Inicializa motor de busca
search_engine = SearchEngine(
    embedding_service=embedding_service,
    indices=indices,
    dataframe=df_dne
)

print("Motor de busca inicializado")
print(f"Threshold de confian√ßa alta: {search_engine.confidence_threshold}")

Motor de busca inicializado
Threshold de confian√ßa alta: 0.8


## 4. Testes Explorat√≥rios

In [11]:
# Teste 1: Query limpa (baseline)
sample = df_dne.iloc[100]
query = {
    'logradouro': sample['logradouro'],
    'bairro': sample['bairro'],
    'cidade': sample['cidade'],
    'uf': sample['uf'],
    'cep': sample['cep']
}

print("=== Teste 1: Query Limpa (Baseline) ===")
print(f"Query: {query}\n")
result = search_engine.search(query, top_k=3)
print(json.dumps(json.loads(result), indent=2, ensure_ascii=False))

=== Teste 1: Query Limpa (Baseline) ===
Query: {'logradouro': 'Estrada Paran√°', 'bairro': 'Vila Industrial', 'cidade': 'Itabuna', 'uf': 'BA', 'cep': '40224-644'}

{
  "results": [
    {
      "address": {
        "logradouro": "Estrada Paran√°",
        "bairro": "Vila Industrial",
        "cidade": "Itabuna",
        "uf": "BA",
        "cep": "40224-644"
      },
      "score": 1.0,
      "confidence": "high",
      "field_scores": {
        "logradouro": 1.0,
        "bairro": 1.0,
        "cidade": 1.0,
        "cep": 1.0
      }
    },
    {
      "address": {
        "logradouro": "Estrada Paran√°",
        "bairro": "Parque Industrial",
        "cidade": "Montes Claros",
        "uf": "MG",
        "cep": "30224-024"
      },
      "score": 0.4000000059604645,
      "confidence": "low",
      "field_scores": {
        "logradouro": 1.0,
        "cep": 0.0
      }
    },
    {
      "address": {
        "logradouro": "Estrada Paran√°",
        "bairro": "Parque Oeste",
        "

In [12]:
# Teste 2: CEP errado mas rua/bairro corretos
query_cep_wrong = query.copy()
query_cep_wrong['cep'] = '20000-000'  # CEP do RJ (se original n√£o for RJ)

print("\n=== Teste 2: CEP Errado ===")
print(f"Query: {query_cep_wrong}\n")
result = search_engine.search(query_cep_wrong, top_k=3)
print(json.dumps(json.loads(result), indent=2, ensure_ascii=False))


=== Teste 2: CEP Errado ===
Query: {'logradouro': 'Estrada Paran√°', 'bairro': 'Vila Industrial', 'cidade': 'Itabuna', 'uf': 'BA', 'cep': '20000-000'}

{
  "results": [
    {
      "address": {
        "logradouro": "Estrada Paran√°",
        "bairro": "Vila Industrial",
        "cidade": "Itabuna",
        "uf": "BA",
        "cep": "40224-644"
      },
      "score": 0.7000000476837158,
      "confidence": "medium",
      "field_scores": {
        "logradouro": 1.0,
        "bairro": 1.0,
        "cidade": 1.0,
        "cep": 0.0
      }
    },
    {
      "address": {
        "logradouro": "Estrada Paran√°",
        "bairro": "Parque Industrial",
        "cidade": "Montes Claros",
        "uf": "MG",
        "cep": "30224-024"
      },
      "score": 0.4000000059604645,
      "confidence": "low",
      "field_scores": {
        "logradouro": 1.0,
        "cep": 0.0
      }
    },
    {
      "address": {
        "logradouro": "Estrada Paran√°",
        "bairro": "Parque Oeste",
   

In [13]:
# Teste 3: Apenas bairro e cidade (campos vazios)
query_partial = {
    'logradouro': '',
    'bairro': sample['bairro'],
    'cidade': sample['cidade'],
    'uf': sample['uf'],
    'cep': ''
}

print("\n=== Teste 3: Campos Vazios (s√≥ bairro + cidade) ===")
print(f"Query: {query_partial}\n")
result = search_engine.search(query_partial, top_k=5)
print(json.dumps(json.loads(result), indent=2, ensure_ascii=False))


=== Teste 3: Campos Vazios (s√≥ bairro + cidade) ===
Query: {'logradouro': '', 'bairro': 'Vila Industrial', 'cidade': 'Itabuna', 'uf': 'BA', 'cep': ''}

{
  "results": [
    {
      "address": {
        "logradouro": "Estrada Paran√°",
        "bairro": "Vila Industrial",
        "cidade": "Itabuna",
        "uf": "BA",
        "cep": "40224-644"
      },
      "score": 1.0,
      "confidence": "high",
      "field_scores": {
        "bairro": 1.0,
        "cidade": 1.0
      }
    },
    {
      "address": {
        "logradouro": "Rodovia do Sol",
        "bairro": "Vila Industrial",
        "cidade": "Itabuna",
        "uf": "BA",
        "cep": "40812-062"
      },
      "score": 1.0,
      "confidence": "high",
      "field_scores": {
        "bairro": 1.0,
        "cidade": 1.0
      }
    },
    {
      "address": {
        "logradouro": "Rodovia ePdro √Ålvares Cabral",
        "bairro": "Vila Industrial",
        "cidade": "Itabuna",
        "uf": "BA",
        "cep": "40652-77

In [14]:
# Teste 4: Com abrevia√ß√µes
query_abbr = query.copy()
if query_abbr['logradouro'].startswith('Rua'):
    query_abbr['logradouro'] = query_abbr['logradouro'].replace('Rua', 'R.', 1)
elif query_abbr['logradouro'].startswith('Avenida'):
    query_abbr['logradouro'] = query_abbr['logradouro'].replace('Avenida', 'Av.', 1)

print("\n=== Teste 4: Abrevia√ß√µes ===")
print(f"Query: {query_abbr}\n")
result = search_engine.search(query_abbr, top_k=3)
print(json.dumps(json.loads(result), indent=2, ensure_ascii=False))


=== Teste 4: Abrevia√ß√µes ===
Query: {'logradouro': 'Estrada Paran√°', 'bairro': 'Vila Industrial', 'cidade': 'Itabuna', 'uf': 'BA', 'cep': '40224-644'}

{
  "results": [
    {
      "address": {
        "logradouro": "Estrada Paran√°",
        "bairro": "Vila Industrial",
        "cidade": "Itabuna",
        "uf": "BA",
        "cep": "40224-644"
      },
      "score": 1.0,
      "confidence": "high",
      "field_scores": {
        "logradouro": 1.0,
        "bairro": 1.0,
        "cidade": 1.0,
        "cep": 1.0
      }
    },
    {
      "address": {
        "logradouro": "Estrada Paran√°",
        "bairro": "Parque Industrial",
        "cidade": "Montes Claros",
        "uf": "MG",
        "cep": "30224-024"
      },
      "score": 0.4000000059604645,
      "confidence": "low",
      "field_scores": {
        "logradouro": 1.0,
        "cep": 0.0
      }
    },
    {
      "address": {
        "logradouro": "Estrada Paran√°",
        "bairro": "Parque Oeste",
        "cidade":

## 5. Valida√ß√£o Sistem√°tica por Categoria

In [15]:
def evaluate_queries(queries_df, search_engine, top_k=5):
    """Avalia precis√£o das queries"""
    results = []
    
    for idx, row in queries_df.iterrows():
        query = {
            'logradouro': row['logradouro'],
            'bairro': row['bairro'],
            'cidade': row['cidade'],
            'uf': row['uf'],
            'cep': row['cep']
        }
        
        # Busca
        result_json = search_engine.search(query, top_k=top_k)
        result = json.loads(result_json)
        
        # Verifica se o endere√ßo esperado est√° nos resultados
        expected_idx = row['expected_index']
        expected_address = df_dne.iloc[expected_idx]
        
        found = False
        rank = -1
        best_score = 0.0
        
        for i, res in enumerate(result['results']):
            score = res['score']
            if score > best_score:
                best_score = score
            
            # Verifica match (comparando campos principais)
            addr = res['address']
            if (addr['logradouro'] == expected_address['logradouro'] and
                addr['cidade'] == expected_address['cidade'] and
                addr['cep'] == expected_address['cep']):
                found = True
                rank = i + 1
                break
        
        results.append({
            'category': row['category'],
            'found': found,
            'rank': rank,
            'best_score': best_score,
            'has_high_confidence': best_score >= search_engine.confidence_threshold
        })
    
    return pd.DataFrame(results)

In [16]:
# Avalia todas as queries
print("Avaliando queries de teste...")
evaluation_results = evaluate_queries(df_queries, search_engine, top_k=5)

Avaliando queries de teste...


In [17]:
# M√©tricas gerais
print("\n=== M√©tricas Gerais ===")
print(f"Precis√£o@5: {evaluation_results['found'].mean():.2%}")
print(f"Queries com alta confian√ßa (score ‚â• 0.8): {evaluation_results['has_high_confidence'].mean():.2%}")
print(f"Score m√©dio (melhor resultado): {evaluation_results['best_score'].mean():.3f}")
print(f"\nDistribui√ß√£o de ranks (quando encontrado):")
print(evaluation_results[evaluation_results['found']]['rank'].value_counts().sort_index())


=== M√©tricas Gerais ===
Precis√£o@5: 98.00%
Queries com alta confian√ßa (score ‚â• 0.8): 56.67%
Score m√©dio (melhor resultado): 0.833

Distribui√ß√£o de ranks (quando encontrado):
rank
1    146
2      1
Name: count, dtype: int64


In [18]:
# M√©tricas por categoria
print("\n=== M√©tricas por Categoria ===")
for category in evaluation_results['category'].unique():
    cat_data = evaluation_results[evaluation_results['category'] == category]
    print(f"\n{category.upper()}:")
    print(f"  Precis√£o@5: {cat_data['found'].mean():.2%}")
    print(f"  Alta confian√ßa: {cat_data['has_high_confidence'].mean():.2%}")
    print(f"  Score m√©dio: {cat_data['best_score'].mean():.3f}")


=== M√©tricas por Categoria ===

TYPO:
  Precis√£o@5: 100.00%
  Alta confian√ßa: 40.00%
  Score m√©dio: 0.731

ABBREVIATION:
  Precis√£o@5: 100.00%
  Alta confian√ßa: 100.00%
  Score m√©dio: 0.969

CEP_WRONG:
  Precis√£o@5: 97.78%
  Alta confian√ßa: 0.00%
  Score m√©dio: 0.682

EMPTY_FIELDS:
  Precis√£o@5: 86.67%
  Alta confian√ßa: 86.67%
  Score m√©dio: 0.951


## 6. An√°lise de Casos Espec√≠ficos

In [19]:
# Exemplos de cada categoria
print("\n=== Exemplos Representativos ===")

for category in ['cep_wrong', 'abbreviation', 'typo', 'empty_fields']:
    print(f"\n{'='*60}")
    print(f"CATEGORIA: {category.upper()}")
    print('='*60)
    
    # Pega 2 exemplos da categoria
    cat_queries = df_queries[df_queries['category'] == category].head(2)
    
    for _, row in cat_queries.iterrows():
        query = {
            'logradouro': row['logradouro'],
            'bairro': row['bairro'],
            'cidade': row['cidade'],
            'uf': row['uf'],
            'cep': row['cep']
        }
        
        expected = df_dne.iloc[row['expected_index']]
        
        print(f"\nQuery: {query}")
        print(f"Esperado: {expected.to_dict()}")
        
        result_json = search_engine.search(query, top_k=3)
        result = json.loads(result_json)
        
        print(f"\nTop-3 Resultados:")
        for i, res in enumerate(result['results'], 1):
            print(f"  #{i} [score={res['score']:.3f}, conf={res['confidence']}]:")
            print(f"      {res['address']}")
        print()
    
    print()


=== Exemplos Representativos ===

CATEGORIA: CEP_WRONG

Query: {'logradouro': 'Largo Dom Pedro II', 'bairro': 'Parque Europa', 'cidade': 'Aparecida de Goi√¢nia', 'uf': 'GO', 'cep': '88490-104'}
Esperado: {'logradouro': 'Largo Dom Pedro II', 'bairro': 'Parque Europa', 'cidade': 'Aparecida de Goi√¢nia', 'uf': 'GO', 'cep': '73537-072'}

Top-3 Resultados:
  #1 [score=0.700, conf=medium]:
      {'logradouro': 'Largo Dom Pedro II', 'bairro': 'Parque Europa', 'cidade': 'Aparecida de Goi√¢nia', 'uf': 'GO', 'cep': '73537-072'}
  #2 [score=0.400, conf=low]:
      {'logradouro': 'Largo Dom Pedro II', 'bairro': 'Cidade Serra', 'cidade': 'Uberl√¢ndia', 'uf': 'MG', 'cep': '30733-185'}
  #3 [score=0.400, conf=low]:
      {'logradouro': 'Largo Dom Pedro II', 'bairro': 'Cidade S√£o Francisco', 'cidade': 'Ribeir√£o Preto', 'uf': 'SP', 'cep': '01692-506'}


Query: {'logradouro': 'Estrada Presidente Vargas', 'bairro': 'Parque do Sol', 'cidade': 'Foz do Igua√ßu', 'uf': 'PR', 'cep': '40470-693'}
Esperado: 

## 7. Conclus√µes e Pr√≥ximos Passos

In [20]:
print("\n" + "="*70)
print("RESUMO DA POC: Busca Vetorial Multi-Campo para Enriquecimento de DNE")
print("="*70)

print("\n‚úÖ IMPLEMENTADO:")
print("  - Embeddings multi-campo com rufimelo/bert-base-portuguese-cased-nli-assin-2")
print("  - √çndices FAISS separados por campo (logradouro, bairro, cidade)")
print("  - Scoring din√¢mico com pesos ajustados por query")
print("  - Normaliza√ß√£o de texto (unidecode, abrevia√ß√µes, lowercase)")
print("  - Threshold de confian√ßa 0.8 para sugest√µes de alta qualidade")
print("  - Retorno em JSON estruturado com scores por campo")

print("\nüìä RESULTADOS:")
print(f"  - Precis√£o@5 geral: {evaluation_results['found'].mean():.2%}")
print(f"  - Queries com alta confian√ßa: {evaluation_results['has_high_confidence'].mean():.2%}")
print(f"  - Score m√©dio: {evaluation_results['best_score'].mean():.3f}")

print("\nüí° VANTAGENS DA ABORDAGEM MULTI-CAMPO:")
print("  - Campos vazios n√£o poluem o score geral")
print("  - CEP errado n√£o elimina match de rua correta")
print("  - Sistema pode sugerir CEP correto quando outros campos t√™m score ‚â• 0.8")
print("  - Pesos din√¢micos se adaptam aos campos dispon√≠veis na query")

print("\nüéØ PR√ìXIMOS PASSOS (se necess√°rio):")
print("  1. Ajustar pesos baseado nos resultados de valida√ß√£o")
print("  2. Testar com dados reais do DNE (se dispon√≠vel)")
print("  3. Implementar cache de embeddings para queries frequentes")
print("  4. Adicionar filtros geogr√°ficos (estado/cidade) para reduzir espa√ßo de busca")
print("  5. Fine-tuning do modelo em dataset de endere√ßos brasileiros")

print("\n" + "="*70)


RESUMO DA POC: Busca Vetorial Multi-Campo para Enriquecimento de DNE

‚úÖ IMPLEMENTADO:
  - Embeddings multi-campo com rufimelo/bert-base-portuguese-cased-nli-assin-2
  - √çndices FAISS separados por campo (logradouro, bairro, cidade)
  - Scoring din√¢mico com pesos ajustados por query
  - Normaliza√ß√£o de texto (unidecode, abrevia√ß√µes, lowercase)
  - Threshold de confian√ßa 0.8 para sugest√µes de alta qualidade
  - Retorno em JSON estruturado com scores por campo

üìä RESULTADOS:
  - Precis√£o@5 geral: 98.00%
  - Queries com alta confian√ßa: 56.67%
  - Score m√©dio: 0.833

üí° VANTAGENS DA ABORDAGEM MULTI-CAMPO:
  - Campos vazios n√£o poluem o score geral
  - CEP errado n√£o elimina match de rua correta
  - Sistema pode sugerir CEP correto quando outros campos t√™m score ‚â• 0.8
  - Pesos din√¢micos se adaptam aos campos dispon√≠veis na query

üéØ PR√ìXIMOS PASSOS (se necess√°rio):
  1. Ajustar pesos baseado nos resultados de valida√ß√£o
  2. Testar com dados reais do DNE (se d