# Estruturação do Protótipo – Testes Comparativos de Modelos e Bancos de Vetores

&nbsp;&nbsp;&nbsp;&nbsp; Para garantir uma escolha fundamentada das ferramentas a serem utilizadas no sistema de controle de qualidade, serão realizados testes com foco na eficiência, acurácia, tempo de resposta e complexidade de implementação dos componentes centrais da arquitetura baseada em vetores.

## 1. Teste de Modelos de Vetores Locais (Gensim vs Hugging Face)

&nbsp;&nbsp;&nbsp;&nbsp; Nesta primeira fase, o objetivo é comparar o desempenho de dois frameworks de vetorização local, Gensim e Hugging Face Transformers. Para isso, será criado um questionário fictício, composto por pares de perguntas e respostas representativas dos questionários reais utilizados em estudos epidemiológicos, permitindo a execução rápida dos testes sem a necessidade de lidar com dados sensíveis ou exigências de anonimização. O teste seguirá os seguintes critérios:

- Precisão na similaridade semântica: capacidade do modelo de identificar a correspondência correta entre perguntas e respostas;
- Tempo de processamento médio por par;
- Carga computacional (uso de CPU/RAM);
- Facilidade de implementação e ajuste fino;
- Robustez em textos com variações sintáticas e gramaticais.

&nbsp;&nbsp;&nbsp;&nbsp; Com base nesses dados, será possível definir qual modelo oferece o melhor custo-benefício para ser utilizado como vetorizador no fluxo principal do sistema.

## 2. Teste de Bancos de Vetores (Elasticsearch vs GCP Vector Search)

&nbsp;&nbsp;&nbsp;&nbsp; Com os vetores gerados a partir do modelo selecionado na etapa anterior, será iniciado o teste comparativo entre dois bancos de vetores: Elasticsearch com extensão para vetores e Google Cloud Vector Search. Esse teste avaliará:

- Velocidade de indexação e consulta;
- Precisão na busca de similaridade vetorial;
- Facilidade de integração com o restante do sistema;
- Custo de operação e infraestrutura;
- Complexidade de configuração e manutenção.

&nbsp;&nbsp;&nbsp;&nbsp; Ambos os bancos serão alimentados com o mesmo conjunto de vetores e submetidos a consultas idênticas de similaridade. Os resultados obtidos (ex: top-N mais similares) serão comparados tanto qualitativamente quanto quantitativamente, considerando se há divergências relevantes entre os dois mecanismos.

## 3. Objetivo da Comparação

&nbsp;&nbsp;&nbsp;&nbsp; A partir dos dois testes será possível:

- Selecionar a melhor combinação modelo + banco para a implementação final do sistema;
- Validar a viabilidade técnica da arquitetura baseada em vetores, assegurando que ela atenda aos requisitos de precisão, desempenho, privacidade e escalabilidade;
- Documentar as decisões tomadas e os resultados obtidos, formando uma base sólida para a etapa de integração e validação final com dados.


# 1. Comparação entre Gensim vs Hugging Face

### Gensim : 


In [3]:
pip install gensim

Collecting gensimNote: you may need to restart the kernel to use updated packages.

  Downloading gensim-4.4.0-cp313-cp313-win_amd64.whl.metadata (8.6 kB)
Collecting smart_open>=1.8.1 (from gensim)
  Downloading smart_open-7.5.0-py3-none-any.whl.metadata (24 kB)
Downloading gensim-4.4.0-cp313-cp313-win_amd64.whl (24.4 MB)
   ---------------------------------------- 0.0/24.4 MB ? eta -:--:--
    --------------------------------------- 0.5/24.4 MB 2.7 MB/s eta 0:00:09
   -- ------------------------------------- 1.3/24.4 MB 3.6 MB/s eta 0:00:07
   --- ------------------------------------ 1.8/24.4 MB 3.6 MB/s eta 0:00:07
   ---- ----------------------------------- 2.6/24.4 MB 3.3 MB/s eta 0:00:07
   ----- ---------------------------------- 3.4/24.4 MB 3.4 MB/s eta 0:00:07
   ------- -------------------------------- 4.5/24.4 MB 3.6 MB/s eta 0:00:06
   -------- ------------------------------- 5.0/24.4 MB 3.6 MB/s eta 0:00:06
   --------- ------------------------------ 5.8/24.4 MB 3.5 MB/s et

In [4]:
import gensim
from gensim.models import Word2Vec
import nltk


# Isso só precisa ser feito uma vez. Se o recurso já estiver instalado,
# o NLTK irá ignorar a chamada.
try:
    nltk.data.find('tokenizers/punkt')
except LookupError:
    print("Recurso 'punkt' não encontrado. Baixando...")
    nltk.download('punkt')

# Agora pode prosseguir com seu código que usa o tokenizador
from nltk.tokenize import word_tokenize

from nltk.tokenize import word_tokenize
import re

Recurso 'punkt' não encontrado. Baixando...


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\jwlia\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


In [5]:
# Baixar o tokenizer do NLTK se ainda não tiver
try:
    nltk.data.find('tokenizers/punkt')
except nltk.downloader.DownloadError:
    nltk.download('punkt')

def preprocess_text(text):
    """
    Função para pré-processar o texto:
    - Converter para minúsculas
    - Remover caracteres especiais e números
    - Tokenizar o texto em palavras
    """
    text = text.lower()
    text = re.sub(r'[^a-zA-Z\s]', '', text)
    tokens = word_tokenize(text)
    return tokens

In [6]:
# 1. Ler o arquivo de texto
# Supondo que você tenha um arquivo chamado 'meu_texto.txt'
file_path1 = 'textos/Texto_grande1.txt'
with open(file_path1, 'r', encoding='utf-8') as file:
    text_data1 = file.read()
    
file_path2 = 'textos/Texto_grande2.txt'
with open(file_path2, 'r', encoding='utf-8') as file:
    text_data2 = file.read()

In [7]:
# 2. Pré-processar o texto
# A Gensim precisa de uma lista de listas de palavras
processed_text1 = [preprocess_text(text_data1)]

processed_text2 = [preprocess_text(text_data2)]

LookupError: 
**********************************************************************
  Resource [93mpunkt_tab[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('punkt_tab')
  [0m
  For more information see: https://www.nltk.org/data.html

  Attempted to load [93mtokenizers/punkt_tab/english/[0m

  Searched in:
    - 'C:\\Users\\jwlia/nltk_data'
    - 'C:\\Users\\jwlia\\anaconda3\\nltk_data'
    - 'C:\\Users\\jwlia\\anaconda3\\share\\nltk_data'
    - 'C:\\Users\\jwlia\\anaconda3\\lib\\nltk_data'
    - 'C:\\Users\\jwlia\\AppData\\Roaming\\nltk_data'
    - 'C:\\nltk_data'
    - 'D:\\nltk_data'
    - 'E:\\nltk_data'
**********************************************************************


In [16]:
# 3. Treinar o modelo Word2Vec
# size: dimensão do vetor (ex: 100)
# window: distância máxima entre as palavras
# min_count: ignora palavras com frequência menor que o valor
model1 = Word2Vec(sentences=processed_text1, vector_size=100, window=5, min_count=1, workers=4)

model2 = Word2Vec(sentences=processed_text2, vector_size=100, window=5, min_count=1, workers=4)

In [20]:
# 4. Obter o vetor de uma palavra específica
word_vector = model1.wv['diabetes']
print(f"Vetor da palavra 'diabetes'no preimeiro texto:\n{word_vector}")
print(f"Dimensão do vetor: {len(word_vector)}")

Vetor da palavra 'diabetes'no preimeiro texto:
[ 0.00116247  0.00669514  0.00995835  0.00917092 -0.00796529  0.0061822
 -0.00556052 -0.00048948  0.00033135  0.00646399  0.0044472   0.00431627
  0.00934619  0.00047679 -0.00610771 -0.00668483  0.0064551  -0.0057163
 -0.0028707   0.00346594 -0.002227   -0.00609086 -0.00202447  0.00108997
  0.0018904   0.00606529 -0.00540146  0.00288094  0.00698573  0.00233989
  0.00572223 -0.0047968   0.00620538 -0.00770982  0.00332909 -0.00893255
 -0.00271893 -0.0094422  -0.00176624 -0.00594257 -0.00383518  0.00076114
  0.00262787 -0.00136894 -0.00793076 -0.00604055  0.00082898 -0.00432166
 -0.00920345 -0.00063056  0.00695078  0.00585912 -0.00973514  0.00321575
 -0.0061601  -0.00900602  0.00018274 -0.00043589 -0.00738735 -0.00623154
 -0.00249949  0.00722684 -0.00735943  0.00739113 -0.00095744  0.00128328
  0.00983922  0.00508942 -0.00406008  0.00407286  0.00331716  0.00644615
  0.0003032  -0.00430758  0.0015997  -0.00521035  0.00131328  0.00499725
  0.00

In [19]:

word_vector = model2.wv['diabetes']
print(f"Vetor da palavra 'diabetes'no segundo texto:\n{word_vector}")
print(f"Dimensão do vetor: {len(word_vector)}")

Vetor da palavra 'diabetes'no segundo texto:
[-9.6380347e-03  8.9673465e-03  4.1670455e-03  9.2724599e-03
  6.6759409e-03  2.8040418e-03  9.8745413e-03 -4.1942401e-03
 -6.8763345e-03  4.0967651e-03  3.7600102e-03 -5.7528471e-03
  9.7121568e-03 -3.5238224e-03  9.5383823e-03  8.7639410e-04
 -6.2691588e-03 -2.0502349e-03 -7.4083381e-03 -3.1940669e-03
  1.0058088e-03  9.4940392e-03  9.2958752e-03 -6.6911154e-03
  3.3851967e-03  2.2989814e-03 -2.5143391e-03 -9.2891362e-03
  9.4976590e-04 -8.1227766e-03  6.3550202e-03 -5.7360665e-03
  5.5401917e-03  9.8324036e-03 -3.1085845e-04  4.7067110e-03
 -1.7475730e-03  7.3141563e-03  3.8652080e-03 -9.1464175e-03
 -2.3831292e-03  3.5100786e-03 -1.1393487e-04 -1.1654056e-03
 -9.1249868e-04 -1.6063573e-03  5.7242339e-04  4.1057109e-03
 -4.2622429e-03 -3.8027600e-03  8.9254418e-06  2.4184470e-04
 -1.2595863e-04 -4.8125316e-03  4.2730393e-03 -2.1034500e-03
  2.0764091e-03  6.6840486e-04  5.9087332e-03 -6.7958785e-03
 -6.8743359e-03 -4.4036401e-03  9.471910

In [26]:
# 5. Obter um vetor para o documento inteiro (opcional)
# Uma maneira simples é tirar a média dos vetores de todas as palavras no documento
import numpy as np

def get_document_vector(model, text_list):
    """Calcula a média dos vetores das palavras no documento."""
    vectors = [model.wv[word] for word in text_list if word in model.wv]
    if vectors:
        return np.mean(vectors, axis=0)
    else:
        return np.zeros(model.vector_size)

document_vector1 = get_document_vector(model1, processed_text1[0])
print(f"\nVetor do documento (média dos vetores das palavras no texto 1):\n{document_vector}")
print(f"Dimensão do vetor do documento: {len(document_vector)}")


Vetor do documento (média dos vetores das palavras no texto 1):
[-5.29617537e-04  7.70135957e-04  1.39765078e-04  5.55878505e-04
  1.42321631e-04 -1.16600061e-03  9.01830033e-04  2.05199886e-03
 -1.16814894e-03 -9.79513396e-04  1.56985589e-05 -1.08516915e-03
 -1.95458531e-04  4.01439203e-04  1.86275953e-04 -8.66785937e-04
  8.89081159e-04 -5.15104795e-04 -7.57790811e-04 -2.33665644e-03
  4.96209774e-04 -5.06648612e-05  1.57977268e-03 -4.56533424e-04
 -5.18668501e-04  1.08133550e-04 -7.51901825e-04 -1.12117355e-04
 -1.04805198e-03  4.73991444e-04  1.21922058e-03 -4.10431356e-04
  3.27792513e-04 -1.18291273e-03 -5.10402489e-04  1.10493146e-03
  3.05078225e-04 -5.91725286e-04 -7.75955676e-04 -1.22505077e-03
  7.32098764e-04 -1.06851745e-03 -7.99787405e-04  3.28298105e-04
  1.01290445e-03 -3.64711828e-04 -5.24596253e-04 -7.92251783e-04
  5.50458732e-04  3.76215059e-04  7.38859992e-04 -8.77296785e-04
 -1.22024561e-04 -1.80589574e-04 -8.84129026e-04  2.98518193e-04
  2.83718051e-04 -3.45357

In [27]:
document_vector2 = get_document_vector(model2, processed_text2[0])
print(f"\nVetor do documento (média dos vetores das palavras no texto 2):\n{document_vector}")
print(f"Dimensão do vetor do documento: {len(document_vector)}")


Vetor do documento (média dos vetores das palavras no texto 2):
[-5.29617537e-04  7.70135957e-04  1.39765078e-04  5.55878505e-04
  1.42321631e-04 -1.16600061e-03  9.01830033e-04  2.05199886e-03
 -1.16814894e-03 -9.79513396e-04  1.56985589e-05 -1.08516915e-03
 -1.95458531e-04  4.01439203e-04  1.86275953e-04 -8.66785937e-04
  8.89081159e-04 -5.15104795e-04 -7.57790811e-04 -2.33665644e-03
  4.96209774e-04 -5.06648612e-05  1.57977268e-03 -4.56533424e-04
 -5.18668501e-04  1.08133550e-04 -7.51901825e-04 -1.12117355e-04
 -1.04805198e-03  4.73991444e-04  1.21922058e-03 -4.10431356e-04
  3.27792513e-04 -1.18291273e-03 -5.10402489e-04  1.10493146e-03
  3.05078225e-04 -5.91725286e-04 -7.75955676e-04 -1.22505077e-03
  7.32098764e-04 -1.06851745e-03 -7.99787405e-04  3.28298105e-04
  1.01290445e-03 -3.64711828e-04 -5.24596253e-04 -7.92251783e-04
  5.50458732e-04  3.76215059e-04  7.38859992e-04 -8.77296785e-04
 -1.22024561e-04 -1.80589574e-04 -8.84129026e-04  2.98518193e-04
  2.83718051e-04 -3.45357

In [29]:
from scipy.spatial.distance import cosine

# A função 'cosine' da SciPy calcula a distância do cosseno.
# A similaridade do cosseno é (1 - distância do cosseno).
distancia_1_2 = cosine(document_vector1, document_vector2)
similaridade_1_2 = 1 - distancia_1_2

print(f"Similaridade entre o Vetor 1 e o Vetor 2: {similaridade_1_2:.4f}")


Similaridade entre o Vetor 1 e o Vetor 2: 0.9150


Gesim se provou vetorizar bem

# teste de tempo e acuracia faltam
## rever o modelo utilizado e pensar em qual é melhor !! 

### Hugging Face:

In [3]:
from sentence_transformers import SentenceTransformer

ModuleNotFoundError: No module named 'sentence_transformers'

In [2]:
# 1. Escolha e carregue um modelo de embedding da Hugging Face
# Existem centenas de modelos. "all-MiniLM-L6-v2" é um modelo pequeno e rápido,
# e "paraphrase-multilingual-mpnet-base-v2" é bom para vários idiomas, incluindo o português.
# Para este exemplo, usaremos o modelo multilingual.
model_name = 'sentence-transformers/paraphrase-multilingual-mpnet-base-v2'
model = SentenceTransformer(model_name)

modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/723 [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/402 [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

In [8]:
# 2. Ler o arquivo de texto
file_path1 = 'textos/Texto_grande1.txt'
with open(file_path1, 'r', encoding='utf-8') as file:
    text_data2 = file.read()
    
file_path2 = 'textos/Texto_grande2.txt'
with open(file_path2, 'r', encoding='utf-8') as file:
    text_data1 = file.read()

In [13]:
# 3. Gerar o vetor (embedding) para o texto completo
# O modelo processa o texto inteiro e retorna um único vetor que representa o seu significado.
document_embedding1 = model.encode(text_data1)
document_embedding2 = model.encode(text_data2)

In [14]:
#print(f"Vetor do documento:\n{document_embedding1}")
print(f"\nDimensão do vetor do texto 1: {document_embedding1.shape}")
print(f"Tipo do vetor do texto 1: {type(document_embedding1)}")

print(f"\nDimensão do vetor do texto 2: {document_embedding2.shape}")
print(f"Tipo do vetor do texto 2: {type(document_embedding2)}")


Dimensão do vetor do texto 1: (768,)
Tipo do vetor do texto 1: <class 'numpy.ndarray'>

Dimensão do vetor do texto 2: (768,)
Tipo do vetor do texto 2: <class 'numpy.ndarray'>


In [15]:
from scipy.spatial.distance import cosine

# A função 'cosine' da SciPy calcula a distância do cosseno.
# A similaridade do cosseno é (1 - distância do cosseno).
distancia_1_2 = cosine(document_embedding1, document_embedding2)
similaridade_1_2 = 1 - distancia_1_2

print(f"Similaridade entre o Vetor 1 e o Vetor 2: {similaridade_1_2:.4f}")

Similaridade entre o Vetor 1 e o Vetor 2: 0.6213


# trazer a acuracia o tempo, talvez trocar o modelo ! 
#### mas vetores não estão tão bons quanto o do gensim

# 2. Comparação entre Elasticsearch vs GCP Vector Search

### Elasticsearch

In [1]:
from elasticsearch import Elasticsearch

In [2]:
# 1. Conectar ao Elasticsearch
es = Elasticsearch(hosts=["http://localhost:9200"])

In [None]:
# 2. Definir o nome do índice e o tipo de campo para o vetor
INDEX_NAME = "documentos_vetorizados"

In [None]:
# 3. Criar o índice com o mapeamento 'dense_vector'
# Um vetor de 3 dimensões para este exemplo
index_mapping = {
    "properties": {
        "texto": {"type": "text"},
        "vetor_embedding": {
            "type": "dense_vector",
            "dims": 3  # Dimensão do vetor (neste caso, 3)
        }
    }
}
es.indices.create(index=INDEX_NAME, body={"mappings": index_mapping})

In [None]:
# 4. Adicionar alguns documentos com seus vetores
doc1 = {"texto": "cachorro brincando", "vetor_embedding": [0.1, 0.2, 0.7]}
doc2 = {"texto": "gato correndo", "vetor_embedding": [0.6, 0.8, 0.1]}
doc3 = {"texto": "cão e gato", "vetor_embedding": [0.2, 0.3, 0.6]}

es.index(index=INDEX_NAME, id=1, body=doc1)
es.index(index=INDEX_NAME, id=2, body=doc2)
es.index(index=INDEX_NAME, id=3, body=doc3)

# Aguardar um pouco para os documentos serem indexados
es.indices.refresh(index=INDEX_NAME)

In [None]:
# 5. Definir um vetor de consulta para buscar documentos semelhantes
# Este vetor representa "cão brincando" e é similar ao doc1 e doc3
query_vector = [0.15, 0.25, 0.65]

In [None]:
# 6. Realizar a busca por similaridade usando k-NN
search_body = {
    "query": {
        "script_score": {
            "query": {"match_all": {}},
            "script": {
                "source": "cosineSimilarity(params.query_vector, 'vetor_embedding') + 1.0",
                "params": {"query_vector": query_vector}
            }
        }
    }
}

response = es.search(index=INDEX_NAME, body=search_body, size=3)

In [None]:
# 7. Imprimir os resultados
print("\nResultados da busca por similaridade:")
for hit in response['hits']['hits']:
    print(f"ID: {hit['_id']}, Score: {hit['_score']:.4f}, Texto: {hit['_source']['texto']}")