# Vector Database (Bancos de Dados vetoriais) e Embeddings Models

## Introdução Vector Database : 

Podemos definir Banco de Dados Veorial como uma solução de gerenciamento de dados projetada para otimizar a recuperação e o armazenamento de informações em formato de vetores.
Essa abordagem utiliza algoritmos específicos para transformar os dados em um conjunto de números (vetores), que são representados em um espaço vetorial.
Essa solução é muito importante para aplicações de Machine Learning e Inteligência Artificial, pois permite encontrar itens semelhantes com base na proximidade vetorial, viabilizando funcionalidades como busca semântica, sistemas de recomendação e análise de padrões de forma eficiente e escalável.

## Weaviate:

Existem diversos tipo de soluções de banco de dados vetoriais disponiveis no mercado, mas para nossos testes, utilizaremos o Weaviate(https://weaviate.io/), pois, além de ser open-source, ele oferece excelente suporte para buscas semânticas e dados estruturados, além de integração com modelos de embeddings populares.

## O que são Modelos de Embeddings?

Bascimente os Embeddings são representações vetoriais de dados que capturam seus significados ou características de forma numérica em um espaço de alta dimensão. 

É um conceito amplamente utilizados em Machine Learning, especialmente em tarefas de processamento de linguagem natural (PLN) e visão computacional.

### **Objetivos:**

Como dito anteriormente, o principal objetivo dos modelos de embeddings é representar dados textuais, visuais ou numéricos em um formato numérico, preservando suas relações semânticas. Em outras palavras, isso significa que a representação vetorial das palavras "cachorro" e "gato" será semanticamente próxima, enquanto "cachorro" e "carro" estarão mais distantes no espaço vetorial.

### Exemplos de Modelos de Embeddings:

**Modelos populares de embeddings:**
- **Word2Vec:** Gera embeddings estáticos para palavras com base em coocorrência no texto.
- **GloVe:** Similar ao Word2Vec, mas utiliza estatísticas globais de um corpus.
- **BERT:** Modelo contextualizado que gera embeddings específicos para cada palavra em uma sentença, considerando o contexto.
- **CLIP:** Utilizado para embeddings de texto e imagens, projetados no mesmo espaço vetorial.
- **Sentence Transformers (SBERT):** Ideal para embeddings de frases e documentos.

Cada modelo é projetado para atender a diferentes tipos de tarefas. Escolha o mais adequado com base no problema a ser resolvido.

### Geração de Embeddings na Prática

In [6]:
from sentence_transformers import SentenceTransformer

In [7]:
# Carregando o Modelo
model = SentenceTransformer('all-MiniLM-L6-v2')

modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.7k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

In [17]:
frases = [
    "O cachorro está no parque.",
    "O gato subiu na árvore.",
    "OS Carros são meios de transporte."
]

In [18]:
# Gerando embeddings
embeddings = model.encode(frases)

In [19]:
# Mostrando resultados
for i, frase in enumerate(frases):
    print(f"Frase: {frase}")
    print(f"Embedding: {embeddings[i][:5]}... (dimensão: {len(embeddings[i])})\n")

Frase: O cachorro está no parque.
Embedding: [-0.03486934  0.00535641 -0.02055818 -0.01926387 -0.08245736]... (dimensão: 384)

Frase: O gato subiu na árvore.
Embedding: [-0.09742771  0.05417777 -0.06127026  0.02175123 -0.07582309]... (dimensão: 384)

Frase: Carros são meios de transporte.
Embedding: [ 0.01851568  0.03419538 -0.00255625  0.05014872 -0.0176652 ]... (dimensão: 384)

