# üîç Similaridade de Cosseno: Como Funciona a Busca Sem√¢ntica

## üéØ Objetivo da Pr√°tica

Neste laborat√≥rio, voc√™ ir√°:
1. Entender como **calcular a similaridade** entre vetores usando **Similaridade de Cosseno**
2. Implementar uma **busca sem√¢ntica simples** (mini RAG)
3. Comparar diferentes vetores para encontrar o **mais similar** a uma consulta
4. Compreender o conceito matem√°tico que sustenta bancos vetoriais

## üìñ Conceito Fundamental

### O que √© Similaridade de Cosseno?

A **Similaridade de Cosseno** mede o **√¢ngulo** entre dois vetores no espa√ßo. Quanto **menor o √¢ngulo**, mais **similares** s√£o os vetores.

**F√≥rmula:**
$$
\text{similaridade}(A, B) = \frac{A \cdot B}{\|A\| \times \|B\|}
$$

Onde:
- $A \cdot B$ = produto escalar (dot product) dos vetores
- $\|A\|$ e $\|B\|$ = normas (tamanhos) dos vetores

**Resultado:**
- **1.0** = vetores id√™nticos (√¢ngulo de 0¬∞)
- **0.0** = vetores perpendiculares (√¢ngulo de 90¬∞)
- **~1.0** = vetores muito similares (√¢ngulo pequeno)

### Por que Cosseno e n√£o Dist√¢ncia Euclidiana?

‚úÖ **Cosseno**: Compara **dire√ß√£o** (sem√¢ntica), ignora magnitude  
‚ùå **Euclidiana**: Sens√≠vel √† magnitude (tamanho), pode distorcer resultados

**Exemplo:**
- "Filhote" e "Cachorrinho gigante" t√™m dire√ß√£o similar (ambos s√£o animais fofos)
- Euclidiana pode ach√°-los diferentes se um vetor for 2x maior
- Cosseno reconhece que apontam na **mesma dire√ß√£o** ‚Üí similares!

---


## üõ†Ô∏è Passo 1: Importar Bibliotecas

Vamos importar as ferramentas necess√°rias para calcular a similaridade de cosseno.

**O que vamos usar:**
- `numpy`: Opera√ß√µes matem√°ticas com vetores e matrizes
- `norm` (de `numpy.linalg`): Calcula a **norma** (tamanho) de um vetor
  - A norma √© como medir o "comprimento" de um vetor no espa√ßo
  - Exemplo: norma de `[3, 4]` = ‚àö(3¬≤ + 4¬≤) = 5


In [1]:
import numpy as np
from numpy.linalg import norm


## üìä Passo 2: Criar o "Banco de Dados" Vetorial

Aqui criamos um mini banco de dados com 3 documentos, cada um representado por um vetor de 3 dimens√µes.

### üßÆ Estrutura dos Vetores

Cada vetor tem **3 coordenadas**: `[Animal, Fofo, Met√°lico]`

Valores variam de **0.00** (aus√™ncia total) a **1.00** (presen√ßa m√°xima).

### üîç An√°lise do Banco:

| Documento | Animal | Fofo | Met√°lico | Interpreta√ß√£o |
|-----------|--------|------|----------|---------------|
| üê± **Gatinho dormindo** | 0.99 | 0.95 | 0.00 | √â animal, muito fofo, zero metal |
| ü§ñ **Rob√¥ industrial** | 0.00 | 0.00 | 0.99 | N√£o √© animal, nada fofo, muito metal |
| üî® **Martelo de a√ßo** | 0.00 | 0.00 | 0.95 | N√£o √© animal, nada fofo, quase todo metal |

### üí° Observe:

- **Gatinho** tem valores altos em **Animal** e **Fofo**, zero em **Met√°lico**
- **Rob√¥** e **Martelo** t√™m valores altos em **Met√°lico**, zero nos outros
- Esses vetores representam as "caracter√≠sticas sem√¢nticas" de cada conceito


In [2]:
# 1. Nosso "Banco de Dados" (Vetores simplificados)
# Formato: [Animal, Fofo, Met√°lico]
dados = {
    "Gatinho dormindo": np.array([0.99, 0.95, 0.00]),
    "Rob√¥ industrial":  np.array([0.00, 0.00, 0.99]),
    "Martelo de a√ßo":   np.array([0.00, 0.00, 0.95])
}


## üîé Passo 3: Definir a Consulta (Query) e a Fun√ß√£o de Similaridade

Agora vamos criar:
1. O **vetor de consulta** que representa a pesquisa do usu√°rio
2. A **fun√ß√£o** que calcula a similaridade de cosseno entre dois vetores

### üê∂ A Consulta: "Filhote de c√£o"

O usu√°rio pesquisou por **"Filhote de c√£o"**. Um modelo de embedding converteu isso no vetor:

**Query:** `[0.98, 0.95, 0.00]`

| Caracter√≠stica | Valor | Interpreta√ß√£o |
|----------------|-------|---------------|
| Animal | 0.98 | Sim, √© um animal! |
| Fofo | 0.95 | Muito fofo! |
| Met√°lico | 0.00 | Nada de metal |

**Comparando com o banco:**
- **Gatinho:** `[0.99, 0.95, 0.00]` ‚Üí Muito similar ao Filhote!
- **Rob√¥:** `[0.00, 0.00, 0.99]` ‚Üí Completamente diferente
- **Martelo:** `[0.00, 0.00, 0.95]` ‚Üí Tamb√©m muito diferente

### üßÆ A Fun√ß√£o `calcular_similaridade`

Implementa a f√≥rmula da similaridade de cosseno:

$$
\text{similaridade}(A, B) = \frac{A \cdot B}{\|A\| \times \|B\|}
$$

**Passo a passo:**
1. `np.dot(vetor_a, vetor_b)`: Calcula o **produto escalar** (multiplica coordenadas correspondentes e soma)
2. `norm(vetor_a)` e `norm(vetor_b)`: Calcula as **normas** (tamanhos) dos vetores
3. Divide o produto escalar pelas normas ‚Üí resultado entre 0 e 1

**Exemplo manual:**
- Query = `[0.98, 0.95, 0.00]`, Gatinho = `[0.99, 0.95, 0.00]`
- Produto escalar = (0.98√ó0.99) + (0.95√ó0.95) + (0.00√ó0.00) = 0.9702 + 0.9025 = 1.8727
- Norma Query = ‚àö(0.98¬≤ + 0.95¬≤) ‚âà 1.365
- Norma Gatinho = ‚àö(0.99¬≤ + 0.95¬≤) ‚âà 1.371
- **Similaridade = 1.8727 / (1.365 √ó 1.371) ‚âà 1.000** (quase perfeito!)


In [6]:
# 2. A Pesquisa do Usu√°rio ("Filhote de c√£o")
# A IA converteu a pesquisa para este vetor:
query_vetor = np.array([0.98, 0.95, 0.00])

def calcular_similaridade(vetor_a, vetor_b):
    # C√°lculo da Similaridade de Cosseno (vai de 0 a 1)
    # `norm` calcula a norma de um vetor ou matriz, ou seja, uma medida do seu "tamanho" ou "comprimento"
    cos_sim = np.dot(vetor_a, vetor_b) / (norm(vetor_a) * norm(vetor_b))
    return cos_sim


## üöÄ Passo 4: Executar a Busca Sem√¢ntica

Agora vamos **buscar** no banco de dados qual documento √© **mais similar** √† consulta "Filhote de c√£o".

### üîÑ Como funciona o algoritmo:

1. **Para cada documento** no banco:
   - Calcula a similaridade entre o vetor da query e o vetor do documento
   - Armazena o resultado (texto + score)

2. **Ordena** os resultados do **maior** para o **menor** score
   - Score pr√≥ximo de 1.0 = muito similar
   - Score pr√≥ximo de 0.0 = pouco similar

3. **Exibe** os resultados ordenados

### üìä Resultados Esperados:

Baseando-nos nas caracter√≠sticas dos vetores:

| Rank | Documento | Score Esperado | Motivo |
|------|-----------|----------------|--------|
| ü•á 1¬∫ | Gatinho dormindo | **~1.000** | Quase id√™ntico ao Filhote (ambos animais fofos) |
| ü•à 2¬∫ | Martelo de a√ßo | **~0.000** | Completamente diferente (metal vs. animal) |
| ü•â 3¬∫ | Rob√¥ industrial | **~0.000** | Tamb√©m muito diferente (metal vs. animal) |

**Por que Gatinho vence?**
- Query: `[0.98, 0.95, 0.00]` (animal fofo)
- Gatinho: `[0.99, 0.95, 0.00]` (animal fofo)
- Ambos t√™m **valores altos** nas mesmas dimens√µes ‚Üí **dire√ß√£o similar** no espa√ßo!

### üí° Conex√£o com RAG:

Isso √© exatamente o que acontece em sistemas RAG:
1. Usu√°rio faz uma pergunta
2. Pergunta √© convertida em vetor (embedding)
3. Sistema busca documentos com vetores **similares**
4. Documentos mais relevantes s√£o retornados


In [7]:

# 3. Executando a Busca
print(f"Pesquisa: 'Filhote de c√£o' {query_vetor}\n")
print("--- Resultados ---")

resultados = []
for texto, vetor_db in dados.items():
    score = calcular_similaridade(query_vetor, vetor_db)
    resultados.append((texto, score))

# Ordenar do maior score para o menor
resultados.sort(key=lambda x: x[1], reverse=True)

for texto, score in resultados:
    print(f"Texto: '{texto}' | Similaridade: {score:.4f}")

Pesquisa: 'Filhote de c√£o' [0.98 0.95 0.  ]

--- Resultados ---
Texto: 'Gatinho dormindo' | Similaridade: 1.0000
Texto: 'Rob√¥ industrial' | Similaridade: 0.0000
Texto: 'Martelo de a√ßo' | Similaridade: 0.0000


---

## üéì Conclus√µes e Aprendizados

### ‚úÖ O que voc√™ aprendeu neste laborat√≥rio:

1. **Similaridade de Cosseno √© a m√©trica padr√£o para busca sem√¢ntica**
   - Mede o **√¢ngulo** entre vetores (n√£o a dist√¢ncia)
   - Resultado entre 0 (diferentes) e 1 (id√™nticos)
   - Ignora magnitude, foca em **dire√ß√£o sem√¢ntica**

2. **Busca sem√¢ntica √© simples conceitualmente**
   - Converter texto em vetor (embedding)
   - Calcular similaridade com todos os vetores do banco
   - Ordenar por score e retornar os mais similares

3. **O algoritmo funciona porque:**
   - Textos similares ‚Üí embeddings com **dire√ß√£o similar** no espa√ßo
   - Similaridade de cosseno captura essa semelhan√ßa
   - √â escal√°vel para milh√µes de documentos (com otimiza√ß√µes)


### üìä Compara√ß√£o: Cosseno vs. Euclidiana

| M√©trica | Foco | Sens√≠vel a Magnitude | Melhor Para |
|---------|------|----------------------|-------------|
| **Cosseno** | Dire√ß√£o (√¢ngulo) | ‚ùå N√£o | Busca sem√¢ntica, texto |
| **Euclidiana** | Dist√¢ncia absoluta | ‚úÖ Sim | Dados num√©ricos, imagens |

**Exemplo pr√°tico:**
- Textos: "gato" vs. "felino gigante"
  - Euclidiana: diferentes (magnitudes diferentes)
  - Cosseno: similares (mesma dire√ß√£o sem√¢ntica) ‚úÖ

### üß™ Desafios Pr√°ticos

**Desafio 1:** Adicione novos documentos ao banco e execute a busca:
```python
# Experimente:
dados["P√°ssaro cantando"] = np.array([0.95, 0.80, 0.00])  # Animal fofo, n√£o metal
dados["Tesoura de metal"] = np.array([0.00, 0.00, 0.85])  # N√£o animal, metal

# Execute a busca novamente. Qual ser√° a nova ordem?
```

**Desafio 2:** Teste com uma query diferente:
```python
# Query: "Objeto de metal"
query_vetor = np.array([0.00, 0.00, 0.98])

# Qual documento ter√° o maior score agora?
# Dica: Rob√¥ e Martelo devem ficar em 1¬∫ e 2¬∫
```

**Desafio 3:** Calcule manualmente e compare:
```python
# Pegue 2 vetores:
A = np.array([0.99, 0.95, 0.00])  # Gatinho
B = np.array([0.00, 0.00, 0.99])  # Rob√¥

# Calcule √† m√£o:
# 1. Produto escalar: (0.99√ó0) + (0.95√ó0) + (0√ó0.99) = 0
# 2. Normas: sqrt(0.99¬≤ + 0.95¬≤) √ó sqrt(0.99¬≤) = 1.37 √ó 0.99
# 3. Similaridade: 0 / (1.37 √ó 0.99) = 0.0
# Confirme com a fun√ß√£o!
```

**Desafio 4:** Entenda o impacto da normaliza√ß√£o:
```python
# Teste com vetores n√£o normalizados
vetor_grande = np.array([9.9, 9.5, 0.0])   # 10x maior que Gatinho
vetor_pequeno = np.array([0.099, 0.095, 0.0])  # 10x menor

# A similaridade entre eles ser√° pr√≥xima de 1.0?
# Por qu√™? (Dica: cosseno ignora magnitude!)
```

---

**Parab√©ns! üéâ** Voc√™ implementou sua primeira busca sem√¢ntica e entendeu o cora√ß√£o dos bancos de dados vetoriais!