## üìö Lab 1.4 - Comparativo de Modelos de Embeddings (APIs Cloud)

### üéØ Objetivo deste notebook

Neste laborat√≥rio, vamos **comparar modelos de embeddings de APIs cloud**:
- **OpenAI** - `text-embedding-3-small` e `text-embedding-3-large`
- **Google Gemini** - `gemini-embedding-001`

**O que vamos avaliar:**
1. ‚úÖ **Dimensionalidade** - Tamanho dos vetores (384, 768, 1536, 3072)
2. ‚úÖ **Qualidade sem√¢ntica** - Capacidade de distinguir conceitos
3. ‚úÖ **Tokens consumidos** - Contagem EXATA via APIs oficiais
4. ‚úÖ **Custo real** - C√°lculo baseado em tokens exatos (n√£o estimados)
5. ‚úÖ **Visualiza√ß√µes** - Gr√°ficos de similaridade e custos

### üí° Por que comparar APIs cloud?

**Vantagens das APIs:**
- ‚úÖ Sem necessidade de infraestrutura (GPU, servidores)
- ‚úÖ Escalabilidade autom√°tica
- ‚úÖ Modelos state-of-the-art sempre atualizados
- ‚úÖ Baixa lat√™ncia (rede global otimizada)

**Desvantagens:**
- ‚ùå Custo por token (paga por uso)
- ‚ùå Dados enviados para nuvem (privacidade)
- ‚ùå Depend√™ncia de internet

### üîß Passo 1: Depend√™ncias

Instale as bibliotecas necess√°rias (j√° dispon√≠veis no container Jupyter):

```bash
pip install -U openai numpy scikit-learn python-dotenv langchain-google-genai requests
```

**Bibliotecas usadas:**
- `openai` - SDK oficial da OpenAI
- `langchain-google-genai` - Integra√ß√£o Google com LangChain
- `requests` - Chamadas REST diretas (para obter metadados completos do Google)
- `numpy` - C√°lculos de similaridade cosseno
- `dotenv` - Gerenciamento de API keys

**‚ö†Ô∏è Nota importante:** N√£o instale `google-generativeai` junto com `langchain-google-genai` (conflito de depend√™ncias). Usamos REST API direta quando precisamos de metadados completos.

In [1]:
import os
import csv
import numpy as np

from typing import List, Tuple, Optional
from openai import OpenAI
from langchain_google_genai import GoogleGenerativeAIEmbeddings
from pathlib import Path
from dotenv import load_dotenv



## üîë Passo 2: Configurar API Keys

As APIs cloud exigem **chaves de autentica√ß√£o** para uso.

#### Como obter API keys:

**OpenAI:**
1. Acesse: https://platform.openai.com/api-keys
2. Crie uma conta (se n√£o tiver)
3. Gere uma nova API key (come√ßar√° com `sk-...`)
4. **Importante:** Copie imediatamente (s√≥ aparece uma vez!)

**Google Gemini:**
1. Acesse: https://aistudio.google.com/app/apikey
2. Fa√ßa login com conta Google
3. Clique em "Create API key"
4. Copie a chave gerada

#### Estrutura do arquivo `.env`:

Crie um arquivo `.env` na raiz do projeto:

```ini
OPENAI_API_KEY=sk-proj-xxxxxxxxxxxxxxxxxxxxx
GOOGLE_API_KEY=AIzaSyXXXXXXXXXXXXXXXXXXXXXXXXXXX
```

**Seguran√ßa:**
- ‚úÖ Arquivo `.env` deve estar no `.gitignore` (n√£o commitar!)
- ‚úÖ Nunca compartilhe suas API keys publicamente
- ‚úÖ Use vari√°veis de ambiente em produ√ß√£o

O c√≥digo abaixo verifica se as chaves foram carregadas corretamente.

In [2]:
# 2) Configura√ß√£o e carregamento do .env (simplificado)
env_path = Path.cwd().joinpath('..', '..', '.env').resolve()
if env_path.exists():
    load_dotenv(env_path)
    print(f'üîé .env carregado -> {env_path.resolve()}')
else:
    print('‚ö†Ô∏è  .env n√£o encontrado. Defina as vari√°veis de ambiente manualmente.')


# Checar chaves (r√≥tulos simples)
print('OPENAI_API_KEY set? ->', bool(os.getenv('OPENAI_API_KEY')))
print('GOOGLE_API_KEY set? ->', bool(os.getenv('GOOGLE_API_KEY')))

üîé .env carregado -> E:\01-projetos\11-work\11.34-engenharia-vetorial\.env
OPENAI_API_KEY set? -> True
GOOGLE_API_KEY set? -> True


## üõ†Ô∏è Passo 3: Fun√ß√µes de Embedding

Vamos criar **wrappers simples** para as APIs de embeddings.

### Arquitetura das fun√ß√µes:

```python
openai_embedding(text) ‚Üí (embedding_vector, token_count)
google_embedding(text) ‚Üí (embedding_vector, token_count)
```

**Fluxo interno:**
1. Recebe texto (ex: "O gato √© um animal dom√©stico")
2. Envia para API cloud via HTTP
3. API processa com modelo de embeddings
4. Retorna vetor + metadados (tokens, dimens√µes)

### Por que retornar tokens?

**Tokens s√£o a unidade de cobran√ßa das APIs:**
- OpenAI: $0.02 por 1M tokens (small), $0.13 por 1M tokens (large)
- Google: Free at√© limite, depois $0.15 por 1M tokens

üí° **Analogia:** √â como um t√°xi - voc√™ paga pela "dist√¢ncia percorrida" (tokens processados), n√£o pelo n√∫mero de chamadas.

**Contagem exata vs estimada:**
- ‚úÖ **EXATA** (oficial): Retornada pela API (usada neste notebook)
- ‚ùå **ESTIMADA** (heur√≠stica): ~4 chars = 1 token (imprecisa)

In [3]:

# OpenAI embedding wrapper
def openai_embedding(text: str, model: str = 'text-embedding-3-small', return_usage: bool = False) -> Tuple[List[float], Optional[int]]:
    client = OpenAI(api_key=os.getenv('OPENAI_API_KEY'))
    resp = client.embeddings.create(input=text, model=model)
    emb = resp.data[0].embedding
    if return_usage:
        usage = getattr(resp, 'usage', None)
        total_tokens = getattr(usage, 'total_tokens', None) if usage is not None else None
        return emb, total_tokens
    return emb, None


## üîç Implementa√ß√£o REST da API Google (Detalhes T√©cnicos)

A fun√ß√£o `google_embedding` usa **duas abordagens** dependendo da necessidade:

##### Modo 1: `return_usage=True` (Tokens Exatos)

**Fluxo completo:**

```text
1. POST https://generativelanguage.googleapis.com/v1beta/models/{model}:embedContent
   ‚Üì
2. Recebe: embedding + metadados (pode incluir tokenCount)
   ‚Üì
3. Se tokenCount n√£o vier, faz 2¬™ chamada:
   POST .../{model}:countTokens
   ‚Üì
4. Retorna: (embedding, token_count_exato)
```

**Endpoints usados:**
- `:embedContent` - Gera embeddings + retorna metadados
- `:countTokens` - Conta tokens de um texto (fallback)

##### Modo 2: `return_usage=False` (Simples)

**Fluxo simplificado:**

```text
1. Usa GoogleGenerativeAIEmbeddings do LangChain
   ‚Üì
2. Retorna apenas embedding (sem contagem de tokens)
```

### Por que usar REST direta?

| Aspecto | Google REST | OpenAI REST | LangChain |
|---------|-------------|-------------|-----------|
| **Token count** | ‚úÖ Exato (embedContent/countTokens) | ‚úÖ Exato (response.usage.total_tokens) | ‚ùå Nem sempre dispon√≠vel |
| **Metadados** | ‚úÖ Completos | ‚úÖ Completos | ‚ö†Ô∏è Limitados (depende do wrapper) |
| **Simplicidade** | ‚ùå Mais c√≥digo (requests + parsing) | ‚úÖ SDK simplifica | ‚úÖ Mais f√°cil (integra√ß√£o LangChain) |
| **Conflitos** | ‚úÖ Nenhum | ‚úÖ Nenhum | ‚ö†Ô∏è Poss√≠vel com google-generativeai |

### Fallback robusto

Se a REST API falhar (rede, erro tempor√°rio):
```python
try:
    # Tenta REST API
    embedding = rest_api_call()
except:
    # Fallback para LangChain + estimativa
    embedding = langchain_call()
    tokens = estimate_tokens(text)  # ~1 token por 4 chars
```

### üìñ Documenta√ß√£o oficial:

- **embedContent**: https://ai.google.dev/api/rest/v1beta/models/embedContent
- **countTokens**: https://ai.google.dev/api/rest/v1beta/models/countTokens
- **Pricing**: https://ai.google.dev/gemini-api/docs/pricing#gemini-embedding

üí° **Dica:** Para casos simples, use LangChain. Para controle de custos preciso, use REST direta.

In [4]:

# Google embedding wrapper (retorna embedding e tokens exatos via REST API)
def google_embedding(text: str, model: str = 'gemini-embedding-001', return_usage: bool = True) -> Tuple[List[float], Optional[int]]:        
    """
    Gera embeddings usando Google Gemini.
    
    Quando return_usage=True, usa REST API direta para obter token count exato.
    Quando return_usage=False, usa LangChain para simplicidade.
    """
    if return_usage:
        # Usar REST API direta para obter metadados completos incluindo token count
        import requests
        
        api_key = os.getenv('GOOGLE_API_KEY')
        if not api_key:
            raise ValueError('GOOGLE_API_KEY n√£o encontrada nas vari√°veis de ambiente')
        
        url = f'https://generativelanguage.googleapis.com/v1beta/models/{model}:embedContent?key={api_key}'
        
        headers = {
            'Content-Type': 'application/json'
        }
        
        payload = {
            'model': f'models/{model}',
            'content': {
                'parts': [{'text': text}]
            }
        }
        
        try:
            response = requests.post(url, headers=headers, json=payload)
            response.raise_for_status()
            
            data = response.json()
            
            # Extrair embedding
            embedding = data.get('embedding', {}).get('values', [])
            
            # Extrair token count (pode estar em diferentes locais dependendo da vers√£o da API)
            token_count = None
            
            # Tentar extrair de metadata
            if 'metadata' in data:
                token_count = data['metadata'].get('tokenCount')
            
            # Fallback: usar a API de count tokens se n√£o vier na resposta
            if token_count is None:
                count_url = f'https://generativelanguage.googleapis.com/v1beta/models/{model}:countTokens?key={api_key}'
                count_payload = {
                    'contents': [{'parts': [{'text': text}]}]
                }
                count_response = requests.post(count_url, headers=headers, json=count_payload)
                if count_response.status_code == 200:
                    count_data = count_response.json()
                    token_count = count_data.get('totalTokens')
            
            return list(embedding), token_count
            
        except requests.exceptions.RequestException as e:
            print(f'Erro na chamada REST API do Google: {e}')
            # Fallback para LangChain com estimativa
            emb = GoogleGenerativeAIEmbeddings(model=model).embed_query(text)
            estimated_tokens = len(text) // 4
            return list(emb), estimated_tokens
    else:
        # Usar LangChain quando n√£o precisar de usage (mais simples)
        emb = GoogleGenerativeAIEmbeddings(model=model).embed_query(text)
        return list(emb), None


## üß™ Passo 4: Experimento Pr√°tico

Vamos gerar embeddings para **3 frases cuidadosamente escolhidas** e medir similaridade.

### Dataset de teste:

| # | Frase | Conceito |
|---|-------|----------|
| 1 | "O gato √© um animal dom√©stico" | Animais/Pets |
| 2 | "O gato √© um felino de estima√ß√£o" | Animais/Pets |
| 3 | "A programa√ß√£o √© importante para engenheiros de software" | Tecnologia |

### O que esperamos?

‚úÖ **Similaridade 1-2 ALTA** (>0.8)
- Ambas falam de **gatos** como **animais de estima√ß√£o**
- Conceitos semanticamente id√™nticos
- Embeddings deveriam ser muito pr√≥ximos

‚úÖ **Similaridade 1-3 BAIXA** (<0.4)
- Conceitos completamente **distintos** (animais vs tecnologia)
- Sem rela√ß√£o sem√¢ntica
- Embeddings deveriam ser distantes

üí° **Analogia:** √â como testar se um detector de cores consegue distinguir:
- Vermelho vs Rosa (similar) ‚Üí Deveria dar score alto
- Vermelho vs Azul (diferente) ‚Üí Deveria dar score baixo
- **Grande diferen√ßa** = Detector funciona bem!

In [5]:
# Exemplo e compara√ß√£o: gerar embeddings e calcular similaridade

def cosine_sim(v1, v2):
    v1 = np.array(v1)
    v2 = np.array(v2)
    return float(np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2)))

texts = [
    'O gato √© um animal dom√©stico',
    'O gato √© um felino de estima√ß√£o',
    'A programa√ß√£o √© importante para engenheiros de software'
]

emb1 = emb2 = emb3 = None
backend = None


## üìê Similaridade Cosseno - Fundamentos Matem√°ticos

A **similaridade cosseno** √© a m√©trica mais usada para comparar embeddings. Ela mede o **√¢ngulo entre dois vetores** no espa√ßo multidimensional.

### Intui√ß√£o visual:

```text
Espa√ßo 2D (simplificado):

Vetor A (texto 1): ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚Üí (dire√ß√£o: 30¬∞)
Vetor B (texto 2): ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚Üí  (dire√ß√£o: 35¬∞)  ‚Üê √Çngulo pequeno = SIMILAR
Vetor C (texto 3):    ‚Üì      (dire√ß√£o: 90¬∞)  ‚Üê √Çngulo grande = DIFERENTE
                      
Similaridade A-B: cos(5¬∞) ‚âà 0.996 (muito similar!)
Similaridade A-C: cos(60¬∞) ‚âà 0.5 (moderado)
Similaridade A-D: cos(90¬∞) = 0.0 (perpendiculares, sem rela√ß√£o)
```

### F√≥rmula matem√°tica:

$$
\text{cosine\_similarity}(v_1, v_2) = \frac{v_1 \cdot v_2}{\|v_1\| \times \|v_2\|}
$$

**Componentes:**
- $v_1 \cdot v_2$ = **Produto escalar** (dot product)
  - Soma dos produtos elemento a elemento: $\sum_{i} v_{1i} \times v_{2i}$
- $\|v_1\|$ = **Norma L2** do vetor 1
  - Comprimento do vetor: $\sqrt{\sum_{i} v_{1i}^2}$
- $\|v_2\|$ = **Norma L2** do vetor 2

### Interpreta√ß√£o dos valores:

| Valor | √Çngulo | Significado | Exemplo |
|-------|--------|-------------|---------|
| **1.0** | 0¬∞ | Vetores id√™nticos | Mesma frase repetida |
| **0.9 - 0.99** | 0¬∞ - 26¬∞ | Muito similares | "Gato" vs "Felino" |
| **0.7 - 0.89** | 26¬∞ - 45¬∞ | Similares | "Cachorro" vs "Animal" |
| **0.5 - 0.69** | 45¬∞ - 60¬∞ | Moderadamente relacionados | "Cachorro" vs "Treinamento" |
| **0.3 - 0.49** | 60¬∞ - 73¬∞ | Pouco relacionados | "Cachorro" vs "Computador" |
| **0.0 - 0.29** | 73¬∞ - 90¬∞ | Sem rela√ß√£o | "Gato" vs "Matem√°tica" |
| **0.0** | 90¬∞ | Perpendiculares | Sem rela√ß√£o alguma |
| **-1.0** | 180¬∞ | Opostos | "Quente" vs "Frio" |

### Por que cosseno √© ideal para embeddings?

1. **Normalizado** ‚úÖ
   - Resultado sempre entre -1 e 1
   - F√°cil de interpretar e comparar

2. **Invariante √† magnitude** ‚úÖ
   - Divide pelas normas ‚Üí ignora "tamanho" do vetor
   - Foca apenas na **dire√ß√£o sem√¢ntica**
   - Textos longos e curtos compar√°veis

3. **Eficiente computacionalmente** ‚úÖ
   - Opera√ß√µes vetoriais r√°pidas com NumPy/GPU
   - $O(n)$ onde $n$ √© a dimens√£o do vetor

4. **Padr√£o da ind√∫stria** ‚úÖ
   - Usado por FAISS, Pinecone, Qdrant, Weaviate
   - Compat√≠vel com normaliza√ß√£o L2 (otimiza√ß√£o comum)

### Exemplo pr√°tico deste notebook:

Se os resultados mostrarem:
- **Sim(1,2) = 0.87** ‚Üí "Gato dom√©stico" e "Felino de estima√ß√£o" s√£o muito similares ‚úÖ
- **Sim(1,3) = 0.32** ‚Üí "Gato dom√©stico" e "Programa√ß√£o" t√™m pouca rela√ß√£o ‚úÖ
- **Diferen√ßa = 0.55** ‚Üí Modelo distingue muito bem os conceitos! üéØ

üí° **Dica:** Sempre normalize vetores antes de armazenar no banco (usa produto escalar simples = mais r√°pido).

In [6]:

# Tentar OpenAI (pequeno) -> OpenAI (large) -> Google -> Erro amig√°vel
openai_small_available = bool(os.getenv('OPENAI_API_KEY'))
openai_large_available = bool(os.getenv('OPENAI_API_KEY'))
google_available = bool(os.getenv('GOOGLE_API_KEY'))


In [7]:

# Fun√ß√£o helper para rodar OpenAI e obter uso

def get_openai_embeddings(texts_list, model_name):
    embeddings = []
    total_tokens = 0
    for t in texts_list:
        emb, usage = openai_embedding(t, model=model_name, return_usage=True)
        embeddings.append(emb)
        if usage is not None:
            try:
                total_tokens += int(usage)
            except Exception:
                pass
    return embeddings, total_tokens if total_tokens else None


In [8]:
# Aqui v√£o ser armazenados os resultados com os embeddings gerados pelas APIs da OpenAI e Google

# Exemplo de dicion√°rio para armazenar os resultados

# results = {
#    'openai_small': {'embeddings': [...], 'tokens': 123, 'dim': 1536},
#    'openai_large': {'embeddings': [...], 'tokens': 456, 'dim': 3072},
#    'google': {'embeddings': [...], 'tokens': 789, 'dim': 3072},
# }

results = {}

# OpenAI small
if openai_small_available:
    try:
        emb_small, tokens_small = get_openai_embeddings(texts, 'text-embedding-3-small')
        results['openai_small'] = {'embeddings': emb_small, 'tokens': tokens_small, 'dim': len(emb_small[0])}
    except Exception as e:
        print('Falha ao gerar embeddings OpenAI small:', e)


In [9]:
# OpenAI large
if openai_large_available:
    try:
        emb_large, tokens_large = get_openai_embeddings(texts, 'text-embedding-3-large')
        results['openai_large'] = {'embeddings': emb_large, 'tokens': tokens_large, 'dim': len(emb_large[0])}
    except Exception as e:
        print('Falha ao gerar embeddings OpenAI large:', e)


In [10]:
# Google embeddings
if google_available:
    try:
        # Gera os embeddings com a API REST para obter token count exato
        emb_google = [google_embedding(t, return_usage=True) for t in texts]
        
        # Armazenar resultados
        results["google"] = {
            "embeddings": [e[0] for e in emb_google],
            "tokens": [e[1] for e in emb_google],
            "dim": len(emb_google[0][0]),
        }
    except Exception as e:
        print("Falha ao gerar embeddings Google:", e)

In [11]:
# Mostrar resultados: dimens√£o, primeiros 5 valores e similaridades por backend
# Garantir que results_cost exista (pode ter sido criado em c√©lula futura)
if 'results_cost' not in globals():
    results_cost = {}

for k, v in results.items():
    print('\nBackend:', k)
    print('Dimens√£o:', v['dim'])

    # Mapear provider e m√©todo
    if k.startswith('openai'):
        provider = 'OpenAI'
        method = 'SDK'
    elif k == 'google':
        provider = 'Google'
        method = 'REST'
    else:
        provider = 'Other'
        method = 'Unknown'

    print(f'Provider: {provider}  Method: {method}')

    # Exibir tokens (somar se for lista)
    tokens_value = v.get('tokens')
    if isinstance(tokens_value, list):
        total_tokens = sum(t for t in tokens_value if t is not None)
        print(f'Tokens (se dispon√≠vel): {total_tokens} (total de {len(tokens_value)} chamadas)')
    else:
        print('Tokens (se dispon√≠vel):', tokens_value)

    for i, e in enumerate(v['embeddings']):
        print(f' Embedding {i+1} primeiros 5:', e[:5])
        
    # calcular similaridade
    sim_12 = cosine_sim(v['embeddings'][0], v['embeddings'][1])
    sim_13 = cosine_sim(v['embeddings'][0], v['embeddings'][2])
    print(f' Similaridade 1-2: {sim_12:.4f}')
    print(f' Similaridade 1-3: {sim_13:.4f}')

    est_cost = results_cost.get(k)
    print(f' Est Cost USD (aproximado): {est_cost if est_cost is not None else "N/A"}')



Backend: openai_small
Dimens√£o: 1536
Provider: OpenAI  Method: SDK
Tokens (se dispon√≠vel): 32
 Embedding 1 primeiros 5: [0.001428517745807767, -0.004510881379246712, -0.04022705927491188, 0.04195206239819527, 0.015516397543251514]
 Embedding 2 primeiros 5: [-0.012964113615453243, 0.009385946206748486, -0.061422210186719894, 0.0561358705163002, 0.017261510714888573]
 Embedding 3 primeiros 5: [0.019466428086161613, 0.027966158464550972, -0.0038620447739958763, -0.009738600812852383, 0.04860682040452957]
 Similaridade 1-2: 0.8135
 Similaridade 1-3: 0.1420
 Est Cost USD (aproximado): N/A

Backend: openai_large
Dimens√£o: 3072
Provider: OpenAI  Method: SDK
Tokens (se dispon√≠vel): 32
 Embedding 1 primeiros 5: [-0.021800197660923004, 0.039917152374982834, -0.00277250399813056, 0.0035163466818630695, 0.010698671452701092]
 Embedding 2 primeiros 5: [-0.016434069722890854, 0.02808525785803795, -0.002878795610740781, -0.02375573106110096, 0.024798443540930748]
 Embedding 3 primeiros 5: [0.000

## üìä Interpretando os Resultados Comparativos

Nesta se√ß√£o, comparamos **3 modelos de embeddings** em m√∫ltiplas dimens√µes:

### Modelos testados:

| Modelo | Dimens√µes | Provedor | Otimizado para |
|--------|-----------|----------|----------------|
| **text-embedding-3-small** | 1536 | OpenAI | Velocidade e custo |
| **text-embedding-3-large** | 3072 | OpenAI | M√°xima qualidade |
| **gemini-embedding-001** | 3072 | Google | M√°xima qualidade |

### M√©tricas analisadas:

#### 1. **Dimensionalidade (dim)**

**O que √©:** N√∫mero de componentes no vetor de embedding.

| Dimens√µes | Implica√ß√µes |
|-----------|-------------|
| **768** | ‚úÖ Leve, r√°pido, menor custo de armazenamento |
| **1536** | üü° Equil√≠brio qualidade/performance |
| **3072** | üî¥ M√°xima qualidade, mas 2x mais pesado |

üí° **Analogia:** √â como resolu√ß√£o de imagem:
- 768 = HD (suficiente para maioria)
- 1536 = Full HD (√≥timo equil√≠brio)
- 3072 = 4K (m√°ximo detalhe, mas arquivo grande)

#### 2. **Tokens (contagem exata)**

**O que √©:** Unidade de processamento das APIs (palavras, subpalavras, caracteres).

**Fontes dos dados:**
- OpenAI: `response.usage.total_tokens` (oficial)
- Google: REST API `:embedContent` ou `:countTokens` (oficial)

**Por que importa:**
- üîë Determina o **custo exato** da opera√ß√£o
- üìä Permite comparar efici√™ncia de tokeniza√ß√£o entre APIs
- üí∞ Essencial para planejamento de budget

**Compara√ß√£o t√≠pica:**

```text
Texto: "O gato √© um animal dom√©stico" (7 palavras)

OpenAI: ~6 tokens (tokeniza√ß√£o BPE otimizada¬π)
Google: ~8 tokens (tokeniza√ß√£o mais granular)
```

> ¬π Tokeniza√ß√£o BPE otimizada √© uma t√©cnica que divide palavras em subunidades frequentes, reduzindo o n√∫mero total de tokens para textos comuns.
> - BPE (Byte Pair Encoding) √© uma t√©cnica de tokeniza√ß√£o por subpalavras: ela representa textos como tokens que podem ser caracteres, subpalavras ou combina√ß√µes frequentes.
> - ‚ÄúBPE otimizada‚Äù significa que o vocabul√°rio e as regras de merge foram ajustados para esse modelo espec√≠fico, gerando:
>   - menos tokens por texto (melhor compress√£o),
>   - mais tokens inteiros relevantes (menos fragmenta√ß√£o),
>   - e geralmente resultados mais eficientes (custo e lat√™ncia menores).
> 
> Em resumo: em vez de dividir cada palavra em muitos peda√ßos, o modelo usa pares/substrings mais ‚Äúinteligentes‚Äù e frequentes para reduzir tokens




#### 3. **Primeiros 5 valores do embedding**

**O que √©:** Amostra dos componentes do vetor.

**Para que serve:**
- ‚úÖ Verificar distribui√ß√£o dos valores (normalmente -1 a +1)
- ‚úÖ Detectar anomalias (valores extremos, NaN)
- ‚úÖ Comparar escala entre modelos

**Exemplo:**
```python
[0.0234, -0.1567, 0.0891, -0.0456, 0.1234]
```

#### 4. **Similaridade 1-2 vs 1-3**

**O que esperamos:**

```
| Sim(1,2) >> Sim(1,3) |
|   ‚Üì           ‚Üì      |
| ALTA       BAIXA     |
| (>0.8)     (<0.5)    |
```

**Interpreta√ß√£o:**

| Cen√°rio | Sim(1,2) | Sim(1,3) | Diferen√ßa | Avalia√ß√£o |
|---------|----------|----------|-----------|-----------|
| **Ideal** | 0.89 | 0.28 | 0.61 | üü¢ Excelente discrimina√ß√£o |
| **Bom** | 0.85 | 0.45 | 0.40 | üü° Boa discrimina√ß√£o |
| **Moderado** | 0.78 | 0.58 | 0.20 | üü† Discrimina√ß√£o fraca |
| **Ruim** | 0.72 | 0.68 | 0.04 | üî¥ Modelo n√£o distingue conceitos |

### Como ler os resultados:

**Exemplo de sa√≠da:**
```
| Backend: openai_small                                                 |
| Dimens√£o: 1536                                                        |
| Tokens: 18                                                            |
| Embedding 1 primeiros 5: [0.0234, -0.1567, 0.0891, -0.0456, 0.1234]   |
| Embedding 2 primeiros 5: [0.0198, -0.1489, 0.0923, -0.0412, 0.1189]   |
| Embedding 3 primeiros 5: [-0.0876, 0.0234, -0.1123, 0.0567, -0.0234]  |
| Similaridade 1-2: 0.8932  ‚Üê ALTA ‚úÖ (textos similares)                |
| Similaridade 1-3: 0.2134  ‚Üê BAIXA ‚úÖ (textos diferentes)              |
```

**An√°lise:**
- ‚úÖ Diferen√ßa de 0.68 = Excelente!
- ‚úÖ Modelo captura sem√¢ntica corretamente
- ‚úÖ Pronto para uso em RAG/busca sem√¢ntica

### Fatores que afetam similaridade:

1. **Qualidade do modelo**
   - Modelos maiores (3072 dim) tendem a ter melhor discrimina√ß√£o
   - Mas nem sempre: depende do treinamento

2. **Dom√≠nio do texto**
   - Modelos treinados em textos gerais funcionam bem para casos gerais
   - Dom√≠nios espec√≠ficos (m√©dico, legal) podem precisar fine-tuning

3. **Tamanho do texto**
   - Textos muito curtos (<5 palavras): mais dif√≠cil distinguir
   - Textos longos (>100 palavras): embeddings mais est√°veis

### Quando um modelo √© considerado bom?

‚úÖ **Crit√©rios de qualidade:**
- [ ] Similaridade 1-2 > 0.75 (conceitos similares agrupados)
- [ ] Similaridade 1-3 < 0.50 (conceitos distintos separados)
- [ ] Diferen√ßa > 0.30 (boa discrimina√ß√£o)
- [ ] Tokens compat√≠veis com budget (custo aceit√°vel)
- [ ] Dimens√µes adequadas para infraestrutura (armazenamento/consulta)

### Compara√ß√£o custo vs qualidade:

```text
Trade-off t√≠pico:

Qualidade Alta ‚îÇ  text-emb-3-large (3072 dim, $0.13/1M)
               ‚îÇ  gemini-emb-001   (3072 dim, free/baixo custo, depois $0.15/1M)
Qualidade Boa  ‚îÇ  text-emb-3-small (1536 dim, $0.02/1M)
               ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
                 Custo Baixo    ‚Üí    Custo Alto
```

üí° **Recomenda√ß√£o geral:**
- **Prototipagem**: text-embedding-3-small (r√°pido, barato)
- **Produ√ß√£o m√©dia escala**: gemini-embedding-001 (free tier generoso)
- **Produ√ß√£o alta qualidade**: text-embedding-3-large (m√°xima precis√£o)

## üí∞ Pre√ßos Oficiais das APIs (Atualizado Dez/2025)

### Tabela de pre√ßos por modelo:

| Modelo | Dimens√µes | Pre√ßo por 1M tokens | Pre√ßo por 1K tokens | Provedor |
|--------|-----------|---------------------|---------------------|----------|
| **text-embedding-3-small** | 1536 | $0.020 | $0.00002 | OpenAI |
| **text-embedding-3-large** | 3072 | $0.130 | $0.00013 | OpenAI |
| **gemini-embedding-001** | 3072 | $0.150 * | $0.00015 | Google |

**\* Google oferece free tier generoso:**
- Primeiros 1M tokens/m√™s: **GR√ÅTIS** (permite a Google treinar seus modelos)
- Depois: $0.15 por 1M tokens

### Exemplo de c√°lculo de custo:

```python
Texto: "O gato √© um animal dom√©stico"
Tokens: ~8 tokens (varia por tokenizador)

# OpenAI small
custo = (8 / 1_000_000) * 0.020 = $0.00000016

# OpenAI large  
custo = (8 / 1_000_000) * 0.130 = $0.00000104

# Google
custo = (8 / 1_000_000) * 0.150 = $0.00000120
```

### Compara√ß√£o de custo por opera√ß√£o:

| Opera√ß√£o | Tokens | OpenAI small | OpenAI large | Google |
|----------|--------|--------------|--------------|--------|
| **1 frase curta** | ~8 | $0.0000002 | $0.0000010 | $0.0000012 |
| **1 par√°grafo** | ~100 | $0.000002 | $0.000013 | $0.000015 |
| **1 documento** | ~1000 | $0.00002 | $0.00013 | $0.00015 |
| **10K documentos** | 1M | $0.02 | $0.13 | $0.15 |

### An√°lise custo-benef√≠cio:

**Cen√°rio 1: Startup (baixo volume)**
```
‚úÖ Recomenda√ß√£o: Google Gemini
üìä Volume: <1M tokens/m√™s
üí∞ Custo: $0 (free tier)
üéØ Qualidade: Boa (768 dim)
```

**Cen√°rio 2: Empresa m√©dia (m√©dio volume)**
```
‚úÖ Recomenda√ß√£o: OpenAI text-embedding-3-small
üìä Volume: 10M-100M tokens/m√™s
üí∞ Custo: $0.20 - $2.00/m√™s
üéØ Qualidade: Excelente (1536 dim)
```

**Cen√°rio 3: Enterprise (alto volume + m√°xima qualidade)**
```
‚úÖ Recomenda√ß√£o: OpenAI text-embedding-3-large
üìä Volume: >100M tokens/m√™s
üí∞ Custo: ~$13/m√™s por 100M
üéØ Qualidade: State-of-the-art (3072 dim)
```

### Refer√™ncias oficiais:

**OpenAI Pricing:**
- üåê https://platform.openai.com/docs/models
- üìñ Embedding models: https://platform.openai.com/docs/guides/embeddings

**Google AI Pricing:**
- üåê https://ai.google.dev/gemini-api/docs/pricing#gemini-embedding
- üìñ Free tier details: https://ai.google.dev/pricing

### üí° Dicas para reduzir custos:

1. **Cache de embeddings** ‚úÖ
   - Salve embeddings j√° calculados
   - Evite processar o mesmo texto 2x

2. **Batch processing** ‚úÖ
   - Agrupe m√∫ltiplos textos em uma chamada
   - Reduz overhead de rede

3. **Chunking inteligente** ‚úÖ
   - Divida documentos longos em peda√ßos
   - Use apenas chunks relevantes para embedding

4. **Modelo h√≠brido** ‚úÖ
   - Use modelo pequeno para filtragem inicial
   - Aplique modelo grande apenas no top-k

5. **Monitoramento de uso** ‚úÖ
   - Configure alertas de gastos
   - Revise logs de consumo mensalmente

**‚ö†Ô∏è Importante:** Pre√ßos podem mudar. Sempre consulte documenta√ß√£o oficial antes de decis√µes de arquitetura.

In [12]:
# Estimativa de custos (usa pre√ßos p√∫blicos quando poss√≠vel)
from math import ceil

PRICING = {
    'openai_text-embedding-3-small': {'per_1k_tokens_usd': 0.00002},
    'openai_text-embedding-3-large': {'per_1k_tokens_usd': 0.00013},
    'google_gemini-embedding-001': {'per_1k_tokens_usd': 0.00015}
}


## üßÆ Metodologia de C√°lculo de Custos

### Como calculamos o custo EXATO:

Diferente de muitos tutoriais que usam **estimativas**, este notebook obt√©m **tokens reais** diretamente das APIs oficiais.

### Fontes de token count:

#### OpenAI (oficial):
```python
response = client.embeddings.create(input=text, model=model)
tokens = response.usage.total_tokens  # ‚Üê EXATO da API
```

**Campos dispon√≠veis:**
- `prompt_tokens` - Tokens do input
- `total_tokens` - Total processado
- Retornado em **toda** chamada (sem custo adicional)

#### Google (oficial via REST):
```python
# M√©todo 1: embedContent (retorna embedding + metadados)
POST /v1beta/models/{model}:embedContent
‚Üí response.metadata.tokenCount  # ‚Üê EXATO

# M√©todo 2: countTokens (apenas contagem)
POST /v1beta/models/{model}:countTokens
‚Üí response.totalTokens  # ‚Üê EXATO
```

**Vantagens da abordagem REST:**
- ‚úÖ Token count oficial (n√£o estimado)
- ‚úÖ Sem custo adicional pela contagem
- ‚úÖ Mesmo tokenizador usado internamente

### F√≥rmula de custo:

$$
\text{Custo (USD)} = \frac{\text{Tokens}}{1000} \times \text{Pre√ßo por 1K tokens}
$$

**Exemplo pr√°tico:**
```python
# Dados reais do notebook
text = "O gato √© um animal dom√©stico"
tokens = 8  # ‚Üê Retornado pela API OpenAI
price_per_1k = 0.00002  # text-embedding-3-small

cost = (8 / 1000) * 0.00002
     = 0.008 * 0.00002
     = $0.00000016
```

### Compara√ß√£o: Tokens Exatos vs Estimados

| M√©todo | Precis√£o | Como funciona | Quando usar |
|--------|----------|---------------|-------------|
| **Exato (API)** | ‚úÖ 100% | Retornado pela API oficial | ‚úÖ Sempre preferir |
| **Estimado (heur√≠stica)** | ‚ùå ~70-90% | 1 token ‚âà 4 chars ou 1.3 palavras | Fallback apenas |

**Por que estimativas s√£o imprecisas:**

```python
Texto: "OpenAI"

# Estimativa (1 palavra = 1.3 tokens)
estimated = 1 * 1.3 = 1.3 tokens

# Real (tokenizador BPE)
real = 2 tokens  # ["Open", "AI"]

# Erro: ~54% !
```

**Tokenizadores diferentes = contagens diferentes:**
- OpenAI usa **BPE** (Byte Pair Encoding)
- Google usa tokenizador pr√≥prio
- Mesma frase pode ter contagens distintas!

### Estrutura de dados do notebook:

```python
results = {
    'openai_small': {
        'embeddings': [[...], [...], [...]],  # 3 vetores
        'tokens': 18,                          # ‚Üê EXATO
        'dim': 1536
    },
    'google': {
        'embeddings': [[...], [...], [...]],
        'tokens': [7, 6, 8],  # ‚Üê EXATO (um por chamada)
        'dim': 768
    }
}
```

### Limita√ß√µes e recomenda√ß√µes:

**Limita√ß√µes:**
- ‚ö†Ô∏è Pre√ßos em `PRICING` dict devem ser **atualizados manualmente**
- ‚ö†Ô∏è APIs podem mudar estrutura de resposta (raro, mas poss√≠vel)
- ‚ö†Ô∏è Free tiers t√™m limites (verificar quotas)

**Recomenda√ß√µes:**
1. ‚úÖ **Use token count oficial** sempre que dispon√≠vel
2. ‚úÖ **Valide pre√ßos** periodicamente (links na c√©lula anterior)
3. ‚úÖ **Monitore consumo** com dashboards das plataformas:
   - OpenAI: https://platform.openai.com/usage
   - Google: https://console.cloud.google.com/billing
4. ‚úÖ **Configure alertas** de gastos ($5, $10, $50)
5. ‚úÖ **Documente custos** em produ√ß√£o para auditorias

### Fallback para estimativa:

```python
# S√≥ usar se API n√£o retornar tokens
def estimate_tokens_from_text(text: str) -> int:
    """
    Heur√≠stica: ~1.3 tokens por palavra
    Imprecisa, usar apenas como fallback!
    """
    words = text.split()
    return max(1, int(ceil(len(words) * 1.3)))
```

**Quando o fallback √© acionado:**
- ‚ùå Erro de rede (timeout, API offline)
- ‚ùå API retorna resposta sem campo `usage` ou `tokenCount`
- ‚ùå Chave de API inv√°lida (erro antes de retornar dados)

üí° **Dica:** Se voc√™ v√™ "usando estimativa" nos logs, investigue! Pode indicar problema na integra√ß√£o.

In [13]:
# Fun√ß√£o para calcular custo baseado em tokens exatos

def estimate_tokens_from_text(text: str) -> int:
    """
    Heur√≠stica para estimar tokens quando n√£o dispon√≠veis da API.
    Assume ~1.3 tokens por palavra (aproxima√ß√£o).
    """
    words = text.split()
    return max(1, int(ceil(len(words) * 1.3)))


def calculate_cost(model_key: str, tokens: int) -> float:
    """
    Calcula o custo baseado em tokens exatos e pre√ßos definidos em PRICING.
    
    Args:
        model_key: Chave do modelo no dicion√°rio PRICING
        tokens: N√∫mero exato de tokens processados
    
    Returns:
        Custo em USD
    """
    pricing = PRICING.get(model_key)
    if pricing is None:
        raise KeyError(f'Modelo {model_key} sem pre√ßo definido no PRICING dict')

    if 'per_1k_tokens_usd' not in pricing:
        raise KeyError(f'Modelo {model_key} sem estrutura de pre√ßo v√°lida')
    
    return (tokens / 1000.0) * pricing['per_1k_tokens_usd']


# Calcular custo para os resultados do notebook (results dict)
results_cost = {}

for k, v in results.items():
    # Mapear nome do resultado para chave do modelo
    model_key: str | None = None
    if k == 'openai_small':
        model_key = 'openai_text-embedding-3-small'
    elif k == 'openai_large':
        model_key = 'openai_text-embedding-3-large'
    elif k == 'google':
        model_key = 'google_gemini-embedding-001'
    
    # Validar que temos o model_key antes de continuar
    if model_key is None:
        print(f'‚ö†Ô∏è  Modelo desconhecido: {k} - pulando c√°lculo de custo')
        results_cost[k] = None
        continue

    tokens = v.get('tokens')
    cost = None
    
    try:
        if tokens is not None:
            # Para Google, tokens √© uma lista (um por chamada); somar todos
            if isinstance(tokens, list):
                total_tokens = sum(t for t in tokens if t is not None)
            else:
                total_tokens = tokens
            
            # Calcular custo com tokens reais
            if total_tokens > 0:
                cost = calculate_cost(model_key, total_tokens)
        else:
            # Fallback APENAS se tokens n√£o dispon√≠vel (n√£o deveria acontecer)
            print(f'‚ö†Ô∏è  Aviso: tokens n√£o dispon√≠vel para {k}, usando estimativa')
            total_tokens = sum(estimate_tokens_from_text(t) for t in texts)
            cost = calculate_cost(model_key, total_tokens)
            
    except Exception as e:
        print(f'‚ùå Erro ao calcular custo para {k}: {e}')
        cost = None
    
    results_cost[k] = cost

# Mostrar custos calculados
print('\nüí∞ Custos por modelo (esta execu√ß√£o):')
print('=' * 50)
for k, c in results_cost.items():
    if c is not None:
        print(f'{k:20} ‚Üí ${c:.8f} USD')
    else:
        print(f'{k:20} ‚Üí [erro no c√°lculo]')

print('\nüìå Observa√ß√£o: Valores baseados em tokens REAIS das APIs.')
print('   Revise PRICING periodicamente para manter pre√ßos atualizados.')


üí∞ Custos por modelo (esta execu√ß√£o):
openai_small         ‚Üí $0.00000064 USD
openai_large         ‚Üí $0.00000416 USD
google               ‚Üí $0.00000360 USD

üìå Observa√ß√£o: Valores baseados em tokens REAIS das APIs.
   Revise PRICING periodicamente para manter pre√ßos atualizados.


In [None]:
# 6) Gerar relat√≥rio: CSV + gr√°ficos + instru√ß√µes para exportar slides/PDF


# tentativas de import para pandas/matplotlib; se faltar, gerar CSV somente
have_pandas = False
have_matplotlib = False
pd = None
plt = None
try:
    import pandas as pd
    have_pandas = True
except Exception:
    pass
try:
    import matplotlib.pyplot as plt
    have_matplotlib = True
except Exception:
    pass

# Criar pasta para salvar resultados
out_dir = Path('../../data') / 'embeddings'
out_dir.mkdir(parents=True, exist_ok=True)

# Montar linhas para CSV
rows = []
for k, v in results.items():
    try:
        sim_12 = cosine_sim(v['embeddings'][0], v['embeddings'][1])
        sim_13 = cosine_sim(v['embeddings'][0], v['embeddings'][2])
    except Exception:
        sim_12 = None
        sim_13 = None
    
    # Normalizar tokens (somar se for lista)
    tokens_value = v.get('tokens')
    if isinstance(tokens_value, list):
        tokens_value = sum(t for t in tokens_value if t is not None)

    # Mapear provider e m√©todo (para compara√ß√£o direta OpenAI/Google)
    if k.startswith('openai'):
        provider = 'OpenAI'
        method = 'SDK'  # usamos o SDK OpenAI (openai python client)
    elif k == 'google':
        provider = 'Google'
        method = 'REST'  # usamos REST API para token count
    else:
        provider = 'Other'
        method = 'Unknown'
    
    rows.append({
        'model': k,
        'provider': provider,
        'method': method,
        'dim': v.get('dim'),
        'tokens': tokens_value,
        'sim_12': sim_12,
        'sim_13': sim_13,
        'est_cost_usd': results_cost.get(k)
    })

csv_path = out_dir / 'comparative_results.csv'
fieldnames = ['model', 'provider', 'method', 'dim', 'tokens', 'sim_12', 'sim_13', 'est_cost_usd']
with open(csv_path, 'w', newline='', encoding='utf-8') as f:
    writer = csv.DictWriter(f, fieldnames=fieldnames)
    writer.writeheader()
    for r in rows:
        writer.writerow(r)
# If pandas available, show DataFrame
if have_pandas and pd is not None:
    df = pd.DataFrame(rows)
    
    # Reorder columns to show provider/method first
    df = df[fieldnames]
    
    # Configurar pandas para exibir n√∫meros com mais casas decimais sem nota√ß√£o cient√≠fica
    pd.set_option('display.float_format', lambda x: f'{x:.8f}')
    
    print('\nDataFrame summary:')
    display(df)
else:
    print('\nCSV content preview:')
    for r in rows:
        print(r)

# Tentar criar plots se matplotlib estiver dispon√≠vel
if have_matplotlib and plt is not None:
    # Make arrays for plotting
    models = [r['model'] for r in rows]
    sim12 = [r['sim_12'] if r['sim_12'] is not None else 0 for r in rows]
    sim13 = [r['sim_13'] if r['sim_13'] is not None else 0 for r in rows]
    costs = [r['est_cost_usd'] if r['est_cost_usd'] is not None else 0 for r in rows]

    # Similarity bar chart
    plt.figure(figsize=(8, 4))
    x = range(len(models))
    plt.bar(x, sim12, width=0.4, label='Sim 1-2')
    plt.bar([i + 0.4 for i in x], sim13, width=0.4, label='Sim 1-3')
    plt.title('Similaridade (cosine) por modelo')
    plt.xticks([i + 0.2 for i in x], models)
    plt.ylim(0, 1)
    plt.legend()
    plt.tight_layout()
    plot1 = out_dir / 'similarity_comparison.png'
    plt.savefig(plot1)
    print(f'Saved plot to {plot1.resolve()}')
    plt.close()

    # Cost chart
    plt.figure(figsize=(6, 4))
    plt.bar(models, costs, color='orange')
    plt.title('Estimated cost per run (USD)')
    plt.ylabel('USD')
    plt.tight_layout()
    plot2 = out_dir / 'cost_comparison.png'
    plt.savefig(plot2)
    print(f'Saved plot to {plot2.resolve()}')
    plt.close()
else:
    print('\nMatplotlib or pandas not installed; plots skipped. To enable plots: pip install pandas matplotlib')

# Instru√ß√µes para exportar o notebook em slides/PDF
print('\nInstru√ß√µes para exportar o notebook como slides (Reveal.js) ou PDF:')
print('1) Para gerar slides HTML:')
print("   jupyter nbconvert --to slides notebooks/quick_test_classroom.ipynb --reveal-prefix 'https://cdnjs.cloudflare.com/ajax/libs/reveal.js/4.3.1/'")
print('2) Para gerar PDF (pode exigir LaTeX):')
print('   jupyter nbconvert --to pdf notebooks/quick_test_classroom.ipynb')



DataFrame summary:


Unnamed: 0,model,provider,method,dim,tokens,sim_12,sim_13,est_cost_usd
0,openai_small,OpenAI,SDK,1536,32,0.81346465,0.14203189,6.4e-07
1,openai_large,OpenAI,SDK,3072,32,0.84903881,0.23315865,4.16e-06
2,google,Google,REST,3072,24,0.88463019,0.53127521,3.6e-06


Saved plot to E:\01-projetos\11-work\11.34-engenharia-vetorial\data\embeddings\similarity_comparison.png
Saved plot to E:\01-projetos\11-work\11.34-engenharia-vetorial\data\embeddings\cost_comparison.png

Instru√ß√µes para exportar o notebook como slides (Reveal.js) ou PDF:
1) Para gerar slides HTML:
   jupyter nbconvert --to slides notebooks/quick_test_classroom.ipynb --reveal-prefix 'https://cdnjs.cloudflare.com/ajax/libs/reveal.js/4.3.1/'
2) Para gerar PDF (pode exigir LaTeX):
   jupyter nbconvert --to pdf notebooks/quick_test_classroom.ipynb


## üîç Novas colunas adicionadas (Provider, Method, Tokens, Est Cost USD)

Para facilitar compara√ß√µes entre **uso direto de APIs (Google/OpenAI)** e outras abordagens, adicionamos as colunas abaixo ao relat√≥rio e ao CSV:

- **Provider**: Provedor do embedding (ex: OpenAI, Google)  
- **Method**: 'REST' para chamadas REST diretas, 'SDK' para clientes/SDKs, 'Other' para alternativos  
- **Tokens**: Contagem exata de tokens retornada pela API (ou soma quando m√∫ltiplas chamadas)  
- **Est Cost USD**: Estimativa de custo por execu√ß√£o com base em token count e pre√ßos configurados no `PRICING`

Essas colunas ajudam a comparar n√£o s√≥ a qualidade do embedding (similaridade/diferen√ßa) mas tamb√©m o custo e a forma de integra√ß√£o (SDK vs REST).  

> Observa√ß√£o: mantivemos todas as colunas existentes (`Modelo`, `Dimens√µes`, `Tempo M√©dio`, `Sim 1-2`, `Sim 1-3`, `Diferen√ßa`) ‚Äî apenas acrescentamos novos dados para an√°lise.