# Geração de Embeddings com Google Gemini

**Objetivo:** Gerar embeddings de textos usando o modelo Google Gemini via API.


In [12]:
import pandas as pd
import numpy as np
import pickle
import os
import time
import google.generativeai as genai
from dotenv import load_dotenv

# Carregar variáveis de ambiente (opcional, se usar .env)
load_dotenv()


  from .autonotebook import tqdm as notebook_tqdm


False

## 1. Configurar chave da API


In [13]:
import google.generativeai as genai

# --- Definir chave diretamente no código (apenas para testes locais) ---
api_key = "AIzaSyBB_U3VHjmGq3G-j4EblDI32eU-mcO7ebA"
# ----------------------------------------------------------------------

# Configurar o cliente Gemini
genai.configure(api_key=api_key)

# Definir modelo de embeddings (ou qualquer outro modelo)
model = "models/embedding-001"

print("API configurada com sucesso!")
print(f"Modelo selecionado: {model}")


API configurada com sucesso!
Modelo selecionado: models/embedding-001


## 2. Carregar dataset pré-processado


In [14]:
# Carregar dados pré-processados
with open('../data/processed/20news_preprocessed.pkl', 'rb') as f:
    data = pickle.load(f)

X_text = data['text']
y = data['target']
target_names = data['target_names']

print(f"Total de documentos: {len(X_text)}")
print(f"Classes: {target_names}")


Total de documentos: 5611
Classes: ['rec.autos', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.space', 'talk.politics.guns', 'talk.politics.mideast']


## 3. Função para gerar embeddings em lotes


## 3.5. Alternativa: Embeddings Locais (se API não disponível)

Se a API do Gemini não estiver disponível (quota excedida), você pode usar `sentence-transformers` para gerar embeddings localmente.


In [15]:
# Função alternativa usando sentence-transformers (não requer API)
def generate_embeddings_local(texts, model_name="all-MiniLM-L6-v2", batch_size=32, use_tqdm=True):
    """
    Gera embeddings usando sentence-transformers localmente.
    Não requer API, funciona offline após instalar a biblioteca.
    
    Para instalar: pip install sentence-transformers
    
    Args:
        texts: Lista de textos
        model_name: Nome do modelo sentence-transformers (padrão: all-MiniLM-L6-v2)
        batch_size: Tamanho do lote para processamento
        use_tqdm: Se True, usa barra de progresso
    
    Returns:
        Array numpy com embeddings
    """
    try:
        from sentence_transformers import SentenceTransformer
    except ImportError:
        raise ImportError(
            "sentence-transformers não está instalado!\n"
            "Instale com: pip install sentence-transformers"
        )
    
    print(f"Carregando modelo {model_name}...")
    model = SentenceTransformer(model_name)
    
    print(f"Gerando embeddings para {len(texts)} textos...")
    embeddings = model.encode(
        texts,
        batch_size=batch_size,
        show_progress_bar=use_tqdm,
        convert_to_numpy=True
    )
    
    print(f"Embeddings gerados! Shape: {embeddings.shape}")
    return embeddings


In [16]:
from tqdm import tqdm
from google.api_core import exceptions as google_exceptions

def generate_embeddings_batch(texts, model_name, batch_size=1, delay=2.0, use_tqdm=True):
    """
    Gera embeddings com controle rigoroso de rate limiting.
    
    IMPORTANTE: A API gratuita do Gemini tem limite de 0 para embeddings!
    Se receber erro 429, você precisa:
    1. Aguardar 24h para reset da quota diária, OU
    2. Usar um plano pago, OU
    3. Processar texto por texto com delay maior (2+ segundos)
    
    Args:
        texts: Lista de textos
        model_name: Nome do modelo (ex: "models/embedding-001")
        batch_size: Tamanho do lote (recomendado: 1 para free tier)
        delay: Delay em segundos entre requisições (recomendado: 2.0+ para free tier)
        use_tqdm: Se True, usa barra de progresso tqdm
    
    Returns:
        Array numpy com embeddings
    """
    embeddings = []
    n_batches = (len(texts) + batch_size - 1) // batch_size
    
    print(f"Gerando embeddings para {len(texts)} textos em {n_batches} lotes (batch_size={batch_size}, delay={delay}s)...")
    print("AVISO: Free tier tem limites restritivos. Processando lentamente...")
    
    # Criar barra de progresso
    if use_tqdm:
        pbar = tqdm(total=len(texts), desc="Gerando embeddings", unit="text")
    
    for i in range(0, len(texts), batch_size):
        batch = texts[i:i+batch_size]
        batch_num = i // batch_size + 1
        max_retries = 3
        retry_count = 0
        success = False
        
        while retry_count < max_retries and not success:
            try:
                # Gerar embeddings para o lote
                result = genai.embed_content(
                    model=model_name,
                    content=batch,
                    task_type="RETRIEVAL_DOCUMENT"
                )
                
                # Extrair embeddings - a API pode retornar de diferentes formas
                if isinstance(result, dict):
                    if 'embedding' in result:
                        batch_embeddings = result['embedding']
                        if isinstance(batch_embeddings, list):
                            # Se for lista de listas (um embedding por texto)
                            if len(batch_embeddings) > 0 and isinstance(batch_embeddings[0], list):
                                embeddings.extend(batch_embeddings)
                            else:
                                # Se for um único embedding
                                embeddings.extend([batch_embeddings])
                        else:
                            embeddings.append(batch_embeddings)
                    else:
                        # Tentar primeira chave
                        batch_embeddings = list(result.values())[0] if result else []
                        if isinstance(batch_embeddings, list):
                            embeddings.extend(batch_embeddings if isinstance(batch_embeddings[0], list) else [batch_embeddings])
                elif isinstance(result, list):
                    embeddings.extend(result)
                else:
                    embeddings.append(result)
                
                success = True
                if use_tqdm:
                    pbar.update(len(batch))
                else:
                    if batch_num % 10 == 0 or batch_num == n_batches:
                        print(f"Lote {batch_num}/{n_batches} concluído ({len(batch)} embedding(s))")
                
            except google_exceptions.ResourceExhausted as e:
                # Erro 429 - Quota excedida
                error_msg = str(e)
                if "free_tier" in error_msg.lower() or "limit: 0" in error_msg:
                    if use_tqdm:
                        pbar.close()
                    print(f"\n{'='*60}")
                    print("ERRO: Quota da API gratuita excedida!")
                    print("Soluções:")
                    print("1. Aguardar 24h para reset da quota diária")
                    print("2. Atualizar para plano pago no Google Cloud")
                    print("3. Verificar quota em: https://ai.dev/usage?tab=rate-limit")
                    print(f"{'='*60}")
                    raise Exception("Quota da API gratuita excedida. Consulte https://ai.google.dev/gemini-api/docs/rate-limits")
                
                # Rate limit temporário - aguardar e tentar novamente
                wait_time = delay * (2 ** retry_count)  # Backoff exponencial
                if use_tqdm:
                    pbar.set_description(f"Rate limit - aguardando {wait_time:.1f}s...")
                else:
                    print(f"Rate limit no lote {batch_num}. Aguardando {wait_time:.1f}s antes de retry {retry_count+1}/{max_retries}...")
                
                time.sleep(wait_time)
                retry_count += 1
                
            except Exception as e:
                error_msg = str(e)
                if "429" in error_msg or "quota" in error_msg.lower() or "ResourceExhausted" in error_msg:
                    wait_time = delay * (2 ** retry_count)
                    if use_tqdm:
                        pbar.set_description(f"Erro 429 - aguardando {wait_time:.1f}s...")
                    else:
                        print(f"Erro 429 no lote {batch_num}. Aguardando {wait_time:.1f}s...")
                    time.sleep(wait_time)
                    retry_count += 1
                else:
                    # Outro tipo de erro - não tentar novamente
                    if use_tqdm:
                        pbar.set_description(f"Erro no lote {batch_num}")
                    print(f"\nErro no lote {batch_num}: {error_msg[:200]}")
                    # Gerar embedding vazio para manter consistência
                    embedding_dim = 768 if len(embeddings) == 0 else len(embeddings[0])
                    embeddings.extend([[0.0] * embedding_dim] * len(batch))
                    if use_tqdm:
                        pbar.update(len(batch))
                    success = True  # Marcar como sucesso para não retry infinito
        
        if not success:
            # Após todas as tentativas falharem
            if use_tqdm:
                pbar.set_description(f"Erro persistente no lote {batch_num}")
            print(f"\nErro persistente no lote {batch_num} após {max_retries} tentativas")
            embedding_dim = 768 if len(embeddings) == 0 else len(embeddings[0])
            embeddings.extend([[0.0] * embedding_dim] * len(batch))
            if use_tqdm:
                pbar.update(len(batch))
        
        # Delay entre lotes para evitar rate limiting
        if i + batch_size < len(texts):
            time.sleep(delay)
    
    if use_tqdm:
        pbar.close()
    
    return np.array(embeddings)


## 4. Gerar embeddings


In [17]:
# Converter para lista de strings (se necessário)
texts_list = [str(text) for text in X_text]

# ============================================================================
# OPÇÃO 1: Tentar usar Gemini API (requer quota disponível)
# ============================================================================
USE_GEMINI = False  # Altere para True se tiver quota disponível na API

if USE_GEMINI:
    print("\n" + "="*60)
    print("TENTANDO GERAR EMBEDDINGS COM GEMINI API")
    print("="*60)
    print(f"Total de textos: {len(texts_list)}")
    print(f"Batch size: 1 (texto por texto)")
    print(f"Delay entre requisições: 2.0 segundos")
    print(f"Tempo estimado: ~{(len(texts_list) * 2.0) / 60:.1f} minutos (~{(len(texts_list) * 2.0) / 3600:.1f} horas)")
    print("="*60 + "\n")
    
    try:
        X_emb = generate_embeddings_batch(
            texts_list, 
            model, 
            batch_size=1,
            delay=2.0,
            use_tqdm=True
        )
        model_name_used = model
        print(f"\n{'='*60}")
        print(f"Embeddings gerados com GEMINI API!")
        print(f"Shape: {X_emb.shape}")
        print(f"Dimensão do embedding: {X_emb.shape[1]}")
        print(f"{'='*60}")
    except Exception as e:
        print(f"\n{'='*60}")
        print("ERRO ao usar Gemini API:")
        print(str(e)[:200])
        print("\nAlternando para embeddings locais (sentence-transformers)...")
        print("="*60 + "\n")
        USE_GEMINI = True

# ============================================================================
# OPÇÃO 2: Usar sentence-transformers (alternativa local, recomendada)
# ============================================================================
if not USE_GEMINI:
    print("\n" + "="*60)
    print("GERANDO EMBEDDINGS COM SENTENCE-TRANSFORMERS (LOCAL)")
    print("="*60)
    print("Vantagens:")
    print("  - Não requer API ou quota")
    print("  - Funciona offline")
    print("  - Muito mais rápido")
    print("  - Grátis e ilimitado")
    print("="*60 + "\n")
    
    # Modelo recomendado: all-MiniLM-L6-v2 (rápido e eficiente)
    # Outros modelos disponíveis: all-mpnet-base-v2, paraphrase-multilingual-MiniLM-L12-v2
    local_model_name = "all-MiniLM-L6-v2"
    
    X_emb = generate_embeddings_local(
        texts_list,
        model_name=local_model_name,
        batch_size=32,  # Pode ser maior para modelos locais
        use_tqdm=True
    )
    model_name_used = f"sentence-transformers/{local_model_name}"
    
    print(f"\n{'='*60}")
    print(f"Embeddings gerados com SENTENCE-TRANSFORMERS!")
    print(f"Shape: {X_emb.shape}")
    print(f"Dimensão do embedding: {X_emb.shape[1]}")
    print(f"Modelo usado: {model_name_used}")
    print(f"{'='*60}")



GERANDO EMBEDDINGS COM SENTENCE-TRANSFORMERS (LOCAL)
Vantagens:
  - Não requer API ou quota
  - Funciona offline
  - Muito mais rápido
  - Grátis e ilimitado

Carregando modelo all-MiniLM-L6-v2...
Gerando embeddings para 5611 textos...


Batches: 100%|██████████| 176/176 [00:48<00:00,  3.64it/s]

Embeddings gerados! Shape: (5611, 384)

Embeddings gerados com SENTENCE-TRANSFORMERS!
Shape: (5611, 384)
Dimensão do embedding: 384
Modelo usado: sentence-transformers/all-MiniLM-L6-v2





## 5. Salvar embeddings


In [18]:
# Criar diretório se não existir
os.makedirs('../data/processed', exist_ok=True)

# Preparar dados para salvar
data_to_save = {
    'X_emb': X_emb,
    'y': y,
    'target_names': target_names,
    'model_name': model_name_used  # Usar o modelo que foi efetivamente usado
}

# Salvar em pickle (nome do arquivo mantém "gemini" para compatibilidade, mas pode conter embeddings locais)
output_path = '../data/processed/embeddings_gemini.pkl'
with open(output_path, 'wb') as f:
    pickle.dump(data_to_save, f)

print(f"\n{'='*60}")
print(f"Embeddings salvos com sucesso!")
print(f"Arquivo: {output_path}")
print(f"Total de embeddings: {len(X_emb)}")
print(f"Dimensão: {X_emb.shape[1]}")
print(f"Modelo usado: {model_name_used}")
print(f"{'='*60}")



Embeddings salvos com sucesso!
Arquivo: ../data/processed/embeddings_gemini.pkl
Total de embeddings: 5611
Dimensão: 384
Modelo usado: sentence-transformers/all-MiniLM-L6-v2
