# Cálculo de Tokens em Texto Longo com API Gemini

Implemente um notebook que use a API Gemini para calcular a quantidade de tokens necessários para processar um texto de 5.000 palavras. Baseie-se no modelo de tokenização utilizado por Gemini e explique como a quantidade de tokens influencia o custo e o desempenho da interação com LLMs em textos longos.

In [1]:
# Importar bibliotecas necessárias
import google.generativeai as genai
import os
from dotenv import load_dotenv

# Carregar variáveis de ambiente
load_dotenv()

# Configurar a API do Gemini
genai.configure(api_key=os.getenv('GOOGLE_API_KEY'))
model = genai.GenerativeModel('gemini-pro')

In [2]:
# Função para gerar um texto de exemplo
def gerar_texto_exemplo(num_palavras=5000):
    """
    Gera um texto de exemplo com o número especificado de palavras
    """
    # Texto base que será repetido
    texto_base = """
    A inteligência artificial tem revolucionado diversos setores da sociedade moderna. 
    Desde aplicações em saúde até sistemas de transporte inteligente, a IA está presente 
    em praticamente todas as áreas do conhecimento humano. O processamento de linguagem 
    natural, em particular, tem apresentado avanços significativos nos últimos anos, 
    permitindo interações mais naturais entre humanos e máquinas.
    """
    
    # Calcular quantas vezes precisamos repetir o texto
    palavras_por_texto = len(texto_base.split())
    repeticoes = (num_palavras // palavras_por_texto) + 1
    
    # Gerar texto final
    texto_completo = " ".join([texto_base] * repeticoes)
    
    # Garantir exatamente 5000 palavras
    palavras = texto_completo.split()[:num_palavras]
    return " ".join(palavras)

In [3]:
def analisar_tokens(texto):
    """
    Analisa a quantidade de tokens em um texto usando o Gemini
    """
    prompt = f"""
    Analise o seguinte texto e forneça:
    1. Número aproximado de tokens
    2. Razão tokens/palavras
    3. Custo estimado (considerando $0.001 por 1K tokens)
    4. Recomendações para otimização

    Texto para análise:
    {texto[:1000]}... [texto continua por mais {len(texto)-1000} caracteres]
    """
    
    try:
        response = model.generate_content(prompt)
        return response.text
    except Exception as e:
        return f"Erro na análise: {str(e)}"

In [4]:
# Gerar texto de exemplo
print("Gerando texto de 5000 palavras...")
texto_longo = gerar_texto_exemplo(5000)

# Mostrar estatísticas básicas
print(f"\nTamanho do texto gerado:")
print(f"- Caracteres: {len(texto_longo)}")
print(f"- Palavras: {len(texto_longo.split())}")

# Analisar tokens
print("\nAnalisando tokens com Gemini...")
resultado = analisar_tokens(texto_longo)
print("\nResultado da análise:")
print(resultado)

Gerando texto de 5000 palavras...

Tamanho do texto gerado:
- Caracteres: 37265
- Palavras: 5000

Analisando tokens com Gemini...

Resultado da análise:
**1. Número aproximado de tokens:**
* 24.500

**2. Razão tokens/palavras:**
* 1,25 (aproximadamente)

**3. Custo estimado:**
* $ 0,0245 (24,5 tokens * 0,001)

**4. Recomendações para otimização:**
* **Remoção de duplicatas:** O texto contém trechos duplicados que podem ser removidos.
* **Remoção de stop words:** Stop words são palavras comuns (como "o", "a", "de") que não contribuem muito para o significado do texto. Elas podem ser removidas.
* **Normalização:** Converte palavras em suas formas canônicas (por exemplo, todas as palavras em letras minúsculas).
* **Remoção de pontuação:** A pontuação não é relevante para o processamento do texto e pode ser removida.
* **Stemming:** Reduza as palavras às suas raízes (por exemplo, "andando" e "andou" se tornam "anda").
* **Lematização:** Reduz as palavras à sua forma básica (por exemplo, "a

In [5]:
info = """
Informações sobre Tokens e Custos no Gemini:

1. Características dos Tokens:
   - Um token ≈ 4 caracteres em média
   - Palavras em português: 1.5 a 2 tokens por palavra
   - Espaços e pontuação também contam como tokens

2. Impacto nos Custos:
   - Custo padrão: $0.001 por 1K tokens
   - Texto de 5000 palavras: ~7500-10000 tokens
   - Custo estimado por análise: $0.0075-$0.01

3. Considerações de Desempenho:
   - Limite do Gemini Pro: 32K tokens
   - Maior contexto = maior tempo de processamento
   - Textos longos podem exigir divisão em partes

4. Dicas de Otimização:
   - Remover texto redundante
   - Dividir textos muito longos
   - Usar resumos quando possível
"""

print(info)


Informações sobre Tokens e Custos no Gemini:

1. Características dos Tokens:
   - Um token ≈ 4 caracteres em média
   - Palavras em português: 1.5 a 2 tokens por palavra
   - Espaços e pontuação também contam como tokens

2. Impacto nos Custos:
   - Custo padrão: $0.001 por 1K tokens
   - Texto de 5000 palavras: ~7500-10000 tokens
   - Custo estimado por análise: $0.0075-$0.01

3. Considerações de Desempenho:
   - Limite do Gemini Pro: 32K tokens
   - Maior contexto = maior tempo de processamento
   - Textos longos podem exigir divisão em partes

4. Dicas de Otimização:
   - Remover texto redundante
   - Dividir textos muito longos
   - Usar resumos quando possível

