In [None]:
# Instala√ß√£o das depend√™ncias
!pip install torch>=2.0.0 transformers>=4.30.0 huggingface_hub>=0.15.0 numpy>=1.21.0 accelerate>=0.20.0


In [None]:
# Login no Hugging Face - Cole seu token quando solicitado
from huggingface_hub import login
login(new_session=False)


In [None]:
# Verifica√ß√£o de GPU dispon√≠vel
import torch

print("üîç Verificando hardware dispon√≠vel...")
print(f"GPU dispon√≠vel: {torch.cuda.is_available()}")

if torch.cuda.is_available():
    print(f"üéÆ Nome da GPU: {torch.cuda.get_device_name(0)}")
    print(f"üíæ Mem√≥ria GPU: {torch.cuda.get_device_properties(0).total_memory / 1e9:.1f} GB")
else:
    print("‚ö†Ô∏è  Executando em CPU - processo ser√° mais lento")


In [None]:
# Definindo o modelo que vamos usar
MODEL_ID = "google/gemma-3-4b-pt"
print(f"üìã Modelo selecionado: {MODEL_ID}")


In [None]:
# Importa√ß√µes necess√°rias
from transformers import (
    LogitsProcessor,           # Classe base para processar logits
    pipeline,                  # Interface simples para modelos
    AutoTokenizer,             # Conversor texto ‚Üî n√∫meros
    AutoModelForCausalLM       # Modelo de linguagem
)
import torch                   # Framework de deep learning
import numpy as np             # Opera√ß√µes num√©ricas
from typing import Dict        # Type hints para dicion√°rios

print("‚úÖ Todas as importa√ß√µes carregadas com sucesso!")


In [None]:
# Carregando modelo e tokenizer
print("üì• Carregando tokenizer...")
tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)

print("üì• Carregando modelo (pode demorar alguns minutos)...")
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    torch_dtype=torch.float16,    # Usa menos mem√≥ria
    device_map="auto"             # Distribui automaticamente na GPU/CPU
)

print("‚úÖ Modelo e tokenizer carregados com sucesso!")
print(f"üìä Vocabul√°rio do tokenizer: {len(tokenizer.vocab):,} tokens")


In [None]:
# Classe para controlar a gera√ß√£o de texto
class CustomLogitsProcessor(LogitsProcessor):
    """
    Processor personalizado para aplicar regras na gera√ß√£o de texto
    """
    
    def __init__(self, tokenizer, regras_dict: Dict[str, float]):
        """
        Inicializa o processor com regras de masking
        
        Args:
            tokenizer: Tokenizer do modelo
            regras_dict: Dicion√°rio {palavra: peso}
                       - peso > 0: incentiva a palavra
                       - peso < 0: desincentiva a palavra  
                       - peso = 0: bloqueia completamente
        """
        self.tokenizer = tokenizer
        self.token_adjustments = {}
        
        # Converte palavras em token IDs
        for palavra, peso in regras_dict.items():
            # Encode da palavra (pode gerar m√∫ltiplos tokens)
            token_ids = tokenizer.encode(palavra, add_special_tokens=False)
            
            for token_id in token_ids:
                # Se peso = 0, bloqueia completamente (probabilidade -infinito)
                if peso == 0:
                    self.token_adjustments[token_id] = float('-inf')
                else:
                    self.token_adjustments[token_id] = peso
        
        print(f"‚úÖ Processor criado com {len(self.token_adjustments)} tokens ajustados")
    
    def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor) -> torch.FloatTensor:
        """
        Aplica as regras nos logits durante a gera√ß√£o
        
        Args:
            input_ids: Tokens j√° gerados
            scores: Probabilidades para pr√≥ximo token
            
        Returns:
            scores modificados com nossas regras
        """
        # Clona os scores para n√£o modificar o original
        modified_scores = scores.clone()
        
        # Aplica ajustes para cada token que temos regras
        for token_id, adjustment in self.token_adjustments.items():
            if adjustment == float('-inf'):
                # Bloqueia completamente
                modified_scores[:, token_id] = float('-inf')
            else:
                # Adiciona peso (positivo ou negativo)
                modified_scores[:, token_id] += adjustment
        
        return modified_scores


In [None]:
# Exemplo 1: Bloqueando palavras de impot√™ncia
print("üîí Exemplo: Bloqueando palavras que demonstram impot√™ncia")

# Definir regras - peso 0 = bloqueio total
regras_bloqueio = {
    "desculpe": 0,
    "infelizmente": 0, 
    "lamento": 0,
    "perd√£o": 0
}

# Criar processor com essas regras
processor_bloqueio = CustomLogitsProcessor(tokenizer, regras_bloqueio)

# Criar pipeline de gera√ß√£o
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    device_map="auto"
)

# Prompt de atendimento ao cliente
prompt_atendimento = """<|system|>
Voc√™ √© um atendente de e-commerce focado em solu√ß√µes. Seja direto e profissional.

Situa√ß√£o: Pedido #12345 est√° atrasado. Motivo: alto volume de entregas na regi√£o. Nova previs√£o: 2 dias √∫teis.
<|user|>
Meu pedido est√° atrasado e preciso dele urgente! N√£o aceito mais desculpas, quero uma solu√ß√£o!
<|assistant|>"""

# Gerar resposta COM bloqueio
print("\\nüìù Gerando resposta com palavras bloqueadas...")
response_blocked = pipe(
    prompt_atendimento,
    max_new_tokens=100,
    do_sample=True,
    temperature=0.7,
    logits_processor=[processor_bloqueio],
    pad_token_id=tokenizer.eos_token_id
)

print("\\n‚úÖ Resposta gerada:")
print(response_blocked[0]["generated_text"].split("<|assistant|>")[-1].strip())


In [None]:
# Compara√ß√£o: Gerando SEM bloqueio
print("üö´ Gerando resposta SEM bloqueio para compara√ß√£o...")

response_normal = pipe(
    prompt_atendimento,
    max_new_tokens=100,
    do_sample=True,
    temperature=0.7,
    # Sem logits_processor!
    pad_token_id=tokenizer.eos_token_id
)

print("\\nüìä COMPARA√á√ÉO DE RESULTADOS:")
print("=" * 60)

print("\\nüö´ SEM BLOQUEIO (modelo livre):")
print(response_normal[0]["generated_text"].split("<|assistant|>")[-1].strip())

print("\\n‚úÖ COM BLOQUEIO (palavras controladas):")  
print(response_blocked[0]["generated_text"].split("<|assistant|>")[-1].strip())

print("\\n" + "=" * 60)
print("üí° Observe a diferen√ßa no tom e nas palavras utilizadas!")


In [None]:
# Exemplo 2: Incentivando marcas espec√≠ficas
print("üéØ Exemplo: Influenciando recomenda√ß√µes de t√™nis")

# Regras para influenciar marcas
regras_marcas = {
    "New Balance": 3.0,    # Forte incentivo (parceria comercial)
    "Asics": 2.0,          # Incentivo moderado (boa margem)
    "Nike": -2.0,          # Desincentivo (menor margem)
    "Adidas": -2.0,        # Desincentivo (menor margem)
    "Puma": 0.5,           # Leve incentivo (neutro)
}

# Criar processor para marcas
processor_marcas = CustomLogitsProcessor(tokenizer, regras_marcas)

# Prompt de recomenda√ß√£o de t√™nis
prompt_tenis = """<|system|>
Voc√™ √© um assistente especializado em t√™nis esportivos. Recomende os melhores produtos do nosso cat√°logo considerando qualidade e custo-benef√≠cio.

Cat√°logo dispon√≠vel: Nike, Adidas, Asics, New Balance, Puma, Under Armour, Reebok, Mizuno, Saucony, Brooks
<|user|>
Preciso de um t√™nis de corrida para longas dist√¢ncias. Quais s√£o suas melhores recomenda√ß√µes?
<|assistant|>"""

# Gerar recomenda√ß√£o COM influ√™ncia de marcas
print("\\nüìù Gerando recomenda√ß√£o com marcas influenciadas...")
response_influenced = pipe(
    prompt_tenis,
    max_new_tokens=150,
    do_sample=True,
    temperature=0.8,
    logits_processor=[processor_marcas],
    pad_token_id=tokenizer.eos_token_id
)

print("\\n‚úÖ Recomenda√ß√£o com marcas influenciadas:")
print(response_influenced[0]["generated_text"].split("<|assistant|>")[-1].strip())


In [None]:
# Compara√ß√£o: Recomenda√ß√£o natural vs influenciada
print("üîÑ Gerando recomenda√ß√£o NATURAL para compara√ß√£o...")

response_natural = pipe(
    prompt_tenis,
    max_new_tokens=150,
    do_sample=True,
    temperature=0.8,
    # Sem logits_processor!
    pad_token_id=tokenizer.eos_token_id
)

print("\\nüìä COMPARA√á√ÉO DE RECOMENDA√á√ïES:")
print("=" * 80)

print("\\nüåø RECOMENDA√á√ÉO NATURAL (sem influ√™ncia):")
print(response_natural[0]["generated_text"].split("<|assistant|>")[-1].strip())

print("\\nüéØ RECOMENDA√á√ÉO INFLUENCIADA (com Logits Masking):")
print(response_influenced[0]["generated_text"].split("<|assistant|>")[-1].strip())

print("\\n" + "=" * 80)
print("üí° An√°lise:")
print("üìà Marcas incentivadas (New Balance, Asics) aparecem mais?")
print("üìâ Marcas desincentivadas (Nike, Adidas) aparecem menos?")
print("üéØ O modelo segue nossa estrat√©gia comercial?")


In [None]:
# üß™ √Årea de Experimenta√ß√£o
print("üß™ Use esta c√©lula para experimentar com suas pr√≥prias regras!")

# Exemplo: Crie suas pr√≥prias regras aqui
minhas_regras = {
    # Adicione suas palavras e pesos aqui
    # "palavra": peso
    # Exemplos:
    # "excelente": 2.0,    # Incentiva
    # "ruim": -3.0,        # Desincentiva  
    # "terr√≠vel": 0,       # Bloqueia
}

# Seu prompt personalizado aqui
meu_prompt = """<|system|>
Escreva seu prompt aqui...
<|user|>
Sua pergunta aqui...
<|assistant|>"""

# Descomente para testar:
"""
if minhas_regras:  # S√≥ executa se voc√™ definir regras
    meu_processor = CustomLogitsProcessor(tokenizer, minhas_regras)
    
    resultado = pipe(
        meu_prompt,
        max_new_tokens=100,
        do_sample=True,
        temperature=0.7,
        logits_processor=[meu_processor],
        pad_token_id=tokenizer.eos_token_id
    )
    
    print("Resultado do seu experimento:")
    print(resultado[0]["generated_text"].split("<|assistant|>")[-1].strip())
"""

print("üí° Dica: Modifique as regras acima e descomente o c√≥digo para testar!")


<a href="https://colab.research.google.com/github/nelsonfrugeri-tech/playground-generative-ai/blob/master/logits_masking.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>