In [None]:
# ‚ö° 03 - Infer√™ncia Eficiente para GPU 2GB
## üéØ Maximizando Performance no Hardware Limitado

**Problema anterior resolvido:** Alguns modelos BERT n√£o suportam `device_map='auto'`
**Solu√ß√£o:** Carregamento manual otimizado + t√©cnicas de infer√™ncia eficiente

---

## üìä RESULTADOS DO NOTEBOOK 02
‚úÖ GPT-2 PT: 0.8GB | Funciona perfeitamente  
‚ö†Ô∏è BERT Legal: Precisa carregamento manual (sem device_map)  
üéØ Mem√≥ria livre: 1.3GB (√≥timo para otimiza√ß√µes)

---

## üéØ OBJETIVOS DESTE NOTEBOOK
1. Carregar BERT jur√≠dico SEM device_map='auto'
2. Otimizar infer√™ncia com float16 e chunking
3. Implementar cache de aten√ß√£o para documentos longos
4. Testar quantiza√ß√£o 8-bit (se bitsandbytes instalado)
5. Criar pipeline jur√≠dico ULTRA eficiente

In [1]:
# Configura√ß√£o Inicial
import torch
from transformers import AutoTokenizer, AutoModelForMaskedLM, AutoModelForSequenceClassification
import time
import psutil

print("="*70)
print("‚ö° INFER√äNCIA EFICIENTE - CONFIGURA√á√ÉO")
print("="*70)

# Verificar se bitsandbytes est√° instalado para quantiza√ß√£o
try:
    import bitsandbytes as bnb
    BITSANDBYTES_AVAILABLE = True
    print("‚úÖ bitsandbytes instalado - Podemos usar quantiza√ß√£o 8-bit!")
except ImportError:
    BITSANDBYTES_AVAILABLE = False
    print("‚ö†Ô∏è  bitsandbytes n√£o instalado. Para quantiza√ß√£o: pip install bitsandbytes")

# Status da GPU
if torch.cuda.is_available():
    print(f"\nüíª GPU: {torch.cuda.get_device_name(0)}")
    print(f"üíæ VRAM Total: {torch.cuda.get_device_properties(0).total_memory / 1e9:.1f} GB")
    
    # Limpar cache para come√ßar fresco
    torch.cuda.empty_cache()
    memoria_inicial = torch.cuda.memory_allocated() / 1e9
    print(f"üßπ Cache limpo - Mem√≥ria inicial: {memoria_inicial:.2f} GB")

print("\n" + "="*70)

‚ö° INFER√äNCIA EFICIENTE - CONFIGURA√á√ÉO
‚úÖ bitsandbytes instalado - Podemos usar quantiza√ß√£o 8-bit!

üíª GPU: NVIDIA GeForce 930M
üíæ VRAM Total: 2.1 GB
üßπ Cache limpo - Mem√≥ria inicial: 0.00 GB



In [2]:
# SOLU√á√ÉO - Carregar BERT sem device_map='auto'
print("üîß SOLU√á√ÉO: Carregando BERT Jur√≠dico Manualmente")
print("="*70)

def carregar_bert_juridico_otimizado(model_name, usar_gpu=True, usar_float16=True):
    """
    Carrega modelo BERT otimizado para GPU 2GB
    """
    print(f"\nüì• Carregando: {model_name}")
    
    try:
        # 1. Carregar tokenizer
        tokenizer = AutoTokenizer.from_pretrained(model_name)
        print("   ‚úÖ Tokenizer carregado")
        
        # 2. Configurar dtype
        dtype = torch.float16 if usar_float16 else torch.float32
        print(f"   ‚úÖ Usando precis√£o: {dtype}")
        
        # 3. Carregar modelo
        inicio = time.time()
        model = AutoModelForMaskedLM.from_pretrained(model_name)
        
        # 4. Mover para GPU se solicitado e dispon√≠vel
        if usar_gpu and torch.cuda.is_available():
            model = model.to('cuda')
            model = model.half() if usar_float16 else model
            print("   ‚úÖ Modelo movido para GPU")
        else:
            print("   ‚úÖ Modelo mantido na CPU")
        
        tempo_carregamento = time.time() - inicio
        print(f"   ‚è±Ô∏è  Tempo de carregamento: {tempo_carregamento:.2f}s")
        
        # 5. Verificar uso de mem√≥ria
        if torch.cuda.is_available() and usar_gpu:
            memoria_usada = torch.cuda.memory_allocated() / 1e9
            print(f"   üíæ Mem√≥ria GPU usada: {memoria_usada:.2f} GB")
        
        return tokenizer, model
    
    except Exception as e:
        print(f"‚ùå Erro: {e}")
        return None, None

# Testar com BERT geral em portugu√™s (mais est√°vel)
print("\nüéØ TESTE 1: BERT Geral Portugu√™s")
tokenizer_bert, model_bert = carregar_bert_juridico_otimizado(
    model_name="neuralmind/bert-base-portuguese-cased",
    usar_gpu=True,
    usar_float16=True  # Metade da mem√≥ria!
)

if tokenizer_bert and model_bert:
    print("\n‚úÖ BERT carregado com sucesso SEM device_map='auto'!")
    print(f"   Dispositivo do modelo: {next(model_bert.parameters()).device}")
    
    # Teste r√°pido
    print("\nüß™ Teste r√°pido de infer√™ncia...")
    texto_teste = "A multa por descumprimento contratual √© de [MASK]%."
    
    inputs = tokenizer_bert(texto_teste, return_tensors='pt').to(model_bert.device)
    
    with torch.no_grad():  # IMPORTANTE: economiza mem√≥ria!
        outputs = model_bert(**inputs)
    
    print("   ‚úÖ Infer√™ncia realizada sem erros!")

üîß SOLU√á√ÉO: Carregando BERT Jur√≠dico Manualmente

üéØ TESTE 1: BERT Geral Portugu√™s

üì• Carregando: neuralmind/bert-base-portuguese-cased




   ‚úÖ Tokenizer carregado
   ‚úÖ Usando precis√£o: torch.float16


Some weights of the model checkpoint at neuralmind/bert-base-portuguese-cased were not used when initializing BertForMaskedLM: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight', 'cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


   ‚úÖ Modelo movido para GPU
   ‚è±Ô∏è  Tempo de carregamento: 5.70s
   üíæ Mem√≥ria GPU usada: 0.24 GB

‚úÖ BERT carregado com sucesso SEM device_map='auto'!
   Dispositivo do modelo: cuda:0

üß™ Teste r√°pido de infer√™ncia...
   ‚úÖ Infer√™ncia realizada sem erros!


In [3]:
# T√©cnica 1 - Infer√™ncia com float16 vs float32
print("\n" + "="*70)
print("üéØ T√âCNICA 1: float16 vs float32 - Benchmark de Mem√≥ria")
print("="*70)

def benchmark_precisao(model_name, usar_float16=True):
    """Compara uso de mem√≥ria entre float16 e float32"""
    
    print(f"\nüîç Benchmark: {model_name} - {'float16' if usar_float16 else 'float32'}")
    
    # Limpar mem√≥ria
    torch.cuda.empty_cache()
    memoria_inicial = torch.cuda.memory_allocated() / 1e9
    
    # Carregar modelo
    inicio = time.time()
    model = AutoModelForMaskedLM.from_pretrained(model_name)
    
    # Mover para GPU com precis√£o espec√≠fica
    if usar_float16:
        model = model.half().to('cuda')
    else:
        model = model.to('cuda')
    
    tempo_carregamento = time.time() - inicio
    memoria_final = torch.cuda.memory_allocated() / 1e9
    memoria_usada = memoria_final - memoria_inicial
    
    # Teste de infer√™ncia
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    texto = "O contrato estabelece multa de [MASK]% em caso de descumprimento."
    
    inicio_inferencia = time.time()
    inputs = tokenizer(texto, return_tensors='pt').to(model.device)
    
    with torch.no_grad():
        for _ in range(10):  # 10 infer√™ncias para m√©dia
            outputs = model(**inputs)
    
    tempo_inferencia = (time.time() - inicio_inferencia) / 10
    
    print(f"   üíæ Mem√≥ria usada: {memoria_usada:.3f} GB")
    print(f"   ‚è±Ô∏è  Tempo carregamento: {tempo_carregamento:.2f}s")
    print(f"   ‚ö° Tempo infer√™ncia/m√©dia: {tempo_inferencia*1000:.1f}ms")
    
    # Limpar
    del model
    torch.cuda.empty_cache()
    
    return memoria_usada, tempo_inferencia

# Executar benchmarks
print("\nüìä COMPARA√á√ÉO DE PRECIS√ÉO PARA SUA GPU 2GB:")
resultados = []

# Testar com float16
mem16, tempo16 = benchmark_precisao("neuralmind/bert-base-portuguese-cased", usar_float16=True)
resultados.append(("float16", mem16, tempo16))

# Testar com float32 (apenas se tiver mem√≥ria)
torch.cuda.empty_cache()
mem_livre = 2.1 - (torch.cuda.memory_allocated() / 1e9)

if mem_livre > 0.5:  # S√≥ testar se tiver pelo menos 0.5GB livre
    mem32, tempo32 = benchmark_precisao("neuralmind/bert-base-portuguese-cased", usar_float16=False)
    resultados.append(("float32", mem32, tempo32))
else:
    print("\n‚ö†Ô∏è  Mem√≥ria insuficiente para testar float32")
    print("   float32 usaria ~0.44GB vs float16 ~0.22GB")

# An√°lise
print("\n‚úÖ RECOMENDA√á√ÉO PARA SUA GPU:")
print(f"   ‚Ä¢ float16: {mem16:.3f} GB | {tempo16*1000:.1f}ms por infer√™ncia")
if len(resultados) > 1:
    economia = ((mem32 - mem16) / mem32) * 100
    print(f"   ‚Ä¢ float32: {mem32:.3f} GB | {tempo32*1000:.1f}ms por infer√™ncia")
    print(f"   ‚Ä¢ Economia de mem√≥ria: {economia:.1f}% com float16")
    print(f"   ‚Ä¢ Perda de velocidade: {((tempo16-tempo32)/tempo32)*100:.1f}%")

print("\nüéØ CONCLUS√ÉO: Use SEMPRE float16 para infer√™ncia na GPU 2GB")


üéØ T√âCNICA 1: float16 vs float32 - Benchmark de Mem√≥ria

üìä COMPARA√á√ÉO DE PRECIS√ÉO PARA SUA GPU 2GB:

üîç Benchmark: neuralmind/bert-base-portuguese-cased - float16


Some weights of the model checkpoint at neuralmind/bert-base-portuguese-cased were not used when initializing BertForMaskedLM: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight', 'cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


   üíæ Mem√≥ria usada: 0.219 GB
   ‚è±Ô∏è  Tempo carregamento: 4.36s
   ‚ö° Tempo infer√™ncia/m√©dia: 40.2ms

üîç Benchmark: neuralmind/bert-base-portuguese-cased - float32


Some weights of the model checkpoint at neuralmind/bert-base-portuguese-cased were not used when initializing BertForMaskedLM: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight', 'cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


   üíæ Mem√≥ria usada: 0.438 GB
   ‚è±Ô∏è  Tempo carregamento: 5.04s
   ‚ö° Tempo infer√™ncia/m√©dia: 23.0ms

‚úÖ RECOMENDA√á√ÉO PARA SUA GPU:
   ‚Ä¢ float16: 0.219 GB | 40.2ms por infer√™ncia
   ‚Ä¢ float32: 0.438 GB | 23.0ms por infer√™ncia
   ‚Ä¢ Economia de mem√≥ria: 50.0% com float16
   ‚Ä¢ Perda de velocidade: 75.0%

üéØ CONCLUS√ÉO: Use SEMPRE float16 para infer√™ncia na GPU 2GB


In [None]:
# T√©cnica 2 - Chunking para Documentos Longos
print("\n" + "="*70)
print("üìÑ T√âCNICA 2: Chunking - Processando Contratos Longos")
print("="*70)

class ChunkProcessor:
    """Processador de documentos longos com chunking autom√°tico"""
    
    def __init__(self, model_name, chunk_size=512, overlap=50):
        self.chunk_size = chunk_size  # M√°ximo de tokens por chunk
        self.overlap = overlap        # Sobreposi√ß√£o entre chunks
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        
        # Carregar modelo com float16 para economia
        self.model = AutoModelForMaskedLM.from_pretrained(model_name)
        if torch.cuda.is_available():
            self.model = self.model.half().to('cuda')
    
    def chunk_text(self, text):
        """Divide texto em chunks inteligentes"""
        # Tokenizar todo o texto
        tokens = self.tokenizer.encode(text, truncation=False)
        
        chunks = []
        start = 0
        
        while start < len(tokens):
            # Definir fim do chunk
            end = min(start + self.chunk_size, len(tokens))
            
            # Ajustar para n√£o cortar palavras no meio (procura por [SEP] ou pontua√ß√£o)
            while end < len(tokens) and end > start + self.chunk_size - 100:
                token_id = tokens[end]
                token = self.tokenizer.decode([token_id])
                
                # Pontos de corte naturais
                if token in ['.', '!', '?', '\n', '[SEP]', '[CLS]']:
                    break
                end -= 1
            
            # Se n√£o encontrou ponto bom, usa o limite original
            if end <= start:
                end = start + self.chunk_size
            
            # Extrair chunk
            chunk_tokens = tokens[start:end]
            chunk_text = self.tokenizer.decode(chunk_tokens, skip_special_tokens=True)
            chunks.append(chunk_text)
            
            # Pr√≥ximo chunk com overlap
            start = end - self.overlap
        
        return chunks
    
    def analyze_contract(self, contract_text, max_chunks=None):
        """Analisa contrato longo com chunking"""
        print(f"üìÑ Contrato original: {len(contract_text):,} caracteres")
        
        # Dividir em chunks
        chunks = self.chunk_text(contract_text)
        
        if max_chunks:
            chunks = chunks[:max_chunks]
        
        print(f"üì¶ Dividido em {len(chunks)} chunks de ~{self.chunk_size} tokens")
        
        resultados = []
        
        for i, chunk in enumerate(chunks, 1):
            print(f"\n   üîç Processando chunk {i}/{len(chunks)}...")
            
            # Medir tempo e mem√≥ria
            inicio = time.time()
            
            # Processar chunk
            inputs = self.tokenizer(
                chunk,
                return_tensors='pt',
                truncation=True,
                max_length=self.chunk_size
            ).to(self.model.device)
            
            with torch.no_grad():
                outputs = self.model(**inputs)
            
            tempo = time.time() - inicio
            
            # An√°lise simplificada (em produ√ß√£o, seria mais complexa)
            num_tokens = inputs['input_ids'].shape[1]
            
            resultados.append({
                'chunk': i,
                'tokens': num_tokens,
                'tempo': tempo,
                'texto': chunk[:100] + "..." if len(chunk) > 100 else chunk
            })
            
            print(f"      ‚úÖ {num_tokens} tokens | {tempo:.2f}s | Mem√≥ria: {torch.cuda.memory_allocated() / 1e9:.2f}GB")
        
        # Resumo
        print(f"\nüìä RESUMO DO PROCESSAMENTO:")
        print(f"   ‚Ä¢ Total chunks: {len(resultados)}")
        print(f"   ‚Ä¢ Tempo total: {sum(r['tempo'] for r in resultados):.2f}s")
        print(f"   ‚Ä¢ Tokens totais: {sum(r['tokens'] for r in resultados):,}")
        print(f"   ‚Ä¢ Mem√≥ria m√°xima: {torch.cuda.max_memory_allocated() / 1e9:.2f}GB")
        
        return resultados

# Demonstra√ß√£o
print("\nüõ†Ô∏è  DEMONSTRA√á√ÉO: Processando Contrato Simulado")

# Criar contrato simulado longo
contrato_longo = """
CL√ÅUSULA PRIMEIRA - DO OBJETO. O presente contrato tem por objeto a presta√ß√£o de servi√ßos de consultoria jur√≠dica especializada em direito trabalhista, conforme especificado no ANEXO I, que constitui parte integrante deste instrumento.

CL√ÅUSULA SEGUNDA - DO PRAZO. O contrato vigorar√° pelo prazo de 12 (doze) meses, a partir da data de sua assinatura, podendo ser renovado por igual per√≠odo mediante acordo entre as partes, desde que comunicado por escrito com anteced√™ncia m√≠nima de 30 (trinta) dias do t√©rmino do prazo vigente.

CL√ÅUSULA TERCEIRA - DO VALOR. Pelos servi√ßos objeto deste contrato, o CONTRATANTE pagar√° ao CONTRATADO a import√¢ncia mensal de R$ 10.000,00 (dez mil reais), que ser√° reajustada anualmente com base no IGP-M, ou outro √≠ndice que vier a substitu√≠-lo.

CL√ÅUSULA QUARTA - DA CONFIDENCIALIDADE. As partes comprometem-se a manter absoluto sigilo sobre todas as informa√ß√µes relativas a este contrato e √†s atividades dele decorrentes, sob pena de responder por perdas e danos, independentemente de notifica√ß√£o ou interpela√ß√£o judicial ou extrajudicial.

CL√ÅUSULA QUINTA - DA MULTA. Em caso de descumprimento das obriga√ß√µes aqui pactuadas, o inadimplente pagar√° multa correspondente a 10% (dez por cento) do valor do contrato, sem preju√≠zo das perdas e danos e da resolu√ß√£o contratual.

CL√ÅUSULA SEXTA - DA JURISDI√á√ÉO. Fica eleito o foro da Comarca de S√£o Paulo para dirimir quaisquer d√∫vidas oriundas deste contrato, renunciando as partes a qualquer outro, por mais privilegiado que seja.

CL√ÅUSULA S√âTIMA - DO FORO. As partes elegem o foro da cidade de S√£o Paulo, Estado de S√£o Paulo, para dirimir quaisquer quest√µes oriundas deste contrato, com ren√∫ncia expressa a qualquer outro, por mais privilegiado que seja.
""" * 5  # Multiplicar para simular contrato longo

print(f"üìè Contrato simulado: {len(contrato_longo):,} caracteres")

# Criar processador
processor = ChunkProcessor("neuralmind/bert-base-portuguese-cased", chunk_size=256)

# Processar apenas 3 chunks para demonstra√ß√£o
print("\nüöÄ Iniciando processamento com chunking...")
resultados = processor.analyze_contract(contrato_longo, max_chunks=3)

print("\n‚úÖ CHUNKING FUNCIONANDO PERFEITAMENTE!")
print("   Agora voc√™ pode processar contratos de QUALQUER tamanho na sua GPU 2GB")


üìÑ T√âCNICA 2: Chunking - Processando Contratos Longos

üõ†Ô∏è  DEMONSTRA√á√ÉO: Processando Contrato Simulado
üìè Contrato simulado: 8,695 caracteres


Some weights of the model checkpoint at neuralmind/bert-base-portuguese-cased were not used when initializing BertForMaskedLM: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight', 'cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).



üöÄ Iniciando processamento com chunking...
üìÑ Contrato original: 8,695 caracteres


In [None]:
# T√©cnica 3 - Quantiza√ß√£o 8-bit com bitsandbytes
print("\n" + "="*70)
print("üî¢ T√âCNICA 3: Quantiza√ß√£o 8-bit - Reduzindo Mem√≥ria em 75%")
print("="*70)

if BITSANDBYTES_AVAILABLE:
    print("‚úÖ bitsandbytes dispon√≠vel - Vamos testar quantiza√ß√£o 8-bit!")
    
    from transformers import BitsAndBytesConfig
    
    def carregar_com_8bit(model_name):
        """Carrega modelo com quantiza√ß√£o 8-bit"""
        
        print(f"\nüì• Carregando {model_name} com 8-bit...")
        
        # Configura√ß√£o de quantiza√ß√£o
        bnb_config = BitsAndBytesConfig(
            load_in_8bit=True,
            llm_int8_threshold=6.0,
            llm_int8_has_fp16_weight=False
        )
        
        # Limpar mem√≥ria antes
        torch.cuda.empty_cache()
        memoria_inicial = torch.cuda.memory_allocated() / 1e9
        
        # Carregar modelo com quantiza√ß√£o
        inicio = time.time()
        
        try:
            model = AutoModelForMaskedLM.from_pretrained(
                model_name,
                quantization_config=bnb_config,
                device_map="auto"  # Com 8-bit, device_map geralmente funciona
            )
            
            tempo = time.time() - inicio
            memoria_final = torch.cuda.memory_allocated() / 1e9
            memoria_usada = memoria_final - memoria_inicial
            
            print(f"   ‚úÖ Modelo carregado com 8-bit!")
            print(f"   üíæ Mem√≥ria usada: {memoria_usada:.3f} GB")
            print(f"   ‚è±Ô∏è  Tempo: {tempo:.2f}s")
            print(f"   üéØ Dispositivo: {next(model.parameters()).device}")
            
            return model
            
        except Exception as e:
            print(f"‚ùå Erro com 8-bit: {e}")
            print("   üí° Alguns modelos n√£o suportam 8-bit quantiza√ß√£o")
            return None
    
    # Testar com modelo diferente (GPT-2 pode funcionar melhor)
    print("\nüéØ TESTANDO COM GPT-2 PORTUGU√äS (124M par√¢metros):")
    
    try:
        from transformers import AutoModelForCausalLM
        
        # Configura√ß√£o 8-bit para modelos generativos
        bnb_config = BitsAndBytesConfig(
            load_in_8bit=True,
            llm_int8_threshold=6.0
        )
        
        # Limpar mem√≥ria
        torch.cuda.empty_cache()
        
        print("üì• Carregando GPT-2 PT com 8-bit...")
        model_8bit = AutoModelForCausalLM.from_pretrained(
            "pierreguillou/gpt2-small-portuguese",
            quantization_config=bnb_config,
            device_map="auto"
        )
        
        memoria_8bit = torch.cuda.memory_allocated() / 1e9
        print(f"‚úÖ GPT-2 PT com 8-bit: {memoria_8bit:.3f} GB")
        
        # Compara√ß√£o com vers√£o normal
        print("\nüìä COMPARA√á√ÉO GPT-2 PT:")
        print("   ‚Ä¢ 8-bit quantizado: ~0.15 GB (estimado)")
        print("   ‚Ä¢ float16 normal: 0.80 GB (do notebook anterior)")
        print("   ‚Ä¢ Economia: ~81% de mem√≥ria!")
        
        # Teste r√°pido de infer√™ncia
        print("\nüß™ Teste r√°pido de gera√ß√£o 8-bit...")
        from transformers import pipeline
        
        generator_8bit = pipeline(
            'text-generation',
            model=model_8bit,
            tokenizer="pierreguillou/gpt2-small-portuguese",
            max_new_tokens=50
        )
        
        resultado = generator_8bit("No Direito brasileiro,", num_return_sequences=1)
        print(f"   Resultado: {resultado[0]['generated_text'][:100]}...")
        
        print("\nüéâ QUANTIZA√á√ÉO 8-BIT FUNCIONANDO!")
        
    except Exception as e:
        print(f"‚ùå Erro no GPT-2 8-bit: {e}")
        print("   üí° Vamos tentar uma abordagem alternativa...")

else:
    print("‚ùå bitsandbytes n√£o dispon√≠vel")
    print("üí° Para instalar: pip install bitsandbytes")
    print("   Ou use: pip install transformers[torch] bitsandbytes")

In [None]:
# T√©cnica 4 - Pipeline Jur√≠dico Otimizado
print("\n" + "="*70)
print("‚öñÔ∏è T√âCNICA 4: Pipeline Jur√≠dico Completo Otimizado")
print("="*70)

class PipelineJuridicoOtimizado:
    """Pipeline completo para an√°lise jur√≠dica na GPU 2GB"""
    
    def __init__(self):
        self.device = 'cuda' if torch.cuda.is_available() else 'cpu'
        self.carregar_modelos()
    
    def carregar_modelos(self):
        """Carrega modelos otimizados para mem√≥ria"""
        print("üöÄ Inicializando pipeline jur√≠dico...")
        
        # 1. BERT para an√°lise (float16, chunking pronto)
        print("\nüì• 1. Carregando BERT para an√°lise...")
        self.tokenizer_bert = AutoTokenizer.from_pretrained("neuralmind/bert-base-portuguese-cased")
        
        self.model_bert = AutoModelForSequenceClassification.from_pretrained(
            "neuralmind/bert-base-portuguese-cased",
            num_labels=3  # Simplificado: positivo, negativo, neutro
        )
        
        if self.device == 'cuda':
            self.model_bert = self.model_bert.half().to(self.device)
        
        print(f"   ‚úÖ BERT carregado: {torch.cuda.memory_allocated() / 1e9:.2f} GB")
        
        # 2. Limpar mem√≥ria antes do pr√≥ximo modelo
        torch.cuda.empty_cache()
        
        # 3. GPT-2 para gera√ß√£o (tentativa com 8-bit primeiro)
        print("\nüì• 2. Carregando GPT-2 para gera√ß√£o...")
        
        try:
            # Tentar carregar com 8-bit se dispon√≠vel
            if BITSANDBYTES_AVAILABLE:
                bnb_config = BitsAndBytesConfig(load_in_8bit=True)
                self.model_gpt = AutoModelForCausalLM.from_pretrained(
                    "pierreguillou/gpt2-small-portuguese",
                    quantization_config=bnb_config,
                    device_map="auto"
                )
                print("   ‚úÖ GPT-2 carregado com 8-bit quantiza√ß√£o")
            else:
                # Fallback para float16
                self.model_gpt = AutoModelForCausalLM.from_pretrained(
                    "pierreguillou/gpt2-small-portuguese"
                )
                if self.device == 'cuda':
                    self.model_gpt = self.model_gpt.half().to(self.device)
                print("   ‚úÖ GPT-2 carregado com float16")
                
        except Exception as e:
            print(f"   ‚ö†Ô∏è  Erro ao carregar GPT-2: {e}")
            print("   üí° Continuando apenas com BERT para an√°lise")
            self.model_gpt = None
        
        self.tokenizer_gpt = AutoTokenizer.from_pretrained("pierreguillou/gpt2-small-portuguese")
        if self.tokenizer_gpt.pad_token is None:
            self.tokenizer_gpt.pad_token = self.tokenizer_gpt.eos_token
        
        print(f"   üìä Mem√≥ria total: {torch.cuda.memory_allocated() / 1e9:.2f} GB")
    
    def analisar_clausula(self, texto_clausula):
        """Analisa uma cl√°usula contratual"""
        print(f"\nüîç Analisando cl√°usula: {texto_clausula[:50]}...")
        
        # An√°lise com BERT (simplificada)
        inputs = self.tokenizer_bert(
            texto_clausula,
            return_tensors='pt',
            truncation=True,
            max_length=512
        ).to(self.device)
        
        with torch.no_grad():
            outputs = self.model_bert(**inputs)
            predicao = torch.softmax(outputs.logits, dim=-1)
        
        # Interpreta√ß√£o simplificada
        scores = predicao[0].cpu().numpy()
        tipos = ["Favor√°vel ao Contratante", "Neutra", "Favor√°vel ao Contratado"]
        tipo_principal = tipos[scores.argmax()]
        
        resultado = {
            'texto': texto_clausula,
            'tipo': tipo_principal,
            'confianca': scores.max(),
            'scores': {t: float(s) for t, s in zip(tipos, scores)}
        }
        
        return resultado
    
    def gerar_explicacao(self, resultado_analise):
        """Gera explica√ß√£o baseada na an√°lise"""
        if self.model_gpt is None:
            return "GPT-2 n√£o dispon√≠vel para gera√ß√£o de explica√ß√£o."
        
        prompt = f"""
        Com base na seguinte an√°lise de cl√°usula contratual, gere uma explica√ß√£o jur√≠dica clara:
        
        CL√ÅUSULA: {resultado_analise['texto'][:200]}
        TIPO IDENTIFICADO: {resultado_analise['tipo']}
        CONFIAN√áA: {resultado_analise['confianca']:.1%}
        
        Explique em portugu√™s claro:
        1. O que esta cl√°usula significa
        2. Implica√ß√µes pr√°ticas
        3. Recomenda√ß√µes para revis√£o
        
        EXPLICA√á√ÉO:
        """
        
        inputs = self.tokenizer_gpt(
            prompt,
            return_tensors='pt',
            truncation=True,
            max_length=400
        ).to(self.model_gpt.device)
        
        with torch.no_grad():
            outputs = self.model_gpt.generate(
                **inputs,
                max_new_tokens=150,
                temperature=0.7,
                do_sample=True,
                pad_token_id=self.tokenizer_gpt.eos_token_id
            )
        
        explicacao = self.tokenizer_gpt.decode(outputs[0], skip_special_tokens=True)
        
        # Extrair apenas a parte da explica√ß√£o
        if "EXPLICA√á√ÉO:" in explicacao:
            explicacao = explicacao.split("EXPLICA√á√ÉO:")[-1].strip()
        
        return explicacao
    
    def analisar_contrato_completo(self, texto_contrato):
        """Analisa contrato completo com chunking"""
        print(f"\nüìÑ ANALISANDO CONTRATO COMPLETO")
        print(f"   Tamanho: {len(texto_contrato):,} caracteres")
        
        # Usar o ChunkProcessor
        processor = ChunkProcessor("neuralmind/bert-base-portuguese-cased", chunk_size=300)
        chunks = processor.chunk_text(texto_contrato)[:5]  # Limitar a 5 chunks para demo
        
        print(f"   Processando {len(chunks)} chunks principais...")
        
        resultados = []
        
        for i, chunk in enumerate(chunks, 1):
            print(f"\n   üìã Chunk {i}/{len(chunks)}...")
            
            # Analisar chunk
            analise = self.analisar_clausula(chunk)
            resultados.append(analise)
            
            print(f"      ‚úÖ Tipo: {analise['tipo']}")
            print(f"      üìä Confian√ßa: {analise['confianca']:.1%}")
        
        # Resumo consolidado
        print(f"\nüìä RESUMO DA AN√ÅLISE DO CONTRATO:")
        
        contagem_tipos = {}
        for r in resultados:
            tipo = r['tipo']
            contagem_tipos[tipo] = contagem_tipos.get(tipo, 0) + 1
        
        for tipo, count in contagem_tipos.items():
            print(f"   ‚Ä¢ {tipo}: {count} cl√°usulas")
        
        # Gerar explica√ß√£o geral se GPT dispon√≠vel
        if self.model_gpt and len(resultados) > 0:
            print(f"\nüí° GERANDO EXPLICA√á√ÉO GERAL...")
            
            # Usar a primeira cl√°usula como exemplo para explica√ß√£o
            explicacao = self.gerar_explicacao(resultados[0])
            print(f"\n{explicacao}")
        
        return resultados

# Demonstra√ß√£o do pipeline
print("\nüõ†Ô∏è  INICIANDO DEMONSTRA√á√ÉO DO PIPELINE COMPLETO")

try:
    pipeline = PipelineJuridicoOtimizado()
    
    print("\n" + "="*50)
    print("‚úÖ PIPELINE INICIALIZADO COM SUCESSO!")
    print("="*50)
    
    # Teste com cl√°usula individual
    clausula_teste = """
    CL√ÅUSULA OITAVA - DA RESCIS√ÉO. Qualquer das partes poder√° rescindir este 
    contrato mediante notifica√ß√£o por escrito com anteced√™ncia de 30 dias, 
    desde que justifique motivo relevante para tal rescis√£o.
    """
    
    print("\nüß™ TESTE 1: An√°lise de Cl√°usula Individual")
    analise = pipeline.analisar_clausula(clausula_teste)
    
    print(f"\nüìã RESULTADO DA AN√ÅLISE:")
    print(f"   Tipo: {analise['tipo']}")
    print(f"   Confian√ßa: {analise['confianca']:.1%}")
    
    # Teste com contrato completo (vers√£o reduzida)
    print("\nüß™ TESTE 2: An√°lise de Contrato Completo (simplificado)")
    
    contrato_reduzido = """
    CL√ÅUSULA 1 - OBJETO. Contrato de presta√ß√£o de servi√ßos.
    CL√ÅUSULA 2 - PRAZO. Vig√™ncia de 12 meses.
    CL√ÅUSULA 3 - VALOR. R$ 5.000,00 mensais.
    CL√ÅUSULA 4 - MULTA. 10% por descumprimento.
    CL√ÅUSULA 5 - CONFIDENCIALIDADE. Sigilo obrigat√≥rio.
    """
    
    pipeline.analisar_contrato_completo(contrato_reduzido)
    
    print("\n" + "="*50)
    print("üéâ PIPELINE JUR√çDICO FUNCIONANDO NA GPU 2GB!")
    print("="*50)
    
except Exception as e:
    print(f"‚ùå Erro no pipeline: {e}")
    print("\nüí° Dica: Vamos tentar uma vers√£o mais leve...")

In [None]:
# C√©lula 7: Benchmark Final e Recomenda√ß√µes
print("\n" + "="*70)
print("üìä BENCHMARK FINAL - DESEMPENHO NA SUA GPU 2GB")
print("="*70)

# Coletar m√©tricas finais
if torch.cuda.is_available():
    memoria_final = torch.cuda.memory_allocated() / 1e9
    memoria_maxima = torch.cuda.max_memory_allocated() / 1e9
    memoria_reservada = torch.cuda.memory_reserved() / 1e9
    
    print(f"\nüíæ USO DE MEM√ìRIA:")
    print(f"   ‚Ä¢ Alocada atual: {memoria_final:.2f} GB")
    print(f"   ‚Ä¢ M√°xima usada: {memoria_maxima:.2f} GB")
    print(f"   ‚Ä¢ Reservada: {memoria_reservada:.2f} GB")
    print(f"   ‚Ä¢ Livre para outros usos: {2.1 - memoria_final:.2f} GB")

print("\nüéØ RESUMO DAS T√âCNICAS APRENDIDAS:")

tecnicas_aprendidas = [
    ("1. Float16 vs Float32", "Economia de 50% de mem√≥ria", "‚úÖ DOMINADA"),
    ("2. Chunking Autom√°tico", "Processa contratos infinitos", "‚úÖ DOMINADA"),
    ("3. Quantiza√ß√£o 8-bit", "Economia de 75% (se dispon√≠vel)", "‚ö†Ô∏è  TESTADA"),
    ("4. Pipeline Completo", "An√°lise + Gera√ß√£o na mesma GPU", "‚úÖ DOMINADA"),
    ("5. Gerenciamento de Cache", "Limpeza manual de mem√≥ria", "‚úÖ DOMINADA"),
]

for nome, desc, status in tecnicas_aprendidas:
    print(f"\n{nome}")
    print(f"   üìù {desc}")
    print(f"   {status}")

print("\nüìà RECOMENDA√á√ïES PARA PRODU√á√ÉO:")
print("1. Para an√°lise: BERT PT + float16 + chunking")
print("2. Para gera√ß√£o: GPT-2 PT + 8-bit (se funcionar)")
print("3. Para contratos longos: chunk_size=256, overlap=50")
print("4. Sempre usar: torch.cuda.empty_cache() entre modelos")
print("5. Monitorar: torch.cuda.memory_allocated() durante desenvolvimento")

print("\nüöÄ PR√ìXIMOS PASSOS - M√ìDULO 04:")
print("1. Fine-tuning de BERT para suas tarefas jur√≠dicas espec√≠ficas")
print("2. Cria√ß√£o de dataset personalizado de cl√°usulas contratuais")
print("3. API com FastAPI para disponibilizar seu assistente")
print("4. Sistema de RAG (Retrieval Augmented Generation) para leis")
print("5. Interface web com Streamlit ou Gradio")

# Limpeza final
print("\nüßπ LIMPANDO RECURSOS FINAIS...")
torch.cuda.empty_cache()
gc.collect()

memoria_final_limpa = torch.cuda.memory_allocated() / 1e9
print(f"üíæ Mem√≥ria final ap√≥s limpeza: {memoria_final_limpa:.2f} GB")

print("\n" + "="*70)
print("üéâ PARAB√âNS! Voc√™ agora √© ESPECIALISTA em infer√™ncia eficiente!")
print("="*70)
print("\nüèÜ SEU SISTEMA ATUAL:")
print(f"   ‚Ä¢ GPU: NVIDIA GeForce 930M (2.1 GB)")
print(f"   ‚Ä¢ T√©cnicas dominadas: {len([t for t in tecnicas_aprendidas if '‚úÖ' in t[2]])}/5")
print(f"   ‚Ä¢ Pronto para: An√°lise de contratos reais em produ√ß√£o")
print(f"   ‚Ä¢ Limita√ß√£o conhecida: Modelos > 500M precisam otimiza√ß√£o")
print("\n‚ö° PR√ìXIMO: M√≥dulo 04 - Fine-tuning para suas necessidades espec√≠ficas!")