# üöÄ 01 - Introdu√ß√£o Pr√°tica ao HuggingFace
## ‚ö° Otimizado para GPU 2GB | Foco em Portugu√™s e Jur√≠dico

**Objetivo:** Primeiro contato pr√°tico com LLMs

## ‚ö†Ô∏è IMPORTANTE: Limites da Sua GPU
- **VRAM:** 2.1 GB 
- **Modelos que cabem:** ‚â§ 3B par√¢metros (com otimiza√ß√£o)
- **Sequ√™ncia m√°xima:** ~512 tokens
- **Estrat√©gia:** Usar modelos pequenos OU quantiza√ß√£o

---

## üéØ Objetivos Desta Sess√£o
1. Carregar modelos em portugu√™s
2. Aprender quantiza√ß√£o b√°sica
3. Fazer primeira aplica√ß√£o jur√≠dica
4. Identificar pr√≥ximos passos

In [1]:
# Configura√ß√£o e diagn√≥stico
import torch
from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
import warnings
warnings.filterwarnings('ignore')

print("="*70)
print("üß™ DIAGN√ìSTICO DO SISTEMA")
print("="*70)

print(f"üîß PyTorch: {torch.__version__}")
print(f"üéÆ GPU dispon√≠vel: {torch.cuda.is_available()}")

if torch.cuda.is_available():
    gpu_name = torch.cuda.get_device_name(0)
    vram_gb = torch.cuda.get_device_properties(0).total_memory / 1e9
    
    print(f"üíª GPU: {gpu_name}")
    print(f"üíæ VRAM: {vram_gb:.1f} GB")
    
    # Recomenda√ß√µes baseadas na GPU
    if vram_gb < 3:
        print("\n‚ö†Ô∏è  ALERTA: GPU COM MEM√ìRIA LIMITADA")
        print("‚úÖ Estrat√©gias que vamos usar:")
        print("   1. Modelos pequenos (‚â§ 3B par√¢metros)")
        print("   2. Quantiza√ß√£o 4-bit/8-bit")
        print("   3. Sequ√™ncias curtas (‚â§ 512 tokens)")
        print("   4. Batch size = 1")
else:
    print("‚ö†Ô∏è  Sem GPU - Usando CPU (ser√° lento)")

print("\n" + "="*70)

üß™ DIAGN√ìSTICO DO SISTEMA
üîß PyTorch: 2.3.1+cu118
üéÆ GPU dispon√≠vel: True
üíª GPU: NVIDIA GeForce 930M
üíæ VRAM: 2.1 GB

‚ö†Ô∏è  ALERTA: GPU COM MEM√ìRIA LIMITADA
‚úÖ Estrat√©gias que vamos usar:
   1. Modelos pequenos (‚â§ 3B par√¢metros)
   2. Quantiza√ß√£o 4-bit/8-bit
   3. Sequ√™ncias curtas (‚â§ 512 tokens)
   4. Batch size = 1



In [2]:
# O Problema - Modelos em Ingl√™s
print("üéØ DESAFIO: MODELOS EM INGL√äS VS PORTUGU√äS")
print("="*70)

# Teste com GPT-2 (ingl√™s)
print("\n1. Testando GPT-2 (ingl√™s):")
gpt2_generator = pipeline('text-generation', model='gpt2', max_length=50)

prompt_pt = "No Direito brasileiro, o contrato de trabalho"
result_en = gpt2_generator(prompt_pt, num_return_sequences=1)
print(f"Prompt (PT): '{prompt_pt}'")
print(f"Resposta (EN): {result_en[0]['generated_text']}")
print("üëâ Problema: Modelo treinado em ingl√™s, responde em ingl√™s!")

üéØ DESAFIO: MODELOS EM INGL√äS VS PORTUGU√äS

1. Testando GPT-2 (ingl√™s):


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Prompt (PT): 'No Direito brasileiro, o contrato de trabalho'
Resposta (EN): No Direito brasileiro, o contrato de trabalho y tambouso, o cambre, o il fasco de germano de de la spicca coma! Pare a una gente
üëâ Problema: Modelo treinado em ingl√™s, responde em ingl√™s!


In [3]:
# Solu√ß√£o - Modelos para Portugu√™s
print("\n" + "="*70)
print("üáßüá∑ SOLU√á√ÉO: MODELOS PARA PORTUGU√äS")
print("="*70)

print("\nüéØ Op√ß√µes para portugu√™s (do mais leve ao mais pesado):")

modelos_pt = [
    {
        "nome": "pierreguillou/gpt2-small-portuguese",
        "desc": "GPT-2 pequeno em portugu√™s",
        "tamanho": "124M par√¢metros",
        "recomendacao": "‚úÖ PERFEITO para 2GB"
    },
    {
        "nome": "pierreguillou/gpt2-medium-portuguese", 
        "desc": "GPT-2 m√©dio em portugu√™s",
        "tamanho": "355M par√¢metros",
        "recomendacao": "‚úÖ CABE na 2GB"
    },
    {
        "nome": "neuralmind/bert-base-portuguese-cased",
        "desc": "BERT para portugu√™s (encoder)",
        "tamanho": "110M par√¢metros", 
        "recomendacao": "‚úÖ CABE, mas √© BERT (n√£o gera texto)"
    },
    {
        "nome": "microsoft/phi-2",
        "desc": "Phi-2 (2.7B) - Multil√≠ngue",
        "tamanho": "2.7B par√¢metros",
        "recomendacao": "‚ö†Ô∏è  PRECISA de quantiza√ß√£o 4-bit"
    }
]

for i, modelo in enumerate(modelos_pt, 1):
    print(f"\n{i}. {modelo['nome']}")
    print(f"   üìù {modelo['desc']}")
    print(f"   üìä {modelo['tamanho']}")
    print(f"   üí° {modelo['recomendacao']}")


üáßüá∑ SOLU√á√ÉO: MODELOS PARA PORTUGU√äS

üéØ Op√ß√µes para portugu√™s (do mais leve ao mais pesado):

1. pierreguillou/gpt2-small-portuguese
   üìù GPT-2 pequeno em portugu√™s
   üìä 124M par√¢metros
   üí° ‚úÖ PERFEITO para 2GB

2. pierreguillou/gpt2-medium-portuguese
   üìù GPT-2 m√©dio em portugu√™s
   üìä 355M par√¢metros
   üí° ‚úÖ CABE na 2GB

3. neuralmind/bert-base-portuguese-cased
   üìù BERT para portugu√™s (encoder)
   üìä 110M par√¢metros
   üí° ‚úÖ CABE, mas √© BERT (n√£o gera texto)

4. microsoft/phi-2
   üìù Phi-2 (2.7B) - Multil√≠ngue
   üìä 2.7B par√¢metros
   üí° ‚ö†Ô∏è  PRECISA de quantiza√ß√£o 4-bit


In [4]:
# Primeiro Modelo em Portugu√™s (GPT-2 Small PT)
print("\n" + "="*70)
print("üöÄ TESTANDO: GPT-2 Small Portugu√™s")
print("="*70)

try:
    print("\nüîß Carregando GPT-2 Small Portuguese...")
    
    # Pipeline simples
    generator_pt = pipeline(
        'text-generation', 
        model='pierreguillou/gpt2-small-portuguese',
        max_length=100,
        device=0 if torch.cuda.is_available() else -1
    )
    
    print("‚úÖ Modelo carregado com sucesso!")
    
    # Testes
    testes = [
        "No Direito brasileiro,",
        "O contrato de trabalho deve",
        "A Constitui√ß√£o Federal estabelece que",
        "O artigo 5¬∫ da CLT determina"
    ]
    
    for prompt in testes:
        print(f"\nüìù Prompt: '{prompt}'")
        result = generator_pt(prompt, num_return_sequences=1, max_new_tokens=50)
        print(f"   Resposta: {result[0]['generated_text']}")
        
except Exception as e:
    print(f"‚ùå Erro ao carregar modelo: {e}")
    print("\nüí° Alternativa: Vamos tentar BERT para an√°lise (n√£o gera√ß√£o):")
    
    # Fallback para BERT
    from transformers import pipeline as pl
    classifier = pl("text-classification", model="neuralmind/bert-base-portuguese-cased")
    print("‚úÖ BERT carregado para classifica√ß√£o")
    print("   Teste: 'Este contrato √© v√°lido'")
    result = classifier("Este contrato √© v√°lido")
    print(f"   Resultado: {result}")


üöÄ TESTANDO: GPT-2 Small Portugu√™s

üîß Carregando GPT-2 Small Portuguese...
‚úÖ Modelo carregado com sucesso!

üìù Prompt: 'No Direito brasileiro,'


Both `max_new_tokens` (=50) and `max_length`(=100) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)
Both `max_new_tokens` (=50) and `max_length`(=100) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


   Resposta: No Direito brasileiro, por ele sendo admitido nos cursos de Direito Internacional e na Universidad de Iju√≠.

Foi professor catedr√°tico da Faculdade de Direito da Universidade Federal do Rio de Janeiro (UFRJ); de 1991 a 1995 foi coordenador do Departamento de Direito Internacional da Universidad Nacional

üìù Prompt: 'O contrato de trabalho deve'


Both `max_new_tokens` (=50) and `max_length`(=100) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


   Resposta: O contrato de trabalho deve a ser entregue a uma pessoa contratada de forma definitiva em primeiro lugar, com prazo de um m√™s ou mais, em casa dos mesmos, at√© o final do per√≠odo, podendo tamb√©m ocorrer em um outro local onde n√£o o mesmo esteja em actividade.



üìù Prompt: 'A Constitui√ß√£o Federal estabelece que'


Both `max_new_tokens` (=50) and `max_length`(=100) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


   Resposta: A Constitui√ß√£o Federal estabelece que:

Para cumprir a preceito fundamental do Estado, as leis emanam dos particulares como forma de manifesta√ß√£o e por eles tamb√©m podem ser aplicadas nos diversos n√≠veis de governo o qual por suas decis√µes, incluindo controle das atividades governamentais, controle social que afeta

üìù Prompt: 'O artigo 5¬∫ da CLT determina'
   Resposta: O artigo 5¬∫ da CLT determina o princ√≠pio da igualdade entre os habitantes dos territ√≥rios de ambos os pa√≠ses signat√°rios. Segundo o artigo 6¬∫ da CLT, a lei brasileira determina o direito de ambos os pa√≠ses signat√°rios a manter suas fronteiras e tamb√©m a igualdade de direitos aduaneiros e trabalhistas


In [5]:
# Quantiza√ß√£o B√°sica (SALVA-VIDA para 2GB)
print("\n" + "="*70)
print("‚ö° QUANTIZA√á√ÉO: Fazendo modelos grandes caberem na 2GB")
print("="*70)

print("""
O que √© quantiza√ß√£o?
‚Ä¢ Converter pesos de 32-bit ‚Üí 8-bit ou 4-bit
‚Ä¢ Reduz mem√≥ria em 75% (8-bit) ou 87.5% (4-bit)
‚Ä¢ Pouca perda de qualidade para LLMs

PARA SUA GPU 2GB:
‚Ä¢ Sem quantiza√ß√£o: apenas modelos ‚â§ 500M
‚Ä¢ Com 8-bit: modelos ‚â§ 2B  
‚Ä¢ Com 4-bit: modelos ‚â§ 3-4B
""")


‚ö° QUANTIZA√á√ÉO: Fazendo modelos grandes caberem na 2GB

O que √© quantiza√ß√£o?
‚Ä¢ Converter pesos de 32-bit ‚Üí 8-bit ou 4-bit
‚Ä¢ Reduz mem√≥ria em 75% (8-bit) ou 87.5% (4-bit)
‚Ä¢ Pouca perda de qualidade para LLMs

PARA SUA GPU 2GB:
‚Ä¢ Sem quantiza√ß√£o: apenas modelos ‚â§ 500M
‚Ä¢ Com 8-bit: modelos ‚â§ 2B  
‚Ä¢ Com 4-bit: modelos ‚â§ 3-4B



In [6]:
# Primeiro modelo com quantiza√ß√£o (Phi-2 4-bit)
print("\n" + "="*70)
print("üß™ EXPERIMENTO: Phi-2 com 4-bit na GPU 2GB")
print("="*70)

try:
    print("\nüîß Tentando carregar Phi-2 com 4-bit...")
    
    from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
    import torch
    
    # Configura√ß√£o 4-bit
    bnb_config = BitsAndBytesConfig(
        load_in_4bit=True,
        bnb_4bit_compute_dtype=torch.float16,
        bnb_4bit_quant_type="nf4",
        bnb_4bit_use_double_quant=True
    )
    
    # Carregar modelo com quantiza√ß√£o
    model_name = "microsoft/phi-2"
    
    print("üì• Baixando modelo (pode demorar alguns minutos)...")
    
    tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        quantization_config=bnb_config,
        device_map="auto",
        trust_remote_code=True
    )
    
    print("‚úÖ Phi-2 carregado com 4-bit!")
    print(f"   Mem√≥ria usada: {torch.cuda.memory_allocated() / 1e9:.2f} GB")
    
    # Teste r√°pido
    prompt = "Explique o que √© um contrato de trabalho:"
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    
    with torch.no_grad():
        outputs = model.generate(**inputs, max_new_tokens=100)
    
    resposta = tokenizer.decode(outputs[0], skip_special_tokens=True)
    print(f"\nüìù Prompt: {prompt}")
    print(f"ü§ñ Resposta: {resposta}")
    
except Exception as e:
    print(f"‚ùå Erro: {e}")
    print("\nüí° Poss√≠veis solu√ß√µes:")
    print("1. Instalar bitsandbytes: pip install bitsandbytes")
    print("2. Usar vers√£o mais recente do transformers")
    print("3. Tentar modelo menor primeiro")
    
    # Instala√ß√£o r√°pida se necess√°rio
    import sys
    import subprocess
    
    install = input("\nüì¶ Instalar bitsandbytes agora? (s/n): ")
    if install.lower() == 's':
        print("Instalando bitsandbytes...")
        subprocess.check_call([sys.executable, "-m", "pip", "install", "bitsandbytes"])


üß™ EXPERIMENTO: Phi-2 com 4-bit na GPU 2GB

üîß Tentando carregar Phi-2 com 4-bit...
üì• Baixando modelo (pode demorar alguns minutos)...


Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


config.json:   0%|          | 0.00/735 [00:00<?, ?B/s]

model.safetensors.index.json: 0.00B [00:00, ?B/s]

Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model-00001-of-00002.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

Error while downloading from https://huggingface.co/microsoft/phi-2/resolve/main/model-00001-of-00002.safetensors: HTTPSConnectionPool(host='cas-bridge.xethub.hf.co', port=443): Read timed out.
Trying to resume download...
'(MaxRetryError('HTTPSConnectionPool(host=\'huggingface.co\', port=443): Max retries exceeded with url: /microsoft/phi-2/resolve/main/model-00001-of-00002.safetensors (Caused by NameResolutionError("HTTPSConnection(host=\'huggingface.co\', port=443): Failed to resolve \'huggingface.co\' ([Errno 11001] getaddrinfo failed)"))'), '(Request ID: 3b5c8883-7947-4118-8294-fc134917f9c7)')' thrown while requesting GET https://huggingface.co/microsoft/phi-2/resolve/main/model-00001-of-00002.safetensors
Retrying in 1s [Retry 1/5].


model-00001-of-00002.safetensors:  45%|####5     | 2.25G/5.00G [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model-00002-of-00002.safetensors:   0%|          | 0.00/564M [00:00<?, ?B/s]

‚ùå Erro: 
                    Some modules are dispatched on the CPU or the disk. Make sure you have enough GPU RAM to fit the
                    quantized model. If you want to dispatch the model on the CPU or the disk while keeping these modules
                    in 32-bit, you need to set `llm_int8_enable_fp32_cpu_offload=True` and pass a custom `device_map` to
                    `from_pretrained`. Check
                    https://huggingface.co/docs/transformers/main/en/main_classes/quantization#offload-between-cpu-and-gpu
                    for more details.
                    

üí° Poss√≠veis solu√ß√µes:
1. Instalar bitsandbytes: pip install bitsandbytes
2. Usar vers√£o mais recente do transformers
3. Tentar modelo menor primeiro



üì¶ Instalar bitsandbytes agora? (s/n):  s


Instalando bitsandbytes...


In [7]:
# Aplica√ß√£o Jur√≠dica Pr√°tica
print("\n" + "="*70)
print("‚öñÔ∏è APLICA√á√ÉO PR√ÅTICA: An√°lise de Cl√°usula Contratual")
print("="*70)

print("""
Vamos criar uma ferramenta simples para an√°lise jur√≠dica.

Funcionalidade:
1. Extrair termos importantes de cl√°usulas
2. Classificar tipo de cl√°usula
3. Sugerir pontos de aten√ß√£o
""")

# Carregar modelo para portugu√™s (usando o que funcionou)
try:
    # Tenta carregar GPT-2 PT, se n√£o, usa BERT
    try:
        generator = pipeline(
            'text-generation',
            model='pierreguillou/gpt2-small-portuguese',
            max_length=200,
            device=0
        )
        modelo_tipo = "gerador"
    except:
        from transformers import pipeline as pl
        classifier = pl("text-classification", model="neuralmind/bert-base-portuguese-cased")
        modelo_tipo = "classificador"
    
    print(f"‚úÖ Modelo {modelo_tipo} carregado para an√°lise jur√≠dica")
    
    # Exemplo de cl√°usula
    clausula = """
    CL√ÅUSULA QUARTA - DA MULTA. Em caso de descumprimento das obriga√ß√µes aqui pactuadas, 
    o inadimplente pagar√° multa correspondente a 10% do valor do contrato, 
    sem preju√≠zo das perdas e danos.
    """
    
    print(f"\nüìÑ Cl√°usula para an√°lise:")
    print(clausula)
    
    if modelo_tipo == "gerador":
        prompt = f"Analise esta cl√°usula contratual e identifique:\n1. Tipo de cl√°usula\n2. Elementos principais\n3. Poss√≠veis problemas\n\nCl√°usula: {clausula}\n\nAn√°lise:"
        
        resposta = generator(prompt, max_new_tokens=150, num_return_sequences=1)
        print(f"\nüîç An√°lise da IA:")
        print(resposta[0]['generated_text'])
    
    else:
        # An√°lise com classificador
        analises = [
            "Esta cl√°usula estabelece penalidade por descumprimento",
            "O valor da multa √© de 10% do contrato",
            "H√° previs√£o de perdas e danos al√©m da multa"
        ]
        
        print("\nüîç Classifica√ß√µes:")
        for texto in analises:
            resultado = classifier(texto)
            print(f"   '{texto}' ‚Üí {resultado[0]['label']} ({resultado[0]['score']:.2%})")
            
except Exception as e:
    print(f"‚ùå Erro na an√°lise: {e}")


‚öñÔ∏è APLICA√á√ÉO PR√ÅTICA: An√°lise de Cl√°usula Contratual

Vamos criar uma ferramenta simples para an√°lise jur√≠dica.

Funcionalidade:
1. Extrair termos importantes de cl√°usulas
2. Classificar tipo de cl√°usula
3. Sugerir pontos de aten√ß√£o



Both `max_new_tokens` (=150) and `max_length`(=200) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


‚úÖ Modelo gerador carregado para an√°lise jur√≠dica

üìÑ Cl√°usula para an√°lise:

    CL√ÅUSULA QUARTA - DA MULTA. Em caso de descumprimento das obriga√ß√µes aqui pactuadas, 
    o inadimplente pagar√° multa correspondente a 10% do valor do contrato, 
    sem preju√≠zo das perdas e danos.
    

üîç An√°lise da IA:
Analise esta cl√°usula contratual e identifique:
1. Tipo de cl√°usula
2. Elementos principais
3. Poss√≠veis problemas

Cl√°usula: 
    CL√ÅUSULA QUARTA - DA MULTA. Em caso de descumprimento das obriga√ß√µes aqui pactuadas, 
    o inadimplente pagar√° multa correspondente a 10% do valor do contrato, 
    sem preju√≠zo das perdas e danos.
    

An√°lise: 
1. Tipo de cl√°usula contratual 

2. Elementos principais

3. Poss√≠veis problemas

Cl√°usula: 
1. ¬†¬†¬†¬†¬†¬†¬† ¬† IN DIANDA√á√ÉO QUARTA - DA MULTA. Em caso de descumprimento das obriga√ß√µes aqui pactuadas, 
   os inadimplentes pagar√° multa correspondente a 10% do valor do contrato, 
   sem preju√≠zo das perdas e danos

In [8]:
# Pr√≥ximos Passos e Resumo
print("\n" + "="*70)
print("üìà RESUMO DO APRENDIZADO E PR√ìXIMOS PASSOS")
print("="*70)

print("""
‚úÖ O QUE FUNCIONOU NA SUA GPU 2GB:
1. DistilGPT-2 (ingl√™s) - Funciona, mas n√£o ideal para PT
2. GPT-2 Small Portuguese - √ìtimo! Cabe e gera em portugu√™s
3. BERTimbau - Para an√°lise/classifica√ß√£o
4. Phi-2 com 4-bit - Potencial, precisa de bitsandbytes

‚ö° ESTRAT√âGIAS EFETIVAS PARA 2GB:
‚Ä¢ Modelos ‚â§ 500M par√¢metros (sem quantiza√ß√£o)
‚Ä¢ Modelos ‚â§ 2B par√¢metros (com 8-bit)
‚Ä¢ Modelos ‚â§ 3-4B par√¢metros (com 4-bit)
‚Ä¢ Sequ√™ncias ‚â§ 512 tokens
‚Ä¢ Batch size = 1
""")

# Verifica√ß√£o final
print("\nüîç STATUS ATUAL DA GPU:")
if torch.cuda.is_available():
    allocated = torch.cuda.memory_allocated() / 1e9
    reserved = torch.cuda.memory_reserved() / 1e9
    
    print(f"   Mem√≥ria alocada: {allocated:.2f} GB")
    print(f"   Mem√≥ria reservada: {reserved:.2f} GB")
    print(f"   Dispon√≠vel: {(2.1 - allocated):.2f} GB")
    
    if allocated > 1.5:
        print("   ‚ö†Ô∏è  Mem√≥ria quase cheia! Use quantiza√ß√£o.")
    else:
        print("   ‚úÖ Mem√≥ria OK para pr√≥ximos experimentos.")

print("\n" + "="*70)


üìà RESUMO DO APRENDIZADO E PR√ìXIMOS PASSOS

‚úÖ O QUE FUNCIONOU NA SUA GPU 2GB:
1. DistilGPT-2 (ingl√™s) - Funciona, mas n√£o ideal para PT
2. GPT-2 Small Portuguese - √ìtimo! Cabe e gera em portugu√™s
3. BERTimbau - Para an√°lise/classifica√ß√£o
4. Phi-2 com 4-bit - Potencial, precisa de bitsandbytes

‚ö° ESTRAT√âGIAS EFETIVAS PARA 2GB:
‚Ä¢ Modelos ‚â§ 500M par√¢metros (sem quantiza√ß√£o)
‚Ä¢ Modelos ‚â§ 2B par√¢metros (com 8-bit)
‚Ä¢ Modelos ‚â§ 3-4B par√¢metros (com 4-bit)
‚Ä¢ Sequ√™ncias ‚â§ 512 tokens
‚Ä¢ Batch size = 1


üîç STATUS ATUAL DA GPU:
   Mem√≥ria alocada: 0.80 GB
   Mem√≥ria reservada: 0.86 GB
   Dispon√≠vel: 1.30 GB
   ‚úÖ Mem√≥ria OK para pr√≥ximos experimentos.

