# Geração de Texto com Modelos LLM da Hugging Face

Este projeto demonstra como **gerar texto** carregando e interagindo com modelos de *linguagem de grande porte (LLM)* disponíveis na Hugging Face, especificamente, vamos testar o modelo **Meta-Llama-3-8B-Instruct**.

📌 **O que este projeto faz?**

- Faz **requisições autenticadas** à Hugging Face para acessar modelos restritos.
- Gera **respostas textuais inteligentes** a partir de prompts do usuário.
- Utiliza **quantização 4-bit** para otimizar o uso de GPU.
- Processa e **limpa a saída do modelo**, removendo tokens especiais e metadados técnicos.

💡 Ideal para quem deseja explorar **LLMs**, **IA generativa** e **Hugging Face Transformers**!

#### Detalhes Técnicos


| 🔍 **Item**             | 📄 **Descrição**                                         |
| ----------------------- | -------------------------------------------------------- |
| **🛠️ Tecnologias**     | Python, PyTorch, Hugging Face Transformers, BitsAndBytes |
| **📦 Dependências**     | `transformers`, `torch`, `bitsandbytes`, `accelerate`    |
| **⚙️ Funcionalidade**   | Geração de texto usando LLMs otimizados para GPU         |
| **📌 Modelo Utilizado** | `meta-llama/Meta-Llama-3-8B-Instruct`                    |
| **📉 Quantização**      | 4-bit (`BitsAndBytesConfig`)                             |
| **🔑 Autenticação**     | Token da Hugging Face via `getpass`                      |
|                         |                                                          |


## Instalações & Configs


In [1]:
!pip install -q transformers accelerate bitsandbytes
#!pip install bitsandbytes-cuda110 bitsandbytes #a instalação padrão de bitsandbytes já inclui suporte CUDA. E se estiver usando CUDA mais recente (>= 11.0), pode ser incompatível.

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.1/76.1 MB[0m [31m6.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m363.4/363.4 MB[0m [31m3.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.8/13.8 MB[0m [31m46.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m24.6/24.6 MB[0m [31m34.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m883.7/883.7 kB[0m [31m26.4 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m664.8/664.8 MB[0m [31m2.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m211.5/211.5 MB[0m [31m5.8 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m56.3/56.3 MB[0m [31m12.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [7]:
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
import torch
import getpass
import os

In [3]:
device = "cuda:0" if torch.cuda.is_available() else "cpu"

In [4]:
torch.random.manual_seed(42)

<torch._C.Generator at 0x78be2c0f10d0>

## Configuração do Token e Quantização

1. o modelo Meta-Llama-3-8B-Instruct é restrito e requer autenticação via Hugging Face Token. Abaixo vamos colar o seu token gerado dentro do painel da Hugging Face.

2. Access to model meta-llama/Meta-Llama-3-8B-Instruct is restricted and you are not in the authorized list. Visit https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct to ask for access. **Eu preenchi a requisição e aguardei uns 15 minutos pela liberação.**

In [8]:
# Solicita o token da Hugging Face e armazena na variável de ambiente
os.environ["HF_TOKEN"] = getpass.getpass()

··········


In [9]:
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=torch.bfloat16
)

## Carregamento do Modelo e Tokenizador

In [11]:
model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=quantization_config)
tokenizer = AutoTokenizer.from_pretrained(model_id)

config.json:   0%|          | 0.00/654 [00:00<?, ?B/s]

`low_cpu_mem_usage` was None, now default to True since model is quantized.


model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/4 [00:00<?, ?it/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.17G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/187 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/51.0k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/73.0 [00:00<?, ?B/s]

## Geração de Texto

In [15]:
prompt = ("Qual foi a maior contribuição de Albert Einstein para a ciência?")
messages = [{"role": "user", "content": prompt}]

In [16]:
# Aplicação do template de chat e conversão para tensores
encodeds = tokenizer.apply_chat_template(messages, return_tensors="pt").to(device)

# Criar a attention mask (manualmente)
attention_mask = torch.ones_like(encodeds)

# Gerar texto passando a attention_mask
generated_ids = model.generate(
    encodeds,
    attention_mask=attention_mask,  # Adicionando a atenção para evitar o erro que faz com que o modelo nao distinga entre o fim da sequência e tokens que deveriam ser ignorados.
    max_new_tokens=1000,
    do_sample=True,
    pad_token_id=tokenizer.eos_token_id
)
decoded = tokenizer.batch_decode(generated_ids)
res = decoded[0]
res


'<|begin_of_text|><|start_header_id|>user<|end_header_id|>\n\nQual foi a maior contribuição de Albert Einstein para a ciência?<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\nAlbert Einstein é considerado um dos maiores cientistas do século XX, e sua contribuição para a ciência é imensa e multifacetada. No entanto, sua maior contribuição é provavelmente a teoria da relatividade, que mudou completamente a nossa compreensão do tempo, do espaço e da gravidade.\n\nA teoria da relatividade, apresentada por Einstein em 1905 e 1915, é composta por duas partes: a teoria da relatividade especial (1905) e a teoria da relatividade geral (1915). A primeira parte, a teoria da relatividade especial, postula que o tempo e o espaço são relativos, e que a velocidade da luz é constante em todos os referenciais inerciais. Isso significa que o tempo e o espaço são dependentes da velocidade e da posição do observador.\n\nA segunda parte, a teoria da relatividade geral, é uma generalização da prim

### Refinando o texto gerado

In [18]:
#Removendo os tokens especiais usados pelo modelo para estruturar a conversa no formato de chat.
import re

# Regex melhorada para remover tags e rótulos extras
cleaned_res = re.sub(r"<\|.*?\|>|\b(?:user|assistant)\b", "", res, flags=re.IGNORECASE).strip() #insensivel à diferença maius/minusc; remove espaços extras

print(cleaned_res)


Qual foi a maior contribuição de Albert Einstein para a ciência?

Albert Einstein é considerado um dos maiores cientistas do século XX, e sua contribuição para a ciência é imensa e multifacetada. No entanto, sua maior contribuição é provavelmente a teoria da relatividade, que mudou completamente a nossa compreensão do tempo, do espaço e da gravidade.

A teoria da relatividade, apresentada por Einstein em 1905 e 1915, é composta por duas partes: a teoria da relatividade especial (1905) e a teoria da relatividade geral (1915). A primeira parte, a teoria da relatividade especial, postula que o tempo e o espaço são relativos, e que a velocidade da luz é constante em todos os referenciais inerciais. Isso significa que o tempo e o espaço são dependentes da velocidade e da posição do observador.

A segunda parte, a teoria da relatividade geral, é uma generalização da primeira parte e postula que a gravidade não é uma força que atua entre objetos, mas sim uma curvatura do espaço-tempo causada 