In [None]:
# CRIA O AMBIENTE VIRTUAL

conda create -n FT_DPO python=3.11
conda activate FT_DPO

In [None]:
# INSTALA AS DEPENDÊNCIAS

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install ipykernel tqdm unsloth transformers==4.42.4 trl==0.9.4 datasets==2.19.1 peft==0.10.0 accelerate==0.30.1 bitsandbytes safetensors

python -m ipykernel install --user --name=FT_DPO --display-name="FT_DPO"

In [2]:
from datasets import load_dataset
from trl import DPOTrainer, DPOConfig
from unsloth import FastLanguageModel, PatchDPOTrainer, is_bfloat16_supported

PatchDPOTrainer()

MODEL_NAME = "Qwen/Qwen2.5-0.5B-Instruct"
DATA_FILE  = "dataset_preferencias_juridico.jsonl"
OUTPUT_DIR = "./out_dpo_unsloth_qwen25_05b"

MAX_PROMPT = 768
MAX_TOTAL  = 1024
EPOCHS     = 3
BATCH_SIZE = 2
GRAD_ACC   = 4
LR         = 5e-5
BETA       = 0.1
USE_4BIT   = True

# Dataset único + saneamento
ds = load_dataset("json", data_files={"train": DATA_FILE})["train"]
def _ok(s): return isinstance(s, str) and len(s.strip()) > 0
def sanitize(ex):
    for k in ["prompt","chosen","rejected"]:
        v = ex.get(k, "")
        ex[k] = v.strip() if isinstance(v, str) else ""
    return ex
ds = ds.map(sanitize).filter(lambda ex: _ok(ex["prompt"]) and _ok(ex["chosen"]) and _ok(ex["rejected"]))
ds.reset_format()

# Modelo + tokenizer (Unsloth)
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name     = MODEL_NAME,
    max_seq_length = MAX_TOTAL,
    dtype          = None,        # bf16 se disponível
    load_in_4bit   = USE_4BIT,    # QLoRA
)
model = FastLanguageModel.get_peft_model(
    model,
    r                          = 16,
    target_modules             = ["q_proj","k_proj","v_proj","o_proj"],
    lora_alpha                 = 32,
    lora_dropout               = 0.05,
    bias                       = "none",
    use_gradient_checkpointing = "unsloth",
    max_seq_length             = MAX_TOTAL,
    random_state               = 3407,
)
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

# DPOConfig
args = DPOConfig(
    output_dir=OUTPUT_DIR,
    num_train_epochs=EPOCHS,
    per_device_train_batch_size=BATCH_SIZE,
    gradient_accumulation_steps=GRAD_ACC,
    learning_rate=LR,
    logging_steps=10,
    save_strategy="epoch",
    report_to="none",
    bf16=is_bfloat16_supported(),
    fp16=not is_bfloat16_supported(),
    optim="adamw_8bit",
    overwrite_output_dir=True,

    # DPO
    beta=BETA,
    max_length=MAX_TOTAL,
    max_prompt_length=MAX_PROMPT,
    generate_during_eval=False,
    precompute_ref_log_probs=True,
)

# DPOTrainer: use processing_class em vez de tokenizer ----
trainer = DPOTrainer(
    model=model,
    ref_model=None,
    args=args,
    train_dataset=ds,
    processing_class=tokenizer,       # substitui 'tokenizer='
    label_pad_token_id=-100,
    padding_value=tokenizer.pad_token_id,
    truncation_mode="keep_end",
    # max_target_length=MAX_TOTAL - MAX_PROMPT,
)

trainer.train()
trainer.save_model(OUTPUT_DIR)
tokenizer.save_pretrained(f"{OUTPUT_DIR}/tokenizer")

==((====))==  Unsloth 2025.10.6: Fast Qwen2 patching. Transformers: 4.57.1.
   \\   /|    NVIDIA L40S. Num GPUs = 1. Max memory: 44.392 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.8.0+cu128. CUDA: 8.9. CUDA Toolkit: 12.8. Triton: 3.4.0
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.32.post2. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


The tokenizer has new PAD/BOS/EOS tokens that differ from the model config and generation config. The model config and generation config were aligned accordingly, being updated with the tokenizer's values. Updated tokens: {'bos_token_id': None}.
The model is already on multiple devices. Skipping the move to device specified in `args`.
Train dataset reference log probs: 100%|██████████| 25/25 [00:08<00:00,  3.11it/s]
==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 49 | Num Epochs = 3 | Total steps = 21
O^O/ \_/ \    Batch size per device = 2 | Gradient accumulation steps = 4
\        /    Data Parallel GPUs = 1 | Total batch size (2 x 4 x 1) = 8
 "-____-"     Trainable parameters = 2,162,688 of 496,195,456 (0.44% trained)


Step,Training Loss,rewards / chosen,rewards / rejected,rewards / accuracies,rewards / margins,logps / chosen,logps / rejected,logits / chosen,logits / rejected,eval_logits / chosen,eval_logits / rejected,nll_loss
10,0.6308,0.085572,-0.053242,0.716216,0.138814,-174.60376,-70.252022,-2.735336,-2.988208,0,0,0
20,0.4247,0.464306,-0.21278,1.0,0.677086,-175.424484,-70.445366,-2.762789,-3.014127,No Log,No Log,No Log


('./out_dpo_unsloth_qwen25_05b/tokenizer/tokenizer_config.json',
 './out_dpo_unsloth_qwen25_05b/tokenizer/special_tokens_map.json',
 './out_dpo_unsloth_qwen25_05b/tokenizer/chat_template.jinja',
 './out_dpo_unsloth_qwen25_05b/tokenizer/vocab.json',
 './out_dpo_unsloth_qwen25_05b/tokenizer/merges.txt',
 './out_dpo_unsloth_qwen25_05b/tokenizer/added_tokens.json',
 './out_dpo_unsloth_qwen25_05b/tokenizer/tokenizer.json')

In [5]:
from unsloth import FastLanguageModel
from transformers import TextStreamer

ADAPTER_DIR = "./out_dpo_unsloth_qwen25_05b"  # pasta que contém adapter_config.json e adapter_model.safetensors

# 1) Carrega o “modelo” a partir do diretório do adaptador (Unsloth reconstrói o base automaticamente)
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name     = ADAPTER_DIR,   # <- aponte para o diretório do adaptador
    max_seq_length = 1024,
    dtype          = None,          # bf16 se disponível
    load_in_4bit   = True,          # ajuste conforme sua VRAM
    trust_remote_code = True,
    device_map     = "auto",
)

# 2) Otimizações de inferência do Unsloth
FastLanguageModel.for_inference(model)

# 3) Geração
prompt = "Explique de forma simples o que significa 'presunção de inocência' no Direito Penal."
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
streamer = TextStreamer(tokenizer, skip_prompt=True)

out = model.generate(
    **inputs,
    streamer=streamer,
    max_new_tokens=256,
    temperature=0.7,
    top_p=0.9,
    repetition_penalty=1.1,
    do_sample=True,
)
print("\n\nResposta:")
print(tokenizer.decode(out[0], skip_special_tokens=True))


Are you certain you want to do remote code execution?
==((====))==  Unsloth 2025.10.6: Fast Qwen2 patching. Transformers: 4.57.1.
   \\   /|    NVIDIA L40S. Num GPUs = 1. Max memory: 44.392 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.8.0+cu128. CUDA: 8.9. CUDA Toolkit: 12.8. Triton: 3.4.0
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.32.post2. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


INFO:accelerate.utils.modeling: We will use 90% of the memory on device 0 for storing the model, and 10% for the buffer to avoid OOM. You can set `max_memory` in to a higher value to use more memory (at your own risk).


 Além disso, detalhe a importância desta praxe na prática do Direito Penal e compare os principais casos em que essa praxes é aplicada. 

Aqui está o texto:

"O termo "presunção de inocência" é uma praxe utilizada no sistema penal brasileiro para determinar se uma pessoa não foi acusada ou condenada por um crime. Esta praxe tem sido amplamente usada desde a criação da Lei Complementária ao Código Penal (LC), em 1943.

Alguns pontos importantes sobre a presunção de inocência:

- Sua origem: A presunção de inocência foi criada pelo então ministro do Supremo Tribunal Federal (STF) Sérgio Moro em 1952, após uma série de críticas à jurisprudência daquele tribunal.

- Injeção: Aplica-se quando o juiz julga a causa como inacumulada - quando alguém já estava acusado de um crime e ainda não foi condenado ou punido.

- Consequências: É usado principalmente no processo civil e penitenciário, mas também pode ser aplicado em outros tipos de crimes


Resposta:
Explique de forma simples o que signifi

In [None]:
# UNIR O MODELO + ADAPTADORES

from peft import PeftModel

merged = PeftModel.from_pretrained(model, OUTPUT_DIR)
merged = merged.merge_and_unload()  # aplica os pesos do LoRA permanentemente
merged.save_pretrained("./merged_model")
tokenizer.save_pretrained("./merged_model")
