# Este notebook contém apenas instruções. Todos os comandos deverão ser realizados via terminal

In [None]:
# CRIA O AMBIENTE VIRTUAL (Terminal)

conda create -n PEFT_QLoRA python=3.11
conda activate PEFT_QLoRA

In [None]:
# INSTALA AS DEPENDENCIAS (Terminal)

#https://axolotl.ai/
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install -U packaging==23.2 setuptools==75.8.0 wheel ninja
pip install --no-build-isolation axolotl[flash-attn]


pip install tqdm ipykernel ipywidgets
python -m ipykernel install --user --name=PEFT_QLoRA --display-name="PEFT_QLoRA"

In [1]:
# ADAPTA O DATASET PARA ALPACA (Apenas se for o caso de ter que converter o dataset para o formato alpaca)

import json
SRC = "dataset_instrucoes_juridico.jsonl"
DST = "dataset_juridico_alpaca.jsonl"
INSTR = "Responda à pergunta jurídica a seguir."

with open(SRC, "r", encoding="utf-8") as fin, open(DST, "w", encoding="utf-8") as fout:
    for line in fin:
        ex = json.loads(line)
        fout.write(json.dumps({
            "instruction": INSTR,
            "input": ex["titulo"],
            "output": ex["conteudo"]
        }, ensure_ascii=False) + "\n")
print("OK ->", DST)

OK -> dataset_juridico_alpaca.jsonl


In [None]:
# CONFIGURAÇÃO

# Recomendável executar o comando accelerate config para fazer algumas configurações no ambiente para evitar mensagens de alerta.

In [None]:
# TREINAMENTO

#- Com tudo configurado, o treinamento é iniciado com um único comando no terminal.
#- Ative o ambiente axolotl.
#- Navegue até a pasta do projeto.

# accelerate launch -m axolotl.cli.train config_qwen_lora.yml


# VERIFICAÇÃO E DEMONSTRAÇÃO

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
from peft import PeftModel

BASE_MODEL_NAME = "Qwen/Qwen2.5-0.5B-Instruct"
ADAPTER_PATH = "./modelo_juridico_axolotl_lora"

# Carrega o tokenizador
tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL_NAME, trust_remote_code=True)
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

# Configuração de quantização (QLoRA)
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)

# Carrega o modelo base em 4-bit
base_model = AutoModelForCausalLM.from_pretrained(
    BASE_MODEL_NAME,
    quantization_config=bnb_config,
    device_map="auto",
    trust_remote_code=True,
)
base_model.config.pad_token_id = tokenizer.pad_token_id

model = PeftModel.from_pretrained(base_model, ADAPTER_PATH)
model.eval() # Coloca o modelo em modo de avaliação (desativa dropout, etc.)
print("Modelo base e adaptador LoRA carregados com sucesso!")

# INFERÊNCIA E TESTE
def formatar_prompt(instrucao):
    return (
        f"### Instruction:\n{instrucao}\n\n"
        "### Response:\n"
    )

def gerar_resposta(instrucao):
    prompt = formatar_prompt(instrucao)
    
    # Tokeniza o prompt e move para a GPU
    inputs = tokenizer(prompt, return_tensors="pt", return_attention_mask=False).to(model.device)
    
    # Gera a resposta
    with torch.no_grad():
        outputs = model.generate(**inputs, max_new_tokens=512, eos_token_id=tokenizer.eos_token_id)
    
    # Decodifica e extrai apenas o texto gerado (a resposta)
    full_response = tokenizer.decode(outputs[0], skip_special_tokens=True)
    response_only = full_response.split("### Response:\n")[1].strip()
    
    return response_only

instrucao_1 = "Explique em poucas palavras o que se entende pelo princípio da justiça cosmopolita em relação aos tratados internacionais?"
print(f"\nInstrução: {instrucao_1}")
resposta_1 = gerar_resposta(instrucao_1)
print(f"Resposta Gerada:\n{resposta_1}")


In [None]:
# MERGE DO MODELO

# model = model.merge_and_unload()
# print("Merge concluído!")