# Finetunnning LLM LawBot

## Install relevant packages

In [2]:
%%capture

!pip install unsloth
!pip install bitsandbytes
!pip install unsloth_zoo
!pip install --force-reinstall --no-cache-dir --no-deps git+https://github.com/unslothai/unsloth.git

## Import all relevant packages throughout this walkthrough

In [5]:
# Modules for fine-tuning
from unsloth import FastLanguageModel
import torch # Import PyTorch
from trl import SFTTrainer # Trainer for supervised fine-tuning (SFT)
from unsloth import is_bfloat16_supported # Checks if the hardware supports bfloat16 precision
# Hugging Face modules
from huggingface_hub import login # Lets you login to API
from transformers import TrainingArguments # Defines training hyperparameters
from datasets import load_dataset # Lets you load fine-tuning datasets
# Import weights and biases
import wandb
# Import kaggle secrets
from kaggle_secrets import UserSecretsClient

## Create API keys and login to Hugging Face and Weights and Biases

In [6]:
user_secrets = UserSecretsClient()
hugging_face_token = user_secrets.get_secret("HF_TOKEN_DEEPSEEK")
wnb_token = user_secrets.get_secret("wnb_token")

login(hugging_face_token)

wandb.login(key=wnb_token)
run = wandb.init(
    project='Fine-tune-DeepSeek-R1-Distill-Llama-8B on LawBot', 
    job_type="training", 
    anonymous="allow"
)

[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc
[34m[1mwandb[0m: Currently logged in as: [33mlucky-sntso[0m ([33mlucky-santoso[0m) to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin
[34m[1mwandb[0m: Using wandb-core as the SDK backend.  Please refer to https://wandb.me/wandb-core for more information.


## Loading Model and the Tokenizer

In [25]:
max_seq_length = 2048
dtype = None
load_in_4bit = True

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/DeepSeek-R1-Distill-Llama-8B",
    max_seq_length=max_seq_length,
    dtype=dtype,
    load_in_4bit=load_in_4bit,
    token=hugging_face_token,
)

==((====))==  Unsloth 2025.5.7: Fast Llama patching. Transformers: 4.51.3.
   \\   /|    Tesla P100-PCIE-16GB. Num GPUs = 1. Max memory: 15.888 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.5.1+cu124. CUDA: 6.0. CUDA Toolkit: 12.4. Triton: 3.1.0
\        /    Bfloat16 = FALSE. FA [Xformers = None. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


model.safetensors:   0%|          | 0.00/5.96G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/236 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/53.0k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.2M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/483 [00:00<?, ?B/s]

## Testing Model on a law use-case before fine-tuning

In [26]:
prompt_style = """
Di bawah ini adalah instruksi yang menjelaskan tugas, dipasangkan dengan input yang memberikan konteks lebih lanjut.
Tuliskan respons yang menyelesaikan permintaan dengan tepat.
Sebelum menjawab, pikirkan dengan cermat pertanyaan tersebut dan buatlah rangkaian pemikiran langkah demi langkah untuk memastikan respons yang logis dan akurat.

### Instruksi:
Anda adalah seorang ahli hukum dengan pengetahuan tingkat lanjut dalam penalaran hukum, analisis kasus, dan penyusunan dokumen hukum. 
Jawablah pertanyaan hukum berikut ini dengan tepat, berdasarkan peraturan perundang-undangan yang berlaku dan preseden hukum yang relevan.

### Pertanyaan:
{}

### Jawaban:
<think>
{}
"""

### Running inference on the model


In [27]:
question = """Apa arti dari “berada di bawah Presiden” dalam konteks TNI?"""

FastLanguageModel.for_inference(model)

inputs = tokenizer([prompt_style.format(question, "")], return_tensors="pt").to("cuda")

outputs = model.generate(
    input_ids=inputs.input_ids,
    attention_mask=inputs.attention_mask,
    max_new_tokens=1200,
    use_cache=True,
)

response = tokenizer.batch_decode(outputs)

print(response[0].split("### Response:")[0])

<｜begin▁of▁sentence｜>
Di bawah ini adalah instruksi yang menjelaskan tugas, dipasangkan dengan input yang memberikan konteks lebih lanjut.
Tuliskan respons yang menyelesaikan permintaan dengan tepat.
Sebelum menjawab, pikirkan dengan cermat pertanyaan tersebut dan buatlah rangkaian pemikiran langkah demi langkah untuk memastikan respons yang logis dan akurat.

### Instruksi:
Anda adalah seorang ahli hukum dengan pengetahuan tingkat lanjut dalam penalaran hukum, analisis kasus, dan penyusunan dokumen hukum. 
Jawablah pertanyaan hukum berikut ini dengan tepat, berdasarkan peraturan perundang-undangan yang berlaku dan preseden hukum yang relevan.

### Pertanyaan:
Apa arti dari “berada di bawah Presiden” dalam konteks TNI?

### Jawaban:
<think>

### Pertanyaan:
Apa arti dari “berada di bawah Presiden” dalam konteks TNI?

### Jawaban:
"Berada di bawah Presiden" dalam konteks TNI berarti seseorang berada di bawah pemerintah atau pimpinan tertinggi dalam suatu sistem atau instansi. Ini biasan

## Fine-tuning step by step

## Step 1 — Update the system prompt 

In [28]:
train_prompt_style = """
Di bawah ini adalah instruksi yang menjelaskan tugas, dipasangkan dengan input yang memberikan konteks lebih lanjut.
Tuliskan respons yang menyelesaikan permintaan dengan tepat.
Sebelum menjawab, pikirkan dengan cermat pertanyaan tersebut dan buatlah rangkaian pemikiran langkah demi langkah untuk memastikan respons yang logis dan akurat.

### Instruksi:
Anda adalah seorang ahli hukum dengan pengetahuan tingkat lanjut dalam penalaran hukum, analisis kasus, dan penyusunan dokumen hukum. 
Jawablah pertanyaan hukum berikut ini dengan tepat, berdasarkan peraturan perundang-undangan yang berlaku dan preseden hukum yang relevan.


### Pertanyaan:
{}

### Jawaban:
<think>
{}
</think>
{}
"""


## Step 2 — Download the fine-tuning dataset and format it for fine-tuning

In [29]:
import pandas as pd
df = pd.read_csv("/kaggle/input/dataset-law-chatbot/dataset.csv")
df.head()

Unnamed: 0,Context,Question,Answer
0,Pasal 3 ayat (2) sebelum perubahan menyatakan:...,Apa inti pengaturan Pasal 3 ayat (2) sebelum d...,"Intinya, semua urusan kebijakan, strategi pert..."
1,Pasal 3 ayat (2) sebelum perubahan menempatkan...,Bagaimana hubungan koordinatif TNI dengan Depa...,TNI wajib menyelaraskan kebijakan dan administ...
2,Istilah yang digunakan dalam ketentuan lama ad...,"Mengapa istilah ""Departemen Pertahanan"" pentin...",Karena pada masa itu nomenklatur resmi lembaga...
3,"Pada periode sebelum perubahan, fokus koordina...",Adakah penekanan khusus terkait perencanaan st...,Tidak ada; versi lama bersifat lebih umum dan ...
4,Ketentuan lama belum menyinggung secara ekspli...,Apakah ruang lingkup koordinasi Departemen Per...,"Belum, sehingga interpretasinya bisa sangat lu..."


In [30]:
EOS_TOKEN = tokenizer.eos_token  
EOS_TOKEN

'<｜end▁of▁sentence｜>'

In [31]:
def formatting_prompts_func(examples):
    inputs = examples["Question"]
    cots = examples["Context"]
    outputs = examples["Answer"]
    
    texts = []
    
    for input, cot, output in zip(inputs, cots, outputs):
        text = train_prompt_style.format(input, cot, output) + EOS_TOKEN
        texts.append(text)

    return {
        "text": texts,
    }

In [32]:
from datasets import Dataset
from datasets import concatenate_datasets

dataset = Dataset.from_pandas(df)

split_dataset = dataset.train_test_split(test_size=0.2, seed=42)
train_dataset_raw = split_dataset["train"]
eval_dataset_raw = split_dataset["test"]

train_dataset = train_dataset_raw.map(formatting_prompts_func, batched=True)
eval_dataset = eval_dataset_raw.map(formatting_prompts_func, batched=True)

# Contoh preview
print(train_dataset["text"][0])

Map:   0%|          | 0/1750 [00:00<?, ? examples/s]

Map:   0%|          | 0/438 [00:00<?, ? examples/s]


Di bawah ini adalah instruksi yang menjelaskan tugas, dipasangkan dengan input yang memberikan konteks lebih lanjut.
Tuliskan respons yang menyelesaikan permintaan dengan tepat.
Sebelum menjawab, pikirkan dengan cermat pertanyaan tersebut dan buatlah rangkaian pemikiran langkah demi langkah untuk memastikan respons yang logis dan akurat.

### Instruksi:
Anda adalah seorang ahli hukum dengan pengetahuan tingkat lanjut dalam penalaran hukum, analisis kasus, dan penyusunan dokumen hukum. 
Jawablah pertanyaan hukum berikut ini dengan tepat, berdasarkan peraturan perundang-undangan yang berlaku dan preseden hukum yang relevan.


### Pertanyaan:
Siapa yang berwenang mengatur mekanisme kenaikan pangkat TNI?

### Jawaban:
<think>
Setiap prajurit berhak mendapat kenaikan pangkat/jabatan berdasarkan prestasi sesuai pola karier dan kebutuhan TNI.
</think>
Panglima TNI melalui keputusan resmi.
<｜end▁of▁sentence｜>


## Step 3 — Setting up the model using LoRA

In [33]:
model_lora_lawbot = FastLanguageModel.get_peft_model(
    model,
    r=16,
    target_modules=[
        "q_proj",
        "k_proj",
        "v_proj",
        "o_proj",
        "gate_proj",
        "up_proj",
        "down_proj",
    ],
    lora_alpha=16,
    lora_dropout=0,
    bias="none",
    use_gradient_checkpointing="unsloth",
    random_state=3407,
    use_rslora=False,
    loftq_config=None,
)

Unsloth 2025.5.7 patched 32 layers with 32 QKV layers, 32 O layers and 32 MLP layers.


In [51]:
trainer_lawbot = SFTTrainer(
    model=model_lora_lawbot,
    tokenizer=tokenizer,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    dataset_text_field="text",
    max_seq_length=max_seq_length,
    dataset_num_proc=2,
    args=TrainingArguments(
        per_device_train_batch_size=2,
        gradient_accumulation_steps=4,
        num_train_epochs=1,
        warmup_steps=5,
        learning_rate=2e-4,
        fp16=not is_bfloat16_supported(),
        bf16=is_bfloat16_supported(),
        logging_steps=100,
        optim="adamw_8bit",
        weight_decay=0.01,
        lr_scheduler_type="linear",
        seed=3407,
        output_dir="outputs",
        eval_strategy="steps",
        eval_steps=100,
        save_strategy="no"
    ),
)

Unsloth: Tokenizing ["text"] (num_proc=2):   0%|          | 0/1750 [00:00<?, ? examples/s]

Unsloth: Tokenizing ["text"] (num_proc=2):   0%|          | 0/438 [00:00<?, ? examples/s]

## Step 4 — Model training! 

In [52]:
# Start the fine-tuning process
trainer_stats = trainer_lawbot.train()

==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 1,750 | Num Epochs = 1 | Total steps = 218
O^O/ \_/ \    Batch size per device = 2 | Gradient accumulation steps = 4
\        /    Data Parallel GPUs = 1 | Total batch size (2 x 4 x 1) = 8
 "-____-"     Trainable parameters = 41,943,040/8,000,000,000 (0.52% trained)


Step,Training Loss,Validation Loss


KeyboardInterrupt: 

In [None]:
# Save the fine-tuned model
wandb.finish()

## Step 5 — Run model inference after fine-tuning

In [38]:
question = """Apa arti dari “berada di bawah Presiden” dalam konteks TNI?"""

FastLanguageModel.for_inference(model_lora_lawbot)

inputs = tokenizer([prompt_style.format(question, "")], return_tensors="pt").to("cuda")

outputs = model_lora_lawbot.generate(
    input_ids=inputs.input_ids,
    attention_mask=inputs.attention_mask,
    max_new_tokens=1200,
    use_cache=True,
)

response = tokenizer.batch_decode(outputs)

print(response[0].split("### Response:")[0])


<｜begin▁of▁sentence｜>
Di bawah ini adalah instruksi yang menjelaskan tugas, dipasangkan dengan input yang memberikan konteks lebih lanjut.
Tuliskan respons yang menyelesaikan permintaan dengan tepat.
Sebelum menjawab, pikirkan dengan cermat pertanyaan tersebut dan buatlah rangkaian pemikiran langkah demi langkah untuk memastikan respons yang logis dan akurat.

### Instruksi:
Anda adalah seorang ahli hukum dengan pengetahuan tingkat lanjut dalam penalaran hukum, analisis kasus, dan penyusunan dokumen hukum. 
Jawablah pertanyaan hukum berikut ini dengan tepat, berdasarkan peraturan perundang-undangan yang berlaku dan preseden hukum yang relevan.

### Pertanyaan:
Apa arti dari “berada di bawah Presiden” dalam konteks TNI?

### Jawaban:
<think>

### Pertanyaan:
Apa arti dari “berada di bawah Presiden” dalam konteks TNI?

### Jawaban:
“Berada di bawah Presiden” dalam konteks TNI berarti individu tersebut sedang berada di bawah pimpinan langsung atau pemimpin tertingkat dalam TNI. Ini biasan

## Evaluasi ROUGE atau BLEU 

## Save Model

In [39]:
# Setelah training selesai
trainer_lawbot.save_model("model_lora_lawbot")
tokenizer.save_pretrained("model_lora_lawbot") 

('model_lora_lawbot/tokenizer_config.json',
 'model_lora_lawbot/special_tokens_map.json',
 'model_lora_lawbot/tokenizer.json')

In [40]:
!zip -r model_lora_lawbot.zip model_lora_lawbot

  adding: model_lora_lawbot/ (stored 0%)
  adding: model_lora_lawbot/special_tokens_map.json (deflated 69%)
  adding: model_lora_lawbot/tokenizer_config.json (deflated 95%)
  adding: model_lora_lawbot/adapter_config.json (deflated 56%)
  adding: model_lora_lawbot/training_args.bin (deflated 51%)
  adding: model_lora_lawbot/tokenizer.json (deflated 85%)
  adding: model_lora_lawbot/adapter_model.safetensors (deflated 57%)
  adding: model_lora_lawbot/README.md (deflated 66%)


In [42]:
from IPython.display import FileLink

# Membuat link untuk download
FileLink("model_lora_lawbot.zip")

## Testing

In [50]:
from unsloth import FastLanguageModel
from peft import PeftModel
from transformers import AutoTokenizer

import torch

max_seq_length = 2048
dtype = None
load_in_4bit = True

# Path ke folder model yang sudah disimpan
model_dir = "/kaggle/working/model_lora_lawbot"

# 1. Load tokenizer dari folder hasil fine-tuning
tokenizer = AutoTokenizer.from_pretrained(model_dir, use_fast=True)

# 2. Load base model (harus sama dengan yang dipakai saat fine-tuning)
model, _ = FastLanguageModel.from_pretrained(
    model_name="unsloth/DeepSeek-R1-Distill-Llama-8B",
    max_seq_length=max_seq_length,
    dtype=dtype,
    load_in_4bit=load_in_4bit,
    token=hugging_face_token,  # <- pastikan ini sudah Anda set sebelumnya
)

# 3. Load LoRA weights yang sudah difinetune
model_lora_capd = PeftModel.from_pretrained(model, model_dir)
model_lora_capd.eval()

# 4. Prompt satu pertanyaan CAPD
prompt = """Di bawah ini adalah instruksi yang menjelaskan tugas, dipasangkan dengan input yang memberikan konteks lebih lanjut.
Tuliskan respons yang menyelesaikan permintaan dengan tepat.
Sebelum menjawab, pikirkan dengan cermat pertanyaan tersebut dan buatlah rangkaian pemikiran langkah demi langkah untuk memastikan respons yang logis dan akurat.

### Instruksi:
Anda adalah seorang ahli hukum dengan pengetahuan tingkat lanjut dalam penalaran hukum, analisis kasus, dan penyusunan dokumen hukum. 
Jawablah pertanyaan hukum berikut ini dengan tepat, berdasarkan peraturan perundang-undangan yang berlaku dan preseden hukum yang relevan.

### Pertanyaan:
Apa arti dari “berada di bawah Presiden” dalam konteks TNI?

### Jawaban:
<think>
"""

# 5. Tokenisasi & inference
inputs = tokenizer(prompt, return_tensors="pt").to(model_lora_capd.device)

with torch.inference_mode():
    outputs = model_lora_lawbot.generate(
        **inputs,
        max_new_tokens=1200,
        do_sample=False,
        temperature=0.7,
        top_p=0.95,
        eos_token_id=tokenizer.eos_token_id
    )

# 6. Decode dan tampilkan jawaban
decoded = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("\n==== Jawaban Model ====\n")
print(decoded)


==== Jawaban Model ====

Di bawah ini adalah instruksi yang menjelaskan tugas, dipasangkan dengan input yang memberikan konteks lebih lanjut.
Tuliskan respons yang menyelesaikan permintaan dengan tepat.
Sebelum menjawab, pikirkan dengan cermat pertanyaan tersebut dan buatlah rangkaian pemikiran langkah demi langkah untuk memastikan respons yang logis dan akurat.

### Instruksi:
Anda adalah seorang ahli hukum dengan pengetahuan tingkat lanjut dalam penalaran hukum, analisis kasus, dan penyusunan dokumen hukum. 
Jawablah pertanyaan hukum berikut ini dengan tepat, berdasarkan peraturan perundang-undangan yang berlaku dan preseden hukum yang relevan.

### Pertanyaan:
Apa arti dari “berada di bawah Presiden” dalam konteks TNI?

### Jawaban:
<think>
Saya tidak dapat memberikan informasi lebih lanjut mengenai "berada di bawah Presiden" dalam konteks TNI karena informasi tersebut tidak tersedia dalam database Saya. Namun, saya dapat memberikan informasi umum tentang TNI dan bagian mana "berad

In [8]:
from unsloth import FastLanguageModel
from peft import PeftModel
from transformers import AutoTokenizer

import torch

max_seq_length = 2048
dtype = None
load_in_4bit = True

# Path ke folder model yang sudah disimpan
model_dir = "/kaggle/input/adapter_lora_epoch1/transformers/default/1/model_lora_lawbot"

# 1. Load tokenizer dari folder hasil fine-tuning
tokenizer = AutoTokenizer.from_pretrained(model_dir, use_fast=True)

# 2. Load base model (harus sama dengan yang dipakai saat fine-tuning)
model, _ = FastLanguageModel.from_pretrained(
    model_name="unsloth/DeepSeek-R1-Distill-Llama-8B",
    max_seq_length=max_seq_length,
    dtype=dtype,
    load_in_4bit=load_in_4bit,
    token=hugging_face_token,  # <- pastikan ini sudah Anda set sebelumnya
)

# 3. Load LoRA weights yang sudah difinetune
model_lora_lawbot = PeftModel.from_pretrained(model, model_dir)
model_lora_lawbot.eval()

# 4. Prompt satu pertanyaan CAPD
prompt = """Di bawah ini adalah instruksi yang menjelaskan tugas, dipasangkan dengan input yang memberikan konteks lebih lanjut.
Tuliskan respons yang menyelesaikan permintaan dengan tepat.
Sebelum menjawab, pikirkan dengan cermat pertanyaan tersebut dan buatlah rangkaian pemikiran langkah demi langkah untuk memastikan respons yang logis dan akurat.

### Instruksi:
Anda adalah seorang ahli hukum dengan pengetahuan tingkat lanjut dalam penalaran hukum, analisis kasus, dan penyusunan dokumen hukum. 
Jawablah pertanyaan hukum berikut ini dengan tepat, berdasarkan peraturan perundang-undangan yang berlaku dan preseden hukum yang relevan.

### Pertanyaan:
Apa arti dari “berada di bawah Presiden” dalam konteks TNI?

### Jawaban:
<think>
"""

# 5. Tokenisasi & inference
inputs = tokenizer(prompt, return_tensors="pt").to(model_lora_lawbot.device)

with torch.inference_mode():
    outputs = model_lora_lawbot.generate(
        **inputs,
        max_new_tokens=1200,
        do_sample=False,
        temperature=0.7,
        top_p=0.95,
        eos_token_id=tokenizer.eos_token_id
    )

# 6. Decode dan tampilkan jawaban
decoded = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("\n==== Jawaban Model ====\n")
print(decoded)

==((====))==  Unsloth 2025.5.7: Fast Llama patching. Transformers: 4.51.3.
   \\   /|    Tesla P100-PCIE-16GB. Num GPUs = 1. Max memory: 15.888 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.7.0+cu126. CUDA: 6.0. CUDA Toolkit: 12.6. Triton: 3.3.0
\        /    Bfloat16 = FALSE. FA [Xformers = 0.0.30. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!

==== Jawaban Model ====

Di bawah ini adalah instruksi yang menjelaskan tugas, dipasangkan dengan input yang memberikan konteks lebih lanjut.
Tuliskan respons yang menyelesaikan permintaan dengan tepat.
Sebelum menjawab, pikirkan dengan cermat pertanyaan tersebut dan buatlah rangkaian pemikiran langkah demi langkah untuk memastikan respons yang logis dan akurat.

### Instruksi:
Anda adalah seorang ahli hukum dengan pengetahuan tingkat lanjut dalam penalaran hukum, analisis kasus, dan penyusunan dokumen hukum. 
Jawablah pertanyaan h