In [1]:
%%capture
!pip install -U xformers --index-url https://download.pytorch.org/whl/cu121
!pip install "unsloth[kaggle-new] @ git+https://github.com/unslothai/unsloth.git"

# Temporary fix for https://github.com/huggingface/datasets/issues/6753
!pip install datasets==2.16.0 fsspec==2023.10.0 gcsfs==2023.10.0

# !pip install transformers --upgrade

In [1]:
from unsloth import FastLanguageModel
import torch
max_seq_length = 1024 # Choose any! We auto support RoPE Scaling internally!
dtype = torch.float16 # None for auto detection. Float16 for Tesla T4, V100, Bfloat16 for Ampere+
load_in_4bit = True # Use 4bit quantization to reduce memory usage. Can be False.
hf_token = "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"

2024-05-15 01:44:28.966768: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-05-15 01:44:28.966832: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-05-15 01:44:28.968513: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered


In [2]:
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/gemma-7b-bnb-4bit",
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
    token = hf_token, # use one if using gated models like meta-llama/Llama-2-7b-hf
)

==((====))==  Unsloth: Fast Gemma patching release 2024.5
   \\   /|    GPU: Tesla T4. Max memory: 14.748 GB. Platform = Linux.
O^O/ \_/ \    Pytorch: 2.3.0+cu121. CUDA = 7.5. CUDA Toolkit = 12.1.
\        /    Bfloat16 = TRUE. Xformers = 0.0.26.post1. FA = False.
 "-____-"     Free Apache license: http://github.com/unslothai/unsloth


Gemma's activation function should be approximate GeLU and not exact GeLU.
Changing the activation function to `gelu_pytorch_tanh`.if you want to use the legacy `gelu`, edit the `model.config` to set `hidden_activation=gelu`   instead of `hidden_act`. See https://github.com/huggingface/transformers/pull/29402 for more details.


In [3]:
model = FastLanguageModel.get_peft_model(
    model,
    r = 16, # Choose any number > 0 ! Suggested 8, 16, 32, 64, 128
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj",],
    lora_alpha = 32,
    lora_dropout = 0.1, # Supports any, but = 0 is optimized
    bias = "none",    # Supports any, but = "none" is optimized
    # [NEW] "unsloth" uses 30% less VRAM, fits 2x larger batch sizes!
    use_gradient_checkpointing = "unsloth", # True or "unsloth" for very long context
    random_state = 3407,
    use_rslora = False,  # We support rank stabilized LoRA
    loftq_config = None, # And LoftQ
)

Unsloth: Dropout = 0 is supported for fast patching. You are using dropout = 0.1.
Unsloth will patch all other layers, except LoRA matrices, causing a performance hit.
Unsloth 2024.5 patched 28 layers with 0 QKV layers, 0 O layers and 0 MLP layers.


In [4]:
model

PeftModelForCausalLM(
  (base_model): LoraModel(
    (model): GemmaForCausalLM(
      (model): GemmaModel(
        (embed_tokens): Embedding(256000, 3072)
        (layers): ModuleList(
          (0-27): 28 x GemmaDecoderLayer(
            (self_attn): GemmaSdpaAttention(
              (q_proj): lora.Linear4bit(
                (base_layer): Linear4bit(in_features=3072, out_features=4096, bias=False)
                (lora_dropout): ModuleDict(
                  (default): Dropout(p=0.1, inplace=False)
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=3072, out_features=16, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=16, out_features=4096, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): ParameterDict()
              )
              (k_proj): lora.Linear4bit(
                (base_layer): Linear4

In [5]:
alpaca_prompt = """Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
{}

### Input:
{}

### Response:
{}"""

EOS_TOKEN = tokenizer.eos_token # Must add EOS_TOKEN
instruction = """Hãy đơn giản hóa câu sau dựa trên thông tin mà tôi cung cấp.
Định nghĩa: Đơn giản hóa câu bao gồm việc sửa đổi nội dung và cấu trúc của một câu để làm cho nó dễ hiểu hơn, trong khi vẫn giữ lại ý chính và hầu hết nghĩa ban đầu của nó.
Để đơn giản hóa một câu, có thể thực hiện một số phép biến đổi dưới đây:
1. Loại bỏ thông tin không cần thiết.
2. Loại bỏ hoặc giảm thiểu các cụm từ không mang lại nhiều giá trị thông tin cho câu.
3. Thay thế các từ / cụm từ phức tạp bằng các từ đồng nghĩa đơn giản hơn.
4. Chia câu phức tạp, nhiều thông tin thành các câu nhỏ hơn.
Lưu ý rằng câu đơn giản không chứa bất kỳ thông tin nào không có hoặc không đúng với câu gốc.
""".strip()
def formatting_prompts_func(examples):
    # instructions = instruction
    inputs       = examples["sentence"]
    outputs      = examples["result"]
    texts = []
    for input, output in zip(inputs, outputs):
        # Must add EOS_TOKEN, otherwise your generation will go on forever!
        text = alpaca_prompt.format(instruction, input, output) + EOS_TOKEN
        texts.append(text)
    return { "text" : texts, }
pass

from datasets import load_dataset
data_files = {
    "train": "train.json",
    "eval": "eval.json"
}

dataset = load_dataset("/kaggle/input/ss-dataset", data_files=data_files)
dataset = dataset.map(formatting_prompts_func, batched = True,)
dataset["train"][0]

{'id': 'difficult_102_5',
 'result': 'Mọi người đều biết, Soneca và người châu Âu tạo ra "định mệnh" và "thảm họa". Đối với người Hy Lạp, "thảm họa" chỉ là một sự thay đổi, một sự lật ngược. Nói cách khác, nó chỉ là một sự chuyển động vòng tròn, sau đó nó sẽ quay trở lại.',
 'sentence': 'Ai cũng biết , " định mệnh " và " thảm họa " là do Soneca và những người châu Âu bịa ra ; với những người Hy Lạp , " thảm họa " là bước ngoặt quay ngược lại , đảo xuống phía dưới , dẫu vậy , nó cũng chỉ là " bước ngoặt " , có nghĩa , nó là sự chuyển động theo vòng tròn , tới lượt sau nó lại đảo lên phía trên .',
 'text': 'Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.\n\n### Instruction:\nHãy đơn giản hóa câu sau dựa trên thông tin mà tôi cung cấp.\nĐịnh nghĩa: Đơn giản hóa câu bao gồm việc sửa đổi nội dung và cấu trúc của một câu để làm cho nó dễ hiểu hơn, trong khi vẫn giữ lại ý chính và hầu

In [6]:
_max = -1
for i in dataset["train"]["text"]:
    arr = tokenizer.encode(i)
    length = len(arr)
    if length > _max:
        _max = length
print(_max)

1017


In [6]:
import wandb
import os

wandb.login()
%env WANDB_PROJECT=ss-v1
%env WANDB_LOG_MODEL=false

# os.environ["WANDB_API_KEY"] = "764d0f82f6d2b1cbdc302d0e476f0cbddc6a6033"
# os.environ["WANDB_PROJECT"]="ss-finetune-v2"

[34m[1mwandb[0m: Currently logged in as: [33mhasontung[0m. Use [1m`wandb login --relogin`[0m to force relogin


env: WANDB_PROJECT=ss-v1
env: WANDB_LOG_MODEL=false


In [7]:
from trl import SFTTrainer
from transformers import TrainingArguments

trainer = SFTTrainer(
    model = model,
    tokenizer = tokenizer,
    train_dataset = dataset["train"],
    eval_dataset = dataset["eval"],
    dataset_text_field = "text",
    max_seq_length = max_seq_length,
    dataset_num_proc = 2,
    packing = False, # Can make training 5x faster for short sequences.
    args = TrainingArguments(
        per_device_train_batch_size = 4,
        per_device_eval_batch_size = 1,
        gradient_accumulation_steps = 16,
        warmup_steps = 5,
        evaluation_strategy="epoch",
        save_strategy="epoch",
        # max_steps = 60,
        num_train_epochs=2,
        learning_rate = 2e-4,
        fp16 = True,
        bf16 = False,
        logging_steps = 1,
        optim = "adamw_torch",
        lr_scheduler_type = "constant",
        seed = 3407,
        output_dir = "gemma7b-r16a32-lr2e-4-adamw32bit-dr0.1",
        run_name = "gemma7b-r16a32-lr2e-4-adamw32bit-dr0.1",
        report_to="wandb"
    ),
)

In [8]:
trainer.train()

==((====))==  Unsloth - 2x faster free finetuning | Num GPUs = 1
   \\   /|    Num examples = 9,157 | Num Epochs = 2
O^O/ \_/ \    Batch size per device = 4 | Gradient Accumulation steps = 16
\        /    Total batch size = 64 | Total steps = 286
 "-____-"     Number of trainable parameters = 50,003,968


Epoch,Training Loss,Validation Loss
0,0.6915,0.579674
1,0.6135,0.587303


TrainOutput(global_step=286, training_loss=0.654458169545327, metrics={'train_runtime': 30210.5789, 'train_samples_per_second': 0.606, 'train_steps_per_second': 0.009, 'total_flos': 3.916238836963369e+17, 'train_loss': 0.654458169545327, 'epoch': 2.0})

In [9]:
dataset["eval"] = dataset["eval"].shuffle(seed=42)

In [10]:
import torch
def summarize(model, text, decoding_strategy="greedy"):
#     FastLanguageModel.for_inference(model) # Enable native 2x faster inference
    inputs = tokenizer(
    [
        alpaca_prompt.format(
            instruction, # instruction
            text, # input
            "", # output - leave this blank for generation!
        )
    ], return_tensors = "pt").to("cuda")
    inputs_length = len(inputs["input_ids"][0])
    
    generation_params = None
    if decoding_strategy == "greedy":
        generation_params = {
            "max_new_tokens": 300,
            "top_k": 1,
        }
    elif decoding_strategy == "beam":
        generation_params = {
            "max_new_tokens": 300,
            "num_beams": 5,
            "early_stopping": True,
        }
    elif decoding_strategy == "sampling":
        generation_params = {
            "max_new_tokens": 300,
            "do_sample": True,
            "top_p": 0.95,
            "top_k": 5,
            "temperature": 0.5,
        }
    else:
        print("Unknown decoding strategy.")
        return None;
    with torch.inference_mode():
        outputs = model.generate(
            **inputs, 
            eos_token_id=tokenizer.eos_token_id,  
            pad_token_id=tokenizer.pad_token_id,
            use_cache=True,
            **generation_params
        )
    del inputs
    torch.cuda.empty_cache()
    return tokenizer.decode(outputs[0][inputs_length:])

In [15]:
sent = dataset["eval"]["sentence"][4]
print(alpaca_prompt.format(
        instruction, # instruction
        sent, # input
        "", # output - leave this blank for generation!
    ))
print(summarize(model, sent, "greedy"))

Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
Hãy đơn giản hóa câu sau dựa trên thông tin mà tôi cung cấp.
Định nghĩa: Đơn giản hóa câu bao gồm việc sửa đổi nội dung và cấu trúc của một câu để làm cho nó dễ hiểu hơn, trong khi vẫn giữ lại ý chính và hầu hết nghĩa ban đầu của nó.
Để đơn giản hóa một câu, có thể thực hiện một số phép biến đổi dưới đây:
1. Loại bỏ thông tin không cần thiết.
2. Loại bỏ hoặc giảm thiểu các cụm từ không mang lại nhiều giá trị thông tin cho câu.
3. Thay thế các từ / cụm từ phức tạp bằng các từ đồng nghĩa đơn giản hơn.
4. Chia câu phức tạp, nhiều thông tin thành các câu nhỏ hơn.
Lưu ý rằng câu đơn giản không chứa bất kỳ thông tin nào không có hoặc không đúng với câu gốc.

### Input:
Như vậy , mỗi loại tình cảm nhất định nào đó sẽ đem bóng dáng rõ ràng hoặc âm u tập trung vào quan sát đối với vận động , tập trung vào lực lượng chiêu 

In [16]:
from tqdm import tqdm
out_data = []
# length = int(len(test_df) / 3) + 1 if len(test_df) % 3 != 0 else len(test_df) / 3
with tqdm(total=len(dataset["eval"]["sentence"])) as pbar:
    for i in range(len(dataset["eval"]["sentence"])):
        greedy_response = summarize(model, dataset["eval"]["sentence"][i], "greedy").replace(tokenizer.eos_token, "").strip()
#         sampling_response = summarize(model, example.prompt, "sampling").replace("<eos>", "")
#         beam_response = summarize(model, example.prompt, "beam").replace("<eos>", "")
        temp = {
            "sentence": dataset["eval"]["sentence"][i],
            "result": dataset["eval"]["result"][i],
            "pred": greedy_response,
#             "sampling": sampling_response,
#             "beam": beam_response,
        }
        out_data.append(temp)
        pbar.update(1)
print(out_data[0])

100%|██████████| 500/500 [30:03<00:00,  3.61s/it]

{'sentence': 'Ở phần sau của bài viết , chúng tôi sẽ đi vào trình bày lại một số thực hành để có thể quan sát rõ hơn cách đặt vấn đề và các thao tác trong nghiên cứu .', 'result': 'Trong phần tiếp theo, chúng tôi sẽ giới thiệu một số thực hành giúp hiểu rõ hơn về cách đặt vấn đề và thao tác nghiên cứu.', 'pred': 'Trong phần sau, chúng tôi sẽ nói về một số cách làm để hiểu rõ hơn về việc đặt vấn đề và cách nghiên cứu.'}





In [17]:
dict_result = {
    "training_info": {
        "model": "gemma7b",
        "detail": "r16 a32 optim torchadamw lr2e-4 dr0.1 2eps"
    },
    "result": out_data
}

In [18]:
import json

def load_json(file_path):
  with open(file_path, 'r', encoding='utf-8') as json_file:
    content = json.load(json_file)
  return content

def save_json(file_path, data):
  with open(file_path, 'w', encoding='utf-8') as json_file:
    json.dump(data, json_file, ensure_ascii=False, indent=2)

save_json(f"/kaggle/working/new-ss-gemma7b-r16a32-lr2e-4-adamw32bit-dr0.1", dict_result)