In [1]:
!pip install datasets --upgrade
!pip install -q einops
!pip install -q git+https://github.com/huggingface/transformers.git
!pip install -q -U trl accelerate peft
!pip install -q datasets bitsandbytes wandb

Collecting datasets
  Downloading datasets-2.18.0-py3-none-any.whl.metadata (20 kB)
Collecting pyarrow>=12.0.0 (from datasets)
  Downloading pyarrow-15.0.2-cp310-cp310-manylinux_2_28_x86_64.whl.metadata (3.0 kB)
Collecting pyarrow-hotfix (from datasets)
  Downloading pyarrow_hotfix-0.6-py3-none-any.whl.metadata (3.6 kB)
Downloading datasets-2.18.0-py3-none-any.whl (510 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m510.5/510.5 kB[0m [31m10.0 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hDownloading pyarrow-15.0.2-cp310-cp310-manylinux_2_28_x86_64.whl (38.3 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m38.3/38.3 MB[0m [31m41.7 MB/s[0m eta [36m0:00:00[0m:00:01[0m00:01[0m
[?25hDownloading pyarrow_hotfix-0.6-py3-none-any.whl (7.9 kB)
Installing collected packages: pyarrow-hotfix, pyarrow, datasets
  Attempting uninstall: pyarrow
    Found existing installation: pyarrow 11.0.0
    Uninstalling pyarrow-11.0.0:
      Successfully uninst

In [None]:
from huggingface_hub import notebook_login

notebook_login()
# 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

In [2]:
import torch
import os
import numpy as np
from peft import LoraConfig, AutoPeftModelForCausalLM
from transformers import AutoModelForCausalLM, AutoTokenizer, AutoConfig, BitsAndBytesConfig, TrainingArguments
from trl import SFTTrainer

model_id = "vinai/PhoGPT-4B"

2024-03-26 16:30:38.153124: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-03-26 16:30:38.153239: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-03-26 16:30:38.287489: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered


In [2]:
def create_model_and_tokenizer():
    bnb_config = BitsAndBytesConfig(
        load_in_4bit=True,
        bnb_4bit_use_double_quant=True,
        bnb_4bit_quant_type="nf4",
        bnb_4bit_compute_dtype=torch.float16
    )
    config = AutoConfig.from_pretrained(model_id, trust_remote_code=True)
    tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
    model = AutoModelForCausalLM.from_pretrained(
        model_id,
        config=config,
        quantization_config=bnb_config, 
        device_map="auto",
        torch_dtype=torch.float16,
        trust_remote_code=True,
    )
    model.config.use_cache= False
    return model, tokenizer

model, tokenizer = create_model_and_tokenizer()
model

  return self.fget.__get__(instance, owner)()


# Dataset

In [3]:
from datasets import load_dataset

data_files = {
    "train": "train.json",
    "eval": "eval.json"
}

dataset = load_dataset("/kaggle/input/ss-dataset", data_files=data_files)
dataset

Generating train split: 0 examples [00:00, ? examples/s]

Generating eval split: 0 examples [00:00, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['id', 'result', 'sentence'],
        num_rows: 9157
    })
    eval: Dataset({
        features: ['id', 'result', 'sentence'],
        num_rows: 500
    })
})

In [4]:
def print_sample(example):
    dash_line = '-'.join('' for x in range(127))
    print(dash_line)
    print(f'ID: {example["id"]}')
    print(f'INPUT:\n{example["sentence"]}')
    print(dash_line)
    print(f'SIMPLE:\n{example["result"]}')
    print(dash_line)
print_sample(dataset["train"][0])

------------------------------------------------------------------------------------------------------------------------------
ID: difficult_102_5
INPUT:
Ai cũng biết , " định mệnh " và " thảm họa " là do Soneca và những người châu Âu bịa ra ; với những người Hy Lạp , " thảm họa " là bước ngoặt quay ngược lại , đảo xuống phía dưới , dẫu vậy , nó cũng chỉ là " bước ngoặt " , có nghĩa , nó là sự chuyển động theo vòng tròn , tới lượt sau nó lại đảo lên phía trên .
------------------------------------------------------------------------------------------------------------------------------
SIMPLE:
Mọi người đều biết, Soneca và người châu Âu tạo ra "định mệnh" và "thảm họa". Đối với người Hy Lạp, "thảm họa" chỉ là một sự thay đổi, một sự lật ngược. Nói cách khác, nó chỉ là một sự chuyển động vòng tròn, sau đó nó sẽ quay trở lại.
------------------------------------------------------------------------------------------------------------------------------


# Preprocess

In [6]:
dict_map = {
    "òa": "oà",
    "Òa": "Oà",
    "ÒA": "OÀ",
    "óa": "oá",
    "Óa": "Oá",
    "ÓA": "OÁ",
    "ỏa": "oả",
    "Ỏa": "Oả",
    "ỎA": "OẢ",
    "õa": "oã",
    "Õa": "Oã",
    "ÕA": "OÃ",
    "ọa": "oạ",
    "Ọa": "Oạ",
    "ỌA": "OẠ",
    "òe": "oè",
    "Òe": "Oè",
    "ÒE": "OÈ",
    "óe": "oé",
    "Óe": "Oé",
    "ÓE": "OÉ",
    "ỏe": "oẻ",
    "Ỏe": "Oẻ",
    "ỎE": "OẺ",
    "õe": "oẽ",
    "Õe": "Oẽ",
    "ÕE": "OẼ",
    "ọe": "oẹ",
    "Ọe": "Oẹ",
    "ỌE": "OẸ",
    "ùy": "uỳ",
    "Ùy": "Uỳ",
    "ÙY": "UỲ",
    "úy": "uý",
    "Úy": "Uý",
    "ÚY": "UÝ",
    "ủy": "uỷ",
    "Ủy": "Uỷ",
    "ỦY": "UỶ",
    "ũy": "uỹ",
    "Ũy": "Uỹ",
    "ŨY": "UỸ",
    "ụy": "uỵ",
    "Ụy": "Uỵ",
    "ỤY": "UỴ",
    }

def replace_all(text, dict_map):
    for i, j in dict_map.items():
        text = text.replace(i, j)
    return text

def generate_training_prompt(_input: str, simple: str) -> str:
    return f"""
### Chỉ dẫn
Định nghĩa: Đơn giản hóa câu bao gồm việc sửa đổi nội dung và cấu trúc của một câu để làm cho nó dễ hiểu hơn, trong khi vẫn giữ lại ý chính và hầu hết nghĩa ban đầu của nó.
Để đơn giản hóa một câu, có thể thực hiện một số phép biến đổi dưới đây:
1. Loại bỏ thông tin không cần thiết.
2. Loại bỏ hoặc giảm thiểu các cụm từ không mang lại nhiều giá trị thông tin cho câu.
3. Thay thế các từ / cụm từ phức tạp bằng các từ đồng nghĩa đơn giản hơn.
4. Chia câu phức tạp, nhiều thông tin thành các câu nhỏ hơn.
Lưu ý rằng câu đơn giản không chứa bất kỳ thông tin nào không có hoặc không đúng với câu gốc.

### Câu hỏi:
Dựa vào định nghĩa và các phép biến đổi trên, hãy đơn giản hóa câu dưới đây:
{_input.strip()}

### Câu đơn giản:
{simple.strip()}{tokenizer.eos_token}
""".strip()

def clean_text(example):

  # filter text
  example["sentence"] = example["sentence"].strip()
  example["sentence"] = replace_all(example["sentence"], dict_map)
  example["result"] = example["result"].strip()
  example["result"] = replace_all(example["result"], dict_map)

  return example

In [7]:
def generate_text(example):
    example = clean_text(example)
    return {
        "sentence": example["sentence"],
        "simple": example["result"],
        "text": generate_training_prompt(example["sentence"], example["result"]),
    }

def process_dataset(data):
    return (
        data.shuffle(seed=42)
        .map(generate_text).remove_columns(["id", "result"])
    )

In [8]:
dataset["train"] = process_dataset(dataset["train"])
dataset["eval"] = process_dataset(dataset["eval"])
dataset

DatasetDict({
    train: Dataset({
        features: ['sentence', 'simple', 'text'],
        num_rows: 9157
    })
    eval: Dataset({
        features: ['sentence', 'simple', 'text'],
        num_rows: 500
    })
})

In [9]:
print(dataset["train"][11]["text"])

### Chỉ dẫn
Định nghĩa: Đơn giản hóa câu bao gồm việc sửa đổi nội dung và cấu trúc của một câu để làm cho nó dễ hiểu hơn, trong khi vẫn giữ lại ý chính và hầu hết nghĩa ban đầu của nó.
Để đơn giản hóa một câu, có thể thực hiện một số phép biến đổi dưới đây:
1. Loại bỏ thông tin không cần thiết.
2. Loại bỏ hoặc giảm thiểu các cụm từ không mang lại nhiều giá trị thông tin cho câu.
3. Thay thế các từ / cụm từ phức tạp bằng các từ đồng nghĩa đơn giản hơn.
4. Chia câu phức tạp, nhiều thông tin thành các câu nhỏ hơn.
Lưu ý rằng câu đơn giản không chứa bất kỳ thông tin nào không có hoặc không đúng với câu gốc.

### Câu hỏi:
Dựa vào định nghĩa và các phép biến đổi trên, hãy đơn giản hóa câu dưới đây:
Không có ai được đào tạo chỉ để trở thành nhà phê bình , và nhà phê bình chuyên nghiệp ; sở sĩ người viết trở thành " nhà phê bình " vì họ viết phê bình , tham gia vào quá trình giao tiếp văn học , tham gia hoạt động thông tin về các sáng tác văn học , tham gia vào việc tra vấn , tranh luận , xét 

# Model

In [10]:
arr = tokenizer(f"Tôi là Tùng. Tôi học lớp 4.{tokenizer.eos_token}", return_tensors="pt")
print(arr["input_ids"][0])
# Decode the tokenized sentence, including special tokens
print(tokenizer.decode(arr["input_ids"][0], skip_special_tokens=False))

tensor([3034,  270, 3911,   17, 2089,  459, 1465,  603,   17,    2])
Tôi là Tùng. Tôi học lớp 4.</s>


In [11]:
# from trl import DataCollatorForCompletionOnlyLM

r = 128
a = r * 2
lora_kwargs = {
    "r": r,
    "lora_alpha": a,
    "target_modules": [
        "Wqkv",
        "out_proj",
        "up_proj",
        "down_proj",
    ],
    "lora_dropout": 0.1,
    "bias": "none",
    "task_type": "CAUSAL_LM"
}
config = LoraConfig(**lora_kwargs)

# def formatting_prompts_func(example):
#     output_texts = []
#     for i in range(len(example['sentence'])):
#         PROMPT_TEMPLATE = "### Câu hỏi: {instruction}\n### Trả lời: {simple}"
#         text = f'Hãy đơn giản hóa câu sau để nó trở nên dễ hiểu hơn:\n{example["sentence"][i]}'
#         output_texts.append(PROMPT_TEMPLATE.format_map({"instruction": text, "simple": example["simple"][i]}))
#     return output_texts
# response_template = "### Trả lời:"
# data_collator = DataCollatorForCompletionOnlyLM(response_template, tokenizer=tokenizer, )


# def preprocess_logits_for_metrics(logits, labels):
#     if isinstance(logits, tuple):
#         logits = logits[0]
#     return logits.argmax(dim=-1)

# def compute_metrics(eval_pred):
#     predictions, labels, inputs = eval_pred
    
#     if isinstance(predictions, tuple):
#         predictions = predictions[0]
    
#     predictions = np.where(labels != -100, predictions, tokenizer.pad_token_id)
#     decoded_preds = tokenizer.batch_decode(predictions, skip_special_tokens=True)
#     labels = np.where(labels != -100, labels, tokenizer.pad_token_id)
#     inputs = np.where(inputs != -100, inputs, tokenizer.pad_token_id)
#     decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)
#     decoded_inputs = tokenizer.batch_decode(inputs, skip_special_tokens=True)
#     word_sari_score = 0
#     syllable_sari_score = 0
#     bleu_score = 0
#     decoded_inputs = [x.split("### Câu:")[1].split("### Đơn giản:")[0].strip() for x in decoded_inputs]
#     decoded_labels = [x.strip() for x in decoded_labels]
#     decoded_preds = [x.strip() for x in decoded_preds]
#     for pred, label, _input in zip(decoded_preds, decoded_labels, decoded_inputs):
#       syllable_sari_score += sentence_sari(_input, pred, [label])
#       segmented_input = " ".join(word_segment(_input))
#       segmented_pred = " ".join(word_segment(pred))
#       segmented_label = " ".join(word_segment(label))
#       word_sari_score += sentence_sari(segmented_input, segmented_pred, [segmented_label])
#       bleu_score += sentence_bleu(segmented_pred, [segmented_label])
#     word_sari_score /= len(predictions)
#     syllable_sari_score /= len(predictions)
#     bleu_score /= len(predictions)

#     return {
#         "SARI_word": word_sari_score,
#         "SARI_syllable": syllable_sari_score,
#         "BLEU": bleu_score
#     }

# Train

In [12]:
# !pip install wandb --upgrade

import wandb
import os

wandb.login()
os.environ["WANDB_API_KEY"] = "764d0f82f6d2b1cbdc302d0e476f0cbddc6a6033"
os.environ["WANDB_PROJECT"]="qlora-phogpt4b-ss-v2"
# os.environ["WANDB_LOG_MODEL"] = "checkpoint"
# 764d0f82f6d2b1cbdc302d0e476f0cbddc6a6033

[34m[1mwandb[0m: Currently logged in as: [33mhasontung[0m. Use [1m`wandb login --relogin`[0m to force relogin


In [13]:
epoch_nums = 2
training_args = TrainingArguments(
    per_device_train_batch_size = 2,
    gradient_accumulation_steps = 32,
    per_device_eval_batch_size = 1,
    save_strategy = "steps",
    evaluation_strategy = "steps",
    eval_steps = 36,
    save_steps = 36,
    logging_steps = 1,
    save_total_limit = 3,
    load_best_model_at_end = True,
#     num_train_epochs = epoch_nums,
    learning_rate= 5e-5,
    warmup_ratio = 0.03, #0.03
    max_grad_norm=0.3, # paper suggested
    optim="paged_adamw_32bit",
    lr_scheduler_type="linear",
#     fp16=True,
#     gradient_checkpointing=True,
    report_to="wandb",
    output_dir = "checkpoints",
    run_name= f"qlora-newphogpt4b-lr5e-5-r{r}a{a}-tp=1-alllinear-{epoch_nums}eps-v2",
    seed=42,
    # predict_with_generate=True,
    # include_inputs_for_metrics=True,
    max_steps = 288,
)

In [14]:
trainer = SFTTrainer(
    model=model,
    args=training_args,
    peft_config=config,
    train_dataset=dataset["train"],
    eval_dataset=dataset["eval"],
    tokenizer=tokenizer,
    max_seq_length=512,
    dataset_text_field="text"
#     data_collator=data_collator,
# #     formatting_func=formatting_prompts_func,
#     compute_metrics=compute_metrics,
#     preprocess_logits_for_metrics = preprocess_logits_for_metrics,
)

In [16]:
trainer.evaluate()



{'eval_loss': nan,
 'eval_runtime': 230.2221,
 'eval_samples_per_second': 2.172,
 'eval_steps_per_second': 2.172}

In [15]:
trainer.train()



Step,Training Loss,Validation Loss
36,2.8209,2.697772
72,1.0978,0.926432
108,0.9554,0.781445
144,0.8752,0.728647
180,0.8919,0.698885
216,0.7554,0.682126
252,0.7827,0.673839
288,0.7714,0.671314




TrainOutput(global_step=288, training_loss=1.4773857386575804, metrics={'train_runtime': 22852.854, 'train_samples_per_second': 0.807, 'train_steps_per_second': 0.013, 'total_flos': 1.4200832049750835e+17, 'train_loss': 1.4773857386575804, 'epoch': 2.01})

# Merging LoRA with the base model

In [5]:
from peft import AutoPeftModelForCausalLM, PeftModel
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
import os

model_id = "vinai/PhoGPT-4B"
# config = AutoConfig.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float16, trust_remote_code=True, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)

  return self.fget.__get__(instance, owner)()


In [6]:
checkpoint_path = "/kaggle/working/checkpoints/checkpoint-288"

peft_model = PeftModel.from_pretrained(model, checkpoint_path)

In [7]:
peft_model.to("cuda")

PeftModelForCausalLM(
  (base_model): LoraModel(
    (model): MPTForCausalLM(
      (transformer): MPTModel(
        (wte): SharedEmbedding(20480, 3072)
        (emb_drop): Dropout(p=0.0, inplace=False)
        (blocks): ModuleList(
          (0-31): 32 x MPTBlock(
            (norm_1): LPLayerNorm((3072,), eps=1e-05, elementwise_affine=True)
            (attn): MultiheadAttention(
              (Wqkv): lora.Linear(
                (base_layer): Linear(in_features=3072, out_features=9216, bias=True)
                (lora_dropout): ModuleDict(
                  (default): Dropout(p=0.1, inplace=False)
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=3072, out_features=128, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=128, out_features=9216, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): Parame

In [27]:
repo_name = "qlora-phogpt4b-lr5e-5-r128a256-alllinear-2eps"
peft_model.push_to_hub(repo_name)
tokenizer.push_to_hub(repo_name)
config.push_to_hub(repo_name)



adapter_model.safetensors:   0%|          | 0.00/403M [00:00<?, ?B/s]

README.md:   0%|          | 0.00/5.18k [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/Tung177/qlora-phogpt4b-lr5e-5-r128a256-alllinear-2eps/commit/432d6b1a09bc368aa41dfc1c3cadc23483368c9a', commit_message='Upload tokenizer', commit_description='', oid='432d6b1a09bc368aa41dfc1c3cadc23483368c9a', pr_url=None, pr_revision=None, pr_num=None)

# Inference

In [6]:
from peft import AutoPeftModelForCausalLM
from transformers import AutoTokenizer, AutoConfig
import torch
# config = AutoConfig.from_pretrained(model_id, trust_remote_code=True)
peft_model = AutoPeftModelForCausalLM.from_pretrained(
    repo_name, 
    torch_dtype=torch.float16, 
    trust_remote_code=True,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(repo_name, trust_remote_code=True)
peft_model

adapter_config.json:   0%|          | 0.00/674 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.19k [00:00<?, ?B/s]

configuration_mpt.py:   0%|          | 0.00/16.4k [00:00<?, ?B/s]

fc.py:   0%|          | 0.00/167 [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/vinai/PhoGPT-4B:
- fc.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.




A new version of the following files was downloaded from https://huggingface.co/vinai/PhoGPT-4B:
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


attention.py:   0%|          | 0.00/24.6k [00:00<?, ?B/s]

flash_attn_triton.py:   0%|          | 0.00/28.2k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/vinai/PhoGPT-4B:
- flash_attn_triton.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


norm.py:   0%|          | 0.00/3.12k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/vinai/PhoGPT-4B:
- norm.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.
A new version of the following files was downloaded from https://huggingface.co/vinai/PhoGPT-4B:
- attention.py
- flash_attn_triton.py
- norm.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


ffn.py:   0%|          | 0.00/5.22k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/vinai/PhoGPT-4B:
- ffn.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


blocks.py:   0%|          | 0.00/4.04k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/vinai/PhoGPT-4B:
- blocks.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.
A new version of the following files was downloaded from https://huggingface.co/vinai/PhoGPT-4B:
- configuration_mpt.py
- fc.py
- attention.py
- ffn.py
- blocks.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


modeling_mpt.py:   0%|          | 0.00/32.4k [00:00<?, ?B/s]

adapt_tokenizer.py:   0%|          | 0.00/1.72k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/vinai/PhoGPT-4B:
- adapt_tokenizer.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


custom_embedding.py:   0%|          | 0.00/292 [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/vinai/PhoGPT-4B:
- custom_embedding.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


meta_init_context.py:   0%|          | 0.00/3.96k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/vinai/PhoGPT-4B:
- meta_init_context.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


param_init_fns.py:   0%|          | 0.00/11.9k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/vinai/PhoGPT-4B:
- param_init_fns.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


hf_prefixlm_converter.py:   0%|          | 0.00/10.5k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/vinai/PhoGPT-4B:
- hf_prefixlm_converter.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.
A new version of the following files was downloaded from https://huggingface.co/vinai/PhoGPT-4B:
- modeling_mpt.py
- adapt_tokenizer.py
- custom_embedding.py
- meta_init_context.py
- param_init_fns.py
- hf_prefixlm_converter.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


pytorch_model.bin:   0%|          | 0.00/7.38G [00:00<?, ?B/s]

  return self.fget.__get__(instance, owner)()


generation_config.json:   0%|          | 0.00/91.0 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.55k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/844k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/552 [00:00<?, ?B/s]

adapter_model.safetensors:   0%|          | 0.00/403M [00:00<?, ?B/s]

# Inference

In [8]:
def generate_prompt(_input: str) -> str:
    return f"""
### Chỉ dẫn
Định nghĩa: Đơn giản hóa câu bao gồm việc sửa đổi nội dung và cấu trúc của một câu để làm cho nó dễ hiểu hơn, trong khi vẫn giữ lại ý chính và hầu hết nghĩa ban đầu của nó.
Để đơn giản hóa một câu, có thể thực hiện một số phép biến đổi dưới đây:
1. Loại bỏ thông tin không cần thiết.
2. Loại bỏ hoặc giảm thiểu các cụm từ không mang lại nhiều giá trị thông tin cho câu.
3. Thay thế các từ / cụm từ phức tạp bằng các từ đồng nghĩa đơn giản hơn.
4. Chia câu phức tạp, nhiều thông tin thành các câu nhỏ hơn.
Lưu ý rằng câu đơn giản không chứa bất kỳ thông tin nào không có hoặc không đúng với câu gốc.

### Câu hỏi:
Dựa vào định nghĩa và các phép biến đổi trên, hãy đơn giản hóa câu dưới đây:
{_input.strip()}

### Câu đơn giản:
""".strip()

In [9]:
import pandas as pd
examples = []
for data_point in dataset["eval"]:
    examples.append(
        {
            "sentence": data_point["sentence"],
            "simple": data_point["result"],
            "prompt": generate_prompt(data_point["sentence"]),
        }
    )
test_df = pd.DataFrame(examples)
test_df

Unnamed: 0,sentence,simple,prompt
0,Trong truyền thống diễn xướng sử thi hình thái...,Trong truyền thống kể chuyện lịch sử của Trung...,### Chỉ dẫn\nĐịnh nghĩa: Đơn giản hóa câu bao ...
1,"Trong một đêm trăng , Ngọc và Bường sau khi đá...","Sau một trận đánh nhau, Ngọc và Bường đã hiểu ...",### Chỉ dẫn\nĐịnh nghĩa: Đơn giản hóa câu bao ...
2,"Hơn nữa , khi điều kiện đọc cũng thay đổi theo...","Khi công nghệ máy tính và internet phát triển,...",### Chỉ dẫn\nĐịnh nghĩa: Đơn giản hóa câu bao ...
3,Nghệ sĩ khác người bình thường trước hết không...,Nghệ sĩ khác người thường không phải vì tình c...,### Chỉ dẫn\nĐịnh nghĩa: Đơn giản hóa câu bao ...
4,"Cũng nhờ các dịch giả ấy , độc giả sớm được ti...","Nhờ các dịch giả, độc giả đã được đọc nhiều tá...",### Chỉ dẫn\nĐịnh nghĩa: Đơn giản hóa câu bao ...
...,...,...,...
495,"Chả thế mà Ăngghen đã nói rằng , tiểu thuyết c...",Ăngghen đã nói tiểu thuyết của Bandắc giá trị ...,### Chỉ dẫn\nĐịnh nghĩa: Đơn giản hóa câu bao ...
496,Hệ lụy là văn học bị trói buộc vào sự cố chấp ...,"Văn học bị giới hạn bởi sự cố chấp, sân hận, k...",### Chỉ dẫn\nĐịnh nghĩa: Đơn giản hóa câu bao ...
497,"Từ "" publier "" được dùng với nghĩa cổ xưa nhất...","Từ ""publier"" từ thế kỷ XIII có nghĩa là bán đồ...",### Chỉ dẫn\nĐịnh nghĩa: Đơn giản hóa câu bao ...
498,"Ếch trẻ nói : "" Phải nhảy xuống , dưới đó có n...","Ếch con nói: ""Nhảy xuống đi, dưới kia nhiều nư...",### Chỉ dẫn\nĐịnh nghĩa: Đơn giản hóa câu bao ...


In [10]:
dataset["eval"]

Dataset({
    features: ['id', 'result', 'sentence'],
    num_rows: 500
})

In [11]:
def summarize(model, text):
    inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True).to("cuda")
    inputs_length = len(inputs["input_ids"][0])
    with torch.inference_mode():
        outputs = model.generate(
            **inputs, 
            max_new_tokens=512, 
            eos_token_id=tokenizer.eos_token_id,  
            pad_token_id=tokenizer.pad_token_id,
#             temperature=0.001,
#             top_k=1
        )
    del inputs
    return tokenizer.decode(outputs[0][inputs_length:])

# Example 1

In [12]:
example = test_df.iloc[0]
print(example.prompt)
print(example.simple)
response = summarize(peft_model, example.prompt)
print("\n### Predict:")
print(response.strip())

### Chỉ dẫn
Định nghĩa: Đơn giản hóa câu bao gồm việc sửa đổi nội dung và cấu trúc của một câu để làm cho nó dễ hiểu hơn, trong khi vẫn giữ lại ý chính và hầu hết nghĩa ban đầu của nó.
Để đơn giản hóa một câu, có thể thực hiện một số phép biến đổi dưới đây:
1. Loại bỏ thông tin không cần thiết.
2. Loại bỏ hoặc giảm thiểu các cụm từ không mang lại nhiều giá trị thông tin cho câu.
3. Thay thế các từ / cụm từ phức tạp bằng các từ đồng nghĩa đơn giản hơn.
4. Chia câu phức tạp, nhiều thông tin thành các câu nhỏ hơn.
Lưu ý rằng câu đơn giản không chứa bất kỳ thông tin nào không có hoặc không đúng với câu gốc.

### Câu hỏi:
Dựa vào định nghĩa và các phép biến đổi trên, hãy đơn giản hóa câu dưới đây:
Trong truyền thống diễn xướng sử thi hình thái sống của Trung Quốc hôm nay không thiếu những cá nhân vĩ đại như vậy , ví dụ như Trát Ba , Tang Châu của dân tộc Tạng , nghệ nhân Ma Ma Yi của dân tộc Kirgiz , nghệ nhân Ba Kiệt , Kim Ba Trát Mộc Tô , Chu Nãi và P.Arimpil của dân tộc Mông Cổ , nghệ nh

# Example 2

In [21]:
example = test_df.iloc[1]
print(example.prompt)
print(example.simple)
response = summarize(peft_model, example.prompt)
print("\n### Predict:")
print(response.strip())

### Chỉ dẫn
Định nghĩa: Đơn giản hóa câu bao gồm việc sửa đổi nội dung và cấu trúc của một câu để làm cho nó dễ hiểu hơn, trong khi vẫn giữ lại ý chính và hầu hết nghĩa ban đầu của nó.
Để đơn giản hóa một câu, có thể thực hiện một số phép biến đổi dưới đây:
1. Loại bỏ thông tin không cần thiết.
2. Loại bỏ hoặc giảm thiểu các cụm từ không mang lại nhiều giá trị thông tin cho câu.
3. Thay thế các từ / cụm từ phức tạp bằng các từ đồng nghĩa đơn giản hơn.
4. Chia câu phức tạp, nhiều thông tin thành các câu nhỏ hơn.
Lưu ý rằng câu đơn giản không chứa bất kỳ thông tin nào không có hoặc không đúng với câu gốc.

### Câu hỏi:
Dựa vào định nghĩa và các phép biến đổi trên, hãy đơn giản hóa câu dưới đây:
Trong một đêm trăng , Ngọc và Bường sau khi đánh nhau chí chết đã hiểu thêm về nhau , những minh triết và đời thực , những chân lý : " chỉ có nhẹ nhàng , mềm mỏng lịch thiệp , tình thương , hòa hợp , yên ổn ... mới khép kín được quan hệ giữa những con người và quan hệ giữa từng con người với toàn 

# Example 3

In [31]:
example = test_df.iloc[3]
print(example.prompt)
print(example.simple)
response = summarize(peft_model, example.prompt)
print("\n### Predict:")
print(response.strip())

### Chỉ dẫn
Định nghĩa: Đơn giản hóa câu bao gồm việc sửa đổi nội dung và cấu trúc của một câu để làm cho nó dễ hiểu hơn, trong khi vẫn giữ lại ý chính và hầu hết nghĩa ban đầu của nó.
Để đơn giản hóa một câu, có thể thực hiện một số phép biến đổi dưới đây:
1. Loại bỏ thông tin không cần thiết.
2. Loại bỏ hoặc giảm thiểu các cụm từ không mang lại nhiều giá trị thông tin cho câu.
3. Thay thế các từ / cụm từ phức tạp bằng các từ đồng nghĩa đơn giản hơn.
4. Chia câu phức tạp, nhiều thông tin thành các câu nhỏ hơn.
Lưu ý rằng câu đơn giản không chứa bất kỳ thông tin nào không có hoặc không đúng với câu gốc.

### Câu hỏi:
Dựa vào định nghĩa và các phép biến đổi trên, hãy đơn giản hóa câu dưới đây:
Nghệ sĩ khác người bình thường trước hết không phải ở cái tình , ở tư tưởng mà ở khả năng cảm nhận và làm chủ con chữ , làm chủ ngọn bút , làm chủ phím đàn , ở khả năng mang lại cảm giác về cái đẹp , sự hoàn thiện , khả năng " lạ hóa " những cái đã quen thuộc , khả năng tìm thấy những cách diễn đạ

# Predict validation set and save

In [31]:
from tqdm import tqdm
out_data = []
# length = int(len(test_df) / 3) + 1 if len(test_df) % 3 != 0 else len(test_df) / 3
with tqdm(total=len(test_df)) as pbar:
    for i in range(len(test_df)):
        example = test_df.iloc[i]
        response = summarize(trained_model, example.prompt)
        temp = {
            "sentence": example.sentence,
            "simple": example.simple,
            "qlora-phogpt4b-chat": response.strip()
        }
        out_data.append(temp)
        pbar.update(1)
print(out_data[0])

100%|██████████| 500/500 [2:26:17<00:00, 17.56s/it]    

{'sentence': 'Trong truyền thống diễn xướng sử thi hình thái sống của Trung Quốc hôm nay không thiếu những cá nhân vĩ đại như vậy , ví dụ như Trát Ba , Tang Châu của dân tộc Tạng , nghệ nhân Ma Ma Yi của dân tộc Kirgiz , nghệ nhân Ba Kiệt , Kim Ba Trát Mộc Tô , Chu Nãi và P.Arimpil của dân tộc Mông Cổ , nghệ nhân Khúc Mạc Y Nặc của dân tộc Di ...', 'simple': 'Trong truyền thống kể chuyện lịch sử của Trung Quốc hiện đại, có nhiều nhân vật lớn như Trát Ba, Tang Châu của người Tạng, nghệ nhân Ma Ma Yi của người Kirgiz, Ba Kiệt, Kim Ba Trát Mộc Tô, Chu Nãi và P.Arimpil của người Mông Cổ, nghệ nhân Khúc Mạc Y Nặc của người Di...', 'qlora-phogpt4b-chat': 'Trong truyền thống hát sử thi Trung Quốc, có nhiều người nổi tiếng như Trát Ba, Tang Châu của dân tộc Tạng, Ma Ma Yi của dân tộc Kirgiz, Ba Kiệt, Kim Ba Trát Mộc Tô, Chu Nãi và P.Arimpil của dân tộc Mông Cổ, Khúc Mạc Y Nặc của dân tộc Di...</s>'}





In [32]:
out_data[1]

{'sentence': 'Trong một đêm trăng , Ngọc và Bường sau khi đánh nhau chí chết đã hiểu thêm về nhau , những minh triết và đời thực , những chân lý : " chỉ có nhẹ nhàng , mềm mỏng lịch thiệp , tình thương , hòa hợp , yên ổn ... mới khép kín được quan hệ giữa những con người và quan hệ giữa từng con người với toàn thế giới " ( Những người thợ xẻ ) .',
 'simple': 'Sau một trận đánh nhau, Ngọc và Bường đã hiểu rõ hơn về nhau và nhận ra rằng chỉ có sự nhẹ nhàng, tình thương và hòa hợp mới giữ được mối quan hệ giữa con người và thế giới.',
 'qlora-phogpt4b-chat': 'Trong đêm trăng, Ngọc và Bường đánh nhau, sau đó hiểu nhau hơn, và nhận ra rằng chỉ có nhẹ nhàng, lịch sự, tình thương, hòa hợp, yên ổn mới giữ được mối quan hệ giữa người với người và giữa người với thế giới.</s>'}

In [36]:
dict_result = {
    "training_info": "qlora a256q512 lr3e-4 new prompt 1/3 epoch",
    "result": out_data
}

In [37]:
import json

def load_json(file_path):
  with open(file_path, 'r', encoding='utf-8') as json_file:
    content = json.load(json_file)
  return content

def save_json(file_path, data):
  with open(file_path, 'w', encoding='utf-8') as json_file:
    json.dump(data, json_file, ensure_ascii=False, indent=2)

save_json("/kaggle/working/ss-result-qlora-phogpt4b-a256r512-v2.json", dict_result)