In [1]:
%%capture 
!pip install trl
!pip install -U bitsandbytes accelerate transformers

In [2]:
from huggingface_hub import login

login("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")

In [23]:
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, TrainingArguments
from datasets import Dataset, load_dataset
from dataclasses import dataclass, field
from peft import LoraConfig, get_peft_model
from trl import setup_chat_format, SFTTrainer 
import pandas as pd
from typing import Optional
import torch
import wandb
import os

In [4]:
@dataclass
class TrainDataConfig:
    """
    Cấu hình dữ liệu huấn luyện.

    Attributes:
        user (str): Tên vai trò của người dùng trong dữ liệu hội thoại.
        assistant (str): Tên vai trò của trợ lý AI trong dữ liệu hội thoại.
        system (str): Tên vai trò của hệ thống (nếu có).
        
        system_prompt (Optional[str]): Prompt hệ thống mặc định (nếu không có cột instruction).
        instruction_column (str): Tên cột chứa hướng dẫn trong dataset.
        prompt_column (str): Tên cột chứa câu hỏi hoặc đầu vào từ user.
        response_column (str): Tên cột chứa phản hồi của trợ lý AI.

        dataset_name (Optional[str]): Tên dataset trên Hugging Face Hub (nếu có).
        dataset_path (Optional[str]): Đường dẫn dataset nội bộ (nếu có).
    """

    # role config
    user: str = "user"
    assistant: str = "assistant"
    system: str = "system"

    # data column config
    system_prompt: Optional[str] = None
    instruction_column: str = "instruction"
    prompt_column: str = "question"
    response_column: str = "response"

    # Dataset (chỉ chọn một trong hai: `dataset_name` hoặc `dataset_path`)
    dataset_name: Optional[str] = None
    dataset_path: Optional[str] = None


In [5]:
class TrainDataset:
    """
    Class để tải và xử lý dataset cho mô hình NLP.

    Attributes:
        tokenizer (AutoTokenizer): Tokenizer để xử lý văn bản.
        config (TrainDataConfig): Cấu hình chứa thông tin dataset và các tham số khác.
    """

    def __init__(self, tokenizer: AutoTokenizer, config: "TrainDataConfig"): 
        """
        Khởi tạo TrainDataset với tokenizer và config.

        Args:
            tokenizer (AutoTokenizer): Tokenizer để xử lý văn bản.
            config (TrainDataConfig): Cấu hình chứa thông tin dataset và các tham số khác.
        """
        self.tokenizer = tokenizer 
        self.config = config

    def _load_dataset(self, path: str = None, dataset_name: str = None):
        """
        Tải dataset từ Hugging Face Datasets hoặc từ file cục bộ (CSV, JSON, XLSX).

        Args:
            path (str, optional): Đường dẫn đến file dataset (CSV, JSON, XLSX).
            dataset_name (str, optional): Tên dataset trên Hugging Face Datasets.

        Returns:
            tuple: (train_dataset, test_dataset, val_dataset) - Các tập dữ liệu đã được xử lý.
        """
        if dataset_name:
            dataset = load_dataset(dataset_name)
            train_dataset = dataset.get("train", None)
            test_dataset = dataset.get("test", None)
            val_dataset = dataset.get("val", None)

            if train_dataset:
                train_dataset = train_dataset.map(self._format_chat_template, batched=True)
            if test_dataset:
                test_dataset = test_dataset.map(self._format_chat_template, batched=True)
            if val_dataset:
                val_dataset = val_dataset.map(self._format_chat_template, batched=True)

        elif path:
            data_type = path.split(".")[-1].lower()
            
            if data_type == "csv":
                dataset = pd.read_csv(path)
            elif data_type == "json":
                dataset = pd.read_json(path)
            elif data_type == "xlsx":
                dataset = pd.read_excel(path)
            else:
                raise ValueError("Unsupported file format. Please use CSV, JSON, or XLSX.")

            dataset = Dataset.from_pandas(dataset)
            dataset = dataset.map(self._format_chat_template, batched=True)
            train_dataset, test_dataset, val_dataset = dataset, None, None  # Mặc định gán dataset vào train

        else:
            raise ValueError("Either 'path' or 'dataset_name' must be provided.")

        return train_dataset, test_dataset, val_dataset

    def _format_chat_template(self, data):
        """
        Chuyển đổi dữ liệu thô thành format dùng cho huấn luyện mô hình chatbot.

        Args:
            data (dict): Dữ liệu input chứa các trường prompt, response.

        Returns:
            dict: Dữ liệu đã được format lại và tokenized.
        """
        system_prompt = (
            data[self.config.instruction_column] 
            if self.config.instruction_column and self.config.instruction_column in data 
            else self.config.system_prompt
        )

        row_json = [
            {"role": self.config.system, "content": system_prompt},
            {"role": self.config.user, "content": data[self.config.prompt_column]},
            {"role": self.config.assistant, "content": data[self.config.response_column]},
        ]

        data['text'] = self.tokenizer.apply_chat_template(row_json, tokenize=False)
        return data

    def get_dataset(self):
        """
        Lấy dataset dựa trên config.

        Returns:
            tuple: (train_dataset, test_dataset, val_dataset) - Các tập dữ liệu đã được tải và xử lý.
        """
        return self._load_dataset(self.config['dataset_path'], self.config['dataset_name'])


In [6]:
@dataclass
class PEFTModelConfig:
    """
    Cấu hình cho mô hình PEFT (Parameter Efficient Fine-Tuning), 
    bao gồm cấu hình mô hình, LoRA (Low-Rank Adaptation) và BitsAndBytes (bnb) để tối ưu hóa bộ nhớ.

    Attributes:
        model_name (str): Tên hoặc đường dẫn của mô hình Hugging Face.

        # BitsAndBytes config (BNB)
        load_in_4bit (bool): Có sử dụng 4-bit quantization không.
        bnb_4bit_quant_type (str): Loại lượng tử hóa (vd: "nf4" - NormalFloat 4-bit).
        bnb_4bit_compute_dtype (torch.dtype): Kiểu dữ liệu tính toán (vd: torch.float16).
        bnb_4bit_use_double_quant (bool): Có sử dụng Double Quantization không.

        # LoRA config
        r (int): Rank của ma trận giảm chiều LoRA.
        lora_alpha (int): Hệ số nhân cho trọng số LoRA.
        lora_dropout (float): Tỷ lệ dropout trong LoRA.
        bias (str): Loại bias được sử dụng ("none", "all", "lora_only").
        task_type (str): Loại task của mô hình (vd: "CAUSAL_LM", "SEQ2SEQ_LM").
        target_modules (list): Danh sách các layer sẽ áp dụng LoRA.
    """

    # Model config
    model_name: str

    # LoRA config
    r: int
    lora_alpha: int
    lora_dropout: float
    bias: str
    task_type: str
    target_modules: list

    # BitsAndBytes config
    load_in_4bit: bool
    bnb_4bit_quant_type: str
    bnb_4bit_compute_dtype: torch.dtype = torch.float16
    bnb_4bit_use_double_quant: bool = False

    

    def to_peft_config(self) -> LoraConfig:
        """
        Chuyển đổi sang cấu hình LoraConfig của thư viện PEFT.

        Returns:
            LoraConfig: Cấu hình LoRA để dùng với mô hình Hugging Face.
        """
        return LoraConfig(
            r=self.r,
            lora_alpha=self.lora_alpha,
            lora_dropout=self.lora_dropout,
            bias=self.bias,
            task_type=self.task_type,
            target_modules=self.target_modules
        )

    def to_bnb_config(self) -> BitsAndBytesConfig:
        """
        Chuyển đổi sang cấu hình BitsAndBytesConfig để tối ưu hóa bộ nhớ.

        Returns:
            BitsAndBytesConfig: Cấu hình BnB để sử dụng với mô hình Hugging Face.
        """
        return BitsAndBytesConfig(
            load_in_4bit=self.load_in_4bit,
            bnb_4bit_quant_type=self.bnb_4bit_quant_type,
            bnb_4bit_compute_dtype=self.bnb_4bit_compute_dtype,
            bnb_4bit_use_double_quant=self.bnb_4bit_use_double_quant,
        )


In [7]:
class ModelLoader:
    """
    Class để tải mô hình với cấu hình PEFT (LoRA) và BitsAndBytes (BNB).
    """

    @staticmethod
    def load_model(config: PEFTModelConfig):
        """
        Tải mô hình Hugging Face với cấu hình LoRA và BitsAndBytes.

        Args:
            config (PEFTModelConfig): Cấu hình mô hình.

        Returns:
            tuple: (model, tokenizer, peft_config)
                - model: Mô hình đã được áp dụng LoRA.
                - tokenizer: Tokenizer tương ứng.
                - peft_config: Cấu hình LoRA đã được sử dụng.
        """
        
        bnb_config = config.to_bnb_config()
        peft_config = config.to_peft_config()
        
        tokenizer = AutoTokenizer.from_pretrained(config.model_name)
        tokenizer.chat_template = None  # Vô hiệu hóa template chat nếu có
        
        model = AutoModelForCausalLM.from_pretrained(
            config.model_name,
            quantization_config=bnb_config,
            device_map="auto"
        )

        model, tokenizer = setup_chat_format(model, tokenizer)

        model = get_peft_model(model, peft_config)

        return model, tokenizer, peft_config


In [15]:
@dataclass
class TrainConfig:
    """
    Cấu hình huấn luyện mô hình sử dụng Hugging Face Transformers.

    Attributes:
        output_dir (str): Thư mục lưu checkpoint và logs.
        per_device_train_batch_size (int): Batch size trên mỗi GPU/TPU.
        per_device_eval_batch_size (int): Batch size trên mỗi GPU/TPU cho evaluation.
        learning_rate (float): Tốc độ học.
        num_train_epochs (int): Số epoch huấn luyện.
        weight_decay (float): Hệ số weight decay (regularization).
        eval_strategy (str): Chiến lược evaluation ("steps" hoặc "epoch").
        save_strategy (str): Chiến lược lưu checkpoint ("steps" hoặc "epoch").
        logging_dir (str): Thư mục lưu logs TensorBoard.
        logging_steps (int): Số bước giữa mỗi lần ghi logs.
        save_total_limit (int): Số lượng checkpoint tối đa được giữ lại.
        load_best_model_at_end (bool): Có load checkpoint tốt nhất sau training không.
        metric_for_best_model (str): Metric để chọn model tốt nhất.
        greater_is_better (bool): True nếu metric cao hơn là tốt hơn.
        report_to (list): Danh sách nơi gửi logs (vd: ["wandb"] hoặc ["tensorboard"]).
    """

    output_dir: str
    per_device_train_batch_size: int
    per_device_eval_batch_size: int
    learning_rate: float
    num_train_epochs: int
    weight_decay: float
    eval_strategy: str = "no"
    save_strategy: str = "epoch"
    logging_dir: str = field(default="logs")
    logging_steps: int = 500
    save_total_limit: int = 2
    load_best_model_at_end: bool = True
    metric_for_best_model: str = "loss"
    greater_is_better: bool = False
    report_to: list = field(default_factory=lambda: ["wandb"])  # Sửa lỗi kiểu dữ liệu

    def to_training_arguments(self) -> TrainingArguments:
        """
        Chuyển đổi sang TrainingArguments của Hugging Face.

        Returns:
            TrainingArguments: Đối tượng chứa các tham số huấn luyện.
        """
        return TrainingArguments(
            output_dir=self.output_dir,
            per_device_train_batch_size=self.per_device_train_batch_size,
            per_device_eval_batch_size=self.per_device_eval_batch_size,
            learning_rate=self.learning_rate,
            num_train_epochs=self.num_train_epochs,
            weight_decay=self.weight_decay,
            eval_strategy=self.eval_strategy,
            save_strategy=self.save_strategy,
            logging_dir=self.logging_dir,
            logging_steps=self.logging_steps,
            save_total_limit=self.save_total_limit,
            load_best_model_at_end=self.load_best_model_at_end,
            metric_for_best_model=self.metric_for_best_model,
            greater_is_better=self.greater_is_better,
            report_to=self.report_to
        )


In [25]:
@dataclass
class ModelTrainer:
    """
    Class để huấn luyện mô hình với PEFT và LoRA.
    """

    @staticmethod
    def train(train_config: TrainConfig, peft_model_config: PEFTModelConfig, 
              finetune_dataset, valid_dataset=None):
        """
        Huấn luyện mô hình sử dụng LoRA.

        Args:
            train_config (TrainConfig): Cấu hình huấn luyện.
            peft_model_config (PEFTModelConfig): Cấu hình mô hình LoRA.
            finetune_dataset (Dataset): Tập dữ liệu huấn luyện.
            valid_dataset (Dataset, optional): Tập dữ liệu validation. Mặc định là None.
        """

        if "wandb" in train_config.report_to:
            wandb.init(project=train_config.output_dir.split("/")[-1])  # Lấy tên dự án từ output_dir

        model, tokenizer, peft_config = ModelLoader.load_model(peft_model_config)

        training_arguments = train_config.to_training_arguments()

        trainer = SFTTrainer(
            model=model,
            train_dataset=finetune_dataset,
            eval_dataset=valid_dataset,
            peft_config=peft_config,
            tokenizer=tokenizer,
            args=training_arguments,
        )

        trainer.train()

        best_model_path = os.path.join(train_config.output_dir, "best")
        trainer.save_model(best_model_path)

        if "wandb" in train_config.report_to:
            wandb.finish()


In [10]:
# Model name and Dataset path
model_name = "meta-llama/Llama-3.2-1B-Instruct"
dataset_name = "tatsu-lab/alpaca"

# Using Example

In [None]:
train_data_config = TrainDataConfig(
    dataset_name=dataset_name,
    instruction_column="instruction",
    prompt_column="input",
    response_column="output"
)

peft_model_config = PEFTModelConfig(
    model_name=model_name,
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
    
    r=8,
    lora_alpha=32,
    lora_dropout=0.1,
    bias="none",
    task_type="CAUSAL_LM",
    target_modules=["q_proj", "v_proj"]
)

train_config = TrainConfig(
    output_dir="./output",
    per_device_train_batch_size=2,
    per_device_eval_batch_size=2,
    learning_rate=2e-4,
    num_train_epochs=3,
    weight_decay=0.01,
    logging_steps=100,
    save_total_limit=1,
    load_best_model_at_end=False,
    report_to=[] 
)

dataset = load_dataset(train_data_config.dataset_name)
train_dataset = dataset["train"]

ModelTrainer.train(
    train_config=train_config,
    peft_model_config=peft_model_config,
    finetune_dataset=train_dataset
)


  trainer = SFTTrainer(
No label_names provided for model class `PeftModelForCausalLM`. Since `PeftModel` hides base models input arguments, if label_names is not given, label_names can't be set automatically within `Trainer`. Note that empty label_names list will be used instead.


Step,Training Loss
100,1.4215


KeyboardInterrupt: 