In [1]:
import torch
print(torch.cuda.is_available())  # Kết quả: True (nếu GPU đã bật)
print(torch.cuda.get_device_name(0))  # Kiểm tra loại GPU

True
Tesla T4


In [2]:
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments
from peft import LoraConfig, get_peft_model, TaskType
from datasets import load_dataset
import torch

In [3]:
lora_config = LoraConfig(
    r=8,  # ✅ Giữ `r=8` để tiết kiệm VRAM, tăng tốc
    lora_alpha=32.0,  # ✅ Giữ nguyên
    lora_dropout=0.05,  # ✅ Giảm từ 0.1 → 0.05 để giữ thông tin tốt hơn
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"],  # ✅ Nhắm vào các thành phần chính để tối ưu LoRA
    bias="none",  # ✅ Giữ nguyên mặc định
    task_type=TaskType.CAUSAL_LM,  # Loại tác vụ
)

In [4]:
from huggingface_hub import login
login(token="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")  

model_path = "meta-llama/Llama-2-7b-hf"
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", torch_dtype=torch.float16)
tokenizer = AutoTokenizer.from_pretrained(model_path)
tokenizer.pad_token = tokenizer.eos_token

print("Mô hình đã tải thành công với LoRA!")

config.json:   0%|          | 0.00/609 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/26.8k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/9.98G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/3.50G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/188 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/776 [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.84M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/414 [00:00<?, ?B/s]

Mô hình đã tải thành công với LoRA!


In [5]:
from peft import LoraConfig, get_peft_model, TaskType

model = get_peft_model(model, lora_config)
model.print_trainable_parameters()

trainable params: 19,988,480 || all params: 6,758,404,096 || trainable%: 0.2958


In [6]:
import json
from datasets import Dataset

# Load dataset từ Kaggle input
data_path = "/kaggle/input/lc-quad-train/examples.json"

with open(data_path, "r", encoding="utf-8") as f:
    dataset = json.load(f)

# Chuyển đổi dữ liệu sang định dạng văn bản, có thêm trường `history`
train_texts = [
    f"### Instruction:\n{item['instruction']}\n\n"
    f"### Input:\n{item['input']}\n\n"
    f"### History:\n{item['history']}\n\n"  # ✅ Thêm lịch sử hội thoại vào
    f"### Output:\n{item['output']}{tokenizer.eos_token}"
    for item in dataset
]

# Tạo dataset từ Hugging Face Datasets
train_dataset = Dataset.from_dict({"text": train_texts})

# Cấu hình tokenizer
tokenizer.pad_token = tokenizer.eos_token

# Tokenize dữ liệu
def tokenize_function(example):
    tokenized = tokenizer(
        example["text"],  
        padding="max_length",
        truncation=True,
        max_length=128,
    )
    tokenized["labels"] = tokenized["input_ids"][:]  # ✅ Tránh copy() không cần thiết
    return tokenized

# Tokenize dataset (dùng num_proc để tăng tốc)
tokenized_dataset = train_dataset.map(tokenize_function, batched=True, remove_columns=["text"], num_proc=4)

# Kiểm tra kết quả
print(tokenized_dataset[0])

Map (num_proc=4):   0%|          | 0/14960 [00:00<?, ? examples/s]

{'input_ids': [1, 835, 2799, 4080, 29901, 13, 29911, 30540, 29877, 534, 8631, 325, 31145, 29876, 4522, 936, 3812, 29871, 30128, 31957, 301, 31145, 29891, 266, 30069, 865, 27773, 260, 30416, 30556, 865, 29871, 31318, 865, 325, 31280, 29875, 274, 30057, 29884, 298, 228, 190, 146, 29875, 29871, 30128, 30033, 3060, 29889, 29871, 13, 13, 13, 2277, 29937, 10567, 29901, 13, 16492, 29901, 426, 319, 29875, 289, 30740, 413, 30717, 29873, 260, 30902, 29875, 534, 549, 325, 31620, 3516, 30529, 29883, 619, 5512, 29195, 29871, 30128, 30717, 29876, 325, 31645, 274, 31556, 29874, 11230, 1771, 424, 292, 29973, 500, 13, 13, 2277, 29937, 5298, 29901, 13, 2636, 13, 13, 2277, 29937, 10604, 29901, 13, 29898, 8780, 313, 390, 518, 289, 30740, 413, 30717, 29873, 29871, 1715, 4514, 1723, 313, 8780], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,

In [7]:
from transformers import TrainingArguments, Trainer
from transformers import DataCollatorWithPadding

# Khởi tạo collator với tokenizer đã load
data_collator = DataCollatorWithPadding(
    tokenizer=tokenizer, 
    padding=True
)

training_args = TrainingArguments(
    output_dir="./output",
    num_train_epochs=5,  # ✅ Giảm số epoch để huấn luyện nhanh hơn
    per_device_train_batch_size=8,  
    gradient_accumulation_steps=1,  
    optim="adamw_torch",  # ✅ Dùng `adamw_torch` để tối ưu tốc độ
    adam_epsilon=1e-8,
    save_strategy="steps",
    save_steps=500,
    max_steps=-1,
    logging_steps=500,  # ✅ Giảm log để tiết kiệm tài nguyên
    learning_rate=2e-5,  
    weight_decay=0.0,  
    fp16=True,  # ✅ Dùng FP16 để tăng tốc độ train
    max_grad_norm=1.0,
    warmup_steps=0,
    warmup_ratio=0.0, 
    report_to="tensorboard"
)

# Khởi tạo Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset,
    data_collator=data_collator,  
)

# Bắt đầu huấn luyện
trainer.train()

Step,Training Loss
500,0.5177
1000,0.3815
1500,0.361
2000,0.3469
2500,0.3279
3000,0.3204
3500,0.3227
4000,0.3052
4500,0.2937
5000,0.2929


TrainOutput(global_step=9350, training_loss=0.3092235381590491, metrics={'train_runtime': 19822.29, 'train_samples_per_second': 3.774, 'train_steps_per_second': 0.472, 'total_flos': 3.807163705196544e+17, 'train_loss': 0.3092235381590491, 'epoch': 5.0})

In [8]:
import re

def generate_query(question, history=[]):
    # Định dạng lại lịch sử hội thoại
    history_text = "\n".join(history) if history else ""

    # Xây dựng input text
    input_text = f"""### Instruction:
Tạo truy vấn Logical Form để lấy thông tin tương ứng với câu hỏi đã cho.

### Input:
Question: {question}

### History:
{history_text}

### Output:
"""

    input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")

    output_ids = model.generate(
        input_ids,
        max_length=256,  # Giảm từ 256 → 128 để tiết kiệm bộ nhớ
        num_beams=5,  # Giảm từ 5 → 3 để tăng tốc độ
        temperature=0.7,  # Giúp tạo ra kết quả linh hoạt hơn
        top_p=0.9,  # Sampling để tránh mô hình lặp lại
        num_return_sequences=5,  
        eos_token_id=tokenizer.eos_token_id,
        do_sample=True,  # Bật sampling để tăng đa dạng
        early_stopping=False
    )

    def clean_output(text):
        text = text.split("Output:")[-1].strip()
        text = re.split(r"\n+", text)[0].strip()  # Lấy dòng đầu tiên hợp lệ
        return text if text else "ERROR: Không tạo được truy vấn hợp lệ."

    output_texts = [clean_output(tokenizer.decode(out, skip_special_tokens=True)) for out in output_ids]

    return output_texts

In [9]:
query1 = generate_query("Ai là người sáng lập ra Open AI?")
query2 = generate_query("Con của chồng Ranavalona I là ai?")
query3 = generate_query("Giáo viên hướng dẫn Shigeno Yasutsugu là ai?")

print("📌 Truy vấn 1:", query1)
print("📌 Truy vấn 2:", query2)
print("📌 Truy vấn 3:", query3)


📌 Truy vấn 1: ['( AND ( JOIN ( R [ người sáng lập ] ) [ OpenAI ] ) ( JOIN [ là một ] [ kinh doanh ] ) )', '( AND ( JOIN ( R [ người sáng lập ] ) [ OpenAI ] ) ( JOIN [ là một ] [ tổ chức phi lợi nhuận ] ) )', '( JOIN ( R [ người sáng lập ] ) ( JOIN ( R [ tổ chức con ] ) [ OpenAI ] ) )', '( AND ( JOIN [ người sáng lập ] [ OpenAI ] ) ( JOIN [ là một ] [ kinh doanh ] ) )', '( AND ( JOIN ( R [ người sáng lập ] ) [ OpenAI ] ) ( JOIN [ là một ] [ tổ chức tư nhân ] ) )']
📌 Truy vấn 2: ['( JOIN ( R [ cha ] ) ( JOIN ( R [ người phối ngẫu ] ) [ Ranavalona I ] ) )', '( JOIN ( R [ con cái ] ) ( JOIN ( R [ người phối ngẫu ] ) [ Ranavalona I ] ) )', '( JOIN ( R [ họ hàng ] ) ( JOIN ( R [ người phối ngẫu ] ) [ Ranavalona I ] ) )', '( JOIN ( R [ người phối ngẫu ] ) ( JOIN ( R [ cha ] ) [ Ranavalona I ] ) )', '( JOIN ( R [ cha ] ) ( JOIN ( R [ người phối ngẫu ] ) [ Ranavalona ] ) )']
📌 Truy vấn 3: ['( JOIN ( R [ học trò ] ) ( JOIN ( R [ học trò của ] ) [ Shigeno Yasutsugu ] ) )', '( JOIN ( R [ trường họ

In [10]:
import os

output_dir = "/kaggle/working/model"
os.makedirs(output_dir, exist_ok=True)

# Lưu mô hình
model.save_pretrained(output_dir)
tokenizer.save_pretrained(output_dir)

print(f"✅ Mô hình đã được lưu tại: {output_dir}")

✅ Mô hình đã được lưu tại: /kaggle/working/model


In [11]:
!tar -czvf llama2_7b_finetuned_model.tar.gz -C /kaggle/working model

model/
model/special_tokens_map.json
model/adapter_model.safetensors
model/tokenizer.model
model/tokenizer_config.json
model/tokenizer.json
model/adapter_config.json
model/README.md


In [12]:
!!kaggle kernels output topunguyen/chatkbqa-vi -p /kaggle/working/





['Traceback (most recent call last):',
 '  File "/usr/local/bin/kaggle", line 5, in <module>',
 '    from kaggle.cli import main',
 '  File "/usr/local/lib/python3.10/dist-packages/kaggle/__init__.py", line 7, in <module>',
 '    api.authenticate()',
 '  File "/usr/local/lib/python3.10/dist-packages/kaggle/api/kaggle_api_extended.py", line 407, in authenticate',
 "    raise IOError('Could not find {}. Make sure it\\'s located in'",
 "OSError: Could not find kaggle.json. Make sure it's located in /root/.config/kaggle. Or use the environment method. See setup instructions at https://github.com/Kaggle/kaggle-api/"]