In [1]:
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, pipeline, MarianTokenizer, MarianMTModel

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
model = AutoModelForSeq2SeqLM.from_pretrained("./models/opus-mt-tc-big-en-ko")
tokenizer = AutoTokenizer.from_pretrained("./models/opus-mt-tc-big-en-ko")

In [4]:
from datasets import load_dataset

# Tải tập dữ liệu opus-100 với cặp ngôn ngữ tiếng Anh - tiếng Hàn
dataset = load_dataset("Helsinki-NLP/opus-100", "en-ko")


To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Generating test split: 100%|██████████| 2000/2000 [00:00<00:00, 29998.20 examples/s]
Generating train split: 100%|██████████| 1000000/1000000 [00:00<00:00, 1226090.99 examples/s]
Generating validation split: 100%|██████████| 2000/2000 [00:00<00:00, 128884.98 examples/s]


In [12]:
# In ra một vài mẫu trong tập dữ liệu
print(dataset['train'][1])  # Dữ liệu mẫu đầu tiên trong tập huấn luyện
print(dataset)


{'translation': {'en': "I ain't fishing' 'em out.", 'ko': '그거 꺼내려다가는'}}
DatasetDict({
    test: Dataset({
        features: ['translation'],
        num_rows: 2000
    })
    train: Dataset({
        features: ['translation'],
        num_rows: 1000000
    })
    validation: Dataset({
        features: ['translation'],
        num_rows: 2000
    })
})


In [7]:
def preprocess_function(examples):
    # Lấy câu tiếng Anh từ cột 'en' và câu tiếng Hàn từ cột 'ko'
    inputs = [example['en'] for example in examples['translation']]
    targets = [example['ko'] for example in examples['translation']]
    
    # Mã hóa câu tiếng Anh (inputs)
    model_inputs = tokenizer(inputs, max_length=128, truncation=True, padding="max_length")
    
    # Mã hóa câu tiếng Hàn (targets) cho nhãn (labels)
    with tokenizer.as_target_tokenizer():
        labels = tokenizer(targets, max_length=128, truncation=True, padding="max_length")
    
    # Thêm nhãn (labels) vào dữ liệu đầu ra
    model_inputs['labels'] = labels['input_ids']
    
    return model_inputs


In [8]:
# Áp dụng hàm xử lý dữ liệu cho toàn bộ tập train và validation
tokenized_datasets = dataset.map(preprocess_function, batched=True)


Map: 100%|██████████| 2000/2000 [00:00<00:00, 5783.98 examples/s]
Map: 100%|██████████| 1000000/1000000 [02:31<00:00, 6590.57 examples/s]
Map: 100%|██████████| 2000/2000 [00:00<00:00, 6332.25 examples/s]


In [13]:
from transformers import Seq2SeqTrainer, Seq2SeqTrainingArguments

# Thiết lập các tham số huấn luyện
training_args = Seq2SeqTrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    weight_decay=0.01,
    save_total_limit=3,
    num_train_epochs=3,
    predict_with_generate=True,
    logging_dir="./logs",
)

# Khởi tạo Trainer
trainer = Seq2SeqTrainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets['train'],
    tokenizer=tokenizer,
)

# Bắt đầu huấn luyện
trainer.train()


  0%|          | 6/187500 [01:30<750:33:28, 14.41s/it]

KeyboardInterrupt: 