## Prepare a dataset

In [None]:
"""Cần tìm hiểu thêm các bước Tiền xử lí dữ liệu trước khi đưa vào model
    - Chuẩn hóa các từ viết tắt, viết sai chính tả
    - Các phương pháp để cân bằng số lượng dữ liệu giữa các loại nhãn -> tránh giá trị bias cao"""

import pandas as pd

# Đọc dữ liệu từ file CSV
data = pd.read_csv('data.csv', encoding='utf-8')
data['label'] = data['label'].str.replace('"', '', regex=False)
data['label'] = data['label'].str.strip()
data['label'] = data['label'].replace({'POS': 1, 'NEG': 0, 'NEU': 2})

In [36]:
from sklearn.model_selection import train_test_split

# Chia dữ liệu thành tập train (80%) và test (20%)
train_data, test_data = train_test_split(data, test_size=0.2, random_state=42)

In [37]:
from datasets import Dataset, DatasetDict

# Chuyển đổi DataFrame sang Dataset của Hugging Face
train_dataset = Dataset.from_pandas(train_data)
test_dataset = Dataset.from_pandas(test_data)

# Kết hợp chúng thành một DatasetDict
dataset = DatasetDict({
    'train': train_dataset,
    'test': test_dataset
})


dataset["train"][0]


{'comment': 'Hàng không chất lượng,khi giao tới đã gãy hỏng hóc',
 'label': 0,
 '__index_level_0__': 3395}

In [38]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("vinai/phobert-base")
tokenizer.save_pretrained("./sentiment-analysis-base-phobert")


def tokenize_function(examples):
    return tokenizer(examples["comment"], padding="max_length", truncation=True)


tokenized_datasets = dataset.map(tokenize_function, batched=True)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
Map: 100%|██████████| 7031/7031 [00:01<00:00, 5280.71 examples/s]
Map: 100%|██████████| 1758/1758 [00:00<00:00, 6322.13 examples/s]


In [39]:
small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))

<a id='trainer'></a>

## Train

## Train with PyTorch Trainer

In [40]:
from transformers import AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained("vinai/phobert-base", num_labels=3)

Some weights of the model checkpoint at vinai/phobert-base were not used when initializing RobertaForSequenceClassification: ['lm_head.bias', 'roberta.pooler.dense.bias', 'lm_head.dense.weight', 'lm_head.decoder.weight', 'lm_head.dense.bias', 'roberta.pooler.dense.weight', 'lm_head.layer_norm.bias', 'lm_head.layer_norm.weight', 'lm_head.decoder.bias']
- This IS expected if you are initializing RobertaForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing RobertaForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at vinai/phobert-base and are newly initialized: ['

### Training hyperparameters

In [42]:
from transformers import TrainingArguments

training_args = TrainingArguments(output_dir="sentiment-analysis-base-pho-bert")

### Evaluate

In [None]:
"""Hiện tại đang sử dụng độ đo là accurancy, tìm hiểu xem có thể sử dụng độ đo 
    nào khác để phản ánh đúng hiệu suất của mô hình với dữ liệu gồm 3 nhãn của mình hơn không?"""
import numpy as np
import evaluate

metric = evaluate.load("accuracy")

In [44]:
def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)
    return metric.compute(predictions=predictions, references=labels)

In [None]:
"""Trong TrainingArguments() hiện giờ mình chỉ chọn evaluation_strategy, còn có nhiều tham số
    đang để default, tìm hiểu các thay đổi tham số này để phù hợp với dữ liệu 30k dòng của mình(~ 2MB)"""

from transformers import TrainingArguments, Trainer


training_args = TrainingArguments(output_dir="sentiment-analysis-base-pho-bert", evaluation_strategy="epoch")

### Trainer

In [46]:
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=small_train_dataset,
    eval_dataset=small_eval_dataset,
    compute_metrics=compute_metrics,
)

In [None]:
trainer.train()

In [49]:
trainer.model.save_pretrained("./sentiment-analysis-base-phobert")

In [None]:
from huggingface_hub import HfApi

repo_name = "lamsytan/sentiment-analysis-base-phobert"  # Tên repo của bạn
token = "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"  # Token cá nhân từ Hugging Face

# Tạo đối tượng API và truyền token
api = HfApi()

# Tải thư mục lên Hugging Face
api.upload_folder(
    folder_path="./sentiment-analysis-base-phobert", 
    repo_id=repo_name, 
    repo_type="model", 
    token=token
)


pytorch_model.bin: 100%|██████████| 540M/540M [01:05<00:00, 8.24MB/s]  


CommitInfo(commit_url='https://huggingface.co/lamsytan/sentiment-analysis-base-phobert/commit/86677518bb9feec5f6df47da4ed4b75271f433f7', commit_message='Upload folder using huggingface_hub', commit_description='', oid='86677518bb9feec5f6df47da4ed4b75271f433f7', pr_url=None, repo_url=RepoUrl('https://huggingface.co/lamsytan/sentiment-analysis-base-phobert', endpoint='https://huggingface.co', repo_type='model', repo_id='lamsytan/sentiment-analysis-base-phobert'), pr_revision=None, pr_num=None)

<a id='pytorch_native'></a>