In [None]:
import pandas as pd
import torch

In [None]:
%pip install transformers
%pip install vncorenlp

!git clone https://github.com/vncorenlp/VnCoreNLP.git

Collecting transformers
  Downloading transformers-4.18.0-py3-none-any.whl (4.0 MB)
[K     |████████████████████████████████| 4.0 MB 5.3 MB/s 
Collecting sacremoses
  Downloading sacremoses-0.0.49-py3-none-any.whl (895 kB)
[K     |████████████████████████████████| 895 kB 36.9 MB/s 
[?25hCollecting huggingface-hub<1.0,>=0.1.0
  Downloading huggingface_hub-0.5.1-py3-none-any.whl (77 kB)
[K     |████████████████████████████████| 77 kB 3.0 MB/s 
Collecting pyyaml>=5.1
  Downloading PyYAML-6.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (596 kB)
[K     |████████████████████████████████| 596 kB 16.7 MB/s 
[?25hCollecting tokenizers!=0.11.3,<0.13,>=0.11.1
  Downloading tokenizers-0.11.6-cp37-cp37m-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (6.5 MB)
[K     |████████████████████████████████| 6.5 MB 20.9 MB/s 
Installing collected packages: pyyaml, tokenizers, sacremoses, huggingface-hub, transformers
  Attempting uninstall: pyyaml


In [None]:
train_data_csv = "reviews-ecommerce.csv"
dataset = pd.read_csv(train_data_csv)
dataset

Unnamed: 0,comment,label,rate,Unnamed: 3
0,Áo bao đẹp ạ!!,POS,5,
1,Tuyệt vời !,POS,5,
2,2day ao khong giong trong.,NEG,1,
3,"Mùi thơm,bôi lên da mềm da.",POS,5,
4,"Vải đẹp, dày dặn.",POS,5,
...,...,...,...,...
31455,Không đáng tiền.,NEG,1,
31456,Quần rất đẹp.,POS,5,
31457,Hàng đẹp đúng giá tiền.,POS,5,
31458,Chất vải khá ổn.,POS,4,


In [None]:
# Perform preprocessing
import re

# TODO use a teen code list
rep = {"k": "không", "ko": "không", "kh": "không", "đc": "được", "dc": "được", "a": "anh", "e": "em", "v": "vậy", "vs": "với", "m": "mình"} # define desired replacements here

# use these three lines to do the replacement
rep_ = dict((r"\b{}\b".format(k), v) for k, v in rep.items())
pattern = re.compile("|".join(rep_.keys()), flags=re.I)

dataset["comment"] = dataset["comment"].apply(lambda text: pattern.sub(lambda m: rep[re.escape(m.group(0)).lower()], text))

dataset

NameError: ignored

In [None]:
# Split dataset into training and test sets
from sklearn.model_selection import train_test_split
train_texts, test_texts, train_labels, test_labels = train_test_split(dataset["comment"].values, dataset["label"].values, test_size=0.15, random_state=42)
train_texts, valid_texts, train_labels, valid_labels = train_test_split(train_texts, train_labels, test_size=0.2, random_state=232)

print(train_texts.shape, valid_texts.shape, test_labels.shape)
print(train_texts[:5], train_labels[:5])
print(valid_texts[:5], valid_labels[:5])
print(test_texts[:5], test_labels[:5])

(21392,) (5349,) (4719,)
['Shop giao hàng nhanh như chớp luôn.' 'Đóng gói sp cẩn thận.'
 'Đợi test thử vài ngày nữa xem sao !'
 'Shop phục vụ rất tốt .Rất đáng tiền.'
 'Áo hơi mỏng nhưng mặc đẹp, dây của áo hoàn thiện không được tốt cho lắm, mong shop khắc phục.'] ['POS' 'POS' 'NEU' 'NEU' 'POS']
['Chất lượng sản phẩm tuyệt vời.' 'Đặt màu vàng thì ra màu gì vậy shop???'
 'Tôi không hề nhận được sản phẩm này.' 'Áo mỏng hơn ảnh chụp.' 'Tuyệt.'] ['POS' 'NEG' 'NEG' 'NEG' 'POS']
['Máy chụp rất ok.'
 'Chất lượng sản phẩm tuyệt vời Đóng gói sản phẩm rất đẹp và chắc chắn Đóng gói sản phẩm rất đẹp và chắc chắn Rất đáng tiền Thời gian giao hàng rất nhanh , yêu shop.'
 'Chất lượng tam duoc.' 'Hang rât tôt ủng hộ dài dài.' 'Vải cũng đẹp nữa.'] ['POS' 'POS' 'NEG' 'POS' 'POS']


In [None]:
from transformers import AutoTokenizer
from vncorenlp import VnCoreNLP

tokenizer = AutoTokenizer.from_pretrained("vinai/phobert-base", cache_dir="../phobert-base")
rdrsegmenter = VnCoreNLP(
    "./VnCoreNLP/VnCoreNLP-1.1.1.jar",
    annotators="wseg,pos",
    max_heap_size="-Xmx2g",
)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [None]:
# PREPARE DATA BEFORE FEEDING TO MODEL

# Segmentize
train_segmented = [rdrsegmenter.tokenize(text) for text in train_texts]
valid_segmented = [rdrsegmenter.tokenize(text) for text in valid_texts]
test_segmented = [rdrsegmenter.tokenize(text) for text in test_texts]

# Flatten and merge back into strings
def flatten(t):
    return [item for sublist in t for item in sublist]
train_segmented = [" ".join(flatten(t)) for t in train_segmented]
valid_segmented = [" ".join(flatten(t)) for t in valid_segmented]
test_segmented = [" ".join(flatten(t)) for t in test_segmented]

print(train_segmented[:5], valid_segmented[:5], test_segmented[:5])

['Shop giao hàng nhanh như chớp luôn .', 'Đóng_gói sp cẩn_thận .', 'Đợi test thử vài ngày nữa xem sao !', 'Shop phục_vụ rất tốt . Rất đáng tiền .', 'Áo hơi mỏng nhưng mặc đẹp , dây của áo hoàn_thiện không được tốt cho lắm , mong shop khắc_phục .'] ['Chất_lượng sản_phẩm tuyệt_vời .', 'Đặt màu vàng thì ra màu gì vậy shop ? ? ?', 'Tôi không hề nhận được sản_phẩm này .', 'Áo mỏng hơn ảnh chụp .', 'Tuyệt .'] ['Máy chụp rất ok .', 'Chất_lượng sản_phẩm tuyệt_vời Đóng_gói sản_phẩm rất đẹp và chắc_chắn Đóng_gói sản_phẩm rất đẹp và chắc_chắn Rất đáng tiền Thời_gian giao hàng rất nhanh , yêu shop .', 'Chất_lượng tam duoc .', 'Hang rât tôt ủng_hộ dài_dài .', 'Vải cũng đẹp nữa .']


In [None]:
# Tokenize
train_encodings = tokenizer(train_segmented, truncation=True, padding="max_length", max_length=256)
valid_encodings = tokenizer(valid_segmented, truncation=True, padding="max_length", max_length=256)
test_encodings = tokenizer(test_segmented, truncation=True, padding="max_length", max_length=256)

In [None]:
print(train_segmented[2])
print(train_encodings["input_ids"][2][:20])
print(train_encodings["attention_mask"][2][:20])

Đợi test thử vài ngày nữa xem sao !
[0, 15621, 13923, 1176, 515, 43, 348, 305, 423, 381, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1]
[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]


In [None]:
import torch

class EcommReviewsDataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels
        
        self.label_to_idx = {'NEG': 0, 'POS': 1, 'NEU': 2}
        self.idx_to_label = {idx: label for label, idx in self.label_to_idx.items()}

    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item['labels'] = torch.tensor(self.label_to_idx[self.labels[idx]])
        return item

    def __len__(self):
        return len(self.labels)

train_dataset = EcommReviewsDataset(train_encodings, train_labels)
val_dataset = EcommReviewsDataset(valid_encodings, valid_labels)
test_dataset = EcommReviewsDataset(test_encodings, test_labels)

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
# INIT MODEL

from transformers import AutoModelForSequenceClassification

load_options = {
    "local": 0,
    "pretrained:": 1
}

## Set load location here
where_to_load = load_options["local"]

num_labels = 3
# Specify locally saved model (will be ignored if loading pretrained)
model_dir = '/content/drive/My Drive/data/models/ecomm-review-phobert-base'

model = None

if where_to_load == load_options["local"]:
  model = AutoModelForSequenceClassification.from_pretrained(model_dir, num_labels=num_labels)
elif where_to_load == load_options["pretrained"]:
  model_dir = "vinai/phobert-base"
  model = AutoModelForSequenceClassification.from_pretrained(model_dir, num_labels=num_labels, cache_dir="./phobert-base")

assert model is not None

In [None]:
device = 'cuda' if torch.cuda.is_available() else 'cpu'
model.to(device)
for name, p in model.named_parameters():
  print(p.shape, name)

torch.Size([64001, 768]) roberta.embeddings.word_embeddings.weight
torch.Size([258, 768]) roberta.embeddings.position_embeddings.weight
torch.Size([1, 768]) roberta.embeddings.token_type_embeddings.weight
torch.Size([768]) roberta.embeddings.LayerNorm.weight
torch.Size([768]) roberta.embeddings.LayerNorm.bias
torch.Size([768, 768]) roberta.encoder.layer.0.attention.self.query.weight
torch.Size([768]) roberta.encoder.layer.0.attention.self.query.bias
torch.Size([768, 768]) roberta.encoder.layer.0.attention.self.key.weight
torch.Size([768]) roberta.encoder.layer.0.attention.self.key.bias
torch.Size([768, 768]) roberta.encoder.layer.0.attention.self.value.weight
torch.Size([768]) roberta.encoder.layer.0.attention.self.value.bias
torch.Size([768, 768]) roberta.encoder.layer.0.attention.output.dense.weight
torch.Size([768]) roberta.encoder.layer.0.attention.output.dense.bias
torch.Size([768]) roberta.encoder.layer.0.attention.output.LayerNorm.weight
torch.Size([768]) roberta.encoder.layer.0

In [None]:
from transformers import Trainer, TrainingArguments

torch.cuda.empty_cache()

training_args = TrainingArguments(
    output_dir='./sentiment-results',          # output directory
    num_train_epochs=1,              # total number of training epochs
    per_device_train_batch_size=4,  # batch size per device during training
    per_device_eval_batch_size=4,   # batch size for evaluation
    warmup_steps=200,                # number of warmup steps for learning rate scheduler
    weight_decay=0.01,               # strength of weight decay
    logging_dir='./logs',            # directory for storing logs
    logging_steps=50,
    learning_rate=1e-5,
#    fp16=True,                       # use 16bit float, train faster
)

trainer = Trainer(
    model=model,                         # the instantiated 🤗 Transformers model to be trained
    args=training_args,                  # training arguments, defined above
    train_dataset=val_dataset,         # training dataset
    eval_dataset=val_dataset             # evaluation dataset
)

trainer.train()

***** Running training *****
  Num examples = 5349
  Num Epochs = 1
  Instantaneous batch size per device = 4
  Total train batch size (w. parallel, distributed & accumulation) = 4
  Gradient Accumulation steps = 1
  Total optimization steps = 1338


Step,Training Loss
50,0.5364
100,0.4724
150,0.5703
200,0.5635
250,0.6478
300,0.5051
350,0.5355
400,0.61
450,0.5046
500,0.5582


Saving model checkpoint to ./sentiment-results/checkpoint-500
Configuration saved in ./sentiment-results/checkpoint-500/config.json
Model weights saved in ./sentiment-results/checkpoint-500/pytorch_model.bin
Saving model checkpoint to ./sentiment-results/checkpoint-1000
Configuration saved in ./sentiment-results/checkpoint-1000/config.json
Model weights saved in ./sentiment-results/checkpoint-1000/pytorch_model.bin


Training completed. Do not forget to share your model on huggingface.co/models =)




TrainOutput(global_step=1338, training_loss=0.5497366729873179, metrics={'train_runtime': 606.2913, 'train_samples_per_second': 8.822, 'train_steps_per_second': 2.207, 'total_flos': 703696835713536.0, 'train_loss': 0.5497366729873179, 'epoch': 1.0})

In [None]:
# Evaluation on test set

model.eval()
device = 'cuda' if torch.cuda.is_available() else 'cpu'
# test_dataset[0]['input_ids'].shape

for i in range(502, 700, 10):
  result = model(input_ids=test_dataset[i]["input_ids"].unsqueeze(0).to(device),
        attention_mask=test_dataset[i]["attention_mask"].unsqueeze(0).to(device),
        token_type_ids=test_dataset[i]["token_type_ids"].unsqueeze(0).to(device)
        )[0]
  _, predicted = torch.max(result, 1)
  print(test_dataset.idx_to_label[int(predicted)], end="\t")
  print(test_segmented[i])

POS	Quần mềm Lên dáng đẹp Đóng_gói sản_phẩm rất đẹp và chắc_chắn Shop phục_vụ rất tốt Thời_gian giao hàng rất nhanh .
NEG	Shop phục_vụ không nhiệt_tình .
NEG	Chất áo rất xấu .
POS	Mong lần sau shop sẽ uy_tín hơn !
POS	Váy đẹp , lên dáng chuẩn chỉ mỗi cái phần eo hơi dặmmm .
NEU	Áo đẹp , tương_đối giống hình , vải mát nhg dễ nhăn , kiểu áo này cũng khó là ủi , đường chỉ hơi mỏng may , kém chắc chắc .
POS	Bạn shop n.c dễ_thương .
POS	Nói chùn là rất ưng ạ ❤️ .
POS	mới dùng thấy ok . đánh_giá shop 5 * .
NEG	Bị mẹ lấy luôn rồi .
POS	Sản_phẩm rất đẹp rất đáng tiền💋💋💋💋 .
NEG	Túi thơm mùi như mùi chất hoá_học , để 1 lúc đau hết cả đầu .
POS	Nói chug 10 saooooo .
NEU	Chất vải tạm được .
NEG	Hàng không giống hình , cổ may hơi chật , trong hình không có túi nhưng nhận hàng lại có túi làm xấu áo .
POS	Gối nằm rất êm .
POS	áo với quần đều đẹp ưng_ý mình chủ shop rất nhiệt_tình dễ_thương .
NEG	Chất_lượng sản_phẩm rất kém , áo quá mỏng , không đáng tiền , mình đã ib cho shop yêu_cầu huỷ đơn hàng , s

In [None]:
# Measure F1-score
y_pred = []
y_true = []

model.eval()
device = 'cuda' if torch.cuda.is_available() else 'cpu'
# test_dataset[0]['input_ids'].shape

for i in range(len(test_dataset)):
  result = model(input_ids=test_dataset[i]["input_ids"].unsqueeze(0).to(device),
        attention_mask=test_dataset[i]["attention_mask"].unsqueeze(0).to(device),
        token_type_ids=test_dataset[i]["token_type_ids"].unsqueeze(0).to(device)
        )[0]
  _, predicted = torch.max(result, 1)
  y_pred.append(int(predicted))
  y_true.append(int(test_dataset[i]["labels"]))

In [None]:
import sklearn
sklearn.metrics.f1_score(y_true, y_pred, average='weighted')

0.7864696284107583

In [None]:
trainer.evaluate()

***** Running Evaluation *****
  Num examples = 5349
  Batch size = 4


{'epoch': 1.0,
 'eval_loss': 0.48257994651794434,
 'eval_runtime': 159.9592,
 'eval_samples_per_second': 33.44,
 'eval_steps_per_second': 8.365}

In [None]:
model_dir = '/content/drive/My Drive/data/models/'
trainer.save_model(model_dir + 'ecomm-review-phobert-base')

Saving model checkpoint to /content/drive/My Drive/data/models/ecomm-review-phobert-base
Configuration saved in /content/drive/My Drive/data/models/ecomm-review-phobert-base/config.json
Model weights saved in /content/drive/My Drive/data/models/ecomm-review-phobert-base/pytorch_model.bin


In [None]:
suc_khoe_comments_df = pd.read_csv("/content/suc-khoe-comments-100-sampled.csv")

suc_khoe_comments_segmented = [rdrsegmenter.tokenize(text) for text in suc_khoe_comments_df['0'].values]

suc_khoe_comments_segmented = [" ".join(flatten(t)) for t in suc_khoe_comments_segmented]

suc_khoe_comments_encodings = tokenizer(suc_khoe_comments_segmented, truncation=True, padding="max_length", max_length=256)

In [None]:
print(suc_khoe_comments_segmented[0])
print(suc_khoe_comments_encodings["input_ids"][0])
print(suc_khoe_comments_encodings["attention_mask"][0])
print(suc_khoe_comments_encodings["token_type_ids"][0])

Mong phép màu đến với con . Thương con nhiều quá , cố gắn chiến_đấu vs nó con nhé ! mong tất_cả những tốt_đẹp đến bên con .
[0, 7675, 996, 412, 30, 15, 73, 5, 3999, 73, 36, 204, 4, 2105, 1079, 1185, 7136, 231, 73, 2083, 381, 1790, 392, 21, 2296, 30, 145, 73, 5, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,

In [None]:
model.eval()
device = 'cuda' if torch.cuda.is_available() else 'cpu'
# test_dataset[0]['input_ids'].shape

comment_y_true = []
comment_y_pred = []
label_to_idx = {
    "NEG": 0,
    "POS": 1,
    "NEU": 2
}

for i in range(len(suc_khoe_comments_encodings["input_ids"])):
  input_ids = torch.IntTensor(suc_khoe_comments_encodings["input_ids"][i]).unsqueeze(0).to(device)
  attention_mask = torch.IntTensor(suc_khoe_comments_encodings["attention_mask"][i]).unsqueeze(0).to(device)
  token_type_ids = torch.IntTensor(suc_khoe_comments_encodings["token_type_ids"][i]).unsqueeze(0).to(device)

  result = model(input_ids=input_ids,
        attention_mask=attention_mask,
        token_type_ids=token_type_ids
        )[0]
  _, predicted = torch.max(result, 1)
  comment_y_pred.append(int(predicted))
  comment_y_true.append(label_to_idx[suc_khoe_comments_df.iloc[i][1]])
  # print(test_dataset.idx_to_label[int(predicted)], end="\t")
  # print(suc_khoe_comments_segmented[i])
  # print(result, end="\n\n")

In [None]:
import sklearn
print(comment_y_true[20:30])
print(comment_y_pred[20:30])
sklearn.metrics.f1_score(comment_y_true, comment_y_pred, average='weighted')

[2, 2, 2, 2, 1, 2, 2, 2, 1, 2]
[1, 2, 2, 0, 2, 2, 2, 2, 0, 0]


0.5125837031060911