# DATA

In [1]:
import warnings

# Ignore all warnings
warnings.filterwarnings("ignore")

## Train

In [2]:
import pandas as pd
import re

# Define the file paths
topics_file ='/kaggle/input/uit-vsfc/train/topics.txt'
sentiments_file ='/kaggle/input/uit-vsfc/train/sentiments.txt'
sents_file ='/kaggle/input/uit-vsfc/train/sents.txt'

# Read the files
topics = pd.read_csv(topics_file, header=None, names=['Topic'])
sentiments = pd.read_csv(sentiments_file, header=None, names=['Sentiment'])

# Read the sentences file line by line
with open(sents_file,'r', encoding='utf-8') as file:
    sentences = file.readlines()

# Remove newline characters and punctuation from sentences, and split by whitespace
sentences = [re.sub(r'[^\w\s]','', sentence.strip().lower()) for sentence in sentences]

# Create a DataFrame for sentences
sentences_df = pd.DataFrame(sentences, columns=['Sentence'])

# Combine the DataFrames along the columns
combined_df = pd.concat([topics, sentiments, sentences_df], axis=1)

# Display the first few rows of the combined DataFrame
print(combined_df.head())

# Replace values in'Topic'column
topic_mapping = {0:'LECTURER', 1:'TRAINING_PROGRAM', 2:'FACILITY', 3:'OTHERS'}
combined_df['Topic'] = combined_df['Topic'].replace(topic_mapping)

# Replace values in'Sentiment'column
sentiment_mapping = {0:'NEGATIVE', 1:'NEUTRAL', 2:'POSITIVE'}
combined_df['Sentiment'] = combined_df['Sentiment'].replace(sentiment_mapping)

# Display the modified DataFrame
print(combined_df.head())

   Topic  Sentiment                                           Sentence
0      1          2                           slide giáo trình đầy đủ 
1      0          2       nhiệt tình giảng dạy  gần gũi với sinh viên 
2      1          0                đi học đầy đủ full điểm chuyên cần 
3      0          0  chưa áp dụng công nghệ thông tin và các thiết ...
4      0          2  thầy giảng bài hay  có nhiều bài tập ví dụ nga...
              Topic Sentiment  \
0  TRAINING_PROGRAM  POSITIVE   
1          LECTURER  POSITIVE   
2  TRAINING_PROGRAM  NEGATIVE   
3          LECTURER  NEGATIVE   
4          LECTURER  POSITIVE   

                                            Sentence  
0                           slide giáo trình đầy đủ   
1       nhiệt tình giảng dạy  gần gũi với sinh viên   
2                đi học đầy đủ full điểm chuyên cần   
3  chưa áp dụng công nghệ thông tin và các thiết ...  
4  thầy giảng bài hay  có nhiều bài tập ví dụ nga...  


In [3]:
combined_df

Unnamed: 0,Topic,Sentiment,Sentence
0,TRAINING_PROGRAM,POSITIVE,slide giáo trình đầy đủ
1,LECTURER,POSITIVE,nhiệt tình giảng dạy gần gũi với sinh viên
2,TRAINING_PROGRAM,NEGATIVE,đi học đầy đủ full điểm chuyên cần
3,LECTURER,NEGATIVE,chưa áp dụng công nghệ thông tin và các thiết ...
4,LECTURER,POSITIVE,thầy giảng bài hay có nhiều bài tập ví dụ nga...
...,...,...,...
11421,TRAINING_PROGRAM,NEGATIVE,chỉ vì môn game mà em học hai lần mà không qua...
11422,LECTURER,POSITIVE,em cảm ơn cô nhiều
11423,LECTURER,NEGATIVE,giao bài tập quá nhiều
11424,LECTURER,POSITIVE,giáo viên dạy dễ hiểu nhiệt tình


In [4]:
combined_df.to_csv('train.csv', index=False)

In [5]:
combined_df.head()

Unnamed: 0,Topic,Sentiment,Sentence
0,TRAINING_PROGRAM,POSITIVE,slide giáo trình đầy đủ
1,LECTURER,POSITIVE,nhiệt tình giảng dạy gần gũi với sinh viên
2,TRAINING_PROGRAM,NEGATIVE,đi học đầy đủ full điểm chuyên cần
3,LECTURER,NEGATIVE,chưa áp dụng công nghệ thông tin và các thiết ...
4,LECTURER,POSITIVE,thầy giảng bài hay có nhiều bài tập ví dụ nga...


## Valid

In [6]:
import pandas as pd
import re

# Define the file paths
topics_file ='/kaggle/input/uit-vsfc/dev/topics.txt'
sentiments_file ='/kaggle/input/uit-vsfc/dev/sentiments.txt'
sents_file ='/kaggle/input/uit-vsfc/dev/sents.txt'

# Read the files
topics = pd.read_csv(topics_file, header=None, names=['Topic'])
sentiments = pd.read_csv(sentiments_file, header=None, names=['Sentiment'])

# Read the sentences file line by line
with open(sents_file,'r', encoding='utf-8') as file:
    sentences = file.readlines()

# Remove newline characters and punctuation from sentences, and split by whitespace
sentences = [re.sub(r'[^\w\s]','', sentence.strip().lower()) for sentence in sentences]

# Create a DataFrame for sentences
sentences_df = pd.DataFrame(sentences, columns=['Sentence'])

# Combine the DataFrames along the columns
combined_df = pd.concat([topics, sentiments, sentences_df], axis=1)

# Display the first few rows of the combined DataFrame
print(combined_df.head())

# Replace values in'Topic'column
topic_mapping = {0:'LECTURER', 1:'TRAINING_PROGRAM', 2:'FACILITY', 3:'OTHERS'}
combined_df['Topic'] = combined_df['Topic'].replace(topic_mapping)

# Replace values in'Sentiment'column
sentiment_mapping = {0:'NEGATIVE', 1:'NEUTRAL', 2:'POSITIVE'}
combined_df['Sentiment'] = combined_df['Sentiment'].replace(sentiment_mapping)

# Display the modified DataFrame
print(combined_df.head())

   Topic  Sentiment                                           Sentence
0      1          0                            giáo trình chưa cụ thể 
1      0          0                                    giảng buồn ngủ 
2      0          2                       giáo viên vui tính  tận tâm 
3      0          0  giảng viên nên giao bài tập nhiều hơn  chia nh...
4      0          0  giảng viên cần giảng bài chi tiết hơn  đi sâu ...
              Topic Sentiment  \
0  TRAINING_PROGRAM  NEGATIVE   
1          LECTURER  NEGATIVE   
2          LECTURER  POSITIVE   
3          LECTURER  NEGATIVE   
4          LECTURER  NEGATIVE   

                                            Sentence  
0                            giáo trình chưa cụ thể   
1                                    giảng buồn ngủ   
2                       giáo viên vui tính  tận tâm   
3  giảng viên nên giao bài tập nhiều hơn  chia nh...  
4  giảng viên cần giảng bài chi tiết hơn  đi sâu ...  


In [7]:
combined_df

Unnamed: 0,Topic,Sentiment,Sentence
0,TRAINING_PROGRAM,NEGATIVE,giáo trình chưa cụ thể
1,LECTURER,NEGATIVE,giảng buồn ngủ
2,LECTURER,POSITIVE,giáo viên vui tính tận tâm
3,LECTURER,NEGATIVE,giảng viên nên giao bài tập nhiều hơn chia nh...
4,LECTURER,NEGATIVE,giảng viên cần giảng bài chi tiết hơn đi sâu ...
...,...,...,...
1578,LECTURER,NEGATIVE,hướng dẫn lab mơ hồ
1579,LECTURER,POSITIVE,thầy cho chúng em những bài tập mang tính thực...
1580,LECTURER,NEGATIVE,thầy không dạy nhiều chủ yếu cho sinh viên tự ...
1581,TRAINING_PROGRAM,NEGATIVE,em muốn đổi tên môn học vì tên môn là lập trìn...


In [8]:
combined_df.to_csv('dev.csv', index=False)

In [9]:
combined_df.head()

Unnamed: 0,Topic,Sentiment,Sentence
0,TRAINING_PROGRAM,NEGATIVE,giáo trình chưa cụ thể
1,LECTURER,NEGATIVE,giảng buồn ngủ
2,LECTURER,POSITIVE,giáo viên vui tính tận tâm
3,LECTURER,NEGATIVE,giảng viên nên giao bài tập nhiều hơn chia nh...
4,LECTURER,NEGATIVE,giảng viên cần giảng bài chi tiết hơn đi sâu ...


## Test

In [10]:
import pandas as pd
import re

# Define the file paths
topics_file ='/kaggle/input/uit-vsfc/test/topics.txt'
sentiments_file ='/kaggle/input/uit-vsfc/test/sentiments.txt'
sents_file ='/kaggle/input/uit-vsfc/test/sents.txt'

# Read the files
topics = pd.read_csv(topics_file, header=None, names=['Topic'])
sentiments = pd.read_csv(sentiments_file, header=None, names=['Sentiment'])

# Read the sentences file line by line
with open(sents_file,'r', encoding='utf-8') as file:
    sentences = file.readlines()

# Remove newline characters and punctuation from sentences, and split by whitespace
sentences = [re.sub(r'[^\w\s]','', sentence.strip().lower()) for sentence in sentences]

# Create a DataFrame for sentences
sentences_df = pd.DataFrame(sentences, columns=['Sentence'])

# Combine the DataFrames along the columns
combined_df = pd.concat([topics, sentiments, sentences_df], axis=1)

# Display the first few rows of the combined DataFrame
print(combined_df.head())

# Replace values in'Topic'column
topic_mapping = {0:'LECTURER', 1:'TRAINING_PROGRAM', 2:'FACILITY', 3:'OTHERS'}
combined_df['Topic'] = combined_df['Topic'].replace(topic_mapping)

# Replace values in'Sentiment'column
sentiment_mapping = {0:'NEGATIVE', 1:'NEUTRAL', 2:'POSITIVE'}
combined_df['Sentiment'] = combined_df['Sentiment'].replace(sentiment_mapping)

# Display the modified DataFrame
print(combined_df.head())

   Topic  Sentiment                                           Sentence
0      0          2                            nói tiếng anh lưu loát 
1      0          2                            giáo viên rất vui tính 
2      0          2                                     cô max có tâm 
3      0          2                         giảng bài thu hút  dí dỏm 
4      0          0  giáo viên không giảng dạy kiến thức  hướng dẫn...
      Topic Sentiment                                           Sentence
0  LECTURER  POSITIVE                            nói tiếng anh lưu loát 
1  LECTURER  POSITIVE                            giáo viên rất vui tính 
2  LECTURER  POSITIVE                                     cô max có tâm 
3  LECTURER  POSITIVE                         giảng bài thu hút  dí dỏm 
4  LECTURER  NEGATIVE  giáo viên không giảng dạy kiến thức  hướng dẫn...


In [11]:
combined_df

Unnamed: 0,Topic,Sentiment,Sentence
0,LECTURER,POSITIVE,nói tiếng anh lưu loát
1,LECTURER,POSITIVE,giáo viên rất vui tính
2,LECTURER,POSITIVE,cô max có tâm
3,LECTURER,POSITIVE,giảng bài thu hút dí dỏm
4,LECTURER,NEGATIVE,giáo viên không giảng dạy kiến thức hướng dẫn...
...,...,...,...
3161,LECTURER,NEGATIVE,các slide khó hiểu ngôn ngữ trong slide phức ...
3162,LECTURER,POSITIVE,giáo viên giảng dạy có tâm huyết
3163,LECTURER,POSITIVE,chia sẻ cho em nhiều điều hay
3164,LECTURER,NEGATIVE,em tiếp thu chậm


In [12]:
combined_df.to_csv('test.csv', index=False)

In [13]:
combined_df.head()

Unnamed: 0,Topic,Sentiment,Sentence
0,LECTURER,POSITIVE,nói tiếng anh lưu loát
1,LECTURER,POSITIVE,giáo viên rất vui tính
2,LECTURER,POSITIVE,cô max có tâm
3,LECTURER,POSITIVE,giảng bài thu hút dí dỏm
4,LECTURER,NEGATIVE,giáo viên không giảng dạy kiến thức hướng dẫn...


# Load dataset



In [14]:
import pandas as pd

# Đường dẫn tới các file
train_file ='/kaggle/working/train.csv'
val_file ='/kaggle/working/dev.csv'
test_file ='/kaggle/working/test.csv'

# Đọc các file CSV
train_df = pd.read_csv(train_file)
val_df = pd.read_csv(val_file)
test_df = pd.read_csv(test_file)

# Lấy tất cả các tên cột từ cả ba DataFrame
all_columns = set(train_df.columns).union(set(val_df.columns)).union(set(test_df.columns))

all_columns

{'Sentence', 'Sentiment', 'Topic'}

# Preprocess data

In [15]:
!pip install underthesea

Collecting underthesea
  Downloading underthesea-6.8.0-py3-none-any.whl.metadata (14 kB)
Collecting python-crfsuite>=0.9.6 (from underthesea)
  Downloading python_crfsuite-0.9.10-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.2 kB)
Collecting underthesea-core==1.0.4 (from underthesea)
  Downloading underthesea_core-1.0.4-cp310-cp310-manylinux2010_x86_64.whl.metadata (1.7 kB)
Downloading underthesea-6.8.0-py3-none-any.whl (20.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m20.9/20.9 MB[0m [31m59.4 MB/s[0m eta [36m0:00:00[0m:00:01[0m00:01[0m
[?25hDownloading underthesea_core-1.0.4-cp310-cp310-manylinux2010_x86_64.whl (657 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m657.8/657.8 kB[0m [31m35.4 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading python_crfsuite-0.9.10-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.1/1.1 MB[0m [31m48.6

In [16]:
!pip install pyvi

Collecting pyvi
  Downloading pyvi-0.1.1-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting sklearn-crfsuite (from pyvi)
  Downloading sklearn_crfsuite-0.3.6-py2.py3-none-any.whl.metadata (3.8 kB)
Downloading pyvi-0.1.1-py2.py3-none-any.whl (8.5 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.5/8.5 MB[0m [31m24.2 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hDownloading sklearn_crfsuite-0.3.6-py2.py3-none-any.whl (12 kB)
Installing collected packages: sklearn-crfsuite, pyvi
Successfully installed pyvi-0.1.1 sklearn-crfsuite-0.3.6


In [17]:
import regex as re
import string
import emoji

from nltk import flatten
import unicodedata
from underthesea import word_tokenize
from pyvi import ViTokenizer

In [18]:
# 1. Loại bỏ các thẻ HTML
def remove_HTML(text):
    clean = re.compile('<.*?>')
    return re.sub(clean,'', text)

# 2. Chuyển đổi các ký tự Unicode về dạng chuẩn
def convert_unicode(text):
    return unicodedata.normalize('NFC', text)

# 3. Loại bỏ các ký tự kéo dài
def remove_elongated_chars(text):
    replacements = {
       'a':'àáảãạăằắẳẵặâầấẩẫậ',
       'e':'èéẻẽẹêềếểễệ',
       'i':'ìíỉĩị',
       'o':'òóỏõọôồốổỗộơờớởỡợ',
       'u':'ùúủũụưừứửữự',
       'y':'ỳýỷỹỵ',
       'd':'đ',
       'A':'ÀÁẢÃẠĂẰẮẲẴẶÂẦẤẨẪẬ',
       'E':'ÈÉẺẼẸÊỀẾỂỄỆ',
       'I':'ÌÍỈĨỊ',
       'O':'ÒÓỎÕỌÔỒỐỔỖỘƠỜỚỞỠỢ',
       'U':'ÙÚỦŨỤƯỪỨỬỮỰ',
       'Y':'ỲÝỶỸỴ',
       'D':'Đ'
    }
    
    for char, replacements_str in replacements.items():
        pattern = rf"({char})\1+"
        text = re.sub(pattern, char, text)
    
    pattern = r"(\w)\1+"
    text = re.sub(pattern, r'\1', text)
    return text

# 4. Xử lý các từ phủ định
def handle_negation(text):
    not_words = {"không",'không hề', "chẳng", "chưa", "không phải", "chả", "mất",
                 "thiếu", "đếch", "đéo", "kém", "nỏ", "not",
                 "bớt", "không bao giờ", "chưa bao giờ"}
    not_words = sorted(not_words, key=len, reverse=True)
    pattern = r'\b(?:'+'|'.join(re.escape(word) for word in not_words) + r')\b'
    text = re.sub(pattern,'không', text, flags=re.IGNORECASE)
    return text

# 5. Chuẩn hóa các từ viết tắt thường gặp
def normalize_acronyms(text):
    acronyms = {
       'ô kêi':'ok','okie':'ok','o kê':'ok',
       'okey':'ok','ôkê':'ok','oki':'ok','oke': 'ok','okay':'ok','okê':'ok',
       'tks': u'cám ơn','thks': u'cám ơn','thanks': u'cám ơn','ths': u'cám ơn','thank': u'cám ơn',
       '⭐':'star','*':'star','🌟':'star',
       'kg': u'không','not': u'không', u'kg': u'không','"k': u'không','kh':u'không','kô':u'không','hok':u'không','kp': u'không phải',u'kô': u'không','"ko': u'không', u'ko': u'không', u'k': u'không','khong': u'không', u'hok': u'không',
       'cute': u'dễ thương','vs': u'với','wa':'quá','wá': u'quá','j': u'gì','“':'',
       'sz': u'cỡ','size': u'cỡ', u'đx': u'được','dk': u'được','dc': u'được','đk': u'được',
       'đc': u'được','authentic': u'chuẩn chính hãng',u'aut': u'chuẩn chính hãng', u'auth': u'chuẩn chính hãng','store': u'cửa hàng',
       'shop': u'cửa hàng','sp': u'sản phẩm','gud': u'tốt','god': u'tốt','wel done':'tốt','good': u'tốt','gút': u'tốt',
       'sấu': u'xấu','gut': u'tốt', u'tot': u'tốt', u'nice': u'tốt','perfect':'rất tốt','bt': u'bình thường',
       'time': u'thời gian','qá': u'quá', u'ship': u'giao hàng', u'm': u'mình', u'mik': u'mình',
       'ể':'ể','product':'sản phẩm','quality':'chất lượng','chat':'chất','excelent':'hoàn hảo','bad':'tệ','fresh':'tươi','sad':'tệ',
       'date': u'hạn sử dụng','hsd': u'hạn sử dụng','quickly': u'nhanh','quick': u'nhanh','fast': u'nhanh','delivery': u'giao hàng',u'síp': u'giao hàng',
       'beautiful': u'đẹp tuyệt vời', u'tl': u'trả lời', u'r': u'rồi', u'shopE': u'cửa hàng',u'order': u'đặt hàng',
       'chất lg': u'chất lượng',u'sd': u'sử dụng',u'dt': u'điện thoại',u'nt': u'nhắn tin',u'tl': u'trả lời',u'sài': u'xài',u'bjo':u'bao giờ',
       'thick': u'thích','thik': u'thích', u'sop': u'cửa hàng', u'shop': u'cửa hàng', 
       'fb':'facebook','face':'facebook','very': u'rất',u'quả ng':u'quảng ',
       'dep': u'đẹp',u'xau': u'xấu','delicious': u'ngon', u'hàg': u'hàng', u'qủa': u'quả',
       'iu': u'yêu','fake': u'giả mạo','trl':'trả lời',
       'por': u'tệ','poor': u'tệ','ib':u'nhắn tin','rep':u'trả lời',u'fback':'feedback','fedback':'feedback',
       'max': u'cực kỳ',
       'full':'đầy đủ', 'ful':'đầy đủ'
    }
    words = text.split()
    normalized_text =' '.join([acronyms.get(word.lower(), word) for word in words])
    return normalized_text

# 6. Phân đoạn từ cho tiếng Việt
def word_segmentation(text):
    return word_tokenize(text, format="text")

# 7. Loại bỏ các ký tự không cần thiết khỏi văn bản
def remove_unnecessary_characters(text):
    text = re.sub(r'\s+', ' ', text)  # Loại bỏ khoảng trắng thừa
    text = re.sub(r'[^\w\s]', '', text)  # Loại bỏ các ký tự đặc biệt
    return text.strip()

# 8. Kết hợp các hàm để tiền xử lý văn bản
def text_preprocess(text):
    text = remove_HTML(text)
    text = normalize_acronyms(text)
    text = convert_unicode(text)
    text = remove_elongated_chars(text)
    text = handle_negation(text)
    #text = word_segmentation(text)
    text = remove_unnecessary_characters(text)
    return text

In [19]:
text = "slide giáo trình đầy đủ"
print(text_preprocess(text))

slide giáo trình đầy đủ


## Preprocessing

In [20]:
!pip install tf-models-official


Collecting tf-models-official
  Downloading tf_models_official-2.16.0-py2.py3-none-any.whl.metadata (1.4 kB)
Collecting gin-config (from tf-models-official)
  Downloading gin_config-0.5.0-py3-none-any.whl.metadata (2.9 kB)
Collecting immutabledict (from tf-models-official)
  Downloading immutabledict-4.2.0-py3-none-any.whl.metadata (3.4 kB)
Collecting pycocotools (from tf-models-official)
  Downloading pycocotools-2.0.7-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (1.1 kB)
Collecting sacrebleu (from tf-models-official)
  Downloading sacrebleu-2.4.2-py3-none-any.whl.metadata (58 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.0/58.0 kB[0m [31m1.0 MB/s[0m eta [36m0:00:00[0mta [36m0:00:01[0m
Collecting seqeval (from tf-models-official)
  Downloading seqeval-1.2.2.tar.gz (43 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m43.6/43.6 kB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ...

In [21]:
import pandas as pd
import tensorflow as tf
from transformers import TFAutoModel, AutoTokenizer
from tensorflow.keras.layers import Input, Dense, Dropout, concatenate
from tensorflow.keras.models import Model
from tensorflow.keras.utils import plot_model
from official.nlp import optimization


In [22]:
# Define pre-trained model and tokenizer
PRETRAINED_MODEL = 'vinai/phobert-base'  # Choose your preferred Vietnamese BERT model
tokenizer = AutoTokenizer.from_pretrained(PRETRAINED_MODEL)
tokenizer.max_model_input_sizes

config.json:   0%|          | 0.00/557 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/895k [00:00<?, ?B/s]

bpe.codes:   0%|          | 0.00/1.14M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/3.13M [00:00<?, ?B/s]

{'vinai/phobert-base': 256, 'vinai/phobert-large': 256}

In [23]:
# Prepare data for TensorFlow
MAX_SEQUENCE_LENGTH = tokenizer.model_max_length
BATCH_SIZE = 16
EPOCHS = 10


In [24]:
"""# Define labels

# Perform one-hot encoding on 'Topic' column
one_hot_encoded = pd.get_dummies(train_df['Topic'])
one_hot_encoded = one_hot_encoded.astype(int)
# Concatenate the one-hot encoded DataFrame with the original DataFrame
train_df = pd.concat([train_df, one_hot_encoded], axis=1)

# Drop the original 'result' column
train_df.drop(columns=['Topic'], inplace=True)

# Perform one-hot encoding on 'result' column
one_hot_encoded1 = pd.get_dummies(val_df['Topic'])
one_hot_encoded1 = one_hot_encoded1.astype(int)
# Concatenate the one-hot encoded DataFrame with the original DataFrame
val_df = pd.concat([val_df, one_hot_encoded1], axis=1)

# Drop the original 'result' column
val_df.drop(columns=['Topic'], inplace=True)

# Perform one-hot encoding on 'result' column
one_hot_encoded2 = pd.get_dummies(test_df['Topic'])
one_hot_encoded2 = one_hot_encoded2.astype(int)
# Concatenate the one-hot encoded DataFrame with the original DataFrame
test_df = pd.concat([test_df, one_hot_encoded2], axis=1)

# Drop the original 'result' column
test_df.drop(columns=['Topic'], inplace=True)

"""

"# Define labels\n\n# Perform one-hot encoding on 'Topic' column\none_hot_encoded = pd.get_dummies(train_df['Topic'])\none_hot_encoded = one_hot_encoded.astype(int)\n# Concatenate the one-hot encoded DataFrame with the original DataFrame\ntrain_df = pd.concat([train_df, one_hot_encoded], axis=1)\n\n# Drop the original 'result' column\ntrain_df.drop(columns=['Topic'], inplace=True)\n\n# Perform one-hot encoding on 'result' column\none_hot_encoded1 = pd.get_dummies(val_df['Topic'])\none_hot_encoded1 = one_hot_encoded1.astype(int)\n# Concatenate the one-hot encoded DataFrame with the original DataFrame\nval_df = pd.concat([val_df, one_hot_encoded1], axis=1)\n\n# Drop the original 'result' column\nval_df.drop(columns=['Topic'], inplace=True)\n\n# Perform one-hot encoding on 'result' column\none_hot_encoded2 = pd.get_dummies(test_df['Topic'])\none_hot_encoded2 = one_hot_encoded2.astype(int)\n# Concatenate the one-hot encoded DataFrame with the original DataFrame\ntest_df = pd.concat([test_d

In [25]:
# Define the mapping for sentiment
sentiment_mapping = {'POSITIVE': 1, 'NEGATIVE': 2, 'NEUTRAL': 3}

# Function to perform the customized one-hot encoding
def custom_one_hot_encoding(df):
    # One-hot encode the 'Topic' column
    one_hot_encoded = pd.get_dummies(df['Topic'])
    # Map the 'Sentiment' values to the specified values
    one_hot_encoded = one_hot_encoded * df['Sentiment'].map(sentiment_mapping).values[:, None]
    # Concatenate the one-hot encoded DataFrame with the original DataFrame
    df = pd.concat([df, one_hot_encoded], axis=1)
    # Drop the original 'Topic' column
    df.drop(columns=['Topic'], inplace=True)
    return df

# Apply the function to each DataFrame
train_df = custom_one_hot_encoding(train_df)
val_df = custom_one_hot_encoding(val_df)
test_df = custom_one_hot_encoding(test_df)


In [26]:
train_df = train_df.drop(['Sentiment'], axis = 1)
val_df = val_df.drop(['Sentiment'], axis = 1)
test_df = test_df.drop(['Sentiment'], axis = 1)

In [27]:
import numpy as np

In [28]:
def make_outputs(df):
    outputs = []
    for row in range(len(df)):
        row_one_hot = []
        for col in range(1, len(df.columns)):
            sentiment = df.iloc[row, col]
            if sentiment == 0: one_hot = [1, 0, 0, 0] #None
            elif sentiment == 1: one_hot = [0, 1, 0, 0] # Pos
            elif sentiment == 2: one_hot = [0, 0, 1, 0] # Neg
            elif sentiment == 3: one_hot = [0, 0, 0, 1] # Neu
            row_one_hot.append(one_hot)
        outputs.append(row_one_hot)
    return np.array(outputs, dtype='uint8')
y_train = make_outputs(train_df)
y_val = make_outputs(val_df)
y_test = make_outputs(test_df)

print('Train outputs:', y_train.shape)
print('Validate outputs:', y_val.shape)
print('Test outputs:', y_test.shape)
y_train[0]

Train outputs: (11426, 4, 4)
Validate outputs: (1583, 4, 4)
Test outputs: (3166, 4, 4)


array([[1, 0, 0, 0],
       [1, 0, 0, 0],
       [1, 0, 0, 0],
       [0, 1, 0, 0]], dtype=uint8)

In [29]:
train_df.to_csv('train_tokenize.csv', index = False)
val_df.to_csv('val_tokenize.csv', index = False)
test_df.to_csv('test_tokenize.csv', index = False)

In [30]:
TRAIN_PATH = "/kaggle/working/train_tokenize.csv"
VAL_PATH = "/kaggle/working/val_tokenize.csv"
TEST_PATH = "/kaggle/working/test_tokenize.csv"

In [31]:
from datasets import load_dataset
raw_datasets = load_dataset('csv', data_files={'train': TRAIN_PATH, 'val': VAL_PATH, 'test': TEST_PATH})
raw_datasets

Generating train split: 0 examples [00:00, ? examples/s]

Generating val split: 0 examples [00:00, ? examples/s]

Generating test split: 0 examples [00:00, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['Sentence', 'FACILITY', 'LECTURER', 'OTHERS', 'TRAINING_PROGRAM'],
        num_rows: 11426
    })
    val: Dataset({
        features: ['Sentence', 'FACILITY', 'LECTURER', 'OTHERS', 'TRAINING_PROGRAM'],
        num_rows: 1583
    })
    test: Dataset({
        features: ['Sentence', 'FACILITY', 'LECTURER', 'OTHERS', 'TRAINING_PROGRAM'],
        num_rows: 3166
    })
})

In [32]:
print('input_ids of sentence 1484:', raw_datasets['train'][1484])

input_ids of sentence 1484: {'Sentence': 'thầy tận tâm với học sinh  nhiệt tình với học sinh ', 'FACILITY': 0, 'LECTURER': 1, 'OTHERS': 0, 'TRAINING_PROGRAM': 0}


In [33]:
def tokenize_function(dataset):
    clean_texts = list(map(text_preprocess, dataset['Sentence']))
    return tokenizer(clean_texts, max_length=tokenizer.model_max_length, padding='max_length', truncation=True)

In [34]:
tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)
print('input_ids of sentence 1484:', tokenized_datasets['train'][1484]['input_ids'])

Map:   0%|          | 0/11426 [00:00<?, ? examples/s]

Map:   0%|          | 0/1583 [00:00<?, ? examples/s]

Map:   0%|          | 0/3166 [00:00<?, ? examples/s]

input_ids of sentence 1484: [0, 1249, 1855, 2652, 15, 222, 418, 2515, 939, 15, 222, 418, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]


In [35]:
print('Decode:', tokenizer.decode(tokenized_datasets['train'][1484]['input_ids']))


Decode: <s> thầy tận tâm với học sinh nhiệt tình với học sinh </s> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pa

In [36]:
tokenized_datasets['train']

Dataset({
    features: ['Sentence', 'FACILITY', 'LECTURER', 'OTHERS', 'TRAINING_PROGRAM', 'input_ids', 'token_type_ids', 'attention_mask'],
    num_rows: 11426
})

In [37]:
train_dataset = tokenized_datasets["train"].to_tf_dataset(
    columns=["input_ids", "token_type_ids", "attention_mask"], batch_size=BATCH_SIZE, shuffle=True
)

validation_dataset = tokenized_datasets["val"].to_tf_dataset(
    columns=["input_ids", "token_type_ids", "attention_mask"], batch_size=BATCH_SIZE, shuffle=True
)

In [38]:
import tensorflow as tf
from transformers import TFAutoModel, AutoTokenizer
from tensorflow.keras import layers, Model

In [39]:
class BertLayer(tf.keras.layers.Layer):
    def __init__(self, **kwargs):
        super(BertLayer, self).__init__(**kwargs)
        self.bert = TFAutoModel.from_pretrained(PRETRAINED_MODEL)

    def call(self, inputs):
        input_ids, attention_mask, token_type_ids = inputs
        outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids)
        return outputs[0]

def create_model(optimizer):
    # Build your model on top of BERT
    input_ids = tf.keras.layers.Input(shape=(MAX_SEQUENCE_LENGTH,), dtype=tf.int32, name='input_ids')
    attention_mask = tf.keras.layers.Input(shape=(MAX_SEQUENCE_LENGTH,), dtype=tf.int32, name='attention_mask')
    token_type_ids = tf.keras.layers.Input(shape=(MAX_SEQUENCE_LENGTH,), dtype=tf.int32, name='token_type_ids')

    bert_layer = BertLayer()([input_ids, attention_mask, token_type_ids])
    pooled_output = bert_layer[:, 0, :]  # Take only the first token
    #dense = layers.Dense(16, activation='softmax')(pooled_output)
    dense = concatenate([
        Dense(
            units = 4, 
            activation = 'softmax',
            name = label,
        )(pooled_output) for label in train_df.columns[1:]
    ], axis = -1)
    # Define your model
    model = Model(inputs=[input_ids, attention_mask, token_type_ids], outputs=dense)

    # Compile your model
    #model.compile(optimizer=optimizer, loss='categorical_crossentropy', metrics=['accuracy'])
    model.compile(optimizer=optimizer, loss='binary_crossentropy')
    
    model.summary()
    return model

In [40]:
from tensorflow.keras.optimizers import Adam
optimizer = Adam(learning_rate=1e-5)
type(optimizer)

keras.src.optimizers.adam.Adam

In [41]:
model = create_model(optimizer)

tf_model.h5:   0%|          | 0.00/740M [00:00<?, ?B/s]

Some layers from the model checkpoint at vinai/phobert-base were not used when initializing TFRobertaModel: ['lm_head']
- This IS expected if you are initializing TFRobertaModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing TFRobertaModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
All the layers of TFRobertaModel were initialized from the model checkpoint at vinai/phobert-base.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFRobertaModel for predictions without further training.


In [42]:
# Create TensorFlow Datasets
def encode_data(tokenized_datasets, labels):
    return (
        {
            'input_ids': tf.constant(tokenized_datasets['input_ids']),
            'attention_mask': tf.constant(tokenized_datasets['attention_mask']),
            'token_type_ids': tf.constant(tokenized_datasets['token_type_ids'])
        },
        tf.constant(labels)
    )

In [43]:
train_data = encode_data(tokenized_datasets['train'], np.reshape(y_train, (-1, 16)))
val_data = encode_data(tokenized_datasets['val'], np.reshape(y_val, (-1, 16)))


In [44]:
train_data

({'input_ids': <tf.Tensor: shape=(11426, 256), dtype=int32, numpy=
  array([[    0, 48090,  4368, ...,     1,     1,     1],
         [    0,  2515,   939, ...,     1,     1,     1],
         [    0,    57,   222, ...,     1,     1,     1],
         ...,
         [    0,   574,   387, ...,     1,     1,     1],
         [    0,  4368,  1430, ...,     1,     1,     1],
         [    0,  1685,  2953, ...,     1,     1,     1]], dtype=int32)>,
  'attention_mask': <tf.Tensor: shape=(11426, 256), dtype=int32, numpy=
  array([[1, 1, 1, ..., 0, 0, 0],
         [1, 1, 1, ..., 0, 0, 0],
         [1, 1, 1, ..., 0, 0, 0],
         ...,
         [1, 1, 1, ..., 0, 0, 0],
         [1, 1, 1, ..., 0, 0, 0],
         [1, 1, 1, ..., 0, 0, 0]], dtype=int32)>,
  'token_type_ids': <tf.Tensor: shape=(11426, 256), dtype=int32, numpy=
  array([[0, 0, 0, ..., 0, 0, 0],
         [0, 0, 0, ..., 0, 0, 0],
         [0, 0, 0, ..., 0, 0, 0],
         ...,
         [0, 0, 0, ..., 0, 0, 0],
         [0, 0, 0, ..., 0, 

In [45]:
# Create TensorFlow datasets
train_dataset = tf.data.Dataset.from_tensor_slices(train_data).batch(BATCH_SIZE)
val_dataset = tf.data.Dataset.from_tensor_slices(val_data).batch(BATCH_SIZE)

In [46]:
train_data

({'input_ids': <tf.Tensor: shape=(11426, 256), dtype=int32, numpy=
  array([[    0, 48090,  4368, ...,     1,     1,     1],
         [    0,  2515,   939, ...,     1,     1,     1],
         [    0,    57,   222, ...,     1,     1,     1],
         ...,
         [    0,   574,   387, ...,     1,     1,     1],
         [    0,  4368,  1430, ...,     1,     1,     1],
         [    0,  1685,  2953, ...,     1,     1,     1]], dtype=int32)>,
  'attention_mask': <tf.Tensor: shape=(11426, 256), dtype=int32, numpy=
  array([[1, 1, 1, ..., 0, 0, 0],
         [1, 1, 1, ..., 0, 0, 0],
         [1, 1, 1, ..., 0, 0, 0],
         ...,
         [1, 1, 1, ..., 0, 0, 0],
         [1, 1, 1, ..., 0, 0, 0],
         [1, 1, 1, ..., 0, 0, 0]], dtype=int32)>,
  'token_type_ids': <tf.Tensor: shape=(11426, 256), dtype=int32, numpy=
  array([[0, 0, 0, ..., 0, 0, 0],
         [0, 0, 0, ..., 0, 0, 0],
         [0, 0, 0, ..., 0, 0, 0],
         ...,
         [0, 0, 0, ..., 0, 0, 0],
         [0, 0, 0, ..., 0, 

In [47]:
"""# Huấn luyện mô hình
def train_model(model, train_dataset, val_dataset, epochs=3):

    for epoch in range(epochs):
        history = model.fit(
                        train_dataset,
                        epochs=epochs,
                        validation_data=val_dataset
                    )

        print(f"Epoch {epoch+1}/{epochs}, Train Loss: {history.history['loss'][0]:.4f}, Train Accuracy: {history.history['accuracy'][0]:.4f}")
        print(f"Epoch {epoch+1}/{epochs}, Val Loss: {history.history['val_loss'][0]:.4f}, Val Accuracy: {history.history['val_accuracy'][0]:.4f}")
    
    model.save('sentiment_model.h5')"""

'# Huấn luyện mô hình\ndef train_model(model, train_dataset, val_dataset, epochs=3):\n\n    for epoch in range(epochs):\n        history = model.fit(\n                        train_dataset,\n                        epochs=epochs,\n                        validation_data=val_dataset\n                    )\n\n        print(f"Epoch {epoch+1}/{epochs}, Train Loss: {history.history[\'loss\'][0]:.4f}, Train Accuracy: {history.history[\'accuracy\'][0]:.4f}")\n        print(f"Epoch {epoch+1}/{epochs}, Val Loss: {history.history[\'val_loss\'][0]:.4f}, Val Accuracy: {history.history[\'val_accuracy\'][0]:.4f}")\n    \n    model.save(\'sentiment_model.h5\')'

In [48]:
!pip install --upgrade wandb tensorflow


Collecting wandb
  Downloading wandb-0.17.0-py3-none-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (10 kB)
Downloading wandb-0.17.0-py3-none-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (6.7 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.7/6.7 MB[0m [31m23.4 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hInstalling collected packages: wandb
  Attempting uninstall: wandb
    Found existing installation: wandb 0.16.6
    Uninstalling wandb-0.16.6:
      Successfully uninstalled wandb-0.16.6
Successfully installed wandb-0.17.0


In [49]:
import os
import wandb
import tensorflow as tf
import numpy as np
import warnings
import logging
# Set TensorFlow logging level to ERROR to suppress warnings and informational messages
tf.get_logger().setLevel('ERROR')
logging.getLogger('tensorflow').setLevel(logging.ERROR)

# Additional method to suppress specific warnings
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3'  # Suppress TensorFlow warnings and errors: 0 = all logs, 1 = filter out INFO, 2 = filter out WARNING, 3 = filter out ERROR



In [50]:
import wandb
import os
import tensorflow as tf

# Define the checkpoint path
checkpoint_path = "sentiment_model_checkpoint.weights.h5"
# Set your WandB API key
wandb.login(key="b9575849263a9312a73f76d71d270c8751628e10")

# Initialize WandB with a unique run ID based on current timestamp
run_id = "9n6h5k0i"
wandb.init(project="absa-vietnamese", id=run_id, resume="allow")

[34m[1mwandb[0m: W&B API key is configured. Use [1m`wandb login --relogin`[0m to force relogin
[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc
[34m[1mwandb[0m: Currently logged in as: [33mlavibuu[0m ([33mlavibu[0m). Use [1m`wandb login --relogin`[0m to force relogin


In [76]:
import warnings
warnings.filterwarnings("ignore")

# Định nghĩa early_stop_callback
early_stop_callback = tf.keras.callbacks.EarlyStopping(
    monitor='val_loss',  
    patience=5,  
    restore_best_weights=True  
)

model_checkpoint_callback = tf.keras.callbacks.ModelCheckpoint(
    filepath=checkpoint_path,
    save_weights_only=True,
    monitor='val_loss',
    mode='min',
    save_best_only=True,
    verbose=1
)


# Thiết lập mức độ log của TensorFlow để chỉ hiển thị các lỗi nghiêm trọng
tf.get_logger().setLevel('ERROR')

# Check if checkpoint exists and load weights
if os.path.exists(checkpoint_path):
    model.load_weights(checkpoint_path)
    print("Checkpoint loaded.")

# Define the training function
def train_model(model, train_dataset, val_dataset, epochs=3):
    for epoch in range(epochs):
        history = model.fit(
            train_dataset,
            epochs=1,  # Train for 1 epoch at a time
            validation_data=val_dataset,
            callbacks=[
                early_stop_callback,
                model_checkpoint_callback,
            ],
            verbose=1
        )
        # Calculate average train and validation loss
        avg_train_loss = np.mean(history.history['loss'])
        avg_val_loss = np.mean(history.history['val_loss'])

        print(f"Epoch {epoch+1}/{epochs}")
        print(f"train_loss: {avg_train_loss:.4f} - val_loss: {avg_val_loss:.4f}")

        # Log metrics to WandB
        wandb.log({"train_loss": avg_train_loss, "val_loss": avg_val_loss})
# Train the model
train_model(model, train_dataset, val_dataset, epochs=10)


Checkpoint loaded.
[1m714/715[0m [32m━━━━━━━━━━━━━━━━━━━[0m[37m━[0m [1m0s[0m 211ms/step - loss: 0.1145
Epoch 1: val_loss improved from inf to 0.12247, saving model to sentiment_model_checkpoint.weights.h5
[1m715/715[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m172s[0m 240ms/step - loss: 0.1145 - val_loss: 0.1225
Epoch 1/10
train_loss: 0.1155 - val_loss: 0.1225
[1m714/715[0m [32m━━━━━━━━━━━━━━━━━━━[0m[37m━[0m [1m0s[0m 211ms/step - loss: 0.1144
Epoch 1: val_loss improved from 0.12247 to 0.12241, saving model to sentiment_model_checkpoint.weights.h5
[1m715/715[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m172s[0m 240ms/step - loss: 0.1144 - val_loss: 0.1224
Epoch 2/10
train_loss: 0.1154 - val_loss: 0.1224
[1m714/715[0m [32m━━━━━━━━━━━━━━━━━━━[0m[37m━[0m [1m0s[0m 211ms/step - loss: 0.1144
Epoch 1: val_loss improved from 0.12241 to 0.12236, saving model to sentiment_model_checkpoint.weights.h5
[1m715/715[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m172s[0m

In [52]:
test_data = encode_data(tokenized_datasets['test'], np.reshape(y_test, (-1, 16)))
test_dataset = tf.data.Dataset.from_tensor_slices(test_data).batch(BATCH_SIZE)

In [77]:
# Evaluate the model on the test dataset
test_loss= model.evaluate(test_dataset)
print(f"Test Loss: {test_loss:.4f}")


[1m198/198[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m42s[0m 213ms/step - loss: 0.1278
Test Loss: 0.1264


# Reload the model

In [78]:
reloaded_model = create_model(optimizer)
reloaded_model.load_weights('/kaggle/working/sentiment_model_checkpoint.weights.h5')


Some layers from the model checkpoint at vinai/phobert-base were not used when initializing TFRobertaModel: ['lm_head']
- This IS expected if you are initializing TFRobertaModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing TFRobertaModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
All the layers of TFRobertaModel were initialized from the model checkpoint at vinai/phobert-base.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFRobertaModel for predictions without further training.


In [None]:
from tensorflow.keras.utils import plot_model
plot_model(reloaded_model, to_file='architecture.png', rankdir='LR', dpi=52, show_shapes=True, show_layer_names=True)

In [None]:
from tensorflow.keras.models import load_model

# Tiến hành dự đoán
def predict_sentiment(text, loaded_model):
    inputs = tokenizer(text, max_length=MAX_SEQUENCE_LENGTH, padding='max_length', truncation=True, return_tensors='tf')
    input_ids = inputs['input_ids']
    attention_mask = inputs['attention_mask']
    token_type_ids = inputs['token_type_ids']
    predictions = loaded_model.predict([input_ids, attention_mask, token_type_ids])
    return predictions

def print_acsa_pred(predictions):
    # Giải thích kết quả
    topics = ["FACILITY", "LECTURER", "OTHERS", "TRAINING_PROGRAMS"]
    sentiments = ["None", "Positive", "Negative", "Neutral"] 
    y_pred = predictions.reshape(len(predictions), -1, 4)
    for i in range(4):
        sentiment_index = np.argmax(y_pred[0][i])
        topic = topics[i]
        sentiment = sentiments[sentiment_index]
        if sentiment != "None":
            print(f"{topic}: {sentiment}")

In [81]:
def report(predictions):
    sentiment_indices = []

    # Reshape predictions to match the expected format
    y_pred = predictions.reshape(len(predictions), -1, 4)

    # Iterate over each category
    for i in range(4):
        # Get the sentiment index for the current category
        sentiment_index = np.argmax(y_pred[0][i])

        # Append the sentiment index to the list
        sentiment_indices.append(sentiment_index)

    # Return the list of sentiment indices for each category
    return sentiment_indices


In [82]:
# Ví dụ sử dụng
text = "giảng viên rất nhiệt tình và dễ hiểu"
predictions = predict_sentiment(text, reloaded_model)
print(predictions)
print(predictions.reshape(y_test[1].shape))
print_acsa_pred(predictions)
print(report(predictions))

W0000 00:00:1716731067.690088     158 assert_op.cc:38] Ignoring Assert operator functional_5_1/bert_layer_2_1/tf_roberta_model_2/roberta/embeddings/assert_less/Assert/Assert


[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 3s/step
[[9.9983847e-01 2.8307688e-05 1.2431138e-04 8.7628086e-06 4.6013118e-04
  9.7507465e-01 2.4146359e-02 3.1887632e-04 9.9894303e-01 6.7140500e-04
  2.9901156e-04 8.6607928e-05 9.9920678e-01 3.2926607e-04 3.7895472e-04
  8.5075684e-05]]
[[9.9983847e-01 2.8307688e-05 1.2431138e-04 8.7628086e-06]
 [4.6013118e-04 9.7507465e-01 2.4146359e-02 3.1887632e-04]
 [9.9894303e-01 6.7140500e-04 2.9901156e-04 8.6607928e-05]
 [9.9920678e-01 3.2926607e-04 3.7895472e-04 8.5075684e-05]]
LECTURER: Positive
[0, 1, 0, 0]


In [83]:
# Ví dụ sử dụng
text = "dạy chán, không quan tâm học sinh"
predictions = predict_sentiment(text, reloaded_model)
print(predictions)
print(predictions.reshape(y_test[1].shape))
print_acsa_pred(predictions)
print(report(predictions))

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 26ms/step
[[0.99337995 0.00157052 0.00389787 0.00115165 0.05584941 0.21189219
  0.7064535  0.02580487 0.9671745  0.0112598  0.01326553 0.00830019
  0.96330786 0.00729772 0.02645061 0.00294381]]
[[0.99337995 0.00157052 0.00389787 0.00115165]
 [0.05584941 0.21189219 0.7064535  0.02580487]
 [0.9671745  0.0112598  0.01326553 0.00830019]
 [0.96330786 0.00729772 0.02645061 0.00294381]]
LECTURER: Negative
[0, 2, 0, 0]


In [84]:
# Ví dụ sử dụng
text = "chương trình học khô khan, khó hiểu"
predictions = predict_sentiment(text, reloaded_model)
print_acsa_pred(predictions)


[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 24ms/step


In [85]:
# Ví dụ sử dụng
text = "phòng học dơ bẩn, ẩm mốc, và cực kỳ tối"
predictions = predict_sentiment(text, reloaded_model)
print(predictions)
print(predictions.reshape(y_test[1].shape))
print_acsa_pred(predictions)
print(report(predictions))

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 25ms/step
[[0.09857271 0.01481084 0.88182676 0.00478971 0.6561089  0.13309951
  0.19698283 0.01380874 0.94935995 0.01791392 0.02512837 0.00759772
  0.91343355 0.04684234 0.03586247 0.00386167]]
[[0.09857271 0.01481084 0.88182676 0.00478971]
 [0.6561089  0.13309951 0.19698283 0.01380874]
 [0.94935995 0.01791392 0.02512837 0.00759772]
 [0.91343355 0.04684234 0.03586247 0.00386167]]
FACILITY: Negative
[2, 0, 0, 0]


In [86]:
# Ví dụ sử dụng
text = "sợ ma"
predictions = predict_sentiment(text, reloaded_model)
print(predictions)
print(predictions.reshape(y_test[1].shape))
print_acsa_pred(predictions)
print(report(predictions))

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 24ms/step
[[0.9393128  0.00159395 0.05603147 0.00306187 0.49649248 0.1425621
  0.2945748  0.06637062 0.75500363 0.06792098 0.07609788 0.10097753
  0.8580513  0.07133412 0.03397258 0.03664197]]
[[0.9393128  0.00159395 0.05603147 0.00306187]
 [0.49649248 0.1425621  0.2945748  0.06637062]
 [0.75500363 0.06792098 0.07609788 0.10097753]
 [0.8580513  0.07133412 0.03397258 0.03664197]]
[0, 0, 0, 0]


# Prediction

In [87]:
y_test_argmax = np.argmax(y_test, axis=-1)
y_test_argmax

array([[0, 1, 0, 0],
       [0, 1, 0, 0],
       [0, 1, 0, 0],
       ...,
       [0, 1, 0, 0],
       [0, 2, 0, 0],
       [0, 0, 0, 3]])

## Predict on test data

In [102]:
def predict(model, inputs, batch_size=1, verbose=0):
    y_pred = model.predict(inputs, batch_size=batch_size, verbose=verbose)
    y_pred = y_pred.reshape(len(y_pred), -1, 4)
    return np.argmax(y_pred, axis=-1) # sentiment values (position that have max value)

In [103]:
def print_acsa_pred(replacements, categories, sentence_pred):
    sentiments = map(lambda x: replacements[x], sentence_pred)
    for category, sentiment in zip(categories, sentiments): 
        if sentiment: print(f'=> {category},{sentiment}')

In [122]:
y_pred = predict(reloaded_model, test_dataset, BATCH_SIZE, verbose=1)
reloaded_model.evaluate(test_dataset, batch_size=BATCH_SIZE, verbose=1)

[1m198/198[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m42s[0m 212ms/step
[1m198/198[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m41s[0m 210ms/step - loss: 0.1278


0.12644782662391663

In [123]:
y_test[1]

array([[1, 0, 0, 0],
       [0, 1, 0, 0],
       [1, 0, 0, 0],
       [1, 0, 0, 0]], dtype=uint8)

In [125]:
y_test_argmax[1]

array([0, 1, 0, 0])

In [124]:
y_pred[0]

array([0, 0, 0, 0])

In [107]:
replacements = {0: None, 1: 'positive', 2: 'negative', 3: 'neutral'}
categories = test_df.columns[1:]
for i in range(50):
    print('Example:', test_df['Sentence'][i])
    print_acsa_pred(replacements, categories, y_pred[i])

Example: nói tiếng anh lưu loát 
Example: giáo viên rất vui tính 
=> LECTURER,positive
Example: cô max có tâm 
=> LECTURER,positive
Example: giảng bài thu hút  dí dỏm 
=> LECTURER,negative
Example: giáo viên không giảng dạy kiến thức  hướng dẫn thực hành trong quá trình học 
=> LECTURER,negative
Example: thầy dạy nhiệt tình và tâm huyết 
=> LECTURER,positive
Example: tính điểm thi đua các nhóm 
=> TRAINING_PROGRAM,negative
Example: thầy nhiệt tình giảng lại cho học sinh 
=> LECTURER,positive
Example: có đôi lúc nói hơi nhanh làm sinh viên không theo kịp 
=> LECTURER,negative
Example: giảng dạy nhiệt tình  liên hệ thực tế khá nhiều  tương tác với sinh viên tương đối tốt 
=> LECTURER,positive
Example: giảng viên nhiệt tình trong công tác giảng dạy 
=> LECTURER,positive
Example: cô rất nhiệt tình  dễ thương  dạy dễ hiểu 
=> LECTURER,positive
Example: trong trường macbook thầy số hai thì không có máy nào số một 
=> LECTURER,negative
Example: sinh viên không tiếp thu kịp cũng như không hiểu

# Report

In [108]:
aspect_test = []
aspect_pred = []

for row_test, row_pred in zip(y_test_argmax, y_pred):
    for index, (col_test, col_pred) in enumerate(zip(row_test, row_pred)):
        aspect_test.append(bool(col_test) * categories[index])
        aspect_pred.append(bool(col_pred) * categories[index])

In [109]:
from sklearn.metrics import classification_report
aspect_report = classification_report(aspect_test, aspect_pred, digits=4, zero_division=1, output_dict=True)
print(classification_report(aspect_test, aspect_pred, digits=4, zero_division=1))

                  precision    recall  f1-score   support

                     0.9275    0.9707    0.9486      9498
        FACILITY     0.9619    0.6966    0.8080       145
        LECTURER     0.9260    0.8856    0.9054      2290
          OTHERS     0.6800    0.1069    0.1848       159
TRAINING_PROGRAM     0.7419    0.5227    0.6133       572

        accuracy                         0.9211     12664
       macro avg     0.8475    0.6365    0.6920     12664
    weighted avg     0.9161    0.9211    0.9144     12664



In [110]:
y_test_flat = y_test_argmax.flatten()
y_pred_flat = y_pred.flatten()
target_names = list(map(str, replacements.values()))

In [111]:
polarity_report = classification_report(y_test_flat, y_pred_flat, digits=4, output_dict=True)
print(classification_report(y_test_flat, y_pred_flat, target_names=target_names, digits=4))

              precision    recall  f1-score   support

        None     0.9275    0.9707    0.9486      9498
    positive     0.8517    0.8088    0.8297      1590
    negative     0.7481    0.6366    0.6879      1409
     neutral     0.5714    0.0479    0.0884       167

    accuracy                         0.9011     12664
   macro avg     0.7747    0.6160    0.6386     12664
weighted avg     0.8933    0.9011    0.8933     12664



In [112]:
aspect_polarity_test = []
aspect_polarity_pred = []

for row_test, row_pred in zip(y_test_argmax, y_pred):
    for index, (col_test, col_pred) in enumerate(zip(row_test, row_pred)):
        aspect_polarity_test.append(f'{categories[index]},{replacements[col_test]}')
        aspect_polarity_pred.append(f'{categories[index]},{replacements[col_pred]}')

In [113]:
aspect_polarity_report = classification_report(aspect_polarity_test, aspect_polarity_pred, digits=4, zero_division=1, output_dict=True)
print(classification_report(aspect_polarity_test, aspect_polarity_pred, digits=4, zero_division=1))

                           precision    recall  f1-score   support

            FACILITY,None     0.9856    0.9987    0.9921      3021
        FACILITY,negative     0.9429    0.7174    0.8148       138
         FACILITY,neutral     1.0000    0.0000    0.0000         2
        FACILITY,positive     1.0000    0.0000    0.0000         5
            LECTURER,None     0.7316    0.8151    0.7711       876
        LECTURER,negative     0.7636    0.6941    0.7272       791
         LECTURER,neutral     1.0000    0.0135    0.0267        74
        LECTURER,positive     0.8619    0.8891    0.8753      1425
              OTHERS,None     0.9548    0.9973    0.9756      3007
          OTHERS,negative     0.4000    0.0312    0.0580        64
           OTHERS,neutral     0.5385    0.1591    0.2456        44
          OTHERS,positive     0.1429    0.0196    0.0345        51
    TRAINING_PROGRAM,None     0.9012    0.9599    0.9296      2594
TRAINING_PROGRAM,negative     0.6676    0.5938    0.6285     

In [114]:
aspect_dict = aspect_report['macro avg']
aspect_dict['accuracy'] = aspect_report['accuracy']

polarity_dict  = polarity_report['macro avg']
polarity_dict['accuracy'] = polarity_report['accuracy']

aspect_polarity_dict = aspect_polarity_report['macro avg']
aspect_polarity_dict['accuracy'] = aspect_polarity_report['accuracy']

In [115]:
df_report = pd.DataFrame.from_dict([aspect_dict, polarity_dict, aspect_polarity_dict])
df_report.index = ['Aspect Detection', 'Polarity Detection', 'Aspect + Polarity']
df_report.drop('support', axis=1)

Unnamed: 0,precision,recall,f1-score,accuracy
Aspect Detection,0.847468,0.636503,0.692016,0.921115
Polarity Detection,0.77467,0.616015,0.638642,0.901058
Aspect + Polarity,0.77724,0.44087,0.458276,0.901058


In [121]:
example_input = text_preprocess(input('Enter your sentence: '))
tokenized_input = tokenizer(example_input, padding='max_length', truncation=True)
features = {x: [[tokenized_input[x]]] for x in tokenizer.model_input_names}

pred = predict(reloaded_model, tf.data.Dataset.from_tensor_slices(features))
print_acsa_pred(replacements, categories, pred[0])

Enter your sentence:  sợ ma quá
