# install datasets

In [13]:
pip install datasets




# Tải bộ dữ liệu UIT-VSMEC từ datasets

## Tải bộ dữ liệu

In [14]:
import pandas as pd

In [15]:
from datasets import load_dataset

dataset = load_dataset("ura-hcmut/UIT-VSMEC")
print(dataset)

DatasetDict({
    train: Dataset({
        features: ['Emotion', 'Sentence'],
        num_rows: 5548
    })
    validation: Dataset({
        features: ['Emotion', 'Sentence'],
        num_rows: 686
    })
    test: Dataset({
        features: ['Emotion', 'Sentence'],
        num_rows: 693
    })
})


In [16]:
# Chuyển thành 3 bảng 
train_df = pd.DataFrame(dataset["train"])
valid_df = pd.DataFrame(dataset["validation"])
test_df  = pd.DataFrame(dataset["test"])

In [17]:
train_df['Emotion'].value_counts()

Emotion
Enjoyment    1558
Disgust      1071
Other        1021
Sadness       947
Anger         391
Fear          318
Surprise      242
Name: count, dtype: int64

In [18]:
valid_df['Emotion'].value_counts()

Emotion
Enjoyment    214
Other        141
Disgust      135
Sadness       86
Anger         49
Fear          31
Surprise      30
Name: count, dtype: int64

In [19]:
test_df['Emotion'].value_counts()

Emotion
Enjoyment    193
Disgust      132
Other        129
Sadness      116
Fear          46
Anger         40
Surprise      37
Name: count, dtype: int64

In [20]:
train_df.head()

Unnamed: 0,Emotion,Sentence
0,Other,cho mình xin bài nhạc tên là gì với ạ
1,Disgust,cho đáng đời con quỷ . về nhà lôi con nhà mày ...
2,Disgust,lo học đi . yêu đương lol gì hay lại thích học...
3,Enjoyment,uớc gì sau này về già vẫn có thể như cụ này :))
4,Enjoyment,mỗi lần có video của con là cứ coi đi coi lại ...


In [21]:
# Đổi lại vị trí 2 cột 
for df in [train_df, valid_df, test_df]:
    if "Emotion" in df.columns:
        col_emotion = df.pop("Emotion")  
        df["Emotion"] = col_emotion      


In [22]:
train_df.head(3)

Unnamed: 0,Sentence,Emotion
0,cho mình xin bài nhạc tên là gì với ạ,Other
1,cho đáng đời con quỷ . về nhà lôi con nhà mày ...,Disgust
2,lo học đi . yêu đương lol gì hay lại thích học...,Disgust


## Lưu lại bộ dữ liệu để sử dụng

In [23]:
path = '..\\data\\UIT_VSMEC'

# Tự động ghi đè nếu file đã tồn tại trước đó
train_df.to_csv(f"{path}\\vsmec_train.csv", index=False, encoding="utf-8-sig")
valid_df.to_csv(f"{path}\\vsmec_valid.csv", index=False, encoding="utf-8-sig")
test_df.to_csv(f"{path}\\vsmec_test.csv",  index=False, encoding="utf-8-sig")

## Gộp 3 tập train - valid - test thành 1 bộ

In [24]:
merged_df = pd.concat([train_df, valid_df, test_df], ignore_index=True)
merged_df.shape

(6927, 2)

In [25]:
merged_df['Emotion'].value_counts()

Emotion
Enjoyment    1965
Disgust      1338
Other        1291
Sadness      1149
Anger         480
Fear          395
Surprise      309
Name: count, dtype: int64

In [26]:
# Tỷ lệ các nhãn trong bộ dữ liệu UIT-VSMEC, làm tròn đến 2 chữ số thập phân sau dấu phẩu
merged_df['Emotion'].value_counts(normalize=True).round(4) * 100

Emotion
Enjoyment    28.37
Disgust      19.32
Other        18.64
Sadness      16.59
Anger         6.93
Fear          5.70
Surprise      4.46
Name: proportion, dtype: float64

**Lưu lại bộ dữ liệu để sử dụng**

In [27]:
merged_df.to_csv(f"{path}\\vsmec_merged.csv", index=False, encoding="utf-8-sig")

# Gộp bộ dữ liệu UIT-VSMEC và bộ dữ liệu tự label

## Lấy data từ bộ dữ liệu tự label

In [29]:
check_labeled_data_final = pd.read_csv("..\\data\\final_checked_data.csv", encoding="utf-8-sig")

check_labeled_data_final.shape

(4616, 2)

In [30]:
check_labeled_data_final.head(3)

Unnamed: 0,Sentence,Emotion
0,xin lỗi chứ loại này tôi đéo bao giờ chơi lần ...,Disgust
1,đã sợ bị đánh thì đừng có nói :)),Anger
2,đã sợ đừng có nói:)) bản lĩnh cái thằng đàn ôn...,Anger


In [31]:
check_labeled_data_final['Emotion'].value_counts()

Emotion
Enjoyment    1812
Other         865
Disgust       619
Sadness       463
Anger         429
Surprise      304
Fear          124
Name: count, dtype: int64

In [32]:
# Tỷ lệ các nhãn trong bộ dữ liệu tự gán nhãn, làm tròn đến 2 chữ số thập phân sau dấu phẩu
check_labeled_data_final['Emotion'].value_counts(normalize=True).round(4) * 100

Emotion
Enjoyment    39.25
Other        18.74
Disgust      13.41
Sadness      10.03
Anger         9.29
Surprise      6.59
Fear          2.69
Name: proportion, dtype: float64

## Gộp 2 bộ dữ liệu

In [33]:
merged_final = pd.concat([merged_df, check_labeled_data_final], ignore_index=True)
merged_final.shape

(11543, 2)

In [34]:
merged_final['Emotion'].value_counts()

Emotion
Enjoyment    3777
Other        2156
Disgust      1957
Sadness      1612
Anger         909
Surprise      613
Fear          519
Name: count, dtype: int64

In [35]:
merged_final['Emotion'].value_counts(normalize=True).round(4) * 100

Emotion
Enjoyment    32.72
Other        18.68
Disgust      16.95
Sadness      13.97
Anger         7.87
Surprise      5.31
Fear          4.50
Name: proportion, dtype: float64

In [37]:
merged_final.to_csv("..\\data\\raw_data_final.csv", index=False, encoding="utf-8-sig")