In [1]:
import pandas as pd

In [2]:
import sys  
sys.path.insert(1, '/home/tb24/projects/llm-data-aug')

# Path
import os

# Get the project root directory (one level up from the notebook directory)
project_root = os.path.abspath(os.path.join(os.getcwd(), ".."))

# Define the data path
data_path = os.path.join(project_root, "data")

## Examining Class Imbalance

In [4]:
# Read the cleaned data
df = pd.read_csv(os.path.join(data_path, "cleaned_user_reviews.csv"))
# Make sure they are all of type string
df['emoji to text'] = df['emoji to text'].astype(str)
df

Unnamed: 0,Review,Sentiment,tokenized_text,emoji to text,emoji to text + stopwords
0,rất cơ bản.,Positive,rất cơ_bản .,rất cơ_bản .,cơ_bản
1,họ đã miễn phí thịt xông khói thịt lợn trong s...,Neutral,họ đã miễn_phí thịt xông khói thịt lợn trong s...,họ đã miễn_phí thịt xông khói thịt lợn trong s...,miễn_phí thịt xông khói thịt lợn salad hồi_giá...
2,"trong mcdonalds, họ cho tóc ăn.",Negative,"trong mcdonalds , họ cho tóc ăn .","trong mcdonalds , họ cho tóc ăn .",mcdonalds tóc
3,khó đặt hàng,Positive,khó đặt_hàng,khó đặt_hàng,đặt_hàng
4,"đẳng cấp hơn các loại gà rán khác, cảm giác đa...",Positive,"đẳng_cấp hơn các loại gà rán khác , cảm_giác đ...","đẳng_cấp hơn các loại gà rán khác , cảm_giác đ...",đẳng_cấp gà rán mỹ vn 2200 đông ..
...,...,...,...,...,...
2373,buổi trưa ngồi bị hắt nắng,Positive,buổi trưa ngồi bị hắt nắng,buổi trưa ngồi bị hắt nắng,trưa hắt nắng
2374,tôi đặt hàng từ mcdonalds khá thường xuyên sử ...,Neutral,tôi đặt_hàng từ mcdonalds khá thường_xuyên sử_...,tôi đặt_hàng từ mcdonalds khá thường_xuyên sử_...,đặt_hàng mcdonalds thường_xuyên sử_dụng ứng_dụ...
2375,ok... điểm hẹn lý tưởng cuối tuần cho các bé,Positive,ok ... điểm hẹn lý_tưởng cuối tuần cho các bé,ok ... điểm hẹn lý_tưởng cuối tuần cho các bé,ok ... hẹn lý_tưởng bé
2376,tuyệt vời khi đi bạn bè đông,Positive,tuyệt_vời khi đi bạn_bè đông,tuyệt_vời khi đi bạn_bè đông,tuyệt_vời bạn_bè đông


In [5]:
# Định nghĩa mapping
label_mapping = {'Positive': 1, 'Neutral': 2, 'Negative': 0}

# Chuyển đổi cột 'Sentiment' sang số bằng cách sử dụng mapping
df['Sentiment'] = df['Sentiment'].map(label_mapping)

df

Unnamed: 0,Review,Sentiment,tokenized_text,emoji to text,emoji to text + stopwords
0,rất cơ bản.,1,rất cơ_bản .,rất cơ_bản .,cơ_bản
1,họ đã miễn phí thịt xông khói thịt lợn trong s...,2,họ đã miễn_phí thịt xông khói thịt lợn trong s...,họ đã miễn_phí thịt xông khói thịt lợn trong s...,miễn_phí thịt xông khói thịt lợn salad hồi_giá...
2,"trong mcdonalds, họ cho tóc ăn.",0,"trong mcdonalds , họ cho tóc ăn .","trong mcdonalds , họ cho tóc ăn .",mcdonalds tóc
3,khó đặt hàng,1,khó đặt_hàng,khó đặt_hàng,đặt_hàng
4,"đẳng cấp hơn các loại gà rán khác, cảm giác đa...",1,"đẳng_cấp hơn các loại gà rán khác , cảm_giác đ...","đẳng_cấp hơn các loại gà rán khác , cảm_giác đ...",đẳng_cấp gà rán mỹ vn 2200 đông ..
...,...,...,...,...,...
2373,buổi trưa ngồi bị hắt nắng,1,buổi trưa ngồi bị hắt nắng,buổi trưa ngồi bị hắt nắng,trưa hắt nắng
2374,tôi đặt hàng từ mcdonalds khá thường xuyên sử ...,2,tôi đặt_hàng từ mcdonalds khá thường_xuyên sử_...,tôi đặt_hàng từ mcdonalds khá thường_xuyên sử_...,đặt_hàng mcdonalds thường_xuyên sử_dụng ứng_dụ...
2375,ok... điểm hẹn lý tưởng cuối tuần cho các bé,1,ok ... điểm hẹn lý_tưởng cuối tuần cho các bé,ok ... điểm hẹn lý_tưởng cuối tuần cho các bé,ok ... hẹn lý_tưởng bé
2376,tuyệt vời khi đi bạn bè đông,1,tuyệt_vời khi đi bạn_bè đông,tuyệt_vời khi đi bạn_bè đông,tuyệt_vời bạn_bè đông


In [6]:
sentiment_counts = df['Sentiment'].value_counts()

print("Số lượng nhãn trong cột 'Sentiment':")
print(sentiment_counts)

Số lượng nhãn trong cột 'Sentiment':
Sentiment
1    1687
0     380
2     311
Name: count, dtype: int64


## Data Augmentation with Resampling

In [10]:
from sklearn.utils import resample

# Create DataFrames for each sentiment class
df_positive = df[df['Sentiment'] == 1]
df_negative = df[df['Sentiment'] == 0]
df_neutral = df[df['Sentiment'] == 2]

# Get size of the majority class
n_samples = len(df_positive)

df_positive.head()

Unnamed: 0,Review,Sentiment,tokenized_text,emoji to text,emoji to text + stopwords
0,rất cơ bản.,1,rất cơ_bản .,rất cơ_bản .,cơ_bản
3,khó đặt hàng,1,khó đặt_hàng,khó đặt_hàng,đặt_hàng
4,"đẳng cấp hơn các loại gà rán khác, cảm giác đa...",1,"đẳng_cấp hơn các loại gà rán khác , cảm_giác đ...","đẳng_cấp hơn các loại gà rán khác , cảm_giác đ...",đẳng_cấp gà rán mỹ vn 2200 đông ..
6,"ngay cả khi có một chút rào cản ngôn ngữ, chún...",1,"ngay cả khi có một_chút rào_cản ngôn_ngữ , chú...","ngay cả khi có một_chút rào_cản ngôn_ngữ , chú...",một_chút rào_cản ngôn_ngữ chúng_tôi có_thể dễ_...
9,thức ăn ngon,1,thức_ăn ngon,thức_ăn ngon,thức_ăn ngon


#### Upsampling

In [12]:
# Upsample minority classes to match majority class
df_negative_upsampled = resample(
    df_negative, 
    replace=True,
    n_samples=n_samples,
    random_state=42
)

df_neutral_upsampled = resample(
    df_neutral,
    replace=True,
    n_samples=n_samples,
    random_state=42
)

# Combine upsampled minority classes with majority class
df_upsampled = pd.concat([df_positive, df_negative_upsampled, df_neutral_upsampled])

# Check the distribution of the upsampled dataset
print("Class distribution after upsampling:")
print(df_upsampled['Sentiment'].value_counts())

# Save the upsampled dataset if needed
df_upsampled.to_csv(os.path.join(data_path, "upsampled/upsampled_user_reviews.csv"), index=False)

Class distribution after upsampling:
Sentiment
1    1687
0    1687
2    1687
Name: count, dtype: int64


In [14]:
df_negative_upsampled

Unnamed: 0,Review,Sentiment,tokenized_text,emoji to text,emoji to text + stopwords
467,quá nau,0,quá nau,quá nau,nau
2011,chúng tôi đã gọi xúc xích và muffin trứng chỉ ...,0,chúng_tôi đã gọi xúc_xích và muffin trứng chỉ ...,chúng_tôi đã gọi xúc_xích và muffin trứng chỉ ...,chúng_tôi gọi xúc_xích muffin trứng xúc_xích b...
1600,nhà vệ sinh rất bẩn và có mùi trong 8 năm qua....,0,nhà_vệ_sinh rất bẩn và có mùi trong 8 năm qua ...,nhà_vệ_sinh rất bẩn và có mùi trong 8 năm qua ...,nhà_vệ_sinh bẩn mùi 8 mcdonald đầu_tiên việt_n...
503,không có kiến thức tiếng anh,0,không có kiến_thức tiếng_anh,không có kiến_thức tiếng_anh,kiến_thức tiếng_anh
315,rất tệ .... mở lúc 7 giờ sáng không có gì sẵn ...,0,rất tệ .... mở lúc 7 giờ sáng không có gì sẵn_...,rất tệ .... mở lúc 7 giờ sáng không có gì sẵn_...,tệ .... 7 sẵn_sàng ... thay_đổi người_quản_lý ...
...,...,...,...,...,...
1825,hình ảnh kể một ngàn từ sẽ không bao giờ trở lại.,0,hình_ảnh kể một_ngàn từ sẽ không bao_giờ trở_l...,hình_ảnh kể một_ngàn từ sẽ không bao_giờ trở_l...,hình_ảnh một_ngàn bao_giờ trở_lại
1041,hoàn toàn không có tổ chức cá nhân bị mất tron...,0,hoàn_toàn không có tổ_chức cá_nhân bị mất tron...,hoàn_toàn không có tổ_chức cá_nhân bị mất tron...,hoàn_toàn tổ_chức cá_nhân thời_gian cao_điểm t...
1674,quán mở cửa 247 tới đây quán đóng cửa mà trong...,0,quán mở_cửa 247 tới đây quán đóng_cửa mà trong...,quán mở_cửa 247 tới đây quán đóng_cửa mà trong...,quán mở_cửa 247 quán đóng_cửa google ghi mở_cửa
341,dịch vụ khủng khiếp,0,dịch_vụ khủng_khiếp,dịch_vụ khủng_khiếp,dịch_vụ khủng_khiếp


### Downsampling

In [16]:
# Size of the minority classes
len(df_negative), len(df_neutral)

(380, 311)

In [17]:
# Downsample the majority class to match the minority class
min_samples = min(len(df_negative), len(df_neutral)) 

df_positive_downsampled = resample(
    df_positive,
    replace=False,
    n_samples=min_samples,
    random_state=42
)

df_negative_downsampled = resample(
    df_negative,
    replace=False,
    n_samples=min_samples,
    random_state=42
)


# Combine downsampled majority classes with minority class
df_downsampled = pd.concat([df_positive_downsampled, df_neutral, df_negative_downsampled])

# Check the distribution of the downsampled dataset
print("Class distribution after downsampling:")
print(df_downsampled['Sentiment'].value_counts())

# Save the downsampled dataset if needed
df_downsampled.to_csv(os.path.join(data_path, "downsampled/downsampled_user_reviews.csv"), index=False)


Class distribution after downsampling:
Sentiment
1    311
2    311
0    311
Name: count, dtype: int64


In [18]:
df_downsampled.head()

Unnamed: 0,Review,Sentiment,tokenized_text,emoji to text,emoji to text + stopwords
499,khá đắt nhưng rất ngon,1,khá đắt nhưng rất ngon,khá đắt nhưng rất ngon,đắt ngon
2241,"thoáng mát, rộng rãi",1,"thoáng mát , rộng_rãi","thoáng mát , rộng_rãi",thoáng mát rộng_rãi
316,tuyệt vời,1,tuyệt_vời,tuyệt_vời,tuyệt_vời
958,nơi tốt để đi chơi,1,nơi tốt để đi chơi,nơi tốt để đi chơi,
776,tôi chỉ ăn mì gạo và hamburger,1,tôi chỉ ăn mì gạo và hamburger,tôi chỉ ăn mì gạo và hamburger,mì gạo hamburger
