---

# Data_preparation

---
In this notebook, we will perform data preparation for the sentiment analysis task. The data preparation process includes:
- Lower casing all text
- Replacing English words with Vietnamese words (Not translate)
- Replace all emojis with their meanings in Vietnamese
- Exchange all Vietnamese teencode
- Remove all weird characters
- Correct all wrong words by using Seq2Seq model
- Tokenize all text using Underthesea
- Remove all stopwords
- Remove all punctuation or special characters
- Save the preprocessed data to a new csv file
- Save the ready data to a new csv file

In [1]:
from modules.data_preprocessing import DataPreprocessing
from modules.sentiment_analysis import SentimentAnalysis

---

## Data Preprocessing

---

This step is to preprocess the data before performing the data preparation step. The data preprocessing process includes:
- Load the data
- Renaming the columns. For example, 'ID' to 'IDRestaurant', 'Time' to 'ReviewTime'
- Handling mis-aligned ID in the dataset
- Merge the two datasets
- Handle time format
- Handle price range
- Drop NA values
- Remove comments with less than 10 characters
- Remove duplicate comments
- Save the preprocessed data to a new csv file for later use

In [2]:
data_preprocessing = DataPreprocessing(
	data_path_1='data/1_Restaurants.csv',
	data_path_2='data/2_Reviews.csv',
	preprocessed_data_path='data/preprocessed_data.csv',
	ready_data_path='data/ready_data.csv'
)

In [3]:
df = data_preprocessing.preprocess_data_shopee_food()
df

Unnamed: 0,ID,User,ReviewTime,Rating,Comment,IDRestaurant,Restaurant,Address,OpeningTime,District,ReviewCount,ClosingTime,MaxPrice,MinPrice
0,1,PHAN LE,2023-12-20 21:13:00,5.2,"Gà chiên còn sống, rất tanh. Khủng khiép",1,Gà Rán & Burger McDonald's Đa Kao,"2 - 6 Bis Điện Biên Phủ, Quận 1, TP. HCM",00:00,Quận 1,100,23:59,200000.0,50000.0
1,2,Thúy,2023-09-25 15:43:00,5.0,"Đã ăn qua rồi, ăn ok ạ",1,Gà Rán & Burger McDonald's Đa Kao,"2 - 6 Bis Điện Biên Phủ, Quận 1, TP. HCM",00:00,Quận 1,100,23:59,200000.0,50000.0
2,3,Quyên Quyên,2023-06-24 11:11:00,5.0,Đã thư rất ngon,1,Gà Rán & Burger McDonald's Đa Kao,"2 - 6 Bis Điện Biên Phủ, Quận 1, TP. HCM",00:00,Quận 1,100,23:59,200000.0,50000.0
3,4,Phương Thảo,2022-12-22 14:58:00,1.0,Tệ .. mua mang về cho 1 gói tương ớt. Và xin t...,1,Gà Rán & Burger McDonald's Đa Kao,"2 - 6 Bis Điện Biên Phủ, Quận 1, TP. HCM",00:00,Quận 1,100,23:59,200000.0,50000.0
4,5,Quỳnh Nguyễn,2022-09-23 22:40:00,4.2,"21h30...2 đứa nhỏ kêu đói, sau 1 hồi bình loạn...",1,Gà Rán & Burger McDonald's Đa Kao,"2 - 6 Bis Điện Biên Phủ, Quận 1, TP. HCM",00:00,Quận 1,100,23:59,200000.0,50000.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29954,29955,Trannuhamy,2020-10-26 12:16:00,7.0,Đặt quán bún thái này trong chương trình của c...,1595,Tiên Tiên - Bún Thái Cay - Tân Chánh Hiệp 16,"52/4A Tân Chánh Hiệp 16, P. Tân Chánh Hiệp (Đầ...",06:00,Quận 12,1,23:30,200000.0,25000.0
29955,29956,Phương,2021-06-01 15:34:00,10.0,"Bánh ngon, nóng.\nGiao hàng nhanh.\nGiá phải c...",1609,"3 Râu - Gà Rán, Pizza & Trà Sữa - 107 Nguyễn V...","107 Nguyễn Văn Quá, P. Đông Hưng Thuận, Quận 1...",09:00,Quận 12,3,23:59,120000.0,12000.0
29956,29957,Tú,2021-01-31 14:29:00,3.4,Phục vụ quá tệ\nPizza xúc xích double phô mai ...,1609,"3 Râu - Gà Rán, Pizza & Trà Sữa - 107 Nguyễn V...","107 Nguyễn Văn Quá, P. Đông Hưng Thuận, Quận 1...",09:00,Quận 12,3,23:59,120000.0,12000.0
29957,29958,Hoàng Hậu Mai,2020-10-27 18:06:00,7.6,Đang thèm gà rán thì lướt trúng ngay combo gà ...,1609,"3 Râu - Gà Rán, Pizza & Trà Sữa - 107 Nguyễn V...","107 Nguyễn Văn Quá, P. Đông Hưng Thuận, Quận 1...",09:00,Quận 12,3,23:59,120000.0,12000.0


---

## Data Preparation

---

In [4]:
df = data_preprocessing.data_preparation()
df

Replacing English words in the 'Comment' column...


100%|██████████| 28673/28673 [00:00<00:00, 106604.38it/s]


Replacing emojis in the 'Comment' column...


100%|██████████| 28673/28673 [00:16<00:00, 1744.29it/s]


Replacing teencode in the 'Comment' column...


100%|██████████| 28673/28673 [00:00<00:00, 114886.48it/s]


Removing weird characters from the 'Comment' column...


100%|██████████| 28673/28673 [00:00<00:00, 247250.79it/s]


Correcting wrong words in the 'Comment' column...


  return torch.LongTensor(src_text).to(self.device)
  3%|▎         | 949/28673 [00:25<08:27, 54.68it/s]

paragraph cannot be processed: 11722990944013
It will be dropped. Error: max() arg is an empty sequence


  6%|▌         | 1748/28673 [00:45<09:09, 49.00it/s]

paragraph cannot be processed: 11722990944013
It will be dropped. Error: max() arg is an empty sequence


 10%|▉         | 2801/28673 [01:14<10:29, 41.09it/s]

paragraph cannot be processed: bunmoc55000d50000d
It will be dropped. Error: max() arg is an empty sequence


 11%|█▏        | 3237/28673 [01:26<10:34, 40.07it/s]

paragraph cannot be processed: bezttttttttttttt
It will be dropped. Error: max() arg is an empty sequence


 13%|█▎        | 3730/28673 [01:39<10:32, 39.46it/s]

paragraph cannot be processed: cvbanjwkkwkwkkwkwjnenenekkekkekqkjwnnwjwkkwjnenennejkekekekjenebbdbbdbdndjf
It will be dropped. Error: max() arg is an empty sequence


 14%|█▍        | 4059/28673 [01:48<10:11, 40.28it/s]

paragraph cannot be processed: 
It will be dropped. Error: max() arg is an empty sequence


 15%|█▍        | 4185/28673 [01:51<09:40, 42.17it/s]

paragraph cannot be processed: httpstiemkeotuoithocom
It will be dropped. Error: max() arg is an empty sequence


 15%|█▍        | 4258/28673 [01:53<10:04, 40.39it/s]

paragraph cannot be processed: 
It will be dropped. Error: max() arg is an empty sequence


 20%|██        | 5783/28673 [02:34<11:00, 34.63it/s]

paragraph cannot be processed: httpslaodongvnxahoitphcmquancomtamnoitienghon10nambiphathiensudungnguyenlieula626556ldo
It will be dropped. Error: max() arg is an empty sequence


 28%|██▊       | 7998/28673 [03:36<09:07, 37.79it/s]

paragraph cannot be processed: 
It will be dropped. Error: max() arg is an empty sequence


 28%|██▊       | 8117/28673 [03:39<09:56, 34.47it/s]

paragraph cannot be processed:                     
It will be dropped. Error: max() arg is an empty sequence


 29%|██▉       | 8409/28673 [03:48<09:12, 36.68it/s]

paragraph cannot be processed:  
It will be dropped. Error: max() arg is an empty sequence


 49%|████▉     | 14002/28673 [06:22<06:14, 39.19it/s]

paragraph cannot be processed: httpsdressskirtclick
It will be dropped. Error: max() arg is an empty sequence


 52%|█████▏    | 14835/28673 [06:44<06:06, 37.72it/s]

paragraph cannot be processed: 
It will be dropped. Error: max() arg is an empty sequence


 62%|██████▏   | 17705/28673 [08:03<03:55, 46.62it/s]

paragraph cannot be processed: 11722990944013
It will be dropped. Error: max() arg is an empty sequence


 62%|██████▏   | 17760/28673 [08:04<04:15, 42.65it/s]

paragraph cannot be processed: uchisushisushiq4
It will be dropped. Error: max() arg is an empty sequence


 65%|██████▍   | 18548/28673 [08:26<04:00, 42.03it/s]

paragraph cannot be processed:     
It will be dropped. Error: max() arg is an empty sequence


 81%|████████  | 23180/28673 [10:31<02:09, 42.57it/s]

paragraph cannot be processed: httpsappfoodyy9er3kyotab
It will be dropped. Error: max() arg is an empty sequence


 85%|████████▍ | 24314/28673 [11:02<01:42, 42.57it/s]

paragraph cannot be processed: ngonnnnnnnnnnnnnnnnn
It will be dropped. Error: max() arg is an empty sequence


100%|██████████| 28673/28673 [12:59<00:00, 36.78it/s]


Tokenizing the 'Comment' column...


100%|██████████| 28654/28654 [01:04<00:00, 442.74it/s]


Removing stopwords from the 'Comment' column...


100%|██████████| 28654/28654 [00:12<00:00, 2367.68it/s]


Removing punctuation from the 'Comment' column...


100%|██████████| 28654/28654 [00:00<00:00, 553583.76it/s]


Vietnamese text column handled successfully.


Unnamed: 0,ID,User,ReviewTime,Rating,Comment,IDRestaurant,Restaurant,Address,OpeningTime,District,ReviewCount,ClosingTime,MaxPrice,MinPrice
0,1,PHAN LE,2023-12-20 21:13:00,5.2,gà chiên sống khủng_khiếp,1,Gà Rán & Burger McDonald's Đa Kao,"2 - 6 Bis Điện Biên Phủ, Quận 1, TP. HCM",00:00,Quận 1,100,23:59,200000.0,50000.0
1,2,Thúy,2023-09-25 15:43:00,5.0,ăn_quả ăn_ok,1,Gà Rán & Burger McDonald's Đa Kao,"2 - 6 Bis Điện Biên Phủ, Quận 1, TP. HCM",00:00,Quận 1,100,23:59,200000.0,50000.0
2,3,Quyên Quyên,2023-06-24 11:11:00,5.0,thử ngon,1,Gà Rán & Burger McDonald's Đa Kao,"2 - 6 Bis Điện Biên Phủ, Quận 1, TP. HCM",00:00,Quận 1,100,23:59,200000.0,50000.0
3,4,Phương Thảo,2022-12-22 14:58:00,1.0,tệ mua 1 gói tương_ớt không tương_free mua mua...,1,Gà Rán & Burger McDonald's Đa Kao,"2 - 6 Bis Điện Biên Phủ, Quận 1, TP. HCM",00:00,Quận 1,100,23:59,200000.0,50000.0
4,5,Quỳnh Nguyễn,2022-09-23 22:40:00,4.2,21 h302 đứa kêu đói 1 hồi bình_loạn chốt mcdon...,1,Gà Rán & Burger McDonald's Đa Kao,"2 - 6 Bis Điện Biên Phủ, Quận 1, TP. HCM",00:00,Quận 1,100,23:59,200000.0,50000.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
28649,29955,Trannuhamy,2020-10-26 12:16:00,7.0,quán bún_thái chương_trình coca ổn đi kèm 1 gh...,1595,Tiên Tiên - Bún Thái Cay - Tân Chánh Hiệp 16,"52/4A Tân Chánh Hiệp 16, P. Tân Chánh Hiệp (Đầ...",06:00,Quận 12,1,23:30,200000.0,25000.0
28650,29956,Phương,2021-06-01 15:34:00,10.0,bánh ngon nóng giao hàng giá,1609,"3 Râu - Gà Rán, Pizza & Trà Sữa - 107 Nguyễn V...","107 Nguyễn Văn Quá, P. Đông Hưng Thuận, Quận 1...",09:00,Quận 12,3,23:59,120000.0,12000.0
28651,29957,Tú,2021-01-31 14:29:00,3.4,phục_vụ tệ pizza_xúc xích gấp đôi phô mái khôn...,1609,"3 Râu - Gà Rán, Pizza & Trà Sữa - 107 Nguyễn V...","107 Nguyễn Văn Quá, P. Đông Hưng Thuận, Quận 1...",09:00,Quận 12,3,23:59,120000.0,12000.0
28652,29958,Hoàng Hậu Mai,2020-10-27 18:06:00,7.6,thèm gà rán lướt trúng kết_hợp gà rán khoai_tâ...,1609,"3 Râu - Gà Rán, Pizza & Trà Sữa - 107 Nguyễn V...","107 Nguyễn Văn Quá, P. Đông Hưng Thuận, Quận 1...",09:00,Quận 12,3,23:59,120000.0,12000.0


In [5]:
df['Comment'].tolist()

['gà chiên sống khủng_khiếp',
 'ăn_quả ăn_ok',
 'thử ngon',
 'tệ mua 1 gói tương_ớt không tương_free mua mua tương 3 món 1 gói nviên không linh_hoạt_chuỗi thừa tiệm',
 '21 h302 đứa kêu đói 1 hồi bình_loạn chốt mcdonal háo_hức 2 đứa khen_ngợi khen_ngợi nỡ_lòng lượt thế_này mặt khóc tô_mặt khóc to_mặt khóc to_cơm sống toàn_tập cơm nhai gạo_ức không nổi_mặt hơi_nước mũi mặt hơi_nước mũi mặt hơi_nước mũi',
 'khuyến_mại mua 1 tặng 1 trà kem sữa uống ok đồ_ăn',
 'thể lắm t tức_giận thế_này t quảng_cáo mua 2 vui_mừng bữa minion háo_hức giao hàng 2 truyện 2 truyện t truyện cỏ khô chú_ý minion không báo hủy đơn giùm hành_động không tôn_trọng khách_hàng bấm hủy_đơn không bị ảnh_hưởng vận_hành ứng_dụng uu không kệ đồ_chơi kề tiền tiền tao không 1 xứng_đáng đêm_hôm lừa_đảo bực_mình',
 'đầu 4 p thử vị thần_thánh musttry đ đồ_ăn 4 p hơi kén đầu không ngon_miệng dập tắt nghiện mặt rạng_rỡ mắt cười kim_bấm tròn 8 p bến thành q1 đồng_hồ báo_thức 1100 am 0000 am_anuongsaigon pizza4ps pizza',
 'đất giao 

In [8]:
df.isna().sum()

ID                  0
User                0
ReviewTime          0
Rating              0
Comment             0
IDRestaurant        0
Restaurant          0
Address             0
OpeningTime     17970
District            0
ReviewCount         0
ClosingTime     17970
MaxPrice            0
MinPrice            0
dtype: int64