### Làm Sạch Dữ Liệu

In [39]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import warnings
import re
from helper.text_helper import *
warnings.filterwarnings("ignore")

#### Với tập dữ liệu cho sẵn

In [40]:
# Đọc dữ liệu từ tập dữ liệu cho sẵn
data_dc_cung_cap = pd.read_csv('data/csv/Danh_gia.csv')
print(data_dc_cung_cap.shape)
data_dc_cung_cap.head()

(21575, 7)


Unnamed: 0,id,ma_khach_hang,noi_dung_binh_luan,ngay_binh_luan,gio_binh_luan,so_sao,ma_san_pham
0,1,443,"SỬ DỤNG DỄ DÀNG, RẤT THOẢI MÁI, THƯ GIÃN TỘT ĐỘ.",29/04/2023,17:06,5,308500015
1,2,1030,"Sử dụng dễ dãng,rất thoải mái,thư giãn tột độ",30/04/2023,15:04,5,308500015
2,3,689,Mình rất thích hasaki va sp tẩy trang này,30/04/2023,18:34,5,422216594
3,4,2519,Sản phẩm có khả năng làm sạch tốt. Lớp trang đ...,17/07/2022,13:48,5,204100075
4,5,402,"Sữa rửa mặt tốt,sạch mụn,mịn da,đáng mua nha",15/04/2023,23:04,5,422208977


In [41]:
# Kiểm tra số dữ liệu null và trùng
print(f'Số dữ liệu null: {data_dc_cung_cap.isna().values.sum()}')
print(f'Số dữ liệu trùng: {data_dc_cung_cap.duplicated().values.sum()}')

Số dữ liệu null: 901
Số dữ liệu trùng: 0


In [42]:
# Xử lý dấu phẩy và dấu chấm trong trường hợp không có khoảng trống
data_dc_cung_cap['noi_dung_binh_luan'] = data_dc_cung_cap['noi_dung_binh_luan'].str.replace(',', ' ').replace('.', ' ')

In [43]:
# Loại bỏ khoảng trắng thừa và xử lý giá trị NaN
data_dc_cung_cap['noi_dung_binh_luan'] = data_dc_cung_cap['noi_dung_binh_luan'].str.strip().fillna('')

In [44]:
# Loại bỏ các ký tự đặc biệt
data_dc_cung_cap['noi_dung_binh_luan'] = data_dc_cung_cap['noi_dung_binh_luan'].apply(lambda x: re.sub(r'[^\w\s]', '', x))

In [45]:
# Chuyển đổi sang kiểu số, gán NaN cho các giá trị không hợp lệ
data_dc_cung_cap['so_sao'] = pd.to_numeric(data_dc_cung_cap['so_sao'], errors='coerce')

In [46]:
# Loại bỏ các giá trị NaN hoặc gán giá trị mặc định
data_dc_cung_cap['so_sao'] = data_dc_cung_cap['so_sao'].fillna(0).astype(int)

In [47]:
# Giới hạn giá trị sao từ 1 đến 5
data_dc_cung_cap = data_dc_cung_cap[(data_dc_cung_cap['so_sao'] >= 1) & (data_dc_cung_cap['so_sao'] <= 5)]

In [48]:
# Loại bỏ các dòng trống hoặc bị lỗi
data_dc_cung_cap = data_dc_cung_cap[data_dc_cung_cap['noi_dung_binh_luan'] != '']

In [49]:
cot_can_loai_bo_trung = ['noi_dung_binh_luan', 'ngay_binh_luan', 'gio_binh_luan', 'so_sao', 'ma_san_pham']

In [50]:
# Loại bỏ bình luận trùng (nếu có)
data_dc_cung_cap = data_dc_cung_cap.drop_duplicates(subset=cot_can_loai_bo_trung, keep='first')

In [51]:
# Bỏ dữ liệu NaN
data_dc_cung_cap.isna().values.any()

False

In [52]:
# => Quyết định bỏ các bình luận trùng để quá trình huấn luyện tốt hơn cũng như tránh các trường hợp bình luận ảo
data_dc_cung_cap.duplicated().values.any()

False

In [53]:
print(data_dc_cung_cap.shape)
data_dc_cung_cap.head()

(20630, 7)


Unnamed: 0,id,ma_khach_hang,noi_dung_binh_luan,ngay_binh_luan,gio_binh_luan,so_sao,ma_san_pham
0,1,443,SỬ DỤNG DỄ DÀNG RẤT THOẢI MÁI THƯ GIÃN TỘT ĐỘ,29/04/2023,17:06,5,308500015
1,2,1030,Sử dụng dễ dãng rất thoải mái thư giãn tột độ,30/04/2023,15:04,5,308500015
2,3,689,Mình rất thích hasaki va sp tẩy trang này,30/04/2023,18:34,5,422216594
3,4,2519,Sản phẩm có khả năng làm sạch tốt Lớp trang đi...,17/07/2022,13:48,5,204100075
4,5,402,Sữa rửa mặt tốt sạch mụn mịn da đáng mua nha,15/04/2023,23:04,5,422208977


#### Với tập dữ liệu cào từ website

In [54]:
# Lặp lại các bước xử lý cho dữ liệu được cào từ website
# Đọc dữ liệu từ tập dữ liệu cào từ web
data_tu_cao_dieu_lieu = pd.read_csv('data/csv/Danh_gia_tu_cao_du_lieu.csv')
print(data_tu_cao_dieu_lieu.shape)
data_tu_cao_dieu_lieu.head()

(9540, 7)


Unnamed: 0,id,ma_khach_hang,noi_dung_binh_luan,ngay_binh_luan,gio_binh_luan,so_sao,ma_san_pham
0,1,customer_code 1,"Đi spa được bạn NV chỉ cho dùng hãng này, xài ...",23/05/2024,13: 46,5,242300001
1,2,customer_code 2,Không có gì để chê được hết. Phải biết sớm là ...,16/05/2024,18: 52,5,242300001
2,3,customer_code 3,sản phẩm tốt hiệu quả cao không còn mùi hôi kh...,05/04/2024,17: 59,5,242300001
3,4,customer_code 4,"lăn xài hiệu quả, có chút mùi cồn dùng đặc trị...",18/11/2023,11: 36,4,242300001
4,5,customer_code 5,,05/11/2023,13: 43,4,242300001


In [55]:
# Xử lý dấu phẩy và dấu chấm trong trường hợp không có khoảng trống
data_tu_cao_dieu_lieu['noi_dung_binh_luan'] = data_tu_cao_dieu_lieu['noi_dung_binh_luan'].str.replace(',', ' ').replace('.', ' ')

In [56]:
# Loại bỏ khoảng trắng thừa và xử lý giá trị NaN
data_tu_cao_dieu_lieu['noi_dung_binh_luan'] = data_tu_cao_dieu_lieu['noi_dung_binh_luan'].str.strip().fillna('')

In [57]:
# Loại bỏ các ký tự đặc biệt
data_tu_cao_dieu_lieu['noi_dung_binh_luan'] = data_tu_cao_dieu_lieu['noi_dung_binh_luan'].apply(lambda x: re.sub(r'[^\w\s]', '', x))

In [58]:
# Chuyển đổi sang kiểu số, gán NaN cho các giá trị không hợp lệ
data_tu_cao_dieu_lieu['so_sao'] = pd.to_numeric(data_tu_cao_dieu_lieu['so_sao'], errors='coerce')

In [59]:
# Loại bỏ các giá trị NaN hoặc gán giá trị mặc định
data_tu_cao_dieu_lieu['so_sao'] = data_tu_cao_dieu_lieu['so_sao'].fillna(0).astype(int)

In [60]:
# Loại bỏ bình luận trùng (nếu có)
data_tu_cao_dieu_lieu = data_tu_cao_dieu_lieu.drop_duplicates(subset=cot_can_loai_bo_trung, keep='first')

In [61]:
# Loại bỏ dữ liệu NaN
data_tu_cao_dieu_lieu.isna().values.any()

False

In [62]:
# Kiểm dữ liệu trùng lặp
data_tu_cao_dieu_lieu.duplicated().values.any()

False

In [63]:
print(data_tu_cao_dieu_lieu.shape)
data_tu_cao_dieu_lieu.tail()

(2090, 7)


Unnamed: 0,id,ma_khach_hang,noi_dung_binh_luan,ngay_binh_luan,gio_binh_luan,so_sao,ma_san_pham
9515,9516,customer_code 9516,Chỉ thoảng mùi cà phê hạt scrub khá to và dín...,30/07/2022,22: 04,3,422205970
9516,9517,customer_code 9517,hạt khá là to không như hãng khác,28/07/2022,10: 27,4,422205970
9517,9518,customer_code 9518,tẩy tbc hạt to lắm xoa tầm 67p là tan gần hết...,25/07/2022,13: 08,3,422205970
9518,9519,customer_code 9519,Hạt đường to làm rát da sau khi tắm da cũng c...,20/07/2022,15: 30,1,422205970
9519,9520,customer_code 9520,mới mua tặng vợ vợ xài kêu thích lắm nên chắc...,20/07/2022,15: 05,5,422205970


#### Merge 2 tập dữ liệu

In [64]:
data =  pd.concat([data_dc_cung_cap, data_tu_cao_dieu_lieu], ignore_index=True)
print(data.shape)
data.head()

(22720, 7)


Unnamed: 0,id,ma_khach_hang,noi_dung_binh_luan,ngay_binh_luan,gio_binh_luan,so_sao,ma_san_pham
0,1,443,SỬ DỤNG DỄ DÀNG RẤT THOẢI MÁI THƯ GIÃN TỘT ĐỘ,29/04/2023,17:06,5,308500015
1,2,1030,Sử dụng dễ dãng rất thoải mái thư giãn tột độ,30/04/2023,15:04,5,308500015
2,3,689,Mình rất thích hasaki va sp tẩy trang này,30/04/2023,18:34,5,422216594
3,4,2519,Sản phẩm có khả năng làm sạch tốt Lớp trang đi...,17/07/2022,13:48,5,204100075
4,5,402,Sữa rửa mặt tốt sạch mụn mịn da đáng mua nha,15/04/2023,23:04,5,422208977


#### Xử lý dữ liệu tiếng Việt

In [65]:
# Lấy giá dict cho emoji, teencode, wrong words và stop words
emoji_dict, teen_dict, wrong_lst, stopwords_lst = load_raw_files()

In [66]:
# data['noi_dung_binh_luan_sau_xu_ly'] = data['noi_dung_binh_luan'].apply(correct_text)

In [67]:
data['noi_dung_binh_luan_sau_xu_ly'] = data['noi_dung_binh_luan'].apply(
    lambda x: process_text(x, emoji_dict, teen_dict, wrong_lst)
)

In [68]:
data['noi_dung_binh_luan_sau_xu_ly'] = data['noi_dung_binh_luan_sau_xu_ly'].apply(
    lambda x: covert_unicode(x)
)

In [69]:
data['noi_dung_binh_luan_sau_xu_ly'] = data['noi_dung_binh_luan_sau_xu_ly'].apply(
    lambda x: process_special_word(x)
)

In [70]:
data['noi_dung_binh_luan_sau_xu_ly'] = data['noi_dung_binh_luan_sau_xu_ly'].apply(
    lambda x: normalize_repeated_characters(x)
)

In [71]:
data['noi_dung_binh_luan_sau_xu_ly'] = data['noi_dung_binh_luan_sau_xu_ly'].apply(
    lambda x: process_postag_thesea(x)
)

In [72]:
data['noi_dung_binh_luan_sau_xu_ly'] = data['noi_dung_binh_luan_sau_xu_ly'].apply(
    lambda x: remove_stopword(x, stopwords_lst)
)

In [73]:
data.head(20)

Unnamed: 0,id,ma_khach_hang,noi_dung_binh_luan,ngay_binh_luan,gio_binh_luan,so_sao,ma_san_pham,noi_dung_binh_luan_sau_xu_ly
0,1,443,SỬ DỤNG DỄ DÀNG RẤT THOẢI MÁI THƯ GIÃN TỘT ĐỘ,29/04/2023,17:06,5,308500015,dễ_dàng thoải_mái thư_giãn
1,2,1030,Sử dụng dễ dãng rất thoải mái thư giãn tột độ,30/04/2023,15:04,5,308500015,dãng thoải_mái thư_giãn
2,3,689,Mình rất thích hasaki va sp tẩy trang này,30/04/2023,18:34,5,422216594,thích tẩy_trang
3,4,2519,Sản phẩm có khả năng làm sạch tốt Lớp trang đi...,17/07/2022,13:48,5,204100075,khả_năng sạch tốt lớp trang_điểm mắt môi_chóng...
4,5,402,Sữa rửa mặt tốt sạch mụn mịn da đáng mua nha,15/04/2023,23:04,5,422208977,sữa rửa mặt tốt sạch mụn mịn
5,7,2517,Sau 77 49 dòng srm thì chân ái là đây mua tu...,25/12/2022,17:11,5,204100019,dòng sửa rửa mặt chân_ái tuyp thử ok nhờn khô_...
6,8,1750,Đó giờ mình sài bha của obagi cũng 34 chai rồi...,9/7/2022,4:34,5,100220035,sài bha obagi đổi thử_sài plc hàng kèm quà tặn...
7,9,3394,Rất ok mình xài 2 chai rồi,7/7/2022,11:18,5,204100024,ok xài
8,10,1817,Mik bị kich ứng không hợp sản phẩm sd được 3...,5/2/2024,3:50,4,422216354,ứng_không_hợp
9,11,3556,nhân viên tư vấn như mới train và được nhận vì...,12/9/2023,22:33,5,100250032,tư_vấn train đẹp thôi_át dán mụn trả_lời tè_ra...


#### Ghi dữ liệu đã tiền xử lý ra file

In [74]:
data.shape

(22720, 8)

In [75]:
# Ghi DataFrame đã gộp vào file CSV
data.to_csv('data/csv/Danh_gia_final.csv', index=False)

In [38]:
# Thu được khoảng 23k dòng dữ liệu => khá thành công 😊