In [2]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

# Đọc dữ liệu từ file
reviews_df = pd.read_csv("../02.Dataset/labeled/reviews.csv", encoding="utf-8")

# Xử lý giá trị thiếu nếu có
reviews_df["Comment"] = reviews_df["Comment"].fillna("").astype(str)

# Sử dụng CountVectorizer để đếm bigram
vectorizer = CountVectorizer(ngram_range=(2, 2))  # 2-gram
X = vectorizer.fit_transform(reviews_df["Comment"])

# Tính tổng số lần xuất hiện của từng bigram
sum_words = X.sum(axis=0)

# Tạo danh sách các bigram và tần suất
words_freq = [(word, sum_words[0, idx]) for word, idx in vectorizer.vocabulary_.items()]
sorted_ngrams = sorted(words_freq, key=lambda x: x[1], reverse=True)

# Tạo DataFrame từ kết quả
top_30_df = pd.DataFrame(sorted_ngrams[:30], columns=["Bigram", "Frequency"])

# In ra màn hình
print("Top 30 cụm từ xuất hiện nhiều nhất:")
print(top_30_df)

# Ghi vào file CSV
top_30_df.to_csv("top_30_bigrams.csv", index=False, encoding="utf-8-sig")

Top 30 cụm từ xuất hiện nhiều nhất:
        Bigram  Frequency
0     đóng gói        700
1    giao hàng        656
2     nội dung        580
3      sách bị        419
4    cuốn sách        321
5    thất vọng        319
6   hàng nhanh        314
7     không có        313
8     cẩn thận        271
9   chất lượng        258
10    sách đẹp        239
11    sản phẩm        211
12   nhận được        204
13   chống sốc        196
14    gói hàng        194
15      bị móp        189
16    sách hay        186
17    đánh giá        183
18  vận chuyển        180
19  quyển sách        169
20  sách không        167
21      có thể        157
22    bìa sách        145
23     thật sự        144
24   tiki giao        143
25     tác giả        142
26  giao nhanh        141
27    hài lòng        137
28    mua sách        134
29    sách thì        132


In [None]:
Phrase,Normalized
giao hàng,giao_hàng
giao hành,giao_hàng
đóng gói,đóng_gói
bao bọc,bao_bọc
cẩn thận,cẩn_thận
chuyển phát,chuyển_phát
nhân viên,nhân_viên
dịch vụ,dịch_vụ
đặt hàng,đặt_hàng
đơn hàng,đơn_hàng
chống sốc,chống_sốc
bán hàng,bán_hàng
mẹ bỉm sữa,mẹ_bỉm_sữa
giấy in,giấy_in
mực in,mực_in
bọc kĩ,bọc_kĩ
nhanh chóng,nhanh_chóng
giao chậm,giao_chậm
sách mới,sách_mới
sách hay,sách_hay
sách dở,sách_dở
quyển sách,quyển_sách
bìa sách,bìa_sách
bìa cứng,bìa_cứng
sách dày,sách_dày
truyện ngắn,truyện_ngắn
mẫu chuyện ngắn,mẫu_chuyện_ngắn
tiểu thuyết,tiểu_thuyết
sách thiếu nhi,sách_thiếu_nhi
sách kỹ năng,sách_kỹ_năng
sách giáo khoa,sách_giáo_khoa
truyện tranh,truyện_tranh
nội dung,nội_dung
bản dịch,bản_dịch
kiến thức,kiến_thức
bài học,bài_học
tư duy,tư_duy
văn phong,văn_phong
lối sống,lối_sống
trang sách,trang_sách
trang giấy,trang_giấy
mấy trang,mấy_trang
sách rất dày,sách_dày
sách đẹp,sách_đẹp
truyện hay,truyện_hay
mùa dịch,mùa_dịch
nhỏ nhỏ,nhỏ_nhỏ
lối viết,lối_viết
móp méo,móp_méo
giá rẻ,giá_rẻ
hài lòng,hài_lòng
lịch sự,lịch_sự
chỉnh chu,chỉnh_chu
bọc sách,bọc_sách
vận chuyển,vận_chuyển
sơ xài,sơ_xài
trải nghiệm,trải_nghiệm
góc nhìn,góc_nhìn
thời gian,thời_gian
từ lâu,từ_lâu
người mới,người_mới
trong đời,trong_đời
rụng ra,rụng_ra
thấm nước,thấm_nước
sản phẩm,sản_phẩm
giá cả,giá_cả
chất lượng,chất_lượng
đúng mô tả,đúng_mô_tả
dễ hiểu,dễ_hiểu
dể hiểu,dễ_hiểu
dễ đọc,dễ_đọc
dể đọc,dễ_đọc
gần gũi,gần_gũi
gần gủi,gần_gũi
sắc nét,sắc_nét
tạm ổn,tạm_ổn
must have,must_have
liền mạch,liền_mạch
giao nhầm,giao_nhầm
cần thận,cần_thận
tuyệt vời,tuyệt_vời
tuyệt vời ông mặt trời,tuyệt_vời
hài lòng,hài_lòng
xuất sắc,xuất_sắc
thất vọng,thất_vọng
phí tiền,phí_tiền
phí thời gian,phí_thời_gian
khó đọc,khó_đọc
sai chính tả,sai_chính_tả
good job,tuyệt_vời
toẹt vời,tuyệt_vời
tuyet voi,tuyệt_vời
toẹt zời,tuyệt_vời
gói hàng,gói_hàng
hộp đựng,hộp_đựng
chống sóc,chống_sóc
sách rách,sách_rách
sách bẩn,sách_bẩn
bìa bẩn,bìa_bẩn
nhã nam,nhã_nam
nát bét,nát_bét
cực hay,hay
bị dính,bị_dính
sách nhỏ,sách_nhỏ
thẳng hàng,thẳng_hàng
sách in,sách_in
xoay đi,xoay_đi
xoay lại,xoay_lại
nên đọc,nên_đọc
100 điểm,100_điểm
trên mạng,trên_mạng
thôi dồi lun,dở
bé bé,bé_bé
cuốn sách,cuốn_sách
nhận hàng,nhận_hàng
chẳng có,chẳng_có
giao nhanh,giao_nhanh
trái chiều,trái_chiều
ship bơ,nguời_giao_hàng
mốp méo,mốp_méo
mua tặng,mua_tặng
nhận hàng,nhận_hàng
mùi thơm,mùi_thơm
gói quà,gói_quà
chắc chắn,chắc_chắn
đúng như mô tả,đúng_như_mô_tả
thực chiến,thực_chiến
nhận hàng,nhận_hàng
khó hiểu,khó_hiểu
bản dịch,bản_dịch
liên kết,liên_kết
cuốn hút,cuốn_hút
thùng hàng,thùng_hàng
mua sách,mua_sách
gửi kèm,gửi_kèm
vấn đề,vấn_đề
vô trách nhiệm,vô_trách_nhiệm
mất tiền,mất_tiền
đáng kể,đáng_kể
hội sách,hội_sách
kĩ hơn,không_kĩ
bao giờ,bao_giờ
nước mưa,nước_mưa
siêu nhanh,siêu_nhanh
đậm chất,đậm_chất
ship bơ,người_giao_hàng
chia thành,chia_thành
móc khóa,móc_khóa
đọc hết,đọc_hết
nhận được,nhận_được
lá thư,lá_thư
nằm ở,nằm_ở
cách nhìn,cách_nhìn
bọc lại,bọc_lại