In [2]:
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def filter_similar_reviews(reviews, similarity_threshold=0.8):
    """
    Filters out reviews with high similarities from a list of reviews.
    
    Parameters:
    - reviews: List of review texts.
    - similarity_threshold: Cosine similarity threshold above which reviews are considered similar.
    
    Returns:
    - filtered_reviews: List of reviews with high similarities filtered out.
    """
    
    # Convert reviews to bag-of-words model
    vectorizer = CountVectorizer()
    X = vectorizer.fit_transform(reviews)
    
    # Compute cosine similarity matrix
    cosine_sim_matrix = cosine_similarity(X)
    
    # Identify similar reviews
    num_reviews = len(reviews)
    to_remove = set()
    
    for i in range(num_reviews):
        for j in range(i + 1, num_reviews):
            if cosine_sim_matrix[i, j] > similarity_threshold:
                to_remove.add(j)
    
    # Filter out similar reviews
    filtered_reviews = pd.Series([reviews[i] for i in range(num_reviews) if i not in to_remove])
    
    return filtered_reviews, to_remove

In [3]:
import pandas as pd

df = pd.read_csv(r'C:\Users\admin\Desktop\dap\my_work\shopee_scrape\reviews_with_comment.csv')

In [4]:
reviews = df['comment'].iloc[0:10]
reviews

0    Giao Hàng Nhanh. Đóng Gói Đẹp.Giao Đúng Màu, Đ...
1    U là trời. Ưng ý lắm luôn nha mọi người. Chất ...
2    Hàng của shop mình đã mua và sử dụng thấy rất ...
3    Hàng của shop mình đã mua và sử dụng thấy rất ...
4    Giá rẻ, săn sale còn rẻ hơn mà nhìu đồ, chất l...
5    Shopee xưa giờ chuyên bán giá rẻ cho nên mình ...
6    Mua của shop lâu rồi nay mới lên review. Sản p...
7    Mình muua size 41 mang rất vừa chân , form dép...
8    Mua của shop lâu rồi nay mới lên review. Sản p...
9    Mình muua size 41 mang rất vừa chân , form dép...
Name: comment, dtype: object

In [5]:
filtered_reviews, to_remove = filter_similar_reviews(reviews, similarity_threshold=0.8)
filtered_reviews

0    Giao Hàng Nhanh. Đóng Gói Đẹp.Giao Đúng Màu, Đ...
1    U là trời. Ưng ý lắm luôn nha mọi người. Chất ...
2    Hàng của shop mình đã mua và sử dụng thấy rất ...
3    Giá rẻ, săn sale còn rẻ hơn mà nhìu đồ, chất l...
4    Shopee xưa giờ chuyên bán giá rẻ cho nên mình ...
5    Mua của shop lâu rồi nay mới lên review. Sản p...
6    Mình muua size 41 mang rất vừa chân , form dép...
dtype: object

In [6]:
reviews = df['comment']
filtered_reviews, to_remove = filter_similar_reviews(reviews, similarity_threshold=0.8)
print('Num of reviews:', len(reviews))
print(f'Num of duplicates: {len(to_remove)}, approximately {len(to_remove)/len(reviews)*100:.2f}%')

Num of reviews: 99
Num of duplicates: 24, approximately 24.24%


In [7]:
reviews[1]

'U là trời. Ưng ý lắm luôn nha mọi người. Chất da thì khỏi bàn cãi vì hàng chuẩn da xịn, chuẩn thương hiệu. Thiết kế cũng mang phong cách riêng. K đại trà Giao Hàng Nhanh. Đóng Gói Đẹp.Giao Đúng Màu, Đặt size 41 giao đúng size 41. Chủ shop nhiệt tình. Dép giá hợp lý và đẹp nữa. Mn nhớ ủng hộ shop nha.Thấy review trên shop đẹp mà rẻ nên mua thử, chất quá đẹp, quá ổn với giá tiền nha, màu đẹp như trong ảnh, da căng mịn. nói chung với giá đó khá là ok. Cho shop 5 sao'

In [8]:
all_reviews = ''
for review in reviews:
    all_reviews += review + ' '

In [16]:
# 15 RPM (requests per minute)
# 1 million TPM (tokens per minute)
# 1,500 RPD (requests per day)

import google.generativeai as genai

API_KEY = 'AIzaSyAKT7M8MonBvYONbKASiePfeIVU6h0Uqw4' # 1tr tokens
genai.configure(api_key=API_KEY)

# comment = comments[73]
promt = f"tóm tắt tất cả comment dạng abstractive summarization, có ưu điểm và nhược điểm, có sử dụng bullet points, dưới 100 từ: {all_reviews}" #@param {type: 'string'}

model = genai.GenerativeModel('gemini-pro')
chat = model.start_chat(history=[])

response = chat.send_message(promt)
print(response.text)

**Tóm tắt abstractive**

**Ưu điểm:**

- Sản phẩm chất lượng, phù hợp với giá tiền
- Giao hàng nhanh, đóng gói cẩn thận
- Dịch vụ chăm sóc khách hàng nhiệt tình, thân thiện

**Nhược điểm:**

- Có một số bình luận phản ánh về chất lượng sản phẩm không như mong đợi, chẳng hạn như quai dép rộng hoặc lỗi mực.
- Một số bình luận cho biết sản phẩm hơi rộng, khuyến cáo khách hàng nên tăng size khi mua.
