In [19]:
from sqlalchemy import create_engine
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity


In [20]:
 # Kết nối đến cơ sở dữ liệu MySQL
db_connection_str = 'mysql://root:123456@localhost/khoaluan'
db_connection = create_engine(db_connection_str)

# Lấy dữ liệu từ bảng transactions
query = "SELECT user_id, product_id,rating FROM reviews "
transactions = pd.read_sql(query, db_connection)
# Lấy dữ liệu từ bảng product
query_products = "SELECT id as product_id, name, image FROM product"
products = pd.read_sql(query_products, db_connection)

db_connection.dispose()

In [21]:
transactions

Unnamed: 0,user_id,product_id,rating
0,9,14,4
1,9,60,5
2,9,96,5
3,9,68,4
4,11,14,4
5,11,60,5
6,11,68,5
7,9,97,1
8,9,47,4
9,9,46,1


In [22]:
from scipy.sparse import csr_matrix

In [23]:

# Tạo ma trận người dùng - sản phẩm
interaction_matrix = transactions.pivot_table(index='product_id', columns='user_id', values='rating', aggfunc='sum')
# Chuẩn hóa ma trận tương tác bằng cách trừ giá trị trung bình của từng cột
interaction_matrix_normalized = interaction_matrix - interaction_matrix.mean(axis=0)

interaction_matrix_normalized = interaction_matrix_normalized.fillna(0)

# Chuyển đổi ma trận thành dạng thưa (sparse matrix)
interaction_matrix_sparse = csr_matrix(interaction_matrix_normalized.values)

In [24]:
interaction_matrix

user_id,9,10,11
product_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
14,4.0,5.0,4.0
23,,4.0,
27,1.0,,
28,4.0,,
46,1.0,,
47,4.0,,
50,4.0,,
60,5.0,4.0,5.0
68,4.0,,5.0
91,2.0,,


In [25]:
interaction_matrix_normalized

user_id,9,10,11
product_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
14,0.818182,0.666667,-0.666667
23,0.0,-0.333333,0.0
27,-2.181818,0.0,0.0
28,0.818182,0.0,0.0
46,-2.181818,0.0,0.0
47,0.818182,0.0,0.0
50,0.818182,0.0,0.0
60,1.818182,-0.333333,0.333333
68,0.818182,0.0,0.333333
91,-1.181818,0.0,0.0


In [26]:
from sklearn.metrics.pairwise import cosine_similarity

# Tính toán độ tương đồng giữa các người dùng
user_similarity = cosine_similarity(interaction_matrix_sparse.T)

In [29]:
user_similarity_df = pd.DataFrame(user_similarity, index=interaction_matrix.columns, columns=interaction_matrix.columns)
user_similarity_df

user_id,9,10,11
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
9,1.0,-0.01466,0.08063
10,-0.01466,1.0,-0.833333
11,0.08063,-0.833333,1.0


In [30]:
similar_users = user_similarity_df[9].drop(9).sort_values(ascending=False)
similar_users

user_id
11    0.08063
10   -0.01466
Name: 9, dtype: float64

In [37]:
import numpy as np
def predict(user_id, product_id, user_product_matrix, user_similarity_df,k=2):
    # Lấy các người dùng tương tự và bỏ đi user_id hiện tại
    similar_users = user_similarity_df[user_id].drop(user_id).sort_values(ascending=False)

    # Chỉ giữ lại những người dùng đã đánh giá sản phẩm product_id
    similar_users = similar_users[similar_users.index.isin(user_product_matrix.columns[interaction_matrix.loc[product_id].notna()])]

     # Chỉ chọn k người dùng tương tự nhất
    top_k_similar_users = similar_users.head(k)
    similar_users_ratings = user_product_matrix.loc[product_id,top_k_similar_users.index]
    total_similarity = similar_users.loc[similar_users_ratings.index].abs().sum()
    print(total_similarity)
    if total_similarity == 0:
        return 0  # Trả về 0 nếu total_similarity bằng 0

    predicted_rating = similar_users_ratings.dot(similar_users.loc[similar_users_ratings.index]) / total_similarity
    predicted_rating=predicted_rating
    return predicted_rating

In [38]:
predicted_rating = predict(9, 23, interaction_matrix_normalized, user_similarity_df)
print(f"Predicted likelihood of user 6 buying product 101: {predicted_rating}")

user_id
11    0.08063
10   -0.01466
Name: 9, dtype: float64
0.0952898910456004
Predicted likelihood of user 6 buying product 101: 0.051282051282050725


In [259]:
def recommend_products(user_id, user_product_matrix, user_similarity_df, k=2, top_n=5):
    # Lấy tất cả các sản phẩm mà user_id chưa đánh giá
    user_ratings = interaction_matrix[user_id]
    products_not_rated = user_ratings[user_ratings.isna()].index
    
    predicted_ratings = {}
    for product_id in products_not_rated:
        predicted_ratings[product_id] = predict(user_id, product_id, user_product_matrix, user_similarity_df, k)
    
    # Sắp xếp các sản phẩm theo rating dự đoán giảm dần
    sorted_predicted_ratings = sorted(predicted_ratings.items(), key=lambda x: x[1], reverse=True)
    
    # Lấy top_n sản phẩm có rating dự đoán cao nhất
    top_n_recommendations = sorted_predicted_ratings[:top_n]
    
    # Trả về thông tin sản phẩm
    recommendations = []
    for product_id, predicted_rating in top_n_recommendations:
        product_info = products[products['product_id'] == product_id].iloc[0].to_dict()
        product_info['predicted_rating'] = predicted_rating
        recommendations.append(product_info)
    
    return recommendations

# Ví dụ: Đề xuất sản phẩm cho user_id = 1 với k=2
recommendations = recommend_products(4, interaction_matrix_normalized, user_similarity_df, k=2, top_n=5)
print("Recommended products for user 1:")
recommendations

Recommended products for user 1:


[{'product_id': 17,
  'name': 'Laptop Dell 7490 core i7 - Ram 16gb/SSD 256gb/Màn Full HD/Mỏng Nhẹ Đẹp Keeng',
  'image': 'http://localhost:8080/api/product/image?productId=17',
  'predicted_rating': 3.6666666666666665},
 {'product_id': 18,
  'name': 'Laptop Cũ Rẻ Các Hãng Ram 8GB/SSD Core i5 - i7 : Dell , Hp .Asus ... Máy Đẹp Đủ Sạc . Dùng Full Chức Năng BH 3 Tháng',
  'image': 'http://localhost:8080/api/product/image?productId=18',
  'predicted_rating': 3.6666666666666665},
 {'product_id': 52,
  'name': 'Tai nghe Có Dây OPPO MH320 Jack cắm 3.5 mm kết nối mượt mà với các dòng điện thoại,máy tính - Beman bảo hành lỗi 1 đổi 1',
  'image': 'http://localhost:8080/api/product/image?productId=52',
  'predicted_rating': 3.6666666666666665},
 {'product_id': 86,
  'name': 'Chuột máy tính có dây Fuhlen L102',
  'image': 'http://localhost:8080/api/product/image?productId=86',
  'predicted_rating': 3.6666666666666665},
 {'product_id': 88,
  'name': 'Bàn phím máy tính văn phòng có dây R8 1801 cổng 

In [8]:
from sqlalchemy import create_engine
import pandas as pd
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from pyvi import ViTokenizer
from scipy.sparse import csr_matrix

db_connection_str = 'mysql://root:123456@localhost/khoaluan'
db_connection = create_engine(db_connection_str)

# Lấy dữ liệu từ bảng transactions
query = """
    SELECT p.id, p.name, c.name AS category_name
    FROM product p
    JOIN category c ON p.category_id = c.id
    WHERE p.deleted = false And p.id IN (98,100,39)
"""
transactions = pd.read_sql(query, db_connection)
db_connection.dispose()

In [9]:
transactions

Unnamed: 0,id,name,category_name
0,39,"Dép tổ ong,dép đi trong nhà ASIA",Giày dép
1,98,Áo sơ mi nam Basic chất kaki,Thời trang nam
2,100,Áo sơ mi nam Mantoni dài tay,Thời trang nam


In [10]:
def preprocess_text_vietnamese(text):
        if text is None:
            return ""
        # Loại bỏ ký tự xuống dòng
        text = text.replace('\n', ' ').replace('\r', ' ')
        # Chuyển đổi thành chữ thường
        text = text.lower()
        # Loại bỏ ký tự đặc biệt và số
        text = re.sub(r'(?<=\d)\.(?=\d)', 'DOT_PLACEHOLDER', text)  # Thay dấu chấm giữa các số bằng placeholder
        words = ViTokenizer.tokenize(text).split()

        # Tách từ và loại bỏ stopword
        
        # filtered_words = [word for word in words if word not in stopwords]
        # Ghép các từ lại thành câu
        text = ' '.join(words)
        text = re.sub(r'[^\w\s]', ' ', text)
        text = re.sub(r'DOT_PLACEHOLDER', '.', text)
        text = re.sub(r'\s+', ' ', text).strip()
        # Loại bỏ khoảng trắng dư thừa
        text = text.strip()
        return text

In [12]:
transactions['full_description'] = transactions.apply(lambda row: f"{row['category_name']} {row['name']}", axis=1)
 # Áp dụng hàm chuẩn hóa cho cột description trong transactions
transactions['full_description'] = transactions['full_description'].apply(preprocess_text_vietnamese)

In [13]:
transactions

Unnamed: 0,id,name,category_name,full_description
0,39,"Dép tổ ong,dép đi trong nhà ASIA",Giày dép,giày_dép dép tổ ong dép đi trong nhà asia
1,98,Áo sơ mi nam Basic chất kaki,Thời trang nam,thời_trang nam áo sơ_mi nam basic chất kaki
2,100,Áo sơ mi nam Mantoni dài tay,Thời trang nam,thời_trang nam áo sơ_mi nam mantoni dài tay


In [16]:
vectorizer = TfidfVectorizer()
# Tính toán TF-IDF cho mô tả sản phẩm
tfidf_matrix = vectorizer.fit_transform(transactions['full_description'])
# Chuyển đổi ma trận TF-IDF thành DataFrame
tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=vectorizer.get_feature_names_out())
tfidf_df.iloc[:, -4:]

Unnamed: 0,trong,tổ,áo,đi
0,0.301511,0.301511,0.0,0.301511
1,0.0,0.0,0.286455,0.0
2,0.0,0.0,0.286455,0.0


In [18]:
cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)
# Chuyển đổi thành DataFrame của pandas
cosine_sim_df = pd.DataFrame(cosine_sim)
cosine_sim_df

Unnamed: 0,0,1,2
0,1.0,0.0,0.0
1,0.0,1.0,0.574395
2,0.0,0.574395,1.0
