In [1]:
import pandas as pd
from surprise import Dataset, Reader, SVD, accuracy
from surprise.model_selection import train_test_split

# Đọc dữ liệu từ file CSV
df = pd.read_csv('transactions.csv')

# Chuyển đổi dữ liệu thành định dạng của Surprise
reader = Reader(rating_scale=(1, 5))
data = Dataset.load_from_df(df[['user_id', 'product_id', 'rating']], reader)

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
trainset, testset = train_test_split(data, test_size=0.2)

# Tạo mô hình SVD
model = SVD()

# Huấn luyện mô hình trên tập huấn luyện
model.fit(trainset)

# Tạo dự đoán trên tập kiểm tra
predictions = model.test(testset)

# Đánh giá mô hình
accuracy.rmse(predictions)

# Hiển thị kết quả dự đoán
for uid, iid, true_r, est, _ in predictions[:10]:
    print(f'User {uid} - Product {iid} | Actual: {true_r}, Predicted: {est}')

# Hàm gợi ý sản phẩm
def get_top_n_recommendations(user_id, n=10):
    # Lấy danh sách tất cả các product_id
    all_product_ids = df['product_id'].unique()
    
    # Dự đoán rating cho tất cả các sản phẩm mà user chưa đánh giá
    user_ratings = [(product_id, model.predict(user_id, product_id).est) for product_id in all_product_ids]
    
    # Sắp xếp theo rating dự đoán
    user_ratings.sort(key=lambda x: x[1], reverse=True)
    
    # Lấy top n sản phẩm
    top_n_recommendations = user_ratings[:n]
    
    return top_n_recommendations

# Ví dụ: Gợi ý 10 sản phẩm cho user_id = 1
recommendations = get_top_n_recommendations(13855131, 10)
for product_id, rating in recommendations:
    print(f'Product ID: {product_id}, Predicted Rating: {rating}')


RMSE: 1.3153
User 17795557 - Product 108568459 | Actual: 3.0, Predicted: 3.255035606226848
User 10266262 - Product 19814067 | Actual: 3.0, Predicted: 3.4321160752241533
User 19763001 - Product 73570874 | Actual: 5.0, Predicted: 4.783120720649527
User 20811434 - Product 19814067 | Actual: 1.0, Predicted: 3.4321160752241533
User 22438511 - Product 73570874 | Actual: 3.0, Predicted: 1.8415561346020974
User 18080909 - Product 108568459 | Actual: 5.0, Predicted: 4.4468155738114
User 26288362 - Product 176251118 | Actual: 5.0, Predicted: 4.62462951917236
User 6141105 - Product 136157116 | Actual: 1.0, Predicted: 3.456102959900772
User 22948637 - Product 84963179 | Actual: 5.0, Predicted: 2.8603560696204964
User 15688739 - Product 73570874 | Actual: 5.0, Predicted: 4.918303749679466
Product ID: 176250783, Predicted Rating: 4.720672519607926
Product ID: 176251118, Predicted Rating: 4.687131355806868
Product ID: 14848906, Predicted Rating: 4.676575329013545
Product ID: 14847948, Predicted Ratin

In [2]:
df.product_id.nunique()

61

In [3]:
# Ví dụ: Gợi ý 10 sản phẩm cho user_id = 1
recommendations = get_top_n_recommendations(16877862, 10)
for product_id, rating in recommendations:
    print(f'Product ID: {product_id}, Predicted Rating: {rating}')

Product ID: 176250783, Predicted Rating: 4.705716601595767
Product ID: 14847948, Predicted Rating: 4.63889642013917
Product ID: 176251118, Predicted Rating: 4.575475342705898
Product ID: 14848906, Predicted Rating: 4.232868499959177
Product ID: 10776493, Predicted Rating: 4.198037503981537
Product ID: 29115771, Predicted Rating: 4.1700168940398346
Product ID: 14702607, Predicted Rating: 4.1521970078386605
Product ID: 10785741, Predicted Rating: 4.055730623220107
Product ID: 67488235, Predicted Rating: 4.051724205734434
Product ID: 102086317, Predicted Rating: 4.0482009684301
