# BPR Bayesian Personalized Ranking

---

ThetaLog.com

In [1]:
# Load các thư viện cần thiết
import os
import math
import pickle
import pathlib
import numpy as np
import pandas as pd
from time import time
from datetime import datetime
from sklearn.metrics import roc_auc_score
from sklearn.preprocessing import LabelEncoder
from scipy.sparse import csr_matrix, dok_matrix
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.metrics import mean_squared_error

np.random.seed(12)

In [2]:
train_path = './MINDsmall_train/behaviors.tsv'
output_train_path = './datafile/small_train.csv'

result_train_file = 'bpr_mf'

test_ratio = 0.3

alpha=0.001
lamb=0.02
k=60
training_per_interact = 10
initial_value = 0.5

In [3]:
def load_behaviors(path):
    df = pd.read_csv(
        path,
        sep='\t',
        names = ["id", "user_id", 'created_at', "history", "impressions"]
    )
    return df

def write_file(df, path):
    t_start = time()
    print("Processing", path)
    with open(path, "w") as file:
        for i, row in df.iterrows():
            for new_id in str(row.history).split(' '):
                if row.user_id[1:].isnumeric() and new_id[1:].isnumeric():
                    file.write(row.user_id[1:] + "," + new_id[1:] + "\n")

    t_end = time()
    print("Processed in: {:.2f} Seconds".format(t_end - t_start))

def write_data_file(train_path, output_train_path):
    train_df = load_behaviors(train_path)

    write_file(train_df, output_train_path)

In [4]:
# write_data_file(train_path, output_train_path)

In [5]:
def load_file(path):
    df = pd.read_csv(
        path,
        header=None,
        names=['user_id', 'item_id']
    )
    df.reindex(columns = ['user_id', 'item_id'])
    return df.reset_index(drop = True)

def load_data(train_path):
    train_df = load_file(train_path)
    
    return train_df

In [6]:
train_df = load_data(output_train_path)

In [7]:
def filter_df(df, user_min, item_min):
    if df is None:
        return

    t_start = time()

    user_counts = df.groupby("user_id").size()
    user_subset = np.in1d(
        df.user_id, user_counts[user_counts >= item_min].index
    )

    filter_df = df[user_subset].reset_index(drop=True)

    # find items with 10 or more users
    item_counts = filter_df.groupby("item_id").size()
    item_subset = np.in1d(
        filter_df.item_id, item_counts[item_counts >= user_min].index
    )

    filter_df = filter_df[item_subset].reset_index(drop=True)

    user_counts = filter_df.groupby("user_id").size()
    user_subset = np.in1d(filter_df.user_id, user_counts[user_counts >= item_min].index)

    filter_df = filter_df[user_subset].reset_index(drop=True)

    t_end = time()

#     assert (filter_df.groupby("user_id").size() < 5).sum() == 0
#     assert (filter_df.groupby("item_id").size() < 5).sum() == 0

    print(filter_df.nunique())
    print(filter_df.shape)
    print("{:.2f} Seconds".format(t_end - t_start))

    return filter_df

def reset_df(df):
    item_enc = LabelEncoder()
    df['news_id'] = df["item_id"]
    df["item_id"] = item_enc.fit_transform(df["item_id"])

    user_enc = LabelEncoder()
    df["user_id"] = user_enc.fit_transform(df["user_id"])

    assert df.user_id.min() == 0
    assert df.item_id.min() == 0

    return df

In [8]:
train_df.groupby("user_id").size().describe()[5]

20.0

In [9]:
# user_min = int(train_df.groupby("user_id").size().describe()[5])
# item_min = int(train_df.groupby("item_id").size().describe()[5])
user_min = int(train_df.groupby("user_id").size().mean())
item_min = int(train_df.groupby("item_id").size().mean())

print('user min: %i\nitem min: %i' % (user_min, item_min))

user min: 104
item min: 153


In [10]:
filtered_df = reset_df(filter_df(train_df, user_min, item_min))

user_id    6124
item_id    6463
dtype: int64
(3285644, 2)
1.02 Seconds


In [11]:
def convert_to_bpr_mat(dataframe, threshold = 3):
    tempdf = dataframe.copy()

    # Vì tập dữ liệu này đánh index từ 1 nên chuyển sang kiểu category
    # để tránh việc chúng ta có ma trận
    tempdf['user_id'] = tempdf['user_id'].astype('category')
    tempdf['item_id'] = tempdf['item_id'].astype('category')
    tempdf['positive'] = 1

    bpr_mat = csr_matrix((tempdf['positive'], (tempdf['user_id'].cat.codes, tempdf['item_id'].cat.codes)))
    bpr_mat.eliminate_zeros()
    del tempdf
    return bpr_mat

In [12]:
bpr_mat = convert_to_bpr_mat(filtered_df)

In [13]:
print(bpr_mat.shape)

(6124, 6463)


In [14]:
def split_to_train_test(bpr_mat, test_ratio = 0.2, verbose=True):
    """
    Chia tập dữ liệu ra thành tập train & tập test

    :param bpr_mat: ma trận bpr
    :param test_ratio: float - tỉ lệ test set

    :return train: ma trận bpr train
    :return test: ma trận bpr test
    """
    # Số lượng người dùng
    n_users = bpr_mat.shape[0]
    # Dùng ma trận thưa Dictionary Of Keys tối ưu hơn cho công đoạn này
    train = bpr_mat.copy().todok()
    test = dok_matrix(train.shape) # Lưu ý hiện tại test là ma trận 0

    # với mỗi người dùng u
    # chia số trường hợp nên khuyến nghị với tỉ lệ test_ratio đươc cho
    # phần nào thuộc về test
    for u in range(n_users):
        split_index = bpr_mat[u].indices
        # đếm số trường hợp nên khuyến nghị
        count_positive = split_index.shape[0]
        n_splits = max(min(math.ceil(test_ratio * count_positive), count_positive - 1), 1)
        test_index = np.random.choice(split_index, size=n_splits, replace=False)
        # Xem như dữ liệu chưa biết trong tập train
        train[u, test_index] = 0
        # Xem như dữ liệu nhìn thấy trong tập test
        test[u, test_index] = 1

    train, test = train.tocsr(), test.tocsr()

    # Nếu cần in thông tin ra ngoài
    if verbose:
        print('BPR matrix with %d stored elements' % bpr_mat.nnz)
        print('Train matrix with %d stored elements' % train.nnz)
        print('Test matrix with %d stored elements' % test.nnz)
    return train, test

In [15]:
bpr_train, bpr_test = split_to_train_test(bpr_mat, test_ratio=test_ratio, verbose=True)

BPR matrix with 335627 stored elements
Train matrix with 232200 stored elements
Test matrix with 103427 stored elements


In [16]:
n_iters = training_per_interact * bpr_train.nnz
print('n iters: %i' % n_iters)

n iters: 2322000


In [17]:
def predict_bpr(W, H, user=None):
    """
    Hàm trả về X_hat

    :param W: ma trận W từ MF
    :param H: ma trận H từ MF
    :param user: người dùng (nếu None mặt định trả về tất cả)

    :return predict_scores: điểm dự đoán từ BPR MF
    """
    if user is None:
        return W @ H.T
    else:
        return W[user] @ H.T

def recommend_bpr(bpr_matrix, predict_score, user, n_rmd_items=None):
    """
    Dự đoán những sản phẩm mà người dùng muốn mua
    Những sản phẩm nào đã thích rồi thì không trả về nữa
    Trả về index theo bpr_matrix (đánh từ 0)

    :param bpr_matrix: ma trận bpr hiện tại
    :param predict_score: điểm dự đoán các item
    :param user: số thứ tự người dùng của predict score
    :param n_rmd_items: số lượng sản phẩm trả về, mặc định tất cả

    :return rmd_items: danh sách các sản phẩm khuyến nghị
    """
    # Số lượng sản phẩm
    n_items = bpr_matrix.shape[1]
    # những sản phẩm đã thích rồi
    liked_items = bpr_matrix[user].indices
    scores = predict_score.copy()

    # index ban đầu khi chưa sắp xếp
    sort_index = np.arange(0, n_items)

    # Xóa các sản phẩm đã mua
    sort_index = np.delete(sort_index, liked_items)
    scores = np.delete(scores, liked_items)

    # sắp xếp và trả về theo số thứ tự của score
    arg_sort = np.argsort(-scores)

    # dùng sort_index để lấy số thứ tự ban đầu
    rmd_items = sort_index[arg_sort]

    if len(rmd_items) >= n_rmd_items and n_rmd_items is not None:
        rmd_items = rmd_items[: n_rmd_items]
    return rmd_items

def auc_score(predict_mat, bpr_mat):
    """
    Tính Area under the ROC curve (AUC)
    cho bài toán hệ khuyến nghị

    :param predict_mat: ma trận dữ đoán bpr mf
    :param bpr_mat: ma trận train hoặc test
    :return auc: area under the roc curve
    """
    auc = 0.0
    n_users, n_items = bpr_mat.shape

    # u và row tương ứng user và bp
    for u in range(n_users):
        y_pred = predict_mat[u]
        y_true = np.zeros(n_items)
        y_true[bpr_mat[u].indices] = 1
        try:
            auc += roc_auc_score(y_true, y_pred)
        except ValueError:
            continue
    auc /= n_users
    return auc

In [18]:
def calc_error(W, H, pos):
    n_user = len(pos)
    pred = []
    result = []
    print('calculating MSE error - ', end = '')
    for u in range(n_user):
        predict_u = predict_bpr(W, H, user=u)

        argsort_predict_u = np.flip(np.argsort(predict_u))
        intersect = np.intersect1d(argsort_predict_u[:len(pos[u])], pos[u])
        pred.append(intersect.size)
        result.append(pos[u].size)
    print(mean_squared_error(pred, result))

In [19]:
def learn_bpr_mf_sgd(bpr_mat, pos, neg, W = None, H = None, alpha=0.01, lamb=0.01, k=12, n_iters=10000, initial_value=2):
    """
    Thuật toán học BPR MF SGD (một điểm dữ liệu duy nhất)

    :param bpr_mat: ma trận bpr
    :param alpha: hệ số learning rate
    :param lamb: hệ số lambda của bình thường hóa regularization
    :param k: số lượng latent factor trong bài toán MF
    :param n_iters: số vòng lặp

    :return W: ma trận W
    :return H: ma trận H
    """
    
    n_users, n_items = bpr_mat.shape
    # Khởi tạo ma trận W và ma trận H
    if W is None:
        W = np.empty(shape=(n_users, k))
        W.fill(initial_value)
    if H is None:
        H = np.empty(shape=(n_items, k))
        H.fill(initial_value)

    # lặp
    for idx in range(n_iters):
        # ngẫu nghiên 3 bộ (u,i,j) từ D_S
        u = np.random.randint(0, n_users)
        if len(pos[u]) == 0:
            continue
        i = pos[u][np.random.randint(0, len(pos[u]))]
        j = neg[u][np.random.randint(0, len(neg[u]))]

        # Tính xuij
        xui = (W[u] * H[i]).sum()
        xuj = (W[u] * H[j]).sum()
        xuij = np.tanh(xui - xuj)

        # mũ tự nhiên e của xuij
        exp_xuij = np.exp(xuij)

        # sgd cho tham số Theta (W và H)
        W[u] = W[u] + alpha * ( exp_xuij / (1+exp_xuij) * (H[i] - H[j]) + lamb * W[u])
        H[i] = H[i] + alpha * ( exp_xuij / (1+exp_xuij) * W[u] + lamb * H[i])
        H[j] = H[j] + alpha * ( exp_xuij / (1+exp_xuij) * (-W[u]) + lamb * H[j])

        if (idx + 1) % 10000 == 0:
            print('Iter: %i' % (idx + 1))
            calc_error(W, H, pos)
    return W, H

In [20]:
# Tập các sản phẩm nên khuyến nghị
pos = np.split(bpr_train.indices, bpr_train.indptr)[1:-1]
# Tập các sản phẩm không nên khuyến nghị
neg = [np.setdiff1d(np.arange(0, bpr_train.shape[1], 1), e) for e in pos]

In [21]:
W, H = None, None

In [22]:
W, H = learn_bpr_mf_sgd(
    bpr_train,
    pos,
    neg,
    W = W,
    H = H,
    alpha=alpha,
    lamb=lamb,
    k=k,
    n_iters=n_iters,
    initial_value = initial_value
)

pred = predict_bpr(W, H)

train_score = auc_score(pred, bpr_train)
test_score = auc_score(pred, bpr_test)
print('AUC of train: %f' % train_score)
print('AUC of test : %f' % test_score)

Iter: 10000
calculating MSE error - 1620.814826910516
Iter: 20000
calculating MSE error - 1611.9866100587851
Iter: 30000
calculating MSE error - 1610.2437949052908
Iter: 40000
calculating MSE error - 1608.1975832789026
Iter: 50000
calculating MSE error - 1607.305682560418
Iter: 60000
calculating MSE error - 1606.7970280862182
Iter: 70000
calculating MSE error - 1604.8572828216852
Iter: 80000
calculating MSE error - 1604.4428478118878
Iter: 90000
calculating MSE error - 1604.2813520574787
Iter: 100000
calculating MSE error - 1603.7705747877205
Iter: 110000
calculating MSE error - 1603.8037230568257
Iter: 120000
calculating MSE error - 1604.4239059438275
Iter: 130000
calculating MSE error - 1605.370509470934
Iter: 140000
calculating MSE error - 1604.5109405617243
Iter: 150000
calculating MSE error - 1604.4041476159373
Iter: 160000
calculating MSE error - 1603.8804702808623
Iter: 170000
calculating MSE error - 1604.096342259961
Iter: 180000
calculating MSE error - 1604.3850424559112
Iter:

KeyboardInterrupt: 

In [None]:
n_user = len(pos)
pred = []
result = []
print('calculating MSE error - ', end = '')

u = 1

predict_u = predict_bpr(W, H, user=u)

argsort_predict_u = np.flip(np.argsort(predict_u))
intersect = np.intersect1d(argsort_predict_u[:len(pos[u])], pos[u])
pred.append(intersect.size)
result.append(pos[u].size)

print(mean_squared_error(pred, result))
print(argsort_predict_u[:1])

In [None]:
output_folder = os.path.join('./result', datetime.now().strftime("%d-%m-%Y %H-%M"))

pathlib.Path(output_folder).mkdir(parents=True, exist_ok=True)

np.save(os.path.join(output_folder, result_train_file + '_W.npy'), W)
np.save(os.path.join(output_folder, result_train_file + '_H.npy'), H)

with open(os.path.join(output_folder, result_train_file + '.txt'), 'w') as file:
    file.write("Parameters:\n\n")
    file.write('user min: %i' % user_min + "\n")
    file.write('item min: %i' % item_min + "\n")
    file.write('test ratio: %f' % test_ratio + "\n")
    file.write('alpha: %f' % alpha + "\n")
    file.write('lambda: %f' % lamb + "\n")
    file.write('k: %i' % k + "\n")
    file.write('n iters: %i' % n_iters + "\n")
    file.write('AUC-Train: %f' % train_score + "\n")
    file.write('AUC-Test: %f' % test_score + "\n")
    file.write("---------------------\n")
    file.write('Total users: %i \n' % train_df.nunique()[0])
    file.write('Total items: %i \n' % train_df.nunique()[1])
    file.write('Total interacts: %i \n' % train_df.shape[0])
    file.write('No training users: %i \n' % filtered_df.nunique()[0])
    file.write('No training items: %i \n' % filtered_df.nunique()[1])
    file.write('BPR matrix with %d stored elements\n' % bpr_mat.nnz)
    file.write('Train matrix with %d stored elements\n' % bpr_train.nnz)
    file.write('Test matrix with %d stored elements\n' % bpr_test.nnz)
    file.write('Matrix initial with %d\n' % initial_value)
    file.write('Tru And Cong')

In [None]:
u = 300
n_rmd_items = 5
score = predict_bpr(W, H, u)
rmd_items = recommend_bpr(bpr_train, score, u, n_rmd_items)
print(rmd_items)

# Tham khảo

01. Steffen Rendle, Christoph Freudenthaler, Zeno Gantner and Lars Schmidt-Thieme. BPR: Bayesian Personalized Ranking from Implicit Feedback. 
02. Weike Panand, Li Chen. GBPR: Group Preference Based Bayesian Personalized Ranking for One-Class Collaborative Filtering. Proceedings of the Twenty-Third International Joint Conference on Artificial Intelligence. https://www.aaai.org/ocs/index.php/IJCAI/IJCAI13/paper/viewFile/6316/7124
03. Michael D. Ekstrand, Joseph A Konstan. Personalized Ranking (with Daniel Kluver). Matrix Factorization and Advanced Techniques - University of Minnesota. https://www.coursera.org/lecture/matrix-factorization/personalized-ranking-with-daniel-kluver-s3XJo
04. Kim Falk. Practical Recommender Systems. Manning Publications.
05. Ethen (MingYu) Liu. Bayesian Personalized Ranking. http://ethen8181.github.io/machine-learning/recsys/4_bpr.html
06. Alfredo Láinez Rodrigo, Luke de Oliveira. Distributed Bayesian Personalized Ranking in Spark. https://stanford.edu/~rezab/classes/cme323/S16/projects_reports/rodrigo_oliveira.pdf