In [1]:
!pip install surprise
!pip install scikit-surprise



In [2]:
%%time
import numpy as np
import pandas as pd
from scipy.sparse import csr_matrix, coo_matrix
from tqdm.auto import tqdm
from collections import Counter
from surprise import Dataset, Reader
import time
from surprise import KNNWithZScore

CPU times: total: 297 ms
Wall time: 428 ms


  from .autonotebook import tqdm as notebook_tqdm


In [3]:
df_path = r"C:\Users\dlbol\Downloads\likes\likes\likes_data\track_artists.csv"
train_path = r"C:\Users\dlbol\Downloads\likes\likes\likes_data\train"
test_path = r"C:\Users\dlbol\Downloads\likes\likes\likes_data\test"
pred_path = r"C:\Users\dlbol\Downloads\likes\likes\likes_data\surprize_artist_KNNWithZScore_target"
target_path = r"C:\Users\dlbol\Downloads\likes\likes\likes_data\surprize_artist_KNNWithZScore_pred"

In [4]:
def calc_mrr(predict, answer):
    for i in range(len(predict)):
        if predict[i] == answer:
            return 1. / (i + 1)
    return 0

max_prediction_len = 100

def calc_score(target_path, predict_path):
    with open(target_path) as f:
        y_true = [int(x.strip()) for x in f.readlines()]

    with open(predict_path) as f:
        y_pred = [[int(x) for x in line.strip().split(' ')] for line in f.readlines()]

    mrr_score = 0
    for (pred, answer) in zip(y_pred, y_true):
        if len(pred) > max_prediction_len:
            raise ValueError('$maximum prediction length is {}, got {}$'.format(max_prediction_len, len(y_pred[i])))
        mrr_score += calc_mrr(pred, answer)

    print(f"MRR@100 = {(mrr_score / len(y_true)):.4f}")

In [5]:
%%time
df = pd.read_csv(df_path)
df.index = df['trackId']

CPU times: total: 46.9 ms
Wall time: 57.8 ms


In [6]:
%%time

list_coord = []
target_val = []
np.random.seed(42)  
val_id = np.random.choice(range(10000), size=1000, replace=False)
val_id.sort()
all_artist = set()
ls_artists = []

with open(train_path) as f:
    lines = f.readlines()
    idx = 0 
    for line in tqdm(lines):
        tracks = line.strip().split(' ')
        tracks_arr = np.array(tracks)
        tracks_arr = tracks_arr.astype(np.int32)
        artist_arr = np.array([df.at[track, 'artistId'] for track in tracks_arr])
        if idx in val_id:
            target_val.append(artist_arr[-1])
            artist_arr = artist_arr[:-1]
        ls_artists.extend(artist_arr)
        all_artist = all_artist.union(set(artist_arr))
        artist_cnt = Counter(artist_arr)
        list_coord_user = [(idx, i[0], i[1]) for i in artist_cnt.items()]
        list_coord.extend(list_coord_user)
        idx += 1
        if idx > 10000:
            break

  1%|▌                                                                       | 10000/1160084 [00:08<16:15, 1178.64it/s]

CPU times: total: 9.56 s
Wall time: 9.52 s





In [7]:
%%time

data = pd.DataFrame(list_coord, columns=['uid', 'iid', 'rating_row'])
data['rating_max'] = data.rating_row / data.groupby('uid')['rating_row'].transform('max')
data['rating_part'] = data.rating_row / data.groupby('uid')['rating_row'].transform('sum')

CPU times: total: 2.27 s
Wall time: 2.28 s


# Baseline

In [8]:
all_artist_cnt = [i[0] for i in Counter(ls_artists).most_common(100)]

result = [' '.join(map(str, all_artist_cnt)) + '\n' for _ in val_id]

with open(pred_path, 'w') as f:
    f.writelines(result)

with open(target_path, 'w') as f:
    for i in target_val:
        f.write(f'{i}\n')

calc_score(target_path, pred_path)

MRR@100 = 0.0144


# RATING_MAX

In [9]:
%%time

reader = Reader(rating_scale=(0, 1))
dataset = Dataset.load_from_df(data[['uid', 'iid', 'rating_max']], reader)
trainset = dataset.build_full_trainset()

CPU times: total: 562 ms
Wall time: 565 ms


## KNNWithZScore

In [10]:
def optimize(k=40, 
             min_k=1,
             user_based=True,
             name="pearson_baseline",
             verbose=True):

    start_time = time.time()
    
    sim_options = {
        "name": name,
        "user_based": user_based
    }
    
    algo = KNNWithZScore(k=k, min_k=min_k, sim_options=sim_options, verbose=True)
    
    algo.fit(trainset)
    
    print("--- fit: %s seconds ---" % (time.time() - start_time))
    
    pred = []
    for uid in tqdm(val_id):
        pred_user = []
        for iid in all_artist:
            score = algo.predict(uid=uid, iid=iid).est
            pred_user.append((iid, score))
        pred.append(pred_user)

    res = []
    for user in tqdm(pred):
        ls = sorted(user, key=lambda x: x[1])
        temp = [i[0] for i in ls[-100:]]
        temp.reverse()
        res.append(temp)

    result = [' '.join(map(str, i)) + '\n' for i in res]


    with open(pred_path, 'w') as f:
        f.writelines(result)

    with open(target_path, 'w') as f:
        for i in target_val:
            f.write(f'{i}\n')

    calc_score(target_path, pred_path)

In [11]:
for user_based in [False, True]:
    for name in ['cosine', 'msd', 'pearson', 'pearson_baseline']:
        for k in [10, 40, 80]:
            for min_k in [1, 10, 50]:
                print(f'user_based: {user_based}, name: {name}, k: {k}, min_k: {min_k}')
                optimize(k=k, 
                         min_k=min_k,
                         user_based=user_based,
                         name=name,
                         verbose=True)

user_based: False, name: cosine, k: 10, min_k: 1
Computing the cosine similarity matrix...
Done computing similarity matrix.
--- fit: 17.166242837905884 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [10:59<00:00,  1.52it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 129.38it/s]


MRR@100 = 0.0011
user_based: False, name: cosine, k: 10, min_k: 10
Computing the cosine similarity matrix...
Done computing similarity matrix.
--- fit: 17.394760847091675 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [11:03<00:00,  1.51it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 133.81it/s]


MRR@100 = 0.0002
user_based: False, name: cosine, k: 10, min_k: 50
Computing the cosine similarity matrix...
Done computing similarity matrix.
--- fit: 16.1471951007843 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [10:37<00:00,  1.57it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 129.86it/s]


MRR@100 = 0.0000
user_based: False, name: cosine, k: 40, min_k: 1
Computing the cosine similarity matrix...
Done computing similarity matrix.
--- fit: 17.672292709350586 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [13:36<00:00,  1.22it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 132.37it/s]


MRR@100 = 0.0011
user_based: False, name: cosine, k: 40, min_k: 10
Computing the cosine similarity matrix...
Done computing similarity matrix.
--- fit: 16.945903539657593 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [13:13<00:00,  1.26it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 132.27it/s]


MRR@100 = 0.0002
user_based: False, name: cosine, k: 40, min_k: 50
Computing the cosine similarity matrix...
Done computing similarity matrix.
--- fit: 17.620237588882446 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [12:58<00:00,  1.29it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 134.64it/s]


MRR@100 = 0.0000
user_based: False, name: cosine, k: 80, min_k: 1
Computing the cosine similarity matrix...
Done computing similarity matrix.
--- fit: 16.915982007980347 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [14:56<00:00,  1.12it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 132.04it/s]


MRR@100 = 0.0011
user_based: False, name: cosine, k: 80, min_k: 10
Computing the cosine similarity matrix...
Done computing similarity matrix.
--- fit: 15.971884727478027 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [14:22<00:00,  1.16it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 128.12it/s]


MRR@100 = 0.0002
user_based: False, name: cosine, k: 80, min_k: 50
Computing the cosine similarity matrix...
Done computing similarity matrix.
--- fit: 19.516481399536133 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [14:41<00:00,  1.14it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 130.29it/s]


MRR@100 = 0.0000
user_based: False, name: msd, k: 10, min_k: 1
Computing the msd similarity matrix...
Done computing similarity matrix.
--- fit: 10.586703062057495 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [10:26<00:00,  1.60it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 127.67it/s]


MRR@100 = 0.0001
user_based: False, name: msd, k: 10, min_k: 10
Computing the msd similarity matrix...
Done computing similarity matrix.
--- fit: 10.396128177642822 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [10:50<00:00,  1.54it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 128.87it/s]


MRR@100 = 0.0002
user_based: False, name: msd, k: 10, min_k: 50
Computing the msd similarity matrix...
Done computing similarity matrix.
--- fit: 10.348768711090088 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [10:16<00:00,  1.62it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:08<00:00, 123.18it/s]


MRR@100 = 0.0000
user_based: False, name: msd, k: 40, min_k: 1
Computing the msd similarity matrix...
Done computing similarity matrix.
--- fit: 10.91453504562378 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [13:23<00:00,  1.25it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 129.83it/s]


MRR@100 = 0.0001
user_based: False, name: msd, k: 40, min_k: 10
Computing the msd similarity matrix...
Done computing similarity matrix.
--- fit: 21.81763768196106 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [13:02<00:00,  1.28it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 134.27it/s]


MRR@100 = 0.0002
user_based: False, name: msd, k: 40, min_k: 50
Computing the msd similarity matrix...
Done computing similarity matrix.
--- fit: 10.370333671569824 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [13:46<00:00,  1.21it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:09<00:00, 109.02it/s]


MRR@100 = 0.0000
user_based: False, name: msd, k: 80, min_k: 1
Computing the msd similarity matrix...
Done computing similarity matrix.
--- fit: 10.790825366973877 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [14:49<00:00,  1.12it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:09<00:00, 105.23it/s]


MRR@100 = 0.0001
user_based: False, name: msd, k: 80, min_k: 10
Computing the msd similarity matrix...
Done computing similarity matrix.
--- fit: 13.902043581008911 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [14:47<00:00,  1.13it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 130.09it/s]


MRR@100 = 0.0002
user_based: False, name: msd, k: 80, min_k: 50
Computing the msd similarity matrix...
Done computing similarity matrix.
--- fit: 10.537880659103394 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [14:54<00:00,  1.12it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:09<00:00, 103.51it/s]


MRR@100 = 0.0000
user_based: False, name: pearson, k: 10, min_k: 1
Computing the pearson similarity matrix...
Done computing similarity matrix.
--- fit: 32.62072253227234 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [10:16<00:00,  1.62it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 128.91it/s]


MRR@100 = 0.0013
user_based: False, name: pearson, k: 10, min_k: 10
Computing the pearson similarity matrix...
Done computing similarity matrix.
--- fit: 34.627652406692505 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [10:00<00:00,  1.66it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 126.52it/s]


MRR@100 = 0.0002
user_based: False, name: pearson, k: 10, min_k: 50
Computing the pearson similarity matrix...
Done computing similarity matrix.
--- fit: 38.14262390136719 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [09:57<00:00,  1.67it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 127.20it/s]


MRR@100 = 0.0000
user_based: False, name: pearson, k: 40, min_k: 1
Computing the pearson similarity matrix...
Done computing similarity matrix.
--- fit: 37.200791358947754 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [11:56<00:00,  1.40it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 126.32it/s]


MRR@100 = 0.0013
user_based: False, name: pearson, k: 40, min_k: 10
Computing the pearson similarity matrix...
Done computing similarity matrix.
--- fit: 40.99138331413269 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [11:52<00:00,  1.40it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 133.04it/s]


MRR@100 = 0.0002
user_based: False, name: pearson, k: 40, min_k: 50
Computing the pearson similarity matrix...
Done computing similarity matrix.
--- fit: 28.435518980026245 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [11:46<00:00,  1.42it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 132.10it/s]


MRR@100 = 0.0000
user_based: False, name: pearson, k: 80, min_k: 1
Computing the pearson similarity matrix...
Done computing similarity matrix.
--- fit: 32.110919713974 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [13:04<00:00,  1.28it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:08<00:00, 124.96it/s]


MRR@100 = 0.0013
user_based: False, name: pearson, k: 80, min_k: 10
Computing the pearson similarity matrix...
Done computing similarity matrix.
--- fit: 33.71672558784485 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [13:09<00:00,  1.27it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 127.98it/s]


MRR@100 = 0.0002
user_based: False, name: pearson, k: 80, min_k: 50
Computing the pearson similarity matrix...
Done computing similarity matrix.
--- fit: 30.88049864768982 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [13:25<00:00,  1.24it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:08<00:00, 112.74it/s]


MRR@100 = 0.0000
user_based: False, name: pearson_baseline, k: 10, min_k: 1
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 21.147881746292114 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [11:27<00:00,  1.46it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:09<00:00, 103.67it/s]


MRR@100 = 0.0016
user_based: False, name: pearson_baseline, k: 10, min_k: 10
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 19.970130681991577 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [09:47<00:00,  1.70it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 128.09it/s]


MRR@100 = 0.0000
user_based: False, name: pearson_baseline, k: 10, min_k: 50
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 20.54188299179077 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [09:59<00:00,  1.67it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:09<00:00, 104.90it/s]


MRR@100 = 0.0000
user_based: False, name: pearson_baseline, k: 40, min_k: 1
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 19.963255167007446 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [11:00<00:00,  1.51it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 139.76it/s]


MRR@100 = 0.0016
user_based: False, name: pearson_baseline, k: 40, min_k: 10
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 18.1425564289093 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [10:53<00:00,  1.53it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 130.34it/s]


MRR@100 = 0.0000
user_based: False, name: pearson_baseline, k: 40, min_k: 50
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 17.764450788497925 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [10:57<00:00,  1.52it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 128.48it/s]


MRR@100 = 0.0000
user_based: False, name: pearson_baseline, k: 80, min_k: 1
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 18.228684186935425 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [11:40<00:00,  1.43it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 132.31it/s]


MRR@100 = 0.0016
user_based: False, name: pearson_baseline, k: 80, min_k: 10
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 18.385458946228027 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [11:46<00:00,  1.42it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 134.52it/s]


MRR@100 = 0.0000
user_based: False, name: pearson_baseline, k: 80, min_k: 50
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 17.73676347732544 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [11:49<00:00,  1.41it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 131.75it/s]


MRR@100 = 0.0000
user_based: True, name: cosine, k: 10, min_k: 1
Computing the cosine similarity matrix...
Done computing similarity matrix.
--- fit: 9.148684978485107 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [06:13<00:00,  2.68it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:06<00:00, 149.06it/s]


MRR@100 = 0.0001
user_based: True, name: cosine, k: 10, min_k: 10
Computing the cosine similarity matrix...
Done computing similarity matrix.
--- fit: 10.432451248168945 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [06:09<00:00,  2.71it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:03<00:00, 276.41it/s]


MRR@100 = 0.0032
user_based: True, name: cosine, k: 10, min_k: 50
Computing the cosine similarity matrix...
Done computing similarity matrix.
--- fit: 10.780638456344604 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [06:13<00:00,  2.68it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:01<00:00, 597.67it/s]


MRR@100 = 0.0001
user_based: True, name: cosine, k: 40, min_k: 1
Computing the cosine similarity matrix...
Done computing similarity matrix.
--- fit: 10.392731666564941 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [07:13<00:00,  2.31it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 140.13it/s]


MRR@100 = 0.0001
user_based: True, name: cosine, k: 40, min_k: 10
Computing the cosine similarity matrix...
Done computing similarity matrix.
--- fit: 10.591593742370605 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [07:14<00:00,  2.30it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:03<00:00, 275.31it/s]


MRR@100 = 0.0031
user_based: True, name: cosine, k: 40, min_k: 50
Computing the cosine similarity matrix...
Done computing similarity matrix.
--- fit: 10.635010004043579 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [07:07<00:00,  2.34it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:01<00:00, 562.63it/s]


MRR@100 = 0.0001
user_based: True, name: cosine, k: 80, min_k: 1
Computing the cosine similarity matrix...
Done computing similarity matrix.
--- fit: 10.570052862167358 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [07:46<00:00,  2.14it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:06<00:00, 143.79it/s]


MRR@100 = 0.0001
user_based: True, name: cosine, k: 80, min_k: 10
Computing the cosine similarity matrix...
Done computing similarity matrix.
--- fit: 10.384103298187256 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [07:44<00:00,  2.15it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:04<00:00, 248.37it/s]


MRR@100 = 0.0039
user_based: True, name: cosine, k: 80, min_k: 50
Computing the cosine similarity matrix...
Done computing similarity matrix.
--- fit: 10.6804940700531 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [07:46<00:00,  2.14it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:03<00:00, 327.59it/s]


MRR@100 = 0.0110
user_based: True, name: msd, k: 10, min_k: 1
Computing the msd similarity matrix...
Done computing similarity matrix.
--- fit: 6.785077095031738 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [06:23<00:00,  2.60it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:06<00:00, 143.30it/s]


MRR@100 = 0.0017
user_based: True, name: msd, k: 10, min_k: 10
Computing the msd similarity matrix...
Done computing similarity matrix.
--- fit: 7.483663558959961 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [06:16<00:00,  2.66it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:04<00:00, 245.93it/s]


MRR@100 = 0.0270
user_based: True, name: msd, k: 10, min_k: 50
Computing the msd similarity matrix...
Done computing similarity matrix.
--- fit: 7.294931411743164 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [06:17<00:00,  2.65it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:01<00:00, 596.63it/s]


MRR@100 = 0.0001
user_based: True, name: msd, k: 40, min_k: 1
Computing the msd similarity matrix...
Done computing similarity matrix.
--- fit: 7.440545558929443 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [07:24<00:00,  2.25it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 140.05it/s]


MRR@100 = 0.0011
user_based: True, name: msd, k: 40, min_k: 10
Computing the msd similarity matrix...
Done computing similarity matrix.
--- fit: 7.499217748641968 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [07:20<00:00,  2.27it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:04<00:00, 241.90it/s]


MRR@100 = 0.0343
user_based: True, name: msd, k: 40, min_k: 50
Computing the msd similarity matrix...
Done computing similarity matrix.
--- fit: 7.125312089920044 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [07:19<00:00,  2.28it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:01<00:00, 531.86it/s]


MRR@100 = 0.0001
user_based: True, name: msd, k: 80, min_k: 1
Computing the msd similarity matrix...
Done computing similarity matrix.
--- fit: 6.998668193817139 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [07:50<00:00,  2.12it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:06<00:00, 146.99it/s]


MRR@100 = 0.0007
user_based: True, name: msd, k: 80, min_k: 10
Computing the msd similarity matrix...
Done computing similarity matrix.
--- fit: 7.378032445907593 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [07:52<00:00,  2.12it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:03<00:00, 275.14it/s]


MRR@100 = 0.0291
user_based: True, name: msd, k: 80, min_k: 50
Computing the msd similarity matrix...
Done computing similarity matrix.
--- fit: 5.583688735961914 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [07:58<00:00,  2.09it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:02<00:00, 381.61it/s]


MRR@100 = 0.0435
user_based: True, name: pearson, k: 10, min_k: 1
Computing the pearson similarity matrix...
Done computing similarity matrix.
--- fit: 12.628540992736816 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [05:41<00:00,  2.93it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:04<00:00, 234.86it/s]


MRR@100 = 0.0088
user_based: True, name: pearson, k: 10, min_k: 10
Computing the pearson similarity matrix...
Done computing similarity matrix.
--- fit: 12.86243462562561 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [06:28<00:00,  2.57it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:02<00:00, 335.97it/s]


MRR@100 = 0.0366
user_based: True, name: pearson, k: 10, min_k: 50
Computing the pearson similarity matrix...
Done computing similarity matrix.
--- fit: 16.109044313430786 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [06:01<00:00,  2.77it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:01<00:00, 537.26it/s]


MRR@100 = 0.0001
user_based: True, name: pearson, k: 40, min_k: 1
Computing the pearson similarity matrix...
Done computing similarity matrix.
--- fit: 13.083390712738037 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [06:37<00:00,  2.52it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:04<00:00, 221.09it/s]


MRR@100 = 0.0086
user_based: True, name: pearson, k: 40, min_k: 10
Computing the pearson similarity matrix...
Done computing similarity matrix.
--- fit: 13.038182973861694 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [06:22<00:00,  2.61it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:02<00:00, 388.76it/s]


MRR@100 = 0.0510
user_based: True, name: pearson, k: 40, min_k: 50
Computing the pearson similarity matrix...
Done computing similarity matrix.
--- fit: 13.371910333633423 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [07:20<00:00,  2.27it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:02<00:00, 437.83it/s]


MRR@100 = 0.0001
user_based: True, name: pearson, k: 80, min_k: 1
Computing the pearson similarity matrix...
Done computing similarity matrix.
--- fit: 14.628333806991577 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [06:47<00:00,  2.45it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:04<00:00, 219.53it/s]


MRR@100 = 0.0086
user_based: True, name: pearson, k: 80, min_k: 10
Computing the pearson similarity matrix...
Done computing similarity matrix.
--- fit: 13.249076128005981 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [07:06<00:00,  2.34it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:02<00:00, 366.50it/s]


MRR@100 = 0.0511
user_based: True, name: pearson, k: 80, min_k: 50
Computing the pearson similarity matrix...
Done computing similarity matrix.
--- fit: 14.128644466400146 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [07:08<00:00,  2.34it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:02<00:00, 461.72it/s]


MRR@100 = 0.0479
user_based: True, name: pearson_baseline, k: 10, min_k: 1
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 12.009340524673462 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [06:43<00:00,  2.48it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 137.16it/s]


MRR@100 = 0.0108
user_based: True, name: pearson_baseline, k: 10, min_k: 10
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 13.271719217300415 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [07:01<00:00,  2.37it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:03<00:00, 312.69it/s]


MRR@100 = 0.0522
user_based: True, name: pearson_baseline, k: 10, min_k: 50
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 12.440107345581055 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [08:17<00:00,  2.01it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:01<00:00, 526.16it/s]


MRR@100 = 0.0001
user_based: True, name: pearson_baseline, k: 40, min_k: 1
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 12.746691465377808 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [08:44<00:00,  1.91it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:08<00:00, 124.92it/s]


MRR@100 = 0.0096
user_based: True, name: pearson_baseline, k: 40, min_k: 10
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 20.52140760421753 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [09:04<00:00,  1.84it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:04<00:00, 240.46it/s]


MRR@100 = 0.0550
user_based: True, name: pearson_baseline, k: 40, min_k: 50
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 13.722412347793579 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [09:07<00:00,  1.83it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:02<00:00, 419.60it/s]


MRR@100 = 0.0001
user_based: True, name: pearson_baseline, k: 80, min_k: 1
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 13.704230308532715 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [09:17<00:00,  1.79it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:07<00:00, 126.32it/s]


MRR@100 = 0.0088
user_based: True, name: pearson_baseline, k: 80, min_k: 10
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 14.218116521835327 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [09:11<00:00,  1.81it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:04<00:00, 247.70it/s]


MRR@100 = 0.0541
user_based: True, name: pearson_baseline, k: 80, min_k: 50
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 13.647122621536255 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [09:38<00:00,  1.73it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:02<00:00, 337.84it/s]


MRR@100 = 0.0487


# RATING_PART

In [12]:
%%time

reader = Reader(rating_scale=(0, 1))
dataset = Dataset.load_from_df(data[['uid', 'iid', 'rating_part']], reader)
trainset = dataset.build_full_trainset()

CPU times: total: 797 ms
Wall time: 790 ms


In [15]:
optimize(k=40, 
         min_k=10,
         user_based=True,
         name='pearson_baseline',
         verbose=True)

Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 16.32907724380493 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [10:09<00:00,  1.64it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:04<00:00, 213.16it/s]


MRR@100 = 0.0579


## Best

In [16]:
%%time

reader = Reader(rating_scale=(0, 1))
dataset = Dataset.load_from_df(data[['uid', 'iid', 'rating_part']], reader)
trainset = dataset.build_full_trainset()

CPU times: total: 891 ms
Wall time: 885 ms


In [17]:
for k in [30, 40, 50]:
    for min_k in [5, 10, 20]:
        print(f'k: {k}, min_k: {min_k}')
        optimize(k=k, 
                 min_k=min_k,
                 user_based=True,
                 name='pearson_baseline',
                 verbose=True)

k: 30, min_k: 5
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 15.757535934448242 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [09:34<00:00,  1.74it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:04<00:00, 207.01it/s]


MRR@100 = 0.0438
k: 30, min_k: 10
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 14.087469100952148 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [09:31<00:00,  1.75it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:04<00:00, 234.67it/s]


MRR@100 = 0.0591
k: 30, min_k: 20
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 13.968966722488403 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [07:44<00:00,  2.15it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:02<00:00, 345.84it/s]


MRR@100 = 0.0548
k: 40, min_k: 5
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 12.170318603515625 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [07:19<00:00,  2.28it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:03<00:00, 281.28it/s]


MRR@100 = 0.0432
k: 40, min_k: 10
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 12.067975759506226 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [07:05<00:00,  2.35it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:03<00:00, 313.49it/s]


MRR@100 = 0.0579
k: 40, min_k: 20
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 11.910938262939453 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [08:03<00:00,  2.07it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:03<00:00, 268.29it/s]


MRR@100 = 0.0550
k: 50, min_k: 5
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 14.203569173812866 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [08:31<00:00,  1.96it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:03<00:00, 266.08it/s]


MRR@100 = 0.0421
k: 50, min_k: 10
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 12.178640842437744 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [07:07<00:00,  2.34it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:03<00:00, 321.02it/s]


MRR@100 = 0.0570
k: 50, min_k: 20
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
--- fit: 11.193395137786865 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [07:28<00:00,  2.23it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:03<00:00, 306.14it/s]


MRR@100 = 0.0549


In [18]:
optimize(k=30, 
         min_k=10,
         user_based=True,
         name='msd',
         verbose=True)

Computing the msd similarity matrix...
Done computing similarity matrix.
--- fit: 7.748192310333252 seconds ---


100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [08:44<00:00,  1.91it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:04<00:00, 226.66it/s]


MRR@100 = 0.0302


# Final best
k: 30, min_k: 10<br>
Estimating biases using als...<br>
Computing the pearson_baseline similarity matrix...<br>
Done computing similarity matrix.<br>
--- fit: 14.087469100952148 seconds ---<br>
100%|██████████████████████████████████████████████████████████████████████████████| 1000/1000 [09:31<00:00,  1.75it/s]<br>
100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:04<00:00, 234.67it/s]<br>
MRR@100 = 0.0591