## FunkSVD
У алгортима SVD есть два серьёзных минуса:
1. Он медленный, а значит чтобы применить к реальной матрице пользователь-элемент в которой будут тычсичи (если не миллионы) строк и колонок, будет почти невозможно.
2. Проблема разряженности, в реальности у каждого пользователя будет максимум 1% оцененных товаров, и заполнять остальные товары среднеми значениями (используя даже продвинутую технику базисных предикатов) не очень правильно.

Чтобы решить эту проблем был разработан FunkSVD. FunkSVD - принимает на вход не матрицу пользователей-товаров.А список всех оценок, то есть он принимает только выставленные оценки, и ему не нужно заполнять пропуски. Во вторых мы работаем со списком, а не с бесконечной матрицей, это должно повысить производительность.

In [30]:
import requests
import time
import pandas as pd
import surprise as surprise
import numpy as np
from decimal import Decimal
from scipy.sparse import coo_matrix
from scipy import sparse
from tqdm import tqdm
import random
from decimal import Decimal
from collections import defaultdict
import math
import sys

In [31]:
users_ratings = pd.read_csv("ratings.csv")
print(users_ratings.head())

   userId  movieId  rating  timestamp
0       1        1     4.0  964982703
1       1        3     4.0  964981247
2       1        6     4.0  964982224
3       1       47     5.0  964983815
4       1       50     5.0  964982931


In [32]:
users_ratings = users_ratings.drop('timestamp', axis=1)
# movie_data = pd.merge(ratings_data, movie_names, on='movieId')
users_ratings.head()

Unnamed: 0,userId,movieId,rating
0,1,1,4.0
1,1,3,4.0
2,1,6,4.0
3,1,47,5.0
4,1,50,5.0


In [33]:
def my_calculate_all_movies_mean(ratings):
    avg = ratings['rating'].sum() / ratings.shape[0]
    return Decimal(avg)

In [34]:
def my_initialize_factors(ratings, k=25):
        user_ids = set(ratings['userId'].values)
        movie_ids = set(ratings['movieId'].values)
        item_counts = ratings[['movieId', 'rating']].groupby('movieId').count()
        item_counts = item_counts.reset_index()
        print("ITEM COUNTS")
        print(item_counts)

        item_sum = ratings[['movieId', 'rating']].groupby('movieId').sum()
        item_sum = item_sum.reset_index()
        print(item_sum)

        u_inx = {r: i for i, r in enumerate(user_ids)}
        i_inx = {r: i for i, r in enumerate(movie_ids)}
#         i_inx строк, k колонок
        item_factors = np.full((len(i_inx), k), Decimal(0.1))
        user_factors = np.full((len(u_inx), k), Decimal(0.1))
        all_movies_mean = my_calculate_all_movies_mean(ratings)
        print("ALL MOVIES MEAN")
        print(all_movies_mean)
        user_bias = defaultdict(lambda: 0)
        item_bias = defaultdict(lambda: 0)
        
        return u_inx, i_inx, all_movies_mean, user_bias, item_bias, item_factors, user_factors

In [35]:
# стохастический градиентный спуск добавляет только один фактор (один для пользователя и один для элемента) за раз, новые факторы вычисляются на основе предыдущих
def my_stocastic_gradient_descent(factor, index_randomized, ratings, u_inx,i_inx,user_factors,item_factors,all_movies_mean,user_bias,item_bias):

#     Параметры нужно подбирать чтобы RMSE была минимальной
    #         скорость обучения
        lr = Decimal(0.2)
#     скорость обучения для отклонения
        b_lr = Decimal(0.5)
# регуляризация - сила штрафа
        r = Decimal(0.3)
    # регуляризация для отклонения - сила штрафа для отклонения
        bias_r = Decimal(0.3)

        for inx in index_randomized:
#             получаем строку - [user_index, movie_index, rating]
            rating_row = ratings[inx]

#     получаем индекс пользователя

            u = u_inx[rating_row[0]]
    #  получаем индекс элемента
            i = i_inx[rating_row[1]]
#         получаем рейтинг
            rating = Decimal(rating_row[2])

#     получаем ошибку
            err = (rating - my_predict(u, i,user_factors,item_factors,all_movies_mean,user_bias,item_bias))

    #     корректируем отклонения
            user_bias[u] += b_lr * (err - bias_r * user_bias[u])
            item_bias[i] += b_lr * (err - bias_r * item_bias[i])

#             получаем текущий фактор пользователя
            user_fac = user_factors[u][factor]
#             получаем текущий фактор элемента
            item_fac = item_factors[i][factor]

#     изменяем текущий фактор пользователя
            user_factors[u][factor] += lr * (err * item_fac- r * user_fac)
#     изменяем текущий фактор элемента                                                  
            item_factors[i][factor] += lr * (err * user_fac- r * item_fac)
                                                  
        return my_calculate_rmse(ratings, factor,u_inx,i_inx,user_factors,item_factors,all_movies_mean,user_bias,item_bias), user_bias,item_bias,user_factors,item_factors

In [36]:
#need to test
def my_calculate_rmse(ratings, factor,u_inx,i_inx,user_factors,item_factors,all_movies_mean,user_bias,item_bias):

        # row - [user_index, movie_index, rating]  
        def difference(row):
            
            user_index = u_inx[row[0]]
            item_index = i_inx[row[1]]

#             Вычисляем значение факторов для пользователя и фильма
            pq = np.dot(item_factors[item_index][:factor + 1], user_factors[user_index][:factor + 1].T)
#     Вычисляем смещение
            b_ui = all_movies_mean + user_bias[user_index] + item_bias[item_index]
#     получаем прогноз
            prediction = b_ui + pq
#     Вычитаем из прогноза реальную оценку и возводим в квадрат
            MSE = (prediction - Decimal(row[2])) ** 2
            return MSE

#         print(np.apply_along_axis(difference, 1, ratings))
#         np.apply_along_axis(difference, 1, ratings) список ошибок для каждой ошибки
# проссумируем их, разделим на количество строк и получим среднюю ошибку
# Извлечём квадрат из средней ошибки, так как раньше мы возвели в квадрат.
        squared = np.apply_along_axis(difference, 1, ratings).sum()
        print("RMSE: ",math.sqrt(squared / ratings.shape[0]))
        return math.sqrt(squared / ratings.shape[0])

In [37]:
def my_predict(user_index, item_index,user_factors,item_factors,all_movies_mean,user_bias,item_bias):
        
#         item_factors[item_index] список факторов фильма, user_factors[user_index].T список факторов пользователя (транспонированный)
# перемножаем строку на столбец и получаем одно число (pq)
        pq = np.dot(item_factors[item_index], user_factors[user_index].T)
#     расчитываем отклонение
        b_ui = all_movies_mean + user_bias[user_index] + item_bias[item_index]
        prediction = b_ui + pq

#         нормализация прогноза от 1 до 10 включительно
        if prediction > 10:
            prediction = 10
        elif prediction < 1:
            prediction = 1
        return prediction

In [38]:
#iterations:номер итерации,
#градиентный спуск завершается когда достигнут придел итераций, или приращение становится очень маленьким < 0.01
def my_finished(iterations, last_err, current_err,MAX_ITERATIONS=100):
        if (iterations >= MAX_ITERATIONS):
            print("FULL")
        
        if iterations >= MAX_ITERATIONS or last_err - current_err < 0.001:
            return True
        else:
            return False

In [41]:
def my_train(ratings_df, k=40):
        
        u_inx, i_inx, all_movies_mean, user_bias, item_bias, item_factors, user_factors = my_initialize_factors(ratings_df, k)

        ratings = ratings_df[['userId', 'movieId', 'rating']].values
        index_randomized = random.sample(range(0, len(ratings)), (len(ratings) - 1))

        for factor in tqdm(range(k)):
            iterations = 0
            last_err = sys.maxsize
            iteration_err = sys.maxsize
            finished = False
            
            while not finished:
                iteration_err,user_bias,item_bias,user_factors,item_factors = my_stocastic_gradient_descent(factor,index_randomized, ratings, u_inx,i_inx,user_factors,item_factors,all_movies_mean,user_bias,item_bias)

                iterations += 1
                
                finished = my_finished(iterations,last_err,iteration_err)
                last_err = iteration_err

                

        return user_factors,item_factors,all_movies_mean,user_bias,item_bias,u_inx,i_inx

In [42]:
user_factors,item_factors,all_movies_mean,user_bias,item_bias,u_inx,i_inx = my_train(users_ratings,k=100)

  0%|                                                                                          | 0/100 [00:00<?, ?it/s]

ITEM COUNTS
      movieId  rating
0           1     215
1           2     110
2           3      52
3           4       7
4           5      49
...       ...     ...
9719   193581       1
9720   193583       1
9721   193585       1
9722   193587       1
9723   193609       1

[9724 rows x 2 columns]
      movieId  rating
0           1   843.0
1           2   377.5
2           3   169.5
3           4    16.5
4           5   150.5
...       ...     ...
9719   193581     4.0
9720   193583     3.5
9721   193585     3.5
9722   193587     3.5
9723   193609     4.0

[9724 rows x 2 columns]
ALL MOVIES MEAN
3.50155698361696199327752765384502708911895751953125
RMSE:  1.3927425882446731
RMSE:  1.3863378040730467
RMSE:  1.3847773657579228


  1%|▊                                                                                 | 1/100 [00:15<24:49, 15.04s/it]

RMSE:  1.3842220354414567
RMSE:  1.3777213954414584


  2%|█▋                                                                                | 2/100 [00:22<17:42, 10.84s/it]

RMSE:  1.3776336493809684
RMSE:  1.3719039987736315


  3%|██▍                                                                               | 3/100 [00:30<15:14,  9.43s/it]

RMSE:  1.371871294315839
RMSE:  1.3662072280394637


  4%|███▎                                                                              | 4/100 [00:38<14:09,  8.85s/it]

RMSE:  1.36618251574825
RMSE:  1.360563834231292


  5%|████                                                                              | 5/100 [00:46<13:30,  8.53s/it]

RMSE:  1.3605406737415062
RMSE:  1.354965081894592


  6%|████▉                                                                             | 6/100 [00:54<13:04,  8.34s/it]

RMSE:  1.3549428227303173
RMSE:  1.3494115831154911


  7%|█████▋                                                                            | 7/100 [01:02<12:45,  8.23s/it]

RMSE:  1.3493899733287364
RMSE:  1.343901150911512


  8%|██████▌                                                                           | 8/100 [01:10<12:37,  8.23s/it]

RMSE:  1.3438801461961445
RMSE:  1.3384337710489667


  9%|███████▍                                                                          | 9/100 [01:19<12:31,  8.25s/it]

RMSE:  1.33841334329049
RMSE:  1.3330094545403335


 10%|████████                                                                         | 10/100 [01:27<12:26,  8.29s/it]

RMSE:  1.3329895824244369
RMSE:  1.327628267057464


 11%|████████▉                                                                        | 11/100 [01:35<12:17,  8.29s/it]

RMSE:  1.3276089014706076
RMSE:  1.3222903351206083


 12%|█████████▋                                                                       | 12/100 [01:44<12:12,  8.32s/it]

RMSE:  1.322271396361491
RMSE:  1.3169957612275094


 13%|██████████▌                                                                      | 13/100 [01:52<12:10,  8.40s/it]

RMSE:  1.3169771906739929
RMSE:  1.311744746209118


 14%|███████████▎                                                                     | 14/100 [02:01<12:08,  8.47s/it]

RMSE:  1.3117265525973145
RMSE:  1.3065373895081174


 15%|████████████▏                                                                    | 15/100 [02:10<12:06,  8.54s/it]

RMSE:  1.3065195402272711
RMSE:  1.301373825699435


 16%|████████████▉                                                                    | 16/100 [02:18<12:01,  8.59s/it]

RMSE:  1.301356297224571
RMSE:  1.2962543643805822


 17%|█████████████▊                                                                   | 17/100 [02:27<11:59,  8.66s/it]

RMSE:  1.2962370479575904
RMSE:  1.2911791529785965


 18%|██████████████▌                                                                  | 18/100 [02:36<11:59,  8.78s/it]

RMSE:  1.2911620276498692
RMSE:  1.28614843407964


 19%|███████████████▍                                                                 | 19/100 [02:45<11:56,  8.84s/it]

RMSE:  1.286131558539362
RMSE:  1.281162423626529


 20%|████████████████▏                                                                | 20/100 [02:54<11:52,  8.90s/it]

RMSE:  1.281145782072785
RMSE:  1.2762214249744357


 21%|█████████████████                                                                | 21/100 [03:03<11:50,  8.99s/it]

RMSE:  1.2762050037762613
RMSE:  1.2713257528640742


 22%|█████████████████▊                                                               | 22/100 [03:13<11:47,  9.08s/it]

RMSE:  1.2713095326304535
RMSE:  1.266475694066446


 23%|██████████████████▋                                                              | 23/100 [03:22<11:44,  9.16s/it]

RMSE:  1.2664596572019944
RMSE:  1.2616715644709875


 24%|███████████████████▍                                                             | 24/100 [03:31<11:42,  9.24s/it]

RMSE:  1.2616556987044707
RMSE:  1.2569136987158598


 25%|████████████████████▎                                                            | 25/100 [03:41<11:45,  9.41s/it]

RMSE:  1.2568979838209944
RMSE:  1.2522024153833873


 26%|█████████████████████                                                            | 26/100 [03:51<11:49,  9.59s/it]

RMSE:  1.2521868409215584
RMSE:  1.2475380591618404


 27%|█████████████████████▊                                                           | 27/100 [04:01<11:50,  9.73s/it]

RMSE:  1.2475226364760523
RMSE:  1.2429210269447852


 28%|██████████████████████▋                                                          | 28/100 [04:11<11:47,  9.83s/it]

RMSE:  1.242905754379844
RMSE:  1.2383516969854438


 29%|███████████████████████▍                                                         | 29/100 [04:21<11:42,  9.89s/it]

RMSE:  1.2383365542135476
RMSE:  1.2338304385667933


 30%|████████████████████████▎                                                        | 30/100 [04:31<11:19,  9.71s/it]

RMSE:  1.233815421085141
RMSE:  1.2293575779829524


 31%|█████████████████████████                                                        | 31/100 [04:40<11:02,  9.60s/it]

RMSE:  1.2293427141250057
RMSE:  1.2249335823667515


 32%|█████████████████████████▉                                                       | 32/100 [04:49<10:49,  9.55s/it]

RMSE:  1.2249188353621199
RMSE:  1.2205588394680078


 33%|██████████████████████████▋                                                      | 33/100 [04:59<10:40,  9.55s/it]

RMSE:  1.2205442027172546
RMSE:  1.216233761093438


 34%|███████████████████████████▌                                                     | 34/100 [05:09<10:34,  9.61s/it]

RMSE:  1.2162192344548604
RMSE:  1.2119587498182793


 35%|████████████████████████████▎                                                    | 35/100 [05:18<10:23,  9.59s/it]

RMSE:  1.2119443449464173
RMSE:  1.20773426409714


 36%|█████████████████████████████▏                                                   | 36/100 [05:29<10:29,  9.84s/it]

RMSE:  1.207719963169292
RMSE:  1.2035604744802868


 37%|█████████████████████████████▉                                                   | 37/100 [05:39<10:20,  9.84s/it]

RMSE:  1.2035460965811648
RMSE:  1.1994373390991286


 38%|██████████████████████████████▊                                                  | 38/100 [05:48<10:09,  9.83s/it]

RMSE:  1.1994234685994405
RMSE:  1.1953659771530039


 39%|███████████████████████████████▌                                                 | 39/100 [05:58<10:03,  9.89s/it]

RMSE:  1.1953526070314593
RMSE:  1.1913469573700404


 40%|████████████████████████████████▍                                                | 40/100 [06:09<09:57,  9.96s/it]

RMSE:  1.1913339993290086
RMSE:  1.1873806171305197


 41%|█████████████████████████████████▏                                               | 41/100 [06:19<09:50, 10.01s/it]

RMSE:  1.187367784322549
RMSE:  1.183467402928125


 42%|██████████████████████████████████                                               | 42/100 [06:29<09:42, 10.04s/it]

RMSE:  1.1834546601786056
RMSE:  1.1796077615816962


 43%|██████████████████████████████████▊                                              | 43/100 [06:39<09:36, 10.11s/it]

RMSE:  1.17959511990407
RMSE:  1.1758021432485153


 44%|███████████████████████████████████▋                                             | 44/100 [06:49<09:31, 10.20s/it]

RMSE:  1.1757896059173938
RMSE:  1.172050989754099


 45%|████████████████████████████████████▍                                            | 45/100 [07:00<09:26, 10.31s/it]

RMSE:  1.1720385422981643
RMSE:  1.168354747864042


 46%|█████████████████████████████████████▎                                           | 46/100 [07:11<09:32, 10.60s/it]

RMSE:  1.1683423883639101
RMSE:  1.1647138664411392


 47%|██████████████████████████████████████                                           | 47/100 [07:22<09:16, 10.50s/it]

RMSE:  1.164701599876158
RMSE:  1.1611287946598312


 48%|██████████████████████████████████████▉                                          | 48/100 [07:32<09:02, 10.44s/it]

RMSE:  1.1611166214594053
RMSE:  1.1575999834396602


 49%|███████████████████████████████████████▋                                         | 49/100 [07:43<09:03, 10.65s/it]

RMSE:  1.1575879020635735
RMSE:  1.1541278838305071


 50%|████████████████████████████████████████▌                                        | 50/100 [07:54<08:59, 10.80s/it]

RMSE:  1.154115895594424
RMSE:  1.1507129513617969


 51%|█████████████████████████████████████████▎                                       | 51/100 [08:06<08:58, 11.00s/it]

RMSE:  1.1507010542513352
RMSE:  1.1473556316310025


 52%|██████████████████████████████████████████                                       | 52/100 [08:17<08:55, 11.16s/it]

RMSE:  1.1473438246761136
RMSE:  1.1440563720476777


 53%|██████████████████████████████████████████▉                                      | 53/100 [08:29<08:52, 11.33s/it]

RMSE:  1.1440446650358214
RMSE:  1.14081562456142


 54%|███████████████████████████████████████████▋                                     | 54/100 [08:41<08:51, 11.55s/it]

RMSE:  1.1408040160037491
RMSE:  1.1376338341228207


 55%|████████████████████████████████████████████▌                                    | 55/100 [08:53<08:47, 11.73s/it]

RMSE:  1.1376223213828813
RMSE:  1.1345114434701498


 56%|█████████████████████████████████████████████▎                                   | 56/100 [09:05<08:40, 11.82s/it]

RMSE:  1.1345000237625376
RMSE:  1.1314488839690058


 57%|██████████████████████████████████████████████▏                                  | 57/100 [09:18<08:39, 12.09s/it]

RMSE:  1.1314375566792794
RMSE:  1.1284465924206104


 58%|██████████████████████████████████████████████▉                                  | 58/100 [09:31<08:41, 12.41s/it]

RMSE:  1.128435368928329
RMSE:  1.1255050145415137


 59%|███████████████████████████████████████████████▊                                 | 59/100 [09:43<08:26, 12.36s/it]

RMSE:  1.125493896650299
RMSE:  1.122624594388885


 60%|████████████████████████████████████████████████▌                                | 60/100 [09:55<08:12, 12.30s/it]

RMSE:  1.1226135984863606
RMSE:  1.1198057649277209


 61%|█████████████████████████████████████████████████▍                               | 61/100 [10:08<07:58, 12.26s/it]

RMSE:  1.1197948702613154
RMSE:  1.1170488790749273


 62%|██████████████████████████████████████████████████▏                              | 62/100 [10:20<07:43, 12.20s/it]

RMSE:  1.1170381246501389
RMSE:  1.114354354369253


 63%|███████████████████████████████████████████████████                              | 63/100 [10:32<07:33, 12.24s/it]

RMSE:  1.1143436800595368
RMSE:  1.1117226299934464


 64%|███████████████████████████████████████████████████▊                             | 64/100 [10:44<07:21, 12.28s/it]

RMSE:  1.111712048999995
RMSE:  1.1091541328249612


 65%|████████████████████████████████████████████████████▋                            | 65/100 [10:57<07:11, 12.33s/it]

RMSE:  1.1091436637055299
RMSE:  1.106649269772654


 66%|█████████████████████████████████████████████████████▍                           | 66/100 [11:09<07:02, 12.41s/it]

RMSE:  1.1066389151626763
RMSE:  1.1042083939889933


 67%|██████████████████████████████████████████████████████▎                          | 67/100 [11:22<06:51, 12.46s/it]

RMSE:  1.1041982023524477
RMSE:  1.1018318843668917


 68%|███████████████████████████████████████████████████████                          | 68/100 [11:35<06:39, 12.48s/it]

RMSE:  1.1018218423351518
RMSE:  1.0995201777259802


 69%|███████████████████████████████████████████████████████▉                         | 69/100 [11:47<06:28, 12.54s/it]

RMSE:  1.099510236395902
RMSE:  1.0972735996073757


 70%|████████████████████████████████████████████████████████▋                        | 70/100 [12:00<06:18, 12.62s/it]

RMSE:  1.0972637670844434
RMSE:  1.095092544434326


 71%|█████████████████████████████████████████████████████████▌                       | 71/100 [12:13<06:07, 12.68s/it]

RMSE:  1.0950828227779938
RMSE:  1.09297738144275


 72%|██████████████████████████████████████████████████████████▎                      | 72/100 [12:26<05:56, 12.72s/it]

RMSE:  1.0929677788792744
RMSE:  1.090928481679531


 73%|███████████████████████████████████████████████████████████▏                     | 73/100 [12:39<05:45, 12.80s/it]

RMSE:  1.0909189883428572
RMSE:  1.0889461183335232


 74%|███████████████████████████████████████████████████████████▉                     | 74/100 [12:52<05:34, 12.87s/it]

RMSE:  1.0889367686825122
RMSE:  1.0870303617381154


 75%|████████████████████████████████████████████████████████████▊                    | 75/100 [13:05<05:26, 13.05s/it]

RMSE:  1.0870212912362547
RMSE:  1.085181735295365


 76%|█████████████████████████████████████████████████████████████▌                   | 76/100 [13:19<05:16, 13.18s/it]

RMSE:  1.0851727799026507
RMSE:  1.0834006958077416


 77%|██████████████████████████████████████████████████████████████▎                  | 77/100 [13:33<05:09, 13.44s/it]

RMSE:  1.0833918555838409
RMSE:  1.0816875535770907


 78%|███████████████████████████████████████████████████████████████▏                 | 78/100 [13:47<04:59, 13.63s/it]

RMSE:  1.081678842195465
RMSE:  1.0800426122522917


 79%|███████████████████████████████████████████████████████████████▉                 | 79/100 [14:01<04:47, 13.70s/it]

RMSE:  1.0800340284631291
RMSE:  1.0784661385079692


 80%|████████████████████████████████████████████████████████████████▊                | 80/100 [14:15<04:36, 13.82s/it]

RMSE:  1.0784576959904397
RMSE:  1.0769584117690245


 81%|█████████████████████████████████████████████████████████████████▌               | 81/100 [14:29<04:23, 13.89s/it]

RMSE:  1.076950101815135
RMSE:  1.0755196799284845


 82%|██████████████████████████████████████████████████████████████████▍              | 82/100 [14:43<04:11, 13.95s/it]

RMSE:  1.0755114842505935
RMSE:  1.074150200086893


 83%|███████████████████████████████████████████████████████████████████▏             | 83/100 [14:57<03:58, 14.03s/it]

RMSE:  1.0741421362639145
RMSE:  1.072850227288706


 84%|████████████████████████████████████████████████████████████████████             | 84/100 [15:11<03:44, 14.02s/it]

RMSE:  1.0728423091834798
RMSE:  1.07162000616074


 85%|████████████████████████████████████████████████████████████████████▊            | 85/100 [15:25<03:30, 14.00s/it]

RMSE:  1.0716122315772356
RMSE:  1.0704597548792316


 86%|█████████████████████████████████████████████████████████████████████▋           | 86/100 [15:39<03:16, 14.02s/it]

RMSE:  1.0704521231459396
RMSE:  1.0693696747200894


 87%|██████████████████████████████████████████████████████████████████████▍          | 87/100 [15:54<03:04, 14.16s/it]

RMSE:  1.069362199591363
RMSE:  1.0683499744870095


 88%|███████████████████████████████████████████████████████████████████████▎         | 88/100 [16:08<02:52, 14.40s/it]

RMSE:  1.0683426463429015
RMSE:  1.0674007887585102


 89%|████████████████████████████████████████████████████████████████████████         | 89/100 [16:24<02:40, 14.63s/it]

RMSE:  1.0673936416803835
RMSE:  1.0665222670396608


 90%|████████████████████████████████████████████████████████████████████████▉        | 90/100 [16:39<02:27, 14.72s/it]

RMSE:  1.0665153295317273
RMSE:  1.06571461012445


 91%|█████████████████████████████████████████████████████████████████████████▋       | 91/100 [16:53<02:12, 14.74s/it]

RMSE:  1.0657078529588964
RMSE:  1.064977965368071


 92%|██████████████████████████████████████████████████████████████████████████▌      | 92/100 [17:08<01:57, 14.70s/it]

RMSE:  1.0649713685208841
RMSE:  1.0643124382545754


 93%|███████████████████████████████████████████████████████████████████████████▎     | 93/100 [17:23<01:43, 14.73s/it]

RMSE:  1.0643060222035687
RMSE:  1.0637181612118352


 94%|████████████████████████████████████████████████████████████████████████████▏    | 94/100 [17:38<01:28, 14.81s/it]

RMSE:  1.0637119202767151
RMSE:  1.0631952222599093


 95%|████████████████████████████████████████████████████████████████████████████▉    | 95/100 [17:53<01:14, 14.89s/it]

RMSE:  1.0631891589177893
RMSE:  1.0627437057430082


 96%|█████████████████████████████████████████████████████████████████████████████▊   | 96/100 [18:08<01:00, 15.05s/it]

RMSE:  1.0627378206409048
RMSE:  1.0623636885520094


 97%|██████████████████████████████████████████████████████████████████████████████▌  | 97/100 [18:24<00:45, 15.21s/it]

RMSE:  1.0623580012639353
RMSE:  1.0620552535360743


 98%|███████████████████████████████████████████████████████████████████████████████▍ | 98/100 [18:40<00:30, 15.39s/it]

RMSE:  1.0620497391623895
RMSE:  1.0618184348228867


 99%|████████████████████████████████████████████████████████████████████████████████▏| 99/100 [18:55<00:15, 15.43s/it]

RMSE:  1.0618131080968929
RMSE:  1.061653267656159


100%|████████████████████████████████████████████████████████████████████████████████| 100/100 [19:11<00:00, 11.52s/it]

RMSE:  1.0616481203712327





In [43]:
user_index = u_inx[1]
item_index = i_inx[47]
print(my_predict(user_index, item_index,user_factors,item_factors,all_movies_mean,user_bias,item_bias))

4.651974008705397155115448911


In [44]:
user_movie_rating = users_ratings.pivot_table(index='userId', columns='movieId', values='rating')
user_movie_rating.head()

movieId,1,2,3,4,5,6,7,8,9,10,...,193565,193567,193571,193573,193579,193581,193583,193585,193587,193609
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,4.0,,4.0,,,4.0,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,
5,4.0,,,,,,,,,,...,,,,,,,,,,


In [45]:
for rowIndex, row in tqdm(user_movie_rating.iterrows()): #iterate over rows
    for columnIndex, value in row.items():
        user_movie_rating.loc[rowIndex][columnIndex]=my_predict(user_index, item_index,user_factors,item_factors,all_movies_mean,user_bias,item_bias)

610it [07:40,  1.33it/s]


In [46]:
user_movie_rating.head()

movieId,1,2,3,4,5,6,7,8,9,10,...,193565,193567,193571,193573,193579,193581,193583,193585,193587,193609
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,...,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974
2,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,...,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974
3,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,...,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974
4,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,...,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974
5,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,...,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974


In [47]:
user_movie_rating.to_csv('FunkSVD_user_movie_rating.csv',index=False)

In [48]:
loaded_data = pd.read_csv("FunkSVD_user_movie_rating.csv")
user_movie_rating.head()

movieId,1,2,3,4,5,6,7,8,9,10,...,193565,193567,193571,193573,193579,193581,193583,193585,193587,193609
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,...,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974
2,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,...,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974
3,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,...,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974
4,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,...,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974
5,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,...,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974,4.651974


In [52]:
user_movie_rating.loc[1,47]

4.651974008705397