In [1]:
! curl http://files.grouplens.org/datasets/movielens/ml-latest-small.zip -o ml-latest-small.zip

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed

  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
  4  955k    4 44735    0     0  33498      0  0:00:29  0:00:01  0:00:28 33534
 33  955k   33  317k    0     0   141k      0  0:00:06  0:00:02  0:00:04  141k
 70  955k   70  671k    0     0   196k      0  0:00:04  0:00:03  0:00:01  196k
100  955k  100  955k    0     0   230k      0  0:00:04  0:00:04 --:--:--  230k


In [2]:
import zipfile
with zipfile.ZipFile('ml-latest-small.zip', 'r') as zip_ref:
    zip_ref.extractall('data')

In [3]:
import pandas as pd
movies_df = pd.read_csv('data/ml-latest-small/movies.csv')
ratings_df = pd.read_csv('data/ml-latest-small/ratings.csv')

In [4]:
print('The dimensions of movies dataframe are:', movies_df.shape,'\nThe dimensions of ratings dataframe are:', ratings_df.shape)

The dimensions of movies dataframe are: (9742, 3) 
The dimensions of ratings dataframe are: (100836, 4)


In [5]:
movies_df.head()

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


In [6]:
ratings_df.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


In [7]:
movie_names = movies_df.set_index('movieId')['title'].to_dict()
n_users = len(ratings_df.userId.unique())
n_items = len(ratings_df.movieId.unique())
print("Number of unique users:", n_users)
print("Number of unique movies:", n_items)
print("The full rating matrix will have:", n_users*n_items, 'elements.')
print('----------')
print("Number of ratings:", len(ratings_df))
print("Therefore: ", len(ratings_df) / (n_users*n_items) * 100, '% of the matrix is filled.')
print("We have an incredibly sparse matrix to work with here.")
print("And... as you can imagine, as the number of users and products grow, the number of elements will increase by n*2")
print("You are going to need a lot of memory to work with global scale... storing a full matrix in memory would be a challenge.")
print("One advantage here is that matrix factorization can realize the rating matrix implicitly, thus we don't need all the data")
     

Number of unique users: 610
Number of unique movies: 9724
The full rating matrix will have: 5931640 elements.
----------
Number of ratings: 100836
Therefore:  1.6999683055613624 % of the matrix is filled.
We have an incredibly sparse matrix to work with here.
And... as you can imagine, as the number of users and products grow, the number of elements will increase by n*2
You are going to need a lot of memory to work with global scale... storing a full matrix in memory would be a challenge.
One advantage here is that matrix factorization can realize the rating matrix implicitly, thus we don't need all the data


In [9]:
pip install torch

Collecting torch
  Downloading torch-2.6.0-cp312-cp312-win_amd64.whl.metadata (28 kB)
Collecting filelock (from torch)
  Downloading filelock-3.17.0-py3-none-any.whl.metadata (2.9 kB)
Collecting networkx (from torch)
  Downloading networkx-3.4.2-py3-none-any.whl.metadata (6.3 kB)
Collecting fsspec (from torch)
  Downloading fsspec-2025.3.0-py3-none-any.whl.metadata (11 kB)
Collecting sympy==1.13.1 (from torch)
  Downloading sympy-1.13.1-py3-none-any.whl.metadata (12 kB)
Collecting mpmath<1.4,>=1.1.0 (from sympy==1.13.1->torch)
  Downloading mpmath-1.3.0-py3-none-any.whl.metadata (8.6 kB)
Downloading torch-2.6.0-cp312-cp312-win_amd64.whl (204.1 MB)
   ---------------------------------------- 0.0/204.1 MB ? eta -:--:--
   ---------------------------------------- 1.0/204.1 MB 6.3 MB/s eta 0:00:33
    --------------------------------------- 2.6/204.1 MB 8.9 MB/s eta 0:00:23
    --------------------------------------- 4.7/204.1 MB 7.9 MB/s eta 0:00:26
   - ----------------------------------

In [14]:
import torch
import numpy as np
from torch.autograd import Variable
from tqdm import tqdm_notebook as tqdm

class MatrixFactorization(torch.nn.Module):
    def __init__(self, n_users, n_items, n_factors=20):
        super().__init__()
        self.user_factors = torch.nn.Embedding(n_users, n_factors)
        self.item_factors = torch.nn.Embedding(n_items, n_factors)
        self.user_factors.weight.data.uniform_(0, 0.05)
        self.item_factors.weight.data.uniform_(0, 0.05)
        
    def forward(self, data):
        users, items = data[:,0], data[:,1]
        return (self.user_factors(users)*self.item_factors(items)).sum(1)
    
    def predict(self, user, item):
        return self.forward(user, item)

In [15]:
from torch.utils.data.dataset import Dataset
from torch.utils.data import DataLoader

class Loader(Dataset):
    def __init__(self):
        self.ratings = ratings_df.copy()
        
        users = ratings_df.userId.unique()
        movies = ratings_df.movieId.unique()
        
        self.userid2idx = {o:i for i,o in enumerate(users)}
        self.movieid2idx = {o:i for i,o in enumerate(movies)}
        
        self.idx2userid = {i:o for o,i in self.userid2idx.items()}
        self.idx2movieid = {i:o for o,i in self.movieid2idx.items()}
        
        self.ratings.movieId = ratings_df.movieId.apply(lambda x: self.movieid2idx[x])
        self.ratings.userId = ratings_df.userId.apply(lambda x: self.userid2idx[x])
        
        
        self.x = self.ratings.drop(['rating', 'timestamp'], axis=1).values
        self.y = self.ratings['rating'].values
        self.x, self.y = torch.tensor(self.x), torch.tensor(self.y)

    def __getitem__(self, index):
        return (self.x[index], self.y[index])

    def __len__(self):
        return len(self.ratings)

In [28]:
num_epochs = 128
cuda = torch.cuda.is_available()

print("Is running on GPU:", cuda)

model = MatrixFactorization(n_users, n_items, n_factors=8)
print(model)
for name, param in model.named_parameters():
    if param.requires_grad:
        print(name, param.data)
if cuda:
    model = model.cuda()

loss_fn = torch.nn.MSELoss()

optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)

train_set = Loader()
train_loader = DataLoader(train_set, 128, shuffle=True)

Is running on GPU: False
MatrixFactorization(
  (user_factors): Embedding(610, 8)
  (item_factors): Embedding(9724, 8)
)
user_factors.weight tensor([[0.0261, 0.0215, 0.0395,  ..., 0.0425, 0.0124, 0.0216],
        [0.0310, 0.0238, 0.0010,  ..., 0.0484, 0.0007, 0.0396],
        [0.0455, 0.0343, 0.0400,  ..., 0.0462, 0.0176, 0.0262],
        ...,
        [0.0393, 0.0033, 0.0487,  ..., 0.0277, 0.0461, 0.0113],
        [0.0024, 0.0147, 0.0171,  ..., 0.0330, 0.0391, 0.0184],
        [0.0325, 0.0205, 0.0400,  ..., 0.0262, 0.0219, 0.0025]])
item_factors.weight tensor([[0.0307, 0.0135, 0.0265,  ..., 0.0102, 0.0285, 0.0056],
        [0.0031, 0.0235, 0.0093,  ..., 0.0355, 0.0219, 0.0081],
        [0.0004, 0.0143, 0.0443,  ..., 0.0426, 0.0062, 0.0291],
        ...,
        [0.0027, 0.0007, 0.0184,  ..., 0.0176, 0.0313, 0.0362],
        [0.0250, 0.0060, 0.0210,  ..., 0.0366, 0.0297, 0.0080],
        [0.0435, 0.0094, 0.0278,  ..., 0.0299, 0.0369, 0.0289]])


In [31]:
from tqdm import tqdm 

for it in tqdm(range(num_epochs)):
    losses = []
    for x, y in train_loader:
        if cuda:
            x, y = x.cuda(), y.cuda()
        optimizer.zero_grad()
        outputs = model(x)
        loss = loss_fn(outputs.squeeze(), y.type(torch.float32))
        losses.append(loss.item())
        loss.backward()
        optimizer.step()
    print("iter #{}".format(it), "Loss:", sum(losses) / len(losses))






[A[A[A[A                                                                                                                                                                            | 0/128 [00:00<?, ?it/s]



[A[A[A[A                                                                                                                                                                    | 1/128 [00:01<02:18,  1.09s/it]

iter #0 Loss: 0.32721169357221136






[A[A[A[A                                                                                                                                                                    | 2/128 [00:02<02:17,  1.09s/it]

iter #1 Loss: 0.32670211531032767






[A[A[A[A                                                                                                                                                                    | 3/128 [00:03<02:15,  1.09s/it]

iter #2 Loss: 0.3262679220796539






[A[A[A[A                                                                                                                                                                    | 4/128 [00:04<02:13,  1.08s/it]

iter #3 Loss: 0.3257331711235385






[A[A[A[A                                                                                                                                                                    | 5/128 [00:05<02:11,  1.07s/it]

iter #4 Loss: 0.3254053381456034






[A[A[A[A█                                                                                                                                                                   | 6/128 [00:06<02:12,  1.09s/it]

iter #5 Loss: 0.32483767825864296






[A[A[A[AException ignored in: <function tqdm.__del__ at 0x0000015E96062700>                                                                                                 | 7/128 [00:07<02:11,  1.08s/it]
Traceback (most recent call last):
  File "C:\Users\Lenovo\AppData\Local\Programs\Python\Python312\Lib\site-packages\tqdm\std.py", line 1148, in __del__
    self.close()
  File "C:\Users\Lenovo\AppData\Local\Programs\Python\Python312\Lib\site-packages\tqdm\notebook.py", line 279, in close
    self.disp(bar_style='danger', check_delay=False)
    ^^^^^^^^^
AttributeError: 'tqdm_notebook' object has no attribute 'disp'


iter #6 Loss: 0.32465583467997877






[A[A[A[A███▋                                                                                                                                                                | 8/128 [00:08<02:09,  1.08s/it]

iter #7 Loss: 0.32388624537565985






[A[A[A[A█████                                                                                                                                                               | 9/128 [00:09<02:08,  1.08s/it]

iter #8 Loss: 0.32374842209637467






[A[A[A[A██████▎                                                                                                                                                            | 10/128 [00:10<02:07,  1.08s/it]

iter #9 Loss: 0.3231514441936754






[A[A[A[A███████▌                                                                                                                                                           | 11/128 [00:11<02:04,  1.06s/it]

iter #10 Loss: 0.3228616874457011






[A[A[A[A████████▉                                                                                                                                                          | 12/128 [00:12<02:02,  1.05s/it]

iter #11 Loss: 0.32242502739208606






[A[A[A[A██████████▎                                                                                                                                                        | 13/128 [00:14<02:05,  1.09s/it]

iter #12 Loss: 0.32193688074419946






[A[A[A[A███████████▌                                                                                                                                                       | 14/128 [00:15<02:04,  1.09s/it]

iter #13 Loss: 0.3217055475916052






[A[A[A[A████████████▉                                                                                                                                                      | 15/128 [00:16<02:03,  1.09s/it]

iter #14 Loss: 0.32130514368944363






[A[A[A[A██████████████▎                                                                                                                                                    | 16/128 [00:17<02:01,  1.08s/it]

iter #15 Loss: 0.3208973585689431






[A[A[A[A███████████████▌                                                                                                                                                   | 17/128 [00:18<02:02,  1.10s/it]

iter #16 Loss: 0.32055439126824364






[A[A[A[A████████████████▉                                                                                                                                                  | 18/128 [00:19<02:00,  1.09s/it]

iter #17 Loss: 0.32027672900615006






[A[A[A[A██████████████████▏                                                                                                                                                | 19/128 [00:20<01:58,  1.09s/it]

iter #18 Loss: 0.31992483008558376






[A[A[A[A███████████████████▌                                                                                                                                               | 20/128 [00:21<01:55,  1.07s/it]

iter #19 Loss: 0.3195507892875502






[A[A[A[A████████████████████▉                                                                                                                                              | 21/128 [00:22<01:56,  1.08s/it]

iter #20 Loss: 0.31922130712170893






[A[A[A[A██████████████████████▏                                                                                                                                            | 22/128 [00:23<01:53,  1.07s/it]

iter #21 Loss: 0.31884712816646255






[A[A[A[A███████████████████████▌                                                                                                                                           | 23/128 [00:24<01:50,  1.06s/it]

iter #22 Loss: 0.3187068512256678






[A[A[A[A████████████████████████▉                                                                                                                                          | 24/128 [00:25<01:48,  1.04s/it]

iter #23 Loss: 0.3183223985816319






[A[A[A[A██████████████████████████▏                                                                                                                                        | 25/128 [00:26<01:47,  1.05s/it]

iter #24 Loss: 0.3177900789731045






[A[A[A[A███████████████████████████▌                                                                                                                                       | 26/128 [00:27<01:45,  1.04s/it]

iter #25 Loss: 0.31767197618932286






[A[A[A[A████████████████████████████▊                                                                                                                                      | 27/128 [00:28<01:45,  1.04s/it]

iter #26 Loss: 0.3174530035121187






[A[A[A[A██████████████████████████████▏                                                                                                                                    | 28/128 [00:30<01:45,  1.05s/it]

iter #27 Loss: 0.3171012080676362






[A[A[A[A███████████████████████████████▌                                                                                                                                   | 29/128 [00:31<01:45,  1.07s/it]

iter #28 Loss: 0.3167332635653503






[A[A[A[A████████████████████████████████▊                                                                                                                                  | 30/128 [00:32<01:45,  1.08s/it]

iter #29 Loss: 0.31647789211669547






[A[A[A[A██████████████████████████████████▏                                                                                                                                | 31/128 [00:33<01:43,  1.07s/it]

iter #30 Loss: 0.3162096286674744






[A[A[A[A███████████████████████████████████▌                                                                                                                               | 32/128 [00:34<01:43,  1.08s/it]

iter #31 Loss: 0.3159576669751388






[A[A[A[A████████████████████████████████████▊                                                                                                                              | 33/128 [00:35<01:41,  1.07s/it]

iter #32 Loss: 0.31571091061013606






[A[A[A[A██████████████████████████████████████▏                                                                                                                            | 34/128 [00:36<01:40,  1.07s/it]

iter #33 Loss: 0.31534551197502214






[A[A[A[A███████████████████████████████████████▍                                                                                                                           | 35/128 [00:37<01:39,  1.07s/it]

iter #34 Loss: 0.31501250417175025






[A[A[A[A████████████████████████████████████████▊                                                                                                                          | 36/128 [00:38<01:38,  1.07s/it]

iter #35 Loss: 0.31492985597797457






[A[A[A[A██████████████████████████████████████████▏                                                                                                                        | 37/128 [00:39<01:37,  1.07s/it]

iter #36 Loss: 0.3146225546633229






[A[A[A[A███████████████████████████████████████████▍                                                                                                                       | 38/128 [00:40<01:36,  1.07s/it]

iter #37 Loss: 0.3142815691225117






[A[A[A[A████████████████████████████████████████████▊                                                                                                                      | 39/128 [00:41<01:35,  1.08s/it]

iter #38 Loss: 0.3141533952716946






[A[A[A[A██████████████████████████████████████████████▏                                                                                                                    | 40/128 [00:42<01:35,  1.09s/it]

iter #39 Loss: 0.3138630489067075






[A[A[A[A███████████████████████████████████████████████▍                                                                                                                   | 41/128 [00:44<01:33,  1.08s/it]

iter #40 Loss: 0.31369588130773024






[A[A[A[A████████████████████████████████████████████████▊                                                                                                                  | 42/128 [00:45<01:31,  1.06s/it]

iter #41 Loss: 0.31318136885157094






[A[A[A[A██████████████████████████████████████████████████                                                                                                                 | 43/128 [00:46<01:31,  1.07s/it]

iter #42 Loss: 0.3131270559532993






[A[A[A[A███████████████████████████████████████████████████▍                                                                                                               | 44/128 [00:47<01:31,  1.08s/it]

iter #43 Loss: 0.3131290578524473






[A[A[A[A████████████████████████████████████████████████████▊                                                                                                              | 45/128 [00:48<01:29,  1.08s/it]

iter #44 Loss: 0.31275928640728673






[A[A[A[A██████████████████████████████████████████████████████                                                                                                             | 46/128 [00:49<01:28,  1.07s/it]

iter #45 Loss: 0.3124208556403061






[A[A[A[A███████████████████████████████████████████████████████▍                                                                                                           | 47/128 [00:50<01:26,  1.07s/it]

iter #46 Loss: 0.3122972976132698






[A[A[A[A████████████████████████████████████████████████████████▊                                                                                                          | 48/128 [00:51<01:24,  1.06s/it]

iter #47 Loss: 0.31206362447725033






[A[A[A[A██████████████████████████████████████████████████████████                                                                                                         | 49/128 [00:52<01:23,  1.05s/it]

iter #48 Loss: 0.3119186463619247






[A[A[A[A███████████████████████████████████████████████████████████▍                                                                                                       | 50/128 [00:53<01:23,  1.06s/it]

iter #49 Loss: 0.31151360146663515






[A[A[A[A████████████████████████████████████████████████████████████▋                                                                                                      | 51/128 [00:54<01:23,  1.09s/it]

iter #50 Loss: 0.3114518369666211






[A[A[A[A██████████████████████████████████████████████████████████████                                                                                                     | 52/128 [00:55<01:23,  1.09s/it]

iter #51 Loss: 0.31127730845875545






[A[A[A[A███████████████████████████████████████████████████████████████▍                                                                                                   | 53/128 [00:56<01:22,  1.09s/it]

iter #52 Loss: 0.3110373975132322






[A[A[A[A████████████████████████████████████████████████████████████████▋                                                                                                  | 54/128 [00:58<01:21,  1.10s/it]

iter #53 Loss: 0.31079014628974316






[A[A[A[A██████████████████████████████████████████████████████████████████                                                                                                 | 55/128 [00:59<01:21,  1.11s/it]

iter #54 Loss: 0.31055599205233725






[A[A[A[A███████████████████████████████████████████████████████████████████▍                                                                                               | 56/128 [01:00<01:20,  1.11s/it]

iter #55 Loss: 0.3104320278362877






[A[A[A[A████████████████████████████████████████████████████████████████████▋                                                                                              | 57/128 [01:01<01:17,  1.10s/it]

iter #56 Loss: 0.3100182130403325






[A[A[A[A██████████████████████████████████████████████████████████████████████                                                                                             | 58/128 [01:02<01:15,  1.08s/it]

iter #57 Loss: 0.30993254484637134






[A[A[A[A███████████████████████████████████████████████████████████████████████▎                                                                                           | 59/128 [01:03<01:15,  1.09s/it]

iter #58 Loss: 0.30965445113136686






[A[A[A[A████████████████████████████████████████████████████████████████████████▋                                                                                          | 60/128 [01:04<01:13,  1.09s/it]

iter #59 Loss: 0.3097589755156621






[A[A[A[A██████████████████████████████████████████████████████████████████████████                                                                                         | 61/128 [01:05<01:11,  1.07s/it]

iter #60 Loss: 0.30949041843036107






[A[A[A[A███████████████████████████████████████████████████████████████████████████▎                                                                                       | 62/128 [01:06<01:09,  1.05s/it]

iter #61 Loss: 0.30929487599485417






[A[A[A[A████████████████████████████████████████████████████████████████████████████▋                                                                                      | 63/128 [01:07<01:09,  1.07s/it]

iter #62 Loss: 0.3089935848404308






[A[A[A[A██████████████████████████████████████████████████████████████████████████████                                                                                     | 64/128 [01:08<01:09,  1.08s/it]

iter #63 Loss: 0.30894282878125984






[A[A[A[A███████████████████████████████████████████████████████████████████████████████▎                                                                                   | 65/128 [01:10<01:09,  1.10s/it]

iter #64 Loss: 0.3086058433890948






[A[A[A[A████████████████████████████████████████████████████████████████████████████████▋                                                                                  | 66/128 [01:11<01:09,  1.13s/it]

iter #65 Loss: 0.3086210921936229






[A[A[A[A█████████████████████████████████████████████████████████████████████████████████▉                                                                                 | 67/128 [01:12<01:07,  1.11s/it]

iter #66 Loss: 0.3083480557776647






[A[A[A[A███████████████████████████████████████████████████████████████████████████████████▎                                                                               | 68/128 [01:13<01:05,  1.09s/it]

iter #67 Loss: 0.3082081273122487






[A[A[A[A████████████████████████████████████████████████████████████████████████████████████▋                                                                              | 69/128 [01:14<01:04,  1.09s/it]

iter #68 Loss: 0.3081538913591864






[A[A[A[A█████████████████████████████████████████████████████████████████████████████████████▉                                                                             | 70/128 [01:15<01:02,  1.08s/it]

iter #69 Loss: 0.3079109887029919






[A[A[A[A███████████████████████████████████████████████████████████████████████████████████████▎                                                                           | 71/128 [01:16<01:01,  1.08s/it]

iter #70 Loss: 0.30771283020601053






[A[A[A[A████████████████████████████████████████████████████████████████████████████████████████▋                                                                          | 72/128 [01:17<00:59,  1.07s/it]

iter #71 Loss: 0.30757040740345337






[A[A[A[A█████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 73/128 [01:18<00:57,  1.05s/it]

iter #72 Loss: 0.3075515419093485






[A[A[A[A███████████████████████████████████████████████████████████████████████████████████████████▎                                                                       | 74/128 [01:19<00:56,  1.05s/it]

iter #73 Loss: 0.3071493534229431






[A[A[A[A████████████████████████████████████████████████████████████████████████████████████████████▌                                                                      | 75/128 [01:20<00:55,  1.04s/it]

iter #74 Loss: 0.3071068848487992






[A[A[A[A█████████████████████████████████████████████████████████████████████████████████████████████▉                                                                     | 76/128 [01:21<00:54,  1.05s/it]

iter #75 Loss: 0.3069705535766437






[A[A[A[A███████████████████████████████████████████████████████████████████████████████████████████████▎                                                                   | 77/128 [01:22<00:54,  1.07s/it]

iter #76 Loss: 0.30688901918793693






[A[A[A[A████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                  | 78/128 [01:23<00:54,  1.08s/it]

iter #77 Loss: 0.3065810228513582






[A[A[A[A█████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                 | 79/128 [01:25<00:53,  1.09s/it]

iter #78 Loss: 0.30654641324039644






[A[A[A[A███████████████████████████████████████████████████████████████████████████████████████████████████▎                                                               | 80/128 [01:26<00:51,  1.07s/it]

iter #79 Loss: 0.3064222693216377






[A[A[A[A████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                              | 81/128 [01:27<00:50,  1.07s/it]

iter #80 Loss: 0.3061348807425971






[A[A[A[A█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                             | 82/128 [01:28<00:48,  1.06s/it]

iter #81 Loss: 0.3059574368263259






[A[A[A[A███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                           | 83/128 [01:29<00:48,  1.08s/it]

iter #82 Loss: 0.3058854820499868






[A[A[A[A████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 84/128 [01:30<00:48,  1.11s/it]

iter #83 Loss: 0.3058591138212209






[A[A[A[A█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                         | 85/128 [01:31<00:47,  1.10s/it]

iter #84 Loss: 0.30578299335719367






[A[A[A[A███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                       | 86/128 [01:32<00:45,  1.08s/it]

iter #85 Loss: 0.3054628971264447






[A[A[A[A████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                      | 87/128 [01:33<00:43,  1.07s/it]

iter #86 Loss: 0.30529696352515123






[A[A[A[A█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 88/128 [01:34<00:43,  1.08s/it]

iter #87 Loss: 0.30534947894248865






[A[A[A[A███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                   | 89/128 [01:35<00:42,  1.08s/it]

iter #88 Loss: 0.3049975653855026






[A[A[A[A████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                  | 90/128 [01:36<00:41,  1.09s/it]

iter #89 Loss: 0.30505526924345094






[A[A[A[A█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 91/128 [01:38<00:40,  1.10s/it]

iter #90 Loss: 0.30494621106740183






[A[A[A[A███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                               | 92/128 [01:39<00:40,  1.12s/it]

iter #91 Loss: 0.30476956404178274






[A[A[A[A████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                              | 93/128 [01:40<00:38,  1.11s/it]

iter #92 Loss: 0.3046354179833141






[A[A[A[A█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                             | 94/128 [01:41<00:37,  1.09s/it]

iter #93 Loss: 0.30445231648568577






[A[A[A[A███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 95/128 [01:42<00:36,  1.11s/it]

iter #94 Loss: 0.30447853636469335






[A[A[A[A████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                          | 96/128 [01:43<00:35,  1.10s/it]

iter #95 Loss: 0.3041740499134294






[A[A[A[A█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                         | 97/128 [01:44<00:33,  1.09s/it]

iter #96 Loss: 0.3041379386700955






[A[A[A[A███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                       | 98/128 [01:45<00:32,  1.08s/it]

iter #97 Loss: 0.30402250831880545






[A[A[A[A████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                      | 99/128 [01:46<00:31,  1.09s/it]

iter #98 Loss: 0.3039060199283404






[A[A[A[A█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 100/128 [01:47<00:30,  1.08s/it]

iter #99 Loss: 0.30375999471333426






[A[A[A[A██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                   | 101/128 [01:48<00:29,  1.08s/it]

iter #100 Loss: 0.303712921774932






[A[A[A[A███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 102/128 [01:50<00:27,  1.07s/it]

iter #101 Loss: 0.30340323986740886






[A[A[A[A████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 103/128 [01:51<00:26,  1.08s/it]

iter #102 Loss: 0.3032680430123346






[A[A[A[A██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 104/128 [01:52<00:25,  1.08s/it]

iter #103 Loss: 0.3033605751576762






[A[A[A[A███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                              | 105/128 [01:53<00:24,  1.08s/it]

iter #104 Loss: 0.3031182905025591






[A[A[A[A████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 106/128 [01:54<00:24,  1.10s/it]

iter #105 Loss: 0.3031089276567026






[A[A[A[A██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                           | 107/128 [01:55<00:23,  1.12s/it]

iter #106 Loss: 0.302985006744789






[A[A[A[A███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                          | 108/128 [01:56<00:22,  1.10s/it]

iter #107 Loss: 0.3028814632464484






[A[A[A[A████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                         | 109/128 [01:57<00:20,  1.08s/it]

iter #108 Loss: 0.3028058523529677






[A[A[A[A██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                       | 110/128 [01:58<00:19,  1.07s/it]

iter #109 Loss: 0.3025846192944171






[A[A[A[A███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                      | 111/128 [01:59<00:17,  1.05s/it]

iter #110 Loss: 0.3023968815122764






[A[A[A[A████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                     | 112/128 [02:00<00:16,  1.06s/it]

iter #111 Loss: 0.30245315922698396






[A[A[A[A██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 113/128 [02:01<00:15,  1.07s/it]

iter #112 Loss: 0.3022996029310723






[A[A[A[A███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 114/128 [02:02<00:14,  1.06s/it]

iter #113 Loss: 0.3022914653086118






[A[A[A[A████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 115/128 [02:04<00:13,  1.06s/it]

iter #114 Loss: 0.30200212815691374






[A[A[A[A██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 116/128 [02:05<00:12,  1.07s/it]

iter #115 Loss: 0.30189583297383965






[A[A[A[A███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 117/128 [02:06<00:11,  1.05s/it]

iter #116 Loss: 0.301935656100209






[A[A[A[A████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 118/128 [02:07<00:10,  1.08s/it]

iter #117 Loss: 0.30181403004275964






[A[A[A[A██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 119/128 [02:08<00:09,  1.10s/it]

iter #118 Loss: 0.3016064576615537






[A[A[A[A███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 120/128 [02:09<00:08,  1.09s/it]

iter #119 Loss: 0.3016098533865764






[A[A[A[A████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 121/128 [02:10<00:07,  1.07s/it]

iter #120 Loss: 0.3014693839598428






[A[A[A[A██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 122/128 [02:11<00:06,  1.06s/it]

iter #121 Loss: 0.30128018143894103






[A[A[A[A███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 123/128 [02:12<00:05,  1.05s/it]

iter #122 Loss: 0.30129087056378423






[A[A[A[A████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 124/128 [02:13<00:04,  1.07s/it]

iter #123 Loss: 0.3011628991456201






[A[A[A[A██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 125/128 [02:14<00:03,  1.08s/it]

iter #124 Loss: 0.30120538385008194






[A[A[A[A███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 126/128 [02:15<00:02,  1.08s/it]

iter #125 Loss: 0.3009238020342014






[A[A[A[A████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 127/128 [02:16<00:01,  1.08s/it]

iter #126 Loss: 0.3008948089696732






100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 128/128 [02:17<00:00,  1.08s/it]

iter #127 Loss: 0.30086155795506414





In [32]:
c = 0
uw = 0
iw = 0 
for name, param in model.named_parameters():
    if param.requires_grad:
        print(name, param.data)
        if c == 0:
          uw = param.data
          c +=1
        else:
          iw = param.data

user_factors.weight tensor([[ 1.1267,  1.5610,  1.5968,  ...,  0.4851,  1.0235,  0.7394],
        [ 1.1193,  2.0490,  0.0356,  ...,  1.0188,  0.4372,  1.1902],
        [ 0.7367,  1.8155,  1.3284,  ...,  2.0869, -2.3494,  0.3161],
        ...,
        [ 1.6868,  0.2823,  0.5313,  ...,  1.6125,  1.2129, -0.5139],
        [ 1.5355,  0.7007,  1.2334,  ...,  0.2577,  0.6127,  1.1014],
        [ 1.0896,  1.4784,  1.4460,  ...,  1.0787,  0.6065,  0.8787]])
item_factors.weight tensor([[ 0.2224,  0.7647,  0.6119,  ...,  0.3477,  0.7031,  0.4358],
        [ 0.6432,  0.2322,  0.1682,  ..., -0.0184,  0.3461,  0.5648],
        [ 0.5105,  0.6172,  0.7974,  ...,  0.3648,  0.2195,  0.3756],
        ...,
        [ 0.3694,  0.3652,  0.3834,  ...,  0.3830,  0.4001,  0.4039],
        [ 0.4416,  0.4219,  0.4402,  ...,  0.4525,  0.4428,  0.4216],
        [ 0.4573,  0.4241,  0.4419,  ...,  0.4424,  0.4451,  0.4404]])


In [33]:
trained_movie_embeddings = model.item_factors.weight.data.cpu().numpy()

In [34]:
len(trained_movie_embeddings)

9724

In [35]:
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=10, random_state=0).fit(trained_movie_embeddings)

In [36]:
for cluster in range(10):
    print("Cluster #{}".format(cluster))
    movs = []
    for movidx in np.where(kmeans.labels_ == cluster)[0]:
        movid = train_set.idx2movieid[movidx]
        rat_count = len(ratings_df.loc[ratings_df['movieId'] == movid])
        movs.append((movie_names[movid], rat_count))
    for mov in sorted(movs, key=lambda tup: tup[1], reverse=True)[:10]:
        print("\t", mov[0])

Cluster #0
	 Twister (1996)
	 Home Alone (1990)
	 Fifth Element, The (1997)
	 Harry Potter and the Chamber of Secrets (2002)
	 Harry Potter and the Prisoner of Azkaban (2004)
	 Star Trek: First Contact (1996)
	 Back to the Future Part II (1989)
	 Broken Arrow (1996)
	 Nutty Professor, The (1996)
	 Mr. Holland's Opus (1995)
Cluster #1
	 Batman Forever (1995)
	 Mission: Impossible II (2000)
	 Honey, I Shrunk the Kids (1989)
	 Hot Shots! Part Deux (1993)
	 Space Jam (1996)
	 Johnny Mnemonic (1995)
	 Arachnophobia (1990)
	 Father of the Bride Part II (1995)
	 Nine Months (1995)
	 Mortal Kombat (1995)
Cluster #2
	 Star Wars: Episode I - The Phantom Menace (1999)
	 Four Weddings and a Funeral (1994)
	 Star Wars: Episode II - Attack of the Clones (2002)
	 Matrix Revolutions, The (2003)
	 Scream (1996)
	 Dead Man Walking (1995)
	 Sense and Sensibility (1995)
	 Mask of Zorro, The (1998)
	 A.I. Artificial Intelligence (2001)
	 Moulin Rouge (2001)
Cluster #3
	 Terminator 2: Judgment Day (1991)
	 