До этого момента мы строили обычные линейные регрессии и говорили, что с их помощью можно решать какие-то задачи, похожие на рекоммендации. В целом это правда, ведь результат почти любой модели можно рассматривать как рекоммендацию. Однако, вспоминая картинку из первого поста, мы понимаем, что данные для рекоммендательных систем имеют значительные отличия.

- https://d2l.ai/chapter_recommender-systems/mf.html
- https://sifter.org/~simon/journal/20061211.html
- http://academictorrents.com/details/9b13183dc4d60676b773c9e2cd6de5e5542cee9a

Данная модель является обобщением моделей с матричными разложениями.
Выше мы обсуждали пример построения рекомендаций песен пользователям — интерес пользователя к песне оценивался как скалярное произведение некоторых скрытых векторов. Эту задачу можно сформулировать как задачу построения регрессии
с двумя категориальными признаками: идентификатором пользователя и идентификатором композиции. Целевым признаком является число прослушиваний композиции пользователем. Для некоторого подмножества пар (пользователь, композиция)
мы знаем число прослушиваний; для остальных мы хотим его восстановить. После
бинаризации признаков мы получим, что факторизационная машина оценивает целевую переменную как произведение скрытых векторов пользователя и композиции — иными словами, она строит разложение матрицы прослушиваний X.

In [1]:
import pandas as pd

import torch
from torch import nn, optim
from torch.functional import F

import math
import numpy as np
import math
import statsmodels.api as sm
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import roc_auc_score
from sklearn.linear_model import LogisticRegression

In [2]:
df_movies = pd.read_csv("../../datasets/movielens-small/movies.csv")
df_ratings = pd.read_csv("../../datasets/movielens-small/ratings.csv")
df_tags = pd.read_csv("../../datasets/movielens-small/tags.csv")
df_links = pd.read_csv("../../datasets/movielens-small/links.csv")

In [3]:
df_ratings.shape

(100836, 4)

In [4]:
df_ratings.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


In [5]:
df_ratings.userId.nunique(), df_ratings.movieId.nunique()

(610, 9724)

In [11]:
df_ratings.movieId.unique()

array([     1,      3,      6, ..., 160836, 163937, 163981])

In [12]:
df_ratings.movieId = df_ratings.movieId.map(df_movies.set_index("movieId")["title"])

In [7]:
df_ratings.movieId.map(df_movies.set_index("movieId")["title"])

0                       Toy Story (1995)
1                Grumpier Old Men (1995)
2                            Heat (1995)
3            Seven (a.k.a. Se7en) (1995)
4             Usual Suspects, The (1995)
                       ...              
100831                      Split (2017)
100832     John Wick: Chapter Two (2017)
100833                    Get Out (2017)
100834                      Logan (2017)
100835    The Fate of the Furious (2017)
Name: movieId, Length: 100836, dtype: object

In [13]:
df_ratings.shape

(100836, 4)

In [14]:
df_ratings.userId.nunique(), df_ratings.movieId.nunique()

(610, 9719)

In [16]:
df_ratings[df_ratings.duplicated(["userId", "movieId"])]

Unnamed: 0,userId,movieId,rating,timestamp
4747,28,War of the Worlds (2005),3.5,1234850075
11451,68,War of the Worlds (2005),2.5,1230497715
17819,111,Confessions of a Dangerous Mind (2002),4.0,1517441257
80596,509,Emma (1996),3.5,1436031753


In [17]:
df_ratings.drop_duplicates(["userId", "movieId"], inplace=True)

In [18]:
df_ratings_pivotted = pd.pivot(df_ratings, index="userId", columns="movieId", values="rating")
df_ratings_pivotted.shape

(610, 9719)

In [20]:
df_ratings_pivotted.to_csv("../../datasets/movielens-small/ratings_pivotted.csv")

In [23]:
df_ratings_pivotted = pd.read_csv("../../datasets/movielens-small/ratings_pivotted.csv", index_col=0)

In [24]:
df_ratings_pivotted.head(2)

Unnamed: 0_level_0,'71 (2014),'Hellboy': The Seeds of Creation (2004),'Round Midnight (1986),'Salem's Lot (2004),'Til There Was You (1997),'Tis the Season for Love (2015),"'burbs, The (1989)",'night Mother (1986),(500) Days of Summer (2009),*batteries not included (1987),...,Zulu (2013),[REC] (2007),[REC]² (2009),[REC]³ 3 Génesis (2012),anohana: The Flower We Saw That Day - The Movie (2013),eXistenZ (1999),xXx (2002),xXx: State of the Union (2005),¡Three Amigos! (1986),À nous la liberté (Freedom for Us) (1931)
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,,,,,,,,,,,...,,,,,,,,,4.0,
2,,,,,,,,,,,...,,,,,,,,,,


In [20]:
ratings_onehot.head()

Unnamed: 0,userId,movieId
0,1,1
1,1,3
2,1,6
3,1,47
4,1,50


In [15]:
from patsy import dmatrices

_, df_interactions = dmatrices('rating ~ C(userId):C(movieId) - 1', df_ratings[:1000], return_type="dataframe")
df_interactions.shape

(1000, 5614)

In [17]:
df_interactions.head(2)

Unnamed: 0,C(userId)[1]:C(movieId)[1],C(userId)[2]:C(movieId)[1],C(userId)[3]:C(movieId)[1],C(userId)[4]:C(movieId)[1],C(userId)[5]:C(movieId)[1],C(userId)[6]:C(movieId)[1],C(userId)[7]:C(movieId)[1],C(userId)[1]:C(movieId)[2],C(userId)[2]:C(movieId)[2],C(userId)[3]:C(movieId)[2],...,C(userId)[5]:C(movieId)[122882],C(userId)[6]:C(movieId)[122882],C(userId)[7]:C(movieId)[122882],C(userId)[1]:C(movieId)[131724],C(userId)[2]:C(movieId)[131724],C(userId)[3]:C(movieId)[131724],C(userId)[4]:C(movieId)[131724],C(userId)[5]:C(movieId)[131724],C(userId)[6]:C(movieId)[131724],C(userId)[7]:C(movieId)[131724]
0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
