In [2]:
import pandas as pd

movies = pd.read_csv('data/movies.csv')

In [3]:
rows = []

for _, row in movies.iterrows():
    for genre in row['genres'].split('|'):
        rows.append([genre, row['movieId']])
        
movies_genres = pd.DataFrame(rows, columns=['genre', 'movieId'])
movies_genres['genre_id'] = movies_genres['genre'].astype('category').cat.codes.copy() # сопостовление какому Id фильма, соответствует Id жанра
movies_genres.head()

Unnamed: 0,genre,movieId,genre_id
0,Animation,1,2
1,Children's,1,3
2,Comedy,1,4
3,Adventure,2,1
4,Children's,2,3


In [5]:
# поскольку строится гибридная система, оценки тоже нужны

ratings = pd.read_csv('data/ratings.csv')

In [6]:
from scipy.sparse import coo_matrix
import numpy as np

user_item_matrix = coo_matrix((
    (ratings["rating"]>=4).astype(np.float32), # по колонке оценок пораждается булевская колонка "нравится"
    (ratings["userId"], ratings["movieId"])),    # назначение матрицы строк и столбцов
    shape=(
        ratings["userId"].unique().max() + 1,   # явно указан размер, так как есть фильмы без оценок, но с жанрами
        movies["movieId"].unique().max() + 1)   # чтобы алгоритм не сломался
)

user_item_matrix.eliminate_zeros()

In [7]:
# делим разреженную матрицу на обучающую и тестовую
total_len = user_item_matrix.data.size
train_len = int(total_len * 0.8)
all_indices = np.arange(total_len)
np.random.seed(42)
train_indices = np.random.choice(all_indices, train_len, replace=False)
train_mask = np.in1d(all_indices, train_indices)

In [8]:
# функция наложения маски на разреженные матрицы
def get_masked(arr, mask):
    return coo_matrix(
        (
            [np.float32(item) for item in arr.data[mask]],
            (arr.row[mask], arr.col[mask])
        ), arr.shape
    )

In [9]:
# подготовка train и  test матриц

train = get_masked(user_item_matrix, train_mask)
test = get_masked(user_item_matrix, ~train_mask)

In [10]:
# сохранения train и test  в npz

from scipy.sparse import save_npz

save_npz('data/lightfm_train.npz', train)
save_npz('data/lightfm_test.npz', test)

Установка   
!conda install -c conda-forge lightfm

##### Подключаем модель

In [9]:
from lightfm import LightFM

fm = LightFM()



In [10]:
# обучение модели

fm.fit(interactions=train, 
       epochs=100, 
       num_threads=6, # количество потоков 
       verbose=True)

Epoch: 100%|███████████████████████████████████████████████████████████████████████████| 10/10 [00:07<00:00,  1.39it/s]


<lightfm.lightfm.LightFM at 0x2cf8b58cc40>

In [11]:
fm.get_params() # параметры обученной модели

{'loss': 'logistic',
 'learning_schedule': 'adagrad',
 'no_components': 10,
 'learning_rate': 0.05,
 'k': 5,
 'n': 10,
 'rho': 0.95,
 'epsilon': 1e-06,
 'max_sampled': 10,
 'item_alpha': 0.0,
 'user_alpha': 0.0,
 'random_state': RandomState(MT19937) at 0x2CF8B757D40}

In [12]:
%%time

from lightfm.evaluation import reciprocal_rank

rr = reciprocal_rank(model=fm, test_interactions=test, train_interactions=train, num_threads=6) # дисконтированный хитрейт

Wall time: 1.8 s


In [13]:
rr.mean() # среднее по всем пользователям

0.31919464

In [14]:
%%time

fm.fit_partial(interactions=train, epochs=100, num_threads=6, verbose=True) # продолжение обучения с прерванного момента

Epoch: 100%|█████████████████████████████████████████████████████████████████████████| 100/100 [01:11<00:00,  1.39it/s]

Wall time: 1min 11s





<lightfm.lightfm.LightFM at 0x2cf8b58cc40>

In [15]:
%%time

rr = reciprocal_rank(model=fm, test_interactions=test, train_interactions=train, num_threads=6)

Wall time: 1.85 s


In [16]:
rr.mean()

0.3177889

In [17]:
user_factors = fm.get_user_representations()
print(user_factors)

(array([0.        , 1.1153724 , 1.2990186 , ..., 0.75771034, 1.381717  ,
       2.0901217 ], dtype=float32), array([[ 0.00683901, -0.01995587,  0.03185591, ..., -0.00406782,
         0.04371354, -0.00920423],
       [ 0.17736019, -0.40058348,  0.35298672, ...,  0.22707155,
        -0.16104804, -0.08153381],
       [ 0.2526694 , -0.46917337,  0.28745666, ...,  0.19011015,
        -0.20011003, -0.11190661],
       ...,
       [ 0.1137749 , -0.2851827 ,  0.25242928, ...,  0.1575846 ,
        -0.16233514, -0.14619596],
       [ 0.18650752, -0.49888462,  0.32676822, ...,  0.22032477,
        -0.23402044, -0.14326385],
       [ 0.22526251, -0.6502978 ,  0.36091024, ...,  0.17257522,
        -0.26082042, -0.2277385 ]], dtype=float32))


In [18]:
print(len(user_factors[0]))
print(user_factors[1].shape) # размерность матрицы факторов пользователя = пользователи на скрытые факторы

6041
(6041, 10)


In [19]:
item_factors = fm.get_item_representations() # тоже самое с факторами объектов
print(item_factors)

(array([0.       , 4.3086796, 2.719371 , ..., 1.3661305, 1.3987254,
       2.8817782], dtype=float32), array([[ 1.5451416e-04, -3.7158221e-02,  3.8057484e-02, ...,
        -3.4397956e-02, -8.4520131e-03, -2.6171771e-03],
       [ 3.5534960e-01, -9.2316157e-01,  7.4786764e-01, ...,
         3.6499727e-01, -4.0885797e-01, -2.4378675e-01],
       [ 2.5560021e-01, -8.0060524e-01,  6.7049992e-01, ...,
         3.1920066e-01, -3.4058979e-01, -2.2684652e-01],
       ...,
       [ 2.5626877e-01, -4.5495424e-01,  4.3486425e-01, ...,
         1.4888130e-01, -2.3828213e-01, -1.3489310e-01],
       [ 2.1889143e-01, -5.7129806e-01,  3.7845117e-01, ...,
         1.8330279e-01, -2.6987869e-01, -1.3751863e-01],
       [ 4.4551343e-01, -7.0839101e-01,  7.2680056e-01, ...,
         3.9028987e-01, -2.8300896e-01, -1.3272214e-01]], dtype=float32))


In [20]:
print(len(item_factors[0]))
print(item_factors[1].shape) # размерность матрицы факторов item = пользователи на скрытые факторы

3953
(3953, 10)


### Добавление фичей жанров и id жанров

In [21]:
# добавление фичей жанров и id жанров

from scipy.sparse import identity, hstack

item_feature_matrix = hstack([  # контектенирует две матрицы
    coo_matrix(
        (np.ones(movies_genres.count()[0], dtype=np.float32),
        (movies_genres['movieId'], movies_genres['genre_id'])),
        shape=(user_item_matrix.shape[1], movies_genres['genre_id'].unique().size)),
        identity(user_item_matrix.shape[1]) # единичная матрица соответствия жанра
])

item_feature_matrix.shape # результат = id фильма + id жанров

(3953, 3971)

In [22]:
%%time

fm.fit(interactions=train, epochs=100, item_features=item_feature_matrix, num_threads=6, verbose=True) # обучается так же плюс передается матрица фичей

Epoch: 100%|█████████████████████████████████████████████████████████████████████████| 100/100 [01:33<00:00,  1.07it/s]

Wall time: 1min 33s





<lightfm.lightfm.LightFM at 0x2cf8b58cc40>

In [23]:
new_item_factors = fm.get_item_representations() # тоже самое с факторами объектов
print(new_item_factors)


(array([7.626479  , 5.790997  , 4.8231373 , ..., 0.02424527, 0.01865968,
       0.011107  ], dtype=float32), array([[ 0.11239927, -0.11265222, -0.1360352 , ..., -0.03835268,
         0.00038722,  0.07156969],
       [ 0.06215441, -0.06723433, -0.03539331, ..., -0.02291493,
        -0.01301303, -0.00269012],
       [-0.00579206, -0.03892303, -0.03781378, ..., -0.0511501 ,
         0.00878255,  0.04461211],
       ...,
       [ 0.03905605,  0.017334  ,  0.009228  , ..., -0.00787994,
        -0.01382275, -0.01371532],
       [-0.02521478, -0.02193118, -0.0362846 , ...,  0.02771407,
        -0.00329048,  0.03468949],
       [-0.02060361, -0.01658923, -0.02394882, ...,  0.01644796,
         0.04591839, -0.02420409]], dtype=float32))


In [24]:
print(len(new_item_factors[0]))
print(new_item_factors[1].shape)

3971
(3971, 10)


In [25]:
%%time
# оценка

rr = reciprocal_rank(model=fm, test_interactions=test, train_interactions=train, 
                     item_features=item_feature_matrix, num_threads=6)

Wall time: 2.13 s


In [26]:
rr.mean()

0.0684263

In [27]:
# как это не печально, но результат получился гораздо хуже.

#### Задание слушателям  
1. Подобрать параметры модели и улучшить результат.