# **Отбор на позицию Intern-ML Вконтакте**
## **Задание**: создать embeddings пользователей и фильмов по датасету отзывов на фильмы MovieLens, используя нейросетевые методы. Реализовать поиск рекомендаций (embeddings фильмов) по embedding пользователя.

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import graphviz
import scipy.stats
import warnings
from tqdm import tqdm_notebook

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder
from sklearn.linear_model import LinearRegression
from sklearn import metrics

sns.set(style='whitegrid', font_scale=1.3, palette='Set2')

In [3]:
import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader
from torch.nn.utils.rnn import pad_sequence
from sklearn.preprocessing import MultiLabelBinarizer
from torchtext.data.utils import get_tokenizer
import tensorflow as tf
from tensorflow.keras.layers import Input, Dense, Concatenate
from tensorflow.keras.models import Model
from gensim.models import Word2Vec
from scipy.spatial.distance import cosine


### Загрузка данных

In [4]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [5]:
movies = pd.read_csv("/content/drive/MyDrive/Vk отбор/movies.csv")
ratings = pd.read_csv("/content/drive/MyDrive/Vk отбор/ratings.csv")
tags = pd.read_csv("/content/drive/MyDrive/Vk отбор/tags.csv")


In [6]:
print(movies.head(5))
print(ratings.head(5))
print(tags.head(5))
# print(links.head(5))
# print(genome_tags.head(5))
# print(genome_scores.head(5))


   movieId                               title  \
0        1                    Toy Story (1995)   
1        2                      Jumanji (1995)   
2        3             Grumpier Old Men (1995)   
3        4            Waiting to Exhale (1995)   
4        5  Father of the Bride Part II (1995)   

                                        genres  
0  Adventure|Animation|Children|Comedy|Fantasy  
1                   Adventure|Children|Fantasy  
2                               Comedy|Romance  
3                         Comedy|Drama|Romance  
4                                       Comedy  
   userId  movieId  rating   timestamp
0       1      307     3.5  1256677221
1       1      481     3.5  1256677456
2       1     1091     1.5  1256677471
3       1     1257     4.5  1256677460
4       1     1449     4.5  1256677264
   userId  movieId           tag   timestamp
0      14      110          epic  1443148538
1      14      110      Medieval  1443148532
2      14      260        sci-fi  14

**Pipeline**: для начала создадим эмбеддинг для каждого фильма, чтобы на выходе получилась таблица, содержашая id фильма и n-мерный вектор. Для более качественного кодирования, посчитаем по каждому фильму среднюю оценку, используем его название и жанр. 

In [7]:
avg_rate = ratings.groupby('movieId')['rating'].mean()
movies_emb_prep = pd.merge(avg_rate, movies, on='movieId')

Оставим только название фильма, без года выпуска. 

In [8]:
tokenizer = get_tokenizer('basic_english')
movies_emb = movies_emb_prep.copy()

movies_emb['title'] = movies_emb['title'].str.lower().replace(r'[^a-zA-Z ]+', '', regex=True)
movies_emb['genres'] = movies_emb['genres'].str.lower().str.replace('|', ' ')

movies_emb["title"] = movies_emb["title"].apply(tokenizer)
movies_emb["genres"] = movies_emb["genres"].apply(tokenizer)

  movies_emb['genres'] = movies_emb['genres'].str.lower().str.replace('|', ' ')


In [9]:
embedding_dim = 100
model = Word2Vec(movies_emb['title'] + movies_emb['genres'], vector_size=embedding_dim, min_count=1)

In [10]:
embeddings = np.zeros((len(movies_emb), 2*embedding_dim + 1))

for i in range(len(movies_emb)):
    title_embedding = np.mean([model.wv[word] for word in movies_emb.iloc[i]['title']], axis=0)
    genre_embedding = np.mean([model.wv[word] for word in movies_emb.iloc[i]['genres']], axis=0)
    rating_embedding = movies_emb.iloc[i]['rating']
    
    if ((genre_embedding.shape == (100,)) and (title_embedding.shape == (100,))):    
      embeddings[i] = np.concatenate((title_embedding, genre_embedding, [rating_embedding]))



  return _methods._mean(a, axis=axis, dtype=dtype,
  ret = ret.dtype.type(ret / rcount)


Проверим, качественно ли у нас произошел эмбеддинг: посчитаем расстояние между векторами, используя scipy.distance

In [11]:
sorted = movies_emb.sort_values(by='genres')

print(cosine(embeddings[6809], embeddings[3716]), "Одна категория")
print(cosine(embeddings[34019], embeddings[34021]),  "Одна категория")
print(cosine(embeddings[6809], embeddings[34021]), "Разные категории")

0.03536157523417294 Одна категория
0.019765689489869676 Одна категория
0.36170427886011336 Разные категории


Ура, все хорошо, все работает

In [12]:
movies_emb['film_inf'] = embeddings.tolist()
movies_emb.drop(columns=['rating', 'title', 'genres'], inplace=True)

Совместим датафрейм рейтингов зрителей с тегами и векторным описанием фильмов, полученным на предыдущем шаге. 

In [13]:
data = pd.merge(ratings, movies_emb, on='movieId')
data = pd.merge(data, tags, on=['userId', 'movieId'], how='left')
data = data.fillna("")
data.drop(columns='timestamp_y', inplace=True)
print(data)

          userId  movieId  rating  timestamp_x  \
0              1      307     3.5   1256677221   
1              6      307     4.0    832059248   
2             56      307     4.0   1383625728   
3             71      307     5.0   1257795414   
4             84      307     3.0    999055519   
...          ...      ...     ...          ...   
28363491  282403   167894     1.0   1524243885   
28363492  282732   161572     3.5   1504408070   
28363493  283000   117857     3.5   1417317969   
28363494  283000   133409     3.5   1431539331   
28363495  283000   142855     3.5   1442889934   

                                                   film_inf          tag  
0         [-0.04183252528309822, 0.09439527243375778, 0....               
1         [-0.04183252528309822, 0.09439527243375778, 0....               
2         [-0.04183252528309822, 0.09439527243375778, 0....               
3         [-0.04183252528309822, 0.09439527243375778, 0....               
4         [-0.0418325252

Создадим эмбедденги для пользователей, основываясь на полученных векторах фильмов.

In [None]:
# создание эмбеддингов пользователей
grouped_data = data.groupby('userId')

from tqdm import tqdm

user_embeddings = {}
for user_id, group in tqdm(grouped_data):
    movie_embeddings = np.array(list(group['film_inf']))
    weights = np.array(list(group['rating'])) # использование оценок как весов
    user_embeddings[user_id] = np.average(movie_embeddings, axis=0, weights=weights)


 36%|███▌      | 100869/283228 [04:33<11:36, 261.73it/s]

Полученные данные позволяют качественно обучить по ним нейронную сеть. Для этого можно использовать различные методы и библиотеки: машины факторизации, колоборативную фильтрацию, BERT-технологию и т.д. Ниже я привожу реализацию одного из вариантов с использованием метрики MAE. К сожалению, в силу отсутствия вычислительных способностей для большого варианта датасета MovieLens протестировать этот код я не успеваю к дедлайну. Я благодарю за возможность изучить новые для себя NLP-технологии и надеюсь на дальнейшее сотрудничество!

In [None]:
# Разбивка на тренировочный и тестовый наборы данных
train_data, test_data = train_test_split(data, test_size=0.2, random_state=42)

# создание матрицы признаков
X_train = np.array(train_data['film_inf'].values.tolist())
y_train = train_data['rating'].values

# определение архитектуры нейронной сети
input_layer = Input(shape=(100,))
hidden_layer = Dense(64, activation='relu')(input_layer)
output_layer = Dense(1)(hidden_layer)

# компиляция модели
model = Model(inputs=input_layer, outputs=output_layer)
model.compile(loss='mean_absolute_error', optimizer='adam')

# обучение модели на тренировочном наборе данных
model.fit(X_train, y_train, epochs=10, batch_size=32)

# предсказание оценок на тестовом наборе данных
X_test = np.array(test_data['film_inf'].values.tolist())
y_test = test_data['rating'].values
y_pred = model.predict(X_test)

# вычисление MAE
mae = mean_absolute_error(y_test, y_pred)
print('MAE:', mae)