### Домашнее задание «Гибридные рекомендатльные системы»

1. Датасет ml-latest
2. Вспомнить подходы, которые мы разбирали
3. Выбрать понравившийся подход к гибридным системам
4. Написать свою

In [2]:
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np

from surprise import Dataset, Reader, KNNWithMeans, SVD
from sklearn.linear_model import LinearRegression
from sklearn.neighbors import NearestNeighbors
from sklearn.metrics import mean_squared_error
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from sklearn.model_selection import cross_val_score

In [3]:
movies = pd.read_csv('./data/ml-latest/movies.csv')
ratings = pd.read_csv('./data/ml-latest/ratings.csv')

Я решил реализовать следующую гибридную рекомендательную систему возвращающую 5 наиболее релевантных фильмов.

Вот шаги:
1. Обучаю SVD и KNNWithMeans из библиотеки surprise.
2. Обучаю kNN на жанрах
3. Для конкретного пользователя проставляю рекомендации этих двух алгоритмов.
4. На полученных на прошлом шаге рейтингах натренирую регрессию.
5. Получу наиболее точные значения рейтинга для пользователя.
6. Сформирую топ-5 наиболее релевантных для пользователя рекомендаций:
    1. 1: Топ-1 из фильмов похожих на последний просмотренный фильм по жанрам
    2. 2: Топ-1 из похожих на последний понравившийся фильм с максимальным рейтингом от пользователя.
    3. 3-5: Топ-3 наиболее релевантных фильмаб не рекомендованных ранее

In [5]:
ratings = pd.read_csv('./data/ratings.csv')
movies = pd.read_csv('./data/movies.csv')

In [6]:
movies['genres_nice'] = movies.apply(lambda x: ' '.join(x.genres.split('|')), axis=1)

In [7]:
movies['genres_nice'] = movies.apply(lambda x: x.genres_nice.replace('Sci-Fi', 'SciFi'), axis=1)
movies['genres_nice'] = movies.apply(lambda x: x.genres_nice.replace('Film-Noir', 'FilmNoir'), axis=1)
movies['genres_nice'] = movies.apply(lambda x: x.genres_nice.replace('(no genres listed)', 'NoGenres'), axis=1)

### Тренируем knn на жанрах

In [9]:
genres_corpus = movies.genres_nice.tolist()

In [10]:
cv = CountVectorizer()
cv_genres_corpus = cv.fit_transform(genres_corpus)

In [11]:
tfidf = TfidfTransformer()
tfidf_cv_genres_corpus = tfidf.fit_transform(cv_genres_corpus)

In [12]:
genre_list = cv.get_feature_names()

In [13]:
df_tfidf = pd.DataFrame(tfidf_cv_genres_corpus.toarray(), index=movies.movieId, columns=genre_list)

In [15]:
movies = movies.merge(df_tfidf, on='movieId')

In [16]:
df = ratings.merge(movies.set_index('movieId'), on='movieId')

In [17]:
knn_on_genres = NearestNeighbors(n_neighbors=20, n_jobs=-1)

In [18]:
knn_on_genres.fit(movies.iloc[:,-len(genre_list):])

NearestNeighbors(algorithm='auto', leaf_size=30, metric='minkowski',
         metric_params=None, n_jobs=-1, n_neighbors=20, p=2, radius=1.0)

### Тренируем SVD и KNNWithMeans для предсказания рейтинга

In [21]:
surp_df = pd.DataFrame({
    'uid': df.userId,
    'iid': df.movieId,
    'rating': df.rating
})

In [22]:
surp_reader = Reader(rating_scale=(df.rating.min(), df.rating.max()))

In [23]:
surp_dataset = Dataset(surp_reader)

In [24]:
surp_df = surp_dataset.load_from_df(surp_df, surp_reader)

In [25]:
surp_df = surp_df.build_full_trainset()

In [26]:
surp_SVD = SVD(n_epochs=10, lr_all=0.005, reg_all=0.4)

In [27]:
surp_SVD.fit(surp_df)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x7fc34f018588>

In [28]:
surp_KNN = KNNWithMeans()

In [29]:
surp_KNN.fit(surp_df)

Computing the msd similarity matrix...
Done computing similarity matrix.


<surprise.prediction_algorithms.knns.KNNWithMeans at 0x7fc34f018908>

### Пишем саму функцию рекомендации

In [30]:
# Пишем функцию рекомендации
def recomendador(userId=1):
    # выбираем рейтинги пользователя
    user_ratings = df[df.userId == userId]

    # knn ругается если не находит соседей, пишем заплатку
    def knn_rec_rating(userId, movieId):
        rating_knn = 0
        try:
            rating_knn = surp_KNN.estimate(userId, movieId)[0]
        except:
            rating_knn = user_ratings.rating.mean()
        return rating_knn
    
    # получаем рекомендации двух алгоритмов
    user_ratings['rating_svd'] = user_ratings.apply(lambda x: surp_SVD.estimate(userId, x.movieId), axis=1)
    user_ratings['rating_knn'] = user_ratings.apply(lambda x: knn_rec_rating(userId, x.movieId), axis=1)
    
    # тренируем и оцениваем мета алгоритм
    meta_algo = LinearRegression()
    X = user_ratings[['rating_svd', 'rating_knn']]
    y = user_ratings[['rating']]
    print('Meta algorithm RMSE: ', cross_val_score(meta_algo, X, y, scoring='neg_mean_squared_error', cv=5).mean()*-1)
    meta_algo.fit(X, y)
    
    # собираем фильмы для рекомендации - те, что не смотрел пользователь
    user_not_viewed_films = movies[~movies.movieId.isin(user_ratings.movieId.tolist())]
    
    # для фильмов на рекомендацию проставляем рейтинги
    user_not_viewed_films['rating_svd'] = user_not_viewed_films.apply(lambda x: surp_SVD.estimate(userId, x.movieId), axis=1)
    user_not_viewed_films['rating_knn'] = user_not_viewed_films.apply(lambda x: knn_rec_rating(userId, x.movieId), axis=1)
    user_not_viewed_films['rating'] = user_not_viewed_films.apply(lambda x: meta_algo.predict(np.array([[x[['rating_svd']][0]], \
                                                                                                        [x[['rating_knn']][0]]]).reshape(1,-1))[0][0], axis=1)
    
    # рекомендация 1 - лучший из наиболее похожих на последний просмотренный
    knn_for_last_film = knn_on_genres.kneighbors(user_ratings.sort_values('timestamp', ascending=False).iloc[:1,-len(genre_list):], n_neighbors=20)[1][0]
    last_relevant_movies = []
    for each in knn_for_last_film:
        last_relevant_movies.append(movies.ix[each].movieId)

    rec_1 = user_not_viewed_films[user_not_viewed_films.movieId.isin(last_relevant_movies)].sort_values('rating', ascending=False).head(1)[['title', 'movieId', 'genres', 'rating']]

    # рекомендация 2 - лучший из наиболее похожих на последний просмотренный и с максимальным рейтингом
    knn_for_last_film = knn_on_genres.kneighbors(user_ratings.sort_values('timestamp', ascending=False).sort_values('rating', ascending=False).iloc[:1,-len(genre_list):], n_neighbors=20)[1][0]
    last_relevant_movies = []
    for each in knn_for_last_film:
        last_relevant_movies.append(movies.ix[each].movieId)
    last_relevant_movies.remove(rec_1.movieId.tolist()[0])
    rec_2 = user_not_viewed_films[user_not_viewed_films.movieId.isin(last_relevant_movies)].sort_values('rating', ascending=False).head(1)[['title', 'movieId', 'genres', 'rating']]
    
    # рекомендация 3-5 - лучшие из оставшихся
    rec_3 = user_not_viewed_films.drop(rec_1.index[0], axis=0).drop(rec_2.index[0], axis=0).sort_values('rating', ascending=False).head(3)[['title', 'movieId', 'genres', 'rating']]
    
    print('Вам стоит обратить внимание на эти фильмы')
    return pd.concat([rec_1, rec_2, rec_3])

In [31]:
recomendador(userId=6)

Meta algorithm RMSE:  0.7472553410304598
Вам стоит обратить внимание на эти фильмы


Unnamed: 0,title,movieId,genres,rating
2006,Run Silent Run Deep (1958),2670,War,3.69126
3023,"Alamo, The (1960)",4042,Action|Drama|War|Western,3.520069
4068,Exodus (1960),5799,Drama|Romance|War,3.918672
2782,Hamlet (1990),3723,Drama,3.908042
3989,Wasabi (2001),5628,Action|Comedy|Crime|Drama|Thriller,3.897501
