In [1]:
import numpy as np
import pandas

ratings = pandas.read_csv('../data/ratings.csv', header=None, names=['User', 'Work', 'Choice'])
works = pandas.read_csv('../data/works.csv', header=None, index_col=0, names=['Title'])

class BaseEmbedding:
    def __init__(self, ratings=None, works=None):
        if ratings is None:
            ratings = pandas.read_csv('../data/ratings.csv', header=None, names=['User', 'Work', 'Choice'])
        if works is None:
            works = pandas.read_csv('../data/works.csv', header=None, index_col=0, names=['Title'])
            
        self.ratings = ratings
        self.works = works
        self.nb_users = ratings['User'].max() + 1
        self.nb_works = ratings['Work'].max() + 1

    def most_similar(self, work_id, topn=8):
        res = self._get_most_similar(work_id, topn)
        similar = self.works.loc[res[1]]
        similar['Similarity'] = pandas.Series(res[0], index=similar.index)
        return similar

# Embedding par SVD de la matrice objets-objets

On va construire une matrice carrée symmétrique comptant le nombre d'utilisateur qui ont donné la même note à deux œuvres, i.e. en position `(i, j)` on aura le nombre d'utilisateur ayant donné la même note à l'œuvre `i` et à l'œuvre `j`. On normalise ensuite cette matrice par la racine carrée du produit des sommes par ligne et par colonne (pour éviter des coefficients disproportionnés sur les œuvres populaires), et on utilise ensuite le résultat d'une SVD comme embedding des œuvres. Enfin, pour déterminer la similarité entre deux œuvres, on utilisera le cosinus des angles entre les vecteurs.

In [2]:
from sklearn.decomposition import TruncatedSVD
from sklearn.neighbors import NearestNeighbors
import scipy.sparse as sp

class SVDEmbedding(BaseEmbedding):
    def __init__(self, *choices_list, size=100, **kwargs):
        super().__init__(**kwargs)
        self._compute_svd(*choices_list, size=size)
        self._compute_nn()
        
    def _matrix_for(self, choices):
        """Construit une matrice binaire `n_users` x `n_works` telle que en position (i, j)
        se trouve un 0 ssi l'utilisateur `i` à donné à l'œuvre `j` une note contenue dans `choices`"""
        elems = self.ratings[self.ratings['Choice'].isin(choices)].as_matrix()
        return sp.csc_matrix((np.ones(len(elems)), (elems[:,0], elems[:,1])), shape=(self.nb_users, self.nb_works))
    
    def _cooccurrences_for(self, choices):
        """Construit une matrice carrée symmétrique `n_works` x `n_works` telle que en position (i, j)
        se trouve le nombre d'utilisateurs ayant donné aux œuvres `i` et `j` une note contenue dans `choices`."""
        matrix = self._matrix_for(choices)
        return matrix.T.dot(matrix)
    
    def _compute_svd(self, *choices_list, size):
        cooccurrences = np.sum(self._cooccurrences_for(choices) for choices in choices_list)
        # Normalisation
        cooccurrences = np.nan_to_num(cooccurrences / np.sqrt(cooccurrences.sum(axis=1).dot(cooccurrences.sum(axis=0))))
        self._svd = TruncatedSVD(size).fit(cooccurrences)
        
    def _compute_nn(self):
        assert hasattr(self, '_svd')
        self._nn = NearestNeighbors(algorithm='brute', metric='cosine').fit(self._svd.components_.T)
        
    def _get_most_similar(self, work_id, n_neighbors):
        assert hasattr(self, '_svd') and hasattr(self, '_nn')
        res = self._nn.kneighbors(self._svd.components_[:,[work_id]].T, n_neighbors=n_neighbors + 1)
        return (1 - res[0].ravel(), res[1].ravel())

In [3]:
# On considère les ensemble de notes {'dislike'}, {'neutral'}, et {'like', 'favorite'} pour
# compter les cas où la même note a été donnée à des œuvres. N'hésitez pas à expérimenter avec des ensembles différents !
svd_embedding = SVDEmbedding({'dislike'}, {'neutral'}, {'like', 'favorite'}, ratings=ratings, works=works)

In [4]:
works[works['Title'].str.contains('Madoka')]

Unnamed: 0,Title
1184,Mahou Shoujo Madoka★Magica Movie 3: Hangyaku n...
1773,Mahou Shoujo Madoka★Magica
1890,Puella Magi Madoka Magica the Movie Part II: E...
2969,Puella Magi Madoka Magica the Movie Part III: ...
4985,Puella Magi Madoka Magica
7265,Puella Magi Madoka Magica - The different story
7753,Puella Magi Madoka Magica the Movie Part I: Be...


In [5]:
svd_embedding.most_similar(1773)

Unnamed: 0,Title,Similarity
1773,Mahou Shoujo Madoka★Magica,1.0
6508,Suzumiya Haruhi no Yuuutsu,0.876875
5596,Bakemonogatari,0.871906
5514,Shinsekai yori,0.864335
2969,Puella Magi Madoka Magica the Movie Part III: ...,0.863351
6939,Clannad: After Story,0.857464
5129,Steins;Gate,0.854376
2874,5 centimètres par seconde,0.850551
2819,Tengen Toppa Gurren Lagann,0.848705


# Embedding par `item2vec`

Comme dans https://arxiv.org/abs/1603.04259, on applique simplement le modèle `word2vec` aux utilisateurs. En fait, on considère comme une "phrase" l'ensemble des œuvres auxquelles un utilisateur a donné une certaine note, et on utilise un modèle qui permet d'apprendre un embedding des mots en fonction de leur contexte. L'avantage de cette méthode, c'est qu'on se fiche un peu de la façon dont ces "phrases" sont construites : ainsi on peut utiliser l'ensemble des œuvres auxquelles un utilisateur à donné une certaine note comme ici, mais on pourrait aussi ajouter l'ensemble des œuvres faites par un certain réalisateur, d'un certain genre, etc.

In [6]:
import gensim
import random

class Item2VecEmbedding(BaseEmbedding):
    def __init__(self, *choices_list, size=100, min_count=2, **kwargs):
        super().__init__(**kwargs)
        self.docs = []
        for choices in choices_list:
            elems = self.ratings[self.ratings['Choice'].isin(choices)][['User', 'Work']].as_matrix()
            docs = [[] for _ in range(self.nb_users)]
            for user_id, work_id in elems:
                docs[user_id].append(str(work_id))
            self.docs.extend(docs)
        max_len = max(len(doc) for doc in self.docs)
        self._word2vec = gensim.models.Word2Vec(self.docs, size=size, window=max_len+1, min_count=min_count, iter=10, sg=1)
        
    def _get_most_similar(self, work_id, n_neighbors):
        res = self._word2vec.most_similar(str(work_id), topn=n_neighbors)
        return ([1.] + [x for _, x in res], [work_id] + [int(x) for x, _ in res])

In [7]:
# On considère les ensemble {'neutral'}, {'dislike'} et {'like', 'favorite'} pour créer les "phrases".
# N'hésitez pas à expérimenter avec des valeurs différentes
embedding = Item2VecEmbedding({'neutral'}, {'dislike'}, {'like', 'favorite'}, ratings=ratings, works=works)

In [8]:
embedding.most_similar(1773)

Unnamed: 0,Title,Similarity
1773,Mahou Shoujo Madoka★Magica,1.0
6508,Suzumiya Haruhi no Yuuutsu,0.868187
4846,Suzumiya Haruhi no Shoushitsu,0.856526
2969,Puella Magi Madoka Magica the Movie Part III: ...,0.849504
5596,Bakemonogatari,0.845459
7753,Puella Magi Madoka Magica the Movie Part I: Be...,0.811497
1692,Durarara!!,0.80191
2819,Tengen Toppa Gurren Lagann,0.799095
6603,Hyouka,0.796405
