
# Recurrent Neural Networks with Top-k Gains for Session-based Recommendations


Avec l'avènement des plateformes de streaming et de commerce en ligne les systèmes de recommandation ont pris une place incontournable dans notre vie de chaque jour. Les systèmes de recommandation sont aujourd'hui incontournables lors de nos visites quotidiennes sur le web. les systèmes de recommandation sont des algorithmes dont le but est de faire des suggestions pertinentes à l'usager. par exemple lorsque vous allez sur l'application netflix, vous avez des suggestions de films qui pourraient vous intéresser. ces algorithmes sont technologies qui rendent les entreprises extrêmement concurrentielles. Il existe deux grandes familles de méthodes pour construire un système de recommandation:
- les méthodes par filtrage collaboratif;
- les méthodes basées sur le contenu.
Les méthodes collaboratives pour les systèmes de recommandation sont des méthodes qui se basent uniquement sur les interactions passées enregistrées entre les utilisateurs et les éléments afin de produire de nouvelles recommandations. Ces interactions sont stockées dans la "matrice des interactions entre utilisateurs et articles". L'idée principale qui régit les méthodes collaboratives est que ces interactions passées entre utilisateurs et articles sont suffisantes pour détecter des utilisateurs similaires et/ou des articles similaires et faire des prédictions basées sur ces proximités estimées. Contrairement aux méthodes de collaboration qui reposent uniquement sur les interactions entre l'utilisateur et l'article, les approches basées sur le contenu utilisent des informations supplémentaires sur les utilisateurs et/ou les articles. L'idée derrière ces méthodes est de construire un modèle, basé sur les "caractéristiques" disponibles, qui expliquent les interactions observées entre l'utilisateur et les articles. par exemple si nous voulons faire des recommandations sur un site de vente en ligne nous pouvons ajouter des variables comme le sexe du visiteur, son age, sa profession... 

Cependant ces deux familles ont une principale limite: elles sont incapable de faire une recommandation lorsqu'il s'agit d'un nouvel utilisateur. Un utilisateur qui n'a pas d'historique. Ceci est le but de l'article étudié pour de projet, construire un système de recommandation qui soit capable de faire des recommandation lorsque l'utilisateur n'a pas d'historique sur le site. une solution triviale à ce problème est de faire le item-to-item approche. Avec cette approche on recommande à l'utilisateur des articles qui sont similaires. Dans cet article, l'auteur n'utilisera pas cette approche mais plutôt des réseaux de neuronnes, ici, des réseaux de neuronnes récurrents. Ces derniers sont réputés pour leur excellente habilité à modéliser des données séquentielles. Avec ces réseau l'auteur va modéliser toute la session de l'utilisateur afin de pouvoir faire des prédictions.

## présentation des travaux précédents
Pleines de solutions avaient été proposés pour ce problème notemment celle avec la matrice des articles similaires, et des méthodes avec Reccurent Neural Networks(RNN), les LSTMs et les GRU. Dans cette section nous nous focaliseront sur l'article de référence de l'auteur. Nous présenteront la méthode de résoltion dans cet article afin de présenter plus les améliorations de cette dernière dans l'article que nous étudions. L'article sur lequel l'auteur a bati son raisonnement est **SESSION-BASED RECOMMENDATIONS WITH RECURRENT NEURAL NETWORKS**, disponible ici [ici](https://arxiv.org/abs/1511.06939). 

Dans cet article la version de RNN utilisée est celle de General Recurent Unit (GRU), cette version permet de résoudre le problème du gradient qui disparait avec les RNN. le modèle utilisé ici est constitué d'une couche d'embedding, des couches de GRU, des feedforwards layers et la sortie du réseau contient les différents scores des articles prédisant ainsi le prochain article sur lequel l'utilisateur cliquera. L'entrée du réseau est l'état actuel de la session. Ci-dessous une représentation du réseau.
<img src="images/architecture.png"/>

Pour l'entrainement du réseau les auteurs considèrent des mini-batches de sessions parrallèles. En effet les RNN sont toujours entrainé sur des batches de données, et la taille des données d'entrées doit être fixe. ceci ne peut être obtenu avec ce type de données car les sessions n'ont pas les mêmes durée, de plus vu qu'on veut modéliser la session entière ça ne fait pas sens de couper une session pour en faire un batch. pour résoudre ce problème les auteurs utlisent à la fois plusieurs sessions d'utilisateurs et forment des batchs avec avec les éléments des différentes sessions (pour cela ils supposent l'indépendance entre les sessions). ci dessous une illustration de la formation des batches.
<img src="images/batchs.png"/>
Ensuite pour chaque session il faudra prédire les prochaines sélections de l'utilisateur. Le problème ici est qu'un site peut contenir des milliers d'articles et que ceux qui intéressent vraiment sont ceux qui pourront intéresser l'utilisateur. Si on considèrent tous les articles cela conduirait à un vecteur sparse car les articles jugés (par le réseau) non intéressant pas l'utilisateur auront des probabilités très faibles. Ainsi pour résoudre ce problème avec la sparsité du résultat les auteurs adoptent cette méthode d'échantillonnage des articles. Ils considèrent tous les autres articles du mini batchs comme des exemples négatifs.

Pour faire la backpropagation avec leur réseau, les auteurs considèrent deux fonctions de perte:
- BPR: Bayesian Personalized Ranking. c'est une méthode de factorisation matricielle qui utilise la perte de classement par paire. Il compare le score d'un positif et d'un négatif échantillonné point. Ici on compare le score de l'élément positif avec plusieurs éléments échantillonnés et utilisons leur moyenne comme la perte. Ainsi on compare le score de l'élément positif avec celui des négatifs. la formule de cette perte est donnée ci-dessous:
    $$ L_s^{BPR} = \frac{-1}{N_s} \sum_{j=1}^{N_s}{log(\sigma(\hat r_{s,i} - \hat r_{s,j}))} $$
où {N_s} est la taille de l'échantillon, {\hat r_{s,k}} est le score de l'article k, i est le prochain item (celui qu'on cherche à prédire) et j les échantillons négatifs.

- TOP1: cette perte a été conçue par les auteurs pour cette tâche, elle régularise l'approximation du rang relatif de l'article concerné. Cette perte est donnée par la formule suivante:
$$ L_s^{TOP1} = \frac{-1}{N_s} \sum_{j=1}^{N_s}{\sigma(\hat r_{s,j} - \hat r_{s,i}) + \sigma(\hat r_{s,j}^2)} $$

In [3]:
##clonage du github où se trouve l'implémentation de l'article
!git clone https://github.com/hidasib/GRU4Rec

Cloning into 'GRU4Rec'...


In [1]:
## installation des requirements
!pip install theano 
conda install -c conda-forge pygpu



### importation des librairies utiles

In [3]:
from images import*
#from pygpu import libgpuarray 
#import libgpuarray 
import run
import numpy as np
import datetime as dt
import pandas as pd

### nétoyage des données

In [5]:
### liens pour les données
##le premier permet de récupérer les données à nétoyer et le second lien va contenir les données nétoyées
PATH_TO_ORIGINAL_DATA = 'C:/Users/mbial/OneDrive/Bureau/2020_2021/2020-2021/ENSAE/projet/datasets/RSC15/'
PATH_TO_PROCESSED_DATA = 'C:/Users/mbial/OneDrive/Bureau/2020_2021/2020-2021/ENSAE/projet/datasets/RSC15/'

In [6]:
data = pd.read_csv(PATH_TO_ORIGINAL_DATA + 'yoochoose-clicks.dat', sep=',', header=None, usecols=[0,1,2], dtype={0:np.int32, 1:str, 2:np.int64})

PermissionError: [Errno 13] Permission denied: 'C:/Users/mbial/OneDrive/Bureau/2020_2021/2020-2021/ENSAE/projet/datasets/RSC15/yoochoose-clicks.dat'

In [None]:
PATH_TO_ORIGINAL_DATA = '/path/to/clicks/dat/file/'
PATH_TO_PROCESSED_DATA = '/path/to/store/processed/data/'

data = pd.read_csv(PATH_TO_ORIGINAL_DATA + 'yoochoose-clicks.dat', sep=',', header=None, usecols=[0,1,2], dtype={0:np.int32, 1:str, 2:np.int64})
data.columns = ['SessionId', 'TimeStr', 'ItemId']
data['Time'] = data.TimeStr.apply(lambda x: dt.datetime.strptime(x, '%Y-%m-%dT%H:%M:%S.%fZ').timestamp()) #This is not UTC. It does not really matter.
del(data['TimeStr'])

session_lengths = data.groupby('SessionId').size()
data = data[np.in1d(data.SessionId, session_lengths[session_lengths>1].index)]
item_supports = data.groupby('ItemId').size()
data = data[np.in1d(data.ItemId, item_supports[item_supports>=5].index)]
session_lengths = data.groupby('SessionId').size()
data = data[np.in1d(data.SessionId, session_lengths[session_lengths>=2].index)]

tmax = data.Time.max()
session_max_times = data.groupby('SessionId').Time.max()
session_train = session_max_times[session_max_times < tmax-86400].index
session_test = session_max_times[session_max_times >= tmax-86400].index
train = data[np.in1d(data.SessionId, session_train)]
test = data[np.in1d(data.SessionId, session_test)]
test = test[np.in1d(test.ItemId, train.ItemId)]
tslength = test.groupby('SessionId').size()
test = test[np.in1d(test.SessionId, tslength[tslength>=2].index)]
print('Full train set\n\tEvents: {}\n\tSessions: {}\n\tItems: {}'.format(len(train), train.SessionId.nunique(), train.ItemId.nunique()))
train.to_csv(PATH_TO_PROCESSED_DATA + 'rsc15_train_full.txt', sep='\t', index=False)
print('Test set\n\tEvents: {}\n\tSessions: {}\n\tItems: {}'.format(len(test), test.SessionId.nunique(), test.ItemId.nunique()))
test.to_csv(PATH_TO_PROCESSED_DATA + 'rsc15_test.txt', sep='\t', index=False)

tmax = train.Time.max()
session_max_times = train.groupby('SessionId').Time.max()
session_train = session_max_times[session_max_times < tmax-86400].index
session_valid = session_max_times[session_max_times >= tmax-86400].index
train_tr = train[np.in1d(train.SessionId, session_train)]
valid = train[np.in1d(train.SessionId, session_valid)]
valid = valid[np.in1d(valid.ItemId, train_tr.ItemId)]
tslength = valid.groupby('SessionId').size()
valid = valid[np.in1d(valid.SessionId, tslength[tslength>=2].index)]
print('Train set\n\tEvents: {}\n\tSessions: {}\n\tItems: {}'.format(len(train_tr), train_tr.SessionId.nunique(), train_tr.ItemId.nunique()))
train_tr.to_csv(PATH_TO_PROCESSED_DATA + 'rsc15_train_tr.txt', sep='\t', index=False)
print('Validation set\n\tEvents: {}\n\tSessions: {}\n\tItems: {}'.format(len(valid), valid.SessionId.nunique(), valid.ItemId.nunique()))
valid.to_csv(PATH_TO_PROCESSED_DATA + 'rsc15_train_valid.txt', sep='\t', index=False)
