# ÉCOLE IVADO - SYSTÈMES DE RECOMMANDATION
# ÉTÉ 2019 

# Auto-encodeur

## Auteurs: 

David Berger (davidberger2785 [at] gmail [dot] com)

Laurent Charlin (lcharlin [at] gmail [dot] com)

# 1. Introduction

Dans cet atelier, nous proposons d'implémenter un système de recommandation basé sur un auto-encodeur (AE), une architecture classique en apprentissage profond. Tout comme lors du volet de l'atelier portant sur les modèles utilisant la factorisation matricielle, nous utiliserons la base de données <a href="https://grouplens.org/datasets/movielens/">MovieLens</a> afin d'entraîner nos modèles, mener certaines expériences et comparer nos résultats avec d'autres types d'architectures.

## 1.1 Installation des librairies

Avant de commencer, nous devons nous assurer d'installer les librairies nécessaires pour le tutoriel à l'aide de `pip`.  Pour ce faire, exécutez la cellule suivante en la sélectionnant et en cliquant `shift`+`Enter`. Ceci peut prendre quelques minutes.

In [None]:
#!pip install torch

Nous importons par la suite les librairies.

In [None]:
import numpy as np
import pandas as pd

import pickle

# regroupement des fonctions maisons
import utilities as utl

## 1.2 Jeu de données - MoviesLens 100k

Nous pouvons télécharger les données préalablement traitées lors de l'atelier précédent avec la librairie <a href="https://docs.python.org/2/library/pickle.html"> `Pickle`</a>.

In [None]:
users = pickle.load(open('../data/saves/users', 'rb'))
user_attributes = pickle.load(open('../data/saves/user_attributes', 'rb'))
movies = pickle.load(open('../data/saves/movies', 'rb'))

train_set = pickle.load(open('../data/saves/train', 'rb'))
test_set = pickle.load(open('../data/saves/test', 'rb'))

# 2. Système de recommandation: Auto-encodeur

## 2.1 Modèle

## 2.2 L'apprentissage profond avec Pytorch

Afin de construire un système de recommandation basé sur les AE, nous allons utiliser la librairie 
<a href="https://pytorch.org/"> `Pytorch`</a>.  Cette libraire fournit deux fonctionnalités extrêmement intéressantes:
<ul>
<li> Manipulation de tenseurs (matrices à plusieurs dimensions) permettant d'effectuer les calculs avec GPU.</li>
<li> Utilisation de la différentiation automatique avec la classe <a href="http://pytorch.org/docs/master/autograd.html"> autograd</a> permettant de calculer facilement la descente de gradient. </li>

In [None]:
import torch
import torch.nn as nn
import torch.nn.parallel
import torch.optim as optim
import torch.utils.data

from torch.nn import functional
from torch.autograd import Variable

Puisque nous travaillerons avec Pytorch, transformons les données de MoviesLens en objet tensoriel.

In [None]:
train = torch.FloatTensor(train_set)
train, valid = train[0], train[1]
test = torch.FloatTensor(test_set)

**! Remarque !** 

Bien que la documentation disponible pour Pytorch soit détaillée (comparativement à d'autres librairies en apprentissage profond), il est facile de s'y perdre. N'empêche, pour la suite de l'atelier, il n'est pas nécessaire de saisir la totalité des nuances associées aux différentes commandes. En fait, l'essentiel est plutôt de bien saisir les tenants et aboutissants des étapes clés présentées.

## 2.3 Implémentation

Nous pouvons décliner en cinq étapes l'implémentation d'un AE comme système de recommandation:

1. Initialisation de l'AE,
2. Propagation message,
3. Estimation:  calcul du coût et rétro propagation,
4. Boucle d'apprentissage,
5. Évaluation. 

### 2.3.1 Initialisation

Dans un premier temps, nous définissons la classe de l'auto-encodeur à l'aide de la classe <a href="http://pytorch.org/docs/master/nn.html#module">torch.nn.Module</a>. En PyTorch, tout réseau de neurones doit hériter de cette classe. La classe d'auto-encodeur que nous définierons fait appel à d'autres classes communes dans Pytorch, telle <a href="http://pytorch.org/docs/master/nn.html#torch.nn.Linear">torch.nn.Linear(in_features, out_features)</a>. Cette dernière  implémente une couche linéaire (comme son nom l'indique) et complétement connectée prenant par défaut deux paramètres, soit l'entrée (in_features) et la sortie (out_features).  

##### Question 1

1. Complétez l'initialisation de la classe d'auto-encodeur conformément au schéma de l'architecture présenté ci-dessus.

In [None]:
class AE(nn.Module):
    def __init__(self, inputs, outputs, features, criterion=None):
        
        super(AE, self).__init__()

        # Complétez ici
        # Et là
        
        self.criterion = criterion

La classe maintenant définie, nous définierons:

1. Le nombre de neurones en entrée,
2. Le nombre de neurones en sortie,
3. Le nombre de neuronnes désirés dans la couche cachée. 

##### Question 2

1. Initialisez l'auto-encodeur avec les bonnes valeurs de paramètres.
2. Est-ce pertinent que la couche cachée ait plus de neurones que la couche d'entrée?

In [None]:
nb_inputs = ?
nb_outputs = ?
nb_features = ?

# Ininitalisation 
ae = ?

### 2.3.2 Propagation

Lors de la phase de propagation, la fonction `forward` associée à la propagation du message définit les opérations à effectuer afin de calculer les éléments de la sortie. Cette fonction est indispensable, porte par défault le nom `forward` et doit concorder avec l'initialisation du modèle lors de l'étape précédente afin de permettre une rétropropagation adéquate.
   
Notons également l'utilisation de la méthode <a href="http://pytorch.org/docs/master/nn.html#torch-nn-functional">torch.nn.functional</a> définissant un ensemble de fonctions qui peuvent être appliquées aux couches d'un réseau de neurones. Dans le cadre de cet atelier, nous utiliserons des fonctions non-linéaires comme <a href="http://pytorch.org/docs/master/nn.html#id36">sigmoid</a> et des fonctions de coût tel l'erreur quadratique moyenne <a href="http://pytorch.org/docs/master/nn.html#mse-loss">mse_loss</a>.

##### Question 3

1. Complétez la fonction `forward`.

In [None]:
def forward(model, x):
    
    return ?

### 2.2.2 Estimation des poids

Bien que les réseaux de neurones présentent notamment dans capacités prédictives ahurissantes, la complexité de leur archicture peut s'avérer rapidement très grande. D'un point de vue calculatoire, cela se traduit entre autres choses par l'impossibilité d'obtenir un optimum global pour la fonction de coût et bien sûr, d'estimer la valeur des poids de façon analytique, comme cela peut être fait dans un modèle linéaire sous hypothèse de normalité. N'empêche, si aucun optimum global n'est garanti, et si accessoirement aucune forme analytique ne peut être calculée, il n'en demeure pas moins que les poids associés peuvent être estimés. 

En ce sens, la descente (stochastique) du gradient (et ses dérivées) est une technique d'optimisation efficace et largement mise de l'avant en apprentissage profond. Cette technique fait appel à trois concepts clés, soit:

1. La fonction de coût.
2. Le type d'optimisateur.
3. La rétropropagation du gradient (implémentée dans la boucle d'apprentissage)

#### 2.2.2.1 Fonction de coût

Comme nous l'avons vu lors du précédent atelier, la fonction de coût joue un rôle déterminant dans la construction d'un modèle prédictif. En effect, c'est cette même fonction de coût que nous essaierons de minimiser (ou maximiser c'est selon) en ajustant itérativement les poids de l'AE au fur et à mesure que nous lui fournirons des évaluations. Ainsi, deux fonctions de coût différentes entraîneront fort probablement deux modèles différents. Comme d'habitude, Pytorch propose une grande quantité  de <a href="http://pytorch.org/docs/master/nn.html#id42"> fonctions de coût</a> que vous pourrez explorer à votre guise.

Dans la mesure où l'on considère que les évaluations varient entre 1 et 5, l'erreur quadratique moyenne (EQM) semble une première option intéressante. Formellement, dans le cadre d'un système de recommandation, nous définierons l'EQM ainsi : 

$$
\begin{align}
EQM (\mathbf{R}, \hat{\mathbf{R}}) = \frac{1}{n} \sum_{r_{ui} \neq 0} (r_{ui} - \hat{r}_{ui})^2, 
\end{align}
$$

où $\mathbf{R}$ et $\hat{\mathbf{R}}$ sont respectivement les matrices des évaluations observées et prédites, $n$ est le nombre total d'estimations effectuées. De la même façon, $r_{ui}$ et $\hat{r}_{ui}$ sont des scalaires associés respectivement à l'évaluation observée et l'évaluation estimée de l'usager $u$ pour l'item $i$.

Puisque nous avons codé la fonction de coût comme étant un attribut de la classe des auto-encodeurs, nous pouvons la définir avec la commande suivante.

In [None]:
ae.criterion = nn.MSELoss()

##### Question 4

1. Si l'EQM nous semble une fonction de coût intéressante dans le cas de système de recommandation avec des données explicites, quelle fonction de coût pertinente aurait pu être implémentée si les données avaient été implicites (évaluations binaires en fonction des préférences)? 

#### 2.2.2.2 Optimiseur

PyTorch fournit plusieurs <a href="http://pytorch.org/docs/master/optim.html#algorithms"> méthodes d'optimisation</a> plus ou moins dérivées de la descente du gradient via la classe `torch.optim`. Parmi ces techniques, nommons: 
<ul>
<li> SGD (Descente Stochastique du Gradient) : implémentation de SGD.
<li> Adam (Adaptive Moment Estimation) : variation de la méthode de descente de gradient où le taux d'apprentissage est ajusté pour chaque paramètre.     
<li> RMSprop : fonction de coût adaptée aux systèmes de recommandations. Plus de détails <a href="http://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf">ici</a>.
</ul>

Dans tous les cas, lorsque nous utilisons des méthodes d'optimisation itératives, nous devons fournir un pas d'apprentissage (learning rate) et une contrainte sur les poids, pour des raisons similaires à celles évoquées lors du précédent atelier. 

In [None]:
learning_rate = 0.02
weight_decay = 0.2

optimizer = optim.RMSprop(ae.parameters(), lr=learning_rate, weight_decay=weight_decay)

#### 2.2.2.3 Rétropropagation du gradient

En Pytorch, la rétropropagation du gradient est simplifiée grâce à la différentiation automatique du gradient et de la classe <a href="http://pytorch.org/docs/master/notes/autograd.html">autograd</a>. Celle-ci se fait en deux temps:

1. Calcul de la fonction de coût avec la fonction définie au préalable dans la classe de l'AE.
2. Dérivation automatique de la fonction de coût grace à la fonction `backward()`.

L'ensemble du processus de rétropropagation est directement implémenté dans la boucle d'apprentissage définie ci-dessous.

### 2.2.3 Boucle d'apprentissage

Lorsqu'un auto-encodeur (et de façon générale une architecture basée sur l'apprentissage profond) est utilisé comme système de recommandation, la boucle d'apprentissage diffère quelque peu de celle associée aux modèles basés sur la factorisation matricielle. Ainsi, chaque évaluation n'est plus considérée de façon individuelle, comme c'était le cas auparavant, mais est ici considérée sur l'ensemble des évaluations fournies par un individu donné par exemple.

##### Question 5

1. Complétez la phase de propagation.
2. À la fin de chaque époque, quelle statistique serait-il préférable de calculer? Codez-la. Remarque : il est préférable d'initialiser des objets en début de fonction (voir ligne 6)
3. Implémentez la phase de rétropropagation.
4. Dans la mesure où des données issues de l'ensemble d'entraînement, de validation ou de test peuvent être utilisées dans la fonction fit, quelles condition devrions-nous mettre à la ligne 22?

In [None]:
def fit(model, x, y, valid=False):
    
    nb_obs, nb_items = len(x), len(x[0])
    average_loss, s = 0, 0.

    for id_user in range(nb_obs):

        inputs = Variable(x[id_user]).unsqueeze(0)
        target = Variable(y[id_user]).unsqueeze(0)

        if torch.sum(target > 0) > 0:
            
            # Question 5.1: Phase de propagation
            #estimate = ?
            #
            target.require_grad = False
            
            # Question 5.3: Phase de rétropropagation
            loss = model.criterion(estimate, target)
            
            # Question 5.4: Condition
            if ?:
                #loss.backward()
                #optimizer.step()

            # Question 5.2: Statistique à calculer
            #
            s += 1.

    return model, average_loss, s

## 2.4 Entraînement de l'AE

L'auto-encodeur et les fonctions associées maintenant implémentés, nous pouvons commencer à entraîner le modèle. Encore une fois, le but ici n'est pas d'ajuster les paramètres de façon telle à obtenir le meilleur modèle possible, mais simplement de comprendre le rôle que ceux-ci peuvent jouer en fonction de leur capacité prédictive. 

##### Question 6

1. Finissez d'implémenter la phase d'entraînement.

In [None]:
nb_epoch = 20

for epoch in range(1, nb_epoch + 1):
    
    # ...
    
    print('epoch: ', epoch, '   |   train: ', np.around(train_loss.numpy() / train_s, 4), \
          '   |   valid: ', np.around(valid_loss.numpy() / valid_s, 4))

Vous pouvez maintenant manipuler les différents paramètres et hyperparamètres de l'AE. Parmi les différentes modifications que vous pouvez apporter, voici une (courte et non exhaustive) liste des modifications facilement implémentables:

1. Changer les hyperparamètres (un peu plate).
2. Augmenter la taille de la couche cachée (plus intéressant).
3. Ajouter des couches cachées au modèle en prenant soin de bien les initialiser et d'adapter la fonction forward.
4. Dichotomiser les données à l'aide d'un seuil (par exemple 3) et rouler l'ensemble du code en adaptant ou pas la fonction de coût tel que discuté précédemment.

Enfin, nous pouvons évaluer les performances de notre modèle sur l'ensemble test.

In [None]:
ae, test_loss, test_s = fit(model=ae, x=test, y=test, valid=True)
print('test: ', np.around(test_loss.numpy() / test_s, 4))

## 2.5 Analyse


### 2.5.1 Exploration de la couche latente

De façon analogue à ce qui a été présenté dans l'atelier sur la factorisation matricielle, nous pouvons explorer la couche latente de l'AE. Dans la mesure où la couche d'entrée représente l'ensemble des évaluations pour un individu donnée, chaque neurone de la couche latente sera associé à un attribut latent d'un individu.

In [None]:
x = train
model = ae
hidden = torch.sigmoid(model.fc1(x)).detach().numpy()

Bien que cette information nous semble informe, nous pourrions nous intéresser, par exemple, aux mesures d'association entre les différentes couches cachées, ou encore une couche cachée et une des caractéristiques sociodémographiques. Pour ce faire, une avenue intéressante serait de simplement calculer les corrélations associées.

Premièrement, en explorant simplement les corrélations entre les différents neurones.

##### Question 7

1. Quel neurone de la couche cachée vous semble <i>a priori</i> le plus intéressant? Pourquoi?

In [None]:
import matplotlib.pyplot as plt

df = pd.DataFrame(np.array(hidden))

f = plt.figure(figsize=(6, 6))
plt.matshow(df.corr(), fignum=f.number)
plt.xticks(range(df.shape[1]), df.columns, fontsize=10, rotation=0)
plt.yticks(range(df.shape[1]), df.columns, fontsize=10)
cb = plt.colorbar()
cb.ax.tick_params(labelsize=10)

<b>!!! À FINIR !!!

Par après, en étudiant les corrélations entre un neurone de la couche cachée et les variables sociodémographiques.

In [None]:
id_hidden = 5
df = pd.DataFrame(np.concatenate((np.matrix(hidden[:, id_hidden]).T, np.array(user_attributes)), axis=1))

##### Question 8

1. L'étude de la couche latente s'est faite ici en fonction des utilisateurs du système. Serait-il possible d'étudier les couches latentes associées aux individus. Si oui, comment?

# 3. Applications

L'un des objectifs premier des systèmes de recommandation est d'effectuer de recommandations (!) personnalisées pour chacun des utilisateurs. Dès lors, il pourrait être intéressant d'étudier les recommandations effectuées par notre modèle pour un individu spécifique. Il serait également préférable que les recommendations faites ne suggèrent que des films non visionnés par l'usager.

##### Question 9

1. Implémentez une courte fonction afin d'effectuer les <i>k</i> meilleures recommandations de films n'ayant pas encore été visionnés pour un usager choisi.

In [None]:
def recommendations(model, data, titles, k):
    

Appel de la fonction avec quelques manipulations...

In [None]:
user_id = 0
k=10

Comme nous l'avons vu lors de l'atelier portant sur les systèmes de recommandation basés sur la factorisation matricielle, nous pouvons facielement personnaliser les algorithmes en fonction de plusieurs paramètres. À titre d'exemple, nous pourrions implémenter un systèmes proposant les meilleures recommandations en fonction:

1. D'un genre de film en particulier.
2. D'une préférence minimale souhaitée: un score minimal prédit strictrement supérieur à 4,5 par exemple.

##### Question 10

1. Est-ce que les recommandations faites pour un même usager sont les mêmes d'un algorithme à l'autre?

# 4. Autres idées de modélisations

Jusqu'à présent, nous n'avons considéré que les évaluations dans notre modèle. Il pourrait être intéressant de considérer d'autres types de modélisations. 

Par exemple, au lieu d'utiliser les évaluations de films fait par un individu comme couche d'entrée (donc 1682 neurones), nous pourrions utiliser les évaluations des individus pour un film en particulier (et donc 943 neurones en couches d'entrée). Dans la même veine, à cette modélisation, nous pourrions incorporer les différents genre des films et/ou leur année de sortie.

Enfin, nous pourrions simplement nous détacher des auto-encodeurs et lorgner d'autres types d'architectures. En considérant les différentes fonctions et classe précédement codées, nous pourrions implémenter un perceptron multicouche. Pour ce faire, les entrées du réseaux seraient exactement les mêmes, à la différence que les cibles ne seraient constituées que de films non visionnés.

## 4.1 Utilisation des données sociodémographiques

Il pourrait être intéressant de vérifier si l'utilisation des données sociodémographiques des usagers améliore ou non les capacités prédictives du modèle. En fait, dans la mesure où pareilles informations n'amélioreraient que très peu les capacités du modèle, elles pourraient être utiles lorsqu'un nouvel usager compte utiliser le système de recommandation mis en place. Bien qu'imparfaites, les informations associées à l'âge, le genre et l'occupation d'un usager pourraient être utiles pour présenter les premières recommendations.

Afin d'observer comment le SR se comporte avec de telles données, nous devons dans un premier temps modifier les différents ensembles afin que ceux-ci présentent les informations sociodémographiques de chaque usager.

In [None]:
train_inputs = torch.FloatTensor(utl.inner_concatenation(user_attributes, train_set[0]))
train_outputs = torch.FloatTensor(train_set[0])

valid_inputs = torch.FloatTensor(utl.inner_concatenation(user_attributes, train_set[1]))
valid_outputs = torch.FloatTensor(train_set[0])

test_inputs = torch.FloatTensor(utl.inner_concatenation(user_attributes, test_set))
test_outputs = torch.FloatTensor(test_set)

##### Question 11

1. Initialisez l'auto-encodeur.

##### Question 12

1. Implémentez la phase d'entraînement.

##### Question 13

1. Calculez les performances sur l'ensemble test.

### 4.1.1 Problème du démarrage à froid

En fait, et tel que mentionné précédemment, au-delà d'améliorer les performances du modèle en fonction de la métrique choisie, l'incorporation de variables sociodémographiques dans le modèle permet d'effectuer des recommandations à un nouvel utilisateur simplement en fonction de ses attributs. Cette modélisation permet de contrecarrer le problème de démarrage à froid ou mieux connu sous le nom de <i>cold start</i>.

##### Question 13

1. Fixer l'âge, le genre et l'occupation d'un individu.
2. Considérer que ce-dernier n'a encore évaluer aucun film.
3. Présentez-lui, selon le modèle estimée, les meilleures recommandations de films.
4. Faites varier les attributs de l'individus.
5. Que remarquez-vous?

In [None]:
# Question 13.1: Fixez les attributs d'un individu
age = [10]
gender = [1]

occupation = np.zeros(len(occupation_name))
occupation_name = np.array(pd.read_csv('../data/ml-100k/u.occupation', 
                                            sep='|', header=None, engine='python', encoding='latin-1').loc[:, 0])

occupation[occupation_name.tolist().index('artist')] = 1

# Question 13.2: Aucun film


# Question 13.3: Meilleures recommandations
