In [1]:
import numpy as np
import pandas as pd

import torch
import torch.nn as nn
import torch.nn.parallel
import torch.optim as optim
import torch.utils.data

from torch.nn import functional
from torch.autograd import Variable

Fonctions utilitaires random en attendant de voir que ça existe dans numpy...

In [2]:
def top(vector, maximum, k):        
    c = maximum * np.argsort(scores)[-k:] + (1 - maximum) * np.argsort(scores)[:k]
    d = []
    for i in np.arange(len(c)):
        d.append(vector[c[i]])
    return d

def rearrange(items, ratings):
    attribute, scores = [], []
    ranking = np.argsort(ratings)

    for k in np.arange(len(ranking)):
        attribute.append(items[ranking[k]])
        scores.append(ratings[ranking[k]])

    return attribute, scores

def convert(data, nb_users, nb_movies):
    new_data = []
    for id_users in range(1, nb_users + 1):
        id_movies = data[:,1][data[:,0] == id_users]
        id_ratings = data[:,2][data[:,0] == id_users]
        ratings = np.zeros(nb_movies)
        ratings[id_movies - 1] = id_ratings
        new_data.append(list(ratings))
    return new_data

## MoviesLens - Exploration des données

Les données que nous allons manipuler afin d'explorer différents algorithmes de systèmes de recommendation sont celles associées au projet MovieLens (https://grouplens.org/datasets/movielens/). Brièvement, les données utilisées consistent ici en plus ou moins 100 000 évaluations de films par 943 utilisateurs. Un ensemble de 1 682 films étaient disponible en visionnement. En plus des 100 000 évaluations à notre disposition, nous avons des informations liées à chacun des usagers de même qu'à chacun des films.

Enfin, la base de données est téléchargeable ici: 

### Importation et traitement des données associées aux usagers

Avant de présenter les statistiques descriptives (ou d'explorer les données) liées à la population étudiée, nous allons dans un premier temps traiter les données associées aux usagers afin de pouvoir plus aisément les utiliser avec les algorithmes.  

In [3]:
users = pd.read_csv('../data/ml-100k/u.user', sep='|', header=None, engine='python', encoding='latin-1')

# age
users_age = np.matrix(users.loc[:, 1])

# sexe
users_sex = np.matrix(users.loc[:, 2])
users_sex[users_sex == 'M'] = 0
users_sex[users_sex == 'F'] = 1

# occupation
users_occupation = np.array(pd.read_csv('../data/ml-100k/u.occupation', sep='|', header=None, engine='python', encoding='latin-1').loc[:, 0])
users_occupation = np.array(users.loc[:, 3])
occupation_matrix = np.zeros((len(users), len(users_occupation[0])))

for i in np.arange(len(users)): 
    i_occupation = users_occupation[i]
    
    for j in np.arange(len(users_occupation[0])):
        if i_occupation == users_occupation[j]:
            occupation_matrix[i, j] = 1
            break            
users_occupation = occupation_matrix

# concatenation des differentes donnees sociodemographiques sous forme de liste
user_attributes = np.concatenate((users_sex, users_age, users_occupation.T)).T.tolist()

Nous explorons par la suite les différentes statistiques descriptives associées aux usagers. Celles-ci comportent des informations en lien avec l'âge, le sexe et l'occupation de chacun des usagers.

### Importation et reformatage des données associées aux films

De la même façon, nous allons traiter et explorer les données associées aux films. Pour chacun des 1 682 films, nous disposons du titre, de la date de sortie en Amérique du Nord, de même que les genres auxquels il est associé.

In [4]:
movies = pd.read_csv('../data/ml-100k/u.item', sep='|', header=None, engine='python', encoding='latin-1')

movie_names = np.array(movies.loc[:, 1])
movies_genre = np.matrix(movies.loc[:, 5:])
movies_genre_names = np.array(pd.read_csv('../data/ml-100k/u.genre', sep='|', header=None, engine='python', encoding='latin-1').loc[:, 0])


### Importation et reformatage des données associées aux évaluations

À la base, le jeu de données comporte 100 000 lignes (une évaluation par ligne) où sont respectivement recensés le numéro d'identification de l'utilisateur, le numéro d'identification du film, l'évaluation associée et un marqueur de temps auquel le film a été visionné. Les ensembles d'entrainement et de test ont été fournis tel quel et comportent respectivement 80 et 20 milles évaluations.

###### REMARQUE : 
La notion d'ensembles d'entraînement et de test dans le cadre de système de recommendation est quelque peu différente de ce que l'on voit habituellement dans un cas classique de problème supervisé. Si dans le cadre d'un problème supervisé, l'ensemble de test consiste essentiellement en de nouvelles observations (lire lignes) indépendantes des observations préalablement observées dans l'ensemble d'entrainement, le paradigme est sensiblement différent lorsque nous travaillons avec des systèmes de recommendation.

Effectivement, et en raison du modèle mathématique sur lequel est basé les systèmes de recommendation, les données appartenant à l'ensemble de test ne sont pas associées à une nouvelle utilisatrice, mais bien à de nouvelles évaluations, ou des évaluations futures. Dès lors, les données associées aux ensembles d'entrainement, de validation et de test ne sont plus indépendantes tel que supposé.

In [5]:
training_set = pd.read_csv('../data/ml-100k/u1.base', delimiter='\t')
training_set = np.array(training_set, dtype='int')
test_set = pd.read_csv('../data/ml-100k/u1.test', delimiter='\t')
test_set = np.array(test_set, dtype='int')

nb_users = int(max(max(training_set[:, 0]), max(test_set[:, 0])))
nb_items = int(max(max(training_set[:, 1]), max(test_set[:, 1])))

train_set = convert(training_set, nb_users, nb_items)
test_set = convert(test_set, nb_users, nb_items)

Exploration des données et statistiques descriptives

##### Créations des sous-ensembles d'entrainement et de validation

Enfin, pour obtenir le meilleur modèle, et fixer l'ensemble des paramètres et hyperparamètres optimaux, nous devons construire des sous-ensembles d'entrainement et de validation. Puisque le but de l'atelier n'est pas d'étudier la notion de biais systèmatique associée à la présence de données manquantes dans les systèmes de recommendation, nous allons naïvement supposer que chacune des évaluations sont indépendantes les unes des autres. 

In [6]:
def split(data, ratio, tensor=False):

    train, valid = np.zeros((len(data), len(data[0]))).tolist(), np.zeros((len(data), len(data[0]))).tolist()

    for i in range(len(data)):
        for j in range(len(data[i])):
            if data[i][j] > 0:
                if np.random.binomial(1, ratio, 1):
                    train[i][j] = data[i][j]
                else:
                    valid[i][j] = data[i][j]

    return [train, valid]

train = split(train_set, 0.8)

train = torch.FloatTensor(train)
test = torch.FloatTensor(test_set)

## Système de recommendation basé sur des architectures d'apprentissage profond

Mettre commentaires

In [29]:
class AE(nn.Module):

    def __init__(self, ratings, movie_names, criterion):
        
        super(AE, self).__init__()

        self.fc1 = nn.Linear(len(movie_names), 100)
        self.fc2 = nn.Linear(100, len(movie_names))
        
        self.criterion = criterion
        
        self.movie_names = movie_names
        self.ratings = ratings
    
    def recommendations(self, user_id, top_what=5):
        
        user_ratings = torch.FloatTensor(self.ratings[user_id])
        predictions = self(user_ratings).detach().numpy()

        predictions[user_ratings.numpy() != 0] = 0
        recommendations = rearrange(self.movie_names, predictions)[0][-top_what:]
        
        return recommendations
    
    def fit(self, ratings, valid=False):
         
        nb_users, nb_movies = len(ratings[valid  * 1]), len(ratings[valid  * 1][0])
        average_loss, s = 0, 0.
        
        for id_user in range(nb_users):

            input = Variable(ratings[valid  * 1][id_user]).unsqueeze(0)
            target = input.clone()

            if torch.sum(target > 0) > 0:

                output = self(input)
                target.require_grad = False
                output[target == 0] = 0
                loss = self.criterion(output, target)

                if not valid:
                    loss.backward()
                    optimizer.step()

                average_loss += np.sqrt(loss.data / float(torch.sum(target.data > 0)))
                s += 1.
        
        return average_loss, s
        
    
    def forward(self, x):
        h1 = torch.sigmoid(self.fc1(x))
        return self.fc2(h1)

### Auto-encodeurs (AE)

#### Paramètres considérés

Dans le cas d'un auto-encodeur (AE), plusieurs paramètres pourront considérés. Parmis les plus évidents, mentionnons simplement le nombre de couches cachées et le nombre de neuronnes sur chacune d'elles. Nous pourrons également considérer les différentes fonctions d'activation, ici limité à une seule et consistant à une fonction sigmoïde. 

Même si typiquement les couches d'entrée et de sortie d'un auto-encodeur sont identiques, nous pouvons utiliser les données sur les utilisateurs afin de prédire avec plus de précision (biais) et d'exactitude (variance). Nous explorerons cet aspect par la suite.

D'une grande importance également est le type de la fonction de perte. Si l'erreur quadratique moyenne est majoritairement utilisée, plusieurs autres options existent et la littérature récente semble délaisser l'usage de la MSE et suggérant plutôt d'autres alternatives plus à propos. Plus technique, nous pourrons également considérer comme un paramètre le type d'optimiseur pour effectuer l'estimation des paramètres associés à l'auto-encodeur.

#### Hyperparamètres considérés

Les hyperparamètres considérés sont semblables à ceux utilisés dans les autres architectures en apprentissage profond. À savoir: le pas d'apprentissage (learning rate), le nombre d'époques ou d'itérations, la régularisation (weight decay) imposée sur les paramètres du modèle de même que le critère d'arrêt.

En temps normal, la meilleure combinaison des (hyper) paramètres se fera en étudiant leur performance sur l'ensemble de validation.  

Une fois l'ensemble des paramètres et hyperparamètres définis, nous pouvons initialiser le modèle.

In [30]:
learning_rate = 0.02
nb_epoch = 20
weight_decay = 0.02
stop_crit = 0.002

criterion = nn.MSELoss()
ae = AE(train_set, movie_names, criterion)
optimizer = optim.RMSprop(ae.parameters(), lr=learning_rate, weight_decay=weight_decay)

### Entrainement du modèle

L'entraînement du modèle 


In [31]:
len(train[False * 1])

943

In [None]:
for epoch in range(1, nb_epoch + 1):
    
    train_loss, train_s = ae.fit(ratings=train)
    valid_loss, valid_s = ae.fit(ratings=train, valid=True)
 
    print('epoch: ', epoch, '   |   train: ', np.around(train_loss.numpy() / train_s, 4), \
          '   |   valid: ', np.around(valid_loss.numpy() / valid_s, 4))

943
943
epoch:  1    |   train:  0.0352    |   valid:  0.0335
943
943
epoch:  2    |   train:  0.031    |   valid:  0.0327
943
943
epoch:  3    |   train:  0.0287    |   valid:  0.032
943
943
epoch:  4    |   train:  0.0274    |   valid:  0.032
943
943
epoch:  5    |   train:  0.0256    |   valid:  0.0313
943
943
epoch:  6    |   train:  0.0245    |   valid:  0.0319
943
943


In [28]:
for epoch in range(1, nb_epoch + 1):
    
    train_loss, valid_loss = 0, 0
    s = 0.
    
    nb_movies = len(movie_names)
    
    for id_user in range(nb_users):
        input_train = Variable(train[0][id_user]).unsqueeze(0)
        target_train = input_train.clone()
        
        input_valid = Variable(train[1][id_user]).unsqueeze(0)
        target_valid = input_valid.clone()
        
        if (torch.sum(target_train > 0) > 0) & (torch.sum(target_valid > 0) > 0):

            output_train = ae(input_train)
            target_train.require_grad = False  # pourquoi false?
            output_train[target_train == 0] = 0

            loss_train = criterion(output_train, target_train)

            output_valid = ae(input_valid)
            target_valid.require_grad = False  # pourquoi false?
            output_valid[target_valid == 0] = 0

            loss_valid = criterion(output_valid, target_valid)

            loss_train.backward()
            optimizer.step()

            train_loss += np.sqrt(loss_train.data / float(torch.sum(target_train.data > 0)))
            
            valid_loss += np.sqrt(loss_valid.data / float(torch.sum(target_valid.data > 0)))
            s += 1.
 
    print('epoch: ', epoch, '   |   train: ', np.around(train_loss.numpy() / s, 4), \
          '   |   valid: ', np.around(valid_loss.numpy() / s, 4))

epoch:  1    |   train:  0.0349    |   valid:  0.0356
epoch:  2    |   train:  0.0306    |   valid:  0.032
epoch:  3    |   train:  0.0289    |   valid:  0.0314
epoch:  4    |   train:  0.028    |   valid:  0.0316
epoch:  5    |   train:  0.0263    |   valid:  0.0315
epoch:  6    |   train:  0.0248    |   valid:  0.0313
epoch:  7    |   train:  0.0237    |   valid:  0.031
epoch:  8    |   train:  0.0231    |   valid:  0.0313
epoch:  9    |   train:  0.0226    |   valid:  0.0313
epoch:  10    |   train:  0.0218    |   valid:  0.0314
epoch:  11    |   train:  0.0208    |   valid:  0.0313
epoch:  12    |   train:  0.0209    |   valid:  0.0314
epoch:  13    |   train:  0.0206    |   valid:  0.0317
epoch:  14    |   train:  0.0198    |   valid:  0.0321
epoch:  15    |   train:  0.0195    |   valid:  0.0323
epoch:  16    |   train:  0.019    |   valid:  0.0325
epoch:  17    |   train:  0.0186    |   valid:  0.0328
epoch:  18    |   train:  0.0185    |   valid:  0.0331
epoch:  19    |   train

#### Évaluation finale sur l'ensemble de test

Mettre description

In [29]:
test_loss = 0
s = 0.

for id_user in range(nb_users):
    input = Variable(test[id_user]).unsqueeze(0)
    target = Variable(test[id_user]).unsqueeze(0)
    if torch.sum(target.data > 0) > 0:
        output = ae(input)
        target.require_grad = False
        output[target == 0] = 0
        loss = criterion(output, target)
        mean_corrector = nb_movies/float(torch.sum(target.data > 0) + 1e-10)
        test_loss += np.sqrt(loss.data * mean_corrector)
        s += 1.
print('test loss: ' + str(test_loss/s))

test loss: tensor(1.3415)


### Analyse des performances générales et visualisation des résultats

Visualisation des résultats: parler des prédictions en fonction:
1. des attributs de l'utilisateur (sexe, age occupation)
2. des genre de films

### Pour un individu choisi


Fonction pour effectuer les meilleures recommendations en fonction de certains critères (intégrés dans la classe). Dans un premier temps, nous pouvons suggérer les 'k' meilleures recommendations pour un usager en particulier. Naturellement, les recommendations faites ne suggèrent que des films non visionnés par l'usager.

In [23]:
ae.recommendations(user_id = 0, top_what = 5)

['Tin Drum, The (Blechtrommel, Die) (1979)',
 'Lamerica (1994)',
 'Big Sleep, The (1946)',
 'For Whom the Bell Tolls (1943)',
 'Evil Dead II (1987)']

En s'attardant un peu aux nouvelles recommendations faites, on peut identifier le comportement de l'usager et ses préférences en terme de genre.

En fait, ça pourrait être intéressant de proposer à l'usager des films en fonction de ces préférences du moment en fonction du genre.

In [None]:
genre = 'Action'
model.predict_instance(user_id, ratings, top_what, genre)

Peut-être même pourrions-nous sonder son inconscient (lire les couches latentes du modèle) et de lui proposer de nouveaux films que lui-même n'imaginait pas aimer. Ces recommendations sont faites au-delà des genres explicitement définis dans le jeu de données initial. Pour plus de détail, voir la section supplément.

In [None]:
def recommendations(self, data, id_user, ratings, top_what, movie_names):

## Comparaison des différentes techniques : MF vs AE

Présenter discussion