# Recherche d'Information et traitement de données massives

# Lab 7 : Personnalisation : Systèmes de recommandation

Ce LAB a pour objectif de vous familiariser avec le problème de la recommandation par la réalisation d'un système de recommandation de films.  

### Avant propos : un bref rappel du Filtrage Collaboratif

Le problème de la recommandation vise à prédire des scores de pertinence personnalisés à l’utilisateur pour un item, objet non vu. Différentes approches existent : filtrage collaboratif, basées sur le contenu, basées sur la connaissances, ...  (voir le cours 7)

Dans ce Lab on s'intéressera au Filtrage collaboratif. L'idée est de prendre en compte les relations de similarité entre les utilisateurs et les éléments. En d'autres termes, la similarité entre éléments est déterminée en prenant en
compte les notes des utilisateurs ayant jugés ces éléments.

<img src="./Figures/recommandationcollaborative.png" width="350" height="350" />

Deux types de filtrage collaboratif :

- **Approche par voisinnage (memory-based)** : cette approche calcule la prédiction d'un item $i$ pour un utilisateur $x$ en se basant sur les plus proches voisins de $x$ (i.e. ceux dont l'ensemble de notations est similaire à l'ensemble des notation de $x$). 

- **Approche par modèles (model-based)** : cette approche cherche à predire le score d'un item $i$ pour un utilisateur $x$, sur la base des items qui sont similaires à $i$. Donc, l'estimation de la note pour l’élément se fait à partir des notes des éléments de $x$ similaires à $i$. 

## PARTIE 1 : Exercice

<div class="alert alert-block alert-danger">
<b>Note : </b> un exercice sur un fichier pdf séparé est disponible sur EDUNAO. Il vous permettra de réviser plus simplement les concepts du cours.
</div>

## PARTIE 2 : Applicaton au corpus MovieLens

Dans cette partie nous travaillerons sur la base du corpus [MOVIELENS dataset](https://grouplens.org/datasets/movielens/) qui contient les jugements de films d'un ensemble d'utilisateurs ainsi que des informations sur les utilisateurs et sur les films. L'objectif de cette partie est de mettre en place un système de recommandation de films à partir de ce corpus. 
Il s'agira par exemple de pouvoir répondre à la question suivante : *quels sont les films pouvant plaire à une personne étant donné la connaissance sur cette personne (e.g. les autres films qu'elle a aimé ou les utilisateurs ressemblant à cette personne) ?* 

Pour ce travail, il est conseillé de travailler avec le [MovieLens 100K Dataset](https://grouplens.org/datasets/movielens/100k/) et de tester ensuite votre approche sur les datasets de  taille plus conséquente :
 + MovieLens 1M Dataset (1M de notes sur 4000 films par 6000 utilisateurs), disponible [ici](https://grouplens.org/datasets/movielens/1m/)
 + MovieLens 10M Dataset (10M de notes sur 10 000 films par 72000 utilisateurs, disponible [ici](https://grouplens.org/datasets/movielens/10m/)
 
Pour répondre aux différentes questions nous allons faire appel à la bibliothque Pandas, que nous vous proposons de découvrir dans ce qui suit. 

### Un petit aperçu de Pandas

Avant de commencer, nous vous proposons de découvir la bibliothèque `Pandas` à l'aide d'un petit tuto qui se trouve [ici](./TutoPanda/Lab_5_Recom_Tuto_Pandas.ipynb). 

In [None]:
#Si vous avez déjà fait le tuto il n'est pas nécessaire de refaire l'installation

!pip install pandas

### Etude du corpus

Une des premières choses à faire est de prendre connaissance de ce corpus et de calculer quelques informations statistiques sur ce corpus. A l'aide des bibliothèques [pandas](https://pandas.pydata.org/), et [numpy](https://www.numpy.org),  répondez aux questions qui vont suivre concernant le corpus. Mais avant cela, nous allons introduire quelques éléments descriptifs utiles sur le corpus.

Le corpus MOVIELENS est disponible [ici](https://grouplens.org/datasets/movielens/100k/).  Plus précisemment, ce corpus est constitué des fichiers suivants :

+ Le fichier [u.data](./Data/ml-100k/u.data) : regroupe l'ensemble des données : 100000 notations par 943 utilisateurs sur 1682 items. Chaque utilisateur  a noté au moins 20 films.  Cette table contient:  

               user id | item id | rating | timestamp.           
          
  les utilisateurs et les items sont numérotés à partir de  1 et les données sont aléatoirement ordonées.  
  
              
+ Le fichier [u.user](./Data/ml-100k/u.user) : information démographique sur les utiliisateurs. Il contient: 
                         
              user id | age | gender | occupation | zip code
                         
                            
+ Le fichier [u.item](./Data/ml-100k/u.item) : contient les informations sur les items (films) : 
              
              movie id | movie title | release date | video release date |
              IMDb URL | unknown | Action | Adventure | Animation |
              Children's | Comedy | Crime | Documentary | Drama | Fantasy |
              Film-Noir | Horror | Musical | Mystery | Romance | Sci-Fi |
              Thriller | War | Western |
              


**Le code suivant permet d'extraire le contenu de ces fichiers.** 


In [None]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt

#column headers for the dataset

data_cols = ['user_id','item_id','rating','timestamp']

#items' table
item_cols = ['movie id','movie title','release date',
'video release date','IMDb URL','unknown','Action',
'Adventure','Animation','Childrens','Comedy','Crime',
'Documentary','Drama','Fantasy','Film-Noir','Horror',
'Musical','Mystery','Romance ','Sci-Fi','Thriller',
'War' ,'Western']


#users' table
user_cols = ['user id','age','gender','occupation',
'zip code']

#importing the data files onto dataframes

users = pd.read_csv('./Data/ml-100k/u.user', sep='|',names=user_cols, encoding='latin-1')
item = pd.read_csv('./Data/ml-100k/u.item', sep='|',names=item_cols, encoding='latin-1')
data = pd.read_csv('./Data/ml-100k/u.data', sep='\t',names=data_cols, encoding='latin-1')




In [None]:
#printing the head of these dataframes

print("User information")
print(users.head()) # it will print only the head. To have the whole table remove .head()


In [None]:
print("Item information")
print(item.head())


In [None]:
print("Data information")
print(data.head())

**1- Quel est le nombre de films et d'utilisateurs du corpus ?**



In [None]:
# TO COMPLETE

nb_users = # to complete
nb_items = #to complete

print("Number of users : ", nb_users)
print("Number of movies : ", nb_items)


**Expected result**

<img src="./Figures/result1.png" width="250" height="250" />

**2- Contruire la matrice d'utilité**

In [None]:
# TO COMPLETE

movie_matrix= #to complete

**Expected result (here only the head)**

<img src="./Figures/result2.png" width="450" height="450" />

**3- Quelle est la note moyenne de chaque film ?** 

Indication: on peut utiliser la fonction `groupby()` de Pandas. Quelqeus exemples [ici](https://www.tutorialspoint.com/python_pandas/python_pandas_groupby.htm). Sinon ne pas oublier de se reférer à la documentation officielle de Pandas [ici](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html?highlight=groupby#pandas.DataFrame.groupby). 

In [None]:
# TO COMPLETE

ratings = #To compelete

**Expected result (here only the head)**

<img src="./Figures/result3.png" width="100" height="100" />

**4- Visualisation de la distribution des notes**

<div class="alert alert-block alert-danger">
<b>Warning: </b> if you did not install yet matplotlip, excute in a separate cell `!pip install matplotlib` 
</div>


Remarque : `%matplotlib`configure la bibliothèque que vous allez utiliser pour dessiner le graphique. Elle effectue donc un certain nombre de traitements pour préparer l'affichage du graphique. Elle est souvent utilisée avec l'argument `inline`, qui indique que l'on va utiliser la bibliothèque intégrée à Notebook. 

Pour la fonction `hist()` des exemples [ici](https://www.science-emergence.com/Articles/Simple-histogramme-avec-matplotlib/)



In [None]:
# Attention ces instructions ne peuvent être executées sans la réalisation de la question 3. 

import matplotlib.pyplot as plt
%matplotlib inline

ratings['rating'].hist(bins=50)

**Expected result**

<img src="./Figures/result4.png" width="200" height="200" />

 **5- Quel est le nombre de notes pour chaque film ?**

In [None]:
ratings['number_of_ratings'] = # To complete

**Expected result (head only)**

<img src="./Figures/result5.png" width="200" height="200" />

**6- Visualiser le nombre de notes pour chaque film (comme nous l'avons fait question 4)**

In [None]:
# To complete

## Système de recommandation

### Préparation de l'évaluation

Une première phase dans le problème de prédiction de la recommandation est de préparer l'étape évaluation de votre système de recommendationn en séparant l'ensemble de données en  un ensemble de test et en un ensemble d'apprentissage. 

<img src="./Figures/recommandationevaluation2.png" width="250" height="250" />

- L'ensemble d'apprentissage sera utilisé pour construire la matrice d'utilité, calculer le score de similarité et faire la prédiction. 
- L'ensemble de test sera utilisé dans la phase d'évaluation.


<div class="alert alert-block alert-danger">
<b>Warning: </b> if you did not install yet sklearn, excute in a separate cell `!pip install sklearn`
</div> 

**Séaprons nos données `data` en deux sous ensembles : un ensemble d'apprentissage et un ensemble de test. On prendra par exemple une taille d'ensemble de test de $0.25$**.

Indication : on fera appel à la fonction `model_selection()` dont la documentation se trouve [ici](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)

In [None]:
from sklearn import model_selection 

train_data, test_data = # TO COMPLETE


In [None]:
print("Taindata\n")
print(train_data)

In [None]:
print("Testdata\n")
print(test_data)

### Approche par voisinage (user-item, Memory-based)

Il s'agit d'implémenter la méthode de filtrage collaboratif par voisinage **user-item** en suivant les étapes qui suivent.


### Etape 1 : 

**a- Construire la matrice user-item à partir de l'ensemble des données. (Cela vous permettra de visualiser le contenu des données qui sont considérées pour l'apprentissage.)** 

Attention : on utilisera la matrice `train_data`.

In [None]:
import numpy as np

movie_matrix = # TO COMPLETE


**b- Constuire la matrice contenant que les notes ou les évaluations des différents items. On appelera cette matrice `train_data_matrix`. C'est cette matrice qui sera utilisée par la suite pour faire nos calculs de similarités et de prédictions.**

In [None]:
import numpy as np

train_data_matrix= #To complete


**Expected result**

<img src="./Figures/result_b.png" width="150" height="150" />

**c- Construire la matrice de test contenant que les évalaution (ou les notations) des différents items. On appelara cette matrice `test_data_matrix`. C'est cette matrice qui sera utilisée par la suite dans la phase évaluation**. 

In [None]:
test_data_matrix =# TO COMPLETE


**Expected result**

<img src="./Figures/result_c.png" width="150" height="150" />

### Etape 2 : Création et calcul d'une matrice de similarité entre utilisateurs. 

On utilisera dans un premier temps la mesure **cosinus** : 

$$sim(x,y) = cos (r_x,r_y) = \frac{r_x.r_y}{||r_x||.||r_y||}$$


(on pourra utiliser pour cela la méthode **pairwise\_distances** de scikit-learn documentée [ici](http://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.pairwise_distances.html).

In [None]:
from sklearn.metrics.pairwise import pairwise_distances

user_similarity= # TO COMPLETE


<div class="alert alert-block alert-danger">
<b>Conseil : </b> terminer en premier le travail avec la mesure cosinus. Une fois la fonction de prédiction mise en place et que celle-ci fonctionne vous pouvez revenir pour écrire la
    fonction de similarité avec Pearson et la tester ensuite avec la fonction de prédiction. 
</div>

**Faire le même travail avec la mesure de corrélation de Pearson comme mesure de similarité entre les différents vecteurs de notes et définie comme, étant donnés deux utilisateurs $x$ et $y$ :**

$$ sim(x,y) = \frac{\sum_{s \in S_{xy}} (r_{xs} - \overline{r_x})(r_{ys} - \overline{r_y}) }{ \sqrt{\sum_{s \in S_{xy}} (r_{xs} - \overline{r_x})^2}   \sqrt{\sum_{s \in S_{xy}} (r_{ys} - \overline{r_y})^2}  }$$

avec $\overline{r_y}$ et  $\overline{r_x}$ la notation moyenne de $x$ et $y$.

Calculer cette métrique pour chaque paire d'utilisateurs dans la base de données.

**Remarque**: `pearsonr()` da la bibliothèque `stats` retourne un deux-tuple composé du coefficient de corrélation et de la p-valeur:

Le coefficient de corrélation peut varier de -1 à +1. L'hypothèse nulle est que les deux variables ne sont pas corrélées. La valeur de $p$ est un nombre compris entre zéro et celui qui représente la probabilité que vos données se serait produites si l'hypothèse nulle était vraie.
Pour plus de détails, voir http://www.eecs.qmul.ac.uk/~norman/blog_articles/p_values.pdf

In [None]:
#Exemple
from scipy import stats
import numpy as np

a = np.array([0, 0, 0, 1, 1, 1, 1])
b = np.arange(7)
stats.pearsonr(a, b)[0]

In [None]:
from scipy import stats
# TO COMPLETE

### Etape 3 :  Construire la matrice de prédictions en utilisant la formule suivante.

La note de l'utilisateur $x$ sur l'élément $i$ est calculée comme :

$$ r_{xi} = \overline{r_x} + \frac{\sum_{y \in N} sim(x,y) (r_{yi} -\overline{r_y})}{\sum_{y \in N} | sim(x,y)|}$$


Avec: $\overline{r}_x$ la note moyenne de l'utilisateur $x$ et $r_{yi}$ la note de l'utilisateur $y$ qui a jugé $i$.



**Ecrire la fonction `predict(ratings, similarity, type='user')` qui prendra en entrée les évaluations, la matrice de similarités et un troisième argument qui est `type='user'`. Il est intéressant de le considérer pour pourvoir réutiliser la fonction dans l'approche par modèles en mettant `type='item'`.** 

**Encore une fois vous pouvez écrire simplement la fonction `predict(ratings, similarity)` qui retournera à la fin la matrice de prédictions des différents items pour les différents utilisateurs.**

In [None]:
def predict(ratings, similarity, type='user'):
    
    # TO COMPLETE
    return pred



In [None]:
#Test

user_prediction = predict(train_data_matrix, user_similarity, type='user')

### Etape 4 :  Evaluer votre prédiction avec la mesure RMSE (Root Mean Squared Error).


$$\sqrt{\frac{1}{n} \sum_{xi} (r_{xi} - r_{xi}^{*})^{2}}$$
où, $r_{xi}^{*}$ correspond à la valeur prédite pour $r_{xi}$.

In [None]:
from math import sqrt
from sklearn.metrics import mean_squared_error
def rmse(prediction, ground_truth):
    #To compelte



In [None]:
#Test

print('User-based CF RMSE: ' + str(rmse(user_prediction, test_data_matrix)))

## Approche par modèles : **item-item**


<div class="alert alert-block alert-danger">
<b>Conseil : </b>  à faire une fois la partie memory-based réalisée. 
</div>

#### **Faire le même travail avec l'approche item-item. Il est possible  de réutiliser les fonctions implémentées précédemment.**