# Manipulation 1 :  Fonctions du package recommenderlab
## Objectif :  présenter un aperçu rapide des fonctions du package « recommenderlab »


### Tout d'abord, nous allons l'installer, si on n'a pas déjà fait:


In [4]:
# Charger les packages
# votre code ici 

# if(!"recommenderlab" %in% rownames(installed.packages())){ install.packages("recommenderlab")}


Maintenant, nous pouvons charger le package. Lorsque, en utilisant la fonction d'aide, nous pouvons jeter un coup d'oeil à sa documentation: help(package = "recommenderlab")

In [19]:
# Charger la librairie pour la recommendation 
# votre code ici
library("recommenderlab")

Les données manipulé dans ce TP contiennent des composantes aléatoires.
Pour ne pas reproduire le même résultat on va utiliser set.seed().

Pratique lorsqu'on fait des simulations afin que ce ne soient pas les mêmes à chaque fois.

In [6]:
# Le set.seed
# votre code ici
set.seed(1)

## Jeux de données

Comme beaucoup d'autres packages R, recommenderlab contient des ensembles de données qui peuvent être
utilisé directement sous R:

In [8]:

# votre code ici

data_package <- data(package = "recommenderlab")
data_package$results[, "Item"]


#### Charger le jeux de données MovieLens

In [23]:

# votre code ici

data(MovieLense)
MovieLense


943 x 1664 rating matrix of class 'realRatingMatrix' with 99392 ratings.

## La classe de rating matrices
Dans cette section, nous allons faire une exploration sommaire MovieLens pour se familliariser avec les fonctions du "recommenderlab"

In [11]:

# votre code ici
class(MovieLense)
## [1] "realRatingMatrix"
## attr(,"package")
## [1] "recommenderlab"


ERROR: Error in attr(, "package"): argument 1 is empty


La classe realRatingMatrix contient des matrices creuses de ratings.
Jetons un regard sur les méthodes que nous pouvons appliquer sur les objets de cette classe:

In [12]:
# votre code ici

methods(class = class(MovieLense))

 [1] [                      [<-                    binarize              
 [4] calcPredictionAccuracy coerce                 colCounts             
 [7] colMeans               colSds                 colSums               
[10] denormalize            dim                    dimnames              
[13] dimnames<-             dissimilarity          evaluationScheme      
[16] getData.frame          getList                getNormalize          
[19] getRatingMatrix        getRatings             getTopNLists          
[22] image                  normalize              nratings              
[25] Recommender            removeKnownRatings     rowCounts             
[28] rowMeans               rowSds                 rowSums               
[31] sample                 show                   similarity            
see '?methods' for accessing help and source code

Certains procédés qui sont applicables à des matrices ont été redéfinies de manière plus optimale. Par exemple, nous pouvons utiliser "dim" pour extraire le nombre de lignes et de colonnes, et "colSums" pour calculer la somme de chaque colonne. 

En outre, il existe de nouvelles méthodes qui sont spécifiques pour les systèmes de recommandation.

Habituellement, matrices de rating sont des matrices creuses. Pour cette raison, la classe realRatingMatrix supporte un stockage compact des matrices creuses.
##### Comparons la taille de MovieLense avec la matrice R correspondant:

In [13]:
# votre code ici
object.size(MovieLense)


1335292 bytes

In [14]:

# votre code ici
object.size(as(MovieLense, "matrix"))


12688128 bytes

### Calcule des  similarités de matrices

Les algorithmes de filtrage collaboratif sont basés sur la mesure de la similitude entre les utilisateurs ou entre les items. 

A cet effet, recommenderlab contient la fonction de similarité. 

Les méthodes prises en charge pour calculer les similitudes sont cosinus, pearson et jaccard.

Par exemple, nous pourrions déterminer la similarité des cinq premiers utilisateurs. 
#### Calculons ce en utilisant la distance cosinus:

In [20]:

# votre code ici
similarity_users <- similarity(MovieLense[1:4, ], method =
"cosine", which = "users")

similarity_users


           1          2          3
2 0.16893670                      
3 0.03827203 0.09706862           
4 0.06634975 0.15310468 0.33343036

In [12]:

# votre code ici



Nous pouvons également convertir similarity_users dans une matrice et le visualiser :

In [21]:

# votre code ici

as.matrix(similarity_users)

Unnamed: 0,1,2,3,4
1,0.0,0.1689367,0.03827203,0.06634975
2,0.1689367,0.0,0.09706862,0.15310468
3,0.03827203,0.09706862,0.0,0.33343036
4,0.06634975,0.15310468,0.33343036,0.0


En utilisant image, nous pouvons visualiser la matrice. Chaque rangée et chaque colonne correspond à un utilisateur, et chaque cellule correspond à la similarité entre deux utilisateurs:

In [14]:

# votre code ici
## image doesn't work in notebook

## image(as.matrix(similarity_users), main = "User similarity")

En utilisant la même approche, nous pouvons calculer et de visualiser la similitude entre les quatre premiers items:

In [24]:

# votre code ici

similarity_items <- similarity(MovieLense[, 1:4], method ="cosine", which = "items")
as.matrix(similarity_items)


Unnamed: 0,Toy Story (1995),GoldenEye (1995),Four Rooms (1995),Get Shorty (1995)
Toy Story (1995),0.0,0.4023822,0.3302448,0.4549379
GoldenEye (1995),0.4023822,0.0,0.2730692,0.5025708
Four Rooms (1995),0.3302448,0.2730692,0.0,0.3248664
Get Shorty (1995),0.4549379,0.5025708,0.3248664,0.0


In [15]:

# votre code ici

## image(as.matrix(similarity_items), main = "Item similarity")


## Méthodes de recommandation

Le package recommenderlab contient quelques options pour l'algorithme de recommandation. Nous pouvons afficher le modèle applicable au realRatingMatrix objets en utilisant Registry recommender $ get_entries:

In [25]:

# votre code ici
recommender_models <- recommenderRegistry$get_entries(dataType =
"realRatingMatrix")



In [17]:

# votre code ici

## install.packages("pander")
library(pander)

In [29]:

# votre code ici

df_models <- data.frame(model = names(recommender_models))
pander(df_models)



----------------------------
           model            
----------------------------
   IBCF_realRatingMatrix    

  POPULAR_realRatingMatrix  

  RANDOM_realRatingMatrix   

RERECOMMEND_realRatingMatrix

    SVD_realRatingMatrix    

   SVDF_realRatingMatrix    

   UBCF_realRatingMatrix    
----------------------------



Ce qui nous intéresse c'est "$IBCF" et  "$UBCF"

In [32]:

# votre code ici

df_parameters <- data.frame(
  parameter = names(recommender_models$IBCF_realRatingMatrix$parameters),
  default = unlist(recommender_models$IBCF_realRatingMatrix$parameters)
)
rownames(df_parameters) <- NULL
pander(head(df_parameters))
# ou simplement avec 
# recommender_models$IBCF_realRatingMatrix$parameters



------------------------------
     parameter        default 
-------------------- ---------
         k              30    

       method         Cosine  

     normalize        center  

normalize_sim_matrix   FALSE  

       alpha            0.5   

     na_as_zero        FALSE  
------------------------------



# Manipulation 2 : Exploration des données MovieLens

### 1 - Dimension

In [33]:

# votre code ici
dim(MovieLense)



### 2- Structure

In [34]:

# votre code ici

str(MovieLense)


Formal class 'realRatingMatrix' [package "recommenderlab"] with 2 slots
  ..@ data     :Formal class 'dgCMatrix' [package "Matrix"] with 6 slots
  .. .. ..@ i       : int [1:99392] 0 1 4 5 9 12 14 15 16 17 ...
  .. .. ..@ p       : int [1:1665] 0 452 583 673 882 968 994 1386 1605 1904 ...
  .. .. ..@ Dim     : int [1:2] 943 1664
  .. .. ..@ Dimnames:List of 2
  .. .. .. ..$ : chr [1:943] "1" "2" "3" "4" ...
  .. .. .. ..$ : chr [1:1664] "Toy Story (1995)" "GoldenEye (1995)" "Four Rooms (1995)" "Get Shorty (1995)" ...
  .. .. ..@ x       : num [1:99392] 5 4 4 4 4 3 1 5 4 5 ...
  .. .. ..@ factors : list()
  ..@ normalize: NULL


### 3- Explorer les valeurs des ratings


In [35]:

# votre code ici

vector_ratings <- as.vector(MovieLense@data)
unique(vector_ratings)


In [36]:

# votre code ici

table_ratings <- table(vector_ratings)
df_ratings <- data.frame(
  rating = names(table_ratings),
  occurrences = as.vector(table_ratings)
  )
pander(head(df_ratings))



----------------------
 rating   occurrences 
-------- -------------
   0        1469760   

   1         6059     

   2         11307    

   3         27002    

   4         33947    

   5         21077    
----------------------



Selon la documentation, une note égale à 0 représente une valeur manquante, afin que nous puissions les supprimer de notes de vecteur :




In [39]:

# votre code ici

vector_ratings <- vector_ratings[vector_ratings != 0]

### 4- Visualiser graphiquement les valeurs des ratings

In [24]:

# votre code ici
vector_ratings <- factor(vector_ratings)

# library("ggplot2")

# qplot doesn't work in notebook

# qplot(vector_ratings) + ggtitle("Distribution of the ratings")


### 5- Explorer quels films ont été visionnés

A partir de MovieLense, nous allons extraire des statistique en utilisant des méthodes suivantes:

- colCounts: Ceci est le nombre de valeurs non manquantes pour chaque colonne
- colMeans: Ceci est la valeur moyenne pour chaque colonne

Par exemple, quels sont les films les plus vus ? Nous pouvons utiliser colCounts pour cette objectif. 
Tout d'abord, nous allons compter les vues pour chaque film:


In [42]:

# votre code ici
views_per_movie <- colCounts(MovieLense)


Ensuite, nous pouvons trier les films par nombre de vues:

In [43]:

# votre code ici
table_views <- data.frame(
    movie = names(views_per_movie),
    views = views_per_movie
    )
  table_views <- table_views[order(table_views$views, decreasing = TRUE), ]



#### Visualiser

In [44]:

# votre code ici

# ggplot(table_views[1:6, ], aes(x = movie, y = views)) +
#  geom_bar(stat="identity") + 
#  theme(axis.text.x = element_text(angle = 45, hjust = 1)) + ggtitle("Number of views of the top movies")


### 6 Explorer les notes moyennes


Nous pouvons identifier les meilleurs films notés en calculant la note moyenne de chacun d'eux. A cet effet, nous pouvons utiliser colMeans; il ignore automatiquement les 0s, car ils représentent des valeurs manquantes. Jetons un coup d'œil à la distribution de la moyenne des rating film :

In [45]:

# votre code ici
average_ratings <- colMeans(MovieLense) 



#### Visulaiser


In [46]:

# votre code ici

# qplot(average_ratings) + stat_bin(binwidth = 0.1) + ggtitle("Distribution of the average movie rating")


#### Filter les ratings 

In [47]:

# votre code ici
average_ratings_relevant <- average_ratings[views_per_movie > 100]


#### Visualiser

In [48]:

# votre code ici
# qplot(average_ratings_relevant) + stat_bin(binwidth = 0.1) + ggtitle(paste("Distribution of the relevant average ratings"))


### 7- Visualiser la matrice


Nous pouvons visualiser la matrice en construisant une carte de chaleur dont les couleurs représentent les ratins. Chaque ligne de la matrice correspond à un utilisateur, chaque colonne pour un film, et chaque cellule à sa valeur de rating.  A cet effet, nous pouvons utiliser la méthode générique: image. Le package recommenderlab redéfini l'image de la méthode pour les objets realRatingMatrix.

Construisons l'heatmap utilisant l'image:

In [49]:

# votre code ici

# image(MovieLense, main = "Heatmap of the rating matrix")

Si on veut zoomer et voir l’espace de la matrice avec une dimension réduite :


In [50]:

# votre code ici
# image(MovieLense[1:10, 1:15], main = "Heatmap of the first rows and columns") 


# Manipulation 3 :  Préparation des données 

### Objectif :  préparer les données à utiliser par les algorithmes de recommandation
### Démarche :
#### 1.	Sélectionnez les données pertinentes.
#### 2.	Normaliser les données.


Nous allons définir ratings_movies contenant la matrice que nous allons utiliser. Ça prend compte : 
- Les utilisateurs qui ont noté au moins 50 films
- Les films qui ont été regardés au moins 100 fois

Les points précédents sont définis dans le code suivant :


### 1 - Sélection des données les plus pertinentes

In [51]:

# votre code ici

ratings_movies <- MovieLense[rowCounts(MovieLense) > 50, colCounts(MovieLense) > 100]
ratings_movies


560 x 332 rating matrix of class 'realRatingMatrix' with 55298 ratings.

In [52]:

# votre code ici


### 2 - Exploration de données les plus pertinentes

En utilisant la même approche que nous avons fait dans la section précédente, nous allons visualiser le top 2 pour cent des utilisateurs et des films dans la nouvelle matrice :


In [35]:

# votre code ici
# visualize the top matrix
min_movies <- quantile(rowCounts(ratings_movies), 0.98)
min_users <- quantile(colCounts(ratings_movies), 0.98)




In [36]:

# votre code ici

# image(ratings_movies[rowCounts(ratings_movies) > min_movies, colCounts(ratings_movies) > min_users], main = "Heatmap of the top


Comme nous l'avons déjà remarqué, certaines lignes sont plus sombres que les autres. Cela pourrait signifier que certains utilisateurs donnent des notes plus élevées à tous les films. Cependant, nous avons visualisé les meilleurs films seulement. Afin d'avoir un aperçu de tous les utilisateurs, nous allons jeter un coup d'œil à la distribution de la valeur du rating moyenne par l'utilisateur :

#### valeur de rating moyenne pour les utilisateurs

In [53]:

# votre code ici
average_ratings_per_user <- rowMeans(ratings_movies)

#qplot(average_ratings_per_user) + stat_bin(binwidth = 0.1) + ggtitle("Distribution of the average rating per user")


###  3 - Normaliser les données


Avoir les utilisateurs qui donnent des notes élevées (ou faible) à tous leurs films pourrait biaiser les résultats.

Nous pouvons éliminer cet effet en normalisant les données de telle sorte que la note moyenne de chaque utilisateur est 0. On utilise pour cela la fonction suivante :

In [54]:

# votre code ici

ratings_movies_norm <- normalize(ratings_movies)

#### Regardons  à la note moyenne des ratings par utilisateurs:


In [55]:

# votre code ici
sum(rowMeans(ratings_movies_norm) > 0.00001)


In [56]:

# votre code ici
# visualize the normalized matrix

# image(ratings_movies_norm[rowCounts(ratings_movies_norm) > min_movies, colCounts(ratings_movies_norm) > min_users], 
#       main = "Heatmap of the top users and movies")



# Manipulation 4 :  Préparation des données d’apprentissage et de test 

Nous avons défini ratings_movies dans la section précédente qui contient les données pertinentes à prendre en considération :  le sous-ensemble d'utilisateurs MovieLense qui ont classé au moins 50 films et des films qui ont été notés au moins 100 fois.

L'algorithme normalise automatiquement les données, afin que nous puissions utiliser ratings_movies qui contient les utilisateurs et les films de MovieLense pertinents. Nous avons défini ratings_movies dans la section précédente qui contient les données pertinentes à prendre en considération :  le sous-ensemble d'utilisateurs MovieLense qui ont classé au moins 50 films et des films qui ont été notés au moins 100 fois.

### 1 - Données d'apprentissage

Premièrement, nous définissons au hasard le vecteur  which_train. Nous allons définir la probabilité de la formation définie comme 80 pour cent:



In [57]:

# votre code ici
which_train <- sample(x = c(TRUE, FALSE), size = nrow(ratings_movies),
replace = TRUE, prob = c(0.8, 0.2))


head(which_train)



In [58]:

# votre code ici
#Let's define the training and the test sets:
recc_data_train <- ratings_movies[which_train, ]

recc_data_test <- ratings_movies[!which_train, ]



In [59]:

# votre code ici
recc_data_train


451 x 332 rating matrix of class 'realRatingMatrix' with 43846 ratings.

In [60]:

# votre code ici
recc_data_test


109 x 332 rating matrix of class 'realRatingMatrix' with 11452 ratings.

#  Manipulation 5 : Construire le modèle de recommandation


### 1- Fontion du Item-Based Collaboratif Filetering

In [61]:

# votre code ici
recommender_models <- recommenderRegistry$get_entries(dataType = "realRatingMatrix")


In [62]:
list_parameters <- recommender_models$IBCF_realRatingMatrix$parameters
  df_paramters <- data.frame(
    parameter = names(list_parameters),
    default = unlist(list_parameters)
    )
  rownames(df_paramters) <- NULL
pander(df_paramters)



------------------------------
     parameter        default 
-------------------- ---------
         k              30    

       method         Cosine  

     normalize        center  

normalize_sim_matrix   FALSE  

       alpha            0.5   

     na_as_zero        FALSE  
------------------------------



### 2 - Construction du modèle de recommandation



Certains paramètres importants sont les suivants :
* k : Dans la première étape, l'algorithme calcule les similitudes entre chaque paire d'items. Ensuite, pour chaque item, il identifie ses k items les plus similaires et les stocke.
* Méthode : Ceci est la fonction de similarité. Par défaut, il est Cosinus. Un autre option populaire est pearson.

nous fixons k = 30, ce qui est la valeur par défaut. Nous sommes maintenant prêt à construire un modèle de recommender, comme cela :


In [63]:

# votre code ici
recc_model <- Recommender(data = recc_data_train,
                            method = "IBCF",
                            parameter = list(k = 30))
  recc_model
  class(recc_model)



Recommender of type 'IBCF' for 'realRatingMatrix' 
learned using 451 users.

### 3- Explorer le modèle de recommender


In [46]:

# votre code ici



#### model_details$sim contient la matrice de similarité. Voyons maintenant sa structure :


In [47]:

# votre code ici



#### Visualiser la matrice

In [48]:

# votre code ici



La plupart des valeurs sont égales à 0. La raison en est que chaque ligne ne contient que des éléments de k. Nous allons le vérifier:

In [49]:

# votre code ici



In [50]:

# votre code ici



# Manipulation 6 : Application du modèle de recommender sur l'ensemble de test

Démarche :  Nous allons définir n_recommended qui spécifie le nombre d'éléments de recommander à chaque utilisateur. 
1. Pour chaque utilisateur, l'algorithme extrait ses films notés. 
1. Pour chaque film, il identifie tous ses éléments similaires, à partir de la matrice de similarité. 
1. Ensuite, l'algorithme classe chaque item similaire de cette manière:
 * Extraire le rating d’utilisateur pour chaque item associé à cet item. La valeur du rating est utilisée en tant que poids.
 * Extraire la similitude de l’item avec les items qui lui sont associé
 * Multiplier chaque poids avec la similitude connexe.
 * Faire la somme

Ensuite, l'algorithme identifie les n premières recommandations 


## 1 - Appliquer le modèle de recommandation sur le jeu de test
Dans notre ça nous souhaitons recommander à chaque utilisateur 6 films. 


In [65]:
# set variable value
n_recommended <- 6

recc_predicted <- predict(object = recc_model, newdata = recc_data_test, n = n_recommended)

recc_predicted



Recommendations as 'topNList' with n = 6 for 109 users. 

### 2 - inspecter le résultat

In [66]:

# votre code ici

class(recc_predicted)

slotNames(recc_predicted)




Les slotNames sont:
* items : Ceci est la liste avec les indices des items recommandés pour chaque utilisateur
* itemLabels: Ceci est le nom des items
* n: Ceci est le nombre de recommandations

Par exemple, ce sont les recommandations pour le premier utilisateur :

In [67]:

# Par exemple, ce sont les recommandations pour le premier utilisateur :
recc_predicted@items[[1]]

# votre code ici



In [69]:
# Nous pouvons extraire les noms des films recommandés avec recc_predicted@item

# votre code ici
recc_user_1 <- recc_predicted@items[[1]]
movies_user_1 <- recc_predicted@itemLabels[recc_user_1]

# visualiser

table_user_1 <- data.frame(index = recc_user_1, movie = movies_user_1)
pander(table_user_1)




----------------------------------
 index            movie           
------- --------------------------
  278   Killing Fields, The (1984)

  85      Reservoir Dogs (1992)   

  165         Contact (1997)      

  271       Annie Hall (1977)     

  193    L.A. Confidential (1997) 

  97          Brazil (1985)       
----------------------------------



In [70]:
#Nous pouvons définir une matrice avec les recommandations pour chaque utilisateur :


# votre code ici
recc_matrix <- sapply(recc_predicted@items, function(x){
        colnames(ratings_movies)[x]
        })
dim(recc_matrix)



In [71]:
#Puis, visualiser les recommandations pour les 4 premiers utilisateurs : 

# votre code ici
  pander(recc_matrix[, 1:4])




----------------------------------------------------------------------------
            5                          7                        8           
-------------------------- ------------------------- -----------------------
Killing Fields, The (1984) Good Will Hunting (1997)        Babe (1995)      

  Reservoir Dogs (1992)    As Good As It Gets (1997) Mighty Aphrodite (1995)

      Contact (1997)       This Is Spinal Tap (1984)     Ed Wood (1994)     

    Annie Hall (1977)        Trainspotting (1996)      Hoop Dreams (1994)   

 L.A. Confidential (1997)       Titanic (1997)            Fargo (1996)      

      Brazil (1985)             Amistad (1997)          Lone Star (1996)    
----------------------------------------------------------------------------

Table: Table continues below

 
--------------------------
            23            
--------------------------
     Big Night (1996)     

Wrong Trousers, The (1993)

 L.A. Confidential (1997) 

  Secrets & Lies (1996)   

### 3-	Les films les plus recommandés


In [72]:

# votre code ici

number_of_items <- factor(table(recc_matrix))
chart_title <- "Distribution of the number of items for IBCF"




In [73]:
# visualiser 

# votre code ici

# qplot(number_of_items) + ggtitle(chart_title)


#### Le film le plus populaire

In [74]:

# votre code ici
number_of_items_sorted <- sort(number_of_items, decreasing = TRUE)
number_of_items_top <- head(number_of_items_sorted, n = 4)
table_top <- data.frame(names(number_of_items_top),
number_of_items_top)
table_top



Unnamed: 0,names.number_of_items_top.,number_of_items_top
Good Will Hunting (1997),Good Will Hunting (1997),11
12 Angry Men (1957),12 Angry Men (1957),10
Cinema Paradiso (1988),Cinema Paradiso (1988),10
"Close Shave, A (1995)","Close Shave, A (1995)",10
