In [2]:
library(Matrix)
library(dplyr)

u.user <- read.csv(file = 'u.user.csv', sep='|', header=T)
u.item <- read.csv(file = 'u.item.csv', sep='|', header=T)
u.data <- read.csv(file = 'u.data.csv', sep='|', header=T)
v.u <- merge(u.data, u.user, by.x='user.id', by.y='id')

cosinus.vm <- function(v,m) { 
    n <- sqrt(colSums(m^2)); 
    (v %*% m)/(n * sqrt(sum(v^2)))
}

# Fonction de la corrélation 
cor.vm <- function(v,m) {
  v_a <-sum(v)/sum(v>0);
  v_i <- colMeans.sparse(m);
  m.center <- t(t(m) - v_i)*(m>0);
  v.center <- (v-v_a)*(v>0);
  n <- colSums(m.center^2);
  (v.center %*% m.center)/sqrt(n * sum(v.center^2))
}


# Trouve les indexes des premieres 'n' valeurs maximales d'une matrice
max.nindex <- function(m, n=5) {
    i <- order(m, decreasing=TRUE)
    return(i[1:n])
}
# Trouve les indexes des premieres 'n' valeurs minimales d'une matrice
min.nindex <- function(m, n=5) {
    i <- order(m)
    return(i[1:n])
}

# col/row mean for sparse matrix 
colMeans.sparse <- function(m) {colSums(m)/colSums(m>0)}
rowMeans.sparse <- function(m) {rowSums(m)/rowSums(m>0)}
means.sparse <- function(v) {sum(v)/sum(v>0)}

mae.rmse <- function(m, m.hat) {
    return(list(mae=mean(abs((m - m.hat)[!is.na(m)])), rmse=sqrt(mean((m - m.hat)^2, na.rm=T))))
}



Attaching package: 'dplyr'

The following objects are masked from 'package:stats':

    filter, lag

The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union



In [3]:
# Question 1
# Moyenne des votes par profession ("job") 
moyenne.job <- summarise(group_by(v.u, job), rating=mean(rating))  
moyenne.job

# Moyenne des votes par age (tranche de 5ans) 
moyenne.age <- aggregate(v.u$rating, list(cut (v.u$age, 5*(0:20))),mean)
colnames(moyenne.age) <- c("age", "rating average")
moyenne.age

job,rating
administrator,3.635646
artist,3.65338
doctor,3.688889
educator,3.670621
engineer,3.541407
entertainment,3.44105
executive,3.349104
healthcare,2.89622
homemaker,3.301003
lawyer,3.735316


age,rating average
"(5,10]",3.608108
"(10,15]",3.367932
"(15,20]",3.567306
"(20,25]",3.439154
"(25,30]",3.447106
"(30,35]",3.57498
"(35,40]",3.57104
"(40,45]",3.58107
"(45,50]",3.56787
"(50,55]",3.719114


In [4]:
# Question 2
# Quels sont les 10 films les plus similaires à "Star Trek V: The Final Frontier (1989)" 
# selon respectivement la mesure du cosinus et de la corrélation avec la matrice de votes. 

# Create the Matrix 
ST_id <- 450
m <- sparseMatrix(v.u[,1],v.u[,2],x=v.u[,3])
rownames(m) <- paste('u', 1:nrow(m), sep='')
colnames(m) <- paste('i', 1:ncol(m), sep='')

# on calcule le cosinus entre la matrice et le film de star trek 5
ST.cos <- cosinus.vm(m[,ST_id],m) 
closestCos <- max.nindex(as.matrix(ST.cos), 11)[-1]
closestCos <- u.item$movie.title[closestCos]
print("Les 10 films les plus similaires selon la mesure du Cosinus")
closestCos

m.sparse <- m
m <- as.matrix(m.sparse)
m[m==0] <- NA
rownames(m) <- paste('u', 1:nrow(m), sep='')
colnames(m) <- paste('i', 1:ncol(m), sep='')


# on calcule la correlation entre les films et star trek V
ST.cor <- cor.vm(m.sparse[,ST_id], m.sparse)
# on garde les 11 films les plus rapprochés moins star trek V
closestCor <- max.nindex(as.matrix(ST.cor), 11)[-1]
closestCor <- u.item$movie.title[c(closestCor)]
# on retrouve les 10 films les plus proches
print("Les 10 films les plus similaires selon la mesure de la corrélation")
closestCor


[1] "Les 10 films les plus similaires selon la mesure du Cosinus"


[1] "Les 10 films les plus similaires selon la mesure de la corrélation"


In [5]:
# on répète la même procédure mais avec un nombre de votes communs minimum
# entre les films

# on calcule le nombre de votes communs des films avec star trek V
votes.communs <- (colSums((m.sparse[,ST_id] * m.sparse) > 0))
ST.cor[votes.communs<5] <- -Inf
closestCor <- max.nindex(as.matrix(ST.cor), 11)[-1]
closestCor <- u.item$movie.title[c(closestCor)]
# on retrouve les 10 films les plus proches
closestCor

# En ajustant le nombre de votes communs minimum, on peut enlever des
# recommandation qui faisait un peu moins de sens, par exemple House Party 3.
# De plus, avec cela on obtient une recommendation de Star Trek de plus.

In [6]:
# Question 3 

voisins <- 21
# on centre la matrice m selon les utilisateurs
# on la centre pour enlever le biais des utilisateurs qui votent toujours haut
# ou bas

# moyenne des votes par utilisateur
u.mean <-rowMeans.sparse(m.sparse)
# on centre la matrice selon les utilisateurs
m.center <- as.matrix((m.sparse-u.mean)*(m.sparse>0))


# on remplace les 0 par NA
m.center[m.center == 0] <- NA
# on calcule la distance eucledienne entre les films
distance.na.450.center <- sqrt(colSums((m.center[,ST_id] - m.center)^2, na.rm=T)) # ignore les valeurs manquantes


# on calcule le nombre de votes communs des films avec star trek V
votes.communs <- (colSums((m.sparse[,ST_id] * m.sparse) > 0))

# on assigne la valeur Inf au film qui ont moins de 10 votes communs avec star trek V
distance.na.450.center[votes.communs<10] <- Inf

# les films les plus proches sont choisis
closest.euc <- min.nindex(distance.na.450.center, voisins)[-1]
closestEuc <- u.item$movie.title[closest.euc]
"les 20 films qui se rapprochent le plus" 
closestEuc

# on calcule le cosinus entre les films choisis et star trek V
wcos.st <- cosinus.vm(m.sparse[,ST_id], m.sparse[,closest.euc])


# les 20 films les plus communs
idx<- closest.euc
# on transpose m
m.sparse.t <- t(m.sparse)
# la range de l item de star trek V
v.item <- m.sparse.t[ST_id,]
# la moyenne de l item de star trek V
v_1 <-means.sparse(v.item);
# retourne la moyenne pour chacun des 20 films voisisns
v_i <- apply(m.sparse.t[idx,], 1, FUN=means.sparse)

x<- as.matrix((m.sparse.t[idx,]))

# retourne un liste ayant comme element chaque colonne de x
new_x <-lapply(seq_len(ncol(x)), function(i) x[,i])
# retourne un liste ayant comme element la moyenne des 20 films voisins
new_y <-as.vector(lapply(seq_len(ncol(x)), function(i) v_i)) 
# retourne un liste ayant comme element les poids(cosinus) des 20 films voisins
new_w <-as.vector(lapply(seq_len(ncol(x)), function(i) as.matrix(wcos.st)))
#prend seulement ceux qui n'ont de cote 

                         
predict_func <- function(x,y,w) {
    x.0 <- x>0 ; x.temp <- (x-y)*x.0;
    num <-  w %*%x.temp;
    denum <- sum(abs(t(w))*x.0);
    num/denum} 
c_prod <- mapply(predict_func ,new_x, new_y, new_w)

                         
# Ajoute la moeynne de l'item 
prediction <- v_1 + c_prod
# on retourne les resultats qui n'avaient pas de prediction
results <- prediction[m.sparse[,ST_id]==0]

"prediction des gens qui n'avaient pas de vote (NA quand pas de votes communs)"
results

In [7]:
# Question 4 
x.real <-t(m)[ST_id,]
x.real[x.real==0] <- NA

mae.rmse(prediction,x.real)

In [8]:
# Question 5

# creation de l utilisateur artificiel
new.user <- rep(0, 1682)
new.user.na <- new.user
new.user.na[new.user.na == 0] <- NA 

# film de star wars avec note de 1
new.user[172] <- 1
new.user.na[172] <- 1
new.user[181] <- 1
new.user.na[181] <- 1

# films de star treck avec note de 5
indices.star.trek <- grep("trek", as.character(u.item$movie.title), ignore.case=T)
new.user[indices.star.trek] <- 5
new.user.na[indices.star.trek] <- 5

voisins <- 20
# centrer selon lutilisateur les notes des films quil a donne
# on calcule la moyenne et centre pour enlever les biais des utilisateurs
u.mean <-rowMeans.sparse(m.sparse)
m.center <- as.matrix((m.sparse-u.mean)*(m.sparse>0))


# centrer selon lutilisateur les notes des films quil a donne
new.user.na.center <- new.user.na - mean(new.user.na, na.rm=TRUE)
m.center.sparse <- m.center
m.center.sparse.t <- t(m.center.sparse)
m.center[m.center==0] <- NA
distance.na.450.center <- sqrt(colSums((t(m.center)-new.user.na.center)^2, na.rm=T)) # ignore les valeurs manquantes
votes.communs <- (colSums((m.sparse.t*new.user) > 0))

# on assigne la valeur Inf au utilisateurs qui ont moins de 6 votes communs
# avec le nouvel utilisateur
distance.na.450.center[votes.communs<6]<-Inf

closest.euc <- min.nindex(distance.na.450.center, voisins)
closestEuc <- u.user$id[closest.euc]

# le poids des voisins
wcos.st <- cosinus.vm(new.user, m.sparse.t[,closest.euc])

temp <- t(m.sparse[closest.euc,c(indices.star.trek,172,181)])


temp.sum <- t(colSums(temp>0))
correction <- lapply(seq_len(ncol(temp.sum)), function(i) max(temp.sum[i],5)/5)
correction <- unlist(correction)
wcos.st <- correction*wcos.st
# moyenne des votes du nouvel usager
v.new.user <-mean(new.user, na.rm=TRUE)

idx <- closest.euc
# on transpose m

v.item <- new.user
v_1 <-means.sparse(v.item);
# return means for each item
v_i <- apply(m.sparse[idx,], 1, FUN=means.sparse)
# I_ij <- apply(c(m.sparse.t[idx,],v_i,v_1), 1, FUN=means.sparse)

x<- as.matrix((m.sparse[idx,]))
new_x <-lapply(seq_len(ncol(x)), function(i) x[,i])
new_y <-as.vector(lapply(seq_len(ncol(x)), function(i) v_i))
new_w <-as.vector(lapply(seq_len(ncol(x)), function(i) as.matrix(wcos.st)))

try <- function(x,y,w) {x.0<-x>0;x.temp <- (x-y)*x.0;num <-  sum(w*x.temp);denum <- sum(abs(w)*x.0);num/denum}

c_prod <- mapply(try ,new_x, new_y, new_w)

prediction <- v_1+c_prod
# Ajout du vote commun 
recomendation <- max.nindex(prediction*(colSums(m.sparse[idx,]>0)>3), 10)

"Les films recommandés sont:"
closestEuc <- u.item$movie.title[recomendation]

closestEuc

In [21]:
# Question 6

mx <- merge(u.user, u.data,1)
ph <- function (i) {sum(mx$item== i & mx$rating>3)/sum((mx['item.id'] == i) > 0)}
pe1 <- function (i) {sum(mx$item== i & mx$rating>3 & mx['job']=='engineer') / sum(mx$item== i & mx$rating>3)}
pe2 <- function (i) {sum(mx$item== i & mx$rating>3 & mx['age'] > 50) / sum(mx$item== i & mx$rating>3)}
pe3 <- function (i) {sum(mx$item== i & mx$rating>3 & mx['gender']=='M') / sum(mx$item== i & mx$rating>3)}

phn <- function (i) {sum(mx$item== i & mx$rating<=3)/sum((mx['item.id'] == i) > 0)}
pe1n <- function (i) {sum(mx$item== i & mx$rating<=3 & mx['job']=='engineer') / sum(mx$item== i & mx$rating<=3)}
pe2n <- function (i) {sum(mx$item== i & mx$rating<=3 & mx['age'] > 50) / sum(mx$item== i & mx$rating<=3)}
pe3n <- function (i) {sum(mx$item== i & mx$rating<=3 & mx['gender']=='M') / sum(mx$item== i & mx$rating<=3)}

lph <- lapply(seq_len(nrow(u.item)),ph)
lpe1 <- lapply(seq_len(nrow(u.item)),pe1)
lpe2 <- lapply(seq_len(nrow(u.item)),pe2)
lpe3 <- lapply(seq_len(nrow(u.item)),pe3)

lpe1n <- lapply(seq_len(nrow(u.item)),pe1n)
lpe2n <- lapply(seq_len(nrow(u.item)),pe2n)
lpe3n <- lapply(seq_len(nrow(u.item)),pe3n)

lphn <- lapply(seq_len(nrow(u.item)),phn)

yo <- function (x,y) {x/y}

ratio1 <- mapply(yo, lph, lphn)
ratio2 <- mapply(yo, lpe1, lpe1n)
ratio3 <- mapply(yo, lpe2, lpe2n)
ratio4 <- mapply(yo, lpe3, lpe3n)

prob <- ratio1*ratio2*ratio3*ratio4
OddsToP <- function(o) o/(1+o)
    
result <- lapply(prob ,OddsToP)
    
result.id <- max.nindex(unlist(result),5)
u.item$movie.title[result.id]

In [9]:
# Question 7

v.item <- m.sparse.t[ST_id,]

i <- u.user$id[v.item > 0]
i.test <- i
i.train <- ! i.test
i.test[sample(length(i),.8*length(i))] <- FALSE
test <- i.test[i.test >0]
train <- i[! i.test >0]
m.sparse[test,450] = 0

voisins <- 21
# on centre la matrice m selon les utilisateurs
#### dire pourquoi on la centre pour enlever le biais des utilisateur
u.mean <-rowMeans.sparse(m.sparse)
m.center <- as.matrix((m.sparse-u.mean)*(m.sparse>0))
# on remplace les 0 par NA
m.center[m.center ==0] <- NA
# on calcule la distance eucledienne entre les films
distance.na.450.center <- sqrt(colSums((m.center[,ST_id] - m.center)^2, na.rm=T)) # ignore les valeurs manquantes
# on calcule le nombre de votes communs des films avec star trek V
votes.communs <- (colSums((m.sparse[,ST_id] * m.sparse) > 0))
# on assigne la valeur au film qui ont moins de 40 votes communs avec star trek V
distance.na.450.center[votes.communs<10] <- Inf

closest.euc <- min.nindex(distance.na.450.center, voisins)[-1]

wcos.st <- cosinus.vm(m.sparse[,ST_id], m.sparse[,closest.euc])

# les 20 films les plus communs
idx<- closest.euc
# on transpose m
m.sparse.t <- t(m.sparse)
# la range de l item de star trek V
v.item <- m.sparse.t[ST_id,]
# la moyenne de l item de star trek V
v_1 <-means.sparse(v.item);
# retourne la moyenne pour chacun des 20 films voisisns
v_i <- apply(m.sparse.t[idx,], 1, FUN=means.sparse)

x<- as.matrix((m.sparse.t[idx,]))
new_x <-lapply(seq_len(ncol(x)), function(i) x[,i]) # Retourne un vecteur de longeur 943 
new_y <-as.vector(lapply(seq_len(ncol(x)), function(i) v_i)) 
new_w <-as.vector(lapply(seq_len(ncol(x)), function(i) as.matrix(wcos.st)))
#prend seulement ceux qui n'ont de cote 
try <- function(x,y,w) {x.0 <- x>0 ; x.temp <- (x-y)*x.0; num <-  w %*%x.temp;denum <- sum(abs(t(w))*x.0);num/denum} 
    
c_prod <- mapply(try ,new_x, new_y, new_w)
# Ajoute la moeynne de l'item 
prediction <- v_1+c_prod
results <- prediction[m.sparse[,450]==0]
   
"Pour le test set"
mae.rmse(prediction[test],m.sparse[test,450])

"Pour le train set"
mae.rmse(prediction[train],m.sparse[train,450]) 

In [22]:
# Question 5

# creation de l utilisateur artificiel
new.user <- rep(0, 1682)
new.user.na <- new.user
new.user.na[new.user.na == 0] <- NA 

# film de star wars avec note de 1
new.user[172] <- 1
new.user.na[172] <- 1
new.user[181] <- 1
new.user.na[181] <- 1



# films de star treck avec note de 5
indices.star.trek <- grep("trek", as.character(u.item$movie.title), ignore.case=T)
new.user[indices.star.trek] <- 5
new.user.na[indices.star.trek] <- 5



voisins <- 20
# centrer selon lutilisateur les notes des films quil a donne
# on calcule la moyenne et centre pour enlever les biais des utilisateurs
u.mean <-rowMeans.sparse(m.sparse)
m.center <- as.matrix((m.sparse-u.mean)*(m.sparse>0))


v.item <- new.user

i <- u.user$id[v.item > 0]
i.test <- i
i.train <- ! i.test
i.test[sample(length(i),.8*length(i))] <- FALSE
test <- i.test[i.test >0]
train <- i[! i.test >0]
v.item[test] = 0
v.item.na <- v.item
v.item.na[v.item.na==0] <- NA


# centrer selon lutilisateur les notes des films quil a donne
v.item.na.center <- v.item - mean(v.item, na.rm=TRUE)
m.center.sparse <- m.center
m.center.sparse.t <- t(m.center.sparse)
m.center[m.center==0] <- NA
distance.na.450.center <- sqrt(colSums((t(m.center)-v.item.na.center)^2, na.rm=T)) # ignore les valeurs manquantes
votes.communs <- (colSums((m.sparse.t*new.user) > 0))

# on assigne la valeur Inf au utilisateurs qui ont moins de 6 votes communs
# avec le nouvel utilisateur
distance.na.450.center[votes.communs<6]<-Inf

closest.euc <- min.nindex(distance.na.450.center, voisins)
closestEuc <- u.user$id[closest.euc]

# le poids des voisins
wcos.st <- cosinus.vm(v.item, m.sparse.t[,closest.euc])

temp <- t(m.sparse[closest.euc,c(indices.star.trek,172,181)])


temp.sum <- t(colSums(temp>0))
correction <- lapply(seq_len(ncol(temp.sum)), function(i) max(temp.sum[i],5)/5)
correction <- unlist(correction)
wcos.st <- correction*wcos.st
# moyenne des votes du nouvel usager
v.new.user <-mean(v.item.na, na.rm=TRUE)

idx <- closest.euc
# on transpose m

v.item <- v.item
v_1 <-means.sparse(v.item);
# return means for each item
v_i <- apply(m.sparse[idx,], 1, FUN=means.sparse)
# I_ij <- apply(c(m.sparse.t[idx,],v_i,v_1), 1, FUN=means.sparse)

x<- as.matrix((m.sparse[idx,]))
new_x <-lapply(seq_len(ncol(x)), function(i) x[,i])
new_y <-as.vector(lapply(seq_len(ncol(x)), function(i) v_i))
new_w <-as.vector(lapply(seq_len(ncol(x)), function(i) as.matrix(wcos.st)))

try <- function(x,y,w) {x.0<-x>0;x.temp <- (x-y)*x.0;num <-  sum(w*x.temp);denum <- sum(abs(w)*x.0);num/denum}

c_prod <- mapply(try ,new_x, new_y, new_w)

prediction <- v_1+c_prod

In [23]:
mae.rmse(new.user.na[train], prediction[train])

In [24]:
new.user.na[train]
prediction[train]

In [25]:
mae.rmse(new.user.na[test], prediction[test])

In [26]:
new.user.na[test]
prediction[test]