In [68]:
library(igraph)

<img src= "img1.PNG">

# APPROCHE 3 : Application des algorithmes de détection de communautés.

### Importation des données 

In [5]:
data = read.table("ml-100k/u.data")

In [6]:
head(data,5)

Unnamed: 0_level_0,V1,V2,V3,V4
Unnamed: 0_level_1,<int>,<int>,<int>,<int>
1,196,242,3,881250949
2,186,302,3,891717742
3,22,377,1,878887116
4,244,51,2,880606923
5,166,346,1,886397596


In [7]:
dim(data)

In [8]:
nb_user = length(unique(data[["V1"]]))
nb_item = length(unique(data[["V2"]]))
print(nb_user)
print(nb_item)

[1] 943
[1] 1682


On voit ici que nos données sont composées de 4 colonnes et 100 000 lignes.
- V1 : USER ID, distribués de 1 à 943 => on a donc 943 utilisateurs
- V2 : ITEM ID , distribués de 1 à 1682 => on a donc 1682 film
- V3 : RATING, note accordé par l'utilisateur au film, note allant de 1 à 5
- V4 : Timestamp : temps écoulé entre le 1er janvier 1970 et la date de rentrée de la note

On peut à présent reconstituer la matrice A évoqué dans l'énoncé

In [9]:
A = matrix(0,nb_user,nb_item) #Matrice qui comportera en ligne les user, en colonne les item et en coeff les notes


for(i in 1:dim(data)[1]){
  user_id = as.numeric(data[i,]["V1"])
  item_id = as.numeric(data[i,]["V2"])
  rating = as.numeric(data[i,]["V3"])
  A[user_id,item_id] = rating
}
rows = c()
for(i in 1:nb_user){
  rows = c(rows,gsub(" ","",paste("U",toString(i))))
}
cols = c()
for(i in 1:nb_item){
  cols = c(cols,gsub(" ","",paste("I",toString(i))))
}
colnames(A) = cols
rownames(A) = rows

In [10]:
head(A,10)

Unnamed: 0,I1,I2,I3,I4,I5,I6,I7,I8,I9,I10,...,I1673,I1674,I1675,I1676,I1677,I1678,I1679,I1680,I1681,I1682
U1,5,3,4,3,3,5,4,1,5,3,...,0,0,0,0,0,0,0,0,0,0
U2,4,0,0,0,0,0,0,0,0,2,...,0,0,0,0,0,0,0,0,0,0
U3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
U4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
U5,4,3,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
U6,4,0,0,0,0,0,2,4,4,0,...,0,0,0,0,0,0,0,0,0,0
U7,0,0,0,5,0,0,5,5,5,4,...,0,0,0,0,0,0,0,0,0,0
U8,0,0,0,0,0,0,3,0,0,0,...,0,0,0,0,0,0,0,0,0,0
U9,0,0,0,0,0,5,4,0,0,0,...,0,0,0,0,0,0,0,0,0,0
U10,4,0,0,4,0,0,4,0,4,0,...,0,0,0,0,0,0,0,0,0,0


On observe bien une matrice creuse ( la plupart des films n'ont pas été évalué/vu par les utilisateurs )

On peut maintenant utiliser cette matrice pour reconstruire le graphe bipartie associé.

In [11]:
g = graph_from_incidence_matrix(A,weighted = TRUE)
V(g)$color <- ifelse(V(g)$type, "lightblue", "salmon")
V(g)$shape <- ifelse(V(g)$type, "circle", "square")
E(g)$color <- "lightgray"

In [12]:
#plot.igraph(g,vertex.label = NA,layout = layout_as_bipartite) #à décommenter si image manquante ( temps de calcul long )

<img src= "img2.PNG" width="400" height="400" ALIGN=LEFT>

On a bien un graph qui représente les utilisateurs ( carré saumon ) et les films ( cercle bleu )
Chaque utilisateur est relié à chaque film qu'il a évalué, l'arête faisant le pont a pour poids la note de l'utilisateur.

L'objectif est maintenant de compléter ce graphe avec les liens manquants.

Pour ce faire, nous allons dans un premier temps détecter les communautés (globales) du graphe pour cerner les différentes commmunautés au sein des utilisateurs et ainsi anticiper leur appréciation sur les films qu'ils n'ont pas vu.

### Problème 1 : Graphe Bipartite
Nous n'avons vu jusqu'à présent uniquement des méthodes de détections sur des graphes simples, ainsi il faut trouver une solution pour pouvoir travailler sur les graphes bipartites.

### Liens utiles
- https://rstudio-pubs-static.s3.amazonaws.com/317838_9749880d51cb4946a096868c89e1f9b5.html
- https://medium.com/stanford-cs224w/graph-neural-network-based-movie-recommender-system-5876b9686df3
- https://freecontent.manning.com/creating-a-bipartite-graph-for-a-user-item-dataset/
- https://hal.archives-ouvertes.fr/hal-02474973/document
- https://www-complexnetworks.lip6.fr/~magnien/Publis/30Prediction/article.pdf
- https://www.frontiersin.org/articles/10.3389/fgene.2021.649440/full


### Solution : Projeter le graphe sur un graphe simple

Méthode : Compter pour une paire de noeud d'un "côté" ( exemple le côté des noeuds type utilisateur ) le nombre de noeuds communs auxquels sont liés ces 2 noeuds de l'autre "côté".

Traduction : Pour 2 utilisateurs, on va compter le nombre de film en commun qu'ils ont et c'est cela qui va définir leur lien dans le nouveau graphe.

In [13]:
proj <- bipartite_projection(g)
p1 = proj$proj1
p2 = proj$proj2

In [14]:
#plot.igraph(p1,vertex.label = NA) à décommenter si image manquante

<img src= "img3.PNG" width="400" height="400" ALIGN=LEFT>

In [15]:
#plot.igraph(p2,vertex.label = NA)  à décommenter si image manquante

<img src= "img4.PNG" width="400" height="400" ALIGN=LEFT>

On a donc le choix entre ces 2 graphes pour continuer l'analyse, le graphe "p1" qui représentent les noeuds utilisateurs comportent moins de noeuds que "p2" qui représentent les films.

On choisira donc p1 pour alléger la complexité du problème

Le problème avec la projection, c'est que l'on perd l'information contenue dans les poids des arêtes, pour contourner cela, on va traiter chaque "niveau" de graphe indépendamment :

On a 5 notes possibles, on va donc traiter 5 graphes différents avec pour chaque graphe les liens associés à la note i ( avec i allant de 1 à 5 ).

De cette manière, nous aurons des communautés qui auront un sens : les utilisateurs ayant mis la même note à un même film seront dans la même communauté.

On aura donc 5 groupes d'ensemble de clusters ( 1 groupe par note ) et on dira donc que 2 utilisateurs appartiennent à la même communauté s'ils appartiennent à la même communauté dans au moins 3 groupes sur les 5 ( la majorité donc ).

Enfin, nous associerons à chaque film manquant de chaque membre d'une même communauté la note moyenne accordée pour le film en question au sein de la communauté.



## Étape 1 : Choix de l'algorithme de détection de communauté

Choississons un algorithme parmi les algorithmes vu en cours, on va simplement se tourner vers l'algorithme qui permet de maximiser la modularité.

Faisons ces tests sur le graphe de niveau 5 ( le graphe contenant uniquement les liens de poids égal à 5 )

In [16]:
g5=delete.edges(g, which(E(g)$weight <=4)) 
print(length(E(g)))
print(length(E(g5)))
proj <- bipartite_projection(g5, multiplicity = TRUE) 
#multiplicity pour garder le nombre de connection et pas simplement s'il y a connection ou non
p1 = proj$proj1
p2 = proj$proj2



[1] 100000
[1] 21201


p1 correspond donc à ce stade à la projection sur les utilisateurs du graphe g en considérant uniquement les arêtes de poids maximal donc les films qui ont été noté 5/5 par les utilisateurs.

In [17]:
c1 = cluster_walktrap(p1)
c1

IGRAPH clustering walktrap, groups: 28, mod: 0.058
+ groups:
  $`1`
   [1] "U2"   "U4"   "U26"  "U29"  "U30"  "U32"  "U78"  "U79"  "U113" "U120"
  [11] "U127" "U131" "U141" "U157" "U161" "U164" "U168" "U192" "U199" "U204"
  [21] "U242" "U278" "U285" "U306" "U324" "U331" "U365" "U368" "U380" "U388"
  [31] "U390" "U414" "U423" "U424" "U440" "U443" "U454" "U463" "U507" "U509"
  [41] "U525" "U526" "U550" "U574" "U596" "U609" "U624" "U634" "U636" "U637"
  [51] "U644" "U656" "U668" "U673" "U674" "U677" "U696" "U701" "U718" "U722"
  [61] "U725" "U730" "U743" "U760" "U768" "U800" "U828" "U834" "U857" "U888"
  [71] "U891" "U906" "U931"
  
  + ... omitted several groups/vertices

In [18]:
c2 =cluster_label_prop(p1)
c2

IGRAPH clustering label propagation, groups: 16, mod: 1.1e-16
+ groups:
  $`1`
    [1] "U1"   "U2"   "U3"   "U4"   "U5"   "U6"   "U7"   "U8"   "U9"   "U10" 
   [11] "U11"  "U12"  "U13"  "U14"  "U15"  "U16"  "U17"  "U18"  "U19"  "U20" 
   [21] "U21"  "U22"  "U23"  "U24"  "U25"  "U26"  "U27"  "U28"  "U29"  "U30" 
   [31] "U31"  "U32"  "U33"  "U34"  "U35"  "U36"  "U37"  "U38"  "U39"  "U41" 
   [41] "U42"  "U43"  "U44"  "U45"  "U46"  "U47"  "U48"  "U49"  "U50"  "U51" 
   [51] "U52"  "U53"  "U54"  "U55"  "U56"  "U57"  "U58"  "U59"  "U60"  "U61" 
   [61] "U62"  "U63"  "U64"  "U65"  "U66"  "U67"  "U68"  "U69"  "U70"  "U71" 
   [71] "U72"  "U73"  "U74"  "U75"  "U76"  "U77"  "U78"  "U79"  "U80"  "U81" 
   [81] "U82"  "U83"  "U84"  "U85"  "U86"  "U87"  "U88"  "U89"  "U90"  "U91" 
  + ... omitted several groups/vertices

In [19]:
c3 = cluster_louvain(p1)
c3

IGRAPH clustering multi level, groups: 18, mod: 0.11
+ groups:
  $`1`
    [1] "U1"   "U6"   "U7"   "U10"  "U13"  "U14"  "U18"  "U19"  "U21"  "U23" 
   [11] "U24"  "U31"  "U41"  "U48"  "U49"  "U58"  "U59"  "U60"  "U64"  "U71" 
   [21] "U72"  "U73"  "U76"  "U77"  "U80"  "U82"  "U84"  "U85"  "U90"  "U92" 
   [31] "U94"  "U96"  "U98"  "U106" "U114" "U115" "U118" "U122" "U123" "U124"
   [41] "U132" "U138" "U151" "U154" "U156" "U158" "U160" "U167" "U177" "U183"
   [51] "U184" "U185" "U187" "U189" "U194" "U198" "U202" "U207" "U208" "U210"
   [61] "U212" "U213" "U214" "U218" "U225" "U232" "U233" "U234" "U235" "U236"
   [71] "U237" "U239" "U243" "U244" "U249" "U262" "U263" "U264" "U267" "U268"
   [81] "U269" "U271" "U272" "U276" "U279" "U288" "U292" "U293" "U295" "U298"
  + ... omitted several groups/vertices

REMARQUE : Puisque nos arêtes ont un poids, la clusturisation par la méthode edge betweenness n'a pas de sens car elle compte uniquement les arêtes passant par les différents noeuds sans prendre en compte leur poids

<i>The weights of the edges. It must be a positive numeric vector, NULL or NA. If it is NULL and the input graph has a ‘weight’ edge attribute, then that attribute will be used. If NULL and no such attribute is present, then the edges will have equal weights. Set this to NA if the graph was a ‘weight’ edge attribute, **<u>but you don't want to use it for community detection</u>**. Edge weights are used to calculate weighted edge betweenness. This means that edges are interpreted as distances, not as connection strengths.</i>

On va pour le moment utiliser l'algorithme de détection Louvain qui semble fournir la modularité la plus élevée parmi les algorithmes vu en cours.

### Quelques informations sur le cluster...

In [20]:
membership(c3)

  U1   U2   U3   U4   U5   U6   U7   U8   U9  U10  U11  U12  U13  U14  U15  U16 
   1    2    2    2    3    1    1    3    2    1    2    3    1    1    2    3 
 U17  U18  U19  U20  U21  U22  U23  U24  U25  U26  U27  U28  U29  U30  U31  U32 
   2    1    1    3    1    3    1    1    3    2    2    3    2    2    1    2 
 U33  U34  U35  U36  U37  U38  U39  U40  U41  U42  U43  U44  U45  U46  U47  U48 
   2    2    2    2    3    3    2    4    1    3    2    3    2    2    2    1 
 U49  U50  U51  U52  U53  U54  U55  U56  U57  U58  U59  U60  U61  U62  U63  U64 
   1    2    3    2    3    2    3    3    3    1    1    1    2    3    2    1 
 U65  U66  U67  U68  U69  U70  U71  U72  U73  U74  U75  U76  U77  U78  U79  U80 
   3    3    3    2    3    3    1    1    1    2    2    1    1    2    2    1 
 U81  U82  U83  U84  U85  U86  U87  U88  U89  U90  U91  U92  U93  U94  U95  U96 
   3    1    3    1    1    2    3    2    2    1    3    1    3    1    3    1 
 U97  U98  U99 U100 U101 U10

In [21]:
#plot(c3,p1,vertex.label = NA) #à décommenter si image manquante

<img src= "img5.PNG" width="400" height="400" ALIGN=LEFT>

On observe qu'une majorité des utilisateurs se regroupent dans les 3 premières communautés, cela veut dire que la grande partie des gens sont d'accord lorsqu'ils font fassent à un excellent film.

Ainsi, il semble évident que cette première répartition n'est pas suffisante pour pouvoir identifier de réelles communautés.

On va donc généraliser cette méthode pour les autres arêtes ( les notes inférieures à 5 ). On aura donc 5 groupes d'ensemble de communautés ( 1 groupe par note ) et on dira donc que 2 utilisateurs appartiennent à la même communauté s'ils appartiennent à la même communauté dans au moins 3 groupes sur les 5 ( la majorité donc )

Enfin, nous associerons à chaque film manquant de chaque membre d'une même communauté la note moyenne accordée pour le film en question au sein de la communauté.

La fonction f ci-dessous va permettre la généralisation de l'approche que l'on vient de voir.
La fonction en argument un graphe g ( et accessoirement un nombre qui va déterminer sur quel ensemble (user ou item) la projection doit être effectuée ).

Elle retourne 5 groupes d'ensemble de communautés. 

Le groupe i correspond aux communautés détecter sur le graphe possedant uniquement les liens de poids i. Autrement dit, c'est le graphe représentant toutes les notes i/5 accordées aux différents films par les utilisateurs.

In [22]:
f = function(g,n=1){
    C = c()
    for(i in 1:5){
        g_temp=delete.edges(g, which(E(g)$weight != i))
        proj <- bipartite_projection(g_temp, multiplicity = TRUE) 
        if(n==1){
        p1 = proj$proj1
        cl = cluster_louvain(p1)
            }
        else{
            p2 = proj$proj2
            cl = cluster_louvain(p2)
        }
        C[[i]] = cl
    }
    return(C)
}


In [23]:
COMMU_user = f(g)
COMMU_user

[[1]]
IGRAPH clustering multi level, groups: 230, mod: 0.24
+ groups:
  $`1`
    [1] "U1"   "U12"  "U14"  "U15"  "U17"  "U30"  "U32"  "U54"  "U55"  "U56" 
   [11] "U57"  "U58"  "U59"  "U63"  "U65"  "U68"  "U92"  "U103" "U117" "U121"
   [21] "U141" "U142" "U144" "U145" "U172" "U177" "U181" "U203" "U208" "U213"
   [31] "U244" "U249" "U260" "U264" "U277" "U289" "U297" "U299" "U306" "U307"
   [41] "U323" "U331" "U337" "U342" "U378" "U387" "U415" "U432" "U434" "U445"
   [51] "U459" "U463" "U483" "U492" "U498" "U506" "U521" "U526" "U527" "U534"
   [61] "U541" "U554" "U556" "U572" "U595" "U605" "U609" "U624" "U637" "U645"
   [71] "U654" "U665" "U672" "U673" "U675" "U678" "U682" "U689" "U691" "U692"
   [81] "U703" "U710" "U726" "U733" "U737" "U754" "U762" "U769" "U783" "U790"
  + ... omitted several groups/vertices

[[2]]
IGRAPH clustering multi level, groups: 55, mod: 0.17
+ groups:
  $`1`
    [1] "U1"   "U5"   "U7"   "U11"  "U13"  "U18"  "U20"  "U22"  "U23"  "U24" 
   [11] "U25"  "U38"  "U42

On a maintenant les communautés pour chaque note, il faudrait pouvoir les rassembler en des communautés globales en regroupant les utilisateurs ayant des goûts similaires, c'est-à-dire les utilisateurs qui évaluent globalement un film de la même façon. 

On va donc faire une matrice qui va parcourir ces groupes de communautés et ajouter +1 au coeff (utilisateur1, utilisateur2) s'ils font partis de la même communauté. 

<u>Exemple</u> : Si le coefficient (utilisateur1, utilisateur2 ) vaut 5, cela veut dire qu'ils appartiennent à la même communauté dans chaque sous graphe. Cela veut dire qu'ils ont des goûts similaires que ce soit sur les films qu'ils trouvent mauvais, moyens ou excellent.

In [24]:
M = matrix(0,nb_user,nb_user)
rows = c()
for(i in 1:nb_user){
  rows = c(rows,gsub(" ","",paste("U",toString(i))))
}
rownames(M) = rows
colnames(M)= rows

In [25]:
head(M,10)

Unnamed: 0,U1,U2,U3,U4,U5,U6,U7,U8,U9,U10,...,U934,U935,U936,U937,U938,U939,U940,U941,U942,U943
U1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
U2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
U3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
U4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
U5,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
U6,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
U7,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
U8,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
U9,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
U10,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


Codons à présent une fonction capable de remplir cette matrice de manière à avoir la matrice décrite plus haut

In [26]:
add_common_community= function(M,COMMU){
    for(i in 1:5){
    nb_commu = length(COMMU[[i]])#On récupère le nombre de communauté identifier pour le graphe de niveau i
    for(k in 1:nb_commu){
        for(u1 in COMMU[[i]][[k]]){
            for(u2 in COMMU[[i]][[k]]){
                if(u1!=u2){
                    M[u1,u2] =  M[u1,u2]+1
                }
            }
        }
    }
}
return(M)
}

In [27]:
M = add_common_community(M,COMMU_user)

In [28]:
head(M,10)

Unnamed: 0,U1,U2,U3,U4,U5,U6,U7,U8,U9,U10,...,U934,U935,U936,U937,U938,U939,U940,U941,U942,U943
U1,0,0,0,0,3,2,3,1,1,1,...,2,0,1,0,0,0,1,0,0,3
U2,0,0,3,3,0,1,1,1,2,1,...,0,4,4,5,4,3,1,3,1,0
U3,0,3,0,4,0,1,0,2,2,1,...,0,3,3,3,3,4,2,4,2,0
U4,0,3,4,0,0,1,0,2,2,1,...,0,3,3,3,3,4,2,4,2,0
U5,3,0,0,0,0,1,2,2,1,0,...,4,0,0,0,0,0,1,0,1,5
U6,2,1,1,1,1,0,4,1,1,2,...,2,0,0,1,0,1,3,1,2,1
U7,3,1,0,0,2,4,0,0,1,2,...,3,0,0,1,0,0,2,0,1,2
U8,1,1,2,2,2,1,0,0,1,1,...,1,1,1,1,1,2,1,2,3,2
U9,1,2,2,2,1,1,1,1,0,0,...,1,2,2,2,2,2,2,2,0,1
U10,1,1,1,1,0,2,2,1,0,0,...,1,1,1,1,1,1,1,1,2,0


On peut à partir de cette matrice créer un graphe général <i>gf_user</i> qui représente les liens entre les différents utilisateurs.

REMARQUE : Les poids des arêtes de ce graphe représentent le nombre de fois que les 2 noeuds dont il est question se sont retrouvés dans la même communauté sur les 5 niveaux de graphe.

In [29]:
gf_user = graph_from_adjacency_matrix(M,weighted = TRUE,mode = "undirected")

In [30]:
E(gf_user)$weight

In [31]:
E(gf_user)

+ 319197/319197 edges from b6d36a4 (vertex names):
 [1] U1--U5   U1--U6   U1--U7   U1--U8   U1--U9   U1--U10  U1--U11  U1--U12 
 [9] U1--U13  U1--U14  U1--U15  U1--U17  U1--U18  U1--U19  U1--U20  U1--U21 
[17] U1--U22  U1--U23  U1--U24  U1--U25  U1--U28  U1--U30  U1--U31  U1--U32 
[25] U1--U37  U1--U38  U1--U41  U1--U42  U1--U43  U1--U44  U1--U48  U1--U49 
[33] U1--U51  U1--U54  U1--U55  U1--U56  U1--U57  U1--U58  U1--U59  U1--U60 
[41] U1--U62  U1--U63  U1--U64  U1--U65  U1--U68  U1--U70  U1--U71  U1--U72 
[49] U1--U73  U1--U76  U1--U77  U1--U80  U1--U82  U1--U83  U1--U84  U1--U85 
[57] U1--U87  U1--U89  U1--U90  U1--U92  U1--U94  U1--U95  U1--U96  U1--U97 
[65] U1--U98  U1--U102 U1--U103 U1--U106 U1--U109 U1--U110 U1--U114 U1--U115
[73] U1--U117 U1--U118 U1--U121 U1--U122 U1--U123 U1--U124 U1--U125 U1--U128
+ ... omitted several edges

On peut à présent à partir de ce graphe détecter de réelles communautés COMMU_user_F.

In [32]:
COMMU_user_F = cluster_louvain(gf_user)

In [33]:
COMMU_user_F

IGRAPH clustering multi level, groups: 2, mod: 0.29
+ groups:
  $`1`
    [1] "U1"   "U5"   "U6"   "U7"   "U8"   "U10"  "U11"  "U12"  "U13"  "U14" 
   [11] "U16"  "U18"  "U20"  "U22"  "U23"  "U25"  "U28"  "U31"  "U37"  "U38" 
   [21] "U41"  "U42"  "U43"  "U44"  "U48"  "U49"  "U51"  "U55"  "U56"  "U58" 
   [31] "U59"  "U60"  "U62"  "U64"  "U65"  "U70"  "U71"  "U72"  "U73"  "U76" 
   [41] "U77"  "U80"  "U82"  "U83"  "U85"  "U87"  "U89"  "U90"  "U91"  "U92" 
   [51] "U94"  "U95"  "U96"  "U97"  "U98"  "U102" "U106" "U109" "U110" "U114"
   [61] "U115" "U118" "U122" "U123" "U124" "U125" "U128" "U130" "U132" "U135"
   [71] "U138" "U144" "U148" "U151" "U152" "U153" "U154" "U156" "U158" "U160"
   [81] "U161" "U165" "U167" "U169" "U172" "U174" "U175" "U177" "U178" "U180"
  + ... omitted several groups/vertices

In [34]:
#plot(COMMU_user_F,gf_user,vertex.label = NA) #à décommenter si image manquante

<img src= "img6.PNG" width="400" height="400" ALIGN=LEFT>

On identifie donc avec l'algorithme Louvain 2 grandes communautés 

On va donc commencer à remplir la matrice A à partir de ces communautés en anticipant que chaque membre à l'intérieur de la communauté désignée évalue chaque film de la même manière

In [35]:
nb_lien_manquant_etape0 = length(A[A==0])
nb_lien_manquant_etape0

In [36]:
prediction_note_p1 = function(A,COMMU_F){
    N = length(COMMU_F)
    for (i in 1:N){
        for(item in cols){
        s = 0
        n = 0
        for(u in COMMU_F[[i]]){
            if(A[u,item]!=0){
                s = s+A[u,item]
                n = n+1
            }     
        }
        if(s!=0){
            for(u in COMMU_F[[N]]){
                if(A[u,item]==0){
                    A[u,item]=s/n
                }
            }
        } 

        }
    }
    return(A)
}

        

In [38]:
A1 = prediction_note_p1(A,COMMU_user_F)
nb_lien_manquant_etape1 = length(A1[A1==0])
nb_lien_manquant_etape1

In [39]:
nb_lien_manquant_etape0-nb_lien_manquant_etape1

on a crée 757 384 nouveaux liens 

In [40]:
head(A1,10)

Unnamed: 0,I1,I2,I3,I4,I5,I6,I7,I8,I9,I10,...,I1673,I1674,I1675,I1676,I1677,I1678,I1679,I1680,I1681,I1682
U1,5.0,3.0,4.0,3.0,3.0,5.0,4.0,1.0,5.0,3.0,...,0,0,0,0,0,0,0,0,0,0
U2,4.0,3.208,3.016129,3.578125,3.260274,3.529412,3.854772,3.994924,3.994118,2.0,...,3,4,3,2,3,1,3,2,3,3
U3,3.914286,3.208,3.016129,3.578125,3.260274,3.529412,3.854772,3.994924,3.994118,4.033898,...,3,4,3,2,3,1,3,2,3,3
U4,3.914286,3.208,3.016129,3.578125,3.260274,3.529412,3.854772,3.994924,3.994118,4.033898,...,3,4,3,2,3,1,3,2,3,3
U5,4.0,3.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0,0,0,0,0,0,0,0,0,0
U6,4.0,0.0,0.0,0.0,0.0,0.0,2.0,4.0,4.0,0.0,...,0,0,0,0,0,0,0,0,0,0
U7,0.0,0.0,0.0,5.0,0.0,0.0,5.0,5.0,5.0,4.0,...,0,0,0,0,0,0,0,0,0,0
U8,0.0,0.0,0.0,0.0,0.0,0.0,3.0,0.0,0.0,0.0,...,0,0,0,0,0,0,0,0,0,0
U9,3.914286,3.208,3.016129,3.578125,3.260274,5.0,4.0,3.994924,3.994118,4.033898,...,3,4,3,2,3,1,3,2,3,3
U10,4.0,0.0,0.0,4.0,0.0,0.0,4.0,0.0,4.0,0.0,...,0,0,0,0,0,0,0,0,0,0


In [41]:
nb_lien_manquant_etape1

On observe qu'il reste pas mal de lien à prédire, on pourrait donc appliquer la même démarche mais cette fois-ci sur les films et non les utilisateurs.

Reprenons le graphe g original pour ne pas prendre en compte les ajouts apportés par le travail sur les utilisateurs.
On pourra ensuite comparer les prédictions des deux modèles puis faire une fusion des 2 si chevauchement il y a.

In [42]:
COMMU_item = f(g,2) #on rajoute l'argument n = 2 pour faire la projection sur les films

In [43]:
COMMU_item

[[1]]
IGRAPH clustering multi level, groups: 324, mod: 0.38
+ groups:
  $`1`
    [1] "I1"    "I6"    "I10"   "I14"   "I16"   "I18"   "I19"   "I20"   "I21"  
   [10] "I24"   "I93"   "I103"  "I104"  "I105"  "I107"  "I108"  "I109"  "I112" 
   [19] "I116"  "I120"  "I124"  "I130"  "I137"  "I146"  "I147"  "I149"  "I150" 
   [28] "I221"  "I224"  "I235"  "I236"  "I240"  "I242"  "I243"  "I244"  "I245" 
   [37] "I246"  "I248"  "I251"  "I253"  "I256"  "I259"  "I260"  "I261"  "I262" 
   [46] "I263"  "I264"  "I266"  "I268"  "I269"  "I273"  "I277"  "I279"  "I286" 
   [55] "I289"  "I292"  "I295"  "I299"  "I302"  "I303"  "I304"  "I306"  "I307" 
   [64] "I308"  "I309"  "I310"  "I311"  "I315"  "I319"  "I321"  "I322"  "I324" 
   [73] "I326"  "I328"  "I329"  "I330"  "I331"  "I332"  "I334"  "I335"  "I336" 
  + ... omitted several groups/vertices

[[2]]
IGRAPH clustering multi level, groups: 367, mod: 0.17
+ groups:
  $`1`
    [1] "I1"    "I4"    "I5"    "I11"   "I19"   "I21"   "I22"   "I36"   "I44"  
   [1

In [44]:
M2 = matrix(0,nb_item,nb_item)
rownames(M2) = cols
colnames(M2)= cols

In [45]:
head(M2,10)

Unnamed: 0,I1,I2,I3,I4,I5,I6,I7,I8,I9,I10,...,I1673,I1674,I1675,I1676,I1677,I1678,I1679,I1680,I1681,I1682
I1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
I2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
I3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
I4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
I5,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
I6,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
I7,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
I8,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
I9,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
I10,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [46]:
M2 = add_common_community(M2,COMMU_item)

In [47]:
head(M2,10)

Unnamed: 0,I1,I2,I3,I4,I5,I6,I7,I8,I9,I10,...,I1673,I1674,I1675,I1676,I1677,I1678,I1679,I1680,I1681,I1682
I1,0,1,2,1,2,2,2,0,2,3,...,1,0,1,0,1,1,1,0,0,0
I2,1,0,2,2,3,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,1
I3,2,2,0,2,3,1,2,1,3,2,...,0,0,0,1,0,0,0,0,0,1
I4,1,2,2,0,4,0,1,2,1,1,...,0,0,0,0,0,0,0,0,0,1
I5,2,3,3,4,0,0,1,1,1,0,...,0,0,0,0,0,0,0,0,0,1
I6,2,0,1,0,0,0,2,1,2,2,...,0,0,0,0,0,1,0,0,0,0
I7,2,1,2,1,1,2,0,1,4,2,...,1,0,1,0,1,0,1,0,0,0
I8,0,0,1,2,1,1,1,0,1,1,...,0,1,0,0,0,0,0,0,0,0
I9,2,0,3,1,1,2,4,1,0,3,...,1,0,1,1,1,0,1,0,0,0
I10,3,0,2,1,0,2,2,1,3,0,...,1,0,1,1,1,1,1,0,0,0


In [48]:
gf_item = graph_from_adjacency_matrix(M2,weighted = TRUE,mode = "undirected")

In [49]:
COMMU_item_F = cluster_louvain(gf_item)

In [50]:
COMMU_item_F

IGRAPH clustering multi level, groups: 3, mod: 0.29
+ groups:
  $`1`
    [1] "I1"    "I6"    "I7"    "I9"    "I10"   "I13"   "I14"   "I15"   "I16"  
   [10] "I19"   "I20"   "I24"   "I25"   "I50"   "I93"   "I100"  "I103"  "I104" 
   [19] "I107"  "I108"  "I109"  "I111"  "I112"  "I113"  "I116"  "I120"  "I122" 
   [28] "I124"  "I126"  "I127"  "I129"  "I130"  "I137"  "I146"  "I147"  "I149" 
   [37] "I150"  "I181"  "I221"  "I224"  "I235"  "I236"  "I237"  "I240"  "I242" 
   [46] "I243"  "I244"  "I245"  "I246"  "I248"  "I249"  "I250"  "I251"  "I253" 
   [55] "I255"  "I256"  "I257"  "I258"  "I259"  "I260"  "I261"  "I262"  "I263" 
   [64] "I264"  "I266"  "I268"  "I269"  "I270"  "I271"  "I272"  "I273"  "I275" 
   [73] "I276"  "I277"  "I278"  "I279"  "I282"  "I283"  "I285"  "I286"  "I287" 
  + ... omitted several groups/vertices

In [55]:
#plot(COMMU_item_F,gf_item,vertex.label = NA) #à décommenter si image manquante 

<img src= "img7.PNG" width="400" height="400" ALIGN=LEFT>

In [51]:
prediction_note_p2 = function(A,COMMU_F){
    N = length(COMMU_F)
    for (i in 1:N){
        for(u in rows){
        s = 0
        n = 0
        for(item in COMMU_F[[i]]){
            if(A[u,item]!=0){
                s = s+A[u,item]
                n = n+1
            }     
        }
        if(s!=0){
            for(item in COMMU_F[[N]]){
                if(A[u,item]==0){
                    A[u,item]=s/n
                }
            }
        } 

        }
    }
    return(A)
}
  

In [56]:
A2 = prediction_note_p2(A,COMMU_item_F)
nb_lien_manquant_etape1bis = length(A2[A2==0])

In [57]:
nb_lien_manquant_etape1bis

In [59]:
nb_lien_manquant_etape0 -nb_lien_manquant_etape1bis

On a donc crée 422 979 "nouveaux" liens grâce à la projection sur les films

In [58]:
head(A2,10)

Unnamed: 0,I1,I2,I3,I4,I5,I6,I7,I8,I9,I10,...,I1673,I1674,I1675,I1676,I1677,I1678,I1679,I1680,I1681,I1682
U1,5,3,4,3,3,5,4,1.0,5,3,...,0,3.657143,0,0,0,0,0,0,3.657143,0
U2,4,0,0,0,0,0,0,3.87037,0,2,...,0,3.87037,0,0,0,0,0,0,3.87037,0
U3,0,0,0,0,0,0,0,2.829787,0,0,...,0,2.829787,0,0,0,0,0,0,2.829787,0
U4,0,0,0,0,0,0,0,4.473684,0,0,...,0,4.473684,0,0,0,0,0,0,4.473684,0
U5,4,3,0,0,0,0,0,2.842105,0,0,...,0,2.842105,0,0,0,0,0,0,2.842105,0
U6,4,0,0,0,0,0,2,4.0,4,0,...,0,3.053571,0,0,0,0,0,0,3.053571,0
U7,0,0,0,5,0,0,5,5.0,5,4,...,0,3.6,0,0,0,0,0,0,3.6,0
U8,0,0,0,0,0,0,3,3.0,0,0,...,0,3.0,0,0,0,0,0,0,3.0,0
U9,0,0,0,0,0,5,4,4.2,0,0,...,0,4.2,0,0,0,0,0,0,4.2,0
U10,4,0,0,4,0,0,4,4.030303,4,0,...,0,4.030303,0,0,0,0,0,0,4.030303,0


Nous allons à présent fusionner les résultats de A1 et de A2 en prenant la moyenne des prédictions en cas de chevauchement.

In [60]:
fusion_prediction = function(A,B){
    for(user in rows){
        for(item in cols){
            if(A[user,item]==0 & B[user,item]!=0){
                A[user,item] = B[user,item]
            }
           if(A[user,item]!=0 & B[user,item]!=0){
               A[user,item] = (A[user,item]+B[user,item])/2
           }
        
        }
    }
return(A)
}

In [61]:
Af = fusion_prediction(A1,A2)

après cette étape, on observe qu'il manque tout de même 514 003 liens. Essayons de les prédire avec notre nouveau graphe g 

In [62]:
nb_lien_manquant_etape3 = length(Af[Af==0])

In [63]:
nb_lien_manquant_etape3

In [64]:
Af = round(Af,0)
head(Af,10)

Unnamed: 0,I1,I2,I3,I4,I5,I6,I7,I8,I9,I10,...,I1673,I1674,I1675,I1676,I1677,I1678,I1679,I1680,I1681,I1682
U1,5,3,4,3,3,5,4,1,5,3,...,0,4,0,0,0,0,0,0,4,0
U2,4,3,3,4,3,4,4,4,4,2,...,3,4,3,2,3,1,3,2,3,3
U3,4,3,3,4,3,4,4,3,4,4,...,3,3,3,2,3,1,3,2,3,3
U4,4,3,3,4,3,4,4,4,4,4,...,3,4,3,2,3,1,3,2,4,3
U5,4,3,0,0,0,0,0,3,0,0,...,0,3,0,0,0,0,0,0,3,0
U6,4,0,0,0,0,0,2,4,4,0,...,0,3,0,0,0,0,0,0,3,0
U7,0,0,0,5,0,0,5,5,5,4,...,0,4,0,0,0,0,0,0,4,0
U8,0,0,0,0,0,0,3,3,0,0,...,0,3,0,0,0,0,0,0,3,0
U9,4,3,3,4,3,5,4,4,4,4,...,3,4,3,2,3,1,3,2,4,3
U10,4,0,0,4,0,0,4,4,4,0,...,0,4,0,0,0,0,0,0,4,0


In [67]:
nb_total_lien = nb_user*nb_item
sparsity_initial = nb_lien_manquant_etape0/nb_total_lien
sparsity_final = nb_lien_manquant_etape3/nb_total_lien
print(paste(" % de lien manquant au début du projet :",toString(sparsity_initial)))
print(paste(" % de lien manquant à la fin du projet :",toString(sparsity_final)))

[1] " % de lien manquant au début du projet : 0.936953306357755"
[1] " % de lien manquant à la fin du projet : 0.335954394543687"


## CONCLUSION
La détection de communauté a parmi de détecter environ 60% de nouveaux liens en ayant une base assez restreinte ce qui démontre une certaine efficacité de la méthode. 

Néanmoins, cette méthode a ses limites, en effet, elle détecte seulement 2 grandes catégories d'utilisateurs et seulement 3 catégories de films. La réalité est beaucoup plus nuancé que cela, en ce sens il serait peut-être intéressant de se pencher vers la détéction de communautés locales.

Dans ce contexte, cette méthode nous semblerait plus efficace pour identifier correctement les types d'utilisateurs et leurs goûts.