In [210]:
library(Matrix)

In [228]:
# modifie un peu le pageRank par rapport à d=0.85 (utilisé pour les pages web habituelles),
# à tolérance égale pour la convergence de l'algorithme PageRank, mais les résultats principaux restent les mêmes
d = 0.6

In [229]:
m = read.table("citeseer.rtable")
m.matrix <- data.matrix(m)
m.matrix

Unnamed: 0,X100299,X100967,X10151,X101705,X101863,X102458,X102886,X102966,X10302,X103700,⋯,X96767,X97060,X97150,X9721,X97410,X97863,X98185,X99113,X9947,X9993
100299,0,0,0,0,0,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0
100967,0,0,0,0,0,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0
10151,0,0,1,0,0,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0
101705,0,0,0,0,0,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0
101863,0,0,0,0,0,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0
102458,0,0,0,0,0,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,1
102886,0,0,0,0,0,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0
102966,0,0,0,0,0,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0
10302,0,0,0,0,0,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0
103700,0,0,0,0,0,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0


In [230]:
# Initialisation
n <- ncol(m)
pr.first <- rep(1,n)

In [231]:
# Erreur tolérée de l'algorithme
eps <- 0.001

In [232]:
# Fonction pageRank
pageRank <- function(mat, D, pr.init) {
    N <- ncol(mat)
    pr.prev <- pr.init
    cs <- colSums(mat)
    cs[cs==0] <- 1
    pr <- (1-D)/N + (D * mat %*% (pr.prev/cs))
    while(abs(max(pr-pr.prev))>=eps) {
        pr.prev <- pr
        pr <- (1-D)/N + (D * mat %*% (pr.prev/cs))
    }
    return(pr)
}

In [233]:
# Calcul des pageRanks des articles
ranks <- pageRank(m.matrix, d, pr.first)
ranks

0,1
100299,0.0005085190
100967,0.0007570590
10151,0.0851669152
101705,0.0004220183
101863,0.0015935720
102458,0.0118946635
102886,0.0003669725
102966,0.0045172601
10302,0.0182529624
103700,0.0059374149


In [234]:
# Il suffit à présent de prendre, parmi les citations référencées par l'article 422908, celles qui ont le meilleur pageRank.
# Domaine de recherche
S <- m.matrix['422908',]
S <- S[S==1]
S

In [235]:
# On adapte les noms des colonnes
row.names(ranks) <- paste('X', row.names(ranks), sep='')

In [236]:
# On sélectionne les pageRanks des citations du domaine S
ranks.S <- ranks[row.names(ranks) %in% names(S),, drop=FALSE]
# On les ordonne
ranks.S.order <- ranks.S[order(-ranks.S),,drop=FALSE]

In [237]:
# Vu le peu de citations présentes dans la base de données, on se limitera à recommander les 5 premières.
names(ranks.S.order[1:5,])

In [238]:
# Variante : utilisation du domaine S', qui inclut les citations des citations
# La matrice d'adjacence élevée au carré par multiplication booléenne représente
# la composition de la relation d'origine par elle-même
m.matrix.square <- m.matrix %&% m.matrix
# Union des citations et des citations de citations
m.prime <- m.matrix | m.matrix.square
# Retrait de la diagonale
diag(m.prime) <- FALSE
m.prime

   [[ suppressing 32 column names ‘X100299’, ‘X100967’, ‘X10151’ ... ]]


1090 x 1090 sparse Matrix of class "lgCMatrix"
                                                                             
100299 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
100967 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
10151  . . : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
101705 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
101863 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
102458 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
102886 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
102966 . . . . . . | . . . . . . . . . . . . . . . . . . . . . . | . . ......
10302  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
103700 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
103914 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
10394  . . . . . 

In [239]:
# Domaine de recherche
S.prime <- m.prime['422908',]
S.prime <- S.prime[S.prime==1]
S.prime

In [240]:
# On sélectionne les pageRanks des citations du domaine S
ranks.S.prime <- ranks[row.names(ranks) %in% names(S.prime),, drop=FALSE]
# On les ordonne
ranks.S.prime.order <- ranks.S.prime[order(-ranks.S.prime),,drop=FALSE]

In [241]:
# Et on renvoie les 5 premières
names(ranks.S.prime.order[1:5,])

In [242]:
# Pour comparaison
names(ranks.S.order[1:5,])
length(names(ranks.S.order[1:5,])[names(ranks.S.order[1:5,]) %in% names(ranks.S.prime.order[1:5,])])
# 2 recommandations en commun, 155792 et 17094

In [244]:
# Avec les dix premières recommandations :
rec.S.10 <- names(ranks.S.order[1:10,])
rec.S.prime.10 <- names(ranks.S.prime.order[1:10,])
length(rec.S.10[rec.S.10 %in% rec.S.prime.10])
# Une plus grande intersection (proportionnellement au nombre de recommendations).
# Le fait que la plupart des recommandations communes arrivent dans la deuxième moitié de la liste
# s'explique sans doute par le fonctionnement de PageRank, qui privilégie les articles beaucoup cités,
# et par conséquent les articles plus vieux (pour simplifier).
# Les citations des citations étant forcément plus anciennes que les citations de l'article d'origine,
# elles ont un meilleur classement général.
# On en conclut que l'étendue du sous-ensemble de départ permet de recommander des citations plus anciennes,
# potentiellement plus importantes dans le domaine scientifique considéré mais moins directement reliées à l'article
# d'origine.