In [152]:
library(Matrix)

In [153]:
# modifie un peu le pageRank par rapport à d=0.85 (utilisé pour les pages web habituelles),
# à tolérance égale pour la convergence de l'algorithme PageRank, mais les résultats principaux restent les mêmes
d = 0.6

In [154]:
m = read.table("citeseer.rtable")
m.matrix <- data.matrix(m)
m.matrix

Unnamed: 0,X100299,X100967,X10151,X101705,X101863,X102458,X102886,X102966,X10302,X103700,⋯,X96767,X97060,X97150,X9721,X97410,X97863,X98185,X99113,X9947,X9993
100299,0,0,0,0,0,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0
100967,0,0,0,0,0,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0
10151,0,0,1,0,0,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0
101705,0,0,0,0,0,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0
101863,0,0,0,0,0,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0
102458,0,0,0,0,0,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,1
102886,0,0,0,0,0,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0
102966,0,0,0,0,0,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0
10302,0,0,0,0,0,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0
103700,0,0,0,0,0,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0


In [155]:
# Erreur tolérée de l'algorithme
eps <- 0.001

In [156]:
# Fonction pageRank
pageRank <- function(mat, D, pr.init) {
    N <- ncol(mat)
    pr.prev <- pr.init
    cs <- colSums(mat)
    cs[cs==0] <- 1
    pr <- (1-D)/N + (D * mat %*% (pr.prev/cs))
    while(abs(max(pr-pr.prev))>=eps) {
        pr.prev <- pr
        pr <- (1-D)/N + (D * mat %*% (pr.prev/cs))
    }
    return(pr)
}

In [157]:
# Calcul des pageRanks des articles en prenant toute les données en compte
n <- ncol(m)
pr.first.all <- rep(1,n)
ranks.all <- pageRank(m.matrix, d, pr.first.all)
ranks.all

0,1
100299,0.0005085190
100967,0.0007570590
10151,0.0851669152
101705,0.0004220183
101863,0.0015935720
102458,0.0118946635
102886,0.0003669725
102966,0.0045172601
10302,0.0182529624
103700,0.0059374149


In [158]:
# Il suffit à présent de prendre, parmi les citations référencées par l'article 422908, celles qui ont le meilleur pageRank.
# Domaine de recherche
S <- m.matrix['422908',]
S <- S[S==1]
S

In [159]:
# Matrice correspondante
colonnes.S <- strsplit(names(S), ',')
lignes.S <- lapply(names(S), function(str) strsplit(str, 'X')[[1]][2])
tmp <- subset(m.matrix, rownames(m.matrix) %in% lignes.S)
mat.S <- subset(tmp,, colnames(tmp) %in% colonnes.S)

In [160]:
# Calcul des pageRanks pour l'ensemble S
n.S <- ncol(mat.S)
pr.first.S <- rep(1,n.S)
ranks.S <- pageRank(mat.S, d, pr.first.S)
ranks.S

0,1
110303,0.02352941
124,0.69729412
131548,0.66220168
147460,0.30193517
149673,0.11958223
155792,0.57512845
17094,0.46716206
19422,0.03764706
241538,0.02352941
311874,0.02352941


In [161]:
# On ordonne
ranks.S.order <- ranks.S[order(-ranks.S),,drop=FALSE]

In [162]:
# Vu le peu de citations présentes dans la base de données, on se limitera à recommander les 5 premières.
names(ranks.S.order[1:5,])

In [163]:
# Variante : utilisation du domaine S', qui inclut les citations des citations
# La matrice d'adjacence élevée au carré par multiplication booléenne représente
# la composition de la relation d'origine par elle-même
m.matrix.square <- m.matrix %&% m.matrix
# Union des citations et des citations de citations
m.prime <- m.matrix | m.matrix.square
# Retrait de la diagonale
diag(m.prime) <- FALSE
m.prime

   [[ suppressing 32 column names ‘X100299’, ‘X100967’, ‘X10151’ ... ]]


1090 x 1090 sparse Matrix of class "lgCMatrix"
                                                                             
100299 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
100967 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
10151  . . : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
101705 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
101863 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
102458 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
102886 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
102966 . . . . . . | . . . . . . . . . . . . . . . . . . . . . . | . . ......
10302  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
103700 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
103914 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
10394  . . . . . 

In [164]:
# Domaine de recherche
S.prime <- m.prime['422908',]
S.prime <- S.prime[S.prime==1]
S.prime

In [165]:
# Matrice correspondante
colonnes.S.prime <- strsplit(names(S.prime), ',')
lignes.S.prime <- lapply(names(S.prime), function(str) strsplit(str, 'X')[[1]][2])
tmp.prime <- subset(as.matrix(m.prime), rownames(m.prime) %in% lignes.S.prime)
mat.S.prime <- subset(tmp.prime,, colnames(tmp.prime) %in% colonnes.S.prime)

In [166]:
# Calcul des pageRanks pour l'ensemble S
n.S.prime <- ncol(mat.S.prime)
pr.first.S.prime <- rep(1,n.S.prime)
ranks.S.prime <- pageRank(mat.S.prime, d, pr.first.S.prime)
ranks.S.prime

0,1
110303,0.17496011
124,0.9924286
131548,0.99300784
147460,1.15970549
149673,0.31715917
149820,0.01537037
155792,0.34201365
17094,0.39405687
19422,0.11187271
206738,0.21429575


In [167]:
# On ordonne
ranks.S.prime.order <- ranks.S.prime[order(-ranks.S.prime),,drop=FALSE]

In [168]:
# Et on renvoie les 5 premières
names(ranks.S.prime.order[1:5,])

In [169]:
# Pour comparaison
names(ranks.S.order[1:10,])
#row.names(ranks.S.order) <- paste('X', row.names(ranks.S.order), sep='')
length(names(ranks.S.order[1:10,])[names(ranks.S.order[1:10,]) %in% names(ranks.S.prime.order[1:10,])])
# 8 recommandations en commun

In [170]:
# La plupart des recommandations restent communes, mais deux nouvelles apparaissent.
# Ceci s'explique sans doute par la matrice utilisée, qui ne contient que peu d'informations,
# et, en conséquence, les articles cités par celui examiné ne sont pas forcément très liés entre eux,
# bien qu'appartenant à un domaine très proche.
# On en conclut que l'étendue du sous-ensemble de départ permettrait de recommander des citations plus anciennes,
# potentiellement plus importantes dans le domaine scientifique considéré mais moins directement reliées à l'article
# d'origine, mais que les données disponibles sont très insuffisantes pour conclure sur l'impact d'utilisation de S'
# de façon définie (et puis l'expérience a été faite avec un seul article d'origine, ce qui est de toute façon un nombre
# insuffisant d'exemples pour conclure en termes quantitatifs).

In [171]:
# Question 3
# Séparation du jeu de données
# On utilise l'approche expliquée dans l'article conseillé
# (90%/10%, retrait d'une citation pour chaque élément de l'ensemble de test)
# On utilise les données contenues dans m.prime (niveaux 1 et 2)
division <- function(mat, train.perc){
    N <- nrow(mat)
    train.nb <- round(train.perc*N/100)
    test <- sample.int(nrow(mat), train.nb)
    set.train <- mat[-test,]
    set.test <- mat[test,]
    set.test.full <- set.test
    # Retrait d'une citation
    set.test <- t(apply(set.test, 1, replace.rand))
    # Ajout des articles incomplets à l'ensemble d'entraînement
    set.train <- rbind(set.train, set.test)
    return(list(set.train, set.test, set.test.full))
}

replace.rand <- function(vec){
    ind <- names(vec[vec==1][sample(length(vec[vec==1]),1)])
    vec[vec==1][ind] <- 0
    return(vec)
}

division(m.prime, 10) # à utiliser 10 fois, un test de l'algorithme de la question 2 par utilisation

   [[ suppressing 32 column names ‘X100299’, ‘X100967’, ‘X10151’ ... ]]
   [[ suppressing 33 column names ‘X100299’, ‘X100967’, ‘X10151’ ... ]]


[[1]]
1090 x 1090 sparse Matrix of class "dgCMatrix"
                                                                             
100299 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
10151  . . 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
101705 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
101863 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
102458 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
102886 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
102966 . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . 1 . . ......
10302  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
103700 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
103914 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
10394  . . . . . . . . . . . 0 . . . . . . . . . . . . . . . . . . . . ......
104047 . . 