# Q1: Supposons que je lis le document numéro '422908' dans ma matrice. Appliquez l'algorithme Page rank pour déterminer les autres lectures recommandées. En plus de la simple recommandation des références de '422908', appliquez au moins une variation de cette approche de base, comme celle exposée en classe qui consiste à étendre le sous-ensemble S (références) à S' (références des références). Expliquez la démarche que vous avez prise.

In [None]:
import pandas as pd
import networkx as nx
from itertools import islice

In [None]:
df = pd.read_csv("citeseer.csv", index_col=0)
df.columns = [int(col[1:]) for col in df.columns]
df.head()

In [None]:
G = nx.from_pandas_adjacency(df, create_using=nx.DiGraph())
nx.info(G)

In [None]:
pr = nx.pagerank_numpy(G)
#print some to make sure they make sense
list(islice(pr.items(), 7))

In [None]:
def get_top_recommendations(page_ranks, graph, article, n_recommendations=10, max_deepness=1):
    possible_article_recommendations = []
    last_discovered_nodes = [article]
    deepness_reached = 0
    while deepness_reached <= max_deepness:
        new_discovered_nodes = []
        for discovered_node in last_discovered_nodes:
            for neighbor in G.neighbors(discovered_node):
                new_discovered_nodes.append(neighbor)
                if neighbor not in possible_article_recommendations and neighbor != article:
                    possible_article_recommendations.append(neighbor)
        last_discovered_nodes = new_discovered_nodes
        deepness_reached += 1
    pr_neighbors = {article_key:page_ranks[article_key] for article_key in possible_article_recommendations}
    return sorted(pr_neighbors, key=pr_neighbors.get, reverse=True)[n_recommendations:] 


document = 422908
print(get_top_recommendations(pr, G, document))

In [None]:
x = {1: 2, 3: 4, 4: 3, 2: 1, 0: 0}
sorted_x = sorted(x, key=x.get, reverse=True)
sorted_x

In [None]:
# la fonction pagerank de networkx applique pagerank en ignorant la direction des arêtes. 
# https://networkx.github.io/documentation/networkx-1.10/reference/generated/networkx.algorithms.link_analysis.pagerank_alg.pagerank.html
pr = nx.pagerank(G)
pr

In [None]:
for n in G.neighbors(422908): #S
    for m in G.neighbors(n):  #S'
        print(str(n) + '->' + str(m))

# Q2: Comparez les résultats obtenus avec une approche basée sur la similarité des articles dans un espace vectoriel, à l'instar du calcul de similarité de l'approche item-item. La mesure de la similarité et la façon de l'utiliser pour estimer la pertinence d'articles similaires est laissé à votre discrétion.

# Q3:  Utilisez une validation croisée pour évaluer la performance de l'approche item-item. Vous pouvez vous inspirer de l'approche utilisée dans l'article suivant pour la méthodologie à adopter :
McNee, S. M., Albert, I., Cosley, D., Gopalkrishnan, P., Lam, S. K., Rashid, A., Konstan, J. A., and Riedl, J. 2002. On the recommending of citations for research papers. In Proceedings of the 2002 ACM Conference on Computer Supported Cooperative Work (New Orleans, Louisiana, USA, November 16 - 20, 2002). CSCW '02. ACM, New York, NY, 116-125. DOI=http://doi.acm.org/10.1145/587078.587096
# Cependant, vous pouvez aussi adapter cette méthodologie ou en définir une différente. Par exemple, les "observations" que l'on peut vraisemblablement considérer comme valables pour les tests sont les références d'ordre 1 et 2 de la matrice d'adjacence et de sa transposée. Compte tenu du faible nombre de références, il est préférable d'adopter une approche "leave one out", où une seule "observation" est retirée du corpus à la fois, et où l'on compare une mesure du degré de confiance à prédire cette observation.