# __Q1: Supposons que je lis le document numéro '422908' dans ma matrice. Appliquez l'algorithme Page rank pour déterminer les autres lectures recommandées. En plus de la simple recommandation des références de '422908', appliquez au moins une variation de cette approche de base, comme celle exposée en classe qui consiste à étendre le sous-ensemble S (références) à S' (références des références). Expliquez la démarche que vous avez prise.__

In [None]:
import pandas as pd
import networkx as nx
from itertools import islice
import matplotlib.pyplot as plt

#can be removed
from jupyterthemes import jtplot
jtplot.style()

Le fichier `citeseet.csv` est simplement la `rtable` à l'adresse `http://cours.polymtl.ca/MDesmarais/log6308/Public/citeseer.rtable`. Le code ci-dessous permet de storer les informations dans un dataframe de Pandas.

In [None]:
df = pd.read_csv("citeseer.csv", index_col=0)
df.columns = [int(col[1:]) for col in df.columns]
df.head()

## Représentation des données

La librarie `networkx` permet de prendre le dataframe et d'en faire un objet représentant un graphe. Cela permet de manipuler plus facilement les articles.

[Networkx](https://networkx.github.io/documentation/stable/)

In [None]:
G_di = nx.from_pandas_adjacency(df, create_using=nx.DiGraph())
nx.info(G_di)

In [None]:
generate_graph = False #change this to show a graph output
if generate_graph:
    G_no_isolates = G_di
    G_no_isolates.remove_nodes_from(list(nx.isolates(G_di)))
    fig = plt.figure(figsize=(30, 30))
    fig.suptitle("graph without isolates", fontsize=20)
    nx.draw(G_no_isolates, with_labels=True, font_weight='bold')
    plt.show()

## Pagerank

La librarie permet entre autres d'[appliquer l'algorithme de PageRank](https://networkx.github.io/documentation/networkx-1.9/reference/generated/networkx.algorithms.link_analysis.pagerank_alg.pagerank_numpy.html) sur un graphe. 
Une autre fonction possible dans la librarie permet d'appliquer [une variante](https://networkx.github.io/documentation/networkx-1.10/reference/generated/networkx.algorithms.link_analysis.pagerank_alg.pagerank.html) qui converti tous les arêtes en arête bidirectionnel, ignorant alors le sens des liens entre les articles.

In [None]:
pr = nx.pagerank_numpy(G_di)
#print some to make sure they make sense
list(islice(pr.items(), 5))

In [None]:
pr[422908]

## Fonction générale
La fonction `get_top_recommendations` ci-dessous ne comporte pas directement de calcul de pagerank. Elle ne fait que prendre un article, un graphe, et un dictionnaire `key=article value=pagerank_score` afin de redonner les recommandations selon le nombre de recommandations et le niveau d'ensembles voulus.

Par exemple, `max_deepness=1` indique que l'on veut se limiter à S et `max_deepness=2` indique que l'on veut également considérer les articles se trouvant dans l'ensemble S'. 

`graph.neighbors(n)` [retourne tous les noeuds m où il existe une arête de n qui pointe vers m](https://networkx.github.io/documentation/stable/reference/classes/generated/networkx.DiGraph.neighbors.html).

In [None]:
def get_top_recommendations_pagerank(page_ranks, graph, article, n_recommendations=10, max_deepness=1):
    possible_article_recommendations = []
    last_discovered_nodes = [article]
    deepness_reached = 0
    while deepness_reached <= max_deepness:
        new_discovered_nodes = []
        for discovered_node in last_discovered_nodes:
            for neighbor in graph.neighbors(discovered_node):
                new_discovered_nodes.append(neighbor)
                if neighbor not in possible_article_recommendations and neighbor != article:
                    possible_article_recommendations.append(neighbor)
        last_discovered_nodes = new_discovered_nodes
        deepness_reached += 1
    pr_neighbors = {article_key:page_ranks[article_key] for article_key in possible_article_recommendations}
    return sorted(pr_neighbors, key=pr_neighbors.get, reverse=True)[:n_recommendations] 

## Variations à l'approche Pagerank de base
D'abord, nous allons tenter l'expérience avec S' au lieu de S seulement. 

De plus, nous allons tenter une autre approche, qui est de considérer un graphe non-orienté. Nous justifions l'essai de cette alternative en supposant que les articles peuvent être tout autant pertinents même s'il ne sont pas référencés par l'article de départ, en autant qu'ils référencient celui-ci. Autrement dit, selon cette approche, que ce soit n->m ou m->n, l'important est simplement qu'il y ait un lien entre ces articles, le sens n'a plus ou moins d'importance..

## Résultats
Les résultats suivants représentent les recommandations d'articles pour S et S' ainsi que S et S' pour une variante de l'algorithme de pagerank qui considère tous les arêtes du graphe comme bidirectionnelles. 

In [None]:
document = 422908
results = {}

In [None]:
# S
results["Pagerank S"] = get_top_recommendations_pagerank(pr, G_di, document)
print(results["Pagerank S"])

# S'
results["Pagerank S\'"] = get_top_recommendations_pagerank(pr, G_di, document, max_deepness=2)
print(results["Pagerank S\'"])

On peut voir que les résultats sont identiques pour les 5 premières recommendations. Par contre, à la sixième recommendation, les deux approches divergent avec S' qui contient un article avec un score pagerank assez élevé pour faire partie des recommendations (61863) que S ne contient pas.

L'expérience qui suit présente une autre approche, qui est d'appliquer [pagerank en ignorant la direction des arêtes](https://networkx.github.io/documentation/networkx-1.10/reference/generated/networkx.algorithms.link_analysis.pagerank_alg.pagerank.html) entre les articles.

In [None]:
G_undi = nx.from_pandas_adjacency(df) # creates an undirected graph
pr = nx.pagerank(G_undi)

# S
results["pr undirected S"] = get_top_recommendations_pagerank(pr, G_undi, document)
print(results["pr undirected S"])

# S'
results["pr undirected S\'"] = get_top_recommendations_pagerank(pr, G_undi, document, max_deepness=2)
print(results["pr undirected S\'"])

On peut voir qu'avec cette approche, les articles recommandés diffèrent de l'aproche de base après les deux premiers, et que de nouveaux articles font surface (38085, 245669, 164643, 547939, 220337, 500980, 371548, 368281, 83263).

## Discussion
TODO: discuter de la qualité des résultats (quand l'API du prof va marcher) 

# __Q2: Comparez les résultats obtenus avec une approche basée sur la similarité des articles dans un espace vectoriel, à l'instar du calcul de similarité de l'approche item-item. La mesure de la similarité et la façon de l'utiliser pour estimer la pertinence d'articles similaires est laissé à votre discrétion.__

L'idéal serait de comparer les descriptions entre elles avec du NLP afin de déterminer un score de similarité entre l'article 422908 et chacun des autres articles. 

Par contre, l'approche que nous allons utiliser ici est de comparer les vecteurs de références d'articles et appliquer le cosinus afin de recommander des articles.

In [None]:
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

In [None]:
def get_top_recommendations_cosine(dataframe, article, n_recommendations=10):
    df_cos = dataframe.copy()
    df_cos[:] = cosine_similarity(df_cos)
    df_cos = df_cos.sort_values(by=article, ascending=False)
    return list(df_cos[1:n_recommendations + 1].index)

## Résultats et comparaison

In [None]:
results["cosine item-item"] = get_top_recommendations_cosine(df, document)
for key in results.keys():
    print("      " + key + "\t" + str(results[key]))

## Discussion

On peut constater que les recommandations selon l'approche item-item avec le cosinus présente des résultats assez différents des deux approches précédentes. La plupart des articles recommandés n'étaient pas présents dans les recommandations de Pagerank. Par contre, on y retrouve des articles qui avaient déjà été détectés par Pagerank: 70445, 155792 et 17094.

On peut donc confirmer que les deux approches semblent bien fonctionner à leur façon, et donnent des résultats plutôt différents.

# __Q3:  Utilisez une validation croisée pour évaluer la performance de l'approche item-item.__ Vous pouvez vous inspirer de l'approche utilisée dans l'article suivant pour la méthodologie à adopter:
McNee, S. M., Albert, I., Cosley, D., Gopalkrishnan, P., Lam, S. K., Rashid, A., Konstan, J. A., and Riedl, J. 2002. On the recommending of citations for research papers. In Proceedings of the 2002 ACM Conference on Computer Supported Cooperative Work (New Orleans, Louisiana, USA, November 16 - 20, 2002). CSCW '02. ACM, New York, NY, 116-125. DOI=http://doi.acm.org/10.1145/587078.587096
# Cependant, vous pouvez aussi adapter cette méthodologie ou en définir une différente. Par exemple, les "observations" que l'on peut vraisemblablement considérer comme valables pour les tests sont les références d'ordre 1 et 2 de la matrice d'adjacence et de sa transposée. Compte tenu du faible nombre de références, il est préférable d'adopter une approche "leave one out", où une seule "observation" est retirée du corpus à la fois, et où l'on compare une mesure du degré de confiance à prédire cette observation.