Et si Wikipedia était un réseau social ?
=====================

Supposons que nous soyons à la tête de wikipédia et que nous décidions d'en faire un projet lucratif en utilisant le comportement des utilisateurs·rice·s à des fins publicitaires. Pour que les utilisateurs·rice·s passent plus de temps sur wikipédia, nous allons mettre en place un système d'amis qui se basera sur les centres d'intérêts communs. En d'autre terme, nous allons créer un réseau social centré sur la connaissance et les centres d'intérêts.

Wikipédia possède déjà toutes les données dont on pourrait rêver pour notre projet. Ici, nous allons utiliser un fichier nommé ``smallwikipedia.csv``, qui contient un petit échantillon de l'historique des modifications d'articles en rapport avec la révolution française. Nous allons rassembler des données pour recommander des ami·e·s au sein de notre wikipédia lucratif.

Partie 1
-----------------------

Les fichiers ``.csv`` sont essentiellement des tableaux, dont les colonnes sont représentées par les points-virgules ``;`` entre les données. Ils peuvent être lus dans un tableur.

Ouvrez le fichier ``smallwikipedia.csv`` dans Excel ou Open Office Calc et comparez le résultat avec l'affichage des ``6`` première lignes du fichier en exécutant la cellule ci-après.

**Question 1** 
À quoi correspondent les deux premières lignes du fichier (voir la partie sur les données du cours) ?


In [3]:
f=open("smallwikipedia.csv","r")
print(f.readline())
print(f.readline())
print(f.readline())
print(f.readline())
print(f.readline())
print(f.readline())

Nous observons qu'un même article peut être modifié par plusieurs personnes. La taille de la modification (et donc le temps passé)  correspond à la quatrième colonne. Nous pourrions donc recommander aux utilisateurs d'ajouter en amis d'autres utilisateurs qui se sont intéressés et ont modifié les même articles qu'eux.

Ici, les données récupérées sont sous forme de grandes chaînes de caractères. Cette organisation ne nous permet pas de récupérer facilement nos données. Il serait plus simple d'avoir à disposition une liste par colonne du fichier. Ici, les dates de modification ne nous intéressent pas, nous souhaitons donc récupérer 3 colonnes : ``utilisateurs``,``articles`` et ``modifs``.

Pour cela, nous allons tout d'abord stocker chacune des lignes du fichier dans une longue liste. Nous allons utiliser une boucler ``for``. Celle-ci va effectuer la même opération pour chaque ligne ``ligne`` de notre fichier. L'opération ``append`` d'une liste permet d'ajouter un nouvel élément à la fin de la liste.

Ainsi, pour chaque nouvelle ligne du fichier, nous allons l'ajouter à la fin de la ligne : 

In [8]:
fichier = open("smallwikipedia.csv","r")
lignes = [] ### lignes est pour le moment une liste vide

for ligne in fichier :  # pour chaque ligne du fichier, on l'ajoute à lignes
    lignes.append(ligne)
    
print(len(lignes)) #on affiche le nombre d'éléments de la liste lignes

1000


**Question 2** 
Les deux premières lignes ne correspondent pas à des données, il nous faut donc les supprimer de notre tableau. Pour cela, utilisez la fonction ``ma_liste.pop(i)`` qui supprime le i ème élément de la liste (attention on compte à partir de ``0``).

**Question 3**
Afficher la 141 ème ligne du fichier.

Pour chaque ligne du fichier, nous allons maintenant séparer la chaîne de caractère en 4, grâce aux poits-virgules. Nous allons pour cela utiliser à nouveau la boucle ``for``, mais cette fois avec un indice ``i`` qui va prendre toutes les valeurs possible entre ``0`` et la taille de la liste.

In [9]:
for i in range(0,len(lignes)) :
    lignes[i] = lignes[i].split(';')

**Question 4** Afficher la 141ème ligne à nouveau. Que s'est-il passé ? Expliquer.

Nous allons maintenant faire en sorte que nos données soient facilement accessibles. Cela commence par convertir le type dela taille des modifications des chaînes de caractère vers les entiers.

In [None]:
for i in range(0,len(lignes)) :
    lignes[i][3][:-1] ## On supprime les retours à la ligne 
    lignes[i][3] = int(lignes[i][3])

**Question 5** Même question que la **Question 4**

**Question 6** 
Supprimez les dates de modifications sur toutes les lignes

Partie 2
----------------------
Nous allons à présent mettre en place un algorithme rudimentaires pour calculer un score de compatibilité entre deux utilisateur·rice·s.

Commençons par calculer la quantité totale de modifications d'un·e utilisateur·rice.

In [12]:
def nb_modif(utilisateur) : # Le fonctionnement de cette fonction doit être expliqué avec des commentaires (qui commencent par #)
    modifs = 0
    for ligne in lignes : 
        if ligne[0] == utilisateur :
            modifs = modifs + ligne[2]
    return modifs
    

**Question 7** Expliquez avec des commentaires le fonctionnement du code ci-dessus.

La compatibilité d'un·e utilisateur·rice ``u1`` avec un·e autre ``u2`` peut être considéré comme la quantité de modifications qu'``u1`` a effectuées sur un article où ``u2`` a aussi effectué une modification, divisée par le nombre total de modification d'``u1``.

En d'autre terme, si on note ``m1`` la quantité totale de modifications d'``u1``.

Nous allons commencer par créer la liste de tous les utilisateur·rice·s.



In [13]:
utilisateurs = []
for ligne in lignes :
    if not (ligne[0] in utilisateurs) : 
        utilisateurs.append(ligne[0])
    

**Question 8** Expliquez le code ci-dessus avec des commentaires

**Question 9** Combien y a-t-il d'utilisateurs différents ? 

**Question 10** On considère le graphe dont les nœuds sont les utilisateur·rice·s, et dont les arêtes correspondent aux modifications communes entre deux utilisateurs. Si nous voulons stocker ce graphe sous la forme d'une matrice d'adjacence, combien de booléens devrions nous stocker ? Est-ce optimal ? Proposer une alternative.

In [124]:
utilisateurs.sort()

La liste des utilisateur·rice·s est maintenant ordonnée. 

**Question 11** Afficher l'avant-dernier·ère utilisateur·rice. Qu'observe-t-on ?  Quel était probablement sont réel pseudo ? Comment expliquer un tel problème d'affichage ?



**Question 12** Créez la liste du nombre total de modification par utilisateur·rice que vous appellerez ``nb_modif``. Vous pourrez vous appuyer sur le fonction ``nb_modif``.

In [14]:
total_modifs = []


Pour chaque utilisateur, nous allons commencer par calculer la liste des article auquel il a contribué, ainsi que le nombre de modifications associé à chaque article.  Nous représenterons donc le couple d'un article ``a`` et de son nombre de modifications ``m`` associées comme des liste de deux éléments ``[a,m]``.



In [15]:
def contributions(utilisateur) : 
    contribs = []
    for ligne in lignes : 
        if ligne[0] == utilisateur :
            deja_contribue = False
            for contrib in contribs :
                if contrib[0] == ligne[1] :
                    deja_contribue = True
                    contrib[1] += ligne[2]
            if not deja_contribue :    
                contribs.append([ligne[1],ligne[2]])
    return contribs        
    

**Question 13** Expliquer le code ci-dessus à l'aide de commentaires.

**Question 14** Afficher les contributions de l'utilisateur·rice ``Richelieu``.

Notre fonction de recommendation d'amis est maintenant à portée de main : pour chaque utilisateur·rice, nous avons la liste des articles auxquel iel a contribué. 

**Question 16** 
En utilisant la fonction ``contributions`` et la fonction ``nb_modifs``, implémentez la fonction ``afinite`` qui prend en argument deux utilisateurs et qui renvoie l'affinité du premier utilisateurs avec le second utilisateur.

In [17]:
def affinite(utilisateur1, utilisateur2) :
    contribs1 = contributions(utilisateur1)
    contribs2 = contributions(utilisateur2)
    modifs_communes = 0
    for contrib1 in contribs1 : 
        for contrib2 in contribs2 : 
            if contrib1[0] == contrib2[0] : 
                modifs_communes += contrib1[1]
    return modifs_communes / nb_modif(utilisateur1)
        

**Question 17** Créez la liste des affinités de l'utilisateur·rice ``Richelieu``. 

**Question 18** Quel est l'utilisateur avec le plus d'affinité avec ``Richelieu`` (hormis Richelieu lui·elle-même) ? 