In [None]:
#coding: utf-8

#import des modules
#lecture des json
import json 
#affichage des dictionnaires avec idententation
import pprint
pp = pprint.PrettyPrinter(indent=4, )
#librairie des graphes
import networkx as nx
#affichage des graphs
import matplotlib
import matplotlib.pyplot as plt
#calcul
import numpy as np
from itertools import combinations
#%matplotlib inline

# Toutes les  versions de l'article 9

Nous allons charger les informations contenues dans le fichier article 9:
* la version originale (qui correspond aux statistiques finales de votes sur l'article)
* les versions complémentaires (soit les 108 modifications additionnelles proposées au vote)
selon la même nomenclature

#### Une petite explication sur la génération des slugs
Ils servent de clés au dictionnaire de versions:
Notre but étant de rappatrier les votes de chaque versions  pour chaque participant
il faut identifier de quelle version il s'agit.
Ici pour faciliter le travail et comme on peut voir plus haut
la version originale correspond au nom de générique de l'article

Recapitulons:

L'url de la version originale se présente sous cette forme:
```
urlV_0 = "http://www.republique-numerique.fr/projects/projet-de-loi-numerique/consultation/consultation/opinions/section-2-travaux-de-recherche-et-de-statistique/article-9-acces-aux-travaux-de-la-recherche-financee-par-des-fonds-publics"
```
L'url des versions se présentent toujours sous cette formes
```
urlV_add = "http://www.republique-numerique.fr/projects/projet-de-loi-numerique/consultation/consultation/opinions/section-2-travaux-de-recherche-et-de-statistique/article-9-acces-aux-travaux-de-la-recherche-financee-par-des-fonds-publics/versions/mise-a-disposition-systematique-des-resultats-de-la-recherche-financee-par-des-fonds-publics"
```

Le slug (raccourci) est produit de la manière suivante:
* on découpe les urls en morceaux a partir de "/" et on prend le dernier element de la liste de la manière suivante
```
liste_element_url = url.split("/")
slug = liste_element_url[-1]
```
    * vérifions pour la version originale:
```
liste_element_url = urlV_O.split("/")
print(liste_element _url)
slug = liste_element_url[-1]
print(slug)
```
On est censé avoir:
```
>>> ['http:', '', 'www.republique-numerique.fr', 'projects', 'projet-de-loi-numerique', 'consultation', 'consultation', 'opinions', 'section-2-travaux-de-recherche-et-de-statistique', 'article-9-acces-aux-travaux-de-la-recherche-financee-par-des-fonds-publics']
>>>'article-9-acces-aux-travaux-de-la-recherche-financee-par-des-fonds-publics'
```
    * vérifions pour une autre version:
```
liste_element_url = urlV_add.split("/")
print(liste_element _url)
slug = liste_element_url[-1]
print(slug)
```
On est censé avoir:
```
>>> ['http:', '', 'www.republique-numerique.fr', 'projects', 'projet-de-loi-numerique', 'consultation', 'consultation', 'opinions', 'section-2-travaux-de-recherche-et-de-statistique', 'article-9-acces-aux-travaux-de-la-recherche-financee-par-des-fonds-publics', 'versions', 'mise-a-disposition-systematique-des-resultats-de-la-recherche-financee-par-des-fonds-publics']
>>>'mise-a-disposition-systematique-des-resultats-de-la-recherche-financee-par-des-fonds-publics'
```

In [None]:
def load_versions(art_file="article9.json"):
    '''charger l'ensemble des versions de l'article'''
    versions_d = {}
    with open(art_file, "r") as f:
        article9 = json.load(f)
    
    #Pour rappel
    #print article9.keys()
    versions_d[article9["article_link"].split("/")[-1]] = {
                "id": 0,
                "date": article9["created_at"],
                "link": article9["article_link"],
                "slug": article9["article_link"].split("/")[-1],
                "title": article9["article_link"].split("/")[-1].replace("-", " "),
                "text": article9['body'],
                "author": article9["author"],
                "votes":[], 
                "arguments":article9["arguments"], 
                "votes_arguments": [],
                "sources":article9["sources"],
                "votes_sources": [],
                "total_votes": article9["votes_total"],
                #les décomptes de votes sur les arguments ne sont pas disponible dans l'article9
                  # seulement le nombre d'arguments
                "total_arguments_votes": article9["arguments_count"]
               }
    
    versions = article9["versions"]
    
    #on construit une liste de versions
    for i,v in enumerate(versions):
        #pour rappel
        #print v.keys()
        versions_d[v["slug"]] = {"date":v["created_at"],
                "id": i+1,
                "link":v["link"],
                #"slug":v["slug"],
                "title":v["title"],
                "text": v['comment'],
                "author": v["author"],
                "votes":[], 
                "arguments":[], 
                "votes_arguments": [],
                "sources":[],
                "votes_sources": [],
                "total_votes":v["votes_total"],
              #ici il s'agit bien du nombre de votes sur un argument
                "total_arguments_votes": v["arguments_count"]
             }
    print(len(versions_d)), "versions"
    return versions_d

# Les participants
Nous allons maintenant récupérer l'ensemble de la liste des participants au *projet de loi*

In [None]:
    
def load_participants():
    #charger les votes des participants
    with open("participants.json", "r") as f:
        data = json.load(f)
        participants = data["participants"]
    
    participants_d = {}
    for part in participants:
        for k,v in part.items():
            
            participants_d[k] = v["votes"]
        
    print (len(participants_d), "participants sur l'ensemble des articles")
    return participants_d

### Les electeurs de l'article 9

Nous allons dans `update_version`
mettre à jour les version en ajoutant les votes de chaque particpants
Mais comme les votes sont organisés par electeurs
nous allons regarder chaque electeur:
    - verifier qu'il a voté pour une des versions de l'article 9
    identifiable par son nom générique 
```
art = "article-9-acces-aux-travaux-de-la-recherche-financee-par-des-fonds-publics"
``` 
    - vérifier pour quelle version il a voté:
    identifiable par le slug (cf. plus haut)
    - vérifier ensuite s'il s'agit d'un vote sur une source argument ou la version elle même
    identifiable par #source-<id> ou #arg-<id> ou s'il n'en a pas il s'agit de la version elle même
    

In [None]:
def update_versions(participants, versions_d, art="article-9-acces-aux-travaux-de-la-recherche-financee-par-des-fonds-publics"):
    pour chaque participants
    for user, votes in participants.items():
        #pour chaque vote du participants
        for vote in votes:            
            link = vote["link"]
            #a-t-il voté pour notre article?
            if art in link:
                date =  vote["date"]
                opinion = vote["opinion"]
                #pour quelle version?
                slug = link.split("/")[-1]
                
                #est ce qu'on peut découper avec #?
                # = y a t'il une info complémentaire du type #arg #source
                try:
                    #oui: c'est un vote sur un arg ou une source
                    slug, tid = slug.split("#") 
                    #exemple:
                    
                    if "arg-" in tid:
                        #dans notre dictionnaire de référence sur les versions
                        #c'est un argument on stocke dans les votes pour les arguments
                        versions_d[slug]["votes_arguments"].append({"electeur":user,"vote": opinion, "date":date, "id":tid})
                    elif "source-" in tid:
                        #c'est une sources on stocke dans les votes pour les sources
                        versions_d[slug]["votes_sources"].append({"electeur":user,"vote": opinion, "date":date, "id":tid})
                    else:
                        #au cas ou il y aurait un #autrechose mais ne s'applique pas ici
                        print slug
                except:
                    #non: c'est donc un vote simple sur une version (originale ou autre)
                    versions_d[slug]["votes"].append({"electeur":user,"vote": opinion, "date":date})
    return versions_d
    

In [None]:
def load_votes(participants,art ="article-9-acces-aux-travaux-de-la-recherche-financee-par-des-fonds-publics"):
    #charger les votes des electeurs de l'article 9
    votes_v = []
    votes_args = []
    votes_src = []
    for user, votes in participants.items():
        for vote in votes:
            link = vote["link"]
            if art in link:
                date =  vote["date"]
                opinion = vote["opinion"]
                slug = link.split("/")[-1]
                try:
                    slug, tid = slug.split("#") 
                    if "arg-" in tid:
                        votes_args.append({"electeur":user,"vote": opinion, "slug":slug, "date":date, "id":tid})
                    elif "source-" in tid:
                        votes_src.append({"electeur":user,"vote": opinion, "slug":slug, "date":date, "id":tid})
                    else:
                        print slug
                except:
                    votes_v.append({"electeur":user,"vote": opinion, "slug":slug, "date":date})
            
    print len(votes_v),"votes", len(votes_args),"votes sur les arg", len(votes_src), "votes sur les sources"
    return votes_v, votes_args, votes_src
    

In [None]:
def filter_top_electeurs(votes, SEUIL):
    from collections import Counter, defaultdict
    electeurs_d = defaultdict.fromkeys([v["electeur"] for v in votes], [])
    for vote in votes:
        electeurs_d[vote["electeur"]].append(v)
    
    top_users = []
    f = Counter([data["electeur"] for data in votes])
    
    for n,cpt in f.items():
        if cpt < SEUIL:
            del electeurs_d[n]
    #for k, v in electeurs_d.items():
    #    top_users.append(v)
    print len(electeurs_d), "electeurs uniques ayant voté au moins %i fois" %SEUIL
    return electeurs_d
    

In [None]:
def calc_similarity(electeurs, versions_d, SEUIL=0):
    
    from itertools import combinations
    votes_by_version = {}
    for v, k in versions_d.items():
        votes_by_version[v] = {e["electeur"]:e["vote"] for e in k["votes"]}
        
    similarity_score = {}
    for couple in combinations(electeurs.keys(), 2):
        userA, userB = couple
        similarity_score[couple] = 0
        for k,v in votes_by_version.items():
            if userA in v.keys() and userB in v.keys():
                if v[userA] == v[userB]:
                    similarity_score[couple] += 1
    return {k:v for k,v in similarity_score.items() if v > SEUIL}
        

In [None]:
def build_graph(simil, top_users):
    g = nx.Graph()
    pos = nx.spring_layout(g)    
    for k in simil.keys():
        g.add_nodes_from(k[0], weight=len(top_users[k[0]]))
        g.add_nodes_from(k[1], weight=len(top_users[k[1]]))
    #nodesize=[len(top_users[v])*1000 for v in g.nodes()]
    #nx.draw_networkx_nodes(g, pos, nodelist=g.nodes(), node_size=, alpha=1, label=True)
    for couple, score in simil.items():
        userA, userB = couple
        g.add_edge(userA, userB, weight=score)
        
    for node in nx.isolates(g):
        g.remove_node(node)
    nx.write_gexf(g, "electeurs_VF_SEUIL_5_5.gexf")
    nx.draw(g)
    plt.show()
    return

In [None]:
def build_histogram(versions_nb):
    import pylab
    N = len(versions_d)
    votes_infos = [v["total_votes"]  for v in versions_nb.values()]
    
    args_infos = [v["total_arguments_votes"]  for v in versions_nb.values()]
    plt.title("Historique des votes et votes d'arguments par version")
    plt.ylabel('Nb votes')
    #pylab.xlim([0,108])
    plt.plot(votes_infos,color='r')
    plt.plot(args_infos,color='b')

    plt.show()
    plt.title("historique des votes des arguments par version")
    plt.ylabel('Nb votes sur les arguments')
    pylab.xlim([0,len(versions_nb)])
    plt.plot(args_infos,color='b')
    plt.show()
    return

In [None]:
def build_distrib(freq):
    '''build repartition votes'''
    N = len(freq)
    plt.title("Nombre de votes par auteurs")
    plt.plot(sorted(freq.values()),color='r')
    plt.show()
    plt.title("historique des votes des arguments par version")
    plt.ylabel('Nb votes sur les arguments')
    pylab.xlim([0,N])
    pylab.ylim([1,50])
    plt.show()
    return 

In [None]:
if __name__ == "__main__":
    #versions_d = build_versions()
    #votes, electeurs_d = load_electeurs()
    vs = load_versions()
    part = load_participants()
    vs = update_versions(part, vs)
    votes,vvargs, vsources= load_votes(part)
    SEUIL = (4, 2)
    top_electeurs = filter_top_electeurs(votes, SEUIL[0])
    similar_couple = calc_similarity(top_electeurs, vs, SEUIL[1])
    #~ with open("./similarity_score.json", "w") as f:
        #~ f.write(json.dumps(similar_couple, indent=4))
    graph = build_graph(similar_couple, top_electeurs)