In [1]:
import json
import re
import spacy

In [2]:
def write_json(chemin,contenu):
    with open(chemin,"w",encoding="utf-8") as w :
        w.write(json.dumps(contenu, indent=2, ensure_ascii=False))

In [3]:
def ouvrir_json(chemin) :
    with open(chemin,encoding="utf-8") as f :
        contenu = json.load(f)
    return contenu

In [4]:
modele = spacy.load("fr_core_news_lg")

In [5]:
#renvoie un set de stopwords
with open("stopwords-fr.json",encoding="utf-8") as f:
    set_stop = set(json.load(f))

In [6]:
def filter_KW(liste):
  out = []
  #on enlève tous les stopwords (liste resultante)
  #filtrage des tokens qui sont courts ou des entiers
  liste = set(liste).difference(set_stop)
  for x in liste:
    numbers = re.findall("[0-9]",x)
    if x.lower() in set_stop:
      continue
    elif len(x)<2:
      continue
    elif len(re.findall("[A-Za-z]", x))==0:
      continue
    elif len(numbers)>0:
       if len(numbers[0])==len(x):
         continue
    out.append(x)
  return out

In [7]:
def tokenize(chaine):
  chaine = re.sub("\.|'|\?|»|«|\"", " ", chaine)
  chaine = re.sub(" {2,}"," ", chaine)
  mots = chaine.split()
  return mots

In [8]:
def tokenize_spacy(modele, chaine) :
    mots = modele(chaine)
    liste_mots = []
    for m in mots :
        liste_mots.append(m.text)
    return liste_mots

In [9]:
def is_subsequence(needle, haystack):
  return any( haystack[i:i+len(needle)] == needle
            for i in range(len(haystack) - len(needle) + 1))

In [10]:
#inter : ce qui est à la fois dans titre et body
#last : indice
def get_ngrams(inter, word_titre, word_body):
 
  selected = [x for x in inter]
  haystack=[x.lower() for x in word_body]
  #le mot est dans le titre et dans le chapeau
  for i, word in enumerate(word_titre):
    if word in inter or word.lower() in inter:
      n_gram = [word]
      last = i
      for j, w in enumerate(word_titre[i+1:]):
        if w in inter:
          last = j
        
        n_gram.append(w)
      if len(n_gram)>1 and len(n_gram)<5 and last!=i:
        needle = [x.lower() for x in n_gram]
        if is_subsequence(needle, haystack):
          selected.append("_".join(n_gram[:last+2]))
        
## TODO: régler le problème des n-grammes
##  if "gilets" in haystack and "jaunes in haystack":
##    if "gilets_jaunes" not in selected:
##      print(selected)
##      x = haystack.index("gilets")
##      print(haystack[x:x+10])
##      print(word_titre[word_titre.index("gilets"):])
  return selected


In [11]:
def get_KW(titre,text,spacy,chapeau_nb=0,modele=modele):
    body = text
    chapeau = ""
    
    #Tokenisation par défaut
    if spacy == 0 : 
        if chapeau_nb == 0 :
            if len(titre)<100:
                chapeau = text[:200]
                body = text[200:]
        
        if chapeau_nb != 0 :
            phrases = modele(body)
            body = ""
            for i,p in enumerate(phrases.sents):
                if i < chapeau_nb :
                    chapeau+=p.text+" "
                if i >= chapeau_nb :
                    body+=p.text+" "

        word_titre = set(tokenize(titre) + tokenize(chapeau))
        word_body = set(tokenize(body))
        inter = word_titre.intersection(word_body)
        inter = filter_KW(inter)
        inter = get_ngrams(inter, tokenize(titre), tokenize(body))

    ##Tokenisation avec spacy
    if spacy == 1 :
        if chapeau_nb == 0 : 
            if len(titre)<100:
                chapeau = text[:200]
                body = text[200:]
        if chapeau_nb != 0 :
            phrases = modele(body)
            body = ""
            for i,p in enumerate(phrases.sents):
                if i < chapeau_nb :
                    chapeau+=p.text+" "
                else :
                    body+=p.text+" "
        
        word_titre = set(tokenize_spacy(modele,titre) + tokenize_spacy(modele,chapeau))
        word_body = set(tokenize_spacy(modele,body))
        inter = word_titre.intersection(word_body)
        inter = filter_KW(inter)
        inter = get_ngrams(inter, tokenize_spacy(modele,titre), tokenize_spacy(modele,body))
      
    return inter

In [12]:
with open("corpus_final/corpus.json") as f:
  L = json.load(f)

In [13]:
dic = {"index":{}, "index_I":{}}

for cpt, info_text in enumerate(L):
   
  titre = info_text["titre"]
  text = info_text["texte"]
  date = info_text["date"]
  elems_date = re.findall("[0-9]{1,4}", date)
  
  if len(elems_date[0])==2:
    L[cpt]["date"] = "%s-%s-%s"%(elems_date[1], elems_date[2], elems_date[0])
  liste_KW = get_KW(titre, text,0)

  
  for KW in liste_KW:
    if KW.lower() in dic["index"]:
      KW = KW.lower()
    dic["index"].setdefault(KW, [])
    #pour le mot-clé, on lui associe sa ou ses position(s) (article dont il est issu)
    dic["index"][KW].append(cpt)
    dic["index_I"].setdefault(cpt, [])
    dic["index_I"][cpt].append(KW)

print("On a %i Documents"%(cpt+1))
#on calcule le nombre d'articles où apparaît un mot-clé et on le range dans une liste de listes
l_test = [[len(dic["index"][kw]), kw] for kw in dic["index"]]

#tri des occurrences de mot-clé
S = sorted([x for x in l_test if x[0]>1], reverse=True)
#tri des occurrences de mot-clés qui sont des n-grammes, n>1
S2 = sorted([x for x in l_test if "_" in x[1]], reverse=True)

top10 = [x[1] for x in S[:10]]
top20 = [x for x in S[:20]]
print("Top20 :",top20)

topGrams = [x for x in S2[:10]]
print("Top grams :",topGrams)

entetes = ["date", "journal", "titre"]
out_csv = [[x for x in entetes]]

for i in range(len(top10)):
  out_csv[0].append(top10[i])
out_csv[0].append("autres mots-clés")
out_csv[0] = ";".join(out_csv[0])


for ID_txt, liste_KW in dic["index_I"].items(): #cpt,mots-clés
  #recuperer texte
  info_txt = L[ID_txt]
  
  ligne = [info_txt[cle] for cle in entetes]+[""]*10+[[]]
  
  for kw in liste_KW:
    if kw in top10:
      ligne[top10.index(kw)+len(entetes)]="X"
    else:
      ligne[-1].append(kw)
  if len(ligne[2])>100:
    ligne[2] = ligne[2][:100]+"..."
  ligne[-1]=" , ".join(ligne[-1])
  ligne = [re.sub(";", " ", x) for x in ligne]
  out_csv.append(";".join(ligne))

with open("out_complet.csv", "w",encoding="utf-8") as w:
  w.write("\n".join(out_csv))


On a 3330 Documents
Top20 : [[192, 'complot'], [159, 'France'], [138, 'monde'], [122, 'Trump'], [119, 'théories'], [119, 'politique'], [117, 'président'], [101, 'extrême'], [76, 'Donald'], [67, 'français'], [64, 'gilets'], [63, 'mouvement'], [63, 'crise'], [63, 'affaire'], [62, 'jeunes'], [60, 'pays'], [60, 'jaunes'], [60, 'enquête'], [59, 'réseaux'], [58, 'ministre']]
Top grams : [[13, 'réseaux_sociaux'], [12, 'gilets_jaunes'], [6, 'théories_du_complot'], [5, 'autorités_constituées'], [5, 'Donald_Trump'], [4, 'théorie_du_complot'], [4, 'liberté_de_la_presse'], [4, 'fake_news'], [4, 'attaque_de_Strasbourg'], [3, 'éducation_nationale']]


In [14]:
#-----------------RAKE PYTHON-------------------------------#

In [15]:
#!pip install multi-rake

In [16]:
from multi_rake import Rake
import re

#renvoie les mot-clés qui apparaissent dans le plus d'articles
def top15_corpus_rake(L,n_grams) :
    dico_mots_cles = {}
    r = Rake(language_code='fr',max_words=n_grams)
    for element in L :
        mot_cles = r.apply(element['texte'])
        i = 0
        #dictionnaire qui calcule le nombre d'occurrences des mots-clés pour tout le corpus
        for mot_cle in mot_cles :
            if mot_cle[0] not in dico_mots_cles :
                dico_mots_cles[mot_cle[0]] = 0
            dico_mots_cles[mot_cle[0]] += 1
            i+=1
            if i == 15 :
                break
        
    dico_trie_mots_cles = dict(sorted(dico_mots_cles.items(), key=lambda item:item[1],reverse=True))
    return dico_trie_mots_cles

dico_kw_rake = {}
for i in range(1,4) :
    
    dico_trie_mots_cles = top15_corpus_rake(L,i)
    
    j = 0
    for k,v in dico_trie_mots_cles.items() :
        #on obtient les mots clés et leur nombre d'occurrences dans les articles
        k2 = re.sub('\s','_',k)
        if k2 not in dico_kw_rake :
            dico_kw_rake[k2] = v
        if k2 in dico_kw_rake and v > dico_kw_rake[k2] :
            dico_kw_rake[k2] = v
        #liste.append((k2,v))
        j+=1
        
        if j == 15 :
            #print(liste)
            break
        
print("Les mots-clés du corpus (Rake) sont : ")
#dico renvoie les 15 mots-clés pour chaque n-gram et pour chaque mot-clé, prend l'occurrence d'articles
#la plus grande (avec rake, les mots-clés par article changent selon le max_words choisi)
print(dico_kw_rake)
#print(len(dico_kw_rake))


Les mots-clés du corpus (Rake) sont : 
{"c'est": 406, 'france': 248, 'complot': 199, 'monde': 199, 'théories': 168, 'paris': 152, 'pays': 117, 'temps': 109, 'complotisme': 108, "n'est": 107, 'président': 102, 'attentats': 101, 'etats-unis': 100, 'médias': 99, 'français': 92, 'réseaux_sociaux': 239, 'gilets_jaunes': 132, 'fake_news': 96, 'new_york': 92, 'front_national': 67, 'donald_trump': 66, 'charlie_hebdo': 65, 'quelques_jours': 57, 'emmanuel_macron': 55, "l'union_européenne": 52, 'premier_ministre': 47, "l'élection_présidentielle": 42, 'fausses_informations': 38, 'fondation_jean-jaurès': 37, 'dix_ans': 37, 'new_york_times': 73, 'seconde_guerre_mondiale': 62, 'world_trade_center': 42, 'da_vinci_code': 36, 'site_conspiracy_watch': 34, 'première_guerre_mondiale': 23, 'recep_tayyip_erdogan': 21, 'ku_klux_klan': 19}


In [30]:
#calcul des mots-clés par article
def mots_cles_article(texte) :
    from operator import itemgetter
    L_mots_cles = []

    for n_grams in range(1,4) :
        mots_cles = []
        r = Rake(language_code='fr',max_words=n_grams)
        mots_cles = r.apply(texte)
        tri_mots_cles = sorted(mots_cles, key=itemgetter(1),reverse = True)
        #on parcourt la liste de mots clés pour avoir une liste de tuples à la fin (et pas une liste de listes)
        for i in range(min(len(tri_mots_cles),5)) :
            L_mots_cles.append(re.sub('\s','_',tri_mots_cles[i][0]))
        
    L_triee = sorted(L_mots_cles, key=itemgetter(1),reverse = True)
   
    return L_triee[:15]

In [18]:
#------------------comparaison mots clés corpus entre Daniel et rake---------------------#

strong_kw = set()

#on recupère les mots-clés détectés par daniel (unigrammes et n-grammes) et on les stocke dans un ensemble
daniel_kw = top20+topGrams
daniel_kw_set = set()

#mettre tout en minuscules car rake met tout en minuscule
for d in daniel_kw :
    daniel_kw_set.add(d[1].lower())

#on récupère les mots-clés détectés par rake
rake_kw_set = set()
for k,v in dico_kw_rake.items() :
    rake_kw_set.add(k)

strong_kw = daniel_kw_set.intersection(rake_kw_set)
print("Les mots-clés du corpus qui apparaissent à la fois avec daniel et rake sont : ",strong_kw)

Les mots-clés du corpus qui apparaissent à la fois avec daniel et rake sont :  {'donald_trump', 'président', 'théories', 'complot', 'français', 'monde', 'réseaux_sociaux', 'pays', 'fake_news', 'gilets_jaunes', 'france'}


In [19]:
#Fonction qui renvoie les autres mots clés communs aux deux systèmes et qui ne sont pas des mots-clés du corpus
def strong_other_kw(L,i,strong_kw) :
    
    #on récupère les mots-clés d'un article, avec les deux systèmes
    daniel_kw = get_KW(L[i]['titre'],L[i]['texte'],0)
    rake_kw_set = set(mots_cles_article(L[i]['texte'],0))
    
    #on recupère les mots-clés détectés par daniel (unigrammes et n-grammes) et on les stocke dans un ensemble
    daniel_kw_set = set()
    for d in daniel_kw :
        daniel_kw_set.add(d.lower())
    
    #commun est l'intersection des mots-clés de daniel et rake
    commun = set()
    commun = daniel_kw_set.intersection(rake_kw_set)
    #print(commun)
    
    #strong_other_kw est l'ensemble des mots-clés détectés par daniel et rake et qui ne sont pas des mots-clés
    #du corpus
    strong_other_kw = set()
    strong_other_kw = commun.difference(strong_kw)
    return strong_other_kw

In [20]:
##--------------------------------------STATISTIQUES ET AFFICHAGES----------------------------------##

In [21]:
def generation_kw_corpus(L,param,nb_chapeau=0,modele=modele) :
    from time import perf_counter
    debut = perf_counter()
    liste = []
    mots_cles_corpus = []
    
    dico_json = {}

    #comparaison mots clés corpus entre Daniel et rake
    strong_kw = set()

    #on recupère les mots-clés détectés par daniel (unigrammes et n-grammes) et on les stocke dans un ensemble
    #a faire : faire une fonction pour renvoyer ce resultat (et pas utiliser une variable)
    daniel_kw = top20+topGrams
    daniel_kw_set = set()
    
    #mettre tout en minuscules car rake met tout en minuscule
    for d in daniel_kw :
        daniel_kw_set.add(d[1].lower())

    #on récupère les mots-clés détectés par rake
    rake_kw_set = set()
    for k,v in dico_kw_rake.items() :
        rake_kw_set.add(k)

    strong_kw = daniel_kw_set.intersection(rake_kw_set)
    mots_cles_corpus = list(strong_kw)
    
    #defaut : pas de tokenisation spéciale, extraction des mots-clés de tout le corpus
    if param == "defaut" :

        dico_json["daniel"] = list(daniel_kw_set)
        dico_json["rake"] = list(rake_kw_set)
        dico_json["intersection_daniel_rake"] = mots_cles_corpus
        
        
        nom_fichier = "comparaison_daniel_rake_"+param+"_corpus.json"
        
    #rappel : daniel intersection rake (mots-clés du corpus exclus)
    if param == "Adefaut" :
        if nb_chapeau == 0 : 
            for i,element in enumerate(L) :
                #print(i)
                dico_json = {}
                #on récupère les mots-clés d'un article, avec les deux systèmes
                daniel_kw = get_KW(L[i]['titre'],L[i]['texte'],0)
                rake_kw_set = set(mots_cles_article(L[i]['texte']))

                daniel_kw_set = set()
                for d in daniel_kw :
                    daniel_kw_set.add(d.lower())

                #commun est l'intersection des mots-clés de daniel et rake
                commun = set()
                commun = daniel_kw_set.intersection(rake_kw_set)
                #print(commun)

                #strong_other_kw est l'ensemble des mots-clés détectés par daniel et rake et qui ne sont pas des mots-clés
                #du corpus
                strong_other_kw = set()
                strong_other_kw = commun.difference(mots_cles_corpus)

                dico_json["titre"] = L[i]['titre']
                dico_json["date"] = L[i]['date']
                dico_json["daniel"] = daniel_kw
                dico_json["rake"] = list(rake_kw_set)
                dico_json["intersection_daniel_rake"] = list(strong_other_kw)

                liste.append(dico_json)
                nom_fichier = "comparaison_daniel_rake_"+param+"_article.json"
        if nb_chapeau != 0 : 
            for i,element in enumerate(L) :
                #print(i)
                dico_json = {}
                #on récupère les mots-clés d'un article, avec les deux systèmes
                daniel_kw = get_KW(L[i]['titre'],L[i]['texte'],0,nb_chapeau,modele)
                rake_kw_set = set(mots_cles_article(L[i]['texte']))

                daniel_kw_set = set()
                for d in daniel_kw :
                    daniel_kw_set.add(d.lower())

                #commun est l'intersection des mots-clés de daniel et rake
                commun = set()
                commun = daniel_kw_set.intersection(rake_kw_set)
                #print(commun)

                #strong_other_kw est l'ensemble des mots-clés détectés par daniel et rake et qui ne sont pas des mots-clés
                #du corpus
                strong_other_kw = set()
                strong_other_kw = commun.difference(mots_cles_corpus)

                dico_json["titre"] = L[i]['titre']
                dico_json["date"] = L[i]['date']
                dico_json["daniel"] = daniel_kw
                dico_json["rake"] = list(rake_kw_set)
                dico_json["intersection_daniel_rake"] = list(strong_other_kw)

                liste.append(dico_json)
                nom_fichier = "comparaison_daniel_rake_"+param+"_"+str(nb_chapeau)+"_article.json"
         
    if param == "spacy" :
        if nb_chapeau == 0 : 
            for i,element in enumerate(L) :
                #print(i)
                dico_json = {}
                #on récupère les mots-clés d'un article, avec les deux systèmes
                daniel_kw = get_KW(L[i]['titre'],L[i]['texte'],1)
                rake_kw_set = set(mots_cles_article(L[i]['texte']))

                daniel_kw_set = set()
                for d in daniel_kw :
                    daniel_kw_set.add(d.lower())

                #commun est l'intersection des mots-clés de daniel et rake
                commun = set()
                commun = daniel_kw_set.intersection(rake_kw_set)
                #print(commun)

                #strong_other_kw est l'ensemble des mots-clés détectés par daniel et rake et qui ne sont pas des mots-clés
                #du corpus
                strong_other_kw = set()
                strong_other_kw = commun.difference(mots_cles_corpus)

                dico_json["titre"] = L[i]['titre']
                dico_json["date"] = L[i]['date']
                dico_json["daniel"] = daniel_kw
                dico_json["rake"] = list(rake_kw_set)
                dico_json["intersection_daniel_rake"] = list(strong_other_kw)

                liste.append(dico_json)
                nom_fichier = "comparaison_daniel_rake_"+param+"_article.json"
                #print(i)
        if nb_chapeau != 0 :
            for i,element in enumerate(L) :
                #print(i)
                dico_json = {}
                #on récupère les mots-clés d'un article, avec les deux systèmes
                daniel_kw = get_KW(L[i]['titre'],L[i]['texte'],1,nb_chapeau,modele)
                rake_kw_set = set(mots_cles_article(L[i]['texte']))

                daniel_kw_set = set()
                for d in daniel_kw :
                    daniel_kw_set.add(d.lower())

                #commun est l'intersection des mots-clés de daniel et rake
                commun = set()
                commun = daniel_kw_set.intersection(rake_kw_set)
                #print(commun)

                #strong_other_kw est l'ensemble des mots-clés détectés par daniel et rake et qui ne sont pas des mots-clés
                #du corpus
                strong_other_kw = set()
                strong_other_kw = commun.difference(mots_cles_corpus)

                dico_json["titre"] = L[i]['titre']
                dico_json["date"] = L[i]['date']
                dico_json["daniel"] = daniel_kw
                dico_json["rake"] = list(rake_kw_set)
                dico_json["intersection_daniel_rake"] = list(strong_other_kw)

                liste.append(dico_json)
                nom_fichier = "comparaison_daniel_rake_"+param+"_"+str(nb_chapeau)+"_article.json"
        

    write_json(nom_fichier,liste)
    fin = perf_counter()
    duree = fin-debut
    print("Durée d'execution: ",duree)
    
    return nom_fichier
    

In [22]:
#on souhaite afficher le nombre de mots-clés par article sous forme de tableau avec la méthode Daniel
#et l'intersection de mots clés par article avec Daniel ∩ Rake
def resultats_daniel(longueur) :
    
    #on construit des dictionnaires à 3 dimensions
    dico_resultats_daniel = {}
    dico_resultats_intersection = {}
    
    
    liste_def3 = ouvrir_json('resultats/comparaison_daniel_rake_Adefaut_3_article.json')
    liste_def4 = ouvrir_json('resultats/comparaison_daniel_rake_Adefaut_4_article.json')
    liste_def5 = ouvrir_json('resultats/comparaison_daniel_rake_Adefaut_5_article.json')
    liste_spacy3 = ouvrir_json('resultats/comparaison_daniel_rake_spacy_3_article.json')
    liste_spacy4 = ouvrir_json('resultats/comparaison_daniel_rake_spacy_4_article.json')
    liste_spacy5 = ouvrir_json('resultats/comparaison_daniel_rake_spacy_5_article.json')
    liste_spacy0 = ouvrir_json('resultats/comparaison_daniel_rake_spacy_article.json')
    liste_defaut0 = ouvrir_json('resultats/comparaison_daniel_rake_Adefaut_article.json')
    
    
    
    for i in range(longueur) :
        
        #Daniel
        dico_resultats_daniel[i+1] = {}
        dico_resultats_daniel[i+1]['defaut'] = {}
        dico_resultats_daniel[i+1]['spacy'] = {}
        
        dico_resultats_daniel[i+1]['defaut']['0'] = len(liste_defaut0[i]['daniel'])
        dico_resultats_daniel[i+1]['defaut']['3'] = len(liste_def3[i]['daniel'])
        dico_resultats_daniel[i+1]['defaut']['4'] = len(liste_def4[i]['daniel'])
        dico_resultats_daniel[i+1]['defaut']['5'] = len(liste_def5[i]['daniel'])
        dico_resultats_daniel[i+1]['spacy']['0'] = len(liste_spacy0[i]['daniel'])
        dico_resultats_daniel[i+1]['spacy']['3'] = len(liste_spacy3[i]['daniel'])
        dico_resultats_daniel[i+1]['spacy']['4'] = len(liste_spacy4[i]['daniel'])
        dico_resultats_daniel[i+1]['spacy']['5'] = len(liste_spacy5[i]['daniel'])
        
        
        #daniel et rake
        dico_resultats_intersection[i+1] = {}
        dico_resultats_intersection[i+1]['defaut'] = {}
        dico_resultats_intersection[i+1]['spacy'] = {}
        
        dico_resultats_intersection[i+1]['defaut']['0'] = len(liste_defaut0[i]['intersection_daniel_rake'])
        dico_resultats_intersection[i+1]['defaut']['3'] = len(liste_def3[i]['intersection_daniel_rake'])
        dico_resultats_intersection[i+1]['defaut']['4'] = len(liste_def4[i]['intersection_daniel_rake'])
        dico_resultats_intersection[i+1]['defaut']['5'] = len(liste_def5[i]['intersection_daniel_rake'])
        dico_resultats_intersection[i+1]['spacy']['0'] = len(liste_spacy0[i]['intersection_daniel_rake'])
        dico_resultats_intersection[i+1]['spacy']['3'] = len(liste_spacy3[i]['intersection_daniel_rake'])
        dico_resultats_intersection[i+1]['spacy']['4'] = len(liste_spacy4[i]['intersection_daniel_rake'])
        dico_resultats_intersection[i+1]['spacy']['5'] = len(liste_spacy5[i]['intersection_daniel_rake'])
        

    
    return (dico_resultats_daniel, dico_resultats_intersection)

In [23]:
resultats = resultats_daniel(len(L))

In [24]:
#affichage sous forme de tableau dans une page HTML
def affichage(dico_daniel,nom) :
    html = """
    <table>
    <tbody>
	<tr>
	<th>Article</th>
	<th colspan="4" scope="colgroup">Tokenisation defaut</th>
	<th colspan="4" scope="colgroup">Tokenisation spacy</th>
	</tr>
	<tr>
	<td></td>
	<th scope="col">0</th>
	<th scope="col">3</th>
	<th scope="col">4</th>
	<th scope="col">5</th>
	<th scope="col">0</th>
	<th scope="col">3</th>
	<th scope="col">4</th>
	<th scope="col">5</th>
	</tr>
    """
    for k,v in dico_daniel.items() :
        html+="<tr> <td>"+str(k)+"</td> <td>"+str(dico_daniel[k]['defaut']['0'])+"</td> <td>"+str(dico_daniel[k]['defaut']['3'])+"</td> <td>"+str(dico_daniel[k]['defaut']['4'])+"</td> <td>"+str(dico_daniel[k]['defaut']['5'])+"</td> <td>"+str(dico_daniel[k]['spacy']['0'])+"</td> <td>"+str(dico_daniel[k]['spacy']['3'])+"</td> <td>"+str(dico_daniel[k]['spacy']['4'])+"</td> <td>"+str(dico_daniel[k]['spacy']['5'])+"</tr>"
        html+="\n"

    html+="</tbody> </table>"
    nomFichier = "page_"+nom+".html"
    f = open(nomFichier,"w",encoding="utf-8")
    f.write(html)
    #print(html)
    return

In [25]:
# affichage(resultats[0],"daniel")
# affichage(resultats[1],"intersection")