# Qu'est-ce qu'il y a dans ce notebook ?

Il y a toutes les fonctions permettant l'analyse des données obtenues après le POS_Taaging

1. Calcul des fréquences d'une liste de mots
2. Récupérer les différentes formes d'un lemme

In [1]:
import json
from collections import Counter
import collections
import pandas as pd
#from ipynb.fs.defs.POS_Tagging import serialisation_data
import re

## Ouverture des fichiers Json

In [2]:
def open_file(file):
    with open(file) as json_data:
        data = json.load(json_data)
    return data
#ata_str = json.dumps(data_dict)

In [2]:
nouns = open_file("nouns.json")

In [10]:
def extract_nouns(tuple_list):
    """extract different forms from tuple
    -> tuple list
    <- noun list"""
    
    form_list = []
    
    for tup in tuple_list:
        form_list.append(tup[0])
        
    return form_list

In [None]:
nouns_list = extract_nouns(nouns)

## Calcul des fréquences des noms

### Calcul des occurences de chaque mot

Format Dictionnaire (objet Counter)

In [2]:
def dict_occ (words_list) :
    """Count occurencies of words
    -> list of words
    <- dictionary of word frequencies like {word_1 : occurence, word_2 : occurence, ... , word_n : occurence}"""

    occ = collections.Counter(words_list)
    
    return occ

In [18]:
occ = dict_occ(nouns_list)

print("Nombre d‘occurences uniques :", len(occ))
print()
print(occ[0:50])

Nombre d‘occurences uniques : 69
Counter({'oui': 6, 'société': 5, 'rôle': 4, 'citoyens': 4, 'incivilités': 4, 'élus': 3, 'vie': 3, 'associations': 2, 'organisations': 2, 'députés': 2, 'initiative': 2, 'Etat': 2, 'engagement': 2, 'comportements': 2, 'pouvoirs': 2, 'discriminations': 2, 'confiance': 1, 'type': 1, 'lien': 1, 'non-cumul': 1, 'mandats': 1, 'parlementaires': 1, 'sensibilités': 1, 'nombre': 1, 'participation': 1, 'élections': 1, 'compte': 1, 'vote': 1, 'manière': 1, 'orientations': 1, 'décision': 1, 'place': 1, 'démocratie': 1, 'participative': 1, 'déclenchement': 1, 'référendum': 1, 'membres': 1, 'Parlement': 1, 'partie': 1, 'corps': 1, 'utilisation': 1, 'argent': 1, 'collectivités': 1, 'assemblées': 1, 'Sénat': 1, 'Conseil': 1, 'territoires': 1, 'proposez': 1, '-vous': 1, 'principes': 1, 'laïcité': 1, 'rapport': 1, 'religions': 1, 'pays': 1, 'respect': 1, 'compréhension': 1, 'valeurs': 1, 'République': 1, 'développement': 1, 'engagements': 1, 'parcours': 1, 'relations': 1, 

### Calcul des fréquences et tri par fréquence les plus élevées

Stockée sous forme de dictionnaire

In [None]:
def dict_freq (dict_occurence):
    """calculates frequencies of words
    <- dictionnary of occurences
    -> dictionary of frequencies like {word_1 : frequence, word_2 : frequence, ... , word_n : frequence}"""

    data_fq = {key : dict_occurence[key]/len(dict_occurence) for key in dict_occurence}
    
    return data_fq

print(data_fq)


In [22]:
freq = dict_freq(occ)

print(freq[0:50])

{'confiance': 0.014492753623188406, 'société': 0.07246376811594203, 'élus': 0.043478260869565216, 'rôle': 0.057971014492753624, 'associations': 0.028985507246376812, 'organisations': 0.028985507246376812, 'oui': 0.08695652173913043, 'type': 0.014492753623188406, 'lien': 0.014492753623188406, 'citoyens': 0.057971014492753624, 'non-cumul': 0.014492753623188406, 'mandats': 0.014492753623188406, 'parlementaires': 0.014492753623188406, 'députés': 0.028985507246376812, 'sensibilités': 0.014492753623188406, 'nombre': 0.014492753623188406, 'participation': 0.014492753623188406, 'élections': 0.014492753623188406, 'compte': 0.014492753623188406, 'vote': 0.014492753623188406, 'manière': 0.014492753623188406, 'orientations': 0.014492753623188406, 'décision': 0.014492753623188406, 'place': 0.014492753623188406, 'démocratie': 0.014492753623188406, 'participative': 0.014492753623188406, 'déclenchement': 0.014492753623188406, 'référendum': 0.014492753623188406, 'initiative': 0.028985507246376812, 'mem

## Récupérer les différentes formes d'un mot

In [25]:
def get_lemma_form (tuple_list):
    """creates a dictionnary of different forms for each lemma of the processed document
    -> liste of tuples like [(word_form1, word_lemma1), ..., (word_formn, word_lemman)
    <- dictionnary with as key a lemma and as values the different forms found in the text
    dictionary form : {lemma1 : [form1,form2, formn], lemma2 : [form1,form2,formn], ..., lemman: [forma1,form2,formn]}
    """
    
    lemma_and_form = {}
    
    for tuple in tuple_list:
        if tuple[1] not in lemma_and_form: lemma_and_form[tuple[1]] = []
        if tuple[0] not in lemma_and_form[tuple[1]]: lemma_and_form[tuple[1]].append(tuple[0])
        
    return lemma_and_form

In [28]:
lemma_form = get_lemma_form(nouns)

{'confiance': ['confiance'], 'société': ['société'], 'élu': ['élus', 'élu'], 'rôle': ['rôle'], 'association': ['associations'], 'organisation': ['organisations'], 'oui': ['oui'], 'type': ['type'], 'lien': ['lien'], 'citoyen': ['citoyens', 'Citoyen', 'citoyen'], 'non-cumul': ['non-cumul'], 'mandat': ['mandats'], 'parlementaire': ['parlementaires'], 'député': ['députés'], 'sensibilité': ['sensibilités'], 'nombre': ['nombre'], 'participation': ['participation'], 'élection': ['élections'], 'compte': ['compte'], 'vote': ['vote'], 'manière': ['manière'], 'orientation': ['orientations'], 'décision': ['décision'], 'place': ['place'], 'démocratie': ['démocratie'], 'participative': ['participative'], 'déclenchement': ['déclenchement'], 'référendum': ['référendum'], 'initiative': ['initiative'], 'membre': ['membres'], 'parlement': ['Parlement'], 'partie': ['partie'], 'corps': ['corps'], 'utilisation': ['utilisation'], 'argent': ['argent'], 'etat': ['Etat'], 'collectivité': ['collectivités', 'Coll

In [60]:
print("Nombre de lemme différents : ", len(lemma_form))

Nombre de lemme différents :  249


### Sérialisation des données

Via la fonction serialisation_data de POS_tagging.ipynb

In [42]:
def serialisation_data (data, title):
  """
  Serialize data in a json file
  -> Title mus be a string : title.json
  <- Save a file in desktop
  """

  with open(title, "w+") as file:
    json.dump(data, file)

In [95]:
#Sérialisation du dictionnaire d'occurence
serialisation_data (occ, "dict_occ.json")

#Sérialisation du dictionnaire de fréquence
serialisation_data (freq, "dict_freq.json")

#Sérialisation du dictionnaire de lemmes
serialisation_data (lemma_form, "lemme_form.json")

In [30]:
data_frame = pd.DataFrame.from_dict(lemma_form, orient='index')

print(data_frame)

                        0     1     2
confiance       confiance  None  None
société           société  None  None
élu                  élus   élu  None
rôle                 rôle  None  None
association  associations  None  None
...                   ...   ...   ...
tissu               tissu  None  None
aide                 aide  None  None
entreprise    entreprises  None  None
clair              clairs  None  None
détail            détails  None  None

[249 rows x 3 columns]


In [54]:
col = data_frame.shape[1]

print(col)

data_frame.to_csv(r"./ test.csv", header = [i for i in range(1,col+1)])

3
