In [1]:
import os, sys
import unidecode
import re
import json
import gc

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Ce notebook analyse les réponses aux questions en cherchant des liens entre les mots les plus utilisés, dans le but de comprendre les demandes les plus récurrentes des francais.

Dans un premier temps, les réponses sont préprocessées et transformées en liste de mots-clés. Puis, pour chaque réponse, úne analyse basique de la proximité des mots est réalisée. Bien que simple, cette methode permet de faire apparaitre des thèmes récurrents et de comprendre la teneur générale de ces demandes.

Les trois métriques utilisées sont :
+ co-occurence des mots : $co-occurence(i, j) = \sum_{users} 1_{i \in user} 1_{j \in user}$
+ confiance : $confiance(i -> j) = P(j | i)$
+ lift : $lift(i, j) = \frac{P(i \cap j)}{P(i)P(j)}$

La co-occurence permet d'évaluer les mots présents de manière commune, et donne une première idée des thèmes généraux.

La confiance donne une idée de la présence de $j$ quand $i$ est déjà présent : il surpondère les mots peu présents par rapport à la co-occurence.

Le lift estime le surplus de présence commune de $i$ et $j$ par rapport au cas où $i$ et $j$ sont indépendants. Cela permet de trouver des relations de causalité plus intéressantes, notamment dans des cas où certains mots sont peu présents mais très liés.

Pour chaque question :
+ On récupère les mots les plus employés sur ce thème
+ Pour chacun de ces mots, on regarde pour chaque métrique les mots les plus liés, ce qui donne une bonne idée des liens et des demandes

On peut ensuite raffiner l'analyse sur des mots moins présents mais porteurs de sens.

In [2]:
# function definitions

def compute_similarities(question_name, df_res):
    qu = df_res[question_name].dropna()
    df_qu_one_hot = compute_one_hot(qu)
    df_cov = compute_covariance(df_qu_one_hot)
    df_confidence = compute_confidence(df_cov)
    df_lift = compute_lift(df_cov, df_qu_one_hot)
    
    return qu, df_qu_one_hot, df_cov, df_confidence, df_lift
    
def compute_one_hot(qu):
    qu_words = []
    for i in qu:
        qu_words.extend(i)
    qu_words = list(set(qu_words))
    dic_qu_words = {word:i for i, word in enumerate(qu_words)}
    dic_qu_words_inverse = {i:word for i, word in enumerate(qu_words)}
    
    qu_one_hot = np.zeros((len(qu), len(qu_words)), dtype=bool)
    for i, li_word in enumerate(qu):
        for word in li_word:
            qu_one_hot[i, dic_qu_words[word]] = True
            
    df_qu_one_hot = pd.DataFrame(columns=qu_words, data=qu_one_hot).to_sparse(fill_value=False)

    
    temp_mask = np.sum(df_qu_one_hot.values, axis=0, dtype=np.uint16) > 250
    words_enough = df_qu_one_hot.columns.values[temp_mask]
    df_qu_one_hot = df_qu_one_hot[words_enough].to_sparse(fill_value=0)
    
    del temp_mask
    del qu_one_hot
    gc.collect()
    
    return df_qu_one_hot

def compute_covariance(df_qu_one_hot):
    N = df_qu_one_hot.shape[1]
    
    cov = np.zeros((N, N), dtype=np.uint16)
    np.matmul(df_qu_one_hot.values.T, df_qu_one_hot.values, out=cov)
    
    df_cov = pd.DataFrame(columns=df_qu_one_hot.columns, index=df_qu_one_hot.columns, data=cov) * (cov > 100)
    del cov
    gc.collect()
    
    return df_cov

def compute_confidence(df_cov):
    df_confidence = np.diag(1 / np.diag(df_cov)).dot(df_cov).astype(np.float32)
    df_confidence = pd.DataFrame(index=df_cov.index, columns=df_cov.index, data=df_confidence)
    return df_confidence

def compute_lift(df_cov, df_qu_one_hot):
    inv_diag_cov = 1 / np.diag(df_cov.values)
    lift = inv_diag_cov.reshape((-1, 1)) * df_cov.values * inv_diag_cov.reshape((1, -1))
    df_lift = pd.DataFrame(columns=df_qu_one_hot.columns,
                             index=df_qu_one_hot.columns,
                             data=lift).replace(0.0, np.nan).astype(np.float32)
    del lift
    del inv_diag_cov
    gc.collect()
    
    return df_lift

# Loading of files and preprocessing

In [3]:
PATH_TO_FILE = "./proposals_cleaned/fiscalite.json"

In [4]:
with open(PATH_TO_FILE, "r") as f:
    raw_json = [s.strip() for s in f.readlines()]
    
parsed_json = [json.loads(raw_json[i]) for i in range(len(raw_json))]
del raw_json

In [5]:
col = ["titre"]
for ques in parsed_json[0]["responses"]:
    col.append(ques["question"]["id"]) 
        
data = []
for elt in parsed_json:
    resp = {"titre" : elt["titre"]}
    for ques in elt["responses"]:
        try:
            text = json.loads((ques["value"]))
            resp[ques["question"]["title"]] = ''
            if text["labels"] != []:
                resp[ques["question"]["title"]] += ", ".join(text["labels"])
            if text["other"] is not None:
                resp[ques["question"]["title"]] += ", " + text["other"]
            if resp[ques["question"]["title"]] == '':
                resp[ques["question"]["title"]] = np.nan
        except:
            if ques["value"] is not None and ques["value"][0] != "{":
                resp[ques["question"]["title"]] = ques["value"]
            else:
                resp[ques["question"]["title"]] = np.nan
    data.append(resp)

In [6]:
res = pd.DataFrame.from_dict(data)
del data
gc.collect()

0

In [7]:
res.notna().mean(axis=0).sort_values(ascending=False)

titre                                                                                                                                 1.000000
Afin de financer les dépenses sociales, faut-il selon vous...                                                                         0.827525
Que faudrait-il faire pour rendre la fiscalité plus juste et plus efficace ?                                                          0.824925
Quels sont selon vous les impôts qu'il faut baisser en priorité ?                                                                     0.754784
Y a-t-il d'autres points sur les impôts et les dépenses sur lesquels vous souhaiteriez vous exprimer ?                                0.698169
Pour quelle(s) politique(s) publique(s) ou pour quels domaines d'action publique, seriez-vous prêts à payer plus d'impôts ?           0.698126
Quelles sont toutes les choses qui pourraient être faites pour améliorer l'information des citoyens sur l'utilisation des impôts ?    0.695626

# Find important words

In [8]:
li_word_count = []
for elt in res.values:
    for item in elt:
        if type(item) == str:
            li_word_count.extend([unidecode.unidecode(x.lower()) for x in re.findall(r'\w+', item)])

In [9]:
dic_word_count = {}
for i in li_word_count:
    if len(i) > 0:
        if i in dic_word_count.keys():
            dic_word_count[i] +=1
        else:
            dic_word_count[i] = 1

In [10]:
df_word_count = pd.DataFrame.from_dict(dic_word_count, orient="index")
df_word_count.sort_values(0, ascending=False)
df_word_count.columns = ["freq_in_debate"]

In [11]:
del li_word_count
del dic_word_count

gc.collect()

202

In [12]:
df_word_count = df_word_count[df_word_count["freq_in_debate"] > 100]

In [13]:
li_stopwords = [unidecode.unidecode(x.strip().lower()) for x in open("french_stopwords.txt", 'r').readlines()]
li_stopwords = set(li_stopwords)
li_stopwords.remove("aucun")
li_stopwords.remove("tout")
li_stopwords.remove("tous")
li_stopwords.remove("non")

In [14]:
new_data = []
for i, elt in enumerate(res.index):
    temp_res = []
    for col in res.columns:
        item = res.loc[elt, col]
        if type(item) == str:
            li_item = [unidecode.unidecode(x.lower()) for x in re.findall(r'\w+', item) if unidecode.unidecode(x.lower()) not in li_stopwords]
            temp_res.append(li_item)
        else:
            temp_res.append(None)
    new_data.append(temp_res)

In [15]:
new_res = pd.DataFrame(new_data, columns=res.columns).to_sparse()
del new_data
gc.collect()

0

# Question 1 : Quelles sont toutes les choses qui pourraient être faites pour améliorer l'information des citoyens sur l'utilisation des impôts ?

In [16]:
question_1 = "Quelles sont toutes les choses qui pourraient être faites pour améliorer l\'information des citoyens sur l\'utilisation des impôts ?"
qu_1,df_qu_1_one_hot,df_cov_1,df_confidence_1,df_lift_1 = compute_similarities(question_1,new_res)

In [17]:
for i in df_qu_1_one_hot.sum(axis=0).sort_values(ascending=False).head(20).index:
    print(i)
    display(df_cov_1[i].sort_values(ascending=False).head(10))

impots


impots         12019
utilisation     3299
depenses        2161
tous            1738
impot           1587
citoyens        1511
faire           1393
taxes           1344
site            1250
information     1248
Name: impots, dtype: uint16

depenses


depenses        10173
impots           2161
recettes         1990
publiques        1927
tous             1441
transparence     1349
site             1153
citoyens         1107
impot            1086
faire            1060
Name: depenses, dtype: uint16

impot


impot          6501
impots         1587
utilisation    1135
revenu         1103
depenses       1086
tous           1018
faire           840
tout            819
citoyens        803
exemple         666
Name: impot, dtype: uint16

utilisation


utilisation     5637
impots          3299
impot           1135
transparence     869
argent           774
information      760
citoyens         741
depenses         710
tous             675
faire            552
Name: utilisation, dtype: uint16

tous


tous           5608
impots         1738
depenses       1441
citoyens       1063
impot          1018
faire           856
tout            680
utilisation     675
ans             638
francais        627
Name: tous, dtype: uint16

transparence


transparence    4720
depenses        1349
impots          1067
utilisation      869
totale           657
tous             617
argent           533
citoyens         451
impot            424
elus             404
Name: transparence, dtype: uint16

citoyens


citoyens       4451
impots         1511
depenses       1107
tous           1063
impot           803
utilisation     741
faire           740
informer        658
information     605
tout            533
Name: citoyens, dtype: uint16

faire


faire          4375
impots         1393
depenses       1060
tous            856
impot           840
citoyens        740
tout            654
faut            603
utilisation     552
exemple         529
Name: faire, dtype: uint16

information


information    4238
impots         1248
utilisation     760
depenses        728
impot           622
citoyens        605
tous            518
faire           456
site            420
internet        355
Name: information, dtype: uint16

site


site           3560
internet       1383
impots         1250
depenses       1153
dedie           545
gouv            540
utilisation     488
impot           480
tous            473
information     420
Name: site, dtype: uint16

argent


argent          3397
impots          1017
public           843
utilisation      774
depenses         701
transparence     533
impot            524
tous             518
citoyens         506
faire            490
Name: argent, dtype: uint16

tout


tout        3395
impots      1061
impot        819
monde        786
depenses     750
tous         680
faire        654
citoyens     533
faut         525
argent       483
Name: tout, dtype: uint16

budget


budget         3361
depenses       1014
impots          764
tous            496
faire           487
impot           474
citoyens        468
annee           462
utilisation     395
recettes        394
Name: budget, dtype: uint16

annee


annee          3125
impots         1128
depenses       1012
impot           600
utilisation     521
budget          462
faire           445
tous            441
bilan           417
citoyens        403
Name: annee, dtype: uint16

internet


internet        3078
site            1383
depenses         942
impots           760
tous             459
utilisation      442
information      355
citoyens         344
transparence     323
impot            301
Name: internet, dtype: uint16

exemple


exemple        2947
impots         1076
depenses        783
impot           666
tous            555
faire           529
citoyens        470
utilisation     456
tout            454
cout            452
Name: exemple, dtype: uint16

publiques


publiques       2833
depenses        1927
impots           630
tous             482
citoyens         395
transparence     394
faire            388
impot            360
services         317
site             312
Name: publiques, dtype: uint16

comptes


comptes         2797
cour            1360
depenses         687
tous             496
rapport          459
impots           410
citoyens         369
transparence     348
utilisation      346
faire            339
Name: comptes, dtype: uint16

repartition


repartition    2700
impots         1169
depenses        939
impot           607
utilisation     423
annee           324
tous            304
budget          303
publiques       271
information     269
Name: repartition, dtype: uint16

recettes


recettes    2476
depenses    1990
impots       552
budget       394
tous         391
annee        343
impot        333
bilan        297
site         293
citoyens     272
Name: recettes, dtype: uint16

In [18]:
for i in df_qu_1_one_hot.sum(axis=0).sort_values(ascending=False).head(20).index:
    print(i)
    display(df_confidence_1[i].sort_values(ascending=False).head(10))

impots


impots         1.000000
utilises       0.769723
servent        0.757611
collectes      0.752727
payes          0.747454
taxes          0.666006
gouv           0.648616
locaux         0.624288
grace          0.598746
utilisation    0.585240
Name: impots, dtype: float32

depenses


depenses         1.000000
recettes         0.803716
publiques        0.680198
inutiles         0.629344
postes           0.543260
tableau          0.513263
evolution        0.507389
secteur          0.482587
territoriales    0.475336
ministeres       0.475285
Name: depenses, dtype: float32

impot


impot         1.000000
revenu        0.653049
tranches      0.539623
habitation    0.490244
paient        0.461353
calcul        0.458182
sert          0.457784
taxe          0.454008
tva           0.438222
csg           0.437590
Name: impot, dtype: float32

utilisation


utilisation    1.000000
faite          0.565217
fonds          0.516364
impots         0.274482
local          0.262992
detaillee      0.247444
collecte       0.239180
argent         0.227848
meilleure      0.210526
totale         0.205692
Name: utilisation, dtype: float32

tous


tous              1.000000
niveaux           0.601293
ans               0.579473
6                 0.505017
comprehensible    0.462347
accessible        0.437181
mois              0.433594
accessibles       0.403614
produits          0.392283
avantages         0.376101
Name: tous, dtype: float32

transparence


transparence    1.000000
totale          0.849935
elus            0.245742
hauts           0.220104
niveaux         0.217672
fonds           0.214545
grande          0.212548
controle        0.203670
meilleure       0.201452
avantages       0.200000
Name: transparence, dtype: float32

citoyens


citoyens       1.000000
pourraient     0.348649
informer       0.293881
disposition    0.281395
choix          0.280156
permettre      0.274908
vote           0.271454
politique      0.271095
devraient      0.263566
payent         0.256158
Name: citoyens, dtype: float32

faire


faire         1.000000
sorte         0.577061
economies     0.437659
conscience    0.401734
effort        0.370000
riches        0.357294
prendre       0.355634
4             0.352941
autant        0.349481
comprendre    0.334184
Name: faire, dtype: float32

information


information    1.000000
reguliere      0.371758
probleme       0.356061
disponible     0.349315
ameliorer      0.347015
existe         0.319149
lettre         0.295493
claire         0.258837
detaillee      0.231084
meilleure      0.217786
Name: information, dtype: float32

site


site         1.000000
dedie        0.890523
gouv         0.649819
web          0.625000
fr           0.611236
internet     0.449318
consulter    0.361290
creer        0.338425
creation     0.326146
jour         0.267157
Name: site, dtype: float32

argent


argent          1.000000
utilise         0.418129
public          0.351104
collecte        0.289294
savoir          0.277344
donne           0.253165
sert            0.229551
controle        0.196330
contribuable    0.187060
travail         0.177931
Name: argent, dtype: float32

tout


tout          1.000000
monde         0.735955
simplement    0.415896
gratuit       0.386861
aucun         0.325949
augmenter     0.310588
achat         0.299703
4             0.299233
societe       0.285714
chomage       0.280899
Name: tout, dtype: float32

budget


budget            1.000000
vote              0.565674
deficit           0.428571
presentation      0.292543
ministere         0.235409
presenter         0.227419
dette             0.223793
fonctionnement    0.197700
3                 0.182519
postes            0.176056
Name: budget, dtype: float32

annee


annee            1.000000
fin              0.474777
scolaire         0.418239
enfant           0.322086
recapitulatif    0.264019
evolution        0.253695
envoyer          0.250700
recevoir         0.241706
presenter        0.220968
bilan            0.219589
Name: annee, dtype: float32

internet


internet       1.000000
dedie          0.393791
sites          0.392857
site           0.388483
consultable    0.321767
acces          0.243738
mairie         0.216738
creer          0.204465
accessible     0.201226
presse         0.185000
Name: internet, dtype: float32

exemple


exemple    1.000000
enfant     0.361963
prix       0.299335
10         0.285458
hopital    0.279221
100        0.274747
coute      0.263359
euros      0.248495
prendre    0.242958
5          0.241087
Name: exemple, dtype: float32

publiques


publiques     1.000000
chaines       0.359862
finances      0.318233
politiques    0.219144
depenses      0.189423
1000          0.155059
tableau       0.152520
services      0.149317
3             0.145244
ensemble      0.143541
Name: publiques, dtype: float32

comptes


comptes        1.000000
cour           0.962491
rapports       0.627957
cours          0.351039
rapport        0.275841
controle       0.264220
pouvoir        0.210879
resultats      0.194853
publication    0.161169
publics        0.160325
Name: comptes, dtype: float32

repartition


repartition    1.000000
1000           0.243101
camembert      0.242857
declaration    0.144074
annuelle       0.143523
tableau        0.143236
imposition     0.142364
indiquer       0.140518
avis           0.128486
postes         0.123742
Name: repartition, dtype: float32

recettes


recettes       1.000000
fiscales       0.255276
depenses       0.195616
tableau        0.184350
affectation    0.172911
bilan          0.156398
dette          0.155477
postes         0.135815
tva            0.132444
publier        0.120000
Name: recettes, dtype: float32

In [19]:
for i in df_qu_1_one_hot.sum(axis=0).sort_values(ascending=False).head(20).index:
    print(i)
    display(df_lift_1[i].sort_values(ascending=False).head(10))

impots


impots         0.000083
utilises       0.000064
servent        0.000063
collectes      0.000063
payes          0.000062
taxes          0.000055
gouv           0.000054
locaux         0.000052
grace          0.000050
utilisation    0.000049
Name: impots, dtype: float32

depenses


depenses         0.000098
recettes         0.000079
publiques        0.000067
inutiles         0.000062
postes           0.000053
tableau          0.000050
evolution        0.000050
secteur          0.000047
territoriales    0.000047
ministeres       0.000047
Name: depenses, dtype: float32

impot


impot         0.000154
revenu        0.000100
tranches      0.000083
habitation    0.000075
paient        0.000071
calcul        0.000070
sert          0.000070
taxe          0.000070
tva           0.000067
csg           0.000067
Name: impot, dtype: float32

utilisation


utilisation    0.000177
faite          0.000100
fonds          0.000092
impots         0.000049
local          0.000047
detaillee      0.000044
collecte       0.000042
argent         0.000040
meilleure      0.000037
totale         0.000036
Name: utilisation, dtype: float32

tous


tous              0.000178
niveaux           0.000107
ans               0.000103
6                 0.000090
comprehensible    0.000082
accessible        0.000078
mois              0.000077
accessibles       0.000072
produits          0.000070
avantages         0.000067
Name: tous, dtype: float32

transparence


transparence    0.000212
totale          0.000180
elus            0.000052
hauts           0.000047
niveaux         0.000046
fonds           0.000045
grande          0.000045
controle        0.000043
meilleure       0.000043
avantages       0.000042
Name: transparence, dtype: float32

citoyens


citoyens       0.000225
pourraient     0.000078
informer       0.000066
disposition    0.000063
choix          0.000063
permettre      0.000062
vote           0.000061
politique      0.000061
devraient      0.000059
payent         0.000058
Name: citoyens, dtype: float32

faire


faire         0.000229
sorte         0.000132
economies     0.000100
conscience    0.000092
effort        0.000085
riches        0.000082
prendre       0.000081
4             0.000081
autant        0.000080
comprendre    0.000076
Name: faire, dtype: float32

information


information    0.000236
reguliere      0.000088
probleme       0.000084
disponible     0.000082
ameliorer      0.000082
existe         0.000075
lettre         0.000070
claire         0.000061
detaillee      0.000055
meilleure      0.000051
Name: information, dtype: float32

site


site         0.000281
dedie        0.000250
gouv         0.000183
web          0.000176
fr           0.000172
internet     0.000126
consulter    0.000101
creer        0.000095
creation     0.000092
jour         0.000075
Name: site, dtype: float32

argent


argent          0.000294
utilise         0.000123
public          0.000103
collecte        0.000085
savoir          0.000082
donne           0.000075
sert            0.000068
controle        0.000058
contribuable    0.000055
travail         0.000052
Name: argent, dtype: float32

tout


tout          0.000295
monde         0.000217
simplement    0.000123
gratuit       0.000114
aucun         0.000096
augmenter     0.000091
achat         0.000088
4             0.000088
societe       0.000084
chomage       0.000083
Name: tout, dtype: float32

budget


budget            0.000298
vote              0.000168
deficit           0.000128
presentation      0.000087
ministere         0.000070
presenter         0.000068
dette             0.000067
fonctionnement    0.000059
3                 0.000054
postes            0.000052
Name: budget, dtype: float32

annee


annee            0.000320
fin              0.000152
scolaire         0.000134
enfant           0.000103
recapitulatif    0.000084
evolution        0.000081
envoyer          0.000080
recevoir         0.000077
presenter        0.000071
bilan            0.000070
Name: annee, dtype: float32

internet


internet       0.000325
dedie          0.000128
sites          0.000128
site           0.000126
consultable    0.000105
acces          0.000079
mairie         0.000070
creer          0.000066
accessible     0.000065
presse         0.000060
Name: internet, dtype: float32

exemple


exemple    0.000339
enfant     0.000123
prix       0.000102
10         0.000097
hopital    0.000095
100        0.000093
coute      0.000089
euros      0.000084
prendre    0.000082
5          0.000082
Name: exemple, dtype: float32

publiques


publiques     0.000353
chaines       0.000127
finances      0.000112
politiques    0.000077
depenses      0.000067
1000          0.000055
tableau       0.000054
services      0.000053
3             0.000051
ensemble      0.000051
Name: publiques, dtype: float32

comptes


comptes        0.000358
cour           0.000344
rapports       0.000225
cours          0.000126
rapport        0.000099
controle       0.000094
pouvoir        0.000075
resultats      0.000070
publication    0.000058
publics        0.000057
Name: comptes, dtype: float32

repartition


repartition    0.000370
1000           0.000090
camembert      0.000090
declaration    0.000053
annuelle       0.000053
tableau        0.000053
imposition     0.000053
indiquer       0.000052
avis           0.000048
postes         0.000046
Name: repartition, dtype: float32

recettes


recettes       0.000404
fiscales       0.000103
depenses       0.000079
tableau        0.000074
affectation    0.000070
bilan          0.000063
dette          0.000063
postes         0.000055
tva            0.000053
publier        0.000048
Name: recettes, dtype: float32

In [20]:
gc.collect()

147

# Question 2 : Que faudrait-il faire pour rendre la fiscalité plus juste et plus efficace ?

In [21]:
question_2 = "Que faudrait-il faire pour rendre la fiscalité plus juste et plus efficace ?"
qu_2,df_qu_2_one_hot,df_cov_2,df_confidence_2,df_lift_2 = compute_similarities(question_2,new_res)

In [22]:
for i in df_qu_2_one_hot.sum(axis=0).sort_values(ascending=False).head(20).index:
    print(i)
    display(df_cov_2[i].sort_values(ascending=False).head(10))

impot


impot       21249
revenu       9823
tous         7227
revenus      7049
tout         6790
payer        5561
impots       5101
monde        4762
fiscales     4287
faire        4148
Name: impot, dtype: uint16

impots


impots     13706
impot       5101
tout        4355
payer       4314
tous        4300
revenus     4254
revenu      3938
monde       3055
faire       2966
france      2740
Name: impots, dtype: uint16

revenus


revenus     13448
impot        7049
tous         5017
impots       4254
revenu       4162
tout         3922
payer        3028
fiscales     2884
tranches     2715
niches       2667
Name: revenus, dtype: uint16

tous


tous         13407
impot         7227
revenus       5017
revenu        4486
impots        4300
payer         3230
tout          3070
faire         2919
supprimer     2589
francais      2555
Name: tous, dtype: uint16

tout


tout       12605
monde       7767
impot       6790
impots      4355
revenu      4195
payer       4137
revenus     3922
tous        3070
faire       2747
paye        2312
Name: tout, dtype: uint16

revenu


revenu      12538
impot        9823
tous         4486
tout         4195
revenus      4162
impots       3938
payer        3186
tranches     2907
monde        2848
fiscales     2630
Name: revenu, dtype: uint16

payer


payer      9820
impot      5561
impots     4314
tout       4137
faire      3881
tous       3230
revenu     3186
monde      3133
revenus    3028
france     2078
Name: payer, dtype: uint16

faire


faire       8846
impot       4148
payer       3881
impots      2966
tous        2919
tout        2747
revenus     2559
revenu      2409
fiscale     2003
fiscales    1845
Name: faire, dtype: uint16

fiscales


fiscales     8822
niches       7422
impot        4287
supprimer    3585
revenus      2884
impots       2650
revenu       2630
tous         2549
fiscale      2496
tout         2141
Name: fiscales, dtype: uint16

monde


monde      8615
tout       7767
impot      4762
payer      3133
impots     3055
revenu     2848
revenus    2543
tous       2140
paye       1932
faire      1830
Name: monde, dtype: uint16

fiscale


fiscale        8514
impot          3831
evasion        3630
impots         2539
fiscales       2496
revenus        2475
fraude         2410
entreprises    2323
niches         2318
tous           2234
Name: fiscale, dtype: uint16

niches


niches       8121
fiscales     7422
impot        4060
supprimer    3651
revenus      2667
revenu       2455
impots       2412
tous         2372
fiscale      2318
tout         1998
Name: niches, dtype: uint16

supprimer


supprimer    7893
niches       3651
fiscales     3585
impot        3579
tous         2589
revenus      2374
revenu       2303
impots       2284
tout         1824
fiscale      1765
Name: supprimer, dtype: uint16

tranches


tranches      7123
impot         4067
revenu        2907
revenus       2715
impots        2413
tous          2057
imposition    2036
tout          1823
augmenter     1716
fiscales      1716
Name: tranches, dtype: uint16

tva


tva          6789
produits     3556
impot        3404
revenu       2418
revenus      2253
impots       2180
necessite    2117
tous         2083
augmenter    1798
luxe         1795
Name: tva, dtype: uint16

entreprises


entreprises    6755
impot          2964
impots         2447
fiscale        2323
france         2038
revenus        1928
fiscales       1817
faire          1776
tous           1768
taxer          1693
Name: entreprises, dtype: uint16

isf


isf            6142
impot          2676
retablir       2158
impots         1772
revenus        1745
fiscale        1635
tous           1569
revenu         1533
supprimer      1502
entreprises    1438
Name: isf, dtype: uint16

france


france         6073
impot          3036
impots         2740
payer          2078
tous           2054
entreprises    2038
tout           1961
revenus        1907
fiscale        1894
francais       1840
Name: france, dtype: uint16

taxer


taxer          5751
impot          1931
revenus        1853
entreprises    1693
fiscale        1435
impots         1405
tous           1193
france         1160
revenu         1158
tout           1138
Name: taxer, dtype: uint16

francais


francais    5667
impot       3330
tous        2555
impots      2248
revenu      2002
revenus     1858
tout        1854
payer       1854
france      1840
faire       1556
Name: francais, dtype: uint16

In [23]:
for i in df_qu_2_one_hot.sum(axis=0).sort_values(ascending=False).head(20).index:
    print(i)
    display(df_confidence_2[i].sort_values(ascending=False).head(10))

impot


impot            1.000000
progressif       0.831569
direct           0.825613
echappent        0.821818
echapper         0.811069
fortune          0.805589
proportionnel    0.798883
43               0.791667
revenu           0.783458
minime           0.777580
Name: impot, dtype: float32

impots


impots         1.000000
indirects      0.947692
directs        0.899721
progressifs    0.763514
credits        0.752315
locaux         0.718901
fonciers       0.661184
payes          0.660465
injustes       0.586592
reductions     0.573850
Name: impots, dtype: float32

revenus


revenus        1.000000
faibles        0.762626
hauts          0.761069
percus         0.753086
fonciers       0.743421
superieurs     0.720812
eleves         0.627245
capital        0.620067
reels          0.592593
immobiliers    0.591449
Name: revenus, dtype: float32

tous


tous           1.000000
niveaux        0.634615
jours          0.607774
exception      0.597070
concernes      0.587097
citoyens       0.584277
identique      0.567500
participent    0.537445
routes         0.528958
habitation     0.521426
Name: tous, dtype: float32

tout


tout          1.000000
monde         0.901567
genre         0.657795
gratuit       0.631714
participe     0.581152
paie          0.574560
simplement    0.545455
conscience    0.538462
concerne      0.533813
routes        0.532819
Name: tout, dtype: float32

revenu


revenu        1.000000
universel     0.698080
43            0.606061
mensuel       0.591837
deductible    0.574534
fusionner     0.560656
imposable     0.554286
crds          0.550279
inferieur     0.541176
45            0.540293
Name: revenu, dtype: float32

payer


payer          1.000000
obliger        0.517316
devraient      0.454373
devoir         0.440729
faire          0.438729
difference     0.426966
impression     0.414449
permettent     0.410345
veulent        0.408922
travaillant    0.405145
Name: payer, dtype: float32

faire


faire         1.000000
sorte         0.798901
chasse        0.645349
economies     0.542471
comprendre    0.482684
menage        0.455150
face          0.447500
cadeaux       0.440945
veulent       0.427509
efforts       0.420588
Name: faire, dtype: float32

fiscales


fiscales        1.000000
niches          0.913927
deductions      0.648438
fraudes         0.565657
journalistes    0.558242
domicile        0.553659
permettent      0.541379
profitent       0.528678
plat            0.523342
liees           0.500000
Name: fiscales, dtype: float32

monde


monde             1.000000
tout              0.616184
participe         0.516230
paie              0.487603
paye              0.417820
gratuit           0.416880
profite           0.396437
participer        0.391847
symboliquement    0.384473
concerne          0.382734
Name: monde, dtype: float32

fiscale


fiscale         1.000000
evasion         0.944329
optimisation    0.890644
fraude          0.816119
lutte           0.806848
niche           0.802062
lutter          0.791863
efficacement    0.773438
pression        0.761538
combattre       0.741325
Name: fiscale, dtype: float32

niches


niches          1.000000
fiscales        0.841306
journalistes    0.560440
domicile        0.556098
plat            0.547912
permettent      0.543103
abattements     0.521429
profitent       0.521197
supprimant      0.488000
supprimer       0.462562
Name: niches, dtype: float32

supprimer


supprimer       1.000000
indexer         0.540323
journalistes    0.512088
remplacer       0.510924
niches          0.449575
flat            0.424379
presidents      0.421589
inflation       0.418478
abattements     0.417857
anciens         0.409259
Name: supprimer, dtype: float32

tranches


tranches           1.000000
progressives       0.800000
14                 0.633333
supplementaires    0.611902
nouvelles          0.608025
impositions        0.606061
rajouter           0.559880
creant             0.523333
ajouter            0.513846
augmentant         0.482051
Name: tranches, dtype: float32

tva


tva             1.000000
necessite       0.826630
luxe            0.822640
produits        0.780509
alimentation    0.761438
1ere            0.759551
alimentaires    0.753588
importes        0.721612
reduite         0.718412
33              0.665625
Name: tva, dtype: float32

entreprises


entreprises     1.000000
etrangeres      0.761905
francaises      0.691238
grandes         0.688429
particuliers    0.676937
cac             0.660215
petites         0.598109
cice            0.597713
chiffre         0.595170
benefices       0.588517
Name: entreprises, dtype: float32

isf


isf                1.000000
retablissement     0.834197
retablir           0.764706
ifi                0.517781
cice               0.509355
remettre           0.488385
flat               0.455982
investissements    0.410891
macron             0.410853
indexer            0.409274
Name: isf, dtype: float32

france


france        1.000000
realise       0.647239
etranger      0.632046
sportifs      0.621262
etrangeres    0.592593
realises      0.580769
usa           0.570149
chiffre       0.556818
residents     0.541667
obliger       0.541126
Name: france, dtype: float32

taxer


taxer           1.000000
transactions    0.520112
speculation     0.481967
gafa            0.470555
lourdement      0.446991
financieres     0.438169
profits         0.433628
fortement       0.397192
davantage       0.357091
dividendes      0.350497
Name: taxer, dtype: float32

francais


francais       1.000000
etranger       0.528816
residents      0.513889
etrangers      0.482890
usa            0.480597
territoire     0.440816
nationalite    0.430020
vivant         0.422287
43             0.416667
moitie         0.377386
Name: francais, dtype: float32

In [24]:
for i in df_qu_2_one_hot.sum(axis=0).sort_values(ascending=False).head(20).index:
    print(i)
    display(df_lift_2[i].sort_values(ascending=False).head(10))

impot


impot            0.000047
progressif       0.000039
direct           0.000039
echappent        0.000039
echapper         0.000038
fortune          0.000038
proportionnel    0.000038
43               0.000037
revenu           0.000037
minime           0.000037
Name: impot, dtype: float32

impots


impots         0.000073
indirects      0.000069
directs        0.000066
progressifs    0.000056
credits        0.000055
locaux         0.000052
fonciers       0.000048
payes          0.000048
injustes       0.000043
reductions     0.000042
Name: impots, dtype: float32

revenus


revenus        0.000074
faibles        0.000057
hauts          0.000057
percus         0.000056
fonciers       0.000055
superieurs     0.000054
eleves         0.000047
capital        0.000046
reels          0.000044
immobiliers    0.000044
Name: revenus, dtype: float32

tous


tous           0.000075
niveaux        0.000047
jours          0.000045
exception      0.000045
concernes      0.000044
citoyens       0.000044
identique      0.000042
participent    0.000040
routes         0.000039
habitation     0.000039
Name: tous, dtype: float32

tout


tout          0.000079
monde         0.000072
genre         0.000052
gratuit       0.000050
participe     0.000046
paie          0.000046
simplement    0.000043
conscience    0.000043
concerne      0.000042
routes        0.000042
Name: tout, dtype: float32

revenu


revenu        0.000080
universel     0.000056
43            0.000048
mensuel       0.000047
deductible    0.000046
fusionner     0.000045
imposable     0.000044
crds          0.000044
inferieur     0.000043
45            0.000043
Name: revenu, dtype: float32

payer


payer          0.000102
obliger        0.000053
devraient      0.000046
devoir         0.000045
faire          0.000045
difference     0.000043
impression     0.000042
permettent     0.000042
veulent        0.000042
travaillant    0.000041
Name: payer, dtype: float32

faire


faire         0.000113
sorte         0.000090
chasse        0.000073
economies     0.000061
comprendre    0.000055
menage        0.000051
face          0.000051
cadeaux       0.000050
veulent       0.000048
efforts       0.000048
Name: faire, dtype: float32

fiscales


fiscales        0.000113
niches          0.000104
deductions      0.000074
fraudes         0.000064
journalistes    0.000063
domicile        0.000063
permettent      0.000061
profitent       0.000060
plat            0.000059
liees           0.000057
Name: fiscales, dtype: float32

monde


monde             0.000116
tout              0.000072
participe         0.000060
paie              0.000057
paye              0.000048
gratuit           0.000048
profite           0.000046
participer        0.000045
symboliquement    0.000045
concerne          0.000044
Name: monde, dtype: float32

fiscale


fiscale         0.000117
evasion         0.000111
optimisation    0.000105
fraude          0.000096
lutte           0.000095
niche           0.000094
lutter          0.000093
efficacement    0.000091
pression        0.000089
combattre       0.000087
Name: fiscale, dtype: float32

niches


niches          0.000123
fiscales        0.000104
journalistes    0.000069
domicile        0.000068
plat            0.000067
permettent      0.000067
abattements     0.000064
profitent       0.000064
supprimant      0.000060
supprimer       0.000057
Name: niches, dtype: float32

supprimer


supprimer       0.000127
indexer         0.000068
journalistes    0.000065
remplacer       0.000065
niches          0.000057
flat            0.000054
presidents      0.000053
inflation       0.000053
abattements     0.000053
anciens         0.000052
Name: supprimer, dtype: float32

tranches


tranches           0.000140
progressives       0.000112
14                 0.000089
supplementaires    0.000086
nouvelles          0.000085
impositions        0.000085
rajouter           0.000079
creant             0.000073
ajouter            0.000072
augmentant         0.000068
Name: tranches, dtype: float32

tva


tva             0.000147
necessite       0.000122
luxe            0.000121
produits        0.000115
alimentation    0.000112
1ere            0.000112
alimentaires    0.000111
importes        0.000106
reduite         0.000106
33              0.000098
Name: tva, dtype: float32

entreprises


entreprises     0.000148
etrangeres      0.000113
francaises      0.000102
grandes         0.000102
particuliers    0.000100
cac             0.000098
petites         0.000089
cice            0.000088
chiffre         0.000088
benefices       0.000087
Name: entreprises, dtype: float32

isf


isf                0.000163
retablissement     0.000136
retablir           0.000125
ifi                0.000084
cice               0.000083
remettre           0.000080
flat               0.000074
investissements    0.000067
macron             0.000067
indexer            0.000067
Name: isf, dtype: float32

france


france        0.000165
realise       0.000107
etranger      0.000104
sportifs      0.000102
etrangeres    0.000098
realises      0.000096
usa           0.000094
chiffre       0.000092
residents     0.000089
obliger       0.000089
Name: france, dtype: float32

taxer


taxer           0.000174
transactions    0.000090
speculation     0.000084
gafa            0.000082
lourdement      0.000078
financieres     0.000076
profits         0.000075
fortement       0.000069
davantage       0.000062
dividendes      0.000061
Name: taxer, dtype: float32

francais


francais       0.000176
etranger       0.000093
residents      0.000091
etrangers      0.000085
usa            0.000085
territoire     0.000078
nationalite    0.000076
vivant         0.000075
43             0.000074
moitie         0.000067
Name: francais, dtype: float32

In [25]:
gc.collect()

105

# Question 3 : Quels sont selon vous les impôts qu'il faut baisser en priorité ?

In [26]:
question_3 = "Quels sont selon vous les impôts qu\'il faut baisser en priorité ?"
qu_3,df_qu_3_one_hot,df_cov_3,df_confidence_3,df_lift_3 = compute_similarities(question_3, new_res)

In [27]:
for i in df_qu_3_one_hot.sum(axis=0).sort_values(ascending=False).head(20).index:
    print(i)
    display(df_cov_3[i].sort_values(ascending=False).head(10))

tva


tva          17529
produits      8657
necessite     6110
impot         2606
impots        2190
taxe          2130
csg           2108
taxes         1847
revenu        1796
baisser       1684
Name: tva, dtype: uint16

impots


impots     12060
revenu      3166
baisser     2305
tva         2190
impot       1830
faut        1805
revenus     1796
tous        1692
taxe        1605
taxes       1572
Name: impots, dtype: uint16

impot


impot         11073
revenu         5923
tva            2606
taxe           1962
impots         1830
baisser        1520
revenus        1440
tous           1433
faut           1384
habitation     1324
Name: impot, dtype: uint16

produits


produits     9846
tva          8657
necessite    6240
taxes        1475
taxe         1280
baisser      1211
impot        1195
impots       1170
luxe         1166
csg           972
Name: produits, dtype: uint16

revenu


revenu        9488
impot         5923
impots        3166
tva           1796
taxe          1553
habitation    1078
csg           1058
tous           953
produits       803
taxes          790
Name: revenu, dtype: uint16

taxe


taxe          8326
habitation    5273
fonciere      2349
tva           2130
impot         1962
tous          1925
supprimer     1638
impots        1605
revenu        1553
produits      1280
Name: taxe, dtype: uint16

necessite


necessite    6893
produits     6240
tva          6110
taxes         958
1ere          914
taxe          866
baisser       853
impot         825
impots        779
luxe          773
Name: necessite, dtype: uint16

csg


csg          6383
tva          2108
retraites    2049
impot        1299
taxe         1151
revenu       1058
supprimer    1015
impots       1006
tous          989
produits      972
Name: csg, dtype: uint16

taxes


taxes         5933
tva           1847
impots        1572
produits      1475
taxe          1142
impot         1047
necessite      958
habitation     949
revenu         790
baisser        762
Name: taxes, dtype: uint16

habitation


habitation    5828
taxe          5273
tous          1659
supprimer     1332
impot         1324
tva           1255
fonciere      1200
impots        1095
revenu        1078
taxes          949
Name: habitation, dtype: uint16

tous


tous          5613
taxe          1925
impots        1692
habitation    1659
tva           1459
impot         1433
supprimer     1086
csg            989
revenu         953
produits       941
Name: tous, dtype: uint16

baisser


baisser      5191
impots       2305
faut         1757
tva          1684
impot        1520
produits     1211
necessite     853
tous          825
augmenter     786
revenu        771
Name: baisser, dtype: uint16

revenus


revenus    4259
impots     1796
impot      1440
tva        1154
taxe        793
tous        697
csg         653
revenu      603
baisser     589
taxes       588
Name: revenus, dtype: uint16

faut


faut         4194
impots       1805
baisser      1757
impot        1384
tva           882
tous          746
supprimer     693
tout          692
taxe          651
revenu        645
Name: faut, dtype: uint16

supprimer


supprimer     3830
taxe          1638
habitation    1332
tva           1156
impot         1107
tous          1086
csg           1015
impots         926
produits       755
baisser        744
Name: supprimer, dtype: uint16

tout


tout          3107
monde         1380
impot         1111
impots        1034
tva            912
taxe           844
revenu         731
faut           692
habitation     631
baisser        594
Name: tout, dtype: uint16

retraites


retraites     2780
csg           2049
tva            708
tous           707
taxe           630
supprimer      605
produits       534
habitation     516
impots         496
impot          454
Name: retraites, dtype: uint16

fonciere


fonciere      2479
taxe          2349
habitation    1200
impot          583
tva            554
revenu         524
impots         501
taxes          376
supprimer      308
tous           279
Name: fonciere, dtype: uint16

augmenter


augmenter    2247
tva          1073
produits      853
baisser       786
impots        732
impot         601
necessite     563
faut          554
luxe          487
revenu        394
Name: augmenter, dtype: uint16

baisse


baisse       2209
tva           932
impots        801
impot         694
produits      626
necessite     450
taxe          401
faut          375
tous          348
revenu        343
Name: baisse, dtype: uint16

In [28]:
for i in df_qu_3_one_hot.sum(axis=0).sort_values(ascending=False).head(20).index:
    print(i)
    display(df_confidence_3[i].sort_values(ascending=False).head(10))

tva


tva             1.000000
luxe            0.918097
legumes         0.896552
1ere            0.888660
alimentaires    0.887365
necessite       0.886406
produits        0.879240
bio             0.875776
courante        0.832192
necessites      0.818620
Name: tva, dtype: float32

impots


impots           1.000000
indirects        0.953157
fonciers         0.807099
locaux           0.807081
injustes         0.642076
production       0.598958
publics          0.559896
ensuite          0.519084
forcement        0.515464
collectivites    0.514368
Name: impots, dtype: float32

impot


impot         1.000000
progressif    0.748092
revenu        0.624262
injuste       0.611932
egalite       0.608696
societes      0.595668
paye          0.559464
assiette      0.529825
eleve         0.520295
tranche       0.519231
Name: impot, dtype: float32

produits


produits        1.000000
alimentaires    0.930460
luxe            0.909516
1ere            0.907216
necessite       0.905266
necessites      0.892456
bio             0.850932
premieres       0.832765
courante        0.818493
legumes         0.800766
Name: produits, dtype: float32

revenu


revenu        1.000000
impot         0.534905
classes       0.511784
tranches      0.499543
moyennes      0.484848
tranche       0.478632
progressif    0.473282
foyers        0.421642
gagne         0.394265
net           0.385507
Name: revenu, dtype: float32

taxe


taxe             1.000000
fonciere         0.947559
habitation       0.904770
supprimee        0.725857
audiovisuelle    0.712121
proprietaires    0.577287
suppression      0.576300
maison           0.549020
residence        0.529412
communes         0.520124
Name: taxe, dtype: float32

necessite


necessite       1.000000
1ere            0.942268
produits        0.633760
luxe            0.602964
produit         0.538462
0               0.498861
legumes         0.429119
chauffage       0.416357
bio             0.407867
alimentation    0.405213
Name: necessite, dtype: float32

csg


csg             1.000000
rds             0.953571
deductible      0.946768
crds            0.910020
retraites       0.737050
inflation       0.660870
hausse          0.549747
retraite        0.449713
2000            0.421818
augmentation    0.359729
Name: csg, dtype: float32

taxes


taxes          1.000000
foncieres      0.936585
carburants     0.663560
locales        0.585714
electricite    0.533873
carburant      0.532258
energies       0.520755
essence        0.511792
gaz            0.496241
energie        0.453020
Name: taxes, dtype: float32

habitation


habitation     1.000000
supprimee      0.647975
taxe           0.633317
suppression    0.505310
foncieres      0.497561
principale     0.485537
fonciere       0.484066
egalite        0.450593
communes       0.448916
inflation      0.405797
Name: habitation, dtype: float32

tous


tous             1.000000
egalite          0.486166
inflation        0.466667
supprimee        0.448598
citoyens         0.400261
contribuables    0.389262
foyers           0.380597
hausse           0.369309
suppression      0.326439
francais         0.322917
Name: tous, dtype: float32

baisser


baisser      1.000000
forcement    0.621993
agit         0.543046
repartir     0.510393
priorite     0.454259
faut         0.418932
mieux        0.397970
dette        0.377778
faudrait     0.371742
depenses     0.360219
Name: baisser, dtype: float32

revenus


revenus     1.000000
hauts       0.645283
modestes    0.358601
petits      0.352641
000         0.346369
fonction    0.335211
compte      0.328923
tranche     0.290598
mois        0.279522
moyens      0.276224
Name: revenus, dtype: float32

faut


faut         1.000000
recettes     0.416667
arreter      0.389864
repartir     0.381062
depense      0.374622
systeme      0.373016
priorite     0.367508
forcement    0.353952
dette        0.343210
depenses     0.339859
Name: faut, dtype: float32

supprimer


supprimer     1.000000
inflation     0.457971
totalement    0.427762
hausse        0.369309
niches        0.366176
ifi           0.345661
fiscales      0.335812
redevance     0.311847
isf           0.267876
habitation    0.228552
Name: supprimer, dtype: float32

tout


tout       1.000000
monde      0.847145
touche     0.366584
citoyen    0.345345
paie       0.328996
paye       0.281407
systeme    0.277778
cas        0.255187
payer      0.254698
partie     0.249551
Name: tout, dtype: float32

retraites


retraites       1.000000
inflation       0.704348
hausse          0.489039
2000            0.389091
retraite        0.321839
csg             0.321009
augmentation    0.290724
vie             0.206066
euros           0.201212
ans             0.199021
Name: retraites, dtype: float32

fonciere


fonciere         1.000000
proprietaires    0.432177
principale       0.287190
taxe             0.282128
residence        0.263529
habitation       0.205903
immobilier       0.192171
logement         0.177966
succession       0.119134
droits           0.116301
Name: fonciere, dtype: float32

augmenter


augmenter    1.000000
luxe         0.379875
nombre       0.192568
diminuer     0.188295
riches       0.175599
achat        0.164557
pouvoir      0.161583
faudrait     0.157750
baisser      0.151416
prix         0.148098
Name: augmenter, dtype: float32

baisse


baisse          1.000000
hausse          0.227656
augmentation    0.211538
prix            0.202446
depenses        0.173845
achat           0.166365
pouvoir         0.165705
question        0.144754
suppression     0.134153
fiscale         0.133829
Name: baisse, dtype: float32

In [29]:
for i in df_qu_3_one_hot.sum(axis=0).sort_values(ascending=False).head(20).index:
    print(i)
    display(df_lift_3[i].sort_values(ascending=False).head(10))

tva


tva             0.000057
luxe            0.000052
legumes         0.000051
1ere            0.000051
alimentaires    0.000051
necessite       0.000051
produits        0.000050
bio             0.000050
courante        0.000047
necessites      0.000047
Name: tva, dtype: float32

impots


impots           0.000083
indirects        0.000079
fonciers         0.000067
locaux           0.000067
injustes         0.000053
production       0.000050
publics          0.000046
ensuite          0.000043
forcement        0.000043
collectivites    0.000043
Name: impots, dtype: float32

impot


impot         0.000090
progressif    0.000068
revenu        0.000056
injuste       0.000055
egalite       0.000055
societes      0.000054
paye          0.000051
assiette      0.000048
eleve         0.000047
tranche       0.000047
Name: impot, dtype: float32

produits


produits        0.000102
alimentaires    0.000095
luxe            0.000092
1ere            0.000092
necessite       0.000092
necessites      0.000091
bio             0.000086
premieres       0.000085
courante        0.000083
legumes         0.000081
Name: produits, dtype: float32

revenu


revenu        0.000105
impot         0.000056
classes       0.000054
tranches      0.000053
moyennes      0.000051
tranche       0.000050
progressif    0.000050
foyers        0.000044
gagne         0.000042
net           0.000041
Name: revenu, dtype: float32

taxe


taxe             0.000120
fonciere         0.000114
habitation       0.000109
supprimee        0.000087
audiovisuelle    0.000086
proprietaires    0.000069
suppression      0.000069
maison           0.000066
residence        0.000064
communes         0.000062
Name: taxe, dtype: float32

necessite


necessite       0.000145
1ere            0.000137
produits        0.000092
luxe            0.000087
produit         0.000078
0               0.000072
legumes         0.000062
chauffage       0.000060
bio             0.000059
alimentation    0.000059
Name: necessite, dtype: float32

csg


csg             0.000157
rds             0.000149
deductible      0.000148
crds            0.000143
retraites       0.000115
inflation       0.000104
hausse          0.000086
retraite        0.000070
2000            0.000066
augmentation    0.000056
Name: csg, dtype: float32

taxes


taxes          0.000169
foncieres      0.000158
carburants     0.000112
locales        0.000099
electricite    0.000090
carburant      0.000090
energies       0.000088
essence        0.000086
gaz            0.000084
energie        0.000076
Name: taxes, dtype: float32

habitation


habitation     0.000172
supprimee      0.000111
taxe           0.000109
suppression    0.000087
foncieres      0.000085
principale     0.000083
fonciere       0.000083
egalite        0.000077
communes       0.000077
inflation      0.000070
Name: habitation, dtype: float32

tous


tous             0.000178
egalite          0.000087
inflation        0.000083
supprimee        0.000080
citoyens         0.000071
contribuables    0.000069
foyers           0.000068
hausse           0.000066
suppression      0.000058
francais         0.000058
Name: tous, dtype: float32

baisser


baisser      0.000193
forcement    0.000120
agit         0.000105
repartir     0.000098
priorite     0.000088
faut         0.000081
mieux        0.000077
dette        0.000073
faudrait     0.000072
depenses     0.000069
Name: baisser, dtype: float32

revenus


revenus     0.000235
hauts       0.000152
modestes    0.000084
petits      0.000083
000         0.000081
fonction    0.000079
compte      0.000077
tranche     0.000068
mois        0.000066
moyens      0.000065
Name: revenus, dtype: float32

faut


faut         0.000238
recettes     0.000099
arreter      0.000093
repartir     0.000091
depense      0.000089
systeme      0.000089
priorite     0.000088
forcement    0.000084
dette        0.000082
depenses     0.000081
Name: faut, dtype: float32

supprimer


supprimer     0.000261
inflation     0.000120
totalement    0.000112
hausse        0.000096
niches        0.000096
ifi           0.000090
fiscales      0.000088
redevance     0.000081
isf           0.000070
habitation    0.000060
Name: supprimer, dtype: float32

tout


tout       0.000322
monde      0.000273
touche     0.000118
citoyen    0.000111
paie       0.000106
paye       0.000091
systeme    0.000089
cas        0.000082
payer      0.000082
partie     0.000080
Name: tout, dtype: float32

retraites


retraites       0.000360
inflation       0.000253
hausse          0.000176
2000            0.000140
retraite        0.000116
csg             0.000115
augmentation    0.000105
vie             0.000074
euros           0.000072
ans             0.000072
Name: retraites, dtype: float32

fonciere


fonciere         0.000403
proprietaires    0.000174
principale       0.000116
taxe             0.000114
residence        0.000106
habitation       0.000083
immobilier       0.000078
logement         0.000072
succession       0.000048
droits           0.000047
Name: fonciere, dtype: float32

augmenter


augmenter    0.000445
luxe         0.000169
nombre       0.000086
diminuer     0.000084
riches       0.000078
achat        0.000073
pouvoir      0.000072
faudrait     0.000070
baisser      0.000067
prix         0.000066
Name: augmenter, dtype: float32

baisse


baisse          0.000453
hausse          0.000103
augmentation    0.000096
prix            0.000092
depenses        0.000079
achat           0.000075
pouvoir         0.000075
question        0.000066
suppression     0.000061
fiscale         0.000061
Name: baisse, dtype: float32

In [30]:
gc.collect()

105

# Question 4 : Afin de financer les dépenses sociales, faut-il selon vous... 

In [31]:
question_4 = "Afin de financer les dépenses sociales, faut-il selon vous..."
qu_4,df_qu_4_one_hot,df_cov_4,df_confidence_4,df_lift_4 = compute_similarities(question_4, new_res)

In [32]:
for i in df_qu_4_one_hot.sum(axis=0).sort_values(ascending=False).head(20).index:
    print(i)
    display(df_cov_4[i].sort_values(ascending=False).head(10))

sociales


sociales       38105
aides          36861
revoir         36303
attribution    36254
conditions     36250
augmenter      14958
travail        14630
temps          13873
retraite       11689
age            11096
Name: sociales, dtype: uint16

aides


aides          37482
sociales       36861
revoir         36301
attribution    36278
conditions     36254
augmenter      14826
travail        14537
temps          13850
retraite       11620
age            11063
Name: aides, dtype: uint16

revoir


revoir         36927
sociales       36303
aides          36301
conditions     36261
attribution    36248
augmenter      14647
travail        14341
temps          13697
retraite       11522
age            10951
Name: revoir, dtype: uint16

conditions


conditions     36417
revoir         36261
aides          36254
sociales       36250
attribution    36243
augmenter      14576
travail        14301
temps          13657
retraite       11465
age            10926
Name: conditions, dtype: uint16

attribution


attribution    36356
aides          36278
sociales       36254
revoir         36248
conditions     36243
augmenter      14555
travail        14250
temps          13634
retraite       11435
age            10902
Name: attribution, dtype: uint16

augmenter


augmenter      21244
travail        17611
temps          17476
sociales       14958
aides          14826
revoir         14647
conditions     14576
attribution    14555
retraite        9368
age             9130
Name: augmenter, dtype: uint16

travail


travail        19466
temps          17893
augmenter      17611
sociales       14630
aides          14537
revoir         14341
conditions     14301
attribution    14250
retraite        9405
age             9108
Name: travail, dtype: uint16

temps


temps          18201
travail        17893
augmenter      17476
sociales       13873
aides          13850
revoir         13697
conditions     13657
attribution    13634
retraite        9158
age             8898
Name: temps, dtype: uint16

retraite


retraite       16280
age            15047
reculer        14501
sociales       11689
aides          11620
revoir         11522
conditions     11465
attribution    11435
travail         9405
augmenter       9368
Name: retraite, dtype: uint16

age


age            15162
retraite       15047
reculer        14504
sociales       11096
aides          11063
revoir         10951
conditions     10926
attribution    10902
augmenter       9130
travail         9108
Name: age, dtype: uint16

reculer


reculer        14523
age            14504
retraite       14501
sociales       10775
aides          10760
revoir         10660
conditions     10630
attribution    10617
augmenter       8950
travail         8822
Name: reculer, dtype: uint16

impots


impots         4461
augmenter      3270
sociales       1817
aides          1722
revoir         1668
conditions     1607
attribution    1586
travail         856
retraite        818
age             759
Name: impots, dtype: uint16

faire


faire          3548
sociales       1799
aides          1733
revoir         1637
conditions     1605
attribution    1592
travail         964
augmenter       877
payer           864
retraite        793
Name: faire, dtype: uint16

depenses


depenses       3417
sociales       2265
revoir         1593
aides          1584
conditions     1510
attribution    1501
augmenter       854
travail         825
retraite        727
temps           722
Name: depenses, dtype: uint16

fiscale


fiscale        3109
evasion        1760
fraude         1346
lutter         1185
sociales        895
aides           816
revoir          790
conditions      745
attribution     735
augmenter       609
Name: fiscale, dtype: uint16

taxer


taxer          2750
sociales        865
aides           843
revoir          825
conditions      802
attribution     793
entreprises     655
augmenter       568
fiscale         524
travail         465
Name: taxer, dtype: uint16

entreprises


entreprises    2593
sociales       1004
aides           969
revoir          868
conditions      839
attribution     822
augmenter       720
taxer           655
fiscale         585
travail         531
Name: entreprises, dtype: uint16

supprimer


supprimer      2521
aides          1445
sociales       1440
revoir         1334
conditions     1302
attribution    1293
augmenter       764
travail         702
retraite        650
temps           626
Name: supprimer, dtype: uint16

reduire


reduire        2508
sociales       1356
aides          1298
revoir         1245
attribution    1224
conditions     1223
depenses        708
travail         700
augmenter       695
temps           656
Name: reduire, dtype: uint16

tous


tous           2282
sociales       1314
aides          1268
revoir         1233
conditions     1200
attribution    1184
travail         771
retraite        738
augmenter       690
temps           623
Name: tous, dtype: uint16

In [33]:
for i in df_qu_4_one_hot.sum(axis=0).sort_values(ascending=False).head(20).index:
    print(i)
    display(df_confidence_4[i].sort_values(ascending=False).head(10))

sociales


sociales         1.000000
attribution      0.997194
conditions       0.995414
aides            0.983432
revoir           0.983102
prestations      0.860911
rsa              0.854271
etrangers        0.813758
beneficiaires    0.811209
allocation       0.806780
Name: sociales, dtype: float32

aides


aides            1.000000
attribution      0.997855
conditions       0.995524
revoir           0.983048
sociales         0.967353
rsa              0.864322
etrangers        0.842282
beneficiaires    0.837758
controles        0.817857
enfants          0.816764
Name: aides, dtype: float32

revoir


revoir         1.000000
attribution    0.997029
conditions     0.995716
aides          0.968492
sociales       0.952710
rsa            0.804020
etrangers      0.791946
allocations    0.769061
familiales     0.762887
enfants        0.758285
Name: revoir, dtype: float32

conditions


conditions     1.000000
attribution    0.996892
revoir         0.981964
aides          0.967238
sociales       0.951319
rsa            0.811558
etrangers      0.788591
allocations    0.763536
familiales     0.758763
enfants        0.750487
Name: conditions, dtype: float32

attribution


attribution    1.000000
conditions     0.995222
revoir         0.981612
aides          0.967878
sociales       0.951424
rsa            0.811558
etrangers      0.788591
allocations    0.765746
familiales     0.758763
temps          0.749080
Name: attribution, dtype: float32

augmenter


augmenter    1.000000
temps        0.960167
travail      0.904706
35           0.747082
impots       0.733020
reculer      0.616264
heures       0.611807
age          0.602163
tva          0.599362
luxe         0.578125
Name: augmenter, dtype: float32

travail


travail      1.000000
temps        0.983078
augmenter    0.828987
35           0.805447
heures       0.754919
reculer      0.607450
age          0.600712
retraite     0.577703
chomeurs     0.574307
duree        0.555215
Name: travail, dtype: float32

temps


temps        1.000000
travail      0.919192
augmenter    0.822632
35           0.797665
heures       0.647585
reculer      0.596020
age          0.586862
retraite     0.562531
revenir      0.526923
duree        0.426380
Name: temps, dtype: float32

retraite


retraite    1.000000
reculer     0.998485
age         0.992415
depart      0.880165
regimes     0.706131
speciaux    0.684211
ans         0.642512
partir      0.635514
jeunes      0.573134
prive       0.551546
Name: retraite, dtype: float32

age


age         1.000000
reculer     0.998692
retraite    0.924263
depart      0.729339
ans         0.494686
temps       0.488874
duree       0.481595
travail     0.467893
speciaux    0.449123
jeunes      0.447761
Name: age, dtype: float32

reculer


reculer        1.000000
age            0.956602
retraite       0.890725
temps          0.475578
travail        0.453200
augmenter      0.421295
35             0.392996
speciaux       0.378947
immigration    0.374670
duree          0.365031
Name: reculer, dtype: float32

impots


impots          1.000000
tranches        0.463602
riches          0.318761
societes        0.305882
taxes           0.252315
grandes         0.251420
payer           0.249500
augmentation    0.241071
revenus         0.210526
france          0.192494
Name: impots, dtype: float32

faire


faire         1.000000
economies     0.703333
chasse        0.684211
payer         0.576384
contribuer    0.542751
fraudeurs     0.283708
travailler    0.234528
monde         0.221411
riches        0.214936
tout          0.204883
Name: faire, dtype: float32

depenses


depenses          1.000000
publiques         0.669935
inutiles          0.566845
financer          0.387909
fonctionnement    0.356299
collectivites     0.351415
sante             0.346565
reduire           0.282297
baisser           0.274234
diminuer          0.273267
Name: depenses, dtype: float32

fiscale


fiscale         1.000000
evasion         0.933192
optimisation    0.871838
80              0.694444
lutte           0.667568
fraude          0.651500
lutter          0.648604
reserver        0.588462
efficacement    0.568106
milliards       0.552632
Name: fiscale, dtype: float32

taxer


taxer              1.000000
dividendes         0.608989
transactions       0.577818
gafa               0.563202
multinationales    0.553009
financieres        0.525355
davantage          0.455390
capital            0.454965
financiers         0.423077
actionnaires       0.407975
Name: taxer, dtype: float32

entreprises


entreprises        1.000000
grandes            0.723011
reserver           0.611538
80                 0.537037
benefices          0.526154
cice               0.516077
grosses            0.509971
dividendes         0.435955
an                 0.434579
multinationales    0.421203
Name: entreprises, dtype: float32

supprimer


supprimer     1.000000
niches        0.454759
presidents    0.397163
speciaux      0.382456
anciens       0.362256
fiscales      0.313804
regimes       0.291755
avantages     0.288740
privileges    0.287263
deputes       0.268293
Name: supprimer, dtype: float32

reduire


reduire            1.000000
reserver           0.596154
80                 0.481481
immigration        0.474934
train              0.473815
an                 0.434579
milliards          0.300987
multinationales    0.297994
fonctionnement     0.295276
cice               0.294212
Name: reduire, dtype: float32

tous


tous         1.000000
regimes      0.310782
citoyens     0.267631
avantages    0.199554
deputes      0.193380
francais     0.177227
revenu       0.176938
elus         0.173262
ans          0.171014
retraites    0.155267
Name: tous, dtype: float32

In [34]:
for i in df_qu_4_one_hot.sum(axis=0).sort_values(ascending=False).head(20).index:
    print(i)
    display(df_lift_4[i].sort_values(ascending=False).head(10))

sociales


sociales         0.000026
attribution      0.000026
conditions       0.000026
aides            0.000026
revoir           0.000026
prestations      0.000023
rsa              0.000022
etrangers        0.000021
beneficiaires    0.000021
allocation       0.000021
Name: sociales, dtype: float32

aides


aides            0.000027
attribution      0.000027
conditions       0.000027
revoir           0.000026
sociales         0.000026
rsa              0.000023
etrangers        0.000022
beneficiaires    0.000022
controles        0.000022
enfants          0.000022
Name: aides, dtype: float32

revoir


revoir         0.000027
attribution    0.000027
conditions     0.000027
aides          0.000026
sociales       0.000026
rsa            0.000022
etrangers      0.000021
allocations    0.000021
familiales     0.000021
enfants        0.000021
Name: revoir, dtype: float32

conditions


conditions     0.000027
attribution    0.000027
revoir         0.000027
aides          0.000027
sociales       0.000026
rsa            0.000022
etrangers      0.000022
allocations    0.000021
familiales     0.000021
enfants        0.000021
Name: conditions, dtype: float32

attribution


attribution    0.000028
conditions     0.000027
revoir         0.000027
aides          0.000027
sociales       0.000026
rsa            0.000022
etrangers      0.000022
allocations    0.000021
familiales     0.000021
temps          0.000021
Name: attribution, dtype: float32

augmenter


augmenter    0.000047
temps        0.000045
travail      0.000043
35           0.000035
impots       0.000035
reculer      0.000029
heures       0.000029
age          0.000028
tva          0.000028
luxe         0.000027
Name: augmenter, dtype: float32

travail


travail      0.000051
temps        0.000051
augmenter    0.000043
35           0.000041
heures       0.000039
reculer      0.000031
age          0.000031
retraite     0.000030
chomeurs     0.000030
duree        0.000029
Name: travail, dtype: float32

temps


temps        0.000055
travail      0.000051
augmenter    0.000045
35           0.000044
heures       0.000036
reculer      0.000033
age          0.000032
retraite     0.000031
revenir      0.000029
duree        0.000023
Name: temps, dtype: float32

retraite


retraite    0.000061
reculer     0.000061
age         0.000061
depart      0.000054
regimes     0.000043
speciaux    0.000042
ans         0.000039
partir      0.000039
jeunes      0.000035
prive       0.000034
Name: retraite, dtype: float32

age


age         0.000066
reculer     0.000066
retraite    0.000061
depart      0.000048
ans         0.000033
temps       0.000032
duree       0.000032
travail     0.000031
speciaux    0.000030
jeunes      0.000030
Name: age, dtype: float32

reculer


reculer        0.000069
age            0.000066
retraite       0.000061
temps          0.000033
travail        0.000031
augmenter      0.000029
35             0.000027
speciaux       0.000026
immigration    0.000026
duree          0.000025
Name: reculer, dtype: float32

impots


impots          0.000224
tranches        0.000104
riches          0.000071
societes        0.000069
taxes           0.000057
grandes         0.000056
payer           0.000056
augmentation    0.000054
revenus         0.000047
france          0.000043
Name: impots, dtype: float32

faire


faire         0.000282
economies     0.000198
chasse        0.000193
payer         0.000162
contribuer    0.000153
fraudeurs     0.000080
travailler    0.000066
monde         0.000062
riches        0.000061
tout          0.000058
Name: faire, dtype: float32

depenses


depenses          0.000293
publiques         0.000196
inutiles          0.000166
financer          0.000114
fonctionnement    0.000104
collectivites     0.000103
sante             0.000101
reduire           0.000083
baisser           0.000080
diminuer          0.000080
Name: depenses, dtype: float32

fiscale


fiscale         0.000322
evasion         0.000300
optimisation    0.000280
80              0.000223
lutte           0.000215
fraude          0.000210
lutter          0.000209
reserver        0.000189
efficacement    0.000183
milliards       0.000178
Name: fiscale, dtype: float32

taxer


taxer              0.000364
dividendes         0.000221
transactions       0.000210
gafa               0.000205
multinationales    0.000201
financieres        0.000191
davantage          0.000166
capital            0.000165
financiers         0.000154
actionnaires       0.000148
Name: taxer, dtype: float32

entreprises


entreprises        0.000386
grandes            0.000279
reserver           0.000236
80                 0.000207
benefices          0.000203
cice               0.000199
grosses            0.000197
dividendes         0.000168
an                 0.000168
multinationales    0.000162
Name: entreprises, dtype: float32

supprimer


supprimer     0.000397
niches        0.000180
presidents    0.000158
speciaux      0.000152
anciens       0.000144
fiscales      0.000124
regimes       0.000116
avantages     0.000115
privileges    0.000114
deputes       0.000106
Name: supprimer, dtype: float32

reduire


reduire            0.000399
reserver           0.000238
80                 0.000192
immigration        0.000189
train              0.000189
an                 0.000173
milliards          0.000120
multinationales    0.000119
fonctionnement     0.000118
cice               0.000117
Name: reduire, dtype: float32

tous


tous         0.000438
regimes      0.000136
citoyens     0.000117
avantages    0.000087
deputes      0.000085
francais     0.000078
revenu       0.000078
elus         0.000076
ans          0.000075
retraites    0.000068
Name: tous, dtype: float32

In [35]:
gc.collect()

105

# Question 5 : S'il faut selon vous revoir les conditions d'attribution de certaines aides sociales, lesquelles doivent être concernées ?

In [36]:
question_5 = "S'il faut selon vous revoir les conditions d\'attribution de certaines aides sociales, lesquelles doivent être concernées ?"
qu_5,df_qu_5_one_hot,df_cov_5,df_confidence_5,df_lift_5 = compute_similarities(question_5, new_res)

In [37]:
for i in df_qu_5_one_hot.sum(axis=0).sort_values(ascending=False).head(20).index:
    print(i)
    display(df_cov_5[i].sort_values(ascending=False).head(10))

aides


aides          15338
sociales        6053
allocations     2561
faut            2382
familiales      2164
aide            2130
enfants         1918
chomage         1902
travail         1812
revenus         1521
Name: aides, dtype: uint16

allocations


allocations    11198
familiales      8127
chomage         2798
enfants         2768
aides           2561
revenus         1748
rsa             1579
aide            1223
enfant          1205
familles        1137
Name: allocations, dtype: uint16

familiales


familiales     8870
allocations    8127
enfants        2495
aides          2164
revenus        1579
chomage        1524
rsa            1167
enfant         1085
allocation     1042
familles       1019
Name: familiales, dtype: uint16

chomage


chomage        7814
allocations    2798
aides          1902
familiales     1524
rsa            1498
allocation     1348
travail        1317
emploi         1100
aide            975
indemnites      865
Name: chomage, dtype: uint16

sociales


sociales       6666
aides          6053
faut           1247
allocations    1038
aide            883
travail         878
familiales      787
attribution     776
enfants         743
chomage         739
Name: sociales, dtype: uint16

aide


aide           5803
aides          2130
allocations    1223
sociale        1156
logement       1017
chomage         975
enfants         964
familiales      962
sociales        883
faut            878
Name: aide, dtype: uint16

rsa


rsa            5500
allocations    1579
chomage        1498
aides          1430
familiales     1167
travail         947
aide            781
apl             740
cmu             714
allocation      708
Name: rsa, dtype: uint16

enfants


enfants        4874
allocations    2768
familiales     2495
aides          1918
3              1179
aide            964
familles        938
parents         920
allocation      815
enfant          813
Name: enfants, dtype: uint16

faut


faut           4642
aides          2382
sociales       1247
allocations     922
aide            878
travail         818
faire           768
chomage         730
revoir          729
enfants         668
Name: faut, dtype: uint16

travail


travail        4046
aides          1812
chomage        1317
rsa             947
allocations     933
sociales        878
faut            818
aide            807
faire           615
enfants         585
Name: travail, dtype: uint16

revenus


revenus        3800
allocations    1748
familiales     1579
aides          1521
sociales        713
fonction        701
enfants         653
aide            575
chomage         552
hauts           425
Name: revenus, dtype: uint16

allocation


allocation     3687
chomage        1348
allocations    1128
familiales     1042
aides           888
enfants         815
rsa             708
rentree         702
scolaire        677
logement        653
Name: allocation, dtype: uint16

faire


faire          3150
aides          1455
allocations     817
enfants         777
faut            768
sociales        703
aide            690
travail         615
familiales      612
chomage         599
Name: faire, dtype: uint16

logement


logement       2994
aides          1288
allocations    1099
aide           1017
familiales      871
allocation      653
chomage         603
rsa             496
enfants         437
revenus         364
Name: logement, dtype: uint16

apl


apl            2840
allocations     926
aides           796
familiales      783
rsa             740
chomage         607
aide            379
enfants         376
sociales        322
allocation      320
Name: apl, dtype: uint16

attribution


attribution    2824
aides          1420
conditions     1082
revoir          790
sociales        776
allocations     636
faut            523
familiales      503
aide            498
chomage         472
Name: attribution, dtype: uint16

emploi


emploi         2736
aides          1163
chomage        1100
allocations     785
travail         575
rsa             562
aide            562
sociales        539
recherche       510
familiales      462
Name: emploi, dtype: uint16

revenu


revenu         2717
aides          1314
allocations     819
familiales      690
sociales        659
universel       616
aide            508
enfants         410
revenus         397
faut            386
Name: revenu, dtype: uint16

revoir


revoir         2692
aides          1336
attribution     790
faut            729
conditions      710
sociales        651
allocations     644
chomage         551
familiales      484
aide            431
Name: revoir, dtype: uint16

conditions


conditions     2567
aides          1211
attribution    1082
revoir          710
sociales        680
allocations     674
familiales      563
faut            505
chomage         446
ressources      443
Name: conditions, dtype: uint16

In [38]:
for i in df_qu_5_one_hot.sum(axis=0).sort_values(ascending=False).head(20).index:
    print(i)
    display(df_confidence_5[i].sort_values(ascending=False).head(10))

aides


aides         1.000000
sociales      0.908041
regrouper     0.782759
cumul         0.758621
accordees     0.725166
ensemble      0.677994
gestion       0.657480
attribuees    0.649526
donnees       0.644706
vivre         0.629596
Name: aides, dtype: float32

allocations


allocations     1.000000
familiales      0.916234
plafonnees      0.742947
chomages        0.731111
aisees          0.659574
enfant          0.607053
plafonnement    0.593525
4               0.588235
aises           0.574586
3               0.569514
Name: allocations, dtype: float32

familiales


familiales     1.000000
allocations    0.725755
plafonnees     0.658307
aisees         0.606383
enfant         0.546600
aises          0.535912
foyers         0.519894
4              0.516934
menages        0.515152
supprimees     0.514950
Name: familiales, dtype: float32

chomage


chomage          1.000000
indemnisation    0.847390
indemnite        0.829787
indemnites       0.804651
assurance        0.793103
duree            0.632325
chomeur          0.559140
longue           0.533333
periode          0.525490
6                0.511261
Name: chomage, dtype: float32

sociales


sociales       1.000000
cotisations    0.453172
aides          0.394641
prestations    0.391978
charges        0.380328
nationalite    0.363636
ensemble       0.357605
francaise      0.353535
attribuees     0.345061
citoyens       0.337107
Name: sociales, dtype: float32

aide


aide        1.000000
medicale    0.885077
sociale     0.514693
agees       0.355224
garde       0.345395
logement    0.339679
gratuite    0.331476
demande     0.330330
loyer       0.329577
social      0.329356
Name: aide, dtype: float32

rsa


rsa             1.000000
heures          0.509766
semaine         0.482014
travaux         0.418947
interet         0.401760
general         0.394316
contrepartie    0.348299
collectivite    0.344000
cmu             0.319177
beneficiaire    0.317949
Name: rsa, dtype: float32

enfants


enfants        1.000000
4              0.670232
garde          0.667763
3              0.658291
education      0.591703
ecole          0.589569
choix          0.574576
femmes         0.536946
parents        0.533643
delinquants    0.495627
Name: enfants, dtype: float32

faut


faut          1.000000
simplifier    0.368313
arreter       0.361809
sortir        0.338926
trouver       0.329016
remettre      0.319481
aider         0.313931
creer         0.296128
aller         0.288889
systeme       0.281867
Name: faut, dtype: float32

travail


travail      1.000000
noir         0.733333
chercher     0.562310
heures       0.515625
retrouver    0.486486
arrets       0.480211
semaine      0.467626
interet      0.458944
trouver      0.435233
general      0.422735
Name: travail, dtype: float32

revenus


revenus       1.000000
hauts         0.713087
fonction      0.438399
patrimoine    0.408935
eleves        0.364516
foyer         0.347630
compte        0.345667
foyers        0.331565
seuil         0.300403
couple        0.254206
Name: revenus, dtype: float32

allocation


allocation     1.000000
familiale      0.558310
isole          0.494090
parent         0.438931
fournitures    0.402655
versee         0.397924
rentree        0.387845
scolaire       0.387743
bons           0.315678
scolaires      0.315359
Name: allocation, dtype: float32

faire


faire        1.000000
sorte        0.678689
economies    0.459854
payer        0.322172
choix        0.276271
paye         0.249400
rester       0.246809
frais        0.243902
moyens       0.237261
societe      0.222689
Name: faire, dtype: float32

logement


logement      1.000000
loyer         0.433803
loyers        0.427928
hlm           0.348285
prix          0.339233
etudiants     0.257919
social        0.254177
logements     0.230678
sociaux       0.194962
allocation    0.177109
Name: logement, dtype: float32

apl


apl          1.000000
loyers       0.522523
loyer        0.433803
etudiants    0.399698
parents      0.151972
logements    0.151011
prime        0.142857
augmenter    0.136026
rsa          0.134545
caf          0.133762
Name: apl, dtype: float32

attribution


attribution    1.000000
conditions     0.421504
criteres       0.383041
revoir         0.293462
sociaux        0.208105
logements      0.197384
verifier       0.182580
controler      0.169082
controle       0.151549
compte         0.147030
Name: attribution, dtype: float32

emploi


emploi        1.000000
pole          0.967442
recherche     0.716292
demandeurs    0.439286
retrouver     0.416988
formation     0.399689
trouver       0.360104
obligation    0.267003
inciter       0.266932
emplois       0.245136
Name: emploi, dtype: float32

revenu


revenu        1.000000
universel     0.908555
fiscal        0.395018
base          0.380165
impot         0.369760
minimum       0.259762
seuil         0.247984
foyer         0.231377
solidarite    0.222958
niveau        0.207675
Name: revenu, dtype: float32

revoir


revoir          1.000000
attribution     0.279745
attributions    0.279026
conditions      0.276587
baisse          0.238411
politique       0.195122
systeme         0.167564
faut            0.157044
faudrait        0.150888
sociaux         0.118291
Name: revoir, dtype: float32

conditions


conditions      1.000000
attribution     0.383144
ressources      0.381239
attributions    0.368914
revoir          0.263744
acces           0.184725
faudrait        0.132150
mettre          0.124736
minimum         0.112903
faut            0.108789
Name: conditions, dtype: float32

In [39]:
for i in df_qu_5_one_hot.sum(axis=0).sort_values(ascending=False).head(20).index:
    print(i)
    display(df_lift_5[i].sort_values(ascending=False).head(10))

aides


aides         0.000065
sociales      0.000059
regrouper     0.000051
cumul         0.000049
accordees     0.000047
ensemble      0.000044
gestion       0.000043
attribuees    0.000042
donnees       0.000042
vivre         0.000041
Name: aides, dtype: float32

allocations


allocations     0.000089
familiales      0.000082
plafonnees      0.000066
chomages        0.000065
aisees          0.000059
enfant          0.000054
plafonnement    0.000053
4               0.000053
aises           0.000051
3               0.000051
Name: allocations, dtype: float32

familiales


familiales     0.000113
allocations    0.000082
plafonnees     0.000074
aisees         0.000068
enfant         0.000062
aises          0.000060
foyers         0.000059
4              0.000058
menages        0.000058
supprimees     0.000058
Name: familiales, dtype: float32

chomage


chomage          0.000128
indemnisation    0.000108
indemnite        0.000106
indemnites       0.000103
assurance        0.000101
duree            0.000081
chomeur          0.000072
longue           0.000068
periode          0.000067
6                0.000065
Name: chomage, dtype: float32

sociales


sociales       0.000150
cotisations    0.000068
aides          0.000059
prestations    0.000059
charges        0.000057
nationalite    0.000055
ensemble       0.000054
francaise      0.000053
attribuees     0.000052
citoyens       0.000051
Name: sociales, dtype: float32

aide


aide        0.000172
medicale    0.000153
sociale     0.000089
agees       0.000061
garde       0.000060
logement    0.000059
gratuite    0.000057
demande     0.000057
loyer       0.000057
social      0.000057
Name: aide, dtype: float32

rsa


rsa             0.000182
heures          0.000093
semaine         0.000088
travaux         0.000076
interet         0.000073
general         0.000072
contrepartie    0.000063
collectivite    0.000063
cmu             0.000058
beneficiaire    0.000058
Name: rsa, dtype: float32

enfants


enfants        0.000205
4              0.000138
garde          0.000137
3              0.000135
education      0.000121
ecole          0.000121
choix          0.000118
femmes         0.000110
parents        0.000109
delinquants    0.000102
Name: enfants, dtype: float32

faut


faut          0.000215
simplifier    0.000079
arreter       0.000078
sortir        0.000073
trouver       0.000071
remettre      0.000069
aider         0.000068
creer         0.000064
aller         0.000062
systeme       0.000061
Name: faut, dtype: float32

travail


travail      0.000247
noir         0.000181
chercher     0.000139
heures       0.000127
retrouver    0.000120
arrets       0.000119
semaine      0.000116
interet      0.000113
trouver      0.000108
general      0.000104
Name: travail, dtype: float32

revenus


revenus       0.000263
hauts         0.000188
fonction      0.000115
patrimoine    0.000108
eleves        0.000096
foyer         0.000091
compte        0.000091
foyers        0.000087
seuil         0.000079
couple        0.000067
Name: revenus, dtype: float32

allocation


allocation     0.000271
familiale      0.000151
isole          0.000134
parent         0.000119
fournitures    0.000109
versee         0.000108
rentree        0.000105
scolaire       0.000105
bons           0.000086
scolaires      0.000086
Name: allocation, dtype: float32

faire


faire        0.000317
sorte        0.000215
economies    0.000146
payer        0.000102
choix        0.000088
paye         0.000079
rester       0.000078
frais        0.000077
moyens       0.000075
societe      0.000071
Name: faire, dtype: float32

logement


logement      0.000334
loyer         0.000145
loyers        0.000143
hlm           0.000116
prix          0.000113
etudiants     0.000086
social        0.000085
logements     0.000077
sociaux       0.000065
allocation    0.000059
Name: logement, dtype: float32

apl


apl          0.000352
loyers       0.000184
loyer        0.000153
etudiants    0.000141
parents      0.000054
logements    0.000053
prime        0.000050
augmenter    0.000048
rsa          0.000047
caf          0.000047
Name: apl, dtype: float32

attribution


attribution    0.000354
conditions     0.000149
criteres       0.000136
revoir         0.000104
sociaux        0.000074
logements      0.000070
verifier       0.000065
controler      0.000060
controle       0.000054
compte         0.000052
Name: attribution, dtype: float32

emploi


emploi        0.000365
pole          0.000354
recherche     0.000262
demandeurs    0.000161
retrouver     0.000152
formation     0.000146
trouver       0.000132
obligation    0.000098
inciter       0.000098
emplois       0.000090
Name: emploi, dtype: float32

revenu


revenu        0.000368
universel     0.000334
fiscal        0.000145
base          0.000140
impot         0.000136
minimum       0.000096
seuil         0.000091
foyer         0.000085
solidarite    0.000082
niveau        0.000076
Name: revenu, dtype: float32

revoir


revoir          0.000371
attribution     0.000104
attributions    0.000104
conditions      0.000103
baisse          0.000089
politique       0.000072
systeme         0.000062
faut            0.000058
faudrait        0.000056
sociaux         0.000044
Name: revoir, dtype: float32

conditions


conditions      0.000390
attribution     0.000149
ressources      0.000149
attributions    0.000144
revoir          0.000103
acces           0.000072
faudrait        0.000051
mettre          0.000049
minimum         0.000044
faut            0.000042
Name: conditions, dtype: float32

In [40]:
gc.collect()

105

# Question 6 : Quels sont les domaines prioritaires où notre protection sociale doit être renforcée ?

In [41]:
question_6 = "Quels sont les domaines prioritaires où notre protection sociale doit être renforcée ?"
qu_6,df_qu_6_one_hot,df_cov_6,df_confidence_6,df_lift_6 = compute_similarities(question_6, new_res)

In [42]:
for i in df_qu_6_one_hot.sum(axis=0).sort_values(ascending=False).head(20).index:
    print(i)
    display(df_cov_6[i].sort_values(ascending=False).head(10))

sante


sante         14508
education      2012
logement       1115
retraite        986
agees           647
tous            645
retraites       644
soins           627
dependance      617
hopitaux        588
Name: sante, dtype: uint16

agees


agees          4422
aide            876
sante           647
dependantes     537
dependance      523
handicapes      502
enfants         471
charge          396
aides           376
handicapees     374
Name: agees, dtype: uint16

aide


aide          3942
agees          876
logement       568
sante          560
enfance        537
sociale        441
enfants        431
handicapes     370
familles       274
emploi         273
Name: aide, dtype: uint16

sociale


sociale       3569
protection    1840
securite      1198
sante          533
aide           441
faut           429
france         369
tous           346
faire          285
tout           274
Name: sociale, dtype: uint16

logement


logement     3321
sante        1115
aide          568
acces         299
tous          297
education     274
aides         249
social        184
droit         180
sociale       176
Name: logement, dtype: uint16

protection


protection    3295
sociale       1840
enfance        612
sante          497
faut           364
enfants        323
france         317
agees          314
pays           234
monde          230
Name: protection, dtype: uint16

retraite


retraite     3133
sante         986
maisons       530
retraites     403
agees         357
vie           353
maison        351
aide          258
chomage       248
tous          247
Name: retraite, dtype: uint16

retraites


retraites     3068
sante          644
petites        427
retraite       403
vie            379
maisons        273
aide           262
handicapes     241
tous           236
sociale        231
Name: retraites, dtype: uint16

education


education     3018
sante         2012
logement       274
enfants        219
enfance        209
formation      190
securite       186
tous           174
aide           173
protection     159
Name: education, dtype: uint16

dependance


dependance    2851
sante          617
agees          523
handicap       330
charge         231
aide           231
prise          210
vieillesse     192
retraite       184
age            172
Name: dependance, dtype: uint16

enfants


enfants       2520
agees          471
femmes         466
aide           431
seules         365
handicapes     333
protection     323
parents        300
sante          282
aides          271
Name: enfants, dtype: uint16

handicap


handicap      2462
sante          507
dependance     330
agees          303
vieillesse     278
enfance        250
situation      241
aide           217
maladie        203
enfants        169
Name: handicap, dtype: uint16

enfance


enfance       2406
protection     612
aide           537
sante          439
agees          365
petite         293
handicap       250
education      209
enfants        186
sociale        186
Name: enfance, dtype: uint16

tous


tous          2343
sante          645
sociale        346
soins          333
logement       297
acces          255
retraite       247
faut           246
retraites      236
protection     230
Name: tous, dtype: uint16

aides


aides        2289
agees         376
sociales      344
sante         303
enfants       271
aide          266
logement      249
faut          222
sociale       218
retraites     203
Name: aides, dtype: uint16

soins


soins            2273
sante             627
acces             569
dentaires         545
tous              333
charge            278
remboursement     266
medicaux          214
lunettes          211
sociale           206
Name: soins, dtype: uint16

handicapes


handicapes    1957
agees          502
aide           370
enfants        333
retraites      241
sante          183
aides          173
protection     124
familles       123
charge         122
Name: handicapes, dtype: uint16

charge


charge        1926
prise         1264
sante          518
agees          396
soins          278
enfants        238
sociale        236
dependance     231
aide           187
retraite       181
Name: charge, dtype: uint16

faut


faut          1925
sociale        429
sante          402
protection     364
faire          270
tous           246
tout           243
aides          222
aide           213
systeme        197
Name: faut, dtype: uint16

vie


vie          1856
fin           382
retraites     379
sante         366
retraite      353
aide          257
agees         252
tous          224
tout          212
sociale       211
Name: vie, dtype: uint16

In [43]:
for i in df_qu_6_one_hot.sum(axis=0).sort_values(ascending=False).head(20).index:
    print(i)
    display(df_confidence_6[i].sort_values(ascending=False).head(10))

sante


sante         1.000000
education     0.666667
justice       0.584577
publique      0.556291
prevention    0.494845
medecins      0.484502
soigner       0.484472
ecole         0.468421
domaine       0.456491
nationale     0.444015
Name: sante, dtype: float32

agees


agees          1.000000
dependantes    0.710317
isolees        0.470588
handicapees    0.440000
domicile       0.427885
maintien       0.425170
ephad          0.316770
ehpad          0.296343
accueil        0.294798
maison         0.263158
Name: agees, dtype: float32

aide


aide           1.000000
domicile       0.330128
demunis        0.322115
dependantes    0.244709
familles       0.242693
etudiants      0.238182
enfance        0.223192
emploi         0.215130
handicapees    0.210588
parents        0.208398
Name: aide, dtype: float32

sociale


sociale       1.000000
securite      0.702639
protection    0.558422
renforcee     0.511450
bonne         0.484940
renforcer     0.355522
france        0.314846
pays          0.311927
monde         0.308767
mutuelles     0.283333
Name: sociale, dtype: float32

logement


logement     1.000000
logements    0.342553
social       0.278366
droit        0.265487
rue          0.230769
acces        0.221154
demunis      0.189103
sdf          0.156118
aide         0.144089
emploi       0.130812
Name: logement, dtype: float32

protection


protection    1.000000
renforcee     0.544529
sociale       0.515551
bonne         0.472892
renforcer     0.340393
meilleure     0.303704
monde         0.292249
france        0.270478
pays          0.268349
niveau        0.256499
Name: protection, dtype: float32

retraite


retraite     1.000000
maison       0.769737
maisons      0.630952
pensions     0.387097
travaille    0.329146
cout         0.246998
payer        0.219325
ans          0.215333
minimum      0.195437
mois         0.193858
Name: retraite, dtype: float32

retraites


retraites    1.000000
petites      0.818008
inflation    0.732558
pensions     0.419355
petits       0.372694
maisons      0.325000
travaille    0.324121
cout         0.308748
salaires     0.308311
euros        0.305785
Name: retraites, dtype: float32

education


education    1.000000
nationale    0.571429
justice      0.343284
formation    0.220674
sante        0.138682
securite     0.109091
acces        0.106509
enfants      0.086905
enfance      0.086866
logement     0.082505
Name: education, dtype: float32

dependance


dependance    1.000000
age           0.185946
grande        0.180301
prise         0.149254
ehpad         0.136192
handicap      0.134037
charge        0.119938
agees         0.118272
vieillesse    0.106019
maladie       0.064910
Name: dependance, dtype: float32

enfants


enfants       1.000000
femmes        0.531357
seules        0.497275
parents       0.466563
familles      0.235607
enfant        0.208791
aider         0.177150
handicapes    0.170158
situation     0.160661
ans           0.158963
Name: enfants, dtype: float32

handicap


handicap      1.000000
situation     0.361862
vieillesse    0.153506
maladie       0.130463
age           0.120000
dependance    0.115749
enfance       0.103907
prise         0.084577
charge        0.078920
agees         0.068521
Name: handicap, dtype: float32

enfance


enfance       1.000000
petite        0.767016
protection    0.185736
aide          0.136225
handicap      0.101543
agees         0.082542
vieillesse    0.082275
enfants       0.073810
education     0.069251
handicapes    0.060807
Name: enfance, dtype: float32

tous


tous        1.000000
domaines    0.447084
ans         0.200676
mois        0.199616
droit       0.197640
services    0.194231
acces       0.188609
francais    0.177936
pouvoir     0.168421
faire       0.157856
Name: tous, dtype: float32

aides


aides          1.000000
sociales       0.488636
domicile       0.235577
besoin         0.203774
revenu         0.150498
revenus        0.136076
handicapees    0.125882
francais       0.123369
faut           0.115325
faire          0.115272
Name: aides, dtype: float32

soins


soins            1.000000
dentaires        0.626437
acces            0.420858
qualite          0.356401
medicaux         0.349103
remboursement    0.334171
lunettes         0.322137
medicaments      0.252772
medecins         0.185971
charge           0.144341
Name: soins, dtype: float32

handicapes


handicapes    1.000000
enfants       0.132143
agees         0.113523
familles      0.108946
aide          0.093861
retraites     0.078553
aides         0.075579
charge        0.063344
enfance       0.049460
protection    0.037633
Name: handicapes, dtype: float32

charge


charge       1.000000
prise        0.898365
prendre      0.373178
meilleure    0.298765
frais        0.210037
maladies     0.168558
dentaires    0.149425
ehpad        0.145019
soins        0.122305
age          0.110270
Name: charge, dtype: float32

faut


faut         1.000000
renforcer    0.295008
mettre       0.265700
systeme      0.199191
faire        0.198238
aider        0.196406
mieux        0.192708
depenses     0.187611
pouvoir      0.177444
moyens       0.173554
Name: faut, dtype: float32

vie


vie          1.000000
fin          0.697080
travaille    0.452261
cout         0.349914
pouvoir      0.201504
vivre        0.186978
tout         0.139199
aider        0.133504
ans          0.127396
retraites    0.123533
Name: vie, dtype: float32

In [44]:
for i in df_qu_6_one_hot.sum(axis=0).sort_values(ascending=False).head(20).index:
    print(i)
    display(df_lift_6[i].sort_values(ascending=False).head(10))

sante


sante         0.000069
education     0.000046
justice       0.000040
publique      0.000038
prevention    0.000034
medecins      0.000033
soigner       0.000033
ecole         0.000032
domaine       0.000031
nationale     0.000031
Name: sante, dtype: float32

agees


agees          0.000226
dependantes    0.000161
isolees        0.000106
handicapees    0.000100
domicile       0.000097
maintien       0.000096
ephad          0.000072
ehpad          0.000067
accueil        0.000067
maison         0.000060
Name: agees, dtype: float32

aide


aide           0.000254
domicile       0.000084
demunis        0.000082
dependantes    0.000062
familles       0.000062
etudiants      0.000060
enfance        0.000057
emploi         0.000055
handicapees    0.000053
parents        0.000053
Name: aide, dtype: float32

sociale


sociale       0.000280
securite      0.000197
protection    0.000156
renforcee     0.000143
bonne         0.000136
renforcer     0.000100
france        0.000088
pays          0.000087
monde         0.000087
mutuelles     0.000079
Name: sociale, dtype: float32

logement


logement     0.000301
logements    0.000103
social       0.000084
droit        0.000080
rue          0.000069
acces        0.000067
demunis      0.000057
sdf          0.000047
aide         0.000043
emploi       0.000039
Name: logement, dtype: float32

protection


protection    0.000303
renforcee     0.000165
sociale       0.000156
bonne         0.000144
renforcer     0.000103
meilleure     0.000092
monde         0.000089
france        0.000082
pays          0.000081
niveau        0.000078
Name: protection, dtype: float32

retraite


retraite     0.000319
maison       0.000246
maisons      0.000201
pensions     0.000124
travaille    0.000105
cout         0.000079
payer        0.000070
ans          0.000069
minimum      0.000062
mois         0.000062
Name: retraite, dtype: float32

retraites


retraites    0.000326
petites      0.000267
inflation    0.000239
pensions     0.000137
petits       0.000121
maisons      0.000106
travaille    0.000106
cout         0.000101
salaires     0.000100
euros        0.000100
Name: retraites, dtype: float32

education


education    0.000331
nationale    0.000189
justice      0.000114
formation    0.000073
sante        0.000046
securite     0.000036
acces        0.000035
enfants      0.000029
enfance      0.000029
logement     0.000027
Name: education, dtype: float32

dependance


dependance    0.000351
age           0.000065
grande        0.000063
prise         0.000052
ehpad         0.000048
handicap      0.000047
charge        0.000042
agees         0.000041
vieillesse    0.000037
maladie       0.000023
Name: dependance, dtype: float32

enfants


enfants       0.000397
femmes        0.000211
seules        0.000197
parents       0.000185
familles      0.000093
enfant        0.000083
aider         0.000070
handicapes    0.000068
situation     0.000064
ans           0.000063
Name: enfants, dtype: float32

handicap


handicap      0.000406
situation     0.000147
vieillesse    0.000062
maladie       0.000053
age           0.000049
dependance    0.000047
enfance       0.000042
prise         0.000034
charge        0.000032
agees         0.000028
Name: handicap, dtype: float32

enfance


enfance       0.000416
petite        0.000319
protection    0.000077
aide          0.000057
handicap      0.000042
agees         0.000034
vieillesse    0.000034
enfants       0.000031
education     0.000029
handicapes    0.000025
Name: enfance, dtype: float32

tous


tous        0.000427
domaines    0.000191
ans         0.000086
mois        0.000085
droit       0.000084
services    0.000083
acces       0.000080
francais    0.000076
pouvoir     0.000072
faire       0.000067
Name: tous, dtype: float32

aides


aides          0.000437
sociales       0.000213
domicile       0.000103
besoin         0.000089
revenu         0.000066
revenus        0.000059
handicapees    0.000055
francais       0.000054
faut           0.000050
faire          0.000050
Name: aides, dtype: float32

soins


soins            0.000440
dentaires        0.000276
acces            0.000185
qualite          0.000157
medicaux         0.000154
remboursement    0.000147
lunettes         0.000142
medicaments      0.000111
medecins         0.000082
charge           0.000064
Name: soins, dtype: float32

handicapes


handicapes    0.000511
enfants       0.000068
agees         0.000058
familles      0.000056
aide          0.000048
retraites     0.000040
aides         0.000039
charge        0.000032
enfance       0.000025
protection    0.000019
Name: handicapes, dtype: float32

charge


charge       0.000519
prise        0.000466
prendre      0.000194
meilleure    0.000155
frais        0.000109
maladies     0.000088
dentaires    0.000078
ehpad        0.000075
soins        0.000064
age          0.000057
Name: charge, dtype: float32

faut


faut         0.000519
renforcer    0.000153
mettre       0.000138
systeme      0.000103
faire        0.000103
aider        0.000102
mieux        0.000100
depenses     0.000097
pouvoir      0.000092
moyens       0.000090
Name: faut, dtype: float32

vie


vie          0.000539
fin          0.000376
travaille    0.000244
cout         0.000189
pouvoir      0.000109
vivre        0.000101
tout         0.000075
aider        0.000072
ans          0.000069
retraites    0.000067
Name: vie, dtype: float32

In [45]:
gc.collect()

105

# Question 7 : Pour quelle(s) politique(s) publique(s) ou pour quels domaines d'action publique, seriez-vous prêts à payer plus d'impôts ?

In [46]:
question_7 = "Pour quelle(s) politique(s) publique(s) ou pour quels domaines d\'action publique, seriez-vous prêts à payer plus d\'impôts ?"
qu_7,df_qu_7_one_hot,df_cov_7,df_confidence_7,df_lift_7 = compute_similarities(question_7, new_res)

In [47]:
for i in df_qu_7_one_hot.sum(axis=0).sort_values(ascending=False).head(20).index:
    print(i)
    display(df_cov_7[i].sort_values(ascending=False).head(10))

sante


sante            8094
education        3389
securite          934
justice           651
recherche         470
environnement     370
ecologie          306
hopitaux          297
impots            295
publique          291
Name: sante, dtype: uint16

education


education        7164
sante            3389
justice           691
securite          682
recherche         637
nationale         637
formation         385
environnement     381
transition        315
ecologie          313
Name: education, dtype: uint16

aucun


aucun       7009
impots      1091
faut         716
impot        515
paye         504
depenses     434
payer        405
mieux        393
faire        388
argent       372
Name: aucun, dtype: uint16

impots


impots       6729
payer        2401
aucun        1091
faut         1080
paye          697
mieux         679
augmenter     648
faire         627
depenses      613
france        558
Name: impots, dtype: uint16

payer


payer     4272
impots    2401
impot      990
pret       693
faut       601
faire      598
mieux      468
aucun      405
tout       401
argent     382
Name: payer, dtype: uint16

faut


faut         2895
impots       1080
aucun         716
payer         601
faire         536
mieux         534
depenses      514
impot         437
augmenter     346
argent        337
Name: faut, dtype: uint16

impot


impot     2806
payer      990
impots     531
aucun      515
faut       437
faire      296
paye       295
tout       285
mieux      283
tous       280
Name: impot, dtype: uint16

securite


securite     2472
sante         934
education     682
justice       413
defense       303
sociale       225
police        164
recherche     123
publique      121
impots        114
Name: securite, dtype: uint16

faire


faire        2036
impots        627
payer         598
faut          536
economies     483
aucun         388
impot         296
mieux         271
tout          260
depenses      231
Name: faire, dtype: uint16

transition


transition     2005
ecologique     1572
energetique     405
education       315
sante           269
recherche       140
impots          125
supprimer         0
effort            0
payons            0
Name: transition, dtype: uint16

justice


justice      2003
education     691
sante         651
securite      413
police        366
defense       250
impots        173
payer         131
recherche     129
armee         124
Name: justice, dtype: uint16

paye


paye            1891
impots           697
aucun            504
impot            295
payer            292
suffisamment     202
tout             196
faut             176
tous             124
faire            121
Name: paye, dtype: uint16

tous


tous         1828
impots        468
payer         352
impot         280
faut          240
education     231
sante         223
faire         220
tout          208
aucun         203
Name: tous, dtype: uint16

ecologique


ecologique    1812
transition    1572
education      276
sante          233
impots         142
politique      129
recherche      120
effort           0
monde            0
revenu           0
Name: ecologique, dtype: uint16

mieux


mieux       1807
impots       679
faut         534
payer        468
aucun        393
argent       299
impot        283
repartir     279
faire        271
gerer        240
Name: mieux, dtype: uint16

tout


tout         1794
impots        514
monde         412
payer         401
faut          298
impot         285
faire         260
aucun         256
education     217
tous          208
Name: tout, dtype: uint16

depenses


depenses     1771
impots        613
faut          514
aucun         434
publiques     412
payer         342
reduire       290
faire         231
impot         228
augmenter     213
Name: depenses, dtype: uint16

recherche


recherche        1731
education         637
sante             470
enseignement      144
transition        140
justice           129
securite          123
ecologique        120
developpement     118
defense           105
Name: recherche, dtype: uint16

france


france    1600
impots     558
pays       344
aucun      337
faut       293
payer      279
impot      232
faire      214
monde      210
tout       157
Name: france, dtype: uint16

argent


argent    1568
impots     521
payer      382
aucun      372
faut       337
mieux      299
public     250
faire      217
impot      198
tout       169
Name: argent, dtype: uint16

In [48]:
for i in df_qu_7_one_hot.sum(axis=0).sort_values(ascending=False).head(20).index:
    print(i)
    display(df_confidence_7[i].sort_values(ascending=False).head(10))

sante


sante        1.000000
education    0.473060
securite     0.377832
culture      0.330724
justice      0.325012
personnel    0.324324
ecole        0.320225
armee        0.317259
police       0.316411
transport    0.298050
Name: sante, dtype: float32

education


education          1.000000
nationale          0.697700
culture            0.569472
sante              0.418705
formation          0.402720
professionnelle    0.376384
recherche          0.367995
justice            0.344983
jeunes             0.320000
enfants            0.317212
Name: education, dtype: float32

aucun


aucun           1.000000
prelevements    0.313953
gerer           0.305085
baisser         0.272124
economies       0.268508
paye            0.266526
imposition      0.260204
payons          0.256845
faut            0.247323
depenses        0.245059
Name: aucun, dtype: float32

impots


impots       1.000000
prete        0.623377
pret         0.597964
veux         0.594595
augmenter    0.589627
souhaite     0.581395
payer        0.562032
payons       0.552803
taxes        0.551887
moyennes     0.496212
Name: impots, dtype: float32

payer


payer        1.000000
prete        0.899351
pret         0.881679
veux         0.794595
souhaite     0.686047
davantage    0.480836
agit         0.480469
riches       0.404215
impots       0.356814
impot        0.352815
Name: payer, dtype: float32

faut


faut         1.000000
arreter      0.512397
baisser      0.457965
repartir     0.414894
revoir       0.408740
reduire      0.377693
diminuer     0.375676
utiliser     0.340000
supprimer    0.333333
augmenter    0.314832
Name: faut, dtype: float32

impot


impot           1.000000
revenu          0.369775
pret            0.282443
tva             0.237089
payer           0.231742
question        0.216667
taxe            0.215847
repartition     0.211577
revenus         0.207951
augmentation    0.193448
Name: impot, dtype: float32

securite


securite     1.000000
defense      0.306370
sociale      0.238600
justice      0.206191
police       0.193625
nationale    0.120482
sante        0.115394
education    0.095198
publique     0.086182
recherche    0.071057
Name: securite, dtype: float32

faire


faire          1.000000
economies      0.533702
exemple        0.203785
faut           0.185147
travail        0.176548
entreprises    0.166909
francais       0.165441
mieux          0.149972
niveau         0.148964
public         0.146184
Name: faire, dtype: float32

transition


transition     1.000000
ecologique     0.867550
energetique    0.861702
recherche      0.080878
education      0.043970
sante          0.033234
impots         0.018576
supprimer      0.000000
effort         0.000000
payons         0.000000
Name: transition, dtype: float32

justice


justice      1.000000
police       0.432113
armee        0.314721
defense      0.252781
securite     0.167071
moyens       0.134591
fiscale      0.132196
sociale      0.131495
nationale    0.118291
education    0.096454
Name: justice, dtype: float32

paye


paye            1.000000
suffisamment    0.239053
monde           0.110365
tout            0.109253
impot           0.105132
impots          0.103582
argent          0.075255
aucun           0.071908
payer           0.068352
tous            0.067834
Name: paye, dtype: float32

tous


tous        1.000000
domaines    0.313830
citoyens    0.199659
francais    0.164216
revenus     0.163609
services    0.131287
moyens      0.129560
vie         0.128780
publics     0.116226
tout        0.115942
Name: tous, dtype: float32

ecologique


ecologique    1.000000
transition    0.784040
politique     0.103118
recherche     0.069324
education     0.038526
sante         0.028787
impots        0.021103
effort        0.000000
monde         0.000000
revenu        0.000000
Name: ecologique, dtype: float32

mieux


mieux        1.000000
repartir     0.742021
utiliser     0.657143
gerer        0.581114
argent       0.190689
faut         0.184456
public       0.152652
augmenter    0.143767
faire        0.133104
payer        0.109551
Name: mieux, dtype: float32

tout


tout       1.000000
monde      0.395393
exemple    0.157205
vie        0.138537
travail    0.134387
faire      0.127701
tous       0.113786
argent     0.107781
paye       0.103649
faut       0.102936
Name: tout, dtype: float32

depenses


depenses     1.000000
publiques    0.407921
reduire      0.367554
diminuer     0.318919
baisser      0.274336
augmenter    0.193813
faut         0.177547
economies    0.152486
faire        0.113458
mieux        0.101826
Name: depenses, dtype: float32

recherche


recherche        1.000000
enseignement     0.222222
developpement    0.187302
defense          0.106168
education        0.088917
transition       0.069825
ecologique       0.066225
justice          0.064403
sante            0.058068
securite         0.049757
Name: recherche, dtype: float32

france


france          1.000000
prelevements    0.283721
pays            0.260606
monde           0.201536
francais        0.155637
niveau          0.139896
augmenter       0.112830
fiscale         0.110874
faire           0.105108
faut            0.101209
Name: france, dtype: float32

argent


argent      1.000000
public      0.323415
mal         0.242798
depense     0.194495
mieux       0.165468
francais    0.123775
faut        0.116408
faire       0.106582
tout        0.094203
payer       0.089419
Name: argent, dtype: float32

In [49]:
for i in df_qu_7_one_hot.sum(axis=0).sort_values(ascending=False).head(20).index:
    print(i)
    display(df_lift_7[i].sort_values(ascending=False).head(10))

sante


sante        0.000124
education    0.000058
securite     0.000047
culture      0.000041
justice      0.000040
personnel    0.000040
ecole        0.000040
armee        0.000039
police       0.000039
transport    0.000037
Name: sante, dtype: float32

education


education          0.000140
nationale          0.000097
culture            0.000079
sante              0.000058
formation          0.000056
professionnelle    0.000053
recherche          0.000051
justice            0.000048
jeunes             0.000045
enfants            0.000044
Name: education, dtype: float32

aucun


aucun           0.000143
prelevements    0.000045
gerer           0.000044
baisser         0.000039
economies       0.000038
paye            0.000038
imposition      0.000037
payons          0.000037
faut            0.000035
depenses        0.000035
Name: aucun, dtype: float32

impots


impots       0.000149
prete        0.000093
pret         0.000089
veux         0.000088
augmenter    0.000088
souhaite     0.000086
payer        0.000084
payons       0.000082
taxes        0.000082
moyennes     0.000074
Name: impots, dtype: float32

payer


payer        0.000234
prete        0.000211
pret         0.000206
veux         0.000186
souhaite     0.000161
davantage    0.000113
agit         0.000112
riches       0.000095
impots       0.000084
impot        0.000083
Name: payer, dtype: float32

faut


faut         0.000345
arreter      0.000177
baisser      0.000158
repartir     0.000143
revoir       0.000141
reduire      0.000130
diminuer     0.000130
utiliser     0.000117
supprimer    0.000115
augmenter    0.000109
Name: faut, dtype: float32

impot


impot           0.000356
revenu          0.000132
pret            0.000101
tva             0.000084
payer           0.000083
question        0.000077
taxe            0.000077
repartition     0.000075
revenus         0.000074
augmentation    0.000069
Name: impot, dtype: float32

securite


securite     0.000405
defense      0.000124
sociale      0.000097
justice      0.000083
police       0.000078
nationale    0.000049
sante        0.000047
education    0.000039
publique     0.000035
recherche    0.000029
Name: securite, dtype: float32

faire


faire          0.000491
economies      0.000262
exemple        0.000100
faut           0.000091
travail        0.000087
entreprises    0.000082
francais       0.000081
mieux          0.000074
niveau         0.000073
public         0.000072
Name: faire, dtype: float32

transition


transition     0.000499
ecologique     0.000433
energetique    0.000430
recherche      0.000040
education      0.000022
sante          0.000017
impots         0.000009
personnel           NaN
justice             NaN
fiscale             NaN
Name: transition, dtype: float32

justice


justice      0.000499
police       0.000216
armee        0.000157
defense      0.000126
securite     0.000083
moyens       0.000067
fiscale      0.000066
sociale      0.000066
nationale    0.000059
education    0.000048
Name: justice, dtype: float32

paye


paye            0.000529
suffisamment    0.000126
monde           0.000058
tout            0.000058
impot           0.000056
impots          0.000055
argent          0.000040
aucun           0.000038
payer           0.000036
tous            0.000036
Name: paye, dtype: float32

tous


tous        0.000547
domaines    0.000172
citoyens    0.000109
francais    0.000090
revenus     0.000090
services    0.000072
moyens      0.000071
vie         0.000070
publics     0.000064
tout        0.000063
Name: tous, dtype: float32

ecologique


ecologique    0.000552
transition    0.000433
politique     0.000057
recherche     0.000038
education     0.000021
sante         0.000016
impots        0.000012
personnel          NaN
justice            NaN
fiscale            NaN
Name: ecologique, dtype: float32

mieux


mieux        0.000553
repartir     0.000411
utiliser     0.000364
gerer        0.000322
argent       0.000106
faut         0.000102
public       0.000084
augmenter    0.000080
faire        0.000074
payer        0.000061
Name: mieux, dtype: float32

tout


tout       0.000557
monde      0.000220
exemple    0.000088
vie        0.000077
travail    0.000075
faire      0.000071
tous       0.000063
argent     0.000060
paye       0.000058
faut       0.000057
Name: tout, dtype: float32

depenses


depenses     0.000565
publiques    0.000230
reduire      0.000208
diminuer     0.000180
baisser      0.000155
augmenter    0.000109
faut         0.000100
economies    0.000086
faire        0.000064
mieux        0.000057
Name: depenses, dtype: float32

recherche


recherche        0.000578
enseignement     0.000128
developpement    0.000108
defense          0.000061
education        0.000051
transition       0.000040
ecologique       0.000038
justice          0.000037
sante            0.000034
securite         0.000029
Name: recherche, dtype: float32

france


france          0.000625
prelevements    0.000177
pays            0.000163
monde           0.000126
francais        0.000097
niveau          0.000087
augmenter       0.000071
fiscale         0.000069
faire           0.000066
faut            0.000063
Name: france, dtype: float32

argent


argent      0.000638
public      0.000206
mal         0.000155
depense     0.000124
mieux       0.000106
francais    0.000079
faut        0.000074
faire       0.000068
tout        0.000060
payer       0.000057
Name: argent, dtype: float32

In [50]:
gc.collect()

126

# Question 8 : Y a-t-il d'autres points sur les impôts et les dépenses sur lesquels vous souhaiteriez vous exprimer ?

In [51]:
question_8 = "Y a-t-il d\'autres points sur les impôts et les dépenses sur lesquels vous souhaiteriez vous exprimer ?"
qu_8,df_qu_8_one_hot,df_cov_8,df_confidence_8,df_lift_8 = compute_similarities(question_8, new_res)

In [52]:
for i in df_qu_8_one_hot.sum(axis=0).sort_values(ascending=False).head(20).index:
    print(i)
    display(df_cov_8[i].sort_values(ascending=False).head(10))

impots


impots         8014
payer          2086
faut           1937
faire          1910
tous           1902
tout           1856
impot          1843
france         1744
depenses       1587
entreprises    1304
Name: impots, dtype: uint16

faut


faut         7863
faire        2215
impots       1937
tous         1869
tout         1817
depenses     1811
impot        1587
france       1523
supprimer    1351
vie          1287
Name: faut, dtype: uint16

tous


tous         7664
faire        2069
impot        1938
impots       1902
faut         1869
tout         1805
depenses     1609
france       1561
supprimer    1532
vie          1454
Name: tous, dtype: uint16

depenses


depenses          7646
publiques         1873
faut              1811
faire             1714
tous              1609
reduire           1608
impots            1587
tout              1375
elus              1240
fonctionnaires    1236
Name: depenses, dtype: uint16

faire


faire       7520
faut        2215
tous        2069
tout        1978
impots      1910
payer       1734
depenses    1714
france      1659
impot       1545
exemple     1402
Name: faire, dtype: uint16

impot


impot      7083
revenu     1972
tous       1938
impots     1843
tout       1713
faut       1587
payer      1584
faire      1545
revenus    1495
france     1380
Name: impot, dtype: uint16

tout


tout        6609
faire       1978
monde       1933
impots      1856
faut        1817
tous        1805
impot       1713
france      1421
payer       1404
depenses    1375
Name: tout, dtype: uint16

france


france         5585
impots         1744
faire          1659
pays           1582
tous           1561
faut           1523
francais       1493
tout           1421
impot          1380
entreprises    1290
Name: france, dtype: uint16

supprimer


supprimer         5225
tous              1532
faut              1351
faire             1204
avantages         1128
reduire           1116
nombre            1108
depenses          1074
fonctionnaires    1049
tout              1028
Name: supprimer, dtype: uint16

vie


vie          5197
train        1813
tous         1454
retraites    1348
faut         1287
faire        1244
tout         1225
reduire      1170
retraite     1148
depenses     1145
Name: vie, dtype: uint16

payer


payer          4805
impots         2086
faire          1734
impot          1584
tout           1404
tous           1297
france         1184
faut           1179
francais        902
entreprises     817
Name: payer, dtype: uint16

retraites


retraites    4663
retraite     1502
tous         1388
vie          1348
csg          1199
faire         992
faut          953
tout          921
salaires      902
supprimer     884
Name: retraites, dtype: uint16

entreprises


entreprises    4650
faire          1321
impots         1304
france         1290
impot          1252
faut           1216
tous           1120
tout           1015
fiscale        1009
depenses        855
Name: entreprises, dtype: uint16

exemple


exemple     4474
faire       1402
tous        1285
faut        1231
depenses    1211
tout        1172
impots      1133
france      1027
impot        985
vie          954
Name: exemple, dtype: uint16

reduire


reduire           4367
depenses          1608
nombre            1383
faut              1244
vie               1170
supprimer         1116
tous              1019
fonctionnaires     988
faire              983
impots             859
Name: reduire, dtype: uint16

fonctionnaires


fonctionnaires    4255
hauts             1808
nombre            1310
tous              1247
depenses          1236
salaires          1116
faire             1078
supprimer         1049
avantages         1015
reduire            988
Name: fonctionnaires, dtype: uint16

argent


argent      4150
faire       1207
faut        1192
impots      1031
tout        1010
tous         985
depenses     921
public       911
france       905
impot        772
Name: argent, dtype: uint16

francais


francais    4110
france      1493
tous        1382
impots      1286
faire       1281
tout        1185
impot       1169
faut        1161
pays         947
payer        902
Name: francais, dtype: uint16

revenus


revenus    4074
impot      1495
tous       1307
impots     1288
tout       1028
faire       980
revenu      939
faut        933
france      828
payer       784
Name: revenus, dtype: uint16

pays


pays        4029
france      1582
faire       1274
tous        1224
faut        1174
impots      1128
tout        1113
depenses    1001
francais     947
impot        922
Name: pays, dtype: uint16

In [53]:
for i in df_qu_8_one_hot.sum(axis=0).sort_values(ascending=False).head(20).index:
    print(i)
    display(df_confidence_8[i].sort_values(ascending=False).head(10))

impots


impots     1.000000
credits    0.562264
payent     0.539519
payons     0.528736
paient     0.514620
locaux     0.492754
paie       0.485313
payant     0.454902
taxes      0.445946
payer      0.434131
Name: impots, dtype: float32

faut


faut               1.000000
indecents          0.573529
longue             0.560907
liste              0.511002
theodule           0.501577
bareme             0.495356
assemblees         0.489362
courage            0.467577
recommandations    0.467391
progressif         0.464503
Name: faut, dtype: float32

tous


tous         1.000000
niveaux      0.616027
regimes      0.509839
jours        0.501524
regime       0.475694
foyers       0.473684
objectifs    0.471572
speciaux     0.463557
origine      0.463035
applique     0.454545
Name: tous, dtype: float32

depenses


depenses         1.000000
publiques        0.640780
liees            0.615183
militaires       0.552083
deplacements     0.544586
inutiles         0.537364
territoriales    0.510885
reduisant        0.477032
recettes         0.475578
elysee           0.467442
Name: depenses, dtype: float32

faire


faire        1.000000
objet        0.655488
sorte        0.638835
chasse       0.598466
economies    0.595152
menage       0.564024
efforts      0.562610
attention    0.547368
face         0.512472
venir        0.503448
Name: faire, dtype: float32

impot


impot            1.000000
progressivite    0.703422
credit           0.641441
fortune          0.633700
progressif       0.592292
tranches         0.586002
revenu           0.581711
assiette         0.579365
tranche          0.562602
symbolique       0.541910
Name: impot, dtype: float32

tout


tout          1.000000
monde         0.720194
genre         0.635821
simplement    0.583756
long          0.478261
arrive        0.456835
evidemment    0.448148
gratuit       0.445312
final         0.438202
vouloir       0.436667
Name: tout, dtype: float32

france


france        1.000000
etranger      0.595217
etrangers     0.527529
chiffre       0.523697
francaises    0.515044
9             0.496970
allemagne     0.496583
banque        0.488449
affaires      0.485623
francaise     0.478769
Name: france, dtype: float32

supprimer


supprimer          1.000000
theodule           0.700315
comites            0.607639
cese               0.585657
assemblees         0.571429
indecents          0.544118
conseillers        0.503529
recommandations    0.483696
bareme             0.467492
liste              0.459658
Name: supprimer, dtype: float32

vie


vie            1.000000
train          0.906047
indecents      0.580882
assemblees     0.541033
longue         0.515581
theodule       0.507886
conseillers    0.477647
liste          0.474328
bareme         0.461300
chauffeur      0.440273
Name: vie, dtype: float32

payer


payer         1.000000
devoir        0.378378
loyer         0.346939
acheter       0.326590
maison        0.324731
imposable     0.313679
symbolique    0.294347
residence     0.293722
gagne         0.292945
vendre        0.291892
Name: payer, dtype: float32

retraites


retraites         1.000000
indexation        0.838816
indexer           0.818777
inflation         0.717627
revalorisation    0.691700
pensions          0.627696
actifs            0.626327
csg               0.585449
cotise            0.557641
hausse            0.471366
Name: retraites, dtype: float32

entreprises


entreprises     1.000000
francaises      0.653097
grandes         0.583710
actionnaires    0.578475
cice            0.563855
dividendes      0.561313
tpe             0.557576
benefices       0.553114
pme             0.533079
particuliers    0.528926
Name: entreprises, dtype: float32

exemple


exemple      1.000000
montrer      0.691566
venir        0.362069
paris        0.355556
9            0.354545
decision     0.347079
12           0.344353
allemagne    0.341686
efforts      0.333333
petite       0.328446
Name: exemple, dtype: float32

reduire


reduire            1.000000
theodule           0.548896
indecents          0.540441
drastiquement      0.531818
assemblees         0.525836
conseillers        0.468235
recommandations    0.432065
longue             0.419263
train              0.418791
comites            0.413194
Name: reduire, dtype: float32

fonctionnaires


fonctionnaires    1.000000
hauts             0.779646
fonctionnaire     0.444113
enseignants       0.419142
remunerations     0.417230
statut            0.416514
postes            0.409511
primes            0.400679
prive             0.388235
administratifs    0.375000
Name: fonctionnaires, dtype: float32

argent


argent        1.000000
indecents     0.470588
caisses       0.450397
utilise       0.438776
theodule      0.416404
assemblees    0.413374
gaspillage    0.399676
depenser      0.386328
bareme        0.383901
longue        0.382436
Name: argent, dtype: float32

francais


francais      1.000000
etranger      0.443756
etrangers     0.426376
francaises    0.371681
territoire    0.354839
francaise     0.354565
majorite      0.342857
jaunes        0.321337
9             0.321212
80            0.317891
Name: francais, dtype: float32

revenus


revenus          1.000000
faibles          0.526163
imposables       0.459732
modestes         0.448387
tranche          0.435772
progressivite    0.433460
immobiliers      0.431298
capital          0.428803
declaration      0.413174
tranches         0.403321
Name: revenus, dtype: float32

pays


pays             1.000000
europeens        0.583882
origine          0.513619
europe           0.435967
allemagne        0.403189
etrangers        0.391805
europeen         0.367491
pib              0.363636
developpement    0.362543
paradis          0.354128
Name: pays, dtype: float32

In [54]:
for i in df_qu_8_one_hot.sum(axis=0).sort_values(ascending=False).head(20).index:
    print(i)
    display(df_lift_8[i].sort_values(ascending=False).head(10))

impots


impots     0.000125
credits    0.000070
payent     0.000067
payons     0.000066
paient     0.000064
locaux     0.000061
paie       0.000061
payant     0.000057
taxes      0.000056
payer      0.000054
Name: impots, dtype: float32

faut


faut               0.000127
indecents          0.000073
longue             0.000071
liste              0.000065
theodule           0.000064
bareme             0.000063
assemblees         0.000062
courage            0.000059
recommandations    0.000059
progressif         0.000059
Name: faut, dtype: float32

tous


tous         0.000130
niveaux      0.000080
regimes      0.000067
jours        0.000065
regime       0.000062
foyers       0.000062
objectifs    0.000062
speciaux     0.000060
origine      0.000060
applique     0.000059
Name: tous, dtype: float32

depenses


depenses         0.000131
publiques        0.000084
liees            0.000080
militaires       0.000072
deplacements     0.000071
inutiles         0.000070
territoriales    0.000067
reduisant        0.000062
recettes         0.000062
elysee           0.000061
Name: depenses, dtype: float32

faire


faire        0.000133
objet        0.000087
sorte        0.000085
chasse       0.000080
economies    0.000079
menage       0.000075
efforts      0.000075
attention    0.000073
face         0.000068
venir        0.000067
Name: faire, dtype: float32

impot


impot            0.000141
progressivite    0.000099
credit           0.000091
fortune          0.000089
progressif       0.000084
tranches         0.000083
revenu           0.000082
assiette         0.000082
tranche          0.000079
symbolique       0.000077
Name: impot, dtype: float32

tout


tout          0.000151
monde         0.000109
genre         0.000096
simplement    0.000088
long          0.000072
arrive        0.000069
evidemment    0.000068
gratuit       0.000067
final         0.000066
vouloir       0.000066
Name: tout, dtype: float32

france


france        0.000179
etranger      0.000107
etrangers     0.000094
chiffre       0.000094
francaises    0.000092
9             0.000089
allemagne     0.000089
banque        0.000087
affaires      0.000087
francaise     0.000086
Name: france, dtype: float32

supprimer


supprimer          0.000191
theodule           0.000134
comites            0.000116
cese               0.000112
assemblees         0.000109
indecents          0.000104
conseillers        0.000096
recommandations    0.000093
bareme             0.000089
liste              0.000088
Name: supprimer, dtype: float32

vie


vie            0.000192
train          0.000174
indecents      0.000112
assemblees     0.000104
longue         0.000099
theodule       0.000098
conseillers    0.000092
liste          0.000091
bareme         0.000089
chauffeur      0.000085
Name: vie, dtype: float32

payer


payer         0.000208
devoir        0.000079
loyer         0.000072
acheter       0.000068
maison        0.000068
imposable     0.000065
symbolique    0.000061
residence     0.000061
gagne         0.000061
vendre        0.000061
Name: payer, dtype: float32

retraites


retraites         0.000214
indexation        0.000180
indexer           0.000176
inflation         0.000154
revalorisation    0.000148
pensions          0.000135
actifs            0.000134
csg               0.000126
cotise            0.000120
hausse            0.000101
Name: retraites, dtype: float32

entreprises


entreprises     0.000215
francaises      0.000140
grandes         0.000126
actionnaires    0.000124
cice            0.000121
dividendes      0.000121
tpe             0.000120
benefices       0.000119
pme             0.000115
particuliers    0.000114
Name: entreprises, dtype: float32

exemple


exemple      0.000224
montrer      0.000155
venir        0.000081
paris        0.000079
9            0.000079
decision     0.000078
12           0.000077
allemagne    0.000076
efforts      0.000075
petite       0.000073
Name: exemple, dtype: float32

reduire


reduire            0.000229
theodule           0.000126
indecents          0.000124
drastiquement      0.000122
assemblees         0.000120
conseillers        0.000107
recommandations    0.000099
longue             0.000096
train              0.000096
comites            0.000095
Name: reduire, dtype: float32

fonctionnaires


fonctionnaires    0.000235
hauts             0.000183
fonctionnaire     0.000104
enseignants       0.000099
remunerations     0.000098
statut            0.000098
postes            0.000096
primes            0.000094
prive             0.000091
administratifs    0.000088
Name: fonctionnaires, dtype: float32

argent


argent        0.000241
indecents     0.000113
caisses       0.000109
utilise       0.000106
theodule      0.000100
assemblees    0.000100
gaspillage    0.000096
depenser      0.000093
bareme        0.000093
longue        0.000092
Name: argent, dtype: float32

francais


francais      0.000243
etranger      0.000108
etrangers     0.000104
francaises    0.000090
territoire    0.000086
francaise     0.000086
majorite      0.000083
jaunes        0.000078
9             0.000078
80            0.000077
Name: francais, dtype: float32

revenus


revenus          0.000245
faibles          0.000129
imposables       0.000113
modestes         0.000110
tranche          0.000107
progressivite    0.000106
immobiliers      0.000106
capital          0.000105
declaration      0.000101
tranches         0.000099
Name: revenus, dtype: float32

pays


pays             0.000248
europeens        0.000145
origine          0.000127
europe           0.000108
allemagne        0.000100
etrangers        0.000097
europeen         0.000091
pib              0.000090
developpement    0.000090
paradis          0.000088
Name: pays, dtype: float32

In [55]:
gc.collect()

98