# Etude des sujets des amendements PLFSS

## Calcul des thématiques

In [1]:
#!python -m pip install --upgrade pip

In [2]:
#!pip install -q --upgrade pandas sklearn

In [3]:
# Put these at the top of every notebook, to get automatic reloading and inline plotting
%reload_ext autoreload
%autoreload 2
%matplotlib inline
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

In [4]:
import pandas as pd
amdt = pd.read_csv('./data/amdt_sans_stopword.csv.gz')

# Analyse des thématiques par LDA

LDA : https://fr.wikipedia.org/wiki/Allocation_de_Dirichlet_latente

In [5]:
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.feature_extraction.text import CountVectorizer
 
NUM_TOPICS = 15
 
# vectorizer = CountVectorizer(min_df=5, max_df=0.9, 
#                              stop_words='french', lowercase=True, 
#                              token_pattern='[a-zA-Z\-][a-zA-Z\-]{2,}')
vectorizer = CountVectorizer()
data_vectorized = vectorizer.fit_transform(amdt["txt_sans_stopword"])
 
# Build a Latent Dirichlet Allocation Model
# n_jobs = -1 to use all CPU core
lda_model = LatentDirichletAllocation(n_components=NUM_TOPICS, max_iter=10, learning_method='online', n_jobs = -1)
lda_Z = lda_model.fit_transform(data_vectorized)


### Affecter un sujet à un texte en utilisant le modèle

In [19]:
text = "Pour les entreprises de moins de 11 salariés, l’employeur est autorisé à attribuer une fois par an, à l’ensemble des salariés qu’il emploie, la prime exceptionnelle de pouvoir d’achat, dans les conditions prévues au V. »II. – En conséquence, compléter cet article par les deux alinéas suivants"
x = lda_model.transform(vectorizer.transform([text]))[0]
print(x, x.sum())

[0.00155039 0.04615703 0.00155039 0.2305017  0.0645033  0.00155039
 0.04746301 0.00155039 0.00155039 0.31496424 0.00155039 0.02483171
 0.00155039 0.25917588 0.00155039] 1.0


In [20]:
lda_Z.shape

(4797, 15)

In [7]:
# lda_Z contient les probabilités d'appartenance à un des S sujets pour chaque document
lda_Z[:1]

array([[4.97513027e-04, 4.97512830e-04, 4.97513093e-04, 4.97512548e-04,
        4.97513449e-04, 4.97512693e-04, 4.97512702e-04, 9.93034817e-01,
        4.97513032e-04, 4.97513191e-04, 4.97513699e-04, 4.97514082e-04,
        4.97513127e-04, 4.97512854e-04, 4.97513145e-04]])

In [None]:
## Export model and data

In [10]:
import pickle
pickle.dump( vectorizer, open( "./data/amdt_vectorizer.pickle", "wb" ) )
pickle.dump( data_vectorized, open( "./data/amdt_data_vectorized.pickle", "wb" ) )
pickle.dump( lda_model, open( "./data/amdt_lda_model.pickle", "wb" ) )
pickle.dump( lda_Z, open( "./data/amdt_lda_Z.pickle", "wb" ) )