In [18]:
import pandas as pd
import glob
import os
import numpy as np
import lda
import lda.datasets

from time import time

from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.decomposition import NMF, LatentDirichletAllocation
from sklearn.datasets import fetch_20newsgroups

In [29]:
dataset = []

path = 'datas/Transcript/'
allFiles = glob.glob(os.path.join(path, '*.csv'))

for file_ in allFiles:
    data = pd.read_csv(file_)
    dataset = dataset + list(data[(data['Text'] == data['Text']) & (data['LanguageOfText'] == 'FR')]['Text'].values)
    
print(len(dataset))
dataset[0]

27405


'Aujourd\'hui, nous connaissons une distinction entre la fraude fiscale et la soustraction fiscale. La fraude fiscale conduit en général à l\'utilisation de faux dans les titres; elle tombe sous le coup du droit pénal, avec des procédures judiciaires; elle aboutit à des peines sous forme d\'amendes ou à des peines privatives de liberté. La soustraction fiscale, quant à elle, relève de la négligence; elle est soumise à une procédure administrative et elle aboutit à une contravention, à une amende.\nL\'auteur de l\'initiative nous propose de faire une distinction à l\'intérieur du concept de soustraction fiscale, soit entre la soustraction intentionnelle ou répétée et la soustraction par négligence ou unique. Avec la soustraction intentionnelle, nous serions en présence d\'une fraude fiscale, c\'est-à-dire que nous aurions affaire à un délit ou à un crime, avec une procédure judiciaire à la clé. La notion de "soustraction intentionnelle" serait en relation avec des montants importants. P

In [41]:
print(dataset[301])

Je commencerai par éclaircir un point, au sujet de la proposition de la minorité Moret et de celle de la majorité, qui a donné lieu à des interprétations diverses. Il s'agit, concernant les médicaments qui bénéficient d'une autorisation cantonale, de savoir s'il y a une différence matérielle entre le fait d'inscrire cela à l'article 95b ou à l'article 9 alinéa 2 lettre f. En réalité, par rapport à la situation de départ aujourd'hui, et qui évoluerait en application de l'une ou l'autre disposition, il n'y a matériellement aucune différence. C'est la raison pour laquelle je vous laisse libres de décider. Cela ne change rien quant au contenu.
L'autre élément sur lequel je souhaite revenir concerne la question de l'octroi ou de la prolongation de l'exclusivité des données et la question de l'exclusivité commerciale. En complément à l'exclusivité des données, en général d'une durée de dix ans, comme le prévoit l'article 11a, la révision prévoit à l'article 11b alinéa 1 une durée de protecti

In [42]:
n_samples = 2000
n_features = 1000
n_topics = 10
n_top_words = 20

def print_top_words(model, feature_names, n_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print("Topic #%d:" % topic_idx)
        print(" ".join([feature_names[i]
                        for i in topic.argsort()[:-n_top_words - 1:-1]]))
    print()

data_samples = dataset

stop_words = ['de', 'il', 'je', 'nous', 'sur', 'par', 'der', 'die', 'und', 'le', 'la', 'les', 'qui', 'que', 'du', 'un', 'une',
             'dans', 'ne', 'on']
# Use tf (raw term count) features for LDA.
print("Extracting tf features for LDA...")
tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2,
                                max_features=n_features,
                                stop_words=stop_words)
t0 = time()
tf = tf_vectorizer.fit_transform(data_samples)
print("done in %0.3fs." % (time() - t0))

Extracting tf features for LDA...
done in 14.338s.


In [43]:
def print_top_words(model, feature_names, n_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print("Topic #%d:" % topic_idx)
        print(" ".join([feature_names[i]
                        for i in topic.argsort()[:-n_top_words - 1:-1]]))
    print()

print("Fitting LDA models with tf features, "
      "n_samples=%d and n_features=%d..."
      % (n_samples, n_features))
lda = LatentDirichletAllocation(n_topics=n_topics, max_iter=5,
                                learning_method='online',
                                learning_offset=50.,
                                random_state=0)
t0 = time()
lda.fit(tf)
print("done in %0.3fs." % (time() - t0))

print("\nTopics in LDA model:")
tf_feature_names = tf_vectorizer.get_feature_names()
print_top_words(lda, tf_feature_names, n_top_words)

Fitting LDA models with tf features, n_samples=2000 and n_features=1000...
done in 120.410s.

Topics in LDA model:
Topic #0:
initiative cantons cette pas pour contre commission au parlementaire elle populaire aux qu suite plus canton notre donner ce ont
Topic #1:
conseil motion fédéral commission assurance cette pour maladie au ce prestations coûts soins été santé qu primes vous aux pas
Topic #2:
pour francs cent millions au ce fédéral plus montant été dépenses taux confédération budget augmentation aux sont milliards ces conseil
Topic #3:
droit pour au vs ans fédéral commission ou cas personnes tribunal article conseil procédure aux loi code cette pénal révision
Topic #4:
pas ce qu pour mais vous plus si cela tout peut sont même être aussi cette fait se faire bien
Topic #5:
proposition commission minorité article majorité pas conseil pour vous qu cette alinéa ce donc au groupe loi etats elle contre
Topic #6:
suisse au pays pour avec notre conseil ce européenne politique fédéral union 

In [36]:

    
print_top_words(lda, tf_feature_names, n_top_words)

Topic #0:
sécurité service armée armes militaire médicaments police civile civil protection engagement paix défense services la en pour être obligation assurer
Topic #1:
nous la le et que est les des en qui pour du il groupe une un pas ce notre avons
Topic #2:
la et des les en suisse le est pays dans que qui un pour une du il sur avec au
Topic #3:
la le commission conseil et des en une par du que est les article qui il proposition minorité majorité sur
Topic #4:
que est il pas qui on le je la qu ce un une et ne vous en dans les des
Topic #5:
le la du fédéral conseil et des au en sur pour par les dans été un ce que rapport commission
Topic #6:
la les des pour et le en francs une est qui par cent un que millions plus du assurance ce
Topic #7:
la les des et le en une par initiative du dans un que sur pour est qui ne au cette
Topic #8:
la les des et le en dans que pour est qui une sur il un ce du par nous cantons
Topic #9:
vs der die la und des in art proposition du président conseil vote 