# Testing the Topic Modelling using the Gensim Library

Usual imports come first.

In [9]:
import pandas as pd
import glob
import os
import numpy as np
from time import time
import logging
import gensim
import bz2

# 1. Load the data from the Transcript files
At the moment, we only consider the entries for which the field `LanguageOfText` is `FR`, namely the ones in French. We will consider the text in German later on.

In [7]:
dataset = []

path = 'datas/Transcript/'
allFiles = glob.glob(os.path.join(path, '*.csv'))

for file_ in allFiles:
    data = pd.read_csv(file_)
    dataset = dataset + list(data[(data['Text'] == data['Text']) & (data['LanguageOfText'] == 'FR')]['Text'].values)
    
print('Length of the dataset', len(dataset))
print(dataset[0],'\n',dataset[1],'\n',dataset[2])

Length of the dataset 15353
La délégation vous propose de prendre acte de son rapport écrit.
[VS]
Vom Bericht wird Kenntnis genommen
Il est pris acte du rapport
 
 La première chose que j'aimerais rappeler à cette assemblée, c'est que l'initiative populaire dont nous débattons aujourd'hui est soutenue par le Conseil fédéral qui représente tout de même l'ensemble des colorations politiques de ce Parlement - (Brouhaha) je dis bien l'ensemble puisque, effectivement, nous avons deux conseillers fédéraux UDC qui, forcément, soutiennent cette initiative. La majorité des parlementaires, la majorité des cantons également soutiennent le principe d'une limitation du droit de recours des organisations.
Même si l'initiative est acceptée, ce droit de recours des organisations contre les décisions administratives continuera d'exister. Lors des décisions prises par le peuple et/ou par les représentants du peuple que sont les parlements, les organisations sont certes privées du droit de recours, mais 

The length of the transcripts largely vary from an entry to another, but it reflects exactly what is discussed at the federal parliament.

# 2. Format the data in order to use LDA with Gensim
First of all, we load the `stop_words`, a list which refers all the common words for French, and that we must not take into accoung when doing the topic modelling, as they do not convey any useful information. The pipeline we follow is the following :
 1. Load the `stop_words`
 2. Remove those common words and tokenize our dataset (break it down into words) 
 3. We count the frequency of the words and remove the ones that appear only once in total.
 4. **TODO - ** Implement the *Stemming* of the data (cf. [a French stemming algorithm](http://snowball.tartarus.org/algorithms/french/stemmer.html)).

In [51]:
## First of all we load the stop_words list
import re

with open ("French_stop_words_changed.txt", "r") as myfile:
    stop_words=myfile.read()  
stop_words = stop_words.split(',')
## Secondly we remove the common words in our document corpus and tokenize 
texts = [[word for word in document.lower().split() if word not in stop_words]
         for document in dataset]

# Thirdly we remove the words that appear only once in a text
from collections import defaultdict
frequency = defaultdict(int)
for text in texts:
    for token in text:
        frequency[token] += 1
    
texts = [[token for token in text if frequency[token] > 1]
         for text in texts]
print(texts[0:5])

[['délégation', 'propose', 'acte', 'rapport', 'écrit.', '[vs]', 'vom', 'bericht', 'wird', 'kenntnis', 'genommen', 'acte', 'rapport'], ["j'aimerais", 'rappeler', 'assemblée,', "c'est", "l'initiative", 'populaire', 'débattons', "aujourd'hui", 'soutenue', 'conseil', 'fédéral', 'représente', "l'ensemble", 'politiques', 'parlement', '-', '(brouhaha)', "l'ensemble", 'puisque,', 'effectivement,', 'conseillers', 'fédéraux', 'udc', 'qui,', 'forcément,', 'soutiennent', 'initiative.', 'majorité', 'parlementaires,', 'majorité', 'cantons', 'également', 'soutiennent', 'principe', "d'une", 'limitation', 'recours', 'organisations.', "l'initiative", 'acceptée,', 'recours', 'organisations', 'décisions', 'administratives', 'continuera', "d'exister.", 'lors', 'décisions', 'prises', 'peuple', 'et/ou', 'représentants', 'peuple', 'parlements,', 'organisations', 'certes', 'privées', 'recours,', 'disposent', "d'une", 'arme', 'référendum.', 'autorités,', 'personnes', 'privées', 'elles,', 'disposer', 'recours,',

In [52]:
print(stop_words[1:10])

["j\\'", "d\\'", "n\\'", "qu\\'", "m\\'", 'je', 'de', 'est', 'pas']


Formatting the data into a dictionnary and a corpus, necessary entries for the LdaModel function of Gensim.

In [53]:
dictionary = gensim.corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]

# 3. Perform the LDA topic modelling and print the results.

In [54]:
ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics=10, id2word = dictionary, passes=1)

In [55]:
print(ldamodel.print_topics(num_topics=3, num_words=3))
ldamodel.print_topics()

[(9, '0.017*"c\'est" + 0.015*"-" + 0.008*"qu\'il"'), (6, '0.028*"conseil" + 0.018*"commission" + 0.011*"proposition"'), (5, '0.022*"die" + 0.019*"der" + 0.015*"und"')]


[(0,
  '0.007*"c\'est" + 0.006*"proposition" + 0.005*"l\'initiative" + 0.005*"-" + 0.005*"minorité" + 0.004*"[vs]" + 0.004*"d\'une" + 0.004*"prix" + 0.004*"groupe" + 0.004*"cantons"'),
 (1,
  '0.011*"conseil" + 0.009*"fédéral" + 0.008*"motion" + 0.007*"commission" + 0.005*"c\'est" + 0.005*"l\'initiative" + 0.004*"politique" + 0.004*"suisse" + 0.003*"d\'une" + 0.003*"qu\'il"'),
 (2,
  '0.009*"[vs]" + 0.006*"-" + 0.005*"..." + 0.005*"c\'est" + 0.004*"canton" + 0.004*"qu\'il" + 0.004*"d\'un" + 0.004*"d\'une" + 0.003*"conseil" + 0.003*"art."'),
 (3,
  '0.016*"millions" + 0.014*"francs" + 0.006*"fédéral" + 0.006*"commission" + 0.006*"cent" + 0.006*"budget" + 0.006*"-" + 0.006*"milliards" + 0.006*"dépenses" + 0.005*"francs."'),
 (4,
  '0.010*"loi" + 0.009*"conseil" + 0.008*"personnes" + 0.007*"c\'est" + 0.006*"l\'article" + 0.006*"fédéral" + 0.006*"d\'une" + 0.005*"formation" + 0.005*"commission" + 0.005*"minorité"'),
 (5,
  '0.022*"die" + 0.019*"der" + 0.015*"und" + 0.010*"in" + 0.008*"zu" 