# Troonrede analyse

Op het troonrede corpus kunnen we vergelijkbare analyses uitvoeren als gedaan op het State of teh Union corpus. 
Een heel gaaf onderzoek is <http://www.pnas.org/content/112/35/10837>, dat co-occurence (samen in een paragraaf) netwerken maakt van nouns en belangrijke bigrammen, en daar van alles mee doet.

Dit is zeker ook herhaalbaar voor onze studenten op het troonrede corpus.

Het "SI (Supplementary Material)" geeft ook genoeg informatie om eea te implementeren.



## Data Science opdracht

### Deel 1 data preprocessing
1. Haal troonredes op van <http://www.troonredes.nl>
2. Haal de troonrede tekst uit de HTML files, en verbindt elke tekst met een jaartal.
    * Wat doe je met de filenamen die geen jaartal zijn?
3. Parseer alle tekst mbv nltk of pattern
    * Bewaar de paragraaf structuur.
    * Maak bag of words
    * Maak in ieder geval een data structuur  waarin je alleen de gelemmatisseerde zelfstandige naamwoorden overhoudt. 
4. Sla je zo gemaakte data in een handig formaat op.
5. Maak wat mooie statistieken over je corpus:
    * hoeveel termen, lengte per jaar, unieke woorden, etc etc.
    * misschien wat mooie grafiekjes

### Deel 2 Netwerk van woorden

1. We maken het netwerk van zelfstandige naamwoorden zoals beschreven in het paper.
2. Gooi alle jaren bij elkaar.
3. Bereken de gewichten zoals beschreven in het SI.
    * dus tel cooccurance
    * bereken de pointwise MI
    * gebruik hun formule
4. Maak een netwerk en verklein het zoals bescherevn in het artikel, totdat je een mooie verbonden component overhoudt.
5. Maak een functie die, net als in Figuur 1, het ego netwerk van een woord laat zien, maar dan zonder dat woord.
6. Doe clustering/community detectie, en probeer ook samenvattende labels voor je clusters te vinden, net als in het artikel.
7. Maak net zo'n gave tekening als in Figuur 3. 
8. Evalueer je resultaten. Slaat het ergens op? Zijn die clusters echt woorden die bij elkaar horen?


### Deel 3 Cosine similarity

1. We maken hier Figuur 2 na.
2. Bereken de cosine similarity tussen alle troonredes.
3. Je kunt hier gaan experimenteren met 
    * het vocabulair (welke woorden neem je mee? Lemmas of "ruwe woorden")
    * je weging van de woorden: ruwe tellingen, of misschien een versie van TF-IDF
4. Denk goed na hoe je cosine uitrekent.
    * Een mooi voorbeeld is <http://blog.christianperone.com/2013/09/machine-learning-cosine-similarity-for-vector-space-models-part-iii/> 
    * Kijk ook naar <http://www.cs.duke.edu/courses/spring14/compsci290/assignments/lab02.html> om te zien hoe je een lijst met tokens als input voor scikit learn's TFIDF vectorizer kunt geven.
    
5. Maak net zo'n mooie print als Figuur 2.
6. Kan je vergelijkbare "scheidingen tussen periodes" ontdekken?

### Deel 4 Clusters door de tijd
1. Je maakt Figuur 4 na.

# Putting the troonredes into text

## Step 1 
* copying them into files with the year of the troonrede as filename.

In [23]:
# Putting the troonredes into text

#!tar xfz troonredes.tar
#! mkdir troonredes
! for f in www.troonredes.nl/troonrede-*; do g=`echo $f|sed 's/.*[a-z]-//'`; cp $f/index.html "troonredes/$g.html";done

In [25]:
!ls troonredes/

1818.html   1831.html   1844.html   1876.html   1892.html   1925.html   1937.html   1959.html   1979.html   2001.html   2013.html
1820.html   1832.html   1845.html   1877.html   1893.html   1926.html   1938.html   1960.html   1980.html   2002.html   2014.html
1821.html   1833.html   1846.html   1878.html   1894.html   1927.html   1939.html   1961.html   1981.html   2003.html
1822.html   1834.html   1847.html   1879.html   1895.html   1928.html   1946-2.html 1962.html   1982.html   2004.html
1823.html   1835.html   1848.html   1880.html   1896.html   1929.html   1946.html   1963.html   1983.html   2005.html
1824.html   1836.html   1849.html   1882.html   1897.html   1930.html   1948-2.html 1964.html   1984.html   2006.html
1825.html   1838.html   1870.html   1883.html   1898.html   1931.html   1949-2.html 1965.html   1985.html   2007.html
1826.html   1839.html   1871.html   1884.html   1899.html   1932.html   1954.html   1966.html   1986.html   2008.html
1827.html   1840.html   

In [27]:
!rm -r www.troonredes.nl/


## step 2 parse a document

* extract the paragraphs with Beautifulsoup
* Parse each paragraph with pattern into sentences and store lemmata

In [58]:
from bs4 import BeautifulSoup
from pattern.nl import parsetree, pprint
# the tekst is in <div id="post-content">

f= open('troonredes/1818.html').read()
soup= BeautifulSoup(f)

ourdiv=soup.find('div', id="post-content") 
 
ourpars= [parsetree(p.text, lemmata=True, Relations=True) for p in ourdiv.findAll('p')]


 

In [63]:
# number of sentences 
sum(len(p) for p in ourpars)

46

## Step 3 for all documents

* We create two dicts with the years as keys and the troonredes represented as lists of paragraphs as values
    * parsedtroonredes  (all information)
    * Nounstroonredes (each paragraph contains the set of lemmatized nons in that paragraph)

In [84]:
import glob



# this does just what we tried out in step 2
def parse_troonrede(f):
    '''Read a troonrede file, extract all text and output a list of lists, 
    each element is a paragraph containing a list of sentences,
    each sentence is parsed.'''
    soup= BeautifulSoup(open(f).read())
    ourdiv=soup.find('div', id="post-content") 
    ourpars= [parsetree(p.text, lemmata=True, Relations=True) for p in ourdiv.findAll('p')]
    return ourpars

# test
#parse_troonrede('troonredes/1818.html')



# this applies step 2 to all troonredes 
def parse_corpus(folder):
    alltroonredes= glob.glob(folder)
    troonredes={}
    for troonrede in alltroonredes:
        key= troonrede.split('/')[1].replace('.html','')
        value= parse_troonrede(troonrede)
        troonredes[key]=value
    return troonredes


%time parsedtroonredes= parse_corpus('troonredes/*.html')

CPU times: user 49 s, sys: 849 ms, total: 49.8 s
Wall time: 52.7 s


In [96]:
# We only want to keep the lemmatized nouns and group them by paragraaf

def reduce_to_nouns(parsedcorpus):
    nouns_coocuuring_per_paragraph= [list(set([ w.lemma for s in p for w in s.nouns]))  for p in parsedcorpus  ]
    return nouns_coocuuring_per_paragraph

%time Nounstroonredes= {k:reduce_to_nouns(parsedtroonredes[k]) for k in parsedtroonredes}

CPU times: user 159 ms, sys: 31.2 ms, total: 191 ms
Wall time: 172 ms


In [99]:
Nounstroonredes['2000']

[[u'staten-generaal', u'leed'],
 [u'begin',
  u'land',
  u'welvaart',
  u'staat',
  u'ons\xa0land',
  u'uitdaging',
  u'investering',
  u'welzijn',
  u'structuur',
  u'eeuw',
  u'periode',
  u'samenleving',
  u'antwoord',
  u'voorspoed'],
 [u'infrastructuur',
  u'jaar',
  u'leefbaarheid',
  u'gulden',
  u'situatie',
  u'regering',
  u'overheidstaak',
  u'onderwijs',
  u'milieu',
  u'regeerakkoord',
  u'middeel',
  u'onderzoek',
  u'natuur',
  u'veiligheid',
  u'ruimte',
  u'bedrag',
  u'verdubbeling',
  u'gezondheidszorg'],
 [u'samenstelling',
  u'ontwikkeling',
  u'nederland',
  u'decennia',
  u'invloed',
  u'internationalisering',
  u'bevolking',
  u'individualisering'],
 [u'eis',
  u'voorziening',
  u'overheid',
  u'maatschappij',
  u'beschikbaarheid',
  u'rekening',
  u'keuzevrijheid',
  u'kwaliteit',
  u'behoefte'],
 [u'eis',
  u'arbeid',
  u'concurrentiekracht',
  u'welvaart',
  u'nederland',
  u'basis',
  u'fiscaal',
  u'stelsel',
  u'vergroot',
  u'lastenverlichting',
  u'bevor

In [113]:
# A few stats

def NrWords(L):
    terms=[]
    for p in L:
        terms+=p
    return(len(terms),len(set(terms)))


# test
# NrWords(Nounstroonredes['2000'])

Nrwords= {y:NrWords(Nounstroonredes[y]) for y in Nounstroonredes}

def Vocabulary(Dict):
    terms=[]
    for y in Dict:
        for p in Dict[y]:
            terms+=p
    return Counter(terms)

TroonredeNounsVocab=Vocabulary(Nounstroonredes)

# some stats on the whole corpus

In [127]:
# some stats on the whole corpus

# number of unique nouns, number of non-hapaxes, total number of nouns, top 20 nouns

(len(TroonredeNounsVocab), 
 len([t for t in TroonredeNounsVocab if TroonredeNounsVocab[t] >1]),
 sum(TroonredeNounsVocab.values()), 
 TroonredeNounsVocab.most_common(20)
 )

(6593,
 3212,
 39671,
 [(u'regering', 622),
  (u'jaar', 486),
  (u'den', 481),
  (u'land', 344),
  (u'staten-generaal', 245),
  (u'maatregel', 229),
  (u'nederland', 229),
  (u'ontwikkeling', 226),
  (u'belang', 220),
  (u'aandacht', 200),
  (u'zitting', 175),
  (u'wet', 172),
  (u'zorg', 167),
  (u'verbetering', 164),
  (u'toestand', 160),
  (u'beleid', 160),
  (u'edel', 160),
  (u'samenwerking', 152),
  (u'middeel', 139),
  (u'onderwijs', 139)])

# Compute co occurance


In [106]:
# Compute co occurance

from collections import defaultdict, Counter

def pars2cooccurance(L):
    '''L is a list of lists of terms. We output a Counter object with alphabetically 
    ordered pairs of terms as keys and the number of times they co
    occur as values.'''
    pairs = [ t1+'-'+t2 for list in L for t1 in list for t2 in list if t1 < t2]
    return Counter(pairs)

#test

#pars2cooccurance(Nounstroonredes['2000']).most_common(10)

% time coOccuringNouns= {y:pars2cooccurance(Nounstroonredes[y]) for y in Nounstroonredes}

# test
#coOccuringNouns['2000'].most_common(10)

CPU times: user 410 ms, sys: 81.8 ms, total: 492 ms
Wall time: 456 ms


[(u'jaar-regering', 5),
 (u'burger-samenleving', 4),
 (u'ontwikkeling-regering', 4),
 (u'afspraak-regering', 4),
 (u'regering-samenleving', 4),
 (u'jaar-onderwijs', 3),
 (u'jaar-toekomst', 3),
 (u'gezondheidszorg-regering', 3),
 (u'kans-unie', 3),
 (u'middeel-regering', 3)]

## Network of nouns

* See the [Suppplementary material](http://www.pnas.org/content/suppl/2015/08/06/1512221112.DCSupplemental/pnas.201512221SI.pdf) for how the weights were detremined from the raw cooccurence scores.
* Then they removed nodes keeping only a (weakly) connected component, with a few nouns left.
* Then they ran the Louvain community detection algorithm on the resulting connected network.
    * It is not clear from the SI whether they simply made all directed edges undirected.
    
#### Hints
* See <http://www.inf.ed.ac.uk/teaching/courses/fnlp/Tutorials/5_MI/lab5.pdf> how to compute the pointwise mutual information scores using NLTK.
* But we can also do this simply ourselves of course using our Counters.

#### Start
* Start with removing all years and adding all terms  and pairs to one big heap of terms.

In [107]:
import nltk

In [108]:
nltk.probability.MLEProbDist?