# Chapter 3


## 3.1 Bag of words



In [19]:
from nltk.tokenize import TreebankWordTokenizer

sentence = """Noch ist nichts passiert. Russisches Gas strömt nach Deutschland, niemand muss frieren, \
alle haben Strom zum Kochen, die Autos fahren. Doch da niemand abschätzen kann, wie der Krieg Russlands \
gegen die Ukraine weitergeht und welche Konsequenzen er noch mit sich bringen wird, baut die \
deutsche Regierung schon mal vor."""

tokenizer = TreebankWordTokenizer()
tokens = tokenizer.tokenize(sentence.lower())
tokens

['noch',
 'ist',
 'nichts',
 'passiert.',
 'russisches',
 'gas',
 'strömt',
 'nach',
 'deutschland',
 ',',
 'niemand',
 'muss',
 'frieren',
 ',',
 'alle',
 'haben',
 'strom',
 'zum',
 'kochen',
 ',',
 'die',
 'autos',
 'fahren.',
 'doch',
 'da',
 'niemand',
 'abschätzen',
 'kann',
 ',',
 'wie',
 'der',
 'krieg',
 'russlands',
 'gegen',
 'die',
 'ukraine',
 'weitergeht',
 'und',
 'welche',
 'konsequenzen',
 'er',
 'noch',
 'mit',
 'sich',
 'bringen',
 'wird',
 ',',
 'baut',
 'die',
 'deutsche',
 'regierung',
 'schon',
 'mal',
 'vor',
 '.']

In [20]:
from collections import Counter
bag_of_words = Counter(tokens)
bag_of_words

Counter({'noch': 2,
         'ist': 1,
         'nichts': 1,
         'passiert.': 1,
         'russisches': 1,
         'gas': 1,
         'strömt': 1,
         'nach': 1,
         'deutschland': 1,
         ',': 5,
         'niemand': 2,
         'muss': 1,
         'frieren': 1,
         'alle': 1,
         'haben': 1,
         'strom': 1,
         'zum': 1,
         'kochen': 1,
         'die': 3,
         'autos': 1,
         'fahren.': 1,
         'doch': 1,
         'da': 1,
         'abschätzen': 1,
         'kann': 1,
         'wie': 1,
         'der': 1,
         'krieg': 1,
         'russlands': 1,
         'gegen': 1,
         'ukraine': 1,
         'weitergeht': 1,
         'und': 1,
         'welche': 1,
         'konsequenzen': 1,
         'er': 1,
         'mit': 1,
         'sich': 1,
         'bringen': 1,
         'wird': 1,
         'baut': 1,
         'deutsche': 1,
         'regierung': 1,
         'schon': 1,
         'mal': 1,
         'vor': 1,
         '.': 1}

In [21]:
bag_of_words.most_common(4)

[(',', 5), ('die', 3), ('noch', 2), ('niemand', 2)]

In [23]:
times_niemand_appears = bag_of_words['niemand']
num_unique_words = len(bag_of_words)
tf = times_niemand_appears / num_unique_words
round(tf,4)

0.0426

## 3.2 Vectorizing

In [6]:
data = [['mario','franz'],['sepp','hans']]
data += [['ixi','pixi']]
data

[['mario', 'franz'], ['sepp', 'hans'], ['ixi', 'pixi']]

## 3.3 Zipf's law

In [2]:
import nltk
nltk.download('brown')
from nltk.corpus import brown
brown.words()[:10]

[nltk_data] Downloading package brown to
[nltk_data]     C:\Users\dohr\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\brown.zip.


['The',
 'Fulton',
 'County',
 'Grand',
 'Jury',
 'said',
 'Friday',
 'an',
 'investigation',
 'of']

In [3]:
brown.tagged_words()[:5]

[('The', 'AT'),
 ('Fulton', 'NP-TL'),
 ('County', 'NN-TL'),
 ('Grand', 'JJ-TL'),
 ('Jury', 'NN-TL')]

In [5]:
len(brown.words())

1161192

In [6]:
from collections import Counter
puncs = set((',','.','--','-','!','?',':',';','``',"''",'(',')','[',']'))
word_list = (x.lower() for x in brown.words() if x not in puncs)
token_counts = Counter(word_list)
token_counts.most_common(20)

[('the', 69971),
 ('of', 36412),
 ('and', 28853),
 ('to', 26158),
 ('a', 23195),
 ('in', 21337),
 ('that', 10594),
 ('is', 10109),
 ('was', 9815),
 ('he', 9548),
 ('for', 9489),
 ('it', 8760),
 ('with', 7289),
 ('as', 7253),
 ('his', 6996),
 ('on', 6741),
 ('be', 6377),
 ('at', 5372),
 ('by', 5306),
 ('i', 5164)]

## 3.4 Topic Modelling

Das Kapitel 3.4.1 Return of Zipf durgehen und verstehen, warum man den log der Termfrequency nimmt.

**Beispiel TF-IDF manuell**

Definieren der Dokumente, der gesamten Tokens, des Lexikons und des Zero-Vektors

In [15]:
from collections import Counter, OrderedDict
from nltk.tokenize import TreebankWordTokenizer

sentences = "Der Finanzprüfung beim Wirtschaftsbund waren Prüfungen bei Kessler und Natter vorausgegangen.\n"
sentences += "Um jemanden zu finden, der wohlwollend über Jürgen Kessler spricht, muss man in Vorarlberg lange suchen.\n"
sentences += "Schröder steht in Deutschland massiv in der Kritik, weil er sich trotz des russischen Angriffs auf die Ukraine nicht von seinen Posten bei russischen Energieunternehmen trennt.\n"
sentences += "Die einschlägigen Versprechen der Politik blieben nicht folgenlos: Die öffentliche Hand gibt in Österreich heute deutlich mehr Geld für den Nachwuchs aus als vor 20 Jahren. "

docs = sentences.splitlines()
tokenizer = TreebankWordTokenizer()

doc_tokens = []
for doc in docs:
    doc_tokens += [sorted(tokenizer.tokenize(doc.lower()))]

all_doc_tokens = sum(doc_tokens,[])
lexicon = sorted(set(all_doc_tokens))
zero_vector = OrderedDict((token,0) for token in lexicon)
zero_vector

OrderedDict([(',', 0),
             ('.', 0),
             ('20', 0),
             (':', 0),
             ('als', 0),
             ('angriffs', 0),
             ('auf', 0),
             ('aus', 0),
             ('bei', 0),
             ('beim', 0),
             ('blieben', 0),
             ('den', 0),
             ('der', 0),
             ('des', 0),
             ('deutlich', 0),
             ('deutschland', 0),
             ('die', 0),
             ('einschlägigen', 0),
             ('energieunternehmen', 0),
             ('er', 0),
             ('finanzprüfung', 0),
             ('finden', 0),
             ('folgenlos', 0),
             ('für', 0),
             ('geld', 0),
             ('gibt', 0),
             ('hand', 0),
             ('heute', 0),
             ('in', 0),
             ('jahren', 0),
             ('jemanden', 0),
             ('jürgen', 0),
             ('kessler', 0),
             ('kritik', 0),
             ('lange', 0),
             ('man', 0),
             ('ma