# Topic Modelling

<style>
    div.output_area{
        max-height:600px;
        overflow:scroll;
    }
</style>

<h3>Packages</h3>

In [1]:
import os, json, gensim, nltk
from nltk import word_tokenize
from collections import Counter, defaultdict
import matplotlib.pyplot as plt

<h3> Funktionen zum Einlesen von Dateien </h3>

In [2]:
def loadjson(filename):
    import json
    with open((filename+'.json'), 'r') as f:
        file = json.loads(f.read())
    print(len(file))
    return file

def savejson(file, filename):
    with open((filename+'.json'), 'w') as f:
        json.dump(file, f)
    print(True)

def read_lines(txtfile):
    with open (txtfile, 'r') as f:
        text = f.read().split('\n')
        newfile = []
        for line in text:
            newfile += line.split(' ')
        newfile = sorted(list(set(newfile)))
        if '' in newfile:
            newfile = newfile[1:]
    print(len(newfile))
    return newfile

<h3>Funktionen zur Korpus- und Topicanalyse</h3>

In [3]:
def count_types(text):
    counter = Counter(text[0])
    for i in range(1,len(text)):
        counter.update(text[i])
    return counter

def print_topics(model, dictionary, num_topics, num_terms):
    for i in list(range(num_topics)):
        print('Topic ' + str(i+1) + ':')
        for wordid, prob in model.get_topic_terms(i, num_terms):
            print(dictionary[wordid], prob)
        print(' ')

# Einlesen der Textdateien

Der folgende Code dient dazu, die Untertitel-Textdateien in Python einzulesen und als String-Liste zu speichern. Parallel dazu wird eine Liste von Dateipfaden erstellt, die es erlaubt, einen Film bei Bedarf anhand seines Index wiederzuerkennen und zu öffnen. Die Ausgabe zeigt die Anzahl der enthaltenen Filme pro Halbdekade, wobei deutlich wird, dass die Datenlage in den Jahren vor 1925 und in den Nachkriegsjahren 1945-1950 sehr spärlich ist.

In [4]:
dirname = 'subtitleData'

In [5]:
texts = []
filenames = []
filmcount = {}
for folder in sorted(os.listdir(dirname)):
    if not folder.startswith('.') and folder != 'movieDB.json':
        folderpath='/'.join([dirname,folder])
        print(folder, ':', len(os.listdir(folderpath)))
        filmcount[folder]=len(os.listdir(folderpath))
        for file in sorted(os.listdir(folderpath)):
            if not file.startswith('.'):
                filepath='/'.join([folderpath,file])
                with open(filepath, 'r') as f:
                     texts.append(f.read())
                filenames.append(filepath)
len(texts)

1900_1905 : 1
1910_1915 : 1
1915_1920 : 2
1920_1925 : 3
1925_1930 : 19
1930_1935 : 51
1935_1940 : 48
1940_1945 : 27
1945_1950 : 9
1950_1955 : 123
1955_1960 : 218
1960_1965 : 229
1965_1970 : 516
1970_1975 : 425
1975_1980 : 847
1980_1985 : 1108
1985_1990 : 1089
1990_1995 : 1292
1995_2000 : 3722
2000_2005 : 3681
2005_2010 : 5778
2010_2015 : 8039
2015_2020 : 5998


33226

Beispiel einer eingelesenen Untertitel-Datei:

In [19]:
texts[0][:2068]

' A Trip to the Moon by George Melies The astronomers are assembled in a large hall embellished with instruments . The president and members of the committee enter . Everybody takes his seat . Entrance of six man-servants carrying the telescopes of the astronomers . The president takes his chair and explains to the members his plan for a trip to the moon . The scheme is approved by many . But one member violently opposes same . After some argument , the president throws his papers and books at his head . Upon order being restored , the trip proposed by the president is voted by acclimation . The man-servants bring travelling suits . President Barbenfouillis selects five colleagues to accompany him : Nostradamus , Alcofrisbas , Omega , Micromegas and Parafaragamus . We enter the interior of the workshop where smiths , mechanics , weighers , carpenters , upholsterers , et cetera are working hard at the completion of the machine . Micromegas accidentally falls into a tub of nitric acid . 

Im nächsten Schritt werden die Texte mithilfe der NLTK-Funktion <code>word_tokenize()</code> in Listen von Wörtern und Satzzeichen umgewandelt, wobei Satzzeichen sowie apostrophierte Wörter als eigene Tokens gelten.

In [9]:
tokenized = [word_tokenize(text) for text in texts]
len(tokenized)

33226


Auszug aus dem obigen Text in tokenisierter Form:

In [11]:
tokenized[0][:45]

['A',
 'Trip',
 'to',
 'the',
 'Moon',
 'by',
 'George',
 'Melies',
 'The',
 'astronomers',
 'are',
 'assembled',
 'in',
 'a',
 'large',
 'hall',
 'embellished',
 'with',
 'instruments',
 '.',
 'The',
 'president',
 'and',
 'members',
 'of',
 'the',
 'committee',
 'enter',
 '.',
 'Everybody',
 'takes',
 'his',
 'seat',
 '.',
 'Entrance',
 'of',
 'six',
 'man-servants',
 'carrying',
 'the',
 'telescopes',
 'of',
 'the',
 'astronomers',
 '.']

<h3> Eliminierung grundlegeneder Stoppwörter </h3>

In einem ersten vorbereitenden Schritt wird die von NLTK bereitgestellte englische Stoppwortliste verwendet, um häufige Funktionswörter wie Partikel, Pronomen und Hilfsverben aus dem Korpus zu entfernen. Die resultierende Datenstruktur wird zur Weiterverarbeitung als json-File gespeichert.

In [20]:
from nltk.corpus import stopwords
stop_words = stopwords.words('english')
len(stop_words)

179

In [21]:
stop_words[:20]

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his']

In [14]:
clean = [[w.lower() for w in doc if w.isalpha() and len(w)>2 and w not in stop_words] for doc in tokenized]
len(clean)

33226


33226

Auszug aus dem obigen Text nach Entfernung der Stoppwörter:

In [15]:
clean[0][:22]

['trip',
 'moon',
 'george',
 'melies',
 'astronomers',
 'assembled',
 'large',
 'hall',
 'embellished',
 'instruments',
 'president',
 'members',
 'committee',
 'enter',
 'everybody',
 'takes',
 'seat',
 'entrance',
 'six',
 'carrying',
 'telescopes',
 'astronomers']

In [16]:
savejson(clean, 'clean')

True

In [6]:
clean = loadjson('../clean') #todelete

33226


<h3>Wortfrequenzanalyse</h3>

Unter Verwendung der Klasse Counter werden die 1000 häufigsten Types mit ihrer jeweiligen Häufigkeit ausgegeben.

In [7]:
wordcount = count_types(clean)

In [11]:
for k,v in list(enumerate(wordcount.most_common(500),1)):
    print(k,v)

1 ('know', 920105)
2 ('get', 771727)
3 ('right', 662235)
4 ('like', 599955)
5 ('got', 569668)
6 ('one', 560013)
7 ('come', 536680)
8 ('yeah', 455627)
9 ('let', 431389)
10 ('well', 428217)
11 ('think', 423863)
12 ('okay', 419240)
13 ('want', 404875)
14 ('see', 398845)
15 ('back', 396403)
16 ('going', 370479)
17 ('time', 356817)
18 ('good', 344284)
19 ('gon', 340664)
20 ('need', 328989)
21 ('look', 319648)
22 ('take', 310415)
23 ('yes', 304441)
24 ('man', 297660)
25 ('would', 294610)
26 ('could', 292649)
27 ('hey', 285842)
28 ('something', 283752)
29 ('way', 269660)
30 ('tell', 257416)
31 ('people', 238389)
32 ('make', 229671)
33 ('say', 214979)
34 ('please', 214433)
35 ('really', 208498)
36 ('never', 208012)
37 ('help', 207305)
38 ('find', 197655)
39 ('sir', 194362)
40 ('sorry', 189520)
41 ('thing', 187814)
42 ('two', 186760)
43 ('little', 174628)
44 ('mean', 174485)
45 ('god', 171040)
46 ('give', 168036)
47 ('sure', 166173)
48 ('still', 164483)
49 ('said', 161771)
50 ('stop', 160385)
5

<h3>Erstellung des Wörterbuchs und Dimensionalitätsreduktion</h3>

Das Wörterbuch wird auf Grundlage der Klasse Dictionary erstellt. 

In [26]:
dictionary = gensim.corpora.Dictionary(clean)
print(len(dictionary))

198918


Um orthographische Fehler, seltene Eigennamen und andere spezifische Begriffe zu entfernen, wird die Untergenze für die Dokumenthäufigkeit auf 100 gesetzt. Die Größe des Wörterbuchs wird dabei um fast 90% reduziert.

In [27]:
dictionary.filter_extremes(no_below=100,no_above=1)
print(len(dictionary))

21245


Andererseits werden alle Types herausgefiltert, die in mehr als 35% der Dokumente vorkommen. Die Liste <code>removed</code> zeigt, welche 503 Begriffe dadurch aus dem Wörterbuch entfernt worden sind.

In [30]:
tokens = list(dictionary.values())
dictionary.filter_extremes(no_below=100,no_above=.35)
len(dictionary)

20742

In [31]:
removed = set(tokens)-set(dictionary.values())
removed

{'able',
 'actually',
 'afraid',
 'ago',
 'ahead',
 'air',
 'alive',
 'almost',
 'alone',
 'along',
 'already',
 'also',
 'always',
 'another',
 'answer',
 'anybody',
 'anymore',
 'anyone',
 'anything',
 'anyway',
 'anywhere',
 'area',
 'around',
 'ask',
 'asked',
 'asking',
 'ass',
 'attention',
 'away',
 'baby',
 'back',
 'bad',
 'beautiful',
 'become',
 'behind',
 'believe',
 'best',
 'better',
 'big',
 'bit',
 'blood',
 'body',
 'boy',
 'brain',
 'break',
 'bring',
 'brother',
 'brought',
 'building',
 'business',
 'call',
 'called',
 'calling',
 'came',
 'car',
 'care',
 'careful',
 'case',
 'catch',
 'cause',
 'chance',
 'change',
 'changed',
 'check',
 'child',
 'choice',
 'city',
 'clean',
 'clear',
 'close',
 'come',
 'comes',
 'coming',
 'completely',
 'contact',
 'control',
 'could',
 'couple',
 'course',
 'cover',
 'crazy',
 'cut',
 'dad',
 'damn',
 'dangerous',
 'day',
 'days',
 'dead',
 'deal',
 'death',
 'die',
 'died',
 'different',
 'doctor',
 'done',
 'door',
 'drink'

In [20]:
len(removed)

503

Die Liste der in mehr als 35% aller Dokumente auftretenden Wörter ist mit der Liste der häufigsten Types zu großen Teilen, aber nicht vollständig deckungsgleich:

In [43]:
wrdlst = [x[0] for x in wordcount.most_common(1000)]
sorted([(wrdlst.index(word)+1, word) for word in removed], key=lambda x:x[0])

[(1, 'know'),
 (2, 'get'),
 (3, 'right'),
 (4, 'like'),
 (5, 'got'),
 (6, 'one'),
 (7, 'come'),
 (8, 'yeah'),
 (9, 'let'),
 (10, 'well'),
 (11, 'think'),
 (12, 'okay'),
 (13, 'want'),
 (14, 'see'),
 (15, 'back'),
 (16, 'going'),
 (17, 'time'),
 (18, 'good'),
 (19, 'gon'),
 (20, 'need'),
 (21, 'look'),
 (22, 'take'),
 (23, 'yes'),
 (24, 'man'),
 (25, 'would'),
 (26, 'could'),
 (27, 'hey'),
 (28, 'something'),
 (29, 'way'),
 (30, 'tell'),
 (31, 'people'),
 (32, 'make'),
 (33, 'say'),
 (34, 'please'),
 (35, 'really'),
 (36, 'never'),
 (37, 'help'),
 (38, 'find'),
 (39, 'sir'),
 (40, 'sorry'),
 (41, 'thing'),
 (42, 'two'),
 (43, 'little'),
 (44, 'mean'),
 (45, 'god'),
 (46, 'give'),
 (47, 'sure'),
 (48, 'still'),
 (49, 'said'),
 (50, 'stop'),
 (51, 'anything'),
 (52, 'even'),
 (53, 'maybe'),
 (54, 'wait'),
 (55, 'thank'),
 (56, 'much'),
 (57, 'nothing'),
 (58, 'first'),
 (59, 'life'),
 (60, 'work'),
 (61, 'keep'),
 (62, 'must'),
 (63, 'everything'),
 (64, 'put'),
 (65, 'away'),
 (66, 'worl

Um weitere Eigennamen und Partikel zu entfernen, die bisher nicht erfasst wurden, werden manuell erstellte Wortlisten verwendet. Die Namensliste basiert auf den 1000 häufigsten englischen Namen und wurde nach Erstellung eines ersten Topic Models durch weitere scifi-spezifische Namen ergänzt:

In [44]:
particles = read_lines('final/particles.txt')
namelist = loadjson('final/namelist')

309
2440


Diejenigen Namen und Partikel, die noch im Wörterbuch vorkommen, werden zu einer Stoppwortliste zusammengefasst und anhand ihrer IDs aus dem Wörterbuch entfernt.

In [45]:
scifinames = [name for name in namelist if name in dictionary.token2id]
part = [word for word in particles if word in dictionary.token2id]
stopwords=scifinames+part
bad_ids=[dictionary.token2id[word] for word in stopwords]

In [46]:
len(stopwords)

1228

In [25]:
dictionary.filter_tokens(bad_ids=bad_ids)
len(dictionary)

19515

<h3>Numerisches Korpus und Topic Model</h3>

Im letzten Schritt wird das Textkorpus in ein numerisches Bag-of-Words-Korpus umgewandelt, das für jedes Dokument die Wort-IDs und Häufigkeiten der enthaltenen Types speichert.

In [47]:
corpus = [dictionary.doc2bow(doc) for doc in clean]
len(corpus)

33226

Das LDA-Topic-Model wird mit einer willkürlich festgelegten Anzahl von 23 Topics erstellt. Die Einstellung der Parameter <code>alpha</code> und <code>eta</code> auf <code>'auto'</code> führt zu einer asymmetrischen Verteilung.

In [28]:
model = gensim.models.LdaModel(corpus,23,passes=10,alpha='auto',eta='auto')

Die 50 wahrscheinlichsten Begriffe pro Topic:

In [None]:
print_topics(model=model, dictionary=dictionary, num_topics=23, num_terms=50)

Erstellung der Visualisierung mit pyLDAvis:

In [9]:
import pyLDAvis, pyLDAvis.gensim as ldavis
pyLDAvis.enable_notebook()
import warnings
warnings.filterwarnings('ignore')

In [10]:
vis=ldavis.prepare(model,corpus,dictionary,sort_topics=False)
vis

Speichern der Daten:

In [12]:
dictionary.save('final/dictionary1')
model.save('final/model1_23topics')
pyLDAvis.save_html(vis, 'final/model1_23topics.html')

<h3>Zweiter Versuch</h3>

In [None]:
dictionary.filter_extremes(no_below=500)
print(len(dictionary))

In [None]:
corpus = [dictionary.doc2bow(doc) for doc in clean]
len(corpus)

In [None]:
model = gensim.models.LdaModel(corpus,30,passes=10,alpha='auto',eta='auto')

In [None]:
print_topics(model, dictionary, 30, 50)

In [15]:
vis=ldavis.prepare(model,corpus,dictionary,sort_topics=False)
vis

In [None]:
dictionary.save('final/dictionary2')
model.save('final/model2_30topics')
pyLDAvis.save_html(vis, 'final/model2_30topics.html')