<img src="../css/thro.svg" align="right" width="200">
 
# Introduction to AI (PART II) - Natural Language Processing (NLP)

## Lecture 10

---
## Part 2: Language Models

In this notebook we will be applying the n-gram language models. We start with a file of 2307 titles of bachelor and master thesis at the TH Rosenheim and the TH Nürnberg. 

In [1]:
!head -5 data/theses.txt

Handgestenerkennung zur Interaktion mit Webanwendungen unter Einsatz moderner Webtechnologien
Überführung einer objektorientierten zu einer relationalen Datenbank - Evaluation, Konzeption und Umsetzung anhand des Softwareprodukts distribution.list
Automatisierung der Bereitstellung fachlicher Web Services aus einem Kernbankensystem
Analyse und Bewertung von Strategien zur Implementierung einer Cloud-Plattform für Customizing-Lösungen im Bereich Personalwirtschaftssysteme
Realisierung und Evaluation alternativer Eingabekonzepte für Android-Smartwatches


In a first step, we use generated the 3-grams from this file using SRILM (http://www.speech.sri.com/projects/srilm/):

<pre>% ngram-count -lm theses.arpa.gz -order 3 -text theses.txt</pre>

In [2]:
!head -15 data/theses.arpa


\data\
ngram 1=4551
ngram 2=10363
ngram 3=891

\1-grams:
-4.198712	"	-0.07755557
-4.198712	"ASP	-0.08478913
-4.198712	"Cozmo"	-0.04633292
-4.198712	"Custom	-0.08478913
-4.198712	"Data-Driven	-0.08478913
-4.198712	"Do-it-Your-Self"	-0.08462419
-3.897682	"Elektronische	-0.1905989
-4.198712	"Entwicklung	-0.07311737


In [3]:
!tail -10 data/theses.arpa

-1.366745	Systems zur Empfehlung
-1.366745	Systems zur automatisierten
-0.6263825	Testergebnisse zur Qualitätsverbesserung
-0.6263825	Testumgebung zur Erkundung
-0.399631	Tools zur automatisierten
-0.6263825	Web-Crawlers zur Ermittlung
-0.9274126	Webanwendung zur Verbesserung
-0.6263825	Diagnosedaten über das

\end\


In the following code, we will be using the PyNLPl library to access these 3-grams.

#### Setup

In [18]:
# We use pynlpl ('pineapple') - see https://pypi.org/project/PyNLPl/
from pynlpl.lm.lm import ARPALanguageModel

In [19]:
mdl = ARPALanguageModel('data/theses.arpa')

#### Explore the language model

In [20]:
# check how long the n-grams are (i.e. what the "n" is)
mdl.order

3

In [21]:
# let's have a look at the n-grams and their probabilities (in log-scale)
mdl.ngrams._data
# this is a dict of tupels (1 to 3 tokens) as key and 2-tupels containing the log-prop and (sometimes) a backoff-value,
# which we will not be using

{('"',): (-9.667891660975217, -0.17857829936065625),
 ('"ASP',): (-9.667891660975217, -0.19523418678593427),
 ('"Cozmo"',): (-9.667891660975217, -0.10668549090688569),
 ('"Custom',): (-9.667891660975217, -0.19523418678593427),
 ('"Data-Driven',): (-9.667891660975217, -0.19523418678593427),
 ('"Do-it-Your-Self"',): (-9.667891660975217, -0.19485439840069582),
 ('"Elektronische',): (-8.974744470431219, -0.4388701858810628),
 ('"Entwicklung',): (-9.667891660975217, -0.16835896620093008),
 ('"Evaluation',): (-9.667891660975217, -0.15678529854120665),
 ('"Fall',): (-9.667891660975217, -0.19523418678593427),
 ('"Feature',): (-9.667891660975217, -0.19517091174757875),
 ('"Generative',): (-9.667891660975217, -0.19517091174757875),
 ('"Grosser',): (-9.667891660975217, -0.19523418678593427),
 ('"IFS',): (-9.667891660975217, -0.19523418678593427),
 ('"Konzeption',): (-9.667891660975217, -0.1709560289014671),
 ('"Konzeption,',): (-9.667891660975217, -0.1938409155720145),
 ('"Levelgraph"-Verfahrens'

In [8]:
# let's have a look at the n-grams and their probabilities (in log-scale)
# items() is a python function returning (key,value) tupels for a dict
for x in mdl.ngrams._data.items():
    print(x[0], '-->', x[1][0])

('"',) --> -9.667891660975217
('"ASP',) --> -9.667891660975217
('"Cozmo"',) --> -9.667891660975217
('"Custom',) --> -9.667891660975217
('"Data-Driven',) --> -9.667891660975217
('"Do-it-Your-Self"',) --> -9.667891660975217
('"Elektronische',) --> -8.974744470431219
('"Entwicklung',) --> -9.667891660975217
('"Evaluation',) --> -9.667891660975217
('"Fall',) --> -9.667891660975217
('"Feature',) --> -9.667891660975217
('"Generative',) --> -9.667891660975217
('"Grosser',) --> -9.667891660975217
('"IFS',) --> -9.667891660975217
('"Konzeption',) --> -9.667891660975217
('"Konzeption,',) --> -9.667891660975217
('"Levelgraph"-Verfahrens',) --> -9.667891660975217
('"Limesurvey"',) --> -9.667891660975217
('"Loss',) --> -9.667891660975217
('"Mobile',) --> -9.667891660975217
('"NAO"',) --> -9.667891660975217
('"Opus"',) --> -9.667891660975217
('"Pepper"',) --> -9.667891660975217
('"Photo',) --> -9.667891660975217
('"QlikView"',) --> -9.667891660975217
('"Sales"',) --> -9.667891660975217
('"Virtueller

('ELO',) --> -9.667891660975217
('EMPAMOS-Projektes',) --> -9.667891660975217
('EN',) --> -9.667891660975217
('ERP',) --> -9.667891660975217
('ERP-Branchenlösung',) --> -9.667891660975217
('ERP-Software',) --> -8.974744470431219
('ERP-System',) --> -7.7219816040561335
('ERP-Systeme',) --> -8.974744470431219
('ERP-Systemen',) --> -9.667891660975217
('ERP-Systems',) --> -8.569279958820804
('ERP-Umfeld',) --> -9.667891660975217
('ERP/CRM',) --> -9.667891660975217
('ETL',) --> -8.974744470431219
('ETL-Tools',) --> -9.667891660975217
('EU-Datenschutzverordnung',) --> -9.667891660975217
('EU-Verordnung',) --> -9.667891660975217
('EVS',) --> -9.667891660975217
('EWM',) --> -8.569279958820804
('EXASolution',) --> -9.667891660975217
('EXIM',) --> -9.667891660975217
('Echo',) --> -9.667891660975217
('Echtzeit',) --> -9.667891660975217
('Echtzeit-Darstellung',) --> -9.667891660975217
('Echtzeit-Generierung',) --> -9.667891660975217
('Echtzeit-Lösungsmitteilung',) --> -9.667891660975217
('Echtzeit

('Kassendaten',) --> -9.667891660975217
('Kassensystemen',) --> -9.667891660975217
('Kassensystems',) --> -9.667891660975217
('Katalogerstellung',) --> -9.667891660975217
('Kategorien',) --> -8.974744470431219
('Kategorisierung',) --> -9.667891660975217
('Kaufabschlusses',) --> -9.667891660975217
('Kaufdowns',) --> -9.667891660975217
('Kaufverhalten',) --> -9.667891660975217
('Kennzahlen',) --> -9.667891660975217
('Kennzahlenanalyse',) --> -9.667891660975217
('Kennzahlensystems',) --> -8.281597279887222
('Kernbankensystem',) --> -9.667891660975217
('Key',) --> -9.667891660975217
('Key-Value-Datenbanken',) --> -9.667891660975217
('Kinect',) --> -9.667891660975217
('Kinect-Sensor',) --> -9.667891660975217
('Kinematik',) --> -9.667891660975217
('Kirchengemeindeema:',) --> -9.667891660975217
('Klanglandschaften',) --> -9.667891660975217
('Klasse',) --> -9.667891660975217
('Klassenbibliothek',) --> -9.667891660975217
('Klassifikation',) --> -8.281597279887222
('Klassifizierung',) --> -8.281

('Rahmenarchitektur',) --> -9.667891660975217
('Rahmenbedingungen',) --> -9.667891660975217
('Rahmenbedingungen.',) --> -9.667891660975217
('Rails',) --> -9.667891660975217
('Random',) --> -8.974744470431219
('Ranking-Algorithmus',) --> -9.667891660975217
('Rankings',) --> -9.667891660975217
('Raspberry',) --> -9.667891660975217
('Rasterbasierte',) --> -9.667891660975217
('Ratenkauf',) --> -9.667891660975217
('Ratingalgorithmus',) --> -9.667891660975217
('Raum',) --> -9.667891660975217
('Raumidentifikation',) --> -9.667891660975217
('Raumpartionierungs',) --> -9.667891660975217
('Rauschfreien',) --> -9.667891660975217
('Re-Zertifizierung',) --> -9.667891660975217
('React',) --> -9.667891660975217
('Real',) --> -9.667891660975217
('Real-Time',) --> -8.974744470431219
('Realisierbarkeit',) --> -9.667891660975217
('Realisierung',) --> -5.405212586889244
('Realistische',) --> -9.667891660975217
('Reality',) --> -7.269995663226869
('Realität',) --> -9.667891660975217
('Realtime-Analyse',) -

('Werkzeug',) --> -8.974744470431219
('Werkzeugen',) --> -8.974744470431219
('Werkzeugerweiterung',) --> -9.667891660975217
('Werkzeuggestützte,',) --> -9.667891660975217
('Werkzeugmaschinen',) --> -9.667891660975217
('Werkzeugs',) --> -7.876132768276807
('Werkzeugunterstützung',) --> -8.281597279887222
('Wettbewerbsanalyse',) --> -9.667891660975217
('Wettbewerbsbeobachtung',) --> -9.667891660975217
('Wie',) --> -9.667891660975217
('Wiedereinspielungsangriffe',) --> -9.667891660975217
('Wiedererkennung',) --> -9.667891660975217
('Wiederverwendbarkeit',) --> -9.667891660975217
('Wii',) --> -9.667891660975217
('WinISO',) --> -9.667891660975217
('Windows',) --> -8.281597279887222
('Windows-Presentation-Foundation-Anwendungen',) --> -9.667891660975217
('Wireless',) --> -9.667891660975217
('Wirkung',) --> -8.974744470431219
('Wirtschaftlichkeitsanalyse',) --> -9.667891660975217
('Wirtschaftsprüfung',) --> -9.667891660975217
('Wirtschaftszweige',) --> -9.667891660975217
('Wissens',) --> -9.6

('vektorbasierten',) --> -9.667891660975217
('veranstaltungstechnischer',) --> -9.667891660975217
('verbesserte',) --> -9.667891660975217
('vereinheitlichten',) --> -9.667891660975217
('verfahrenstechnischen',) --> -9.667891660975217
('verfahrenstechnischer',) --> -9.667891660975217
('vergleichende',) --> -8.974744470431219
('vernetzten',) --> -9.667891660975217
('verschiedenen',) --> -8.569279958820804
('verschiedener',) --> -7.028834413512136
('versionierten',) --> -9.667891660975217
('verteilt',) --> -9.667891660975217
('verteilte',) --> -8.974744470431219
('verteilten',) --> -8.281597279887222
('verteilter',) --> -9.667891660975217
('verwalteten',) --> -9.667891660975217
('verwendeter',) --> -9.667891660975217
('via',) --> -8.974744470431219
('viable',) --> -9.667891660975217
('vielseitigen',) --> -9.667891660975217
('virtuell',) --> -9.667891660975217
('virtuelle',) --> -8.974744470431219
('virtuellen',) --> -7.7219816040561335
('virtuellen,',) --> -9.667891660975217
('virtueller'

('Analysesoftware', 'zur') --> -1.7292913709350464
('Analysesystems', 'zur') --> -1.7292913709350464
('Analysetool', '</s>') --> -1.7292913709350464
('Analysieren', 'und') --> -1.7292913709350464
('Analysis', '</s>') --> -2.422439252254572
('Analysis', 'and') --> -2.422439252254572
('Analysis,', 'conception') --> -1.7292913709350464
('Analytics', '-') --> -2.8279037638649864
('Analytics', '</s>') --> -2.8279037638649864
('Analytics', 'APIs') --> -2.8279037638649864
('Anbetracht', 'von') --> -1.7292913709350464
('Anbietern', 'cloudgestützter') --> -2.422439252254572
('Anbietern', 'für') --> -2.422439252254572
('Anbindung', 'an') --> -1.3548233388124804
('Anbindung', 'ein') --> -4.294240607955641
('Anbindung', 'einer') --> -2.906431125876455
('Anbindung', 'eines') --> -4.294240607955641
('Anbindung', 'mobiler') --> -4.294240607955641
('Anbindung', 'von') --> -2.011571724723447
('Anbindung', 'zu') --> -4.294240607955641
('Android', '</s>') --> -4.294240607955641
('Android', 'App') --> -2.

('Datensicherungsstrategie', 'für') --> -1.7292913709350464
('Datenstromverarbeitung', '</s>') --> -1.7292913709350464
('Datenstruktur', 'für') --> -1.7292913709350464
('Datenstrukturänderungen', 'im') --> -1.7292913709350464
('Datensätze', 'zum') --> -1.7292913709350464
('Datentransfer', 'zwischen') --> -1.7292913709350464
('Datentransferservice', 'mit') --> -1.7292913709350464
('Datenträgern', 'in') --> -1.7292913709350464
('Datenvalidierung', 'im') --> -1.7292913709350464
('Datenverarbeitung', 'mit') --> -1.7292913709350464
('Datenvirtualisierungslösung', 'für') --> -1.7292913709350464
('Datenvisualisierung', 'in') --> -1.7292913709350464
('Datenzugriffe', 'für') --> -1.7292913709350464
('Datenübergabeprozesses', 'im') --> -1.0346295399168774
('Datenübermittlungssystem', '</s>') --> -1.7292913709350464
('Datenübertragung', '</s>') --> -2.8279037638649864
('Datenübertragung', 'von') --> -1.4400947423028199
('Datev', 'e.G.') --> -1.7292913709350464
('De-facto-Standard', 'im') --> -1.7

('GmbH', '</s>') --> -0.12516313760603873
('GmbH&CoKG', '</s>') --> -1.7292913709350464
('Go', '</s>') --> -2.422439252254572
('Go', 'im') --> -2.422439252254572
('Go/No-Go', 'Analyse') --> -1.7292913709350464
('Google', 'Glass') --> -1.7292913709350464
('Gotliebs', 'Einführung') --> -1.7292913709350464
('Grafana', '</s>') --> -1.7292913709350464
('Grafikbibliotheken', 'für') --> -1.7292913709350464
('Grafiken', '</s>') --> -1.7292913709350464
('Grafikzeichenprogramm', '</s>') --> -1.7292913709350464
('Grafische', 'Bedienoberfläche') --> -2.422439252254572
('Grafische', 'Oberfläche') --> -2.422439252254572
('Graph-orientierter', 'Datenbanken') --> -1.7292913709350464
('GraphQL', 'als') --> -1.7292913709350464
('Graphdatenbanken', 'und') --> -1.7292913709350464
('Graphen', '</s>') --> -1.7292913709350464
('Graphical', 'User') --> -1.7292913709350464
('Graphiken', 'auf') --> -2.422439252254572
('Graphiken', 'und') --> -2.422439252254572
('Graphische', 'Netzwerkvisualisierung') --> -1.729

('Mobile', 'Application') --> -1.950920251822928
('Mobile', 'Devices') --> -1.950920251822928
('Mobile', 'Zeiterfassung') --> -3.3387299641606223
('Mobile-Apps', '</s>') --> -1.7292913709350464
('Mobilität', 'im') --> -1.7292913709350464
('Modbus-Protokoll', 'bei') --> -1.7292913709350464
('Mode', 'Performance') --> -1.7292913709350464
('Model', 'Canvas,') --> -2.422439252254572
('Model', 'Checker') --> -2.422439252254572
('Model-Based', 'Systems') --> -1.7292913709350464
('Modeling', '3D-Druckverfahrens') --> -2.8279037638649864
('Modeling', 'and') --> -2.8279037638649864
('Modeling', 'und') --> -2.8279037638649864
('Modellbasierte', 'Abhängigkeiten') --> -1.0346295399168774
('Modellen', 'durch') --> -2.422439252254572
('Modellen', 'maschineller') --> -2.422439252254572
('Modellfahrzeug', '</s>') --> -1.7292913709350464
('Modellfahrzeuges', '</s>') --> -1.7292913709350464
('Modellieren', 'einer') --> -1.7292913709350464
('Modellierung', 'des') --> -4.294240607955641
('Modellierung', '

('SQL', 'Server') --> -3.1155864427985693
('SQL', 'Servers') --> -1.7277767304608749
('SQL-Abfragen', 'auf') --> -1.7292913709350464
('SQL-Queries', 'in') --> -1.7292913709350464
('SRM-', 'und') --> -1.7292913709350464
('SRM-Systeme', 'von') --> -1.7292913709350464
('SSIS-Paketen', 'für') --> -1.7292913709350464
('SSL', '</s>') --> -1.7292913709350464
('SW-Entwicklungsprozessen', '</s>') --> -1.7292913709350464
('SZ', 'Kaufdowns') --> -1.7292913709350464
('SaaS-Angebotes', '</s>') --> -1.7292913709350464
('SaaS-Projekts', 'bei') --> -1.7292913709350464
('Saiteninstrumenten', '</s>') --> -1.7292913709350464
('Sammlung', 'und') --> -2.8279037638649864
('Sammlung', 'von') --> -1.4400947423028199
('Sanierung', 'einer') --> -2.422439252254572
('Sanierung', 'eines') --> -2.422439252254572
('Sanierungsprojekten', '</s>') --> -1.7292913709350464
('Scenarios', 'for') --> -1.7292913709350464
('Scene', 'extraction') --> -1.7292913709350464
('Schaeffler', 'AG') --> -1.4400947423028199
('Schaeffler

('Verschlagworten', 'von') --> -1.7292913709350464
('Versicherung', '</s>') --> -1.0346295399168774
('Versicherungsbranche', '</s>') --> -1.0346295399168774
('Versicherungsgruppe', '</s>') --> -1.7292913709350464
('Versicherungsrisiken', 'in') --> -1.7292913709350464
('Versicherungsunternehmen', '</s>') --> -1.7292913709350464
('Versionierung', 'von') --> -1.7292913709350464
('Versionskontrollsystems', 'zur') --> -1.7292913709350464
('Versuchsfahrzeugbau', '</s>') --> -1.7292913709350464
('Verteilung', 'einer') --> -1.7292913709350464
('Verteilungslösung', 'von') --> -1.7292913709350464
('Vertragsdokumenten.', '</s>') --> -1.7292913709350464
('Vertrauen', 'und') --> -1.7292913709350464
('Vertrieb', 'im') --> -2.422439252254572
('Vertrieb', 'von') --> -2.422439252254572
('Vertriebsbelegfluss', 'als') --> -1.7292913709350464
('Vertriebsoptimierungstools', '</s>') --> -1.7292913709350464
('Vertriebspartnerdaten', 'basierend') --> -1.7292913709350464
('Verwaltung', 'polystrukturierter') --

('der', 'Baubranche') --> -7.851782930918395
('der', 'Bauwirtschaft') --> -7.851782930918395
('der', 'Berechtigungsvergabe') --> -7.851782930918395
('der', 'Bereitstellung') --> -7.851782930918395
('der', 'Berücksichtigung') --> -7.851782930918395
('der', 'Betroffenen') --> -7.851782930918395
('der', 'Blockchaintechnologie') --> -7.851782930918395
('der', 'Blogger') --> -7.851782930918395
('der', 'Buchführung') --> -7.851782930918395
('der', 'Bundesagentur') --> -4.733953770239249
('der', 'Bundeszollverwaltung.') --> -7.851782930918395
('der', 'CAE-Softwareentwicklung') --> -7.851782930918395
('der', 'CRM-Daten') --> -7.851782930918395
('der', 'Carl') --> -6.463975751424302
('der', 'Chemielogistik') --> -7.851782930918395
('der', 'Cloud') --> -7.851782930918395
('der', 'Container-Orchestrierungstools') --> -7.851782930918395
('der', 'Content') --> -7.851782930918395
('der', 'Corporate') --> -7.851782930918395
('der', 'DATEV') --> -2.5115746237894645
('der', 'DATEV-Online-Anwendung') --

('einer', 'Smart') --> -7.669461940670033
('einer', 'Smartphone-Applikation') --> -6.281652458590847
('einer', 'Smartwatch-/Smartphone-Anwendung') --> -7.669461940670033
('einer', 'Social') --> -6.281652458590847
('einer', 'Software') --> -4.730046283336438
('einer', 'Software-as-a-Service') --> -7.669461940670033
('einer', 'Softwarekomponente') --> -7.669461940670033
('einer', 'Softwarelösung') --> -6.281652458590847
('einer', 'Softwareplattform') --> -7.669461940670033
('einer', 'Standardnotation') --> -7.669461940670033
('einer', 'Standort-basierten') --> -7.669461940670033
('einer', 'Starterbatterie') --> -7.669461940670033
('einer', 'Supportanwendung') --> -7.669461940670033
('einer', 'System-') --> -7.669461940670033
('einer', 'Telematik') --> -7.669461940670033
('einer', 'Testkette') --> -7.669461940670033
('einer', 'Testmethode') --> -7.669461940670033
('einer', 'Testmethodik') --> -7.669461940670033
('einer', 'Testumgebung') --> -5.386794208730386
('einer', 'Trendanalyse') -->

('im', 'Business') --> -6.804465916880611
('im', 'Bürobereich') --> -6.804465916880611
('im', 'CMS') --> -6.804465916880611
('im', 'Content-Management-Umfeld') --> -6.804465916880611
('im', 'Deutschen') --> -6.804465916880611
('im', 'DevOps-Kontext') --> -6.804465916880611
('im', 'Docsis-Umfeld') --> -6.804465916880611
('im', 'E-Commerce') --> -4.52179588235587
('im', 'ERP-System') --> -6.804465916880611
('im', 'ERP-Umfeld') --> -6.804465916880611
('im', 'Einkauf') --> -6.804465916880611
('im', 'Einzelhandel') --> -6.804465916880611
('im', 'Eventbereich') --> -6.804465916880611
('im', 'Fertigungsprozess') --> -6.804465916880611
('im', 'Gebäudemonitoring') --> -6.804465916880611
('im', 'Gefahren-Management-System') --> -6.804465916880611
('im', 'Geschäftsfeld') --> -6.804465916880611
('im', 'Gesundheitswesen:') --> -6.804465916880611
('im', 'Globalen') --> -6.804465916880611
('im', 'Großanlagenbau') --> -6.804465916880611
('im', 'Hinblick') --> -4.52179588235587
('im', 'IT') --> -6.8044

('soziales', 'Netzwerk') --> -1.4400947423028199
('sozialwissenschaftlicher', 'Texte') --> -1.7292913709350464
('sozio-technischen', 'Informationssystemen') --> -1.7292913709350464
('spaltenbasierten', 'Datenbank') --> -1.7292913709350464
('speaker', 'recognition') --> -1.7292913709350464
('speziell', 'bei') --> -2.422439252254572
('speziell', 'für') --> -2.422439252254572
('speziellen', 'Softwareentwicklungsprozess') --> -1.7292913709350464
('spezifische', 'Anforderungen') --> -2.422439252254572
('spezifische', 'Risikomanagement.') --> -2.422439252254572
('spielerischer', 'Ansatz') --> -1.7292913709350464
('spielfremden', 'Kontext') --> -1.7292913709350464
('spieltheoretischer', 'Funktionen') --> -1.7292913709350464
('sporting', 'goods') --> -1.7292913709350464
('sprachgesteuerten', 'Anwendung') --> -2.422439252254572
('sprachgesteuerten', 'Assistenten') --> -2.422439252254572
('sprachspezifischen', 'und') --> -1.7292913709350464
('standardisierte', 'ERP-Systeme') --> -1.7292913709350

('von', 'Technologien') --> -8.121208412649628
('von', 'Telekommunikationseinrichtungen') --> -6.733398930570443
('von', 'Temperaturverläufen') --> -8.121208412649628
('von', 'Tensorflow') --> -8.121208412649628
('von', 'Terraindaten') --> -8.121208412649628
('von', 'Testaktivitäten') --> -8.121208412649628
('von', 'Testfällen') --> -8.121208412649628
('von', 'Testumgebungen') --> -8.121208412649628
('von', 'Text') --> -8.121208412649628
('von', 'Textdaten') --> -8.121208412649628
('von', 'Texten') --> -6.733398930570443
('von', 'Tiefenkarten') --> -8.121208412649628
('von', 'Tools') --> -8.121208412649628
('von', 'Transaktionsdaten') --> -8.121208412649628
('von', 'Typo3') --> -8.121208412649628
('von', 'Umweltdaten') --> -8.121208412649628
('von', 'Unterhaltung,') --> -8.121208412649628
('von', 'Unternehmen') --> -8.121208412649628
('von', 'Unternehmensarchitekturen') --> -8.121208412649628
('von', 'Unternehmenskennzahlen') --> -8.121208412649628
('von', 'Updates') --> -8.12120841264

('neuronaler', 'Netze', 'und') --> -2.5409118604593015
('neuronalen', 'Netzen', '</s>') --> -1.442299007012343
('<s>', 'Neukonzeption', 'der') --> -2.35859087021094
('<s>', 'Neukonzeption', 'und') --> -2.35859087021094
('bei', 'Neukunden', '</s>') --> -1.442299007012343
('Convolutional', 'Neural', 'Networks') --> -0.22314354438790393
('<s>', 'Nutzung', 'von') --> -1.442299007012343
('Hochschule', 'Nürnberg', '</s>') --> -0.9201843832983035
('IHK', 'Nürnberg', 'für') --> -1.442299007012343
('TH', 'Nürnberg', '</s>') --> -0.22314354438790393
('beweglicher', 'Objekte', 'am') --> -1.442299007012343
('verschiedener', 'Open', 'Source') --> -1.442299007012343
('ITIL', 'Operation', 'Prozessen') --> -1.442299007012343
('<s>', 'Optimierung', 'der') --> -2.018796776228244
('<s>', 'Optimierung', 'des') --> -3.234059051003299
('<s>', 'Optimierung', 'einer') --> -2.018796776228244
('<s>', 'Optimierung', 'eines') --> -3.234059051003299
('<s>', 'Optimierung', 'von') --> -3.234059051003299
('und', 'Opt

#### find next tokens

In [22]:
# let's define a function to return the next most probable words for a text
def findnexts(text, mdl, n=0):
    # split the text into tokens
    if isinstance(text, str):
        hist = text.split()
        hist = tuple(hist)
    else:
        hist = text
    
    # if the hist contains more tokens than the order of our n-grams, only use the last n tokens
    if len(hist) >= mdl.order:
        hist = hist[-mdl.order+1:]
    
    def match(x, h):
        if not h:
            return len(x[0]) == 1
        else:
            # history needs to be "one longer" but needs to match
            return len(x[0]) == len(h) + 1 and x[0][:len(h)] == h
    
    cand = list(filter(lambda x: match(x, hist), mdl.ngrams._data.items()))
    
    # if no cands, shorten history from the left
    while not cand:
        hist = hist[1:]
        cand = list(filter(lambda x: match(x, hist), mdl.ngrams._data.items()))
        
    cand = list(sorted(cand, key=lambda x: x[1][0], reverse=True))
    
    if n > 0:
        return cand[:n]
    else:
        return cand
    

In [23]:
findnexts("", mdl, 20)

[(('</s>',), (-2.4674663037480706, 0.0)),
 (('und',), (-3.0491522576955052, -0.6983768218072057)),
 (('von',), (-3.275975310036163, -0.039656248738239024)),
 (('der',), (-3.545398489182303, -0.3596283317152379)),
 (('eines',), (-3.6276376183636785, -0.31538922484056187)),
 (('für',), (-3.6276376183636785, -0.9863332781083458)),
 (('einer',), (-3.7277194794306645, -0.3859132615858021)),
 (('zur',), (-3.8627568847943934, -0.6315857360147275)),
 (('Konzeption',), (-4.073180926102748, -3.747496382794391)),
 (('in',), (-4.099547828002622, -1.0722335175875817)),
 (('Entwicklung',), (-4.316034575860829, -2.5690793839018977)),
 (('mit',), (-4.480505926468301, -0.628885264217664)),
 (('im',), (-4.592717805805179, -0.6427194257148815)),
 (('Implementierung',), (-4.644010191336716, -2.355021863316799)),
 (('des',), (-4.755236564253793, -0.24114582239460833)),
 (('auf',), (-4.800358021736105, -1.0239554462012848)),
 (('die',), (-4.958361410817356, -0.2553734956842185)),
 (('Analyse',), (-5.0044522

In [24]:
findnexts("Design und Implementierung", mdl, 10)

[(('und', 'Implementierung', 'eines'), (-0.6931471905439976, 0.0)),
 (('und', 'Implementierung', 'einer'), (-1.0704414156097044, 0.0)),
 (('und', 'Implementierung', 'von'), (-3.2963347674284162, 0.0)),
 (('und', 'Implementierung', 'der'), (-4.99764811767402, 0.0))]

In [25]:
findnexts("und Implementierung", mdl, 10)

[(('und', 'Implementierung', 'eines'), (-0.6931471905439976, 0.0)),
 (('und', 'Implementierung', 'einer'), (-1.0704414156097044, 0.0)),
 (('und', 'Implementierung', 'von'), (-3.2963347674284162, 0.0)),
 (('und', 'Implementierung', 'der'), (-4.99764811767402, 0.0))]

In [27]:
findnexts("Analyse", mdl, 10)

[(('Analyse', 'und'), (-0.879249486032074, -0.47880161656376563)),
 (('Analyse', 'von'), (-1.1977032213729017, -0.013693013031016993)),
 (('Analyse', 'der'), (-2.3608543113573535, -0.046870984661819125)),
 (('Analyse', 'des'), (-3.3130630481290178, 0.0)),
 (('Analyse', '</s>'), (-4.1100614315372335, 0.0)),
 (('Analyse', 'einer'), (-5.004921983982788, 0.0)),
 (('Analyse', 'für'), (-5.004921983982788, 0.0)),
 (('Analyse', 'zur'), (-5.004921983982788, 0.0)),
 (('Analyse', 'am'), (-6.392731466061973, 0.0)),
 (('Analyse', 'externer'), (-6.392731466061973, 0.0))]

#### Interactive thesis titel completion

In [28]:
# Interaktive vervollständigung
hist = []
while True:
    a = input().strip()
    if not a:
        break
    hist.append(a)
    print(' '.join(hist) + str(list(map(lambda x: x[0][-1], findnexts(' '.join(hist), mdl)))))
    

Analyse
Analyse['und', 'von', 'der', 'des', '</s>', 'einer', 'für', 'zur', 'am', 'externer', 'im', 'probabilistischer', 'technischer']
und
Analyse und['Optimierung', 'Bewertung', 'Konzeption', 'Vergleich', 'Design', 'Implementierung', 'Verbesserung', 'Weiterentwicklung']
Bewertung
Analyse und Bewertung['von', 'der', 'einer']
von
Analyse und Bewertung von['SAP', 'Gamification', 'Machine', 'Software', 'Algorithmen', 'Business', 'Microsoft', 'technischen', 'Apache', 'Daten', 'Geschäftsprozessen', 'Messdaten', 'Produkten', 'Strategien', 'agilen', 'automatisierten', 'sozialen', 'virtuellen', 'Abhängigkeiten', 'Agilität', 'Apple', 'Augmented', 'Benutzerdaten', 'Big', 'Deep', 'Diagnosedaten', 'Dokumenten', 'Dreiecksnetzen', 'Emotionen', 'Finanzmarktnachrichten', 'Frameworks', 'Gebäudefassaden', 'Geschäftsmodellen', 'Gesichtern', 'ITIL', 'Konzepten', 'Legacy-Systemen', 'Logdaten', 'MS', 'Magento', 'Markov', 'Methoden', 'Misserfolgsfaktoren', 'Multi-Modell-Datenbankkonzepten', 'Online', 'Profes

Daten
Analyse und Bewertung von Daten['</s>', 'in', 'mit', 'am', 'auf', 'aus', 'der', 'im', 'und', 'von', 'zur', 'zwischen']
mit
Analyse und Bewertung von Daten mit['Hilfe', 'dem', 'einem', 'Fokus', 'der', 'Anbindung', 'einer', 'Convolutional', 'Microsoft', 'Integration', 'Machine', 'Open', 'Prognose', 'SAP', 'Schwerpunkt', 'Xamarin', 'anschließender', 'maschinellen', 'webbasierter', '"Generative', '?IBM', 'Adobe', 'Ajax', 'Anwendung', 'Apache', 'Atlassian', 'Beamer', 'Berücksichtigung', 'Bezug', 'Content', 'Cross', 'DATEV.', 'Docker', 'Dokumentenmanagement', 'Event-Versionierung', 'ExtBase', 'Graphdatenbanken', 'HTML5', 'Icinga2', 'Identifikation', 'Indoor-Positionsbestimmung', 'Innovator', 'JQuery-Framework', 'JQuery-Mobile', 'Javascript', 'Liferay', 'Live-Debugging-Schnittstelle', 'Methoden', 'Node.js', 'OBASMI', 'OpenCV', 'OpenGL', 'Oracle', 'Plattform', 'Plugin-Architektur', 'QlikSense', 'QlikView', 'Raft', 'Rekurrenten', 'Ruby-on-Rails', 'SAP-Anbindung', 'Saiteninstrumenten', 'Se

KeyboardInterrupt: Interrupted by user

#### Automatic thesis titel generation

In [30]:
import random

def generate_titles(max_len=20):
    hist = ('<s>')
    title = []
    for i in range(max_len):
        cand = findnexts(hist, mdl)
        if not cand:
            break

        cand = random.choice(cand)[0]

        if cand[-1] == '</s>':
            break
            
        title.append(cand[-1])
        hist = cand
    return title

for i in range(8):
    print('*',' '.join(generate_titles()))

* Fehlermanagement in Stadien
* Workflowgetriebene ERP-Systeme im ERP-System und Entwurf eines Konfigurations-Tools für Microsoft SharePoint
* Auswirkung der einheitlichen Auskunftsfähigkeit des Potentials von Holzbauten mit neuer graphischer Benutzeroberfläche
* Klassifikation digitalisierter Dokumente durch automatische Katalogerstellung mit neuer Colorways (Farbvarianten) von Caching-Algorithmen einer challengebasierten Bucketlist
* Abbilden des Einkaufserlebnisses
* Exploring Challenges within Global Data Warehouse
* Koordination eines Proof-of-Concepts
* Extraktion von Richtungsinformationen aus kapazitiven Bildern zur Multitouch-Interaktionen auf mobilen Endgeräten


In [None]:
# --- EOF ---