# Ausgewählte Kapitel sozial Webtechnologien - Neuronale Netze
## Trainieren eines Word2Vec Modells und Darstellung von Wort- und Dokumentenvektoren anhand von Anfragetexten des FragDenStaat-Projektes

Bearbeiten von:
* Sebastian Jüngling (558556)
* Konstantin Bruckert (558290)

Prüfer:
* Benjamin Voigt

# Einleitung
Über das FragDenStaat-Portal werden Anfragen an Behörden in Deutschland gesammelt und zur Verfügung gestellt. Durch die stetig wachsende Popularität des Portals liegt diesem Projekt ein umfangreicher Datensatz vor, dessen Informationsgehalt im Laufe dieses Notebooks mit Hilfe eines Word2Vec Modells möglichst weit ausgeschöpft werden soll.

Grober Ablauf: Zunächst werden die bereits bereinigten Daten für die Weiterverarbeitung aufbereitet und randomisiert. Tatsächliche Input-Daten werden daraufhin durch die indexierung und Speicherung in Lookup-Tables generiert. Mithilfe von Context-Windows können nun Input-Target-Wörter mit entsprechenden Labels aus Daten abgeleitet und für alle Sätze erzeugt werden. Das eigentlich Kernstück des Notebooks bildet dann das Skip-Gramm Modell als Hidden-Layer, welches in sequentiellen Batches über mehrere Epochen die Weights per Loss trainiert. Die daraus resultierenden Word-Embeddings können nun genutzt werden um Dokumenten-Vektoren aufzubauen. Diese oder auch einfache Wort-Vektoren können mithilfe der Cosine-Similarity verglichen werden. Abschließend wird versucht, die Word-Embeddings in verschieden Arten und unter zuhilfenahme des TSNE-Algorithmus zu visualiseren bzw. Ähnlichkeiten zu clustern.

Für allgemeine hintergrundinformationen zu den einzelnen hier im Modul angewandte Techniken und auch Details zur Entscheidungsfindung lohnt sich zudem ein Blick in das [Exposé](Documents/NN-Projekt-Expose.pdf).



In [1]:
from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import collections
import math
import os
import random
import sys
from tempfile import gettempdir

import numpy as np
from six.moves import xrange
import tensorflow as tf

import pandas as pd

from sklearn.manifold import TSNE

import plotly.graph_objs as go
from plotly.offline import init_notebook_mode, iplot
from plotly.graph_objs import *

init_notebook_mode(connected=True)

%matplotlib inline
import matplotlib.pyplot as plt

# Daten:
Hier passiert das Einladen des Anfragen-Katalogs des FragDenStaat-Projektes.  
Die Daten wurden schon im Zuge der Werkstudententätigkeit von S. Jüngling im Vorfeld bezogen und weitestgehend aufbereitet.
Dabei wurden die Texte auf ihre bedeutungstragenden Begriffe reduziert und die Wörter lemmatisiert.

Bitte achten Sie darauf, die Daten gemäß der Anleitung in der README.md Datei herunterzuladen.

In [2]:
data = pd.read_json('fds_requests_preprocessed.json', orient='records', encoding='utf-8')
data = data.set_index('id') #set column 'id' as index

In [3]:
data.head()

Unnamed: 0_level_0,description,preprocessed,textrank,title
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
47033,1. Wann haben die beiden letzten lebensmittelr...,"[[kontrollbericht, parkstern, berlin], [betrie...","[[parkstern, Parkstern, 1.1227777778], [berlin...","Kontrollbericht zu Parkstern, Berlin"
131943,Die Stellungnahme des BfR zur IARC- Monographi...,"[[stellungnahme, bfr], [iarc, monographie, gly...","[[stellungnahme, Stellungnahme, 1.0], [bfr, Bf...",Stellungnahme des BfR zur IARC- Monographie üb...
47827,1. Wann haben die beiden letzten lebensmittelr...,"[[kontrollbericht, aroma, berlin], [betriebsüb...","[[aroma, Aroma, 1.1227777778], [berlin, Berlin...","Kontrollbericht zu Aroma, Berlin"
131938,Die Stellungnahme des BfR zur IARC- Monographi...,"[[stellungnahme, bfr], [iarc, monographie, gly...","[[stellungnahme, Stellungnahme, 1.0], [bfr, Bf...",Stellungnahme des BfR zur IARC- Monographie üb...
48091,1. Wann haben die beiden letzten lebensmittelr...,"[[kontrollbericht], [hans, glück, bonn], [betr...","[[bonn, Bonn, 1.2479166667000001], [hans, Hans...","Kontrollbericht zu ""Hans im Glück"", Bonn"


### Beispiel für Preprocessing des Anfragetextes:

In [4]:
print('Titel und Description für Beispielanfrage:\n')
print(data.loc[47827]['title'])
print(data.loc[47827]['description'])

print('-------------------------------------------------------------------------')

print('\nPreprocessed Anfragetext für Titel und Anfragetext:\n')
print(data.loc[47827]['preprocessed'])

Titel und Description für Beispielanfrage:

Kontrollbericht zu Aroma, Berlin
1. Wann haben die beiden letzten lebensmittelrechtlichen Betriebsüberprüfungen im folgenden Betrieb stattgefunden:
Aroma
Kantstraße
10625 Berlin

2. Kam es hierbei zu Beanstandungen? Falls ja, beantrage ich hiermit die Herausgabe des entsprechenden Kontrollberichts an mich.
-------------------------------------------------------------------------

Preprocessed Anfragetext für Titel und Anfragetext:

[['kontrollbericht', 'aroma', 'berlin'], ['betriebsüberprüfungen', 'betrieb'], ['aroma', 'kantstraße', 'berlin'], ['beanstandung'], ['herausgabe', 'kontrollberichts']]


### Reduzierung der Anzahl der Anfragen zu Glyphosat
Immer wieder kommt es bei FragDenStaat zu einer Häufung tagespolitischer Themen, wie z.B. die Fragen rund um das Thema Glyphosat. Seit März 2019 sind hierzu bereits mehr als 30.000 Anfragen eingegangen, welche Anhand eines immergleichen Musters ausformuliert werden und somit das Training der globalen Datenmenge zu stark beeinflussen. Zur Reduzierung dieses Einflusses werden die Anfragen zu diesem Thema bei 3000 gedeckelt.
Um auch in Zukunft und ggf. bei der Nutzung aktuellerer/andersartiger Datensätze einwandfreie Ergebnisse zu erzielen, sollte regelmäßig geprüft werden, ob die Daten von einem bestimmten Thema dominiert werden.

In [40]:
glyphosat_title = 'Stellungnahme des BfR zur IARC- Monographie über Glyphosat'
glyphosat_ids = data[data['title'] == glyphosat_title].index

print('Anzahl der Anfragen zu Glyphosat:', len(glyphosat_ids), 'von insgesamt:', len(data), 'Anfragen')

# Da dies alle gleiche Anfragen sind und diese hohe Anzahl den Trainingsprozess verfälschen würde, 
# wird die Anzahl der Anfragen zu Glyphosat auf 3000 beschränkt
remain_glyphosat_requests = 3000
data.drop(glyphosat_ids[remain_glyphosat_requests:], inplace=True) # drop by id

print('Anzahl der Anfragen zu Glyphosat nach Bereinigung:', len(data[data['title'] == glyphosat_title]), 'von insgesamt:', len(data), 'Anfragen')


Anzahl der Anfragen zu Glyphosat: 3000 von insgesamt: 59168 Anfragen
Anzahl der Anfragen zu Glyphosat nach Bereinigung: 3000 von insgesamt: 59168 Anfragen


### Shuffle Data:
Während des Trainings mit den Daten konnte trotz der sorgfältigen Beseitigung von dominanten Themen immer noch eine überproportionale Gewichtung der Glyphosat-Themen festgestellt werden. Das Problem lag hierbei im chronologisch vorliegenden Datensatz, welcher eine natürliche, große Abfolge von gleichen Themen nacheinander besitzt. Um die Word-Embeddings dadurch nicht zu stark in eine Richtung zu trainieren, werden die Anfragen randomisiert.

In [41]:
data = data.sample(frac=1)
data.head()

Unnamed: 0_level_0,description,preprocessed,textrank,title,doc_vector
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
50326,1. Wann haben die beiden letzten lebensmittelr...,"[[manh, hoa, do, |, asia-imbiss, mögeldorf, nü...","[[do, Do, 1.1317027778], [|, |, 1.1317027778],...","Manh Hoa Do | Asia-Imbiss Mögeldorf, Nürnberg","[0.63906544, 0.37667438, 0.2606645, 0.15448664..."
23730,Durch Kontakt mit einer Fachabteilung wurde m...,"[[herausgabe, weisung], [arbeitsanweisungen, k...","[[mitarbeiter, Mitarbeitern, 2.9120482067], [a...",Herausgabe der internen Weisungen / Arbeitsanw...,"[0.5262659, 0.24017203, -0.017450962, -0.06750..."
2432,Ich bitte um Zusendung des folgenden Gutachten...,"[[frage, ausgestaltung, stabilitätsmechanismus...","[[frage, Fragen, 1.0], [ausgestaltung, Ausgest...",Finanzverfassungsrechtliche Fragen zur Ausgest...,"[0.35916921, 0.23056042, 0.08289202, 0.1130204..."
13203,die Ausarbeitung WD 10 - 074/08 mit dem Titel ...,"[[rahmenbedingung, verhältnis, staat, religion...","[[rahmenbedingung, Rahmenbedingungen, 1.306141...",WD 10 - 074/08 – Rechtliche Rahmenbedingungen ...,"[0.27358878, 0.25355667, -0.1087888, -0.187085..."
48378,1. Wann haben die beiden letzten lebensmittelr...,"[[kontrollbericht, metzgerei, albrecht, huglfi...","[[metzgerei, Metzgerei, 1.0814583333], [albrec...","Kontrollbericht zu Metzgerei Albrecht, Huglfing","[0.60347605, 0.3083321, 0.028805416, 0.0739764..."


# Input-Daten generieren:

## Daten aufbereiten
Für die späteren Bearbeitungsschritte müssen die vorliegenden Anfragen aufbereitet und um Metainformationen erweitert werden.  
Insbesondere die Indezierung der benutzten Wörter und das erstellen entsprechender Lookup-Tables spielt im weiteren Verlauf eine wichtige Rolle. 
Mit den daraus gewonnenen Wort-Indizes werden die Sätze der Anfragetexte nachgebaut. Für den Trainigsprozess wird außerdem die Gesamtanzahl der einzigartigen Wörter in allen Anfragetexten benötigt.

In [7]:
def build_lookup_tables(docs, vocabulary_size=None):
    '''
    :param docs: Spalte eines pandas-DF: data['preprocessed'].values
    :return sentences: Alle Sätze aller Dokumente in einer Liste
    :return words: Alle Wörter aller Dokumente in einer Liste
    :return word_count: Häufigkeiten der jeweiligen Wörter in allen Dokumenten
    :return word_2_index_dict: 
    :return index_2_word_dict:
    :return sentences_as_index: Alle Sätze aller Dokumente mit Wortindex, anstatt des Wortes
    :return sentences_as_index_flattened: wie sentences_as_index, aber ohne subarrays
    :return vocabulary_size: Anzahl der unique Wörter
    '''
    sentences = [sent for pd_list in docs for sent in pd_list]
    words = [word for sent in sentences for word in sent]
  
    if not vocabulary_size:
        # unique word count
        vocabulary_size = len(set(words)) # because of unknown word
 
    # count words
    word_count = collections.Counter(words).most_common(vocabulary_size)
    word_count.append(['UNK', -1]) # flag for words which are not common enqough
  
    # lookup-tables
    word_2_index_dict = {}
    for index, word in enumerate(word_count):
        word_2_index_dict[word[0]] = index
  
    index_2_word_dict = dict(zip(word_2_index_dict.values(), word_2_index_dict.keys()))
  
    # Wörter der Anfragetexte durch Indizes austauschen:
    sentences_as_index = []
    unknown_word_count = 0
    for sent in sentences:
        sent_index = []
        for word in sent:
            if word in word_2_index_dict:
                sent_index.append(word_2_index_dict[word])
            else:
                unknown_word_count += 1
        if sent_index:
            sentences_as_index.append(sent_index)
    word_count[-1][1] = unknown_word_count

    sentences_as_index_flattened = [word for sent in sentences_as_index for word in sent]
  
    return sentences, words, word_count, word_2_index_dict, index_2_word_dict, sentences_as_index, sentences_as_index_flattened, vocabulary_size


In [8]:
sentences, words, word_count, word_2_index_dict, index_2_word_dict, sentences_as_index, sentences_as_index_flattened, vocabulary_size = build_lookup_tables(data['preprocessed'].values)

### Beispiele:

Alle Sätze der Anfragetexte in einer Liste:

In [9]:
# flattened data: only sentences
sentences[:5]

[['krankenhaus', 'berlin'],
 ['möglichkeit',
  'datenzugriffs',
  'hilfe',
  'edv',
  '-landeskrankenhäusern',
  'b.',
  'vivantes',
  'friedrichshain',
  'vivantes',
  'spandau'],
 ['grundlage', 'zugriffsmöglichkeit'],
 ['möglichkeit',
  'datenzugriffs',
  'hilfe',
  'edv',
  'abteilung',
  'charité',
  'berlin',
  'b.',
  'kardiologie',
  'dermatologie',
  'behandlung',
  'patient',
  'abteilung',
  'jahr'],
 ['grundlage', 'zugriffsmöglichkeit']]

Alle Wörter aller Anfragetexte chronologisch in einer Liste:

In [10]:
# all words in docs
words[:5]

['krankenhaus', 'berlin', 'möglichkeit', 'datenzugriffs', 'hilfe']

Anzahl der Worthäufigkeiten:

In [11]:
# count of words
word_count[:5]

[('betrieb', 24351),
 ('herausgabe', 24007),
 ('kontrollbericht', 23946),
 ('beanstandung', 23880),
 ('betriebsüberprüfungen', 23782)]

Wort zu Wortindex Lookuptable:

In [12]:
#word_2_index_dict
# nur für Anschauungszwecke:
{k: word_2_index_dict[k] for k in list(word_2_index_dict)[:10]}

{'betrieb': 0,
 'herausgabe': 1,
 'kontrollbericht': 2,
 'beanstandung': 3,
 'betriebsüberprüfungen': 4,
 'kontrollberichts': 5,
 'dokument': 6,
 'information': 7,
 'abs.': 8,
 'stellungnahme': 9}

Wortindex zu Wort Lookuptable:

In [13]:
#index_2_word_dict
# nur für Anschauungszwecke:
{k: index_2_word_dict[k] for k in list(index_2_word_dict)[:10]}

{0: 'betrieb',
 1: 'herausgabe',
 2: 'kontrollbericht',
 3: 'beanstandung',
 4: 'betriebsüberprüfungen',
 5: 'kontrollberichts',
 6: 'dokument',
 7: 'information',
 8: 'abs.',
 9: 'stellungnahme'}

Alle Wörter in allen Anfragesätzen ausgetauscht durch den jeweiligen Wortindex:

In [42]:
sentences_as_index[:5]

[[1020, 15],
 [250, 13598, 779, 6703, 53908, 543, 10897, 5901, 10897, 4419],
 [225, 13599],
 [250, 13598, 779, 6703, 358, 2397, 15, 543, 12371, 53909, 783, 588, 358, 10],
 [225, 13599]]

Alle Wörter aller Anfragetexte chronologisch in einer Liste, ausgetauscht durch den Wortindex:

In [15]:
sentences_as_index_flattened[:10]

[1020, 15, 250, 13598, 779, 6703, 53908, 543, 10897, 5901]

Anzahl aller einzigartigen Wörter aus allen Anfragetexten:

In [16]:
vocabulary_size

95602

## Input-Target-Wörter mit entsprechenden Labels aus Daten ableiten
[INFO] Ich hab jetzt den Abschnitt zu Language Modell und Skip-Gram als auch Word-Embeddings hier hin vorgezogen. Hier war ursprünglich nur Context-Window. Aber ich finde es gut, wenn man hier schon den Background mit den Word-Embeds erklärt. Was meinst du?


### Word Embeddings
Essentiell für die folgenden Schritte ist ein generelles Verständnis von Word Embeddings. Ein Wort kann als ein Vektor mit einer beliebigen Anzahl von Features dargestellt werden. Die voreingestellten Parameter dieses Notebooks arbeiten mit 300 Features.
Vergleichen wir beispielsweise die Word Embeddings der Wörter "Hund" und "Katze", so werden bestimmte Features innerhalb der beiden Vektoren eine Ähnlichkeit haben, u.a. an der Stelle wo das Modell die Kategorie "Tier" trainiert hat. Anhand eines Beispiels, in dem die Word Embedding Values mit Farben je nach Wert ersetzt wurden, lässt sich dieses Prinzip gut veranschaulichen:

<img src="Images/king-man-woman-embedding.png" alt="drawing" width="500"/>

TODO/QUELLE: https://jalammar.github.io/illustrated-word2vec/


### Language Modelling
Je nach Ansatz ist es das Ziel eines Language Modells, für ein gegebenes Wort möglichst Präzise vorhersagen zu treffen, welches Wort darauf folgen könnte (CBOW) oder anhand eines Wortes die umgebenden Wörter vorherzusagen (Skipgram). Anhand der im vorherigen Abschnitt erstellten Word Embeddings können wir einzelne Wörter oder ganze Sätze leicht vergleichen und prüfen, ob Sie in einem kontextuellen Zusammenhang stehen. 

### Context Window (Skip-Gram Modell)
Natürlich muss ein solches Language-Modell ausgiebig trainiert werden. Mittels Context-Windows, also ein Ausschnitt von umgebenden Wörtern, veruschen wir Wort-Paare aus Target-Wörtern und Label-Wörtern zu erstellen, die häufig zusammen auftreten. Angenommen wir nutzen Window-Size=2, dann betrachten wir in jedem Wort eines Satzes die zwei Wörter ("labels") vor und nach dem fokusierten Wort ("target") und notieren dieses gemeinsame Auftreten. In folgendem Beispiel wird die Context-Window Methode an einem Skip-Gram Modell dargestellt. Das Wort "red" ist ein target (=output) und die jeweils umgebenden Wörter sind die labels (=input):

<img src="Images/skipgram-sliding-window-samples.png" alt="drawing" width="400"/>
TODO/QUELLE: https://jalammar.github.io/illustrated-word2vec/

Context-Windows arbeiten mit einzelnen Sätzen und beim Beginn und Ende eines jeden Satzes muss zudem darauf geachtet werden, dass mit dem Window nicht vor oder nach dem Satz (Nan) geslided wird. Die folgende Implementierung erzeugt nun die target-label paare, wobei anstelle realer Wörter im weiteren Verlauf die Wort-Indizes genutzt werden (siehe Beispiel). 

In [48]:
def get_context_window(input_data, target_index, window_size):
    '''
    Ermittelt umgebene Wörter abhängig von window_size und target_index des Wortes
    :param input_data: Liste mit Wortindizes
    :param: target_index: Listenindex des jeweiligen Wortes
    :param window_size: Anzahl der Wörter links und rechts des target wortes
    :return target value und liste der umgebenen Wörter
    '''
  
    left_start_index = target_index - window_size if (target_index - window_size) >= 0 else 0
  
    right_start_index = target_index + 1
    right_stop_index = target_index + window_size + 1
  
    target = input_data[target_index]
    left_window = input_data[left_start_index:target_index]
    right_window = input_data[right_start_index:right_stop_index]
  
    return target, left_window + right_window
   

In [49]:
#example:
input_data = list(range(6))
print('Beispielsatz aus Indizes:', input_data)
print()

target_word_index, context_words = get_context_window(input_data, 0, 2)
print('target word index:', target_word_index)
print('context words für window_size 2:', context_words)

target_word_index, context_words = get_context_window(input_data, 2, 2)
print('\ntarget word index:', target_word_index)
print('context words für window_size 2:', context_words)

Beispielsatz aus Indizes: [0, 1, 2, 3, 4, 5]

target word index: 0
context words für window_size 2: [1, 2]

target word index: 2
context words für window_size 2: [0, 1, 3, 4]


### Generiert Target-Wortliste mit entsprechenden Wortkontexten für alle Sätze der Anfragetexte:
Nach den Beispielen kann die Context-Window Funktion nun auf alle Sätze in den Input-Daten angewandt werden. Weitere Beispiele bieten zudem zur besseren veranschaulichung ein Re-Mapping der Word-Indexe auf die realen Wörter.

In [50]:
def build_targets_and_labels(input_data, window_size):
    '''
    Ermittelt alle targets und labels abhängig von der window_size
    :param input_data: Liste mit Sublisten (Sätze)
    :param window_size: Anzahl der Wörter links und rechts des target wortes
    :return targets: Liste aller Targetwörter
    :return labels: Liste aller Labels zu jeweiligem Targetwort
    '''
    targets = []
    labels = []
    for sent in input_data:
        for index, word in enumerate(sent):
            target_word_index, context_words = get_context_window(sent, index, window_size)
            for context_word in context_words:
                targets.append(target_word_index)
                labels.append(context_word)
    return targets, labels
  

### Beispiel:

In [51]:
input_data = sentences_as_index[:2]
#input_data = [sentences_as_index_flattened]
print('Erste zwei Beispielsätze mit Wortinidizes:\n', input_data, '\n')

targets_list, labels_list = build_targets_and_labels(input_data, window_size=2)
print('Target Wortindizes: \n', targets_list)
print('Lable Wortindizes: \n', labels_list)

print('\nBeispiel für Mapping der Wortinindizes der Target und Label-liste:')
for i in range(len(targets_list)):
    print(targets_list[i], index_2_word_dict[targets_list[i]], '->', labels_list[i], index_2_word_dict[labels_list[i]])
    
    

Erste zwei Beispielsätze mit Wortinidizes:
 [[1020, 15], [250, 13598, 779, 6703, 53908, 543, 10897, 5901, 10897, 4419]] 

Target Wortindizes: 
 [1020, 15, 250, 250, 13598, 13598, 13598, 779, 779, 779, 779, 6703, 6703, 6703, 6703, 53908, 53908, 53908, 53908, 543, 543, 543, 543, 10897, 10897, 10897, 10897, 5901, 5901, 5901, 5901, 10897, 10897, 10897, 4419, 4419]
Lable Wortindizes: 
 [15, 1020, 13598, 779, 250, 779, 6703, 250, 13598, 6703, 53908, 13598, 779, 53908, 543, 779, 6703, 543, 10897, 6703, 53908, 10897, 5901, 53908, 543, 5901, 10897, 543, 10897, 10897, 4419, 10897, 5901, 4419, 5901, 10897]

Beispiel für Mapping der Wortinindizes der Target und Label-liste:
1020 krankenhaus -> 15 berlin
15 berlin -> 1020 krankenhaus
250 möglichkeit -> 13598 datenzugriffs
250 möglichkeit -> 779 hilfe
13598 datenzugriffs -> 250 möglichkeit
13598 datenzugriffs -> 779 hilfe
13598 datenzugriffs -> 6703 edv
779 hilfe -> 250 möglichkeit
779 hilfe -> 13598 datenzugriffs
779 hilfe -> 6703 edv
779 hilfe -> 

# Generate Trainings-Batch:
Folgende Hilfsfunktion generiert iterativ Teilsequenzen (Batches) aus den target-label Paaren. Im Return-Wert der Funktion ist ein einzelner Batch und mithilfe der Variable `data_index` wird die aktuelle Iterationsposition im Gesamtdatensatz zwischengespeichert und resetted, sobald das Ende des Gesamtdatensatzes erreicht wurde. Für den späteren Trainingsprozess spielt die Batch-Size eine nicht unterhebliche Rolle.

In [52]:
data_index = 0
def generate_batch(batch_size, targets_list, labels_list):
    '''
    Generiert den Trainigs-Batch
    #:param window_size: Anzahl der Wörter links und rechts des target wortes [TODO] KANN DAS RAUS???
    :return batch: targets
    :return labels
    '''
    global data_index
    if data_index + batch_size > len(targets_list):
        data_index = 0
    batch = np.array(targets_list[data_index:data_index + batch_size], dtype=np.int32)
    labels = np.array(labels_list[data_index:data_index + batch_size], dtype=np.int32)[:, np.newaxis]
    #labels = np.array(labels_list[data_index:data_index + batch_size], dtype=np.int32).reshape((batch_size,1))
    data_index += batch_size
  
    return batch, labels
  

### Beispiel für batch_size = 8:

In [53]:
batch, labels = generate_batch(8, targets_list, labels_list)
print('Target Indizes:')
print(batch)

print('\nLabel Indizes')
print(labels)

print('\nBeispiel für Mapping der Wortinindizes der Target und Label-liste:')
for i in range(len(batch)):
    print(batch[i], index_2_word_dict[batch[i]], '->', labels[i, 0], index_2_word_dict[labels[i, 0]])

Target Indizes:
[ 1020    15   250   250 13598 13598 13598   779]

Label Indizes
[[   15]
 [ 1020]
 [13598]
 [  779]
 [  250]
 [  779]
 [ 6703]
 [  250]]

Beispiel für Mapping der Wortinindizes der Target und Label-liste:
1020 krankenhaus -> 15 berlin
15 berlin -> 1020 krankenhaus
250 möglichkeit -> 13598 datenzugriffs
250 möglichkeit -> 779 hilfe
13598 datenzugriffs -> 250 möglichkeit
13598 datenzugriffs -> 779 hilfe
13598 datenzugriffs -> 6703 edv
779 hilfe -> 250 möglichkeit


# Build und Trainiere Skip-Gram Model
Bis hierhin sollte klar sein was die Funktion eines Skip-Gram Models und deren target-label Paaren, eines Context Window und eines Batches ist. Mit diesem Wissen steht dem eigentlichen Model-Training nichts mehr im Wege! Fast. Vor dem Training dürfen bietet sich zunächst die letzte Möglichkeit, mit einstellbaren Parametern Einfluss auf den Verlauf des Trainings zu nehmen. Neben den bereits bekannten Begriffen müssen noch ein paar wenige neue Parameter verstanden und eingestellt werden, die einen erheblichen Einfluss auf den weiteren Trainingsverlauf ausüben.

### Einstellbare Parameter:

* `batch_size`: Anzahl der berückstichtigten Target-Label-Paare pro Trainingsiteration
* `embedding_size`: Dimensionsgröße der Word-Embeddings 
    * -> Wert von 300 zeigt sich als guter Kompromiss von Performace und Genauigkeit
* `skip_window`: Anzahl der berüchtigten Wörter links und rechts (Nachbarwörter) eines Targetwortes für Bildung der Target-Label-Paare
* `num_sampled` Anzahl der Negative Samples für NCE Loss (siehe weiter unten)
* Anpassung der sich exponentiell verringerten Lernrate (Start-/End-Learning-Rate)
* `epochs`: Anzahl der Epochen, also Anzahl der Iterationen die benötigt werden um einmal alle Target-Label-Paare zu durchlaufen

In [23]:
batch_size = 128 
embedding_size = 300 # Dimension der Word-Embeddings
skip_window = 2  # Anzahl der Wörter links und rechts vom Target-Wort
num_sampled = 64 #64 # Anzahl der negative samples

# Die Lernrate wird je Iteration verringert:
starter_learning_rate = 1.0
end_learning_rate = 0.1

epochs = 6 # Anzahl der Epochen. Eine Epoche ist eine Iteration durch den kompletten Trainingsbestand
print_every_x_step = 2000 # alle x Iterationen werden infos geprintet

## Generieren der Target- und Labelliste für alle Anfragetexte, basierend auf der eingestellten Skip Window Size:

In [24]:
targets_list, labels_list = build_targets_and_labels(sentences_as_index, window_size=skip_window)

wichtige fixe Parameter, abgeleitet aus den einstellbaren Parametern:

In [25]:
data_index = 0 # für batch start

exp_decay_lr = starter_learning_rate - end_learning_rate

input_length = len(targets_list) # Anzahl der Target-Label-Paare
print('Anzahl Target-Label-Paare:', input_length)

full_iteration_cycle = int(math.ceil(input_length / batch_size))
print(full_iteration_cycle, 'Iterationen werden benötigt um einmal während des Trainings durch alle Target-Label-Paare zu iterieren')

num_steps = full_iteration_cycle * epochs
print('Iterationen während des Trainings:', num_steps)

epsilon=1e-12 # dont touch


Anzahl Target-Label-Paare: 3099230
24213 Iterationen werden benötigt um einmal während des Trainings durch alle Target-Label-Paare zu iterieren
Iterationen während des Trainings: 145278


# Build Graph:
... Erklärung zur Modellarchitektur, Skipgram, NCE, negative sampling usw.

In [26]:
graph = tf.Graph()

with graph.as_default():
    # Input Daten
    with tf.name_scope('inputs'):
        train_inputs = tf.placeholder(tf.int32, shape=[batch_size])
        train_labels = tf.placeholder(tf.int32, shape=[batch_size, 1])
        iteration = tf.placeholder(tf.int32)
  
    # Benutze CPU:
    with tf.device('/cpu:0'):
        with tf.name_scope('embeddings'):
            #embeddings = tf.Variable(tf.random_uniform([vocabulary_size, embedding_size], -1.0, 1.0))
            # init embeddings:
            embeddings = tf.Variable(tf.random_uniform([vocabulary_size, embedding_size], 0.001, 1.0))
            # embeddings lookup table:
            embed = tf.nn.embedding_lookup(embeddings, train_inputs)
     
        # TODO
        # Construct the variables for the NCE loss
        with tf.name_scope('weights'):
            nce_weights = tf.Variable(
                tf.truncated_normal(
                    [vocabulary_size, embedding_size],
                    stddev=1.0 / math.sqrt(embedding_size)
                )
            )
        
        # Bias:
        with tf.name_scope('biases'):
            nce_biases = tf.Variable(tf.zeros([vocabulary_size]))

    # TODO
    # Compute the average NCE loss for the batch.
    # tf.nce_loss automatically draws a new sample of the negative labels each
    # time we evaluate the loss.
    # Explanation of the meaning of NCE loss:
    #   http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/
    with tf.name_scope('loss'):
        loss = tf.reduce_mean(
            tf.nn.nce_loss(
                weights=nce_weights,
                biases=nce_biases,
                labels=train_labels,
                inputs=embed,
                num_sampled=num_sampled,
                num_classes=vocabulary_size)
        )      
  
    #Lernrate:
    with tf.name_scope('lr'):
        # Verringert Lernrate exponentiell, abhäging von der aktuellen Trainigsiteration
        lr = end_learning_rate +  tf.train.exponential_decay(exp_decay_lr, iteration, 10000, 1/math.e)

    # Gradient Descent optimizer mit entsprechender Lernrate und Minimieren des Loss
    with tf.name_scope('optimizer'):
        optimizer = tf.train.GradientDescentOptimizer(lr).minimize(loss)
    
    # normalize embeddings to be in range [0, 1]
    '''normalized_embeddings = tf.math.divide(
        tf.subtract(
            embeddings,
            tf.reduce_min(embeddings)
        ),
        tf.maximum(
            tf.subtract(
                tf.reduce_max(embeddings),
                tf.reduce_min(embeddings)
            ),
            epsilon
        )
    )

    #normalized_embeddings = tf.to_float(normalized_embeddings)
    normalized_embeddings = tf.dtypes.cast(normalized_embeddings, tf.float32)'''
 
    # Add variable initializer.
    init = tf.global_variables_initializer()


      


Instructions for updating:
Colocations handled automatically by placer.
Instructions for updating:
Use tf.cast instead.


# Training: 
... hier passiert das eigtl Training

In [27]:
with tf.Session(graph=graph) as session:
    # Initialisieren alle Variablen
    init.run()
  
    average_loss = 0
  
    # Train:
    for step in xrange(num_steps):
        # generieren der Batches
        batch_inputs, batch_labels = generate_batch(batch_size, targets_list, labels_list)
        feed_dict = {train_inputs: batch_inputs, train_labels: batch_labels, iteration: step}
    
        # We perform one update step by evaluating the optimizer op (including it
        # in the list of returned values for session.run()
        # Ausführen eines einzelnen Update Steps, durch Evaluierung des GradientDescent Optimizers
        # Minimieren des Loss und Updaten der Gewichte
        _, loss_val, learn_rate = session.run(
            [optimizer, loss, lr],
            feed_dict=feed_dict)
    
        average_loss += loss_val
        
        # print Learing Rate:
        if step % print_every_x_step == 0: 
            if step > 0:
                average_loss /= print_every_x_step
            print('Iteration-Step:', step)
            print('\tAverage loss:\t', average_loss, '\n\tlearning-rate:\t', learn_rate)
            average_loss = 0
        
    # Generierte Embeddings für weitere Schritte verfügbar machen:
    #final_embeddings = normalized_embeddings.eval()
    final_embeddings = embeddings.eval()
    

Iteration-Step: 0
	Average loss:	 302.8840637207031 
	learning-rate:	 1.0
Iteration-Step: 2000
	Average loss:	 146.9957670879364 
	learning-rate:	 0.8368577
Iteration-Step: 4000
	Average loss:	 84.13222938060761 
	learning-rate:	 0.7032881
Iteration-Step: 6000
	Average loss:	 59.96004527878761 
	learning-rate:	 0.5939305
Iteration-Step: 8000
	Average loss:	 46.595563863277434 
	learning-rate:	 0.5043961
Iteration-Step: 10000
	Average loss:	 36.85905154573918 
	learning-rate:	 0.4310915
Iteration-Step: 12000
	Average loss:	 30.742217785716058 
	learning-rate:	 0.37107483
Iteration-Step: 14000
	Average loss:	 26.198525524675848 
	learning-rate:	 0.32193726
Iteration-Step: 16000
	Average loss:	 22.621717889904975 
	learning-rate:	 0.2817069
Iteration-Step: 18000
	Average loss:	 19.930532382428645 
	learning-rate:	 0.24876902
Iteration-Step: 20000
	Average loss:	 18.127147462308407 
	learning-rate:	 0.22180176
Iteration-Step: 22000
	Average loss:	 16.32953436011076 
	learning-rate:	 0.1997

# Dokumenten-Vektoren generieren:
Je Anfragetext wird ein Dokumenten-Vektor aus den Word-Embeddings der jeweiligen Wörter des Textes abgeleitet.
Dabei werden alle Word-Embeddings eines Dokuments spaltenweise gemittelt.

In [28]:
def get_doc_embedding(doc):
    '''
    :param doc: list of sentences with lemmatized words
    :return: document vector
    '''
    word_vecs = np.array([
        final_embeddings[word_2_index_dict[word]] for sent in doc for word in sent if word in word_2_index_dict
    ])
    return np.mean(word_vecs, axis=0)

### Dokumenten-Vektoren für alle Anfragen generieren:

In [29]:
data['doc_vector'] = data['preprocessed'].apply(lambda prepr_text: get_doc_embedding(prepr_text) if prepr_text else np.nan)


Delete Null-Rows, da aufgrund von Fehlern in Preprocessing einige wenige leere Preprocessed Listen entstanden sind:

In [30]:
data.isnull().sum()

description     0
preprocessed    0
textrank        0
title           0
doc_vector      7
dtype: int64

In [31]:
data.dropna(inplace=True)

In [32]:
data.isnull().sum()

description     0
preprocessed    0
textrank        0
title           0
doc_vector      0
dtype: int64

Data mit Dokumenten-Vektoren:

In [33]:
data.head()

Unnamed: 0_level_0,description,preprocessed,textrank,title,doc_vector
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
30992,Besteht die Möglichkeit des elektronischen Dat...,"[[krankenhaus, berlin], [möglichkeit, datenzug...","[[charité, Charité, 2.5233146811], [berlin, Be...",Datenaustausch von und zwischen Krankenhäusern...,"[0.36203066, 0.28036064, 0.11504209, 0.0078134..."
49906,1. Wann haben die beiden letzten lebensmittelr...,"[[kontrollbericht, cube, stuttgart], [betriebs...","[[cube, Cube, 1.2479166667000001], [kontrollbe...","Kontrollbericht zu Cube, Stuttgart","[0.5573703, 0.3792328, 0.058914516, -0.0968474..."
47330,1. Wann haben die beiden letzten lebensmittelr...,"[[kontrollbericht, peter, pane, lübeck], [betr...","[[peter, Peter, 1.476089144], [pane, Pane, 1.4...","Kontrollbericht zu Peter Pane, Lübeck","[0.39963177, 0.21837826, 0.098461136, 0.130606..."
25228,"Dokumente / Informationen, aus denen hervorgeh...","[[bezeichnung], [beitragssservice], [dokument]...","[[bezeichnung, Bezeichnung, 1.0], [information...","Bezeichnung ""Beitragssservice""","[0.50831634, 0.16496253, -0.09059725, 0.108449..."
2981,"Studie ""Politisch Netzaktive und Politik in De...","[[studie], [politisch, netzaktive, politik, de...","[[politik, Politik, 1.1900458333], [deutschlan...","Studie ""Politisch Netzaktive und Politik in De...","[0.66315424, 0.2967776, 0.16314766, -0.2264783..."


# Cosine Similarity:
Cosine Similarity ist eine gängige Möglichkeit, um die Ähnlichkeit zweier Vektoren zu ermitteln. Mithilfe des Abstandswinkels zwischen den beiden Vektoren wird ein Wert zwischen 0 und 1 erzeugt welcher das Ähnlichkeitsmaß ausdrückt. Einfache, 2-Dimensionale Vektoren können noch hierbei noch per Hand errechnet werden. Cosine-Similarity funktioniert jedoch mit einer beliebigen Anzahl von Vektor-Dimensionen und ist somit für den Vergleich unserer Dokumenten- oder Wort-Vektoren hervoragend geeignet.

Formel:
![image](Images/Cosine_Similarity_Formula.svg)


TODO/QUELLE: https://en.wikipedia.org/wiki/Cosine_similarity

[1]:http://www.quotedb.com/quotes/2112

Beispiel:

|Person/Eigenschaft|  EG1 	| EG2 	|  EG3 	|  EG4 	|
|:-----------:	|:----:	|:---:	|:----:	|:----:	|
|  Konstantin 	| -0.2 	| 0.3 	|  0.8 	| -0.1 	|
|  Sebastian  	|  0.5 	| 0.6 	| -0.9 	|  0.5 	|
| Prof. Herta 	|  0.9 	| 0.7 	|  0.3 	|  0.4 	|

Ähnlichkeit von Konstantin und Sebastian: <br>
Cosine_Similarity ( [-0.2, 0.3, 0.8, -0.1] , [0.5, 0.6, -0.9, 0.5]) = -0.6046

Ähnlichkeit von Sebastian und Prof. Herta: <br>
Cosine_Similarity ( [0.5, 0.6, -0.9, 0.5], [0.9, 0.7, 0.3, 0.4]) = 0.2092

In [34]:
def similarity(v1, v2):
    n1 = np.linalg.norm(v1)
    n2 = np.linalg.norm(v2)
    return np.dot(v1, v2) / n1 / n2

In [35]:
#negativbeispiel
word1 = 'herausgabe'
word2 = 'bekleidung'
print('cosine similarity for', word1, 'and', word2)
print('\t', similarity(final_embeddings[word_2_index_dict[word1]], final_embeddings[word_2_index_dict[word2]]))

cosine similarity for herausgabe and bekleidung
	 0.39915022


In [36]:
#positivbeispiel
word1 = 'bfr'
word2 = 'iarc'
print('cosine similarity for', word1, 'and', word2)
print('\t', similarity(final_embeddings[word_2_index_dict[word1]], final_embeddings[word_2_index_dict[word2]]))

cosine similarity for bfr and iarc
	 0.7267033


In [37]:
def doc_similarity(df, id_1, id_2):
    print('Doc #1:')
    print('\tTitel:', df.loc[id_1]['title'])
    
    print('\nDoc #2:')
    print('\tTitel:', df.loc[id_2]['title'])
    
    print('\nSimilarity [0-1]:', similarity(df.loc[id_1]['doc_vector'], df.loc[id_2]['doc_vector']))

In [38]:
#positivbesipiel
doc_similarity(data, 58945, 48729)

Doc #1:
	Titel: Kontrollbericht zu Bartz, Arzfeld

Doc #2:
	Titel: Kontrollbericht zu Mamma Italia, Esslingen am Neckar

Similarity [0-1]: 0.95707035


In [39]:
#negativbeispiel
doc_similarity(data, 58945, 1)

Doc #1:
	Titel: Kontrollbericht zu Bartz, Arzfeld

Doc #2:


KeyError: 1

## TSNE

Da TSNE recht rechenintensiv ist wird aus Performancegründen nur eine Stichprobe der Anfragen betrachtet

In [None]:
def compute_tsne_doc(data_df, amount, dimension=2, perplexity=30, learning_rate=200, n_iter=5000):
    '''
    computes tsne emebeddings for random set of documents
    :param data_df: pandas datafram with at least doc_vector and title columns
    :param amount: amount of documents to generate tsne for
    :param dimension: 2 for 2D or 3 for 3D
    '''
    tsne = TSNE(perplexity=perplexity, learning_rate=learning_rate, n_components=dimension, init='pca', n_iter=n_iter, method='exact', verbose=1)
    sample = data_df.sample(n=amount)

    doc_vecs = np.array([doc_vec for doc_vec in sample['doc_vector'].values])
    tsne_embeddings = tsne.fit_transform(doc_vecs)

    labels = sample['title'].values
    return tsne_embeddings, labels
    

### quick n dirty 2d plot
Labels überlappen sich

Am besten später 3d plot mit plotly und Labels werden nur bei hover angezeigt

In [None]:
def plot_2d_tsne(embeddings, labels):
    plt.figure(figsize=(18,18))
    for i, label in enumerate(labels):
        x, y = embeddings[i, :]
        plt.scatter(x, y)
        plt.annotate(
            label,
            xy=(x, y),
            xytext=(5, 2),
            textcoords='offset points',
            va='bottom'
        )
    plt.show()

### Interaktiver 2D/3D Plot mit ploty

In [None]:
def plotly_plot_tsne(tsne_embeddings, labels, dimension=3):
    
    marker=dict(
                size=6,
                line=dict(
                    color='rgb(225, 225, 225)',
                    width=0.5
                ),
                opacity=1
            )
    
    if dimension==3:
        x, y, z = zip(*tsne_embeddings)
        
        trace1 = go.Scatter3d(
            x=x,
            y=y,
            z=z,
            mode='markers',
            marker=marker,
            text=labels,
            hoverinfo='text'
        )
    else:
        x, y = zip(*tsne_embeddings)
        
        trace1 = go.Scatter(
            x=x,
            y=y,
            mode='markers',
            marker=marker,
            text=labels,
            hoverinfo='text'
        )
    
    

    data = [trace1]
    layout = go.Layout(
        margin=dict(
            l=0,
            r=0,
            b=0,
            t=0
        ),
        xaxis = dict(
            zeroline = False
        ),
        yaxis = dict(
            zeroline = False
        ),
        width=1000,
        height=800,
        #paper_bgcolor= 'rgb(240, 240, 240)',
        #plot_bgcolor= 'rgb(240, 240, 240)'
    )
    fig = go.Figure(data=data, layout=layout)
    iplot(fig)

## 2D TSNE Visualisierung für Stichprobe von Anfragen
Auch wenn es aufgrund der überlappenden Labels noch recht schwer zu erkennen ist, kann man sehen, dass sich Anfragen ähnlicher Thematik ballen

In [None]:
plot_x_docs = 200
tsne_embeddings_2d, labels_2d = compute_tsne_doc(
    data, 
    plot_x_docs, 
    dimension=2,
    perplexity=25,
    learning_rate=10,
    n_iter=1000
)

In [None]:
plot_2d_tsne(tsne_embeddings_2d, labels_2d)

In [None]:
plotly_plot_tsne(tsne_embeddings_2d, labels_2d, dimension=2)

# 3D TSNE Visualisierung für Stichprobe von Anfragen

In [None]:
plot_x_docs = 200
tsne_embeddings_3d, labels_3d = compute_tsne_doc(
    data, 
    plot_x_docs, 
    dimension=3,
    perplexity=25,
    learning_rate=10,
    n_iter=1000
)

In [None]:
plotly_plot_tsne(tsne_embeddings_3d, labels_3d, dimension=3)