# Natural Language Processing: Statistische Wortmodelle

In der 10. Übung machen wir einen kleinen Exkurs in die statistischen Modelle, um genau zu sein die n-Gram Modelle.

Das Ziel dieser Übung ist es  ein generatives Modell aufzustellen, das, nachdem es auf einer Liste von Medikamentennamen die statistische Beschaffenheit dieser gelernt hat, zufällig neue, vorher nicht gesehene Namen generieren kann. In diesem Fall stellen die Tokens also keine Wörter, sondern einfache Buchstaben, Ziffern und andere Zeichen dar, was das Vokabular sehr klein hält und rechenintensive Vorgänge vermeidet. *Im Wesentlichen sollen also die Modelle und Grafik von Folie 17 der Vorlesung (Folie 28 im Video zur VL) Schritt für Schritt nachgebaut werden.*

Wir benötigen Pandas um mit tabellarischen Daten zu arbeiten. Die Medikamenten Namen ziehen wir aus einer Auflistung zu verschriebenen Medikamenten bestimmter Ärzte.

In [None]:
import pandas as pd
import numpy as np
import time

Wir benötigen im Folgenden die Datei `'medicine_prescription_records.csv'`. Zuerst laden wir die Daten aus der csv-Datei als Pandas Dataframe und schauen uns die Beschaffenheit der Daten an.

In [None]:
# read_csv scheitert manchmal, wenn die große csv-Datei auf einmal gelesen werden soll

for retry in range(1,16):
  try:
    print('Versuche große Datei zu laden',retry)
    chunks = pd.read_csv('medicine_prescription_records.csv',header=0, chunksize=1000)
    df = pd.concat(chunks)
  except:
    print('Fehlgeschlagen!')
    time.sleep(0.5)
    continue
  break

df

Uns interessiert nur die letzte Spalte mit den Medikamenten.

In [None]:
texts = df.iloc[:,3]

a) Extrahiere die Namen aller Medikamente, sodass du eine Liste mit einzigartigen Strings erhälst

In [None]:
# DEIN CODE

In [None]:
print('Anzahl an Medikamenten',len(words_unique))

Anzahl an Medikamenten 2397


`Anzahl an Medikamenten: 2397`

b) Implementiere die Funktion `prepare_n_gram`, welche eine Liste mit Wörtern und ein n (für das n-Gram) erhält und die Wörter tokenized und **entsprechend des Modell-Grades** um Start- und Endtokens ergänzt. Ein Token entspricht hierbei gerade einem Zeichen. Die neue Liste sollte also  beispielsweise Wörter der Form `['<s>','A','S','P','I','R','I','N','</s>'] `enthalten.

In [None]:
def prepare_n_gram(list_words,n):
  # DEIN CODE
  return sep_words

In [None]:
sep_words = prepare_n_gram(words_unique,3)

c) Implementiere die Funktion `train_model`, welche tokenized Trainingsdaten und das gewünschte n>1 (also minimal bigram) erhält und ein generatives Modell für das n-Gram zurückgibt, also auf Basis eines übergebenen n-Grams die Wahrscheinlichkeitsverteilung über den nächsten Token zurückgibt. Das Modell soll ein Dictionary der Form {$q$ : $P(T_k=t|T_{k-n+1:k-1}=q)$} sein.
Außerdem soll das verwendete Vokabular zurückgegeben werden. Das ist eine Liste, welche zu den Wahrscheinlichkeiten die entspechend geordneten Tokens enthält.

*Anmerkung: Da das Vokabular in diesem Fall nur aus einzelnen Buchstaben besteht und wir nur aus diesem Samplen werden, ist es nicht erforderlich extra Tokens für unbekannte Wörter/Symbole anzulegen.*

In [None]:
def train_model(prepared_data,n):
  '''
  Params:
    prepared_data: List[List[str]]
    n: int
  Return:
    model: Dict[str,ndarray]
    symols: List[str]
      Liste der Tokens aus dem Vokabular

  '''
  assert n>1
  model = dict() # {n_gram: ndarray}

  # DEIN CODE


  return model,symbols

In [None]:
model, symbols = train_model(sep_words,3)

Du kannst folgende Funktion verwenden um anhand eines Arrays mit Wahrscheinlichkeiten Indices zu samplen.

In [None]:
def sample(a,n=1):
  '''
  Sampled einen Index (oder mehrere) aus einer Wahrscheinlichkeitsverteilung, welche als Array vorliegt.
  Params:
    a: ndarray
      Muss eine Wahrscheinlichkeitsverteilung darstellen
    n: int
      Anzahl der Samples
  Return
    index: int if n==1
           ndarray if n>1

  '''
  choices = np.prod(a.shape)
  index = np.random.choice(choices, size=n, p=a.ravel())
  if n==1:
    return index[0]  # ndarray[n_sample,n_symbol]
  else:
    return index

print(sample(model['OC']))

d) Implementiere die Funktion `sample_model`, welche aus einem n-Gram Modell ein neues Wort der Form `['<s>','A','S','P','I','R','I','N','</s>']` sampled und terminiert, sobald die entsprechend Anzahl Ende-Tokens erreicht ist.

In [None]:
def sample_model(model,symbols,n):

  # DEIN CODE

  return word

def make_nice(word,n):
  '''
  Übersetzt tokenized Wort in String
  '''
  if n == 1:
    word = "".join(word)
  else:
    word = "".join(word[n-1:-n+1])
  return word

e) Teste nun dein Modell, indem du ein *n* wählst, die Trainingsdaten vorbereitest, ein Modell erstellst und aus diesem Modell ein Wort samplest und dieses "schön" darstellst.

Ist das Wort eine neue Kreation oder bereits in den Trainingsdaten enthalten?

In [None]:
# DEIN CODE

In [None]:
# DEIN CODE

f) Bislang ist das implementierte Modell kontextsensitiv. Implementiere nun außerdem das generative "bag of words" Modell (n=1)

In [None]:
def bag_of_words(prepared_data):

  # DEIN CODE

  return model,symbols,(min_word,max_word)

## (Optional) Vergleich der Modelle und Visualisierung

Vergleiche die verschiedenen generativen n-Gram Modelle (insbesondere mit dem Bag-of-Words Modell). Was stellst du fest?
Gibt es ein optimales n? Von was hängt dieses ab?
Wo sind die Nachteile der n-Gram-Modelle und haben haben wir in der Vorlesung über Verbesserungen gesprochen?

Erstelle den Graphen, der aus der Vorlesung bekannt ist.




In [None]:
import matplotlib.patches as mpatches
import matplotlib.pyplot as plt

