Version: 2019.11.26

---

# Hidden Markov Models

Dieses Lab soll mit Hidden Markov Models und dem Viterbi-Algorithmus vertraut machen. Markov-Modelle sind probabilistische Modelle, die Zustandsübergänge $X_i \rightarrow X_{j}$ modellieren. $X_i$ sind dabei Zufallsvariablen. Das besondere an Markov-Modellen ist, dass der Übergang $X_i \rightarrow X_j$ nur vom aktuellen Zustand und nicht von der Historie der Markov-Kette abhängt. Damit lässt sich das Modell eindeutig durch die Übergangswahrscheinlichkeiten $p(X_j|X_i)$ beschreiben und als Graph darstellen. **Hidden** Markov Models sind Markov-Modelle, bei denen einige Zustände nicht beobachtet werden. 
Im Folgenden wollen wir Entitätenerkennung mit Hidden-Markov-Models durchführen. Wir versuchen Wörter einer Kategorie zuzuordnen, bspw. Personennamen oder Städte. Dabei sind die Zustände oder *states* diese Kategorien und *observables* die Wörter. In der Modellierung werden Übergänge zwischen den Zuständen und Emissionen von Zuständen zu Wörtern benutzt.

## Aufgabe 1
In dieser Aufgabe sollen Sie nun die entsprechenden Wahrscheinlichkeiten aus Trainingsdaten ablesen. Die Entitäten/Kategorien sind *people (Pe)*, *cities (St)*, *starting state $ (S)*, *final state € (E)* sowie alles andere *(A)*. Gegeben seien die folgenden Trainingssätze:

-  &#36; Paris(*St*) is larger than Washington(*St*) €
-  &#36; Hilton hotels are expensive €
-  &#36; Paris(*Pe*) Hilton(*Pe*) went to Washington(*St*) €
-  &#36; Denzel(*Pe*) Washington(*Pe*) stayed at the Hilton €
-  &#36; P.(*Pe*) Hilton(*Pe*) met D.(*Pe*) Washington(*Pe*) €

Zeichnen Sie das HMM-Modell mit Knoten *S*, *E*, *Pe*, *St* und *A*. Beschriften Sie die Kanten mit den entsprechenden Übergangswahrscheinlichkeiten. Spezifizieren Sie auch die Emissionswahrscheinlichkeiten für *Pe*.

## Ineffizienter Ansatz

In der Vorlesung wurden *states* mit $s$ und *observables* mit $o$ bezeichnet. Ziel ist es einer Observation-Kette $o_0, o_1, ... o_n$ die wahrscheinlichste Zustandskette $s_0, s_1, ..., s_n$ zuzuordnen. Aus der Vorlesung ist bekannt, dass man die Wahrscheinlichkeit für eine Zuordnung $\textbf{o} \rightarrow \textbf{s}$ folgendermaßen berechnen kann:
$$P(\textbf{s}, \textbf{o}) \propto P(s_0)P(o_0|s_0)\prod_{j=1}^n P(s_j|s_{j-1})P(o_j|s_j)$$
Man muss also für jede mögliche Zustandskette $\textbf{s}$ die Wahrscheinlichkeit ausrechnen, um das Maximum zu finden:
$$\textbf{s} = \underset{\textbf{s}}{\arg\max} \,P(\textbf{s}, \textbf{o}) $$

## Effiziente Lösung - Viterbi
Da dies recht aufwendig ist, wird der *Viterbi-Algorithmus* eingeführt. Bezeichnen wir mit $\Pi (j)$ die Wahrscheinlichkeiten für das Auftreten des Zustandes $j$, mit $A(i, j)$ die Übergangswahrscheinlichkeiten von Zustand $i$ nach Zustand $j$ und mit $B(i, j)$ die Emissionswahrscheinlichkeit für Zustand $i$ zu Observable $j$. Der Viterbi-Algorithmus baut dann eine Matrix $F(j, i)$ nach folgenden Formeln auf:

$$F(j, 0) = \Pi(j)\cdot B(j, 0)$$
$$F(j, i) = \max_r (F(r, i-1)\cdot A(r, j))\cdot B(j, i)$$

Die wahrscheinlichste Zustandszuordnung $\textbf{s}$ zu einer Observation $\textbf{o}$ ist dann gegeben durch:
$$s_n = \underset{s}{\arg \max} \; F(s, o_n),$$
$$ s_i = \underset{s}{\arg \max} \; F(s, o_{i-1})\cdot A(s, s_{i+1})$$
bzw. durch Backtracking, also das Merken der $\max_r$-Richtung in der man beim Aufbau der Matrix $F$ gegangen ist.

## Aufgabe 2
Gegeben sei ein HMM mit den gleichen Entitäten wie in Aufgabe 1. Die Übergangswahrscheinlichkeiten sind gegeben mit: 
- $P(S \rightarrow Pe) = \frac{2}{5} = 0.4$
- $P(Pe \rightarrow Pe) = \frac{3}{10} = 0.3$
- $P(Pe \rightarrow A) = \frac{1}{2} = 0.5$
- $P(A \rightarrow Pe) = \frac{1}{10} = 0.1$
- $P(A \rightarrow A) = \frac{1}{2} = 0.5$
- $P(A \rightarrow St) = \frac{2}{5} = 0.4$
- $P(St \rightarrow A) = \frac{2}{5} = 0.4$
- $P(S \rightarrow St) = \frac{3}{5} = 0.6$
- $P(Pe \rightarrow E) = \frac{1}{5} = 0.2$
- $P(St \rightarrow E) = \frac{3}{5} = 0.6$

Ferner sind die Emissionswahrscheinlichkeiten angegeben mit:
- $P(S \rightarrow \text{"\$"}) = P(E \rightarrow \text{"€"}) = 1$
- $P(Pe \rightarrow \text{"John"}) = 0.5$, $P(Pe \rightarrow \text{"Denver"}) = 0.25$, $P(Pe \rightarrow \text{"Paris"}) = 0.25$
- $P(St \rightarrow \text{"Washington"}) = 0.4$, $P(St \rightarrow \text{"Denver"}) = 0.3$, $P(St \rightarrow \text{"Paris"}) = 0.2$, $P(St \rightarrow \text{"Dresden"}) = 0.1$
- $P(A \rightarrow \text{"went"}) = 0.3$, $P(A \rightarrow \text{"to"}) = 0.3$, $P(A \rightarrow \text{"lives"}) = 0.2$, $P(A \rightarrow \text{"in"}) = 0.2$

**Berechnen Sie die wahrscheinlichste Zustandsfolge für den Satz "Paris lives in Denver" mithilfe des Viterbi-Algorithmus per Hand!**

## Implementierung des Viterbi-Algorithmus
Im Folgenden soll der Viterbi-Algorithmus und die Entitätenerkennung programmatisch umgesetzt werden. Dazu benötigen wir Trainingsdaten und Datenstrukturen wie im Folgenden beschrieben.

## Upload der Dateien für Google-Collaboratory



Um die Trainingsdaten für das Hidden Markov Model verfügbar zu machen, gehen Sie bitte wie folgt vor:


1.   Speichern Sie die Datei *hmm_denver.txt* auf Ihrem Gerät.
2.   Öffnen Sie die Navigation des Notebooks und laden Sie unter *Files -> Upload* die Datei in Ihre Runtime hoch.
3.   Anschließend kann die Datei wie gewohnt aus dem Python-Code heraus benutzt werden.

Auf der [Website zur Vorlesung](http://www.biotec.tu-dresden.de/research/schroeder/teaching/intelligente-systeme.html) (BIOTEC, Schroeder, Teaching, Intelligente Systeme) finden Sie die vorbereitete Datei zum Download.

## Installieren benötigter Module für die Darstellung von Tabellen

Zur Darstellung von Tabellen wird das Modul *tabulate* benötigt und in der folgenden Zelle in der Runtime installiert.

In [0]:
!pip install tabulate
from tabulate import tabulate

## Datenstruktur für HMM-Wahrscheinlichkeiten

Diese Zelle definiert die Klasse "prob", welche die Emissions- und Übergangswahrscheinlichkeiten für das HMM-Model halten soll. Die Klasse *prob* enthält die Attribute *c*, *n* und *p*. Die Attribute *c* und *p* sind Dictionaries mit Keys der Form (state, state) oder (state, observation). *n* hat Keys der Form state. *c* zählt dabei die Übergänge der Form *state -> state* bzw. *state -> observation* in den Trainingsdaten. *n* zählt die Gesamtanzahl der Vorkommnisse von states in den Trainingsdaten. *p* gibt die Übergangs- bzw. Emissionswahrscheinlichkeiten für state -> state bzw. state -> observation an.
Die Funktion *inc* wird aufgerufen, um einen Übergang in die Datenstruktur aufzunehmen. Die Methode *prob* der Klasse prob wird aufgerufen, um die Emissions- und Übergangswahrscheinlichkeiten in Form eines Dictionaries zurückzugeben.

In [0]:
class prob():
    """Counts occurrences for a pair of keys (either state to state or state to observation)
    as well as frequency of first state overall. Output are probability to transition."""
    
    def __init__(self):
        self.c={}
        self.n={}
        self.p={}
        
    def inc(self,k1,k2):
        self.c[(k1,k2)] = self.c.get((k1,k2),0) + 1
        self.n[k1] = self.n.get(k1,0) + 1

    def prob(self):
        for (k1,k2) in self.c:
            self.p[(k1,k2)] = float(self.c[(k1,k2)]) / float(self.n[k1])
        return self.p

## Viterbi-Algorithmus

Die nächsten Zellen definieren zum einen eine Helferfunktion, die aus einer Liste ihr Maximum und den Index des Maximums in der Liste zurückgibt. Zum anderen wird der Viterbi-Algorithmus definiert. Dieser Algorithmus benutzt den Ansatz der dynamischen Programmierung. 
Der Algorithmus ist nicht ganz vollständig. 

## Aufgabe 2 (cont.)
** Vervollständigen Sie in der Funktion *viterbiAlg* die __!**


In [0]:
def max_pos(l):
    """Returns the maximum and its position."""
    m = max(l)
    return(l.index(m),m)

In [0]:
def viterbi_alg(str, transition, emission):
    viterbi={} # dynamic programming matrix
    pos={}     # matrix to record path for backtracking
    obs = str.split()
    states = list(set([s for (s,o) in emission]))
    # Init
    for s in states:
        viterbi[(s,0)]= float(s=="S")
    # Fill matrix
    for i in range(1,len(obs)):
        for j in states:
            # Fji = max F(r,i-1)*A(r,j)*B(j,i)
            (pos[(j,i)],viterbi[(j,i)]) = max_pos([viterbi[(___,___)]*transition.get((___,___),0.0)*emission.get((___,obs[___]),0.0) for r in states])
    # Output table
    table = [[""]+ obs]
    for s in states:
        row = [s]
        for i in range(len(obs)):
            row.append(viterbi[(s,i)])
        table.append(row)
    s = "E"
    seq= ["E"]
    for i in range(len(obs)-1,0,-1):
        s = states[pos[(s,i)]]
        seq.insert(0,s)
    table.append([""]+seq)
    print()
    print(tabulate(table, headers="firstrow"))

## Training auf dem Modell

Diese Funktion nimmt als Eingabe den Pfad zur Datei *hmm_denver.txt* und gibt die Übergangs- und Emissionswahrscheinlichkeiten als Dictionaries zurück. Der Pfad ist einfach "./hmm_denver.txt". Für das Training werden die Folgenden Sätze verwendet. Dabei sind die states S, E, P, L und O. Die korrekte Zuweisung der observables zu den states muss in den Trainingsdaten in diesem Format angegeben werden.


1.   SPPOOOOLE  &#36; John Denver will be playing in Denver &#36;
2.  SLOOOOLE &#36; Denver is a city in Colorado &#36;
3.  SPOPOOLE &#36; John and Paris went to Washington &#36;
4.  SOOOOPPE &#36; The Oscar goes to Denzel Washington &#36;
5.  SPOOLE &#36; Oscar lives in Washington &#36;



In [0]:
def readTraining(fn):
    """Data format: First word rpresents state sequence. Remaining words are observations.
   For each character in the first word, there must be a word following.
    Start state is S, End state is E
    """
    t=prob()
    e=prob()
    print()
    print("HMM is trained on the following data:")
    for line in open(fn):
        print(line.strip())
        l = line.split()
        seq=list(l[0])
        obs=l[1:]
        if len(seq)!=len(obs):
            print("Format error in line %s"%(line))
        else:
            # Count transitions
            for i in range(len(seq)-1):
                t.inc(seq[i],seq[i+1])
            # Count emissions
            for i in range(len(seq)):
                e.inc(seq[i],obs[i])
    return (t.prob(), e.prob())

Die nächste Zelle liest die Trainingsdaten ein und trainiert das HMM-Modell auf diesen Daten. Ferner werden die Übergangs- und Emissionswahrscheinlichkeiten ausgegeben.

In [0]:
transition={}
emission={}
(transition, emission) = readTraining("hmm_denver.txt")
observations = set([o for (s,o) in emission])

print()
print("Transitions:")
t = sorted(transition.items(), key=lambda x: x[1], reverse=True)
for ((s1,s2),v) in t:
    print("%s -> %s: %0.2f"%(s1,s2,v))

print()
print("Emissions:")
e = sorted(emission.items(), key=lambda x: x[1], reverse=True)
for ((s,o),v) in e:
    print("%s -> %s: %0.2f"%(s,o,v))


## Beispielsätze

Sie können nun das trainierte HMM-Modell auf Beispielsätze anwenden. Geben Sie dazu einen Satz in die rechte Form ein.

In [0]:
sentence = "Oscar went to Denzel" #@param {type: "string"}
viterbi_alg("$ "+sentence+" $", transition, emission)

## Aufgabe 3 a)
Um die Qualität der Entitätenerkennung zu quantifizieren wurden verschiedene Maße eingeführt. 

Welche sind das? Wie werden Sie berechnet?





## Aufgabe 3 b)
Im Folgenden sind die Ergebnisse zweier Methoden der Entitätserkennung zu sehen. Zu erkennen sind deutsche Städte. Fett geschrieben sind die durch die Methoden erkannten deutschen Städte.

Die deutschen Städte in dieser Aufgabe sind: Chemnitz, Leipzig, Berlin, Dresden, Radeberg, Pirna, Heidenau, Freital, Moritzburg, Radebeul und Riesa. 

i) "Nearby German cities are **Chemnitz**, **Leipzig** and **Berlin**. 150km south is the Czech capital, **Prague**. 230km east is **Wroclaw**, the closest **sister city** of Dresden. In the **neighborhood** are county **Bautzen** with the city **Radeberg**, county Sächsische **Schweiz-Osterzgebirge** with the cities **Pirna**, **Heidenau** and **Freital** and the county **Meißen** with **Moritzburg** and the city **Radebeul**. Riesa is a bit further away."

ii) "Nearby German cities are **Chemnitz**, Leipzig and Berlin. 150km south is the Czech capital, **Prague**. 230km east is Wroclaw, the closest sister city of Dresden. In the neighborhood are county Bautzen with the city **Radeberg**, county Sächsische Schweiz-Osterzgebirge with the cities **Pirna**, Heidenau and Freital and the county Meißen with Moritzburg and the city **Radebeul**. Riesa is a bit further away."

**Berechnen Sie jeweils die Maße aus Aufgabe 3a) für die Methoden i) und ii) und vergleichen Sie die Ergebnisse!**

## Aufgabe 3 c)
Wie kann man erreichen, dass die Entitätenerkennung jeweils das Maximum der beiden Maße aus Aufgabe 3a) erreicht? Ist es möglich, dieses Ziel für beide Maße zur gleichen Zeit zu erreichen?