Version: 2019.11.29

---

# Relationsextraktion

Dieses Lab soll Sie mit Möglichkeiten der Relationsextraktion vertraut machen. Dabei werden drei verschiedene Ansätze besprochen: *Odds Ratio*, *reguläre Ausdrücke* und *Multiple Sequence Alignment*.



## Kookkurenz - Odds Ratio
Der *Odds-Ratio* für $n$ Datensätze, z.B. Dokumente, in denen insgesamt $n_A$-Mal die Entität $A$ vorkommt, $n_B$-Mal die Entität $B$ vorkommt und $n_{AB}$-Mal die Entitäten $A$ und $B$ zusammen auftreten, ist definiert als:
$$q_{AB} = \frac{n\cdot n_{AB}}{n_A \cdot n_B}$$
Man kann auch den *Log Odds Ratio* einführen:
$$q_{AB}^{log} = log_2 \frac{n\cdot n_{AB}}{n_A\cdot n_B}$$

Für die Entscheidung, ob eine Relation zwischen $A$ und $B$ besteht, führt man einen Threshold $t$ ein. Übersteigt der Odds Ratio $q_{AB}$ diesen Threshold $t$, so wird angenommen, dass $A$ mit $B$ in Relation steht. 

## Reguläre Ausdrücke 
Die Kennzeichnung von bestimmten Strings kann durch reguläre Ausdrücke stattfinden. Folgende Basisausdrücke sind dabei denkbar:
-  **.** steht für beliebige Strings und wird als Wildcard bezeichnet
-  \*, ? und + sind Quantifikatoren. Dabei bedeutet a* eine beliebige Anzahl von a's; a+ mindestens ein a und dann beliebig viele weitere und a? ein optionales a
- | ist das logische "oder". a|b bedeuted also entweder a oder b. 

Beispielsweise ist (a|b)a* die Menge aller Strings, die mit a oder b anfangen und dann eine beliebige Anzahl an a's haben.

## Aufgabe 1
Folgende Sätze seien gegeben. Städte sind fett gedruckt: 
- The flight time from **Athens** to **Paris** is about 30 minutes longer than the flight time to **Berlin**.
- Then we flew from **Athens** to **Dresden**, where we met our friend from **Paris**. 
- The flight from **Athens** to **Dresden** was too expensive, so we had to fly to **Berlin**.
- It was a 14 hour bus trip from **Paris** to **Berlin**.
- We are planning to fly from **Athens** to **New York** via **Paris**.
- **Paris** and **Dresden** were probably the highlights of our Europe trip.
- We took the bus from **Dresden** to **Berlin**, then we went to **Athens** by plane.

Wir wollen Flugverbindungen zwischen Städten extrahieren. Folgende Tabelle zeigt die tatsächlichen Flugverbindungen.

![alt text](https://docs.google.com/uc?id=1z4b9Yc1yQIceQjOOXGt9aRwOVRqoHJFt)

Berechnen Sie nach folgenden drei Methoden $Rec$, $Prec$ und $F_1$:

a) Eine Verbindung zwischen zwei Städten wird aufgenommen, wenn sie im gleichen Satz vorkommen.

b) Der *Odds-Ratio* wird für zwei Städte berechnet. Ist er größer als ein Threshold $t=1$, dann wird eine Verbindung zwischen den beiden Städten angenommen.

c) Ein regulärer Ausdruck entscheidet über das Vorhandensein einer Verbindung zwischen  zwei Städten. Formulieren Sie selbst einen geeigneten regulären Ausdruck, der hinreichend spezifisch, aber nicht auf die gegebenen Städte limitiert ist.




## Multiple Sequence Alignment
Sie haben in der Vorlesung kennengelernt, wie man Alignments von zwei Strings $a$ und $b$ berechnen kann. Dazu berechnet man die Levenshtein-Distanz mit dem Ansatz der dynamischen Programmierung. Man berechnet also die Matrixelemente $D_{i, j}$ mit:

- $D_{0, 0} = 0$
- $D_{i, 0} = i$
- $D_{0, j} = j$
- $ D_{i, j} = \min \left\{D_{i-1, j} + 1, D_{i, j-1} + 1, D_{i-1, j-1} + cmp(a_i, b_j)\right\}$

Dabei ist $cmp(a_i, b_j)$ meist definiert als $cmp(a_i, b_j) = \delta_{a_i \neq b_j}$, also gleich Eins, wenn $a_i \neq b_j$ und sonst Null. Die Levenshtein-Distanz, d.h. die minimale Anzahl an Operationen, um die Strings zu alignen, steht dann in der rechten unteren Ecke der Matrix. Durch Benutzen des Backtraces, kann man die entsprechenden Alignments finden.

Um das Alignment von $m \geq 2$ Strings zu berechnen, gibt es verschiedene Ansätze: 

- Dynamische Programmierung in $mD$
- Gierige Suche
- $A^*$-Suche

Ferner wird zusätzlich $cmp(-, -) = 1$ gesetzt. 

Wir benutzen die Bewertung "Sum of Pairs". Haben wir z.B. das Alignment

    -abc
    babd
    -cbb

so berechnet sich die Bewertung für die erste Spalte als 

$cmp(-, b) + cmp(-, -) + cmp(b, -) = 3$

Insgesamt ergibt sich für die Summe der Bewertungen aller Spalten $3 + 2 + 0 + 3 = 8$ als Score für das gesamte Alignment.




### Gierige Suche
Inkrementelles Alignment, d.h. finde erst das Alignment von zwei Strings. Danach aligne einen dritten String zu diesem Alignment usw. Man beachte, dass dann entsprechend die $cmp$-Funktion angepasst werden muss. Siehe das Beispiel aus der Vorlesung.

![alt text](https://docs.google.com/uc?id=1nTlrpUAq2vPa7kovysFnGU0aI7JF6sIs)

Um die Bewertung gemäß des "Sum of Pairs"-Scores zu erhalten, müssen wir die Bewertungen für alle Alignments addieren. In obigem Beispiel haben wir für das erste Alignment von Peter und Petra einen Score von 2 und das Alignment

    Peter-
    Pet-ra

Für das Alignment von diesem mit dem dritten String Pitr haben wir einen Score von 6. Insgesamt ergibt sich also ein Score von $6+2 = 8$ für das finale Alignment

    Peter-
    Pet-ra
    Pit-r-




### $A^*$-Suche

Der Startknoten ist $$\begin{pmatrix} \\\\\end{pmatrix}$$, also die leeren Strings. Angenommen wir wollen folgende Strings alignen: "Bob", "Alice", "Eve". Dann wären die ersten Nachfolger des Startknotens:

 $$\begin{pmatrix} B\\A\\E\end{pmatrix}, \begin{pmatrix} B\\A\\-\end{pmatrix},  \begin{pmatrix} B\\-\\E\end{pmatrix}, \begin{pmatrix} -\\A\\E\end{pmatrix}, \begin{pmatrix} B\\-\\-\end{pmatrix}, \begin{pmatrix} -\\A\\-\end{pmatrix}, \begin{pmatrix} -\\-\\E\end{pmatrix}$$

Zur Erinnerung: Wir müssen für jede Editierung die Kostenfunktion $f$ berechnen: 

Kosten $f$ = bisherige Kosten $g$ + Unterschätzung $h$

Die Unterschätzung $h$ kann berechnet werden, indem die Summe der $\frac{m(m-1)}{2}$ paarweisen Alignments der Reste der Zeichenketten berechnet wird.

## Aufgabe 2 - Teil 1
In dieser Aufgabe sollen Sie das multiple Alignment der Strings "Petra", "Petta", "Peter" finden. Bearbeiten Sie dazu folgende Aufgaben:

a) Welche Verbindung besteht zwischen dieser Aufgabe und der Relationsextraktion von Texten.

b) Finden Sie mithilfe der gierigen Suche ein Alignment der drei Strings (beginnen Sie mit dem Alignment von "Petra", "Petta"). Berechnen Sie ferner die Levenshtein-Distanz.

# Programmierung 
Im Folgenden werden Sie die entsprechende Python-Implementierung zur gierigen Suche kennenlernen. Ihre Aufgabe ist es, Lücken im Code zu füllen. 

Die folgende Zelle installiert das Modul *tabulate*, falls noch nicht vorhanden.

In [0]:
try: 
  from tabulate import tabulate
except ImportError:
  !pip install tabulate
  from tabulate import tabulate

## Aufgabe 2 c) - Implementierung Greedy-Search
Die folgenden Zellen implementieren den unvollständigen Greedy-Algorithmus bzw. progressives Alignment. Dieser Algorithmus findet nicht immer die optimale Lösung. Lesen Sie den Code und versuchen Sie, ihn zu verstehen. In den jeweiligen Methoden wird erklärt, was die Methode jeweils tut. 

Vervollständigen Sie die fehlenden Stellen in den Funktionen **cmp**, **sum_of_pairs** und **lev2**.

In [0]:
class MSANonOptimal:
  
  def __init__(self, aa):
    self.aa = aa



  def cmp(self, a, b):
      """Returns the score for comparing a and b, which may be characters or the gap symbol.
      cmp defines the scoring scheme for the string distance."""
      if a=="-" or b=="-":
          return 1
      else:
          return int(____)
        
        
  def sum_of_pairs(self, aa,bb):
    """Computes the sum of pairs of all characters in string aa against all characters in string bb.
    aa and bb are alignments and may contain the gap symbol."""
    c=0
    for a in aa:
        for b in bb:
            c+=self.cmp(____, ____)
    return c
  
  def min_dir(self, a,b,c):
    """Returns the minimum value of a, b, and c and which are minimal.

    c is encoded as NW, b as N and a as W.
    More than one can be the minimum.
    Preference is given to NW, then N, then W.
    This means that alignments with match/mismatch
    from end to front are preferred. If all alignments
    are needed, then the function has to return a set of directions
    instead of single direction."""
    if c==min(a,b,c):
        return (c,"NW")
    if b==min(a,b,c):
        return (b,"W")
    if a==min(a,b,c):
        return (a,"N")
      
  def get(self, a, i):
    """Returns the list of characters at position i in the alignment a, which is a list of strings."""
    return list(map(lambda s: s[i], a))
  
  def add(self, a, aas):
    """Given a list of n strings (an alignment) and a list of n characters, add appends character i to string i.""" 
    a2=[]
    for i in range(len(a)):
        a2.append(a[i]+aas[i])
    return a2
  
  def align(self, a,b,d_dir,i,j):
    """Outputs the alignment of alignments a and b up to position i and j given the direction matrix d_dir.
    Alignments a and b are lists of strings with the original character sequences possibly with gaps."""
    if i==0 and j==0:
        return [[""]*len(a),[""]*len(b)]
    elif d_dir[i,j]=="W":
        (a2,b2)=self.align(a,b,d_dir,i,j-1)
        return [self.add(a2, self.gap(a)), self.add(b2, self.get(b,j-1))]
    elif d_dir[i,j]=="N":
        (a2,b2)=self.align(a,b,d_dir,i-1,j)
        return [self.add(a2,self.get(a,i-1)), self.add(b2,self.gap(b))]
    elif d_dir[i,j]=="NW":
        (a2,b2)=self.align(a,b,d_dir,i-1,j-1)
        return [self.add(a2,self.get(a,i-1)), self.add(b2,self.get(b,j-1))]
      
  def gap(self, a):
    """Returns n gaps for an alignment of n sequences."""
    return ["-"]*len(a)
  
  def print_matrix(self, a,b,d,m,n):
    matrix=[]
    for s in b:
        matrix.append([""]*len(a) + [""] + list(s))
    for i in range(m+1):
        row=[]
        if i==0:
            row+=[""]*len(a)
        else:
            row+=self.get(a,i-1)
        for j in range(n+1):
            row.append(d[(i,j)])
        matrix.append(row)
    print()
    print("Alignment of "+", ".join(a)+" with "+", ".join(b))
    print()
    print(tabulate(matrix))
    
  def lev2(self, a, b):
    """Align the two alignments a and b and return the common alignment and its score."""
    m = len(a[0])
    n = len(b[0])
    d = dict()
    d_dir = dict()
    d[(0, 0)] = 0
    d_dir[(0, 0)] = ""
    for i in range(1, m + 1):
        d[(i, 0)] = i*len(a)*len(b)
        d_dir[(i, 0)] = "N"
    for j in range(1, n + 1):
        d[(0, j)] = j*len(a)*len(b)
        d_dir[(0, j)] = "W"
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            (d[(i, j)],d_dir[(i, j)]) = self.min_dir(d[(___, ___)] + self.sum_of_pairs(self.get(a,i-1),self.gap(b)),
                                            d[(___, ___)] + self.sum_of_pairs(self.gap(a),self.get(b,j-1)),
                                            d[(___, ___)] + self.sum_of_pairs(self.get(a,i-1),self.get(b,j-1)))
    self.print_matrix(a,b,d,m,n)
    (a1,a2)=self.align(a,b,d_dir,m,n)
    a1.extend(a2)
    return (d[(m, n)], a1)
  
  
  def msa(self):
    """Progressive alignment of the sequences in a.

    Succesively, the sequences in a are added to an alignment.
    The final alignment is returned."""
    b=[self.aa[0]]
    for i in range(1,len(self.aa)):
        (score,b) = self.lev2(b,[self.aa[i]])
    return (score,b)

Im Aufruf von *msa* können Sie verschiedene Strings alignen.


Überprüfen Sie Ihr Ergebnis aus Aufgabe 2b) mithilfe des implementierten Algorithmus.

In [0]:
################################################
#
# Multiple sequence alignment for list of strings
#
################################################


print()
print("Progressive alignment")

greedymsa = MSANonOptimal(["Petra", "Petta", "Peter"])

score, m = greedymsa.msa()

print() 
print("Alignment:")
for mm in m:
    print(mm)

print()
print("The score for the last alignment:",score)
print()

## Aufgabe 2 d) - $A^*$ -Algorithmus

In den folgenden Zellen wird der $A^*$-Algorithmus implementiert. Zunächst definieren wir die Knoten (Klasse *Node*). Wir nehmen an, wir haben Strings gegeben, die wir alignen wollen. Ein Knoten besteht aus den folgenden Membern:
- cc: characters
- kk: Indizes, die bestimmen, welche Character der zu alignenden Strings als nächstes angehängt werden müssen. 
- h, g, f: Unterschätzung, bisherige Kosten und Gesamtkosten
- pred: Vorgänger im $A^*$-Suchbaum


Vervollständigen Sie die Abfrage, ob es sich um einen Endzustand handelt. (**is_endnode**)



In [0]:
from typing import List


class Node:
    """
    Node class for the A*-Search. 
    Consists of a column of characters (cc). Each node is also characterized by the
    present cost, by the underestimated cost to the aim and by the total cost g + h.
    Furthermore we have "pointer" k1, k2... , which points to the character in the total strings to be aligned,
    which needs to be added next. If the strings to be aligned have lengths i1, i2 ... the final states are
    characterized by the condition i1 == k1...
    The method __lt__ needs to be defined in order to implement an order on the nodes, which is necessary for dealing
    with the PriorityQueue.
    """

    def __init__(self, cc: List[str], kk: List[int], g: int, h: float, pred: 'Node'):
        self.cc = cc
        self.kk = kk
        self.h = h
        self.g = g
        self.f = g + h
        self.pred = pred

    def __lt__(self, other: 'Node'):
        return self.f < other.f

    def is_endnode(self, aa: List[str]):
        return self.kk == [len(aa[___]) for ___ in range(len(aa))]

Um eine PriorityQueue zu erstellen benutzen wir das Python-Modul *queue*. Dafür ist auch die totale Ordnung auf der Node-Klasse definiert worden. (\__lt__-Methode)

Im Folgenden wird der optimale MSA-Algorithmus mithilfe der $A^*$-Suche implementiert.

Vervollständigen Sie die Blanks in den Funktionen **get_path** und **msa_alignment**.


In [0]:
import queue as Q
import itertools

class MSAOptimal:
  """
  Implements the optimal multiple sequence alignment algorithm.
  The class is initialized by passing the strings to be aligned to the constructor.
  """

  def __init__(self, aa: List[str]):
    self.aa = aa
    start_node = Node(cc=[""]*len(aa), 
                      kk=[0]*len(aa), 
                      g=0, 
                      h=self.underestimation(aa), 
                      pred=None)
    self.start_node = start_node
    # create a priority queue, the elements are ordered by the total cost f
    queue = Q.PriorityQueue()
    queue.put(start_node)
    self.queue = queue

  def append_neighbors(self, node: Node):
    # get next characters to be added, which are aa[i][node.kk[i]]
    # if in any string there are no characters left use the gap symbol "-"
    next_characters = [self.aa[i][node.kk[i]] if node.kk[i] < len(self.aa[i]) else "-"
                       for i in range(len(self.aa))]
    # get all combinations of possibilities to choose from next_characters
    combinations = [y for y in itertools.product([True, False], 
                                                 repeat=len(self.aa))]
    # remove the characters to be added, which only consist of gaps
    combinations.remove((False, )*len(self.aa))

    for comb in combinations:
        # get one new neighbor for each combination of True/False
        # if the corresponding index in comb is True, take the this character into the next node
        nodecc = [next_characters[i] if comb[i] else "-" 
                  for i in range(len(next_characters))]
        # eliminate all only-gap character sequences
        if nodecc != ["-"]*len(self.aa):
          # if comb[i] is true, we need to add 1 to the next nodes indices at the corresponding position
          # this is done only, if the i-th string has remaining characters
          nodekk = [node.kk[i] + int(comb[i]) if node.kk[i]!=len(self.aa[i]) else node.kk[i]
                    for i in range(len(next_characters))
                    ]
          # calculate the new present cost for the node
          gw = node.g + self.transitioncost(nodecc)
          # get remaining strings, which has not been aligned so far
          raaw = [self.aa[j][nodekk[j]:] for j in range(len(self.aa))]
          # calculate underestimation
          hw = self.underestimation(raaw)
          # put the neighbor into the PriorityQueue
          self.queue.put(Node(cc=nodecc, kk=nodekk, g=gw, h=hw, pred=node))

  def cmp(self, a, b):
    if a=="-" or b=="-":
        return 1
    else:
        return int(a != b)

  def transitioncost(self, cc):
    # cc are the characters for the successor
    cost = 0
    for i in range(len(cc)):
      for j in range(i+1, len(cc)):
        cost += self.cmp(cc[i], cc[j])
    return cost

  def underestimation(self, raa):
    """
    raa are the rests of the strings to be aligned.
    """
    m = len(raa)
    sum = 0
    for i in range(m - 1):
        for j in range(i + 1, m):
            sum += self.levdistance(aa=raa[i], bb=raa[j])

    return sum

  def levdistance(self, aa, bb):
    """
    Simplified LevDistance-Algorithm. This class only needs the score not the
    alignment of the rest of the strings
    """
    d = {}
    m = len(aa)
    n = len(bb)

    for i in range(m + 1):
        d[(i, 0)] = i
    for j in range(n + 1):
        d[(0, j)] = j

    for i in range(1, m + 1):
        for j in range(1, n + 1):
            d[(i, j)] = min([d[(i - 1, j)] + 1,
                             d[(i, j - 1)] + 1,
                             d[(i - 1, j - 1)] + int(aa[i - 1] != bb[j - 1])])

    return d[(m, n)]

  def get_path(self, node: Node):
    """
    Given the endnode backtrace the path to the startnode and return it.
    """
    path = []

    # pred of startnode is set to None
    while node is not None:
        path.insert(___, node)
        node = node.pred
    return path

  def print_alignment(self, path: List[Node]):
    print("Best Alignment: ")

    matrix = []
    for i in range(len(self.aa)):
        matrix.append([x.cc[i] for x in path])

    print(tabulate(matrix))

  def msa_alignment(self):
    """
    The algorithm pops nodes out of the PriorityQueue until an end node is reached.
    """
    n: Node = self.queue.get(block=False)
    while not n.is_endnode(self.aa):
        self.append_neighbors(node=___)

        n = self.queue.get(block=False)
    
    path = self.get_path(n)
    self.print_alignment(path)
    
    print("The total score is " + str(n.f))
    return self.get_path(n), n.f

Sie können nun den optimalen $A^*$ - Algorithmus nutzen, um das optimale Alignment von mehreren Strings zu berechnen. Vergleichen Sie den Output auch mit den Ergebnisses des Gierige-Suche-Algorithmus.




In [0]:
aa = ["Peter", "Petra", "Petta"]


msaoptimal = MSAOptimal(aa)

path, score = msaoptimal.msa_alignment()