Version: 2019.11.19

---

# Entitätenerkennung mit Lexika
## Aufgabe 1 - Levensthein-Distanz
Die Levensthein-Distanz kann genutzt werden um Entitäten trotz Rechtschreibfehlern zu erkennen.

1. Vervollständigen Sie den Code zur Berechnung der Levensthein-Distanz.
2. Berechnen Sie schriftlich die Levensthein-Distanz der Wörter "Peter" und "Per", sowie von "Dieter" und "Pitr". Vergleichen Sie die Ergebnisse mit denen Ihrer Funktion.
3. In natürlichen Sprachen werden besonders häufig die Buchstaben o/u, e/i, p/b, d/t, usw. miteinander vertauscht. Erweitern Sie diese Liste entsprechend Ihren eigenen Erfahrungen und implementieren Sie die nötigen Änderungen, um diese Verwechslungen mit 0,5 statt mit 1 zu bestrafen.

### 1. Vervollständigen Sie den Code zur Berechnung der Levensthein-Distanz.

In [None]:
def lev(a, b):
  row, col = len(a), len(b)
  d = {} # dictionary "misused" as matrix
  for i in range(0, row + 1):
    d[(i, 0)] = i
  for j in range(0, col + 1):
    d[(0, j)] = j
  for i in range(1, row + 1):
    for j in range(1, col + 1):
      # delta is 1 iff mismatch of characters
      delta = int(a[i - 1] != b[j - 1])
      d[(i, j)] = min(d[(i - 1,     j)] + 1,
                      d[(    i, j - 1)] + 1,
                      d[(i - 1, j - 1)] + delta)
  matrix = [[0 for x in range(col+1)] for y in range(row+1)] 
  for key, value in d.items():
      matrix[key[0]][key[1]] = value
  print('\n'.join(['\t'.join([str(cell) for cell in row]) for row in matrix]))

  return d[(row, col)]

### 2. Berechnen Sie die Levensthein-Distanz von "Peter" und "Per", sowie "Dieter" und "Pitr".
|   |   | P | e | t | e | r |
|---|---|---|---|---|---|---|
|   | 0 | 1 | 2 | 3 | 4 | 5 |
| P | 1 | 0 | 1 | 2 | 3 | 4 |
| e | 2 | 1 | 0 | 1 | 2 | 3 |
| r | 3 | 2 | 1 | 1 | 2 | 2 |

|   |   | D | i | e | t | e | r |
|---|---|---|---|---|---|---|---|
|   | 0 | 1 | 2 | 3 | 4 | 5 | 6 |
| P | 1 | 1 | 2 | 3 | 4 | 5 | 6 |
| i | 2 | 2 | 1 | 2 | 3 | 4 | 5 |
| t | 3 | 3 | 2 | 2 | 2 | 3 | 4 |
| r | 4 | 4 | 3 | 3 | 3 | 3 | 3 |

In [None]:
print("lev(\"Per\", \"Peter\") =", lev("Per","Peter"))

In [None]:
print("lev(\"Pitr\", \"Dieter\") =", lev( "Pitr","Dieter"))

### 3. Vervollständigen und ändern Sie den Code zur Berechnung der angepassten Levensthein-Distanz.

In [None]:
# Define all good mismatches
lower_score_set = set([('o', 'u'), ('u', 'o'),
         ('e', 'i'), ('i', 'e'),
         ('p', 'b'), ('b', 'p'),
         ('d', 't'), ('t', 'd'),
         ('k', 'c'), ('c', 'k')])

def score(char_a, char_b,cost):
  if char_a == char_b:
    return 0
  elif (char_a, char_b) in lower_score_set:
    return cost
  return 1

def lev_adapt(a, b,cost):
  row, col = len(a), len(b)
  d = {} # dictionary "misused" as matrix
  for i in range(0, row + 1):
    d[(i, 0)] = i
  for j in range(0, col + 1):
    d[(0, j)] = j
  for i in range(1, row + 1):
    for j in range(1, col + 1):
      delta=score(a[i - 1], b[j - 1],cost)
      d[(i, j)] = min(d[(i - 1,     j)] + 1,
                      d[(    i, j - 1)] + 1,
                      d[(i - 1, j - 1)] + delta)
  matrix = [[0 for x in range(col+1)] for y in range(row+1)] 
  for key, value in d.items():
      matrix[key[0]][key[1]] = value
  print('\n'.join(['\t'.join([str(cell) for cell in row]) for row in matrix]))

  return d[(row, col)]

In [None]:
cost = 0.5 #@param {type:"number"}

In [None]:
print("lev_adapt(\"Nicole\", \"Nikole\") =", lev_adapt("Nicole", "Nikole", cost))

In [None]:
print("lev(\"Nicole\", \"Nikole\") =", lev("Nicole", "Nikole"))

## Aufgabe 2 -  [Trie](https://en.wikipedia.org/wiki/Trie) und  [Radix-tree](https://en.wikipedia.org/wiki/Radix_tree)
1. Erstellen Sie einen einen Trie- und einen Radix-Tree für die Namen Michael, Michel, Michele, Michal, Michaela, Michela, Mikael, and Mikhail.
2. Stellen Sie sich eine Methode `eq` vor, welche zwei Zeichenketten zeichenweise vergleicht, und bei dem ersten nicht-übereinstimmenden Zeichenpaar `false` zurückgibt. Wie viele Zeichenvergleiche würde `eq` benötigen um festzustellen, dass Michiel nicht in der obigen Liste auftaucht? Wie viele Vergleiche würde der Trie- bzw. der Radix-Tree dafür benötigen? Bitte nehmen Sie vereinfachend an, dass nur **ein Vergleich für jede Entscheidung** benötigt wird.



### 1. Erstellen Sie einen einen Trie- und einen Radix-Tree.
Trie-Tree:

![alt text](https://docs.google.com/uc?id=1jRX2d4YWSVoxSS7148DzwNljgs-KS1Cy)

Radix-Tree:

![alt text](https://docs.google.com/uc?id=10IGLBsCEHLgqsbJK1eXi0_WApkRYn4kw)

### 2. Anzahl der benötigten Vergleiche

Anzahl der Vergleiche der Funktion `eq` für Michiel:
> 36  = 6$\times$ `M,i,c,h,mismatch` + 2$\times$ `M,i,mismatch`)

Anzahl der Vergleiche Für Trie:
> 5 = 1 $\times$ `M,i,c,h,mismatch`

Anzahl der Vergleiche für Radix-Tree:
> 3 =  1 $\times$ `Mi,ch,mismatch`

## Aufgabe 3- Schnelle unscharfe Suche
1. Der Dice Koeffizient vergleicht die Anzahl gemeinsamer Trigramme zweier Zeichenketten. Michael hat beispielsweise die Trigramme Mic, ich, cha, hae und ael. Sei *t(a)* die Menge der Trigramme der Zeichenkette *a*. Dann ist
\begin{equation*}
    \mathrm{dice}(a, b) = \frac{2 \cdot \vert t(a) \cap t(b) \vert}{\vert t(a) \vert + \vert t(b) \vert}
\end{equation*}
der Dice Koeffizient der Zeichenketten $a$ und $b$. Berechnen Sie schriftlich die Dice Koffenzienten der Paare Michael/Michel, Michael/Michele und Michael/Petra. Wie verhält sich der Dice Koeffizient in Vergleich zur Levensthein Distanz?
2. Vervollständigen Sie den Code zur Berechnung des Dice Koeffizients

### 1. Berechnung des Dice-Koeffizienten der Wortpaare:

*  Michael/Michel:<br>
    *t(*Michael*)* = {Mic, ich, cha, hae, ael}<br>
    *t(*Michel*)* = {Mic, ich, che, hel}
    \begin{equation*}
        \mathrm{dice}(\text{Michael}, \text{Michel}) = \frac{2 \cdot 2}{5 + 4} = 0,44
    \end{equation*}
*   Michael/Michele:<br>
    *t(*Michael*)* = {Mic, ich, cha, hae, ael}<br>
    *t(*Michele*)* = {Mic, ich, che, hel, ele}
    \begin{equation*}
        \mathrm{dice}(\text{Michael}, \text{Michele}) = \frac{2 \cdot 2}{5 + 5} = 0,40
    \end{equation*}
*   Michael/Petra:<br>
    *t(*Michael*)* = {Mic, ich, cha, hae, ael}<br>
    *t(*Petra*)* = {Pet, etr, tra}
    \begin{equation*}
        \mathrm{dice}(\text{Michael}, \text{Petra}) = \frac{2 \cdot 0}{5 + 3} = 0
    \end{equation*}


### 2. Vervollständigen Sie den Code zur Berechnung des Dice Koeffizients.

In [None]:
def dice(a,b):
  t_a = set([a[i:i+3] for i in range(len(a)-2)])
  t_b = set([b[i:i+3] for i in range(len(b)-2)])
  dice_ab = 2 * len(t_a & t_b) / (len(t_a) + len(t_b))
  return dice_ab

In [None]:
print("dice(\"Michael\", \"Michel\") =", dice("Michael", "Michel"))
print("dice(\"Michael\", \"Michele\") =", dice("Michael", "Michele"))
print("dice(\"Michael\", \"Petra\") =", dice("Michael", "Petra"))