Version: 2019.11.19

---

# Entitätenerkennung mit Lexika
## Aufgabe 1 - Levensthein-Distanz
Die Levensthein-Distanz kann genutzt werden um Entitäten trotz Rechtschreibfehlern zu erkennen.

1. Vervollständigen Sie den Code zur Berechnung der Levensthein-Distanz.
2. Berechnen Sie schriftlich die Levensthein-Distanz der Wörter "Peter" und "Per", sowie von "Dieter" und "Pitr". Vergleichen Sie die Ergebnisse mit denen Ihrer Funktion.
3. In natürlichen Sprachen werden besonders häufig die Buchstaben o/u, e/i, p/b, d/t, usw. miteinander vertauscht. Erweitern Sie diese Liste entsprechend Ihren eigenen Erfahrungen und implementieren Sie die nötigen Änderungen, um diese Verwechslungen mit 0,5 statt mit 1 zu bestrafen.

### 1. Vervollständigen Sie den Code zur Berechnung der Levensthein-Distanz.

In [2]:
def lev(a, b):
  row, col = len(a), len(b)
  d = {} # dictionary "misused" as matrix
  for i in range(0, row + 1):
    d[(i, 0)] = i
  for j in range(0, col + 1):
    d[(0, j)] = j
  for i in range(1, row + 1):
    for j in range(1, col + 1):
      # delta is 1 iff mismatch of characters
      delta = int(a[i - 1] != b[j - 1])
      d[(i, j)] = min(d[(i-1,j)] + 1,
                      d[(i,j-1)] + 1,
                      d[(i-1,j-1)] + delta)
  matrix = [[0 for x in range(col+1)] for y in range(row+1)] 
  for key, value in d.items():
      matrix[key[0]][key[1]] = value
  print('\n'.join(['\t'.join([str(cell) for cell in row]) for row in matrix]))

  return d[(row, col)]


### 2. Berechnen Sie die Levensthein-Distanz von "Per" und "Peter", sowie "Pitr" und "Dieter".

In [6]:
print("lev(\"Per\", \"Peter\") =", lev("Per","Peter"))

0	1	2	3	4	5
1	0	1	2	3	4
2	1	0	1	1	2
3	2	1	1	2	1
lev("Per", "Peter") = 1


In [0]:
print("lev(\"Pitr\", \"Dieter\") =", lev( "Pitr","Dieter"))

### 3. Vervollständigen und ändern Sie den Code zur Berechnung der angepassten Levensthein-Distanz.

In [41]:
# Define all good mismatches
lower_score_set = set([('o', 'u'), ('u', 'o'),
         ('e', 'i'), ('i', 'e'),
         ('p', 'b'), ('b', 'p'),
         ('d', 't'), ('t', 'd'),
         ('k', 'c'), ('c', 'k')])

def score(char_a, char_b,cost):
  if (char_a, char_b) in lower_score_set:
    return cost
  elif char_a != char_b:
    return 1
  else:
    return 0

def lev_adapt(a, b,cost):
  row, col = len(a), len(b)
  d = {} # dictionary "misused" as matrix
  for i in range(0, row + 1):
    d[(i, 0)] = i
  for j in range(0, col + 1):
    d[(0, j)] = j
  for i in range(1, row + 1):
    for j in range(1, col + 1):
      delta=score(a[i-1], b[j-1], cost)
      d[(i, j)] = min(d[(i-1,j)] + 1,
                      d[(i,j-1)] + 1,
                      d[(i-1,j-1)] + delta)
  matrix = [[0 for x in range(col+1)] for y in range(row+1)] 
  for key, value in d.items():
      matrix[key[0]][key[1]] = value
  print('\n'.join(['\t'.join([str(cell) for cell in row]) for row in matrix]))

  return d[(row, col)]

In [42]:
cost = 0.5 #@param {type:"number"}

In [43]:
print("lev_adapt(\"Nicole\", \"Nikole\") =", lev_adapt("Nicole", "Nikole", cost))

0	1	2	3	4	5	6
1	0	1	2	3	4	5
2	1	0	1	2	3	4
3	2	1	0.5	1.5	2.5	3.5
4	3	2	1.5	0.5	1.5	2.5
5	4	3	2.5	1.5	0.5	1.5
6	5	4	3.5	2.5	1.5	0.5
lev_adapt("Nicole", "Nikole") = 0.5


In [44]:
print("lev(\"Nicole\", \"Nikole\") =", lev("Nicole", "Nikole"))

0	1	2	3	4	5	6
1	0	1	2	3	4	5
2	1	0	1	2	3	4
3	2	1	1	2	3	4
4	3	2	2	1	2	3
5	4	3	3	2	1	2
6	5	4	4	3	2	1
lev("Nicole", "Nikole") = 1


## Aufgabe 2 -  [Trie](https://en.wikipedia.org/wiki/Trie) und  [Radix-tree](https://en.wikipedia.org/wiki/Radix_tree)
1. Erstellen Sie einen einen Trie- und einen Radix-Tree für die Namen Michael, Michel, Michele, Michal, Michaela, Michela, Mikael, and Mikhail.
2. Stellen Sie sich eine Methode `eq` vor, welche zwei Zeichenketten zeichenweise vergleicht, und bei dem ersten nicht-übereinstimmenden Zeichenpaar `false` zurückgibt. Wie viele Zeichenvergleiche würde `eq` benötigen um festzustellen, dass Michiel nicht in der obigen Liste auftaucht? Wie viele Vergleiche würde der Trie- bzw. der Radix-Tree dafür benötigen? Bitte nehmen Sie vereinfachend an, dass nur **ein Vergleich für jede Entscheidung** benötigt wird.



In [58]:
names = set(["Michael", "Michel", "Michele", "Michal", "Michaela", "Michela", "Mikael", "Mikhail"])
def eq(string1, string2):
    for i in range(min(len(string1),len(string2))):
        if string1[i]!=string2[i]: 
            return i
    if(len(string1) == len(string2)):
        return True;
    else:
        return False;

In [61]:
string1 = "Michiel"
while names:
    print(eq(string1, names.pop()))

False
False
False
False
False
False
False


## Aufgabe 3- Schnelle unscharfe Suche
1. Der Dice Koeffizient vergleicht die Anzahl gemeinsamer Trigramme zweier Zeichenketten. Michael hat beispielsweise die Trigramme Mic, ich, cha, hae und ael. Sei *t(a)* die Menge der Trigramme der Zeichenkette *a*. Dann ist
\begin{equation*}
    \mathrm{dice}(a, b) = \frac{2 \cdot \vert t(a) \cap t(b) \vert}{\vert t(a) \vert + \vert t(b) \vert}
\end{equation*}
der Dice Koeffizient der Zeichenketten $a$ und $b$. Berechnen Sie schriftlich die Dice Koffenzienten der Paare Michael/Michel, Michael/Michele und Michael/Petra. Wie verhält sich der Dice Koeffizient in Vergleich zur Levensthein Distanz?
2. Vervollständigen Sie den Code zur Berechnung des Dice Koeffizients

In [32]:
def dice(a,b):
  t_a = set([a[i:i+3] for i in range(len(a)-2)])
  t_b = set([b[i:i+3] for i in range(len(b)-2)])
  dice_ab =  2 * len(t_a & t_b) / (len(t_a) + len(t_b))
  return dice_ab

In [34]:
print("dice(\"Michael\", \"Michel\") =", dice("Michael", "Michel"))
print("dice(\"Michael\", \"Michele\") =", dice("Michael", "Michele"))
print("dice(\"Michael\", \"Petra\") =", dice("Michael", "Petra"))

dice("Michael", "Michel") = 0.4444444444444444
dice("Michael", "Michele") = 0.4
dice("Michael", "Petra") = 0.0
