# Entitätenerkennung mit Lexika
## Aufgabe 1 - Levensthein-Distanz
Die Levensthein-Distanz kann genutzt werden um Entitäten trotz Rechtschreibfehlern zu erkennen.

1. Vervollständigen Sie den Code zur Berechnung der Levensthein-Distanz.
2. Berechnen Sie schriftlich die Levensthein-Distanz der Wörter "Peter" und "Per", sowie von "Dieter" und "Pitr". Vergleichen Sie die Ergebnisse mit denen Ihrer Funktion.
3. In natürlichen Sprachen werden besonders häufig die Buchstaben o/u, e/i, p/b, d/t, usw. miteinander vertauscht. Erweitern Sie diese Liste entsprechend Ihren eigenen Erfahrungen und implementieren Sie die nötigen Änderungen, um diese Verwechslungen mit 0.5 statt mit 1 zu bestrafen.

### 1. Vervollständigen Sie den Code zur Berechnung der Levensthein-Distanz.

In [52]:
def lev(a, b):
  m, n = len(a), len(b)
  d = {} # dictionary "misused" as matrix
  for i in range(0, m + 1):
    d[(i, 0)] = i
  for j in range(0, n + 1):
    d[(0, j)] = j
  for i in range(1, m + 1):
    for j in range(1, n + 1):
      # delta is 1 iff mismatch of characters
      delta = int(a[i - 1] != b[j - 1])
      d[(i, j)] = min(d[(i - 1, j)] + delta,
                      d[(i, j - 1)] + delta,
                      d[(i - 1, j - 1)] + delta)
  return d[(m, n)]

### 2. Berechnen Sie die Levensthein-Distanz von "Peter" und "Per", sowie "Dieter" und "Pitr".

In [53]:
print("lev(\"Peter\", \"Per\") =", lev("Peter", "Per"))
print("lev(\"Dieter\", \"Pitr\") =", lev("Dieter", "Pitr"))

lev("Peter", "Per") = 1
lev("Dieter", "Pitr") = 3


### 3. Vervollständigen und ändern Sie den Code zur Berechnung der angepassten Levensthein-Distanz.

In [54]:
# o/u, e/i, p/b, d/t
haufig = [('o', 'u'), ('u', 'o'), ('e', 'i'), ('i', 'e'), ('p', 'b'), ('b', 'p'), ('d', 't'), ('t', 'd')]

def lev_adapt(a, b):
    m, n = len(a), len(b)
    d = {} # dictionary "misused" as matrix
    for i in range(0, m + 1):
        d[(i, 0)] = i
    for j in range(0, n + 1):
        d[(0, j)] = j
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            t1 = a[i - 1]
            t2 = b[j - 1]
            if(t1 == t2):
                d[(i, j)] = d[(i - 1, j - 1)]
            elif(t1 != t2):
                if((t1, t2) in haufig):
                    d[(i, j)] = min(d[(i - 1, j)] + 1,
                                    d[(i, j - 1)] + 1,
                                    d[(i - 1, j - 1)] + 0.5)
                else: d[(i, j)] = min(d[(i - 1, j)] + 1,
                      d[(i, j - 1)] + 1,
                      d[(i - 1, j - 1)] + 1)
    return d[(m, n)]

print("lev_adapt(\"Nicole\", \"Nikole\") =", lev_adapt("Nicoli", "Nikole"))
print("lev(\"Nicole\", \"Nikole\") =", lev("Nicoli", "Nikole"))

lev_adapt("Nicole", "Nikole") = 1.5
lev("Nicole", "Nikole") = 2


## Aufgabe 2 - Trie- und Radix-Trees
1. Erstellen Sie einen einen Trie- und einen Radix-Tree für die Namen Michael, Michel, Michele, Michal, Michaela, Michela, Mikael, and Mikhail.
2. Stellen Sie sich eine Methode `eq` vor, welche zwei Zeichenketten zeichenweise vergleicht, und bei dem ersten nicht-übereinstimmenden Zeichenpaar `false` zurückgibt. Wie viele Zeichenvergleiche würde `eq` benötigen um festzustellen, dass Michiel nicht in der obigen Liste auftaucht? Wie viele Vergleiche würde der Trie- bzw. der Radix-Tree dafür benötigen?



## Aufgabe 3- Schnelle unscharfe Suche
1. Der Dice Koeffizient vergleicht die Anzahl gemeinsamer Trigramme zweier Zeichenketten. Michael hat beispielsweise die Trigramme Mic, ich, cha, hae und ael. Sei *t(a)* die Menge der Trigramme der Zeichenkette *a*. Dann ist
\begin{equation*}
    \mathrm{dice}(a, b) = \frac{2 \cdot \vert t(a) \cap t(b) \vert}{\vert t(a) \vert + \vert t(b) \vert}
\end{equation*}
der Dice Koeffizient der Zeichenketten $a$ und $b$. Berechnen Sie schriftlich die Dice Koffenzienten der Paare Michael/Michel, Michael/Michele und Michael/Petra. Wie verhält sich der Dice Koeffizient in Vergleich zur Levensthein Distanz?
2. Vervollständigen Sie den Code zur Berechnung des Dice Koeffizients

In [55]:
def dice(a,b):
  count = 0
#   t_a = set([a[i:i+3] for i in range(len(a)-2)])
#   t_b = set([b[i:i+3] for i in range(len(b)-2)])
  t_a = set()
  t_b = set()
  for i in range(len(a) - 2):
    t_a.add(a[i:i+3])
  for i in range(len(b) - 2):
    t_b.add(b[i:i+3])
  for word in t_a:
    if(word in t_b): count += 1
  dice_ab = 2*count/(len(t_a) + len(t_b))
  return dice_ab

In [56]:
print("dice(\"Michael\", \"Michel\") =", dice("Michael", "Michel"))
print("dice(\"Michael\", \"Michele\") =", dice("Michael", "Michele"))
print("dice(\"Michael\", \"Petra\") =", dice("Michael", "Petra"))

dice("Michael", "Michel") = 0.4444444444444444
dice("Michael", "Michele") = 0.4
dice("Michael", "Petra") = 0.0


In [57]:
test1 = ['a', 'b', 'c']
test2 = ['b', 'c', 'd']
test1 = set(test1)
test2 = set(test2)
print(test1 & test2)

{'b', 'c'}
