<p style="border: .3ex solid blue; padding: .5ex">Understanding the Levenshtein-Distanz concept and code its calculations </p>



### Dynamic programming 

Dynamische Programmierung ist eine Methode zum algorithmischen Lösen eines Optimierungsproblems durch Aufteilung in Teilprobleme und systematische Speicherung von Zwischenresultaten.

Dynamische Programmierung kann erfolgreich eingesetzt werden, wenn ein Optimierungsproblem aus vielen gleichartigen Teilproblemen besteht und eine optimale Lösung des Problems sich aus optimalen Lösungen der Teilprobleme zusammensetzt.Dies nennt man Optimalitätsprinzip von Bellman. In der dynamischen Programmierung werden zuerst die optimalen Lösungen der kleinsten Teilprobleme direkt berechnet und dann geeignet zu einer Lösung eines nächstgrößeren Teilproblems zusammengesetzt. Dieses Verfahren setzt man fort, bis das ursprüngliche Problem gelöst wurde. Einmal berechnete Teilergebnisse werden in einer Tabelle gespeichert. Bei nachfolgenden Berechnungen gleichartiger Teilprobleme wird auf diese Zwischenlösungen zurückgegriffen, anstatt sie jedes Mal neu zu berechnen, was zu einer Senkung der Laufzeit führt. Wird die dynamische Programmierung konsequent eingesetzt, vermeidet sie kostspielige Rekursionen, weil bekannte Teilergebnisse wiederverwendet werden.
https://de.wikipedia.org/wiki/Dynamische_Programmierung

### Levenshtein-Distanz

Die Levenshtein-Distanz (auch Editierdistanz) zwischen zwei Zeichenketten ist die minimale Anzahl von Einfüge-, Lösch- und Ersetz-Operationen, um die erste Zeichenkette in die zweite umzuwandeln.

In der Praxis wird die Levenshtein-Distanz zur Bestimmung der Ähnlichkeit von Zeichenketten beispielsweise zur Rechtschreibprüfung oder bei der Duplikaterkennung angewandt.

Zur Erkennung von Duplikaten werden verschiedene Ähnlichkeitsmaße angewandt, beispielsweise die Levenshtein-Distanz oder die Schreibmaschinendistanz. 
Es gibt phonetische Algorithmen, die Wörtern nach ihrem Sprachklang eine Zeichenfolge zuordnen, den phonetischen Code, um eine Ähnlichkeitssuche zu implementieren, zum Beispiel Soundex und Kölner Phonetik.
https://de.wikipedia.org/wiki/Levenshtein-Distanz

Duplikaterkennung:
### Examples we can used (in following trial):
Max Müller
Max Mueller
M. Müller
Max Muller
https://de.wikipedia.org/wiki/Duplikaterkennung


### The code was adapted from this video:
https://www.youtube.com/watch?v=We3YDTzNXEk&list=PLPvPw3zMYslR4kfVQj8XQE8yjx7wQ3NOb&index=4&t=188s


In [3]:
# Calculating the levenshtein distance
import numpy as np
str1='azced'
str2='abcdef'

# m rows of the matrix, n columns of the matrix
m=len(str1)+1
n=len(str2)+1

matrix=np.zeros(shape=(m,n))
# Filling the first row and column with 1,2,3,4,5... depending on the number of
# letters in each compared word
for i in range(m):
    #Filling rows
    matrix[i][0]=i
for j in range(n):
    matrix[0][j]=j

# Filling the matrix

for l in range(1,m):
    for k in range(1,n):
        if str1[l-1]==str2[k-1]:
            # print('strings letter',str1[l-1],'and',str2[k-1],'are the same!')
            matrix[l][k]=matrix[l-1][k-1]
            # print('the value in the matrix with position [',l,',',k,'] is then',matrix[l][k])
        else:
            # print('strings letter ',str1[l-1],'and',str2[k-1],'are different!')
            matrix[l][k]=min(matrix[l-1][k],matrix[l-1][k-1],matrix[l][k-1])+1
            # print('the value in the matrix with position [',l,',',k,'] is',matrix[l][k])
print('The levenshtein distance is:', matrix[m-1][n-1])
print(matrix)


The levenshtein distance is: 3.0
[[0. 1. 2. 3. 4. 5. 6.]
 [1. 0. 1. 2. 3. 4. 5.]
 [2. 1. 1. 2. 3. 4. 5.]
 [3. 2. 2. 1. 2. 3. 4.]
 [4. 3. 3. 2. 2. 2. 3.]
 [5. 4. 4. 3. 2. 3. 3.]]


<p style="border: .3ex solid blue; padding: .5ex"> Transform the code to a function </p>

In [6]:
str_probe1='azced'
str_probe2='abcdef'
def levenshtein (str1, str2):
    '''this codes finds the levenshtein distance between two strings'''
# m rows of the matrix, n columns of the matrix
    m=len(str1)+1
    n=len(str2)+1

    matrix=np.zeros(shape=(m,n))
# Filling the first row and column with 1,2,3,4,5... depending on the number of
# letters in each compared word
    for i in range(m):
    #Filling rows
        matrix[i][0]=i
    for j in range(n):
        matrix[0][j]=j


    for l in range(1,m):
        for k in range(1,n):
            if str1[l-1]==str2[k-1]:
            # print('strings letter',str1[l-1],'and',str2[k-1],'are the same!')
                matrix[l][k]=matrix[l-1][k-1]
            # print('the value in the matrix with position [',l,',',k,'] is then',matrix[l][k])
            else:
            # print('strings letter ',str1[l-1],'and',str2[k-1],'are different!')
                matrix[l][k]=min(matrix[l-1][k],matrix[l-1][k-1],matrix[l][k-1])+1
            # print('the value in the matrix with position [',l,',',k,'] is',matrix[l][k])
    print('The levenshtein distance is:', matrix[m-1][n-1])
    print(matrix)


In [7]:
levenshtein(str_probe1,str_probe2)

THE LEVENSHTEIN DISTANCE IS 3.0
[[0. 1. 2. 3. 4. 5. 6.]
 [1. 0. 1. 2. 3. 4. 5.]
 [2. 1. 1. 2. 3. 4. 5.]
 [3. 2. 2. 1. 2. 3. 4.]
 [4. 3. 3. 2. 2. 2. 3.]
 [5. 4. 4. 3. 2. 3. 3.]]


In [8]:
str_example1='Max Müller' 
str_example2='Max Mueller'
str_example3='M. Müller'
str_example4='Max Muller'
levenshtein(str_example1,str_example2)

THE LEVENSHTEIN DISTANCE IS 2.0
[[ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11.]
 [ 1.  0.  1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]
 [ 2.  1.  0.  1.  2.  3.  4.  5.  6.  7.  8.  9.]
 [ 3.  2.  1.  0.  1.  2.  3.  4.  5.  6.  7.  8.]
 [ 4.  3.  2.  1.  0.  1.  2.  3.  4.  5.  6.  7.]
 [ 5.  4.  3.  2.  1.  0.  1.  2.  3.  4.  5.  6.]
 [ 6.  5.  4.  3.  2.  1.  1.  2.  3.  4.  5.  6.]
 [ 7.  6.  5.  4.  3.  2.  2.  2.  2.  3.  4.  5.]
 [ 8.  7.  6.  5.  4.  3.  3.  3.  2.  2.  3.  4.]
 [ 9.  8.  7.  6.  5.  4.  4.  3.  3.  3.  2.  3.]
 [10.  9.  8.  7.  6.  5.  5.  4.  4.  4.  3.  2.]]


In [9]:
levenshtein(str_example2,str_example3)

THE LEVENSHTEIN DISTANCE IS 4.0
[[ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9.]
 [ 1.  0.  1.  2.  3.  4.  5.  6.  7.  8.]
 [ 2.  1.  1.  2.  3.  4.  5.  6.  7.  8.]
 [ 3.  2.  2.  2.  3.  4.  5.  6.  7.  8.]
 [ 4.  3.  3.  2.  3.  4.  5.  6.  7.  8.]
 [ 5.  4.  4.  3.  2.  3.  4.  5.  6.  7.]
 [ 6.  5.  5.  4.  3.  3.  4.  5.  6.  7.]
 [ 7.  6.  6.  5.  4.  4.  4.  5.  5.  6.]
 [ 8.  7.  7.  6.  5.  5.  4.  4.  5.  6.]
 [ 9.  8.  8.  7.  6.  6.  5.  4.  5.  6.]
 [10.  9.  9.  8.  7.  7.  6.  5.  4.  5.]
 [11. 10. 10.  9.  8.  8.  7.  6.  5.  4.]]


In [10]:
levenshtein(str_example3,str_example4)

THE LEVENSHTEIN DISTANCE IS 3.0
[[ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]
 [ 1.  0.  1.  2.  3.  4.  5.  6.  7.  8.  9.]
 [ 2.  1.  1.  2.  3.  4.  5.  6.  7.  8.  9.]
 [ 3.  2.  2.  2.  2.  3.  4.  5.  6.  7.  8.]
 [ 4.  3.  3.  3.  3.  2.  3.  4.  5.  6.  7.]
 [ 5.  4.  4.  4.  4.  3.  3.  4.  5.  6.  7.]
 [ 6.  5.  5.  5.  5.  4.  4.  3.  4.  5.  6.]
 [ 7.  6.  6.  6.  6.  5.  5.  4.  3.  4.  5.]
 [ 8.  7.  7.  7.  7.  6.  6.  5.  4.  3.  4.]
 [ 9.  8.  8.  8.  8.  7.  7.  6.  5.  4.  3.]]


In [11]:
levenshtein(str_example4,str_example1)

THE LEVENSHTEIN DISTANCE IS 1.0
[[ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]
 [ 1.  0.  1.  2.  3.  4.  5.  6.  7.  8.  9.]
 [ 2.  1.  0.  1.  2.  3.  4.  5.  6.  7.  8.]
 [ 3.  2.  1.  0.  1.  2.  3.  4.  5.  6.  7.]
 [ 4.  3.  2.  1.  0.  1.  2.  3.  4.  5.  6.]
 [ 5.  4.  3.  2.  1.  0.  1.  2.  3.  4.  5.]
 [ 6.  5.  4.  3.  2.  1.  1.  2.  3.  4.  5.]
 [ 7.  6.  5.  4.  3.  2.  2.  1.  2.  3.  4.]
 [ 8.  7.  6.  5.  4.  3.  3.  2.  1.  2.  3.]
 [ 9.  8.  7.  6.  5.  4.  4.  3.  2.  1.  2.]
 [10.  9.  8.  7.  6.  5.  5.  4.  3.  2.  1.]]


The values were checked with https://planetcalc.com/1721/, a online levenshtein distance calculator.