Beispielcode des Levensthein Algorithmus zur Ermittlung der Änderungsdistanz zweier Wörter. Dies ist der Basisalgorithmus für eine spätere Autokorrektur-Implementierung.

In [1]:
import numpy as np

def levenshtein_distance(token1, token2):
    # Erstellen der Distanzmatrix
    distances = np.zeros((len(token1) + 1, len(token2) + 1))

    # Initialisieren der ersten Zeile und Spalte
    for t1 in range(len(token1) + 1):
        distances[t1][0] = t1
    for t2 in range(len(token2) + 1):
        distances[0][t2] = t2

    # Berechnen der Distanzen
    for t1 in range(1, len(token1) + 1):
        for t2 in range(1, len(token2) + 1):
            if token1[t1-1] == token2[t2-1]:
                cost = 0
            else:
                cost = 1
            distances[t1][t2] = min(distances[t1-1][t2] + 1,      # Einfügen
                                    distances[t1][t2-1] + 1,      # Löschen
                                    distances[t1-1][t2-1] + cost) # Ersetzen

    return distances[len(token1)][len(token2)]

# Beispielnutzung
wort1 = "Haus" # @param {type:"string"}
wort2 = "Maus" # @param {type:"string"}
print(f"Levenshtein-Distanz zwischen '{wort1}' und '{wort2}': {levenshtein_distance(wort1, wort2)}")


Levenshtein-Distanz zwischen 'Haus' und 'Maus': 1.0


---

- [ ] ***TODO: Ausgabe der Matrix mit den Distanzen***
- [ ] ***TODO: Wortliste herunterladen und benutzen***

---



Verwenden wir die Levenshtein Distanz für die Autovervollständigung

In [None]:
#import enchant


# Wortliste (z.B. eine Liste von Englisch-Wörtern)
word_list = ["apple", "banana", "carrot"]

def autocomplete(input_word):
    max_distance = 2  # maximale Abweichung
    distances = []
    for word in word_list:
        dist = levenshtein_distance(input_word, word)
        distances.append((word, dist))
    distances.sort(key=lambda x: x[1])
    return [word for word, dist in distances if dist <= max_distance]  # nur Wörter mit maximal 2-Stufen-Abweichung

input_word = "carr" # @param {type:"string"}
suggestions = autocomplete(input_word)
print(suggestions)  # ["carrot"]

['carrot']


Und nun machen wir eine Autokorrektur daraus

In [None]:
def autocorrect(input_word):
    distances = []
    for word in word_list:
        dist = levenshtein_distance(input_word, word)
        distances.append((word, dist))
    distances.sort(key=lambda x: x[1])
    return distances[0][0]  # das Wort mit der minimalen Distanz

input_word = "carrrot" # @param {type:"string"}
corrected_word = autocorrect(input_word)
print(corrected_word)  # "carrot"

carrot
