# Fuzzy string matching

U računarskim naukama, približno poklapanje niza ili reči (često kolokvijalno nazivano fuzzy pretraživanjem) je tehnika pronalaska nizova ili reči koje približno odgovaraju (a ne egzaktno) obrascu. Problem približnog poklapanja niza obično se deli na dva potproblema: pronalaženje približnih podudaranja podvrsta unutar određenog niza i pronalaženje nizova iz rečnika koji približno odgovaraju obrascu. Implementiran je prvi potproblem.


## Levenshtein distance

U lingvistici i računarskoj nauci, Levenštajnova udaljenost je metrika za izračunavanje razlike između dva niza. Neformalno, Levenštajnova udaljenost između dve reči je najmanji broj izmena s jednim znakom (umetanja, brisanja ili zamene) potrebnih za promenu jedne reči u drugu. Ime je dobila po sovjetskom matematičaru Vladimiru Levenštajnu, koji je razmatrao ovaj način računanja udaljenosti 1965. godine.


---

![alt text](https://github.com/bogdanbebic/FuzzyLevenshtein/blob/master/lev_dark.jpg?raw=true)

In [0]:
import numpy as np


def calculate_levenshtein_distance(str1, str2):
    rows = len(str1) + 1
    cols = len(str2) + 1
    distance = np.zeros((rows, cols), dtype=int)

    for i in range(1, rows):
        for j in range(1, cols):
            distance[i][0] = i
            distance[0][j] = j
  
    for row in range(1, rows):
        for col in range(1, cols):
            if str1[row - 1] == str2[col - 1]:
                cost = 0
            else:
                cost = 1
            distance[row][col] = min(distance[row-1][col] + 1,      # Cost of deletions
                                 distance[row][col-1] + 1,          # Cost of insertions
                                 distance[row-1][col-1] + cost)     # Cost of substitutions
    
    return distance[row][col]


![Lev distance algorithm](https://github.com/bogdanbebic/FuzzyLevenshtein/blob/master/lev_matrix_dark.jpg?raw=true)

## Levenshtein ratio

Levenštajnov odnos se izračunava po sledećoj formuli i predstavlja procentualnu metriku sličnosti dva niza ili reči.

In [0]:
def calculate_levenshtein_ratio(str1, str2):
    distance = calculate_levenshtein_distance(str1, str2)
    return (len(str1) + len(str2) - distance) / (len(str1) + len(str2))


## Neki test primeri

In [0]:
test_examples = [
    ("Saturday", "Sunday"), 
    ("Apple inc.", "apple Inc"), 
    ("13S053NM Neuralne mreže (SI)", "13E054NM Neuralne mreže")
]

for str1, str2 in test_examples:
    distance = calculate_levenshtein_distance(str1, str2)
    print(f'Edit distance for "{str1}" and "{str2}": {distance}')
    ratio = calculate_levenshtein_ratio(str1, str2)
    print(f'Levenshtein ratio for "{str1}" and "{str2}":\n{ratio}\n')


Edit distance for "Saturday" and "Sunday": 3
Levenshtein ratio for "Saturday" and "Sunday":
0.7857142857142857

Edit distance for "Apple inc." and "apple Inc": 3
Levenshtein ratio for "Apple inc." and "apple Inc":
0.8421052631578947

Edit distance for "13S053NM Neuralne mreže (SI)" and "13E054NM Neuralne mreže": 7
Levenshtein ratio for "13S053NM Neuralne mreže (SI)" and "13E054NM Neuralne mreže":
0.8627450980392157



In [0]:
str1 = "Saturday"
str2 = "Sunday"
distance = calculate_levenshtein_distance(str1, str2)
print(f'Edit distance for "{str1}" and "{str2}": {distance}')
ratio = calculate_levenshtein_ratio(str1, str2)
print(f'Levenshtein ratio for "{str1}" and "{str2}":\n{ratio}\n')

str1 = "Apple inc."
str2 = "apple Inc"
distance = calculate_levenshtein_distance(str1, str2)
print(f'Edit distance for "{str1}" and "{str2}": {distance}')
ratio = calculate_levenshtein_ratio(str1, str2)
print(f'Levenshtein ratio for "{str1}" and "{str2}":\n{ratio}\n')

str1 = "13S053NM Neuralne mreže (SI)"
str2 = "13E054NM Neuralne mreže"
distance = calculate_levenshtein_distance(str1, str2)
print(f'Edit distance for "{str1}" and "{str2}": {distance}')
ratio = calculate_levenshtein_ratio(str1, str2)
print(f'Levenshtein ratio for "{str1}" and "{str2}":\n{ratio}\n')



Edit distance for "Saturday" and "Sunday": 3
Levenshtein ratio for "Saturday" and "Sunday":
0.7857142857142857

Edit distance for "Apple inc." and "apple Inc": 3
Levenshtein ratio for "Apple inc." and "apple Inc":
0.8421052631578947

Edit distance for "13S053NM Neuralne mreže (SI)" and "13E054NM Neuralne mreže": 7
Levenshtein ratio for "13S053NM Neuralne mreže (SI)" and "13E054NM Neuralne mreže":
0.8627450980392157



## Primena za fuzzy string matching

Fuzzy string matching ima široku primenu u svim poljima softverskog inženjerstva koji rade sa prirodnim jezicima. Naime, ljudi često greše dok kucaju, pa je potrebno prepoznati ne samo tačno otkucane, već i približno tačno otkucane reči (fuzzyness) - razni spell checker-i i autocorrect-ovi, Google pretraga i autocomplete reči.

Na sledećem grafiku je prikazana prosečna Levenštajnova udaljenost kao funkcija od relativne pozicije u rečima za prepoznavanje grešaka u kucanju za tačno klasifikovane, pogrešno klasifikovane i normalizovane podatke.


![alt text](https://www.researchgate.net/profile/Abeed_Sarker/publication/325575544/figure/fig3/AS:634165225590785@1528208180222/Distribution-of-misspelling-frequencies-against-levenshtein-distance-illustrating-that.png)