<h2>Расстояние Левенштейна</h2>

<i>Импорт библиотек</i>

In [97]:
from fuzzywuzzy import fuzz
from fuzzywuzzy import process
from Levenshtein import distance as lev

<i>Добавление функции Левенштейн</i>

In [33]:
def levenstein(str_1, str_2):
    n, m = len(str_1), len(str_2)
    if n > m:
        str_1, str_2 = str_2, str_1
        n, m = m, n

    current_row = range(n + 1)
    for i in range(1, m + 1):
        previous_row, current_row = current_row, [i] + [0] * n
        for j in range(1, n + 1):
            add, delete, change = previous_row[j] + 1, current_row[j - 1] + 1, previous_row[j - 1]
            if str_1[j - 1] != str_2[i - 1]:
                change += 1
            current_row[j] = min(add, delete, change)

    return current_row[n]


Первым будем реализовывать решение с помощью библиотеки fuzzywuzzy, вторым - с помощью библиотеки python-Levenshtein, третьим - с помощью нашей функции

<i>1. Самое обычное сравнение</i>

In [4]:
a = fuzz.ratio('Привет мир', 'Привет мир')
print(a)

100


In [14]:
a = fuzz.ratio('Привет мир', 'Привт кир')
print(a)

84


In [13]:
a = levenstein('Привет мир', 'Привет мир')
print(a)

0


In [15]:
a = levenstein('Привет мир', 'Привт кир')
print(a)

2


In [99]:
a = lev('Привет мир', 'Привет мир')
print(a)

0


In [98]:
a = lev('Привет мир', 'Привт кир')
print(a)

2


Библиотека fuzzywuzzy выводит процент сходства первой строки со второй, а функция levenstein выводит количество отличных знаков во второй строке в соотношении с первой строкой, библиотека lev так же выводит количество отличных знаков во второй строке в соотношении с первой строкой

<i>2. Частичное сравнение</i>

In [16]:
a = fuzz.partial_ratio('Привет мир', 'Привет мир!')
print(a)

100


In [17]:
a = fuzz.partial_ratio('Привет мир', 'Люблю колбасу, Привет мир')
print(a)

100


In [18]:
a = fuzz.partial_ratio('Привет мир', 'Люблю колбасу, привет мир')
print(a) 

90


In [104]:
def levenstein(str_1, str_2):
    n, m = len(str_1), len(str_2)
    if n > m:
        str_1, str_2 = str_2, str_1
        n, m = m, n

    current_row = range(n + 1)
    for i in range(1, m + 1):
        previous_row, current_row = current_row, [i] + [0] * n
        for j in range(1, n + 1):
            add, delete, change = previous_row[j] + 1, current_row[j - 1] + 1, previous_row[j - 1]
            if str_1[j - 1] != str_2[i - 1]:
                change += 1
            current_row[j] = min(add, delete, change)

    similarity = 0 if n == m and current_row[n] == 0 else current_row[n]

    return similarity

result = levenstein('Привет мир', 'Привет мир!')
print(result)

1


In [95]:
def levenstein(str_1, str_2):
    n, m = len(str_1), len(str_2)
    if n > m:
        str_1, str_2 = str_2, str_1
        n, m = m, n

    current_row = range(n + 1)
    for i in range(1, m + 1):
        previous_row, current_row = current_row, [i] + [0] * n
        for j in range(1, n + 1):
            add, delete, change = previous_row[j] + 1, current_row[j - 1] + 1, previous_row[j - 1]
            if str_1[j - 1] != str_2[i - 1]:
                change += 1
            current_row[j] = min(add, delete, change)

    similarity = 0 if n == m and current_row[n] == 0 else current_row[n]

    return similarity

result = levenstein('Привет мир', 'Люблю колбасу, Привет мир')
print(result)

15


In [96]:
def levenstein(str_1, str_2):
    n, m = len(str_1), len(str_2)
    if n > m:
        str_1, str_2 = str_2, str_1
        n, m = m, n

    current_row = range(n + 1)
    for i in range(1, m + 1):
        previous_row, current_row = current_row, [i] + [0] * n
        for j in range(1, n + 1):
            add, delete, change = previous_row[j] + 1, current_row[j - 1] + 1, previous_row[j - 1]
            if str_1[j - 1] != str_2[i - 1]:
                change += 1
            current_row[j] = min(add, delete, change)

    similarity = 0 if n == m and current_row[n] == 0 else current_row[n]

    return similarity

result = levenstein('Привет мир', 'Люблю колбасу, привет мир')
print(result)

16


In [103]:
a = lev('Привет мир', 'Привет мир!')
print(a)

1


Библиотека fuzzywuzzy выводит процент частичного сходства первой строки со второй, а функция levenstein выводит количество отличных символов, как и lev

<i>3. Сравнение по токену</i>

<i>1) Token Sort Ratio</i>

In [22]:
a = fuzz.token_sort_ratio('Привет наш мир', 'мир наш Привет')
print(a)

100


In [23]:
a = fuzz.token_sort_ratio('Привет наш мир', 'мир наш любимый Привет')
print(a)

78


In [24]:
a = fuzz.token_sort_ratio('1 2 Привет наш мир', '1 мир наш 2 ПриВЕт')
print(a)

100


In [94]:
def token_sort_ratio_l(str_1, str_2):
    tokens_1 = sorted(str_1.split())
    tokens_2 = sorted(str_2.split())

    ratio = levenstein(' '.join(tokens_1), ' '.join(tokens_2))
    return ratio
a = token_sort_ratio_l('Привет наш мир', 'мир наш Привет')
print(a)

0


In [92]:
a = token_sort_ratio_l('Привет наш мир', 'мир наш любимый Привет')
print(a)

8


In [93]:
a = token_sort_ratio_l('1 2 Привет наш мир', '1 мир наш 2 ПриВЕт')
print(a)

2


<i>2) Token Set Ratio</i>

In [28]:
a = fuzz.token_set_ratio('Привет наш мир', 'мир мир наш наш наш ПриВЕт')
print(a)

100


In [60]:
def token_set_ratio(str_1, str_2):
    tokens_1 = set(str_1.split())
    tokens_2 = set(str_2.split())

    ratio = levenstein(' '.join(tokens_1), ' '.join(tokens_2))
    return ratio

a = token_set_ratio('Привет наш мир', 'мир мир наш наш наш ПриВЕт')
print(a)

2


В библиотеке fuzzywuzzy слова сравниваются друг с другом, независимо от регистра или порядка, а функция levenstein выводит количество различных символов при сравнении слов друг с другом независимо от регистра и порядка.

<i>4. Продвинутое обычное сравнение</i>

In [39]:
a = fuzz.WRatio('Привет наш мир', '!ПриВЕт наш мир!')
print(a)

100


In [40]:
a = fuzz.WRatio('Привет наш мир', '!ПриВЕт, наш мир!')
print(a)

97


In [68]:
def WRatio(str_1, str_2):
    str_1 = str_1.lower()
    str_2 = str_2.lower()

    ratio = levenstein(str_1, str_2)
    return ratio

a = WRatio('Привет наш мир', '!ПриВЕт наш мир!')
print(a)

2


In [70]:
def WRatio(str_1, str_2):
    str_1 = str_1.lower()
    str_2 = str_2.lower()

    ratio = levenstein(str_1, str_2)
    return ratio

a = WRatio('Привет наш мир', '!ПриВЕт, наш мир!')
print(a)

3


Библиотека fuzzywuzzy выводит процент частичного сходства первой строки со второй, а функция levenstein выводит количество отличных символов

<i>5. Работа со списком</i>

In [42]:
city = ["Москва", "Санкт-Петербург", "Саратов", "Краснодар", "Воронеж", "Омск", "Екатеринбург", "Орск", "Красногорск", "Красноярск", "Самара"]
a = process.extract("Саратов", city, limit=2)
print(a)

[('Саратов', 100), ('Самара', 62)]


In [43]:
city = ["Москва", "Санкт-Петербург", "Саратов", "Краснодар", "Воронеж", "Омск", "Екатеринбург", "Орск", "Красногорск", "Красноярск", "Самара"]
a = process.extractOne("Краногрск", city)
print(a)

('Красногорск', 90)


Для нашего кода не работает