In [1]:
from jellyfish import damerau_levenshtein_distance

In [2]:
file_name = "universities.txt"
with open(file_name, encoding="utf-8") as file_in:
    universities = file_in.read().splitlines()
universities[:10]

['Автономная некоммерческая организация высшего образования "Национальный институт бизнеса"',
 'Адыгейский государственный университет',
 'Академия акварели и изящных искусств Сергея Андрияки',
 'Академия государственной противопожарной службы Министерства Российской Федерации по делам гражданской обороны, чрезвычайным ситуациям и ликвидации последствий стихийных бедствий',
 'Академия гражданской защиты МЧС России',
 'Академия маркетинга и социально-информационных технологий',
 'Академия права и управления Федеральной службы исполнения наказаний',
 'Академия русского балета им. А. Я. Вагановой',
 'Академия социального образования',
 'Академия социального управления']

In [3]:
len(universities)

757

In [4]:
file_name = "queries.txt"
with open(file_name, encoding="utf-8") as file_in:
    queries = file_in.read().splitlines()
queries[:10]

['Северо-западный Государственнмй Медицинский Университет Имени И. И. Мечникова',
 'ННоорсосийский яПттигорского годарсэвенного унивеситета',
 'Ростовский Институт Дащт Прехпринниматея',
 'сАНКТ-пЕтербУГГсКиЙ ГОСУДАРСТВЕННЫЙ АКАДЕМИЧЕСКИЙ ИНСТиТУт живописИ, СКУЛЬПТУЫР И АРХИТЕкТуРЫ ИМЕНИ И.Е. РЕПИНА',
 'Санкт-Петербургская духовная академия',
 'Тихоокеанскийй гсударственный медицинский уыивеерситгт',
 'Пеерский нционшльный иисследвательский политехнический унивреситет',
 'Казанский Национальный Исследовательский Технически йУниверситет Им Антуполева-аи',
 'РОССИЙСКИЙ ГОУДАРСТВЕННЫЙ  АГРАРНЫЙ УНИВЕРСИТЕТ - МСХА МЕНИК .А. ТМИИРЯЗЕВА',
 'Дзержинский Филиал Нижегородскгоо Государственного Университета Имени Ни Лобачевского']

In [5]:
len(queries)

10000

In [6]:
file_name = "universities.txt"
with open(file_name, encoding="utf-8") as file_in:
    unique1 = set(file_in.read())
print(sorted(unique1))

['\n', ' ', '"', '(', ')', ',', '-', '.', 'I', 'c', '«', '»', 'А', 'Б', 'В', 'Г', 'Д', 'Е', 'Ж', 'З', 'И', 'К', 'Л', 'М', 'Н', 'О', 'П', 'Р', 'С', 'Т', 'У', 'Ф', 'Х', 'Ц', 'Ч', 'Ш', 'Щ', 'Э', 'Ю', 'Я', 'а', 'б', 'в', 'г', 'д', 'е', 'ж', 'з', 'и', 'й', 'к', 'л', 'м', 'н', 'о', 'п', 'р', 'с', 'т', 'у', 'ф', 'х', 'ц', 'ч', 'ш', 'щ', 'ы', 'ь', 'э', 'ю', 'я', 'ё', '–', '—']


In [7]:
def normalize_university_name(name: str) -> str:
    return name.lower().translate(str.maketrans('', '', '(),«»"-–—'))

In [8]:
universities_normalized = {normalize_university_name(name): name for name in universities}
sorted(universities_normalized.keys())[:10]

['автономная некоммерческая организация высшего образования национальный институт бизнеса',
 'адыгейский государственный университет',
 'академия акварели и изящных искусств сергея андрияки',
 'академия государственной противопожарной службы министерства российской федерации по делам гражданской обороны чрезвычайным ситуациям и ликвидации последствий стихийных бедствий',
 'академия гражданской защиты мчс россии',
 'академия маркетинга и социальноинформационных технологий',
 'академия права и управления федеральной службы исполнения наказаний',
 'академия русского балета им. а. я. вагановой',
 'академия социального образования',
 'академия социального управления']

In [9]:
unique2 = {char for name in universities_normalized for char in name}
print(sorted(unique2))

[' ', '.', 'c', 'i', 'а', 'б', 'в', 'г', 'д', 'е', 'ж', 'з', 'и', 'й', 'к', 'л', 'м', 'н', 'о', 'п', 'р', 'с', 'т', 'у', 'ф', 'х', 'ц', 'ч', 'ш', 'щ', 'ы', 'ь', 'э', 'ю', 'я', 'ё']


In [10]:
def find_match(s1: str) -> str:
            s1 = normalize_university_name(s1)
            result = ""
            mnd = 1000
            for s2 in universities_normalized.keys():
                d = damerau_levenshtein_distance(s1, s2)
                if mnd > d:
                    mnd = d
                    result = s2
            return universities_normalized[result]

In [11]:
matches = []
for query in queries[:10]:
    matches.append(find_match(query))
matches[:10]

['Северо-Западный государственный медицинский университет им. И. И. Мечникова',
 'Новороссийский филиал Пятигорского государственного университета',
 'Ростовский институт защиты предпринимателя',
 'Санкт-Петербургский государственный академический институт живописи, скульптуры и архитектуры имени И. Е. Репина',
 'Санкт-Петербургская юридическая академия',
 'Тихоокеанский государственный медицинский университет',
 'Пермский национальный исследовательский политехнический университет',
 'Казанский национальный исследовательский технический университет им. А.Н.Туполева-КАИ',
 'Российский государственный аграрный университет - МСХА имени К.А. Тимирязева',
 'Дзержинский филиал Нижегородского государственного университета им. Н.И. Лобачевского']

In [None]:
file_name = "matches.txt"
with open(file_name, "w", encoding="utf-8") as file_out:
    file_out.write("\n".join(matches))