## GeoNames


## Описание проекта:
### Цель исследования:
Cопоставление гео-названий с унифицированными именами GeoNames для внутреннего использования Карьерным центром Яндекс Практикума.


### Задачи:

- Создать решение для подбора наиболее подходящих названий с GeoNames. Например, Ереван -> Yerevan.

- На примере РФ и стран наиболее популярных для релокации - Беларусь, Армения, Казахстан, Кыргызстан, Турция, Сербия. Города с населением от 15000 человек (с возможностью масштабирования на сервере заказчика).

- Возвращаемые поля geonameid, name, region, country, cosine similarity.

- Формат данных на выходе: список словарей, например [{dict_1}, {dict_2}, …. {dict_n}] где словарь - одна запись с указанными полями.


### Исходные данные:

Используемые таблицы [GeoNames](https://download.geonames.org/export/dump/) и их описание:

- `cities15000.txt` - все города с населением > 15 000 или столицы (около 25 000), столбцы см. в таблице `geoname`;

- `admin1CodesASCII.txt` - названия на английском языке для административных подразделений. Столбцы: `code, name, name ascii, geonameid`;

- `alternateNamesV2.zip` - альтернативные имена с кодами языков и `geonameId`, файл с кодами языков ISO, с новыми столбцами от и до;

- `countryInfo.txt` - информация о стране: iso codes, fips codes, languages, capital,...;

- `geo_test.csv` - тестовый датасет для проверки нашей модели.


In [1]:
#!pip install SQLAlchemy
#!pip install --pre SQLAlchemy
#!pip install psycopg2
#!pip install googletrans==3.1.0a0
#!pip install sentence-transformers
#!pip install fuzzywuzzy
#!pip install -r requirements_notebook.txt

In [2]:
import numpy as np
import pandas as pd
import googletrans
import sqlalchemy as sa
import psycopg2 as ps

In [3]:
from sentence_transformers import SentenceTransformer, losses, InputExample, util
from torch.utils.data import DataLoader
from fuzzywuzzy import fuzz, process
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from scipy.spatial import distance
from sqlalchemy import create_engine, text
from sqlalchemy.engine.url import URL
from psycopg2.extensions import ISOLATION_LEVEL_AUTOCOMMIT
from googletrans import Translator



Нам необходимо создать механизм сопоставления произвольных географических названий с унифицированными именами из `GeoNames` для внутреннего использования Карьерным центром Яндекс Практикума. У нас уже есть база данных на сервере, и чтобы обеспечить масштабируемость решения, мы планируем создать собственную базу данных с помощью библиотеки `sqlalchemy`. Эта библиотека позволяет нам описывать структуру баз данных и взаимодействовать с ними на языке Python, без необходимости использования SQL.

In [4]:
DATABASE = {
    'drivername': 'postgresql',
    'username': 'postgres', 
    'password': '369963', 
    'host': 'localhost',
    'port': 5432,
    'database': 'postgres',
    'query': {}
}  

Создаем базу данных PostgreSQL:

In [5]:
# Выполнение соединения
connection = ps.connect(user="postgres", password="369963")
connection.set_isolation_level(ISOLATION_LEVEL_AUTOCOMMIT)

# Создание курсора
cursor = connection.cursor()

# Создаем БД
#sql_create_database = cursor.execute('create database data_base')

# Закрываем соединение
cursor.close()
connection.close()

Для реализации объекта движка (Engine) в процессе разработки используется специальная функция create_engine() из библиотеки sqlalchemy. Эта функция предоставляет базовый функционал и позволяет принимать только строку подключения или, как альтернативу, через конструкцию URL(**DATABASE).

In [6]:
# engine = create_engine('postgresql://postgres:369963@localhost:5432/postgres')
engine = create_engine(URL(**DATABASE))

  engine = create_engine(URL(**DATABASE))


In [7]:
engine.connect()
print(engine)

Engine(postgresql://postgres:***@localhost:5432/postgres)


Соединение выполнено, начиинаем выгрузку таблиц.

Основными местами релокации специалистов стали соседние страны - Беларусь, Армения, Казахстан, Кыргызстан, Турция, Сербия (эти страны также указаны в ТЗ), соответственно, включаем Россию тоже. Далее будем работать с этими странами.

In [8]:
RELOC = ['RU', 'BY', 'AM', 'KZ', 'KG', 'TR', 'RS']

####  cities15000

Загрузим таблицу, в которой содержатся данные о городах с населением, превышающем 15 тысяч человек, с учетом заданных условий для потенциальной релокации.

In [9]:
cities_15000 = pd.read_table('D:/DS/M2_Geonames/info/data/cities15000.txt',
                     sep='\t', 
                     header=None,
                     names=[
                         'geonameid', 
                         'name', 
                         'name_ascii',
                         'alternate_names',
                         'latitude',
                         'longitude',
                         'feature_class',
                         'feature_code',
                         'country_code',
                         'cc2','admin1_code',
                         'admin2_code',
                         'admin3_code',
                         'admin4_code',
                         'population',
                         'elevation',
                         'dem',
                         'timezone',
                         'modification_date'],
                    usecols=[
                        'geonameid',
                        'name',
                        'name_ascii',
                        'alternate_names',
                        'country_code',
                        'admin1_code',
                        'population'
                    ]).dropna()

cities_reloc = cities_15000.query('country_code in @RELOC')
cities_reloc.sample(5)

Unnamed: 0,geonameid,name,name_ascii,alternate_names,country_code,admin1_code,population
20699,546521,Kol’chugino,Kol'chugino,"Kellerovo,Kol'chugino,Koltschugino,Koltsjugino...",RU,83,45912
16255,1518518,Talghar,Talghar,"Talgar,Talghar,Талгар,Талғар",KZ,1,42194
20625,536164,Tsaritsyno,Tsaritsyno,"Caricino,Caricyno,Imeni Chkalova V.P.,Imeni V....",RU,48,123000
16271,1520172,Petropavl,Petropavl,"Kizilyar,Kızılyar,PPK,Petropavel,Petropavl,Pet...",KZ,16,200920
20335,490466,Sortavala,Sortavala,"Sordavala,Sordovala,Sorravala,Sortaval,Sortava...",RU,28,20760


In [10]:
print('Количество городов после фильтрации: ', cities_reloc.shape[0])
print('Количество городов (уникальные): ', cities_reloc.name.nunique())

Количество городов после фильтрации:  1692
Количество городов (уникальные):  1667


В целях обеспечения более эффективной обработки данных, произведем объединение списков с альтернативными названиями в одну колонку и проведем очистку данных от дубликатов. Кроме того, мы также удалим явные дублирующиеся строки для повышения качества и точности данных.

In [11]:
cities_reloc['alternate_names'] = cities_reloc['alternate_names'].str.split(',')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cities_reloc['alternate_names'] = cities_reloc['alternate_names'].str.split(',')


In [12]:
cities_reloc = cities_reloc.explode('alternate_names').drop_duplicates(subset=['name', 'alternate_names'])

In [13]:
cities_reloc = cities_reloc.query('name != alternate_names')

In [14]:
cities_reloc.head

<bound method NDFrame.head of        geonameid             name         name_ascii alternate_names  \
94        174875            Kapan              Kapan         Ghap'an   
94        174875            Kapan              Kapan          Ghapan   
94        174875            Kapan              Kapan         Ghap’an   
94        174875            Kapan              Kapan           Kafan   
94        174875            Kapan              Kapan           Kafin   
...          ...              ...                ...             ...   
22600    6354985  güngören merter  guengoeren merter          Merter   
22602    6692524        Sarigerme          Sarigerme       Саригерме   
22605    6947640       Beylikdüzü       Beylikduezue      Beylikduzu   
22607    6955677          Çankaya            Cankaya         Cankaya   
22613    8074174        Muratpaşa          Muratpasa       Muratpasa   

      country_code admin1_code  population  
94              AM          08       33160  
94             

Выполним подсчёт вспомогательного столбца для связи с таблицей `admin1CodesASCII` по двум уже имеющимся

In [15]:
cities_reloc['code'] = cities_reloc.country_code + '.' + cities_reloc.admin1_code
cities_reloc = cities_reloc.drop('admin1_code', axis=1)

In [16]:
cities_reloc.shape

(22722, 7)

In [17]:
cities_reloc.sample(5)

Unnamed: 0,geonameid,name,name_ascii,alternate_names,country_code,population,code
20280,480562,Tula,Tula,Tul,RU,482873,RU.76
22364,315368,Erzurum,Erzurum,ارض روم,TR,767848,TR.25
20721,548652,Kimry,Kimry,kymry,RU,52070,RU.77
22256,300619,Sivas,Sivas,sywas,TR,264022,TR.58
21050,1498894,Miass,Miass,Miasas,RU,167500,RU.13


Была выполнена загрузка файла данных в датафрейм, после чего произведено фильтрование данных для выбранных стран. Далее был расширен столбец с альтернативными названиями, чтобы каждое название занимало отдельную строку в столбце. Затем произведена очистка датафрейма от дубликатов и совпадающих значений в столбцах с названиями и альтернативными названиями. В завершение операции, полученный результат будет выгружен в созданную базу данных.

#### admin1CodesASCII

In [18]:
admin_codes = pd.read_table('D:/DS/M2_Geonames/info/data/admin1CodesASCII.txt',
                     sep='\t',
                     header=None,
                     names=[
                         'code', 
                         'region', 
                         'name_ascii', 
                         'geonameid'
                     ])

In [19]:
admin_codes.sample(5)

Unnamed: 0,code,region,name_ascii,geonameid
2765,RU.73,Tatarstan Republic,Tatarstan Republic,484048
753,DE.16,Berlin,Berlin,2950157
3,AD.03,Encamp,Encamp,3040684
2035,MK.46,Kochani,Kochani,863865
3017,SI.53,Kranjska Gora,Kranjska Gora,3239105


In [20]:
admin_codes.shape

(3881, 4)

Для анализа совпадений кодов стран в таблице городов мы установим условие, используя пять случайно выбранных строк из предыдущих данных

In [21]:
admin_codes.query('code in ("PR.083", "NL.09", "SI.N8", "YT.97610", "MV.46")')

Unnamed: 0,code,region,name_ascii,geonameid
2228,MV.46,Thaa Atholhu,Thaa Atholhu,1281881
2391,NL.09,Utrecht,Utrecht,2745909
2612,PR.083,Las Marías,Las Marias,4565961
3096,SI.N8,Žužemberk,Zuzemberk,3344909
3844,YT.97610,Koungou,Koungou,7521430


Значения случайно выбранных кодов совпало в двух анализируемых таблицах. В дальнейшей работе из этих данных будем использовать регионы.

#### alternateNamesV2

In [22]:
alter_names = pd.read_table('D:/DS/M2_Geonames/info/data/alternateNamesV2.txt', 
                     low_memory=False,
                     header=None,
                     names=[
                         'alternate_name_id',
                         'geonameid',
                         'alternate_lang',
                         'alternate_names',
                         'is_preferred_name',
                         'is_short_name',
                         'is_colloquial',
                         'is_historic',
                         'use_from',
                         'use_to'
                     ],
                    usecols=[
                        'alternate_name_id',
                        'geonameid',
                        'alternate_lang',
                        'alternate_names',
                        'alternate_names']
                    )

In [23]:
print(alter_names.shape)
alter_names.sample(3)

(16051360, 4)


Unnamed: 0,alternate_name_id,geonameid,alternate_lang,alternate_names
7097177,1920407,2522857,nl,Tricase
9237306,8948784,8873402,,Tziltzapollo
10306652,9792841,9476442,no,Søre Borgen


#### countryInfo

In [24]:
country_info = pd.read_table('D:/DS/M2_Geonames/info/data/countryInfo.txt', 
                     header=None, 
                     names=[
                         'country_code', 
                         'iso_3', 
                         'iso_numeric',
                         'fips',
                         'country',
                         'capital',
                         'area',
                         'population',
                         'continent',
                         'tld',
                         'currency_code',
                         'currency_name',
                         'phone',
                         'postal_code_format',
                         'postal_code_regex',
                         'languages',
                         'geonameid',
                         'neighbours',
                         'equivalent_fips_code'],
                    usecols=[
                        'geonameid',
                        'country_code',
                        'country',
                        'area',
                        'languages',
                        'population'
                    ])

In [25]:
print(country_info.shape)
country_info.sample(5)

(302, 6)


Unnamed: 0,country_code,country,area,population,languages,geonameid
115,EH,Western Sahara,266000,273008,"ar,mey",2461445
248,SE,Sweden,449964,10183175,"sv-SE,se,sma,fi-SE",2661886
120,FJ,Fiji,18270,883483,"en-FJ,fj",2205218
163,JP,Japan,377835,126529100,ja,1861060
144,HK,Hong Kong,1092,7451000,"zh-HK,yue,zh,en",1819730


#### iso-languagecodes

In [26]:
language_codes = pd.read_table('D:/DS/M2_Geonames/info/data/iso-languagecodes.txt',
                     header=None, 
                     names=[
                         'iso_639_3', 
                         'iso_639_2', 
                         'iso_639_1',
                         'language_name'
                     ])

In [27]:
language_codes.sample(3)

Unnamed: 0,iso_639_3,iso_639_2,iso_639_1,language_name
6282,tbn,,,Barro Negro Tunebo
5852,sgj,,,Surgujia
4053,mhg,,,Margu


#### geo_test

In [28]:
geo_test = pd.read_csv('D:/DS/M2_Geonames/info/data/geo_test.csv', sep=';')
geo_test.sample(5)

Unnamed: 0,query,name,region,country
307,Воскресенск,Voskresensk,Moscow Oblast,Russia
51,Белгород,Belgorod,Belgorod Oblast,Russia
191,Братск,Bratsk,Irkutsk Oblast,Russia
218,Каракол,Karakol,Issyk-Kul,Kyrgyzstan
23,Уфа,Ufa,Bashkortostan Republic,Russia


**Загрузка таблиц в БД PostgreSQL**

In [29]:
#cities_reloc.to_sql('cities_reloc', con=engine)
#admin_codes.to_sql('admin_codes_ascii', con=engine)
#alter_names.to_sql('alternate_names', con=engine)
#country_info.to_sql('country_info', con=engine)
#language_codes.to_sql('iso_language_codes', con=engine)
#geo_test.to_sql('geo_test', con=engine)

Убедимся в правильности работы соединения с БД

In [30]:
pd.read_sql(sql=text("SELECT * FROM cities_reloc WHERE name = 'Kazan' LIMIT 10"), con=engine.connect())

Unnamed: 0,index,geonameid,name,name_ascii,alternate_names,country_code,population,code
0,20731,551487,Kazan,Kazan,Casanum,RU,1243500,RU.73
1,20731,551487,Kazan,Kazan,Caza,RU,1243500,RU.73
2,20731,551487,Kazan,Kazan,Cazã,RU,1243500,RU.73
3,20731,551487,Kazan,Kazan,KZN,RU,1243500,RU.73
4,20731,551487,Kazan,Kazan,Kaasan,RU,1243500,RU.73
5,20731,551487,Kazan,Kazan,Kasa,RU,1243500,RU.73
6,20731,551487,Kazan,Kazan,Kasan,RU,1243500,RU.73
7,20731,551487,Kazan,Kazan,Kasã,RU,1243500,RU.73
8,20731,551487,Kazan,Kazan,Kazan',RU,1243500,RU.73
9,20731,551487,Kazan,Kazan,Kazan' osh,RU,1243500,RU.73


Приступим к дальнейшей работе

## CountVectorizer

Решение вопросов в задачах подобного типа начинают с основных терминов, таких как `Сходство Жаккара (Jaccard similarity)`, `Алгоритм шинглов (Shingling algorithm)` и `Растояние Левенштейна (Levenshtein Distance)`.

`CountVectorizer` - это модуль в библиотеке `scikit-learn` для извлечения признаков из текста. Он преобразует текстовые документы в матрицу, где каждый столбец представляет отдельное слово, а каждая строка представляет документ. Значение ячейки в матрице указывает, сколько раз данное слово встретилось в данном документе. `CountVectorizer` позволяет представить текст в виде численных данных, которые можно использовать для обучения моделей машинного обучения.

In [31]:
corp = pd.read_sql(sql=text("SELECT alternate_names FROM cities_reloc WHERE name = 'Kaliningrad'"), con=engine.connect())

In [32]:
corp_all = pd.read_sql(sql=text("SELECT alternate_names FROM cities_reloc"), con=engine.connect())

Сформируем корпуса слов, первый в рамках однго города и второй состоящий из всех альтернативных названий всех городов

In [33]:
corpus = corp.alternate_names.values.tolist()

In [34]:
corp_all = corp_all.alternate_names.values.tolist()

In [35]:
len(corpus), len(corp_all)

(56, 22722)

In [36]:
names = cities_reloc.name.drop_duplicates().values

Создадим запрос

In [37]:
query = 'Калининград'

In [38]:
vectorizer = CountVectorizer(analyzer='char',  strip_accents='unicode', ngram_range=(1, 3),
                             lowercase=True)

In [39]:
def word_count_vectorizer(city, alternatives, n=5):
    vectorizer.fit(alternatives)
    query_vector = vectorizer.transform([city]).toarray()[0]
    word_count_vec = {}
    for word in alternatives:
        word_vector = vectorizer.transform([word]).toarray()[0]
        cosine_similarity = 1 - distance.cosine(word_vector, query_vector)
        if cosine_similarity > 0.60:
            word_count_vec[word] = word, round(cosine_similarity, 3)
    result = []
    for word in word_count_vec.values():  
        result.append(word)
    
    result.sort(key=lambda x: x[1], reverse=True)
    if n < len(word_count_vec):
        return [result[word] for word in range(1, n+1)]
    else:
        n = len(word_count_vec)
        return [result[word] for word in range(n)]

In [40]:
word_count_vectorizer(query, corp_all)

[('Калињинград', 0.835),
 ('Калинин', 0.828),
 ('Сталинград', 0.783),
 ('Ленинград', 0.764),
 ('Калининск', 0.746)]

После проведения токенизации текстовых названий и подсчета частоты встречаемости каждого токена, мы произвели преобразование альтернативных названий. Затем мы рассчитали косинусное сходство между каждым названием и используя это расстояние, определили наиболее подходящие названия в порядке убывания. Описанный алгоритм показал хорошие результаты, для правильно написанного города "Ростов-на-Дону" было найдено 5 объекта. Далее мы проверили работу алгоритма с ошибками в запросах. Создадим тестовый набор с ошибками в наименовании городов на русском языке:

In [41]:
test_list = ['Ростов в Доне', 'Казаань', 'Колинингрод', 'Масква', 'Сант Питерсбург']

In [42]:
for item in test_list:
    print(item, word_count_vectorizer(item, corp_all))
    print(100*'*')

Ростов в Доне [('Ростов на Дону', 0.809), ('Ростов', 0.723), ('Донын Ростов', 0.722), ('Дондохи Ростов', 0.704), ('Дондағы Ростов', 0.674)]
****************************************************************************************************
Казаань [('Казан', 0.836), ('Казань ош', 0.736), ('Казањ', 0.724), ('Азак', 0.692), ('Қазан', 0.669)]
****************************************************************************************************
Колинингрод [('Калининград', 0.684), ('Калинин', 0.629)]
****************************************************************************************************
Масква [('Маскав', 0.765), ('Москва', 0.689), ('Маскасола', 0.666), ('Новамаскоўск', 0.629), ('Расказава', 0.606)]
****************************************************************************************************
Сант Питерсбург [('Санкт Петербург', 0.695), ('Санкт Петерзбург', 0.674), ('Санкт-Петербург', 0.611)]
********************************************************************************

Создадим тестовый набор с ошибочными названиями городов на английскм языке:

In [43]:
test_list_en = ['Sant Piterburg', 'Mognitogarsk',  'Krosnadar',  'Khobarovsk',  'Odintsogo']

In [44]:
for item in test_list_en:
    print(item, word_count_vectorizer(item, names))
    print(100*'*')

Sant Piterburg [('Saint Petersburg', 0.729)]
****************************************************************************************************
Mognitogarsk [('Magnitogorsk', 0.763)]
****************************************************************************************************
Krosnadar [('Krasnodar', 0.643)]
****************************************************************************************************
Khobarovsk [('Khabarovsk', 0.806), ('Khabarovsk Vtoroy', 0.718), ('Kirovsk', 0.643)]
****************************************************************************************************
Odintsogo [('Odintsovo', 0.833), ('Bogoroditsk', 0.639)]
****************************************************************************************************


`CountVectorizer` имеет некоторые ограничения, связанные с его пониманием семантики. Он обрабатывает каждый токен отдельно, без учета семантических связей. Попробуем провести анализ с использованием `TfidfVectorizer`.

## TfidfVectorizer

`TfidfVectorizer (Tf-idf Vectorizer)` - это модуль в библиотеке `scikit-learn` для извлечения информационного отношения между словами в текстовом корпусе. Он представляет текстовые данные в виде матрицы, используя векторное представление на основе `TF-IDF (Term Frequency-Inverse Document Frequency)`.

`TF-IDF` - это статистическая мера, используемая для оценки важности слов в документе внутри коллекции документов. Она учитывает как частоту слова в документе (`TF - Term Frequency`), так и обратную частоту слова во всей коллекции документов (`IDF - Inverse Document Frequency`). Это позволяет выделить наиболее информативные слова, которые характерны для конкретного документа и имеют низкую частоту в других документах.

In [45]:
vectorizer_tfidf = TfidfVectorizer(analyzer='char',ngram_range=(1, 2))

In [46]:
def word_tfidf_vectorizer(city, alternatives, n=5):
    # Преобразование корпуса
    vectorizer_tfidf.fit(alternatives)
    query_vector_tfidf = vectorizer_tfidf.transform([city]).toarray()[0]
    word_count_vec_tfidf = {}
    for word in alternatives:
        word_vector_tfidf = vectorizer_tfidf.transform([word]).toarray()[0]
        cosine_similarity_tfidf = 1 - distance.cosine(word_vector_tfidf, query_vector_tfidf)
    
        if cosine_similarity_tfidf > 0.60:
            word_count_vec_tfidf[word] = round(cosine_similarity_tfidf, 3)

    result_tfidf = sorted(word_count_vec_tfidf.items(), key=lambda x: x[1], reverse=True)

    if n < len(word_count_vec_tfidf):
        return [result_tfidf[i] for i in range(n)]
    else:
        return [result_tfidf[i] for i in range(len(word_count_vec_tfidf))]

In [47]:
word_tfidf_vectorizer(query, corp_all)

[('Калининград', 1),
 ('Сталинград', 0.806),
 ('Ленинград', 0.8),
 ('Калинин', 0.798),
 ('Калињинград', 0.77)]

In [48]:
for item in test_list:
    print(item, word_tfidf_vectorizer(item, corp_all))
    print(100*'*')

Ростов в Доне [('Ростов на Дон', 0.795), ('Ростов на Дону', 0.758), ('Ростов', 0.606)]
****************************************************************************************************
Казаань [('Казань', 0.912), ('Казан', 0.81), ('Казань ош', 0.685), ('Азак', 0.642), ('Козань', 0.637)]
****************************************************************************************************
Колинингрод [('Калининград', 0.739), ('Калинин', 0.642), ('Ленинград', 0.628)]
****************************************************************************************************
Масква [('Масква', 1), ('Москва', 0.712), ('Маскав', 0.69), ('Уква', 0.619), ('Маскасола', 0.608)]
****************************************************************************************************
Сант Питерсбург [('Санкт Петербург', 0.706), ('Санкт Петерзбург', 0.664)]
****************************************************************************************************


In [49]:
for item in test_list_en:
    print(item, word_tfidf_vectorizer(item, names))
    print(100*'*')

Sant Piterburg [('Saint Petersburg', 0.713)]
****************************************************************************************************
Mognitogarsk [('Magnitogorsk', 0.782)]
****************************************************************************************************
Krosnadar [('Krasnodar', 0.657), ('Adana', 0.603)]
****************************************************************************************************
Khobarovsk [('Khabarovsk', 0.742), ('Obukhovo', 0.614)]
****************************************************************************************************
Odintsogo [('Odintsovo', 0.836), ('Bogoroditsk', 0.679)]
****************************************************************************************************


## Levenshtein Distance

`Растояние Левенштейна (редакционное расстояние)` представляет собой метрику для измерения разницы между двумя строками в терминах операций вставки, удаления и замены символов. Оно измеряет минимальное количество таких операций, необходимых для превращения одной строки в другую.

Основные операции редакционного расстояния включают вставку (добавление символа в одну из строк), удаление (удаление символа из одной из строк) и замену (замена одного символа на другой). Дополнительно может быть учтена операция транспозиции (перестановка двух соседних символов).

Используем библиотеку `FuzzyWuzzy` для нечёткого сравнения строк.

Для сравнения строки со строками из списка используем модуль process

In [50]:
print(process.extractOne(query, corpus))
process.extractOne(query, corp_all)

('Калининград', 100)


('Калининград', 100)

In [51]:
result_fuzzy = process.extract(query, corpus, limit=None)
print(result_fuzzy[:10])

[('Калининград', 100), ('Калињинград', 91), ('Калінінград', 82), ('Caliningrado', 0), ('Calininopolis', 0), ('KGD', 0), ("Kalinin'nkrant", 0), ('Kaliningrada', 0), ('Kaliningradas', 0), ('Kaliningrado', 0)]


In [52]:
result_fuzzy_all = process.extract(query, corp_all, limit=None)
print(result_fuzzy_all[:10])

[('Калининград', 100), ('Калининград', 100), ('Калињинград', 91), ('Калинин', 90), ('Калінінград', 82), ('Ленинград', 80), ('Сталинград', 76), ('Клинци', 75), ('Ливни', 72), ('Кашин', 72)]


In [53]:
def accuracy(result):
    count = 0
    for i in range(len(result_fuzzy)):
        count+=result[i][1]
    return print('Levenshtein Distance = ', round(count/len(result), 2))

In [54]:
accuracy(result_fuzzy)

Levenshtein Distance =  4.88


Анализ результатов показал, что алгоритм достаточно успешно справляется с запросами на одном языке, даже в случае использования русского языка, где он пытается находить соответствия. В целом, результаты поиска во всем корпусе хорошие. Но для более детального изучения мы хотим создать алгоритм, который будет работать с запросами на любых языках и учитывать различные варианты написания.

Для улучшения этого метода мы попробуем использовать библиотеку `Googletrans`.

In [55]:
def translator(corpus_word):
    translator= Translator(service_urls=['translate.googleapis.com'])
    translations = translator.translate(corpus_word, dest='ru')
    trans_lst = []
    for translation in translations:
        trans_lst.append(translation.text)
    return trans_lst

In [56]:
trans_lst = translator(corpus)

In [57]:
result_fuzzy_transl = process.extract(query, trans_lst, limit=None)
print(result_fuzzy_transl[:30])

[('Калининград', 100), ('Калининград', 100), ('Калининград', 100), ('Калининград', 100), ('Калининград', 100), ('Калининград', 100), ('Калининград', 100), ('Калининград', 100), ('Калининград', 100), ('Калининград', 100), ('Калининград', 100), ('Калининград', 100), ('Калининград', 100), ('Калининград', 100), ('калининград', 100), ('Калининград', 100), ('Калининград', 100), ('Калининград', 100), ('Калининград', 100), ('Калининград', 100), ('Калининград', 100), ('Калининград', 100), ('Калининград', 100), ('Калининград', 100), ('Калининград', 100), ('Калининград', 100), ('Калининград', 100), ('Калининград', 100), ('Калининград', 100), ('Калининград', 100)]


In [58]:
result_fuzzy_transl = process.extract(query, trans_lst, limit=None)

Для определенного города рассчитаем среднее количество совпадений при использовании переводчика для альтернативных названий:

In [59]:
accuracy(result_fuzzy_transl)

Levenshtein Distance =  78.61


Использовать переводчик на всех альтернативных названиях не будем, так как это занимает достаточно много времени. Составим список с ошибочными запросами и посмотрим на точность:

In [60]:
for item in test_list:
    print(process.extract(item, corp_all, limit=5))

[('Ростов', 90), ('Ростов', 90), ('Ростов-на-Дону балһсн', 86), ('Ростов на Дон', 85), ('Ростов на Дону', 81)]
[('Казань', 92), ('Казан', 83), ('Козань', 77), ('Къазан', 77), ('Казань ош', 75)]
[('Калининград', 82), ('Калининград', 82), ('Калинин', 77), ('Клинци', 75), ('Калињинград', 73)]
[('Масква', 100), ('Маскав', 83), ('Москва', 83), ('Москова', 77), ('Москъва', 77)]
[('Питер', 90), ('Санкт Петербург', 87), ('Санкт-Петербург', 87), ('Санкт Петерзбург', 84), ('Петербург', 70)]


Проведенный разбор показал, что использование алгоритма Левенштейна значительно упрощает поиск альтернативных слов, если они переведены. Это повышает вероятность успешного нахождения подобных слов. Можем воспользоваться переводчиком для перевода ошибочных названий городов и найти наиболее похожие города в нашем массиве данных:

In [61]:
translator= Translator(service_urls=['translate.googleapis.com'])

for item in test_list:
    trans_word = translator.translate(item, dest='en') 
    print(process.extract(trans_word.text, names, limit=5))

[('Rostov', 90), ('Rostov-na-Donu', 89), ('Ostrov', 78), ('Rostokino', 73), ('Protvino', 67)]
[('Çay', 90), ('Troitskaya', 71), ('Lukhovitsy', 68), ('Bronnitsy', 68), ('Sremska Mitrovica', 60)]
[('Kaliningrad', 82), ('Klin', 68), ('Kolpino', 67), ('Niš', 60), ('Skopin', 60)]
[('Moscow', 100), ('Osh', 60), ('Zamoskvorech’ye', 60), ('Primorsko-Akhtarsk', 60), ('Osa', 60)]
[('Saint Petersburg', 87), ('Ürgüp', 72), ('Tver', 68), ('Gürsu', 68), ('Suruç', 64)]


В нашем исследовании мы применили такие алгоритмы как расстояние `Levenshtein Distance`, `CountVectorizer` и `TfidfVectorizer`. Однако, для улучшения их качества, при поиске наиболее подходящего названия, требуется либо расширить выборку, что может быть эффективно в некоторых случаях, либо использовать переводчик. Однако, полагаться на сторонний API не является оптимальным и эффективным решением, так как это может вызвать проблемы с надежностью сервиса/привести к сбоям. Можем использовать модуль `translate` или транслитерацию, простые питоновские библиотеки, чтобы достичь целей перевода. Исследуем мультиязычные модели и по результатам оценим их точность в поиске альтернативных вариантов написания запросов.

### SentenceTransformer: модель `stsb-roberta-large`

Для решения задачи семантического текстового сходства, `SentenceTransformers` предлагает использовать предварительно обученную модель `stsb-roberta-large`.

`stsb-roberta-large` - это модель, обученная на основе архитектуры `RoBERTa` для выполнения задачи семантической схожести предложений (`Semantic Textual Similarity, STS`). Она была предварительно обучена на большом объеме текстов и тюнингована на задаче STS для обеспечения высокого качества представления семантического содержания предложений. Эта модель позволяет оценивать степень похожести между двумя предложениями.

Запустим эту модель и протестируем ее эффективность:

In [62]:
model_id = 'stsb-roberta-large'
roberta = SentenceTransformer(model_id)

.gitattributes:   0%|          | 0.00/748 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/191 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/3.92k [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/2.00 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/674 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.42G [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/52.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.17k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/798k [00:00<?, ?B/s]

modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

In [63]:
embeddings_roberta = roberta.encode(corp_all, convert_to_tensor=True)

In [64]:
names = cities_reloc.name.drop_duplicates().values

In [65]:
def find_similar_roberta(query, top_k=3):
    query_embedding = roberta.encode(query, convert_to_tensor=True)
    cos_scores = util.cos_sim(query_embedding, embeddings_roberta)
    top_results = pd.DataFrame({'name': cities_reloc['name'], 'score': cos_scores.flatten()}).nlargest(top_k, 'score').reset_index(drop=True)
    return top_results

In [None]:
query = ['Растов на Дану', 'Козань', 'Колинингрод', 'Масквэ', 'Сант Петирбург'] 
result = [find_similar_roberta(_) for _ in query]
for r in result:
    if not r.empty:
        display(r)

### SentenceTransformer: модель `LaBSE`

`LaBSE` (`Language-agnostic BERT Sentence Embeddings`) - это модель глубокого обучения, разработанная для создания векторных представлений предложений на разных языках. Она основана на архитектуре `BERT` (`Bidirectional Encoder Representations from Transformers`) и предоставляет возможность создания семантических векторных представлений предложений, которые могут быть использованы для решения задач обработки естественного языка, таких как поиск похожих предложений, классификация текстов или генерация текстовых описаний. Отличительной особенностью `LaBSE` является ее языконезависимость, что означает, что она может работать с предложениями на разных языках без требования языковых моделей, обученных специально для каждого языка. Это делает `LaBSE` очень гибкой и широко применимой моделью для межъязыковых задач обработки естественного языка. В нашем исследованмм применим эту модель для установления оптимальных названий.

Запустим модель:

In [67]:
model_id = 'sentence-transformers/LaBSE'
labse = SentenceTransformer(model_id)

.gitattributes:   0%|          | 0.00/391 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

2_Dense/config.json:   0%|          | 0.00/114 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/2.36M [00:00<?, ?B/s]

README.md:   0%|          | 0.00/2.19k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/804 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.88G [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.62M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/411 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/5.22M [00:00<?, ?B/s]

modules.json:   0%|          | 0.00/461 [00:00<?, ?B/s]

Модель не может работать с необработанными списками строк, поэтому каждый пример должен быть преобразован в экземпляр класса `sentence_transformers.InputExample`, а затем загружен в класс `torch.utils.data.DataLoader` для обработки пакетами в случайном порядке.

In [68]:
cities_reloc['example'] = cities_reloc[['name', 'alternate_names']].apply(lambda x: InputExample(texts=list(x)), axis=1)

In [69]:
train_examples = cities_reloc['example'].tolist()

In [70]:
train_dataloader = DataLoader(train_examples, shuffle=True, batch_size=16)

In [71]:
train_loss = losses.MultipleNegativesRankingLoss(model=labse)

In [None]:
labse.fit(train_objectives=[(train_dataloader, train_loss)], epochs=5)

Epoch:   0%|          | 0/5 [00:00<?, ?it/s]

Iteration:   0%|          | 0/1421 [00:00<?, ?it/s]

Iteration:   0%|          | 0/1421 [00:00<?, ?it/s]

Сохраним обученную модель:

In [None]:
labse.save('model_labse_ru_geonames')

In [None]:
labse = SentenceTransformer('model_labse_ru_geonames')

In [None]:
names[:15]

In [None]:
embeddings = labse.encode(names)
embeddings.shape

In [None]:
def find_similar_labse(geoname, names=names, embeddings=embeddings, model=labse, top_k=3):
    result = pd.DataFrame(util.semantic_search(query_embeddings= model.encode(geoname), corpus_embeddings=embeddings, top_k=top_k)[0])
    return result.assign(name=names[result.corpus_id])

In [None]:
query = ['Растов на Дану', 'Козань', 'Колинингрод', 'Масквэ', 'Сант Петирбург'] 
result = [find_similar_labse(_) for _ in query]
for r in result:
    if not r.empty:
        display(r)

Тестовый набор:

In [None]:
query_test = geo_test["query"].tolist()

In [None]:
def accuracy_metric(def_model):
    df_error = pd.DataFrame(columns=["query", "predict_1", "score_1", "predict_2", "score_2", "predict_3", "score_3", "real_name_in_df"])
    accuracy = 0
    for city in range(len(query_test)):
        predict = def_model(query_test[city], top_k=3)
        if predict.loc[0]["name"] == geo_test.loc[city]['name']:
            accuracy += 1
        else:
            df = pd.DataFrame({
                "query": query_test[city],
                "predict_1": predict.loc[0]["name"], "score_1": predict.loc[0]["score"],         
                "predict_2": predict.loc[1]["name"],"score_2": predict.loc[1]["score"],    
                "predict_3": predict.loc[2]["name"], "score_3": predict.loc[2]["score"], 
                "real_name_in_df": geo_test.loc[city]['name']
            }, index=[0])
            df_error = pd.concat([df_error, df], ignore_index=True)
    display(df_error)
    return accuracy/len(query_test)
           

In [None]:
print('LaBSE: ', accuracy_metric(find_similar_labse))

In [None]:
print('RoBERTa: ', accuracy_metric(find_similar_roberta))

## Вывод:


В этой задаче нам было предложено найти наилучшее решение для подбора названий с `GeoNames`. Мы отфильтровали данные по городам России и некоторым странам, которые являются популярными для релокации, и загрузили их в БД `PostgreSQL`.

Мы изучили методы `CountVectorizer` и `TfidfVectorizer`, однако для повышения их качества требовалось либо больше данных для обучения, либо использование базового переводчика, такого как из питоновских библиотек. `Расстояние Левенштейна` (редакционное расстояние) показал хорошие результаты при сравнении строк на одном языке, и даже при наличии ошибок в русских вариантах. Мы также использовали библиотеку `Googletrans`, она выполнила перевод названий и далее было проще находить соответствия городам.

Были выбрали две многоязыковые модели для использования: `stsb-roberta-large` и `LaBSE`. Расчёт модели не был продолжен, так требовал достаточно продолжительного времени. Тем не менее, была выстроена логическая цепочка операций до конечного расчета, что позволяет увидеть саму структуру проекта. 
