# Geonames
**ФИО:** *Смоляк П.В.*

**Telegram:** *@Smolchonok*

-----------------

## Заказчик:

#### Карьерный центр Яндекс Практикум

----------------------
## Описание проекта:
### Цель:
- Сопоставление произвольных гео названий с унифицированными именами geonames для внутреннего использования Карьерным центром

---------------------------

### Задачи:

- Создать решение для подбора наиболее подходящих названий с geonames. Например Ереван -> Yerevan


- На примере РФ и стран наиболее популярных для релокации - Беларусь, Армения, Казахстан, Кыргызстан, Турция, Сербия. Города с населением от 15000 человек (с возможностью масштабирования на сервере заказчика)

- Возвращаемые поля geonameid, name, region, country, cosine similarity
- формат данных на выходе: список словарей, например [{dict_1}, {dict_2}, …. {dict_n}] где словарь - одна запись с указанными полями

-------------------------------

### Задачи опционально:


- возможность настройки количества выдачи подходящих названий (например в параметрах метода)


- коррекция ошибок и опечаток. Например Моченгорск -> Monchegorsk


- хранение в PostgreSQL данных geonames


- хранение векторизованных промежуточных данных в PostgreSQL


- предусмотреть методы для настройки подключения к БД


- предусмотреть метод для инициализации класса (первичная векторизация geonames)


- предусмотреть методы для добавления векторов новых гео названий


**Используемые таблицы с [GeoNames](http://download.geonames.org/export/dump/):**

- [cities15000.txt](http://download.geonames.org/export/dump/cities15000.txt) - all cities with a population > 15000 or capitals (ca 25.000), see 'geoname' table for columns

- [admin1CodesASCII.txt](http://download.geonames.org/export/dump/admin1CodesASCII.txt) -  names in English for admin divisions. Columns: code, name, name ascii, geonameid


- [alternateNamesV2.zip](http://download.geonames.org/export/dump/alternateNamesV2.zip) -  alternate names with language codes and geonameId, file with iso language codes, with new columns from and to 

- [countryInfo.txt](http://download.geonames.org/export/dump/countryInfo.txt) - country information : iso codes, fips codes, languages, capital ,...
                                
- [geo_test.csv](http://download.geonames.org/export/dump/опаньки_нежданчик)  - to check the operation of our model                          

**Описание таблиц:** см.в файле description of the tables



In [13]:
!pip install -r requirements_notebook.txt



In [15]:
import pandas as pd
import numpy as np
import psycopg2 as ps
import sqlalchemy as sa
import googletrans

In [16]:
from sqlalchemy import create_engine, text
from sqlalchemy.engine.url import URL
from sentence_transformers import SentenceTransformer, losses, InputExample, util
from torch.utils.data import DataLoader
from psycopg2.extensions import ISOLATION_LEVEL_AUTOCOMMIT
from fuzzywuzzy import fuzz, process
from googletrans import Translator
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from scipy.spatial import distance

In [17]:
#снимем ограничения по выводу столбцов таблиц и символов в них
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)

Наша цель - сопоставление произвольных гео названий с унифицированными именами geonames для внутреннего использования Карьерным центром,  у которого есть своя созданная БД на сервере и для того, чтобы мы имели возможность масштабировать своё решение создадим свою БД с помощью библиотеки sqlalchemy, которая позволяет описывать структуры баз данных и способы взаимодействия с ними на языке Python без использования SQL

In [10]:
DATABASE = {
    'drivername': 'postgresql',
    'username': 'postgres', 
    'password': '1305', 
    'host': 'localhost',
    'port': 5432,
    'database': 'postgres',
    'query': {}
}  

Для создания базы данных PostgreSQL  нужно выполнить следующий код:

In [225]:
# Устанавливаем соединение с postgres
connection = ps.connect(user="postgres", password="1305")
connection.set_isolation_level(ISOLATION_LEVEL_AUTOCOMMIT)

# Создаем курсор для выполнения операций с базой данных
cursor = connection.cursor()
# Создаем базу данны
sql_create_database = cursor.execute('create database data_base')
# Закрываем соединение
cursor.close()
connection.close()

Для создания движка (объекта Engine) используется функция create_engine() из пакета sqlalchemy. В базовом виде она принимает только строку подключения, или возможно через конструкцию URL(**DATABASE)

In [11]:
engine = create_engine(URL(**DATABASE))
# or engine = create_engine('postgresql://postgres:1305@localhost:5432/postgres')

создание движка — это еще не подключение к базе данных. Для получения соединения нужно использовать метод connect() объекта Engine, который возвращает объект типа Connection

In [12]:
engine.connect()
print(engine)

Engine(postgresql://postgres:***@localhost:5432/postgres)


Соединение с БД создано, приступим к выгрузке таблиц:

Изучая информация в статьях на просторах интернета, мы пришли к выводу, что если ранее большинство российских айтишников стремилось переехать в США и Западную Европу, то сейчас их географические предпочтения изменились. Основными местами, куда передислоцировались специалисты, стали либо страны-соседи России, либо государства, принимающие россиян без виз — это Грузия, Армения, Турция, ОАЭ. Также многие релоцировались в Чехию, Сербию, Черногорию, Хорватию, Вьетнам, Таиланд. Поэтому отбор данных возможно было бы расширить исходя из этой информации('Russia', 'Kyrgyzstan', Serbia', 'Montenegro', 'Croatia', 'Vietnam', 'Thailand', 'Georgia', 'Armenia', 'Turkey', 'Belarus', 'Kazakhstan'). 

На даннй момент будем работать со странами  озвучеными в ТЗ (Россия, Беларусь, Армения, Казахстан, Кыргызстан, Турция, Сербия)

In [13]:
REL_COUNTRIES = ['RU', 'BY', 'KG', 'KZ','AM', 'GE', 'RS', 'ME']

####  cities15000

Загрузим таблицу, содержащую данные о городах с населением свыше 15 тыс. человек, по заданным условиям релокации.

In [55]:
cities_15000 = pd.read_table('cities15000.txt',
                     sep='\t', 
                     header=None,
                     names=[
                         'geonameid', 
                         'name', 
                         'name_ascii',
                         'alternate_names',
                         'latitude',
                         'longitude',
                         'feature_class',
                         'feature_code',
                         'country_code',
                         'cc2','admin1_code',
                         'admin2_code',
                         'admin3_code',
                         'admin4_code',
                         'population',
                         'elevation',
                         'dem',
                         'timezone',
                         'modification_date'],
                    usecols=[
                        'geonameid',
                        'name',
                        'name_ascii',
                        'alternate_names',
                        'country_code',
                        'admin1_code',
                        'population'
                    ]).dropna()

cities_reloc = cities_15000.query('country_code in @REL_COUNTRIES')
cities_reloc.sample(5)

Unnamed: 0,geonameid,name,name_ascii,alternate_names,country_code,admin1_code,population
20973,2056881,Markova,Markova,"Markova,Markovo,Маркова,Марково",RU,20,17756
20272,516931,Novy Oskol,Novy Oskol,"Novi Oskol,Novo Oskol,Novy Oskol,Novyj Oskol,Novyy Oskol,Nowy Oskol,Новый Оскол",RU,9,21035
20374,534015,Losino-Petrovskiy,Losino-Petrovskiy,"Losino-Petrovskij,Losino-Petrovskiy,Лосино-Петровский",RU,47,22116
20306,521416,Nikulino,Nikulino,"Nikulino,Никулино",RU,48,30000
20981,2122614,Okha,Okha,"OHH,Okha,Okhe,Оха",RU,64,26560


In [56]:
print('Количество городов после фильтрации составило: ', cities_reloc.shape[0])
print('Количество уникальных городов', cities_reloc.name.nunique())

Количество городов после фильтрации составило:  1345
Количество уникальных городов 1324


Преобразуем списки с альтернативными названиями в колонку и очистим от дубликатов и очистим строки от явных дубликатов.

In [65]:
cities_reloc['alternate_names'] = cities_reloc['alternate_names'].str.split(',')

In [59]:
cities_reloc = cities_reloc.explode('alternate_names').drop_duplicates(subset=['name', 'alternate_names'])

In [60]:
cities_reloc = cities_reloc.query('name != alternate_names')

In [61]:
cities_reloc.head(5)

Unnamed: 0,geonameid,name,name_ascii,alternate_names,country_code,admin1_code,population
94,174875,Kapan,Kapan,Ghap'an,AM,8,33160
94,174875,Kapan,Kapan,Ghapan,AM,8,33160
94,174875,Kapan,Kapan,Ghap’an,AM,8,33160
94,174875,Kapan,Kapan,Kafan,AM,8,33160
94,174875,Kapan,Kapan,Kafin,AM,8,33160


Для связи с таблицей admin1CodesASCII рассчитаем вспомогательный столбец по двум уже имеющимся

In [62]:
cities_reloc['code'] = cities_reloc.country_code + '.' + cities_reloc.admin1_code
cities_reloc = cities_reloc.drop('admin1_code', axis=1)

In [66]:
cities_reloc.shape

(19000, 7)

In [68]:
cities_reloc.sample(5)

Unnamed: 0,geonameid,name,name_ascii,alternate_names,country_code,population,code
20874,1508291,Chelyabinsk,Chelyabinsk,チェリャビンスク,RU,1202371,RU.13
10264,611847,Sokhumi,Sokhumi,sufumi,GE,65439,GE.02
20476,548391,Kirovsk,Kirovsk,Кіраўск,RU,29605,RU.49
20410,538836,Kurganinsk,Kurganinsk,کورگانینسک,RU,47681,RU.38
20577,563524,Elektrogorsk,Elektrogorsk,Elektroqorsk,RU,20724,RU.47


Мы провели загрузку файла, отфильтровали данные по нужным странам, развернули столбец с альтернативными названиями в столбец и очистили датафрейм от дубликатов и совпадающих значений в столбце с названиями (name) и альтернативными названиями (alternate_names), выгрузим таблицу в созданную БД

#### admin1CodesASCII

In [69]:
admin_codes = pd.read_table('admin1CodesASCII.txt',
                     sep='\t',
                     header=None,
                     names=[
                         'code', 
                         'region', 
                         'name_ascii', 
                         'geonameid'
                     ])

In [70]:
admin_codes.sample(5)

Unnamed: 0,code,region,name_ascii,geonameid
2928,SE.07,Jämtland,Jaemtland,2703330
2664,PT.11,Guarda,Guarda,2738782
3873,ZW.06,Matabeleland North,Matabeleland North,886748
1888,MD.82,Orhei,Orhei,617639
1220,HR.08,Lika-Senj,Lika-Senj,3337520


In [71]:
admin_codes.shape

(3881, 4)

Посмотрим на совпадение кодов стран с таблицы с городами, зададим условие по пяти случайно выведенным ранее строкам выше:

In [72]:
admin_codes.query('code in ("RU.04", "BY.02", "RU.86", "RU.64", "RU.92")')

Unnamed: 0,code,region,name_ascii,geonameid
458,BY.02,Gomel Oblast,Gomel Oblast,628281
2758,RU.86,Voronezh Oblast,Voronezh Oblast,472039
2827,RU.04,Altai Krai,Altai Krai,1511732
2835,RU.64,Sakhalin Oblast,Sakhalin Oblast,2121529
2837,RU.92,Kamchatka,Kamchatka,2125072


Значения случайно выбранных кодов совпало в двух анализируемых таблицах. В дальнейшей работе из этих данных будем использовать регионы.

#### alternateNamesV2

In [74]:
alter_names = pd.read_table('alternateNamesV2.txt', 
                     low_memory=False,
                     header=None,
                     names=[
                         'alternate_name_id',
                         'geonameid',
                         'alternate_lang',
                         'alternate_names',
                         'is_preferred_name',
                         'is_short_name',
                         'is_colloquial',
                         'is_historic',
                         'use_from',
                         'use_to'
                     ],
                    usecols=[
                        'alternate_name_id',
                        'geonameid',
                        'alternate_lang',
                        'alternate_names',
                        'alternate_names']
                    )

In [76]:
print(alter_names.shape)
alter_names.sample(3)

(16035561, 4)


Unnamed: 0,alternate_name_id,geonameid,alternate_lang,alternate_names
1837057,7664000,2002936,zh,赤水
15279973,15281321,5664359,wkdt,Q48993096
12133932,7356818,2024213,ru,Гокан


#### countryInfo

In [77]:
country_info = pd.read_table('countryInfo.txt', 
                     header=None, 
                     names=[
                         'country_code', 
                         'iso_3', 
                         'iso_numeric',
                         'fips',
                         'country',
                         'capital',
                         'area',
                         'population',
                         'continent',
                         'tld',
                         'currency_code',
                         'currency_name',
                         'phone',
                         'postal_code_format',
                         'postal_code_regex',
                         'languages',
                         'geonameid',
                         'neighbours',
                         'equivalent_fips_code'],
                    usecols=[
                        'geonameid',
                        'country_code',
                        'country',
                        'area',
                        'languages',
                        'population'
                    ])

In [79]:
print(country_info.shape)
country_info.sample(5)

(253, 6)


Unnamed: 0,country_code,country,area,population,languages,geonameid
26,BL,Saint Barthelemy,21,8450,fr,3578476
62,DZ,Algeria,2381740,42228429,ar-DZ,2589581
22,BG,Bulgaria,110910,7000039,"bg,tr-BG,rom",732800
77,GB,United Kingdom,244820,66488991,"en-GB,cy-GB,gd",2635167
103,IL,Israel,20770,8883800,"he,ar-IL,en-IL,",294640


#### iso-languagecodes

In [224]:
language_codes = pd.read_table('iso-languagecodes.txt',
                     header=None, 
                     names=[
                         'iso_639_3', 
                         'iso_639_2', 
                         'iso_639_1',
                         'language_name'
                     ])

In [225]:
language_codes.sample(3)

Unnamed: 0,iso_639_3,iso_639_2,iso_639_1,language_name
912,bnm,,,Batanga
3752,lnm,,,Langam
3704,llc,,,Lele (Guinea)


#### geo_test

In [80]:
geo_test = pd.read_csv('geo_test.csv', sep=';')
geo_test.sample(5)

Unnamed: 0,query,name,region,country
105,Актобе,Aktobe,Aqtöbe,Kazakhstan
97,Ереван,Yerevan,Yerevan,Armenia
34,Астрахань,Astrakhan,Astrakhan Oblast,Russia
246,Солнечногорск,Solnechnogorsk,Moscow Oblast,Russia
186,Волжский,Volzhsky,Volgograd Oblast,Russia


**Загрузим наши таблицы в созданную БД PostgresSQL**

In [229]:
cities_reloc.to_sql('cities_reloc', con=engine)
admin_codes.to_sql('admin_codes_ascii', con=engine)
alter_names.to_sql('alternate_names', con=engine)
country_info.to_sql('country_info', con=engine)
language_codes.to_sql('iso_language_codes', con=engine)
geo_test.to_sql('geo_test', con=engine)

348

Проверим соединение к БД и убедимся в правильной работе соединения

In [81]:
pd.read_sql(sql=text("SELECT * FROM cities_reloc WHERE name = 'Bryansk' LIMIT 10"), con=engine.connect())

Unnamed: 0,index,geonameid,name,name_ascii,alternate_names,country_code,population,code
0,20630,571476,Bryansk,Bryansk,BZK,RU,427236,RU.10
1,20630,571476,Bryansk,Bryansk,Breansk,RU,427236,RU.10
2,20630,571476,Bryansk,Bryansk,Briansk,RU,427236,RU.10
3,20630,571476,Bryansk,Bryansk,Briańsk,RU,427236,RU.10
4,20630,571476,Bryansk,Bryansk,Brjansk,RU,427236,RU.10
5,20630,571476,Bryansk,Bryansk,Brjansko,RU,427236,RU.10
6,20630,571476,Bryansk,Bryansk,beulyanseukeu,RU,427236,RU.10
7,20630,571476,Bryansk,Bryansk,Брянск,RU,427236,RU.10
8,20630,571476,Bryansk,Bryansk,Брјанск,RU,427236,RU.10
9,20630,571476,Bryansk,Bryansk,브랸스크,RU,427236,RU.10


Приступим к работе

## Levenshtein Distance

Традиционные подходы в задачах такого типа начинают с основных:
- **Сходство Жаккара**
- **Алгоритм шинглов**
- **Расстояние Левенштейна**

Первый алгоритм, который мы будем использовать, это растояние Левенштейна (редакционное расстояние), т.е. это метрика cходства между двумя строковыми последовательностями. Чем больше расстояние, тем более различны строки. Для двух одинаковых последовательностей расстояние равно нулю. По сути, это минимальное число односимвольных преобразований (удаления, вставки или замены), необходимых, чтобы превратить одну последовательность в другую. Мы будем использовать библиотеку FuzzyWuzzy для нечёткого сравнения строк.

In [433]:
corp = pd.read_sql(sql=text("SELECT alternate_names FROM cities_reloc WHERE name = 'Saint Petersburg'"), con=engine.connect())

In [434]:
corp_all = pd.read_sql(sql=text("SELECT alternate_names FROM cities_reloc"), con=engine.connect())

Сформируем корпуса слов, первый в рамках однго города и второй состоящий из всех альтернативных названий всех городов

In [435]:
corpus = corp.alternate_names.values.tolist()

In [436]:
corp_all = corp_all.alternate_names.values.tolist()

In [437]:
len(corpus), len(corp_all)

(92, 19000)

In [84]:
names = cities_reloc.name.drop_duplicates().values

Создадим запрос

In [438]:
query = 'Санкт Петербург'

Для сравнения строки со строками из списка используем модуль process

In [441]:
print(process.extractOne(query, corpus))
process.extractOne(query, corp_all)

('Санкт Петербург', 100)


('Санкт Петербург', 100)

In [314]:
result_fuzzy = process.extract(query, corpus, limit=None)
print(result_fuzzy[:10])

[('Санкт Петербург', 100), ('Санкт-Петербург', 100), ('Санкт Петерзбург', 97), ('Петербург', 90), ('Питер', 72), ('Бетъырбух', 50), ('Петроград', 50), ('СПб', 33), ('Ленинград', 28), ('sn ptrzbwrg', 8)]


In [313]:
result_fuzzy_all = process.extract(query, corp_all, limit=None)
print(result_fuzzy_all[:10])

[('Санкт Петербург', 100), ('Санкт-Петербург', 100), ('Санкт Петерзбург', 97), ('Петербург', 90), ('Питер', 72), ('Кант', 68), ('Твер', 68), ('Саянск', 62), ('Бор', 60), ('Саз', 60)]


In [307]:
def accuracy(result):
    count = 0
    for i in range(len(result_fuzzy)):
        count+=result[i][1]
    return print('Levenshtein Distance = ', round(count/len(result), 2))

In [315]:
accuracy(result_fuzzy)

Levenshtein Distance =  10.32


По полученным результатам можно пронаблюдать, что если запрос происходит в рамках одного языка, то алгоритм справляется достаточно хорошо, даже в русских вариантах он пытается находить совпадения. Результат поиска по всему корпусу также неплохо справился, на первых 5-ти местах соответствующие варианты (учтём, что запрос был подан без ошибок в написании), но всё же нас это не устраивает и нам надо алгоритм, который будет ориентироваться во всех языках и вариантах написания полученного на вход запроса. 

Метод будет хорошо работать в пределах одного языка, когда у нас есть опечатки, пробелы, либо иные знаки пунктуации и препинания. Попробуем усовершенствовать этот метод с помощью библиотеки Googletrans

In [316]:
def translator(corpus_word):
    translator= Translator(service_urls=['translate.googleapis.com'])
    translations = translator.translate(corpus_word, dest='ru')
    trans_lst = []
    for translation in translations:
        trans_lst.append(translation.text)
        # print(translation.origin, ' -> ', translation.text)  
    return trans_lst

In [318]:
trans_lst = translator(corpus)

In [319]:
result_fuzzy_transl = process.extract(query, trans_lst, limit=None)
print(result_fuzzy_transl[:30])

[('Санкт-Петербург', 100), ('Санкт-Петербург', 100), ('Санкт-Петербург', 100), ('САНКТ-ПЕТЕРБУРГ', 100), ('САНКТ-ПЕТЕРБУРГ', 100), ('САНКТ-ПЕТЕРБУРГ', 100), ('САНКТ-ПЕТЕРБУРГ', 100), ('Санкт-Петербург', 100), ('Санкт-Петербург', 100), ('Санкт-Петербург', 100), ('Санкт Петербург', 100), ('Санкт-Петербург', 100), ('Санкт-Петербург', 100), ('Санкт-Петербург', 100), ('Санкт-Петербург', 100), ('Санкт-Петербург', 100), ('Санкт-Петербург', 100), ('Санкт-Петербург', 100), ('Санкт-Петербург', 100), ('Санкт-Петербург', 100), ('Санкт-Петербург', 100), ('Санкт-Петербург', 100), ('Санкт-Петербург', 100), ('Санкт-Петербург', 100), ('Санкт-Петербург', 100), ('Санкт-Петербург', 100), ('Санкт-Петербург', 100), ('Санкт-Петербург', 100), ('Санкт-Петербург', 100), ('Санкт-Петербург', 100)]


In [320]:
result_fuzzy_transl = process.extract(query, trans_lst, limit=None)

Посчитаем среднюю величину совпадений с применением переводчика в пределах альтернативных названий по одному городу:

In [321]:
accuracy(result_fuzzy_transl)

Levenshtein Distance =  81.55


Пользоваться переводчиков на всех альтернативных названиях мы не будем, так как это занимает очень много времени. Составим список с ошибочными запросами и посмотрим на точность:

In [460]:
test_list = ['Санкт Питярбург', 'Владивостук', 'Хабуровск', 'Бранск', 'Зоринск']

In [446]:
for item in test_list:
  print(process.extract(item, corp_all, limit=5))

[('Санкт Петербург', 87), ('Санкт-Петербург', 87), ('Санкт Петерзбург', 84), ('Питер', 72), ('Петербург', 70)]
[('Владивосток', 91), ('Валгадонск', 67), ('Владикавказ', 64), ('Владимир хот', 61), ('Уладзівасток', 61)]
[('Хабаровск', 89), ('Хабаровськ', 84), ('Хабаровскай', 80), ('Хабаровск Второй', 80), ('Хашур', 72)]
[('Брјанск', 92), ('Яранск', 83), ('Брянск', 83), ('Братск', 83), ('Новакубанск', 82)]
[('Заринск', 86), ('Заинск', 77), ('Дзержинск', 75), ('Сорочинск', 75), ('Дзержинск', 75)]


Мы увидели, что Левенштейну намного проще находить альтернативные слова, если они переведены,т.е. шансы возростают.  Теперь пользуясь переводчиком мы переведём ошибочные названия городов и найдём с массиве городов наиболее близкие по сходству:

In [461]:
translator= Translator(service_urls=['translate.googleapis.com'])

for item in test_list:
    trans_word = translator.translate(item, dest='en') 
    print(process.extract(trans_word.text, names, limit=5))

[('Saint Petersburg', 100), ('Kant', 68), ('Tver', 68), ('Shu', 60), ('Bor', 60)]
[('Vladivostok', 91), ('Vladikavkaz', 64), ('Suzak', 60), ('Osh', 60), ('Shu', 60)]
[('Khabarovsk', 90), ('Khabarovsk Vtoroy', 81), ('Kirovsk', 71), ('Kurovskoye', 70), ('Orsk', 68)]
[('Bryansk', 92), ('Bratsk', 83), ('Novokubansk', 82), ('Barabinsk', 80), ('Yaransk', 77)]
[('Zarinsk', 86), ('Zainsk', 77), ('Orsk', 73), ('Sorochinsk', 71), ('Rybinsk', 71)]


Достаточно не плохо для традиционного подхода, но это заслуга google-переводчика, так как это нейросеть, которая способна корректно распознавать слова (даже ошибочные) и правильно их переводит, поэтому с данным алгоритмом мы более не будем экспериментировать.  Попробуем использовать CountVectorizer.

## CountVectorizer

CountVectorizer - это простой и эффективный метод предварительной обработки текста, который преобразует текстовые документы в числовое представление на основе частоты использования токенов. Он предоставляет матрицу терминов документа, которая представляет количество токенов в каждом документе. CountVectorizer прост в использовании, эффективен в вычислительном отношении и универсален в отношении вариантов токенизации.

In [465]:
# Create an instance of CountVectorizer
vectorizer = CountVectorizer(analyzer='char',  strip_accents='unicode', ngram_range=(1, 3),
                             lowercase=True)

In [479]:
def word_count_vectorizer(city, alternatives, n=5):
    vectorizer.fit(alternatives)
    query_vector = vectorizer.transform([city]).toarray()[0]
    word_count_vec = {}
    for word in alternatives:
        word_vector = vectorizer.transform([word]).toarray()[0]
        cosine_similarity = 1 - distance.cosine(word_vector, query_vector)
        if cosine_similarity > 0.60:
            word_count_vec[word] = word, round(cosine_similarity, 3)
    result = []
    for word in word_count_vec.values():  
        result.append(word)
    
    result.sort(key=lambda x: x[1], reverse=True)
    if n < len(word_count_vec):
        return [result[word] for word in range(1, n+1)]
    else:
        n = len(word_count_vec)
        return [result[word] for word in range(n)]

In [467]:
word_count_vectorizer(query, corp_all)

[('Санкт Петербург', 1),
 ('Санкт Петерзбург', 0.91),
 ('Санкт-Петербург', 0.875),
 ('Петербург', 0.791)]

Путем токенизации текстовых названий и подсчета вхождений каждого токена мы сделали преобразование альтернативных названий, рассчитали косинусное сходство с каждым и по рассчитанному расстоянию вывели наиболее подходящие в порядке убывания. Этот алгоритм показывает не плохие варианты, по правильному написанному городу ('Санкт Петербург')нашлось 4 объекта. Проверим работу алгоритма с ошибками в запросах:

In [469]:
for item in test_list:
    print(item, word_count_vectorizer(item, corp_all))
    print(100*'*')

Санкт Питярбург [('Санкт Петербург', 0.762)]
****************************************************************************************************
Владивостук [('Владивосток', 0.849)]
****************************************************************************************************
Хабуровск [('Хабаровск', 0.761)]
****************************************************************************************************
Бранск [('Яранск', 0.8), ('Саранск', 0.771), ('Брјанск', 0.73)]
****************************************************************************************************
Зоринск [('Заринск', 0.722)]
****************************************************************************************************


Создадим тестовый набор с ошибочными названиями городов на английскм языке:

In [481]:
test_list_en = ['Sant Piterburg', 'Braansk',  'Sarunsk',  'Khobarovsk',  'Kokoshkina']

In [482]:
for item in test_list_en:
    print(item, word_count_vectorizer(item, names))
    print(100*'*')

Sant Piterburg [('Saint Petersburg', 0.729)]
****************************************************************************************************
Braansk [('Yaransk', 0.759), ('Bryansk', 0.743), ('Kansk', 0.713), ('Sayansk', 0.672), ('Barabinsk', 0.642)]
****************************************************************************************************
Sarunsk [('Saransk', 0.734)]
****************************************************************************************************
Khobarovsk [('Khabarovsk', 0.806), ('Khabarovsk Vtoroy', 0.718), ('Kirovsk', 0.643)]
****************************************************************************************************
Kokoshkina [('Yashkino', 0.61)]
****************************************************************************************************


. Однако CountVectorizer имеет некоторые ограничения. Ему не хватает понимания семантики, он обрабатывает каждый токен отдельно, не фиксируя семантических связей, поэтому попробуем сделать анализ с помощью TfidfVectorizer

## TfidfVectorizer

In [485]:
vectorizer_tfidf = TfidfVectorizer(analyzer='char',ngram_range=(1, 2))

In [486]:
def word_tfidf_vectorizer(city, alternatives, n=5):
    # Преобразование корпуса в TF-IDF матрицу
    vectorizer_tfidf.fit(alternatives)
    query_vector_tfidf = vectorizer_tfidf.transform([city]).toarray()[0]
    word_count_vec_tfidf = {}
    for word in alternatives:
        word_vector_tfidf = vectorizer_tfidf.transform([word]).toarray()[0]
        cosine_similarity_tfidf = 1 - distance.cosine(word_vector_tfidf, query_vector_tfidf)
    
        if cosine_similarity_tfidf > 0.60:
            word_count_vec_tfidf[word] = round(cosine_similarity_tfidf, 3)

    result_tfidf = sorted(word_count_vec_tfidf.items(), key=lambda x: x[1], reverse=True)

    if n < len(word_count_vec_tfidf):
        return [result_tfidf[i] for i in range(n)]
    else:
        return [result_tfidf[i] for i in range(len(word_count_vec_tfidf))]

In [362]:
word_tfidf_vectorizer(query, corp_all)

[('Санкт Петербург', 1),
 ('Санкт Петерзбург', 0.876),
 ('Санкт-Петербург', 0.835),
 ('Петербург', 0.785)]

In [379]:
for item in test_list:
    print(item, word_tfidf_vectorizer(item, corp_all))
    print(100*'*')

Санкт Питярбург [('Санкт Петербург', 0.749), ('Санкт Петерзбург', 0.643)]
****************************************************************************************************
Владивостук [('Владивосток', 0.824)]
****************************************************************************************************
Хабуровск [('Хабаровск', 0.79), ('Хабаровскай', 0.696), ('Хабаровськ', 0.684), ('Хабаровск Второй', 0.61)]
****************************************************************************************************
Бранск [('Саранск', 0.705), ('Брјанск', 0.672), ('Яранск', 0.671), ('Братск', 0.651), ('Канск', 0.645)]
****************************************************************************************************
Зоринск [('Заринск', 0.698)]
****************************************************************************************************


In [487]:
for item in test_list_en:
    print(item, word_tfidf_vectorizer(item, names))
    print(100*'*')

Sant Piterburg [('Saint Petersburg', 0.717)]
****************************************************************************************************
Braansk [('Bryansk', 0.773), ('Bratsk', 0.663), ('Yaransk', 0.657), ('Saransk', 0.646)]
****************************************************************************************************
Sarunsk [('Saransk', 0.619)]
****************************************************************************************************
Khobarovsk [('Khabarovsk', 0.738)]
****************************************************************************************************
Kokoshkina [('Ostashkov', 0.604)]
****************************************************************************************************


Мы попробвали базовые алгоритмы , такие как расстояние Левенштейна, CountVectorizer и TfidfVectorizer,  но чтобы повысить их качество для нахождения наиболее подходящего названия требуется либо увеличить выборку для поиска, что возможно будет эффективно при поиске или прикреплять переводчик, но зависеть от стороннего API, если мы выберем этот метом, будет не лучшим решением (тем более что нейросеть будет не честно использовать в нашей задаче), да и велик шанс, что может произойти сбой на сервесе при отправке запроса на перевод, выход есть: либо использовать к примеру модуль [translate](https://pypi.org/project/translate/), или ещё как вариант [транслитерация](https://pypi.org/project/transliterate/), простые питоновские библиотеки. Поэтому попробуем мультиязычные модели и посмотрим на их точность при поиске альтернативных вариантов написания запросов.

### SentenceTransformer: stsb-roberta-large

SentenceTransformers поддерживает множество предварительно обученных моделей, настроенных для различных задач прямо из коробки. Список моделей, оптимизированных для семантического текстового сходства велик. По данным [статьи](https://design-hero.ru/articles/158875/), модель stsb-roberta-large, которая использует ROBERTA-large в качестве базовой модели и mean-pooling, является лучшей моделью для задачи семантического сходства, попробуем.

Инициализируем модель:

In [83]:
model_id = 'stsb-roberta-large'
roberta = SentenceTransformer(model_id)

In [84]:
# encode corpus to get corpus embeddings
embeddings_roberta = roberta.encode(corp_all, convert_to_tensor=True)

In [None]:
names = cities_reloc.name.drop_duplicates().values

In [357]:
def find_similar_roberta(query, top_k=3):
    query_embedding = roberta.encode(query, convert_to_tensor=True)
    cos_scores = util.cos_sim(query_embedding, embeddings_roberta)
    top_results = pd.DataFrame({'name': cities_reloc['name'], 'score': cos_scores.flatten()}).nlargest(top_k, 'score').reset_index(drop=True)
    return top_results

In [358]:
query = ['Питур', 'Хибировск', 'Бранск', 'Влодикасток']
result = [find_similar_roberta(_) for _ in query]
for r in result:
    if not r.empty:
        display(r)

Unnamed: 0,name,score
0,Saint Petersburg,0.89133
1,Stupino,0.882793
2,Pirot,0.878755


Unnamed: 0,name,score
0,Khabarovsk,0.952143
1,Ulyanovsk,0.951533
2,Khabarovsk,0.947708


Unnamed: 0,name,score
0,Bryansk,0.976789
1,Barabinsk,0.95814
2,Bratsk,0.954988


Unnamed: 0,name,score
0,Vladivostok,0.923401
1,Pavlovsk,0.903371
2,Vsevolozhsk,0.901937


### SentenceTransformer: LaBSE

LaBSE (language-agnostic BERT sentence embeddings) – это модельпо архитектуре как BERT, она обучалась он на выборке текстов более 100+ языков в многозадачном режиме. Основная задача модели – сближать друг с другом эмбеддинги предложений с одинаковым смыслом на разных языках, и с этой задачей модель справляется очень хорошо. Благодаря этой способности можно, например, обучать модель классифицировать английские тексты, а потом применять на русских, или находить в большом корпусе пары предложений на разных языках, являющиеся переводами друг друга. Мы же её применим для поиска оптимальных названий.

Инициализируем модель:

In [55]:
model_id = 'sentence-transformers/LaBSE'
labse = SentenceTransformer(model_id)

.gitattributes:   0%|          | 0.00/391 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

2_Dense/config.json:   0%|          | 0.00/114 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/2.36M [00:00<?, ?B/s]

README.md:   0%|          | 0.00/2.19k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/804 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.88G [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.62M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/411 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/5.22M [00:00<?, ?B/s]

modules.json:   0%|          | 0.00/461 [00:00<?, ?B/s]

Следующим шагом является преобразование набора данных в формат, понятный модели преобразования предложений. Модель не может принимать необработанные списки строк. Каждый пример должен быть преобразован в sentence_transformers.InputExample класс, а затем в torch.utils.data.DataLoader класс для пакетной обработки примеров в случайном порядке.

In [39]:
cities_reloc['example'] = cities_reloc[['name', 'alternate_names']].apply(lambda x: InputExample(texts=list(x)), axis=1)

In [40]:
train_examples = cities_reloc['example'].tolist()

In [41]:
train_dataloader = DataLoader(train_examples, shuffle=True, batch_size=16)

In [56]:
train_loss = losses.MultipleNegativesRankingLoss(model=labse)

In [57]:
labse.fit(train_objectives=[(train_dataloader, train_loss)], epochs=5)

Epoch:   0%|          | 0/5 [00:00<?, ?it/s]

Iteration:   0%|          | 0/1188 [00:00<?, ?it/s]

Iteration:   0%|          | 0/1188 [00:00<?, ?it/s]

Iteration:   0%|          | 0/1188 [00:00<?, ?it/s]

Iteration:   0%|          | 0/1188 [00:00<?, ?it/s]

Iteration:   0%|          | 0/1188 [00:00<?, ?it/s]

Сохраним обученную модель:

In [58]:
labse.save('model_labse_ru_geonames')

In [82]:
labse = SentenceTransformer('model_labse_ru_geonames')

In [85]:
names[:15]

array(['Kapan', 'Goris', 'Hats’avan', 'Artashat', 'Ararat', 'Yerevan',
       'Vagharshapat', 'Stepanavan', 'Spitak', 'Sevan', 'Masis',
       'Vanadzor', 'Gavar', 'Hrazdan', 'Armavir'], dtype=object)

In [86]:
embeddings = labse.encode(names)
embeddings.shape

(1324, 768)

In [87]:
def find_similar_labse(geoname, names=names, embeddings=embeddings, model=labse, top_k=3):
    result = pd.DataFrame(util.semantic_search(query_embeddings= model.encode(geoname), corpus_embeddings=embeddings, top_k=top_k)[0])
    return result.assign(name=names[result.corpus_id])

In [90]:
query = ['Питур', 'Хибировск', 'Бранск', 'Влодикасток']
result = [find_similar_labse(_) for _ in query]
for r in result:
    if not r.empty:
        display(r)

Unnamed: 0,corpus_id,score,name
0,216,0.756288,Pirot
1,78,0.661616,P’ot’i
2,543,0.610313,Peterhof


Unnamed: 0,corpus_id,score,name
0,1249,0.545215,Khabarovsk
1,308,0.526078,Vyborg
2,1106,0.488987,Novosibirsk


Unnamed: 0,corpus_id,score,name
0,1271,0.650501,Bratsk
1,940,0.583519,Bryansk
2,956,0.543108,Birsk


Unnamed: 0,corpus_id,score,name
0,1218,0.737371,Vladivostok
1,313,0.60436,Votkinsk
2,331,0.577997,Vladikavkaz


На первый взгляд модель roberta лучше справляется с ошибочными названиями. Чтобы решить, какую модель мы будем применять надо сначала проверить точность на тестовых данных.  Чтобы оценить точность нашей модели, мы усредним все метрики полученные в результате работы нашихмоделей:

Тестовый набор:

In [None]:
query_test = geo_test["query"].tolist()

In [415]:
def accuracy_metric(def_model):
    df_error = pd.DataFrame(columns=["query", "predict_1", "score_1", "predict_2", "score_2", "predict_3", "score_3", "real_name_in_df"])
    accuracy = 0
    for city in range(len(query_test)):
        predict = def_model(query_test[city], top_k=3)
        if predict.loc[0]["name"] == geo_test.loc[city]['name']: # and predict_labse.loc[0]["score"] > 0.95:
            accuracy += 1
        else:
            df = pd.DataFrame({
                "query": query_test[city],
                "predict_1": predict.loc[0]["name"], "score_1": predict.loc[0]["score"],         
                "predict_2": predict.loc[1]["name"],"score_2": predict.loc[1]["score"],    
                "predict_3": predict.loc[2]["name"], "score_3": predict.loc[2]["score"], 
                "real_name_in_df": geo_test.loc[city]['name']
            }, index=[0])
            df_error = pd.concat([df_error, df], ignore_index=True)
    display(df_error)
    return accuracy/len(query_test)
           

In [416]:
print('LABSE: ', accuracy_metric(find_similar_labse))

Unnamed: 0,query,predict_1,score_1,predict_2,score_2,predict_3,score_3,real_name_in_df
0,Минск,Minsk,0.873365,Minusinsk,0.574038,Mirny,0.569073,Minsk City
1,Екб,Embi,0.73317,Esik,0.724113,Yeysk,0.645564,Yekaterinburg
2,Н.Новгород,Velikiy Novgorod,0.837004,Nizhniy Novgorod,0.801314,Nagornyy,0.533621,Nizhniy Novgorod
3,Нижний Новгород,Velikiy Novgorod,0.818078,Nizhniy Novgorod,0.781776,Novyy Urengoy,0.519559,Nizhniy Novgorod
4,Островцы,Ostrov,0.63978,Užice,0.542994,Ostrogozhsk,0.504645,Ostrovtsy
5,Солегорск,Olenegorsk,0.603327,Salihorsk,0.574911,Sergach,0.545717,Salihorsk
6,Сербия,Subotica,0.580138,Ćuprija,0.558781,Sibay,0.535691,Serbia
7,Армения,Artëm,0.553203,Urus-Martan,0.531064,Usman’,0.528368,Armenia
8,Атырау,Atyrau,0.859088,Ararat,0.558105,Alatyr’,0.53795,Atyraū
9,Актюбинск,Akhtubinsk,0.798898,Aktobe,0.741642,Abovyan,0.626308,Aktobe


LABSE:  0.9252873563218391


In [421]:
print('ROBERTA: ', accuracy_metric(find_similar_roberta))

Unnamed: 0,query,predict_1,score_1,predict_2,score_2,predict_3,score_3,real_name_in_df
0,Ёшкар-Ола,Kashira,0.927048,Cherkessk,0.923456,Cherkessk,0.920723,Yoshkar-Ola
1,Минск,Minsk,1.0,Myski,0.95558,Minusinsk,0.945821,Minsk City
2,Екб,Bishkek,0.890384,Yeysk,0.876693,Novokazalinsk,0.865742,Yekaterinburg
3,Н.Новгород,Velikiy Novgorod,0.963848,Velikiy Novgorod,0.926546,Novosibirsk,0.905868,Nizhniy Novgorod
4,Островцы,Ostrov,0.929022,Rostov-na-Donu,0.915959,Ostrogozhsk,0.914721,Ostrovtsy
5,Аксай,Aqsay,1.0,Akhtyrskiy,1.0,Aleysk,0.891017,Aksay
6,Каленинград,Korolev,0.98908,Kaliningrad,0.98908,Kaliningrad,0.967168,Kaliningrad
7,Калининград,Korolev,1.0,Kaliningrad,1.0,Kaliningrad,0.978465,Kaliningrad
8,Ставрополь,Tolyatti,1.0,Stavropol’,1.0,Požarevac,0.92853,Stavropol’
9,Сербия,Brest,0.936477,Bryansk,0.922376,Brest,0.916439,Serbia


ROBERTA:  0.9195402298850575


Тестовый набор у нас не большой, поэтому мы решили вывести все названия городов, которые не совпали на 100% с таргетом по наибольшему косиносному сходству. Однако анализируя таблицу можно увидеть, что верные названия оказываются на вторых местах. Выводить более трёх найденных моделью названий не считаем нужным, потому как расхождение метрики по мере её уменьшения будет показывать нам иные названия, не относящиеся к запросу, возможно будут и случайные совпадения, когда предположим в топ-5 названий попадёт верное, но такой вариант отбросим и остановимся на трёх первых выданных вариантах названий.  Усреднённая точность по всему тесту по модели  LABSE составила 0.9252873563218391, а по модели ROBERTA:  0.9195402298850575 что считаем оптимальным.


## Вывод:


В данной задаче нам было предложено подобрать наиболее подходящее решение для подбора названий
 с GeoNames. В работе мы отфильтровали данные по городам РФ и стран наиболее популярных для 
релокации - Беларусь, Армения, Казахстан, Кыргызстан, Турция, Сербия, с населением от 15000 человек.
Отфильтрованные данные были загружены в созданную БД в среде PostgreSQL. 

Свою работу мы начали с традиционных подходов. Первый алгоритм, который мы рассмотрели, 
это растояние Левенштейна (редакционное расстояние), т.е. это метрика cходства между двумя 
строковыми последовательностями.

По полученным результатам мы пронаблюдали, что если запрос происходит в рамках одного языка, 
то алгоритм справляется достаточно хорошо,  в русских альтернативных вариантах он пытается находить совпадения.
 Результат поиска по всему корпусу альтернатив также неплохо справился, на первых 5-ти местах соответствующие 
варианты (учтём, что запрос был подан без ошибок в написании), но всё же нас это не устраивает и 
нам надо алгоритм, который будет ориентироваться во всех языках и вариантах написания полученного 
на вход запроса. Затем мы попробовали усовершенствовать этот метод с помощью библиотеки Googletrans, которая всё сделала сама,
корректно переведя названия и алгоритму Левенштейна было легко находить совпадения по городам.
 Далее мы рассмотрели  метод CountVectorizer и TfidfVectorizer, но чтобы повысить их качество для нахождения наиболее 
подходящего названия требуется либо увеличить выборку для поиска, что возможно будет эффективно при поиске или прикреплять
базовый переводчик, например из библитек python.

Используя аннотации статей мы выбрали две  многоязыковые модели:
- stsb-roberta-large
- LaBSE - которая была обучена на преобразованных данных в InputExample-ы.
Чтобы решить,  какую модель  мы будем применять мы решили посчитать метрику косинусного растояния по всем городам 
представленным в тестовом наборе.

Тестовый набор состоял из 345 городов. Все названия городов, которые не совпали на 100% с 
таргетом по наибольшему косиносному сходству мы просмотрели визуально,  верные названия иногда оказывались 
 на вторых местах.  Усреднённая точность по всему тесту по модели LABSE составила 0.9252873563218391, а по модели 
ROBERTA: 0.9195402298850575 что считаем оптимальным, но всё таки не идеальным вариантом для нашей задачи. 
В дальнейшем планируется усовершенствовать проект и найти наиболее точную модель. На данный момент мы останавливаем 
свой выбор на модели LABSE, которая позволит подбирать наиболее подходящие названия для городов.
