<h1>Карьерный Центр. Сопоставление геоназваний<span class="tocSkip"></span></h1>

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"></ul></div>

**Бизнес-задача:** в базе данных Карьерного Центра есть названия географических объектов с разным написанием или ошибками, например:
- СПб
- Санкт-Петербург
- С.-Петербург
- Сант-Питербург

Необходимо их привести к единому виду согласно geonames:
- Saint Petersburg

GeoNames - это географическая база данных, которая охватывает все страны и содержит более одиннадцати миллионов географических названий, доступных для бесплатного скачивания. На основе этой базы строятся многие сервисы и плагины проверки и унификации адресов

**ML-задача:** Необходимо разработать ML-продукт, который:
- подбирает наиболее подходящие названия с geonames. Например Ереван -> Yerevan
- покажет хорошую точность на примере РФ и стран наиболее популярных для релокации - Беларусь, Армения, Казахстан, Кыргызстан, Турция, Сербия. Города с населением от 15000 человек (с возможностью масштабирования на сервере заказчика)

**Задачи опционально:**

- возможность настройки количества выдачи подходящих названий (например в параметрах метода);
- коррекция ошибок и опечаток. Например Моченгорск -> Monchegorsk;
- хранение в PostgreSQL данных geonames;
- хранение векторизованных промежуточных данных в PostgreSQL;
- предусмотреть методы для настройки подключения к БД;
- предусмотреть метод для инициализации класса (первичная векторизация geonames);
- предусмотреть методы для добавления векторов новых гео названий.

**Формат результата:**
- Возвращаемые поля geonameid, name, region, country, cosine similarity
- формат данных на выходе: список словарей, например [{dict_1}, {dict_2}, …. {dict_n}] где словарь - одна запись с указанными полями

<h2>Исходные данные<span class="tocSkip"></span></h2>

Ссылка на данные geonames:
http://download.geonames.org/export/dump/

Используемые таблицы с geonames:
- admin1CodesASCII;
- alternateNamesV2;
- cities500;
- countryInfo.

Дополнительно:
- Тестовый датасет.

## Разведывательный анализ данных

### Импорт данных

Импортируем необходимые для работы библиотеки. Считаем данные таблиц в датафреймы, сохраним в переменные и выведем на экран каждую таблицу.

In [1]:
# data analysis
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
from sqlalchemy.engine.url import URL

# NLP
import re
from Levenshtein import ratio
from scipy.spatial import distance
from sklearn.feature_extraction.text import CountVectorizer
from transliterate import get_translit_function
import unicodedata
from lingua import (
    Language,
    LanguageDetectorBuilder
)

# misc
from ydata_profiling import ProfileReport
import pickle

# отображение всех столбцов таблицы
pd.set_option('display.max_columns', None)

In [2]:
# подключение к postgresql
DATABASE = {
    'drivername': 'postgresql',
    'username': 'postgres', 
    'password': '112358', 
    'host': 'localhost',
    'port': 5432,
    'database': 'postgres',
    'query': {}
}  

engine = create_engine(URL(**DATABASE))

In [3]:
'''
Функция выводит 5 первых и последних
записей датасета
'''
def show(data, info=False):
    print(data.shape)
    if info:
        print(data.info())
    return pd.concat([data.head(), data.tail()])

#### cities

In [4]:
query = 'SELECT * FROM cities500'
cities = pd.read_sql_query(query, con=engine)
show(cities, info=True)

(200670, 20)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200670 entries, 0 to 200669
Data columns (total 20 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   index              200670 non-null  int64  
 1   geonameid          200670 non-null  int64  
 2   name               200669 non-null  object 
 3   asciiname          200653 non-null  object 
 4   alternatenames     164866 non-null  object 
 5   latitude           200670 non-null  float64
 6   longitude          200670 non-null  float64
 7   feature class      200670 non-null  object 
 8   feature code       200670 non-null  object 
 9   country code       200625 non-null  object 
 10  cc2                87 non-null      object 
 11  admin1 code        200641 non-null  object 
 12  admin2 code        179721 non-null  object 
 13  admin3 code        91109 non-null   object 
 14  admin4 code        32647 non-null   object 
 15  population         200670 non-null  in

Unnamed: 0,index,geonameid,name,asciiname,alternatenames,latitude,longitude,feature class,feature code,country code,cc2,admin1 code,admin2 code,admin3 code,admin4 code,population,elevation,dem,timezone,modification date
0,0,3038999,Soldeu,Soldeu,,42.57688,1.66769,P,PPL,AD,,2,,,,602,,1832,Europe/Andorra,2017-11-06
1,1,3039154,El Tarter,El Tarter,"Ehl Tarter,Эл Тартер",42.57952,1.65362,P,PPL,AD,,2,,,,1052,,1721,Europe/Andorra,2012-11-03
2,2,3039163,Sant Julià de Lòria,Sant Julia de Loria,"San Julia,San Julià,Sant Julia de Loria,Sant J...",42.46372,1.49129,P,PPLA,AD,,6,,,,8022,,921,Europe/Andorra,2013-11-23
3,3,3039604,Pas de la Casa,Pas de la Casa,"Pas de la Kasa,Пас де ла Каса",42.54277,1.73361,P,PPL,AD,,3,,,,2363,2050.0,2106,Europe/Andorra,2008-06-09
4,4,3039678,Ordino,Ordino,"Ordino,ao er di nuo,orudino jiao qu,Ордино,オルデ...",42.55623,1.53319,P,PPLA,AD,,5,,,,3066,,1296,Europe/Andorra,2018-10-26
200665,200665,895269,Beitbridge,Beitbridge,"Bajtbridz,Bajtbridzh,Beitbridge,Beitbridzas,Be...",-22.21667,30.0,P,PPL,ZW,,7,,,,58100,,461,Africa/Harare,2022-10-07
200666,200666,895308,Beatrice,Beatrice,Beatrice,-18.25283,30.8473,P,PPL,ZW,,4,,,,1647,,1307,Africa/Harare,2018-05-09
200667,200667,895417,Banket,Banket,"Banket,Banket Junction",-17.38333,30.4,P,PPL,ZW,,5,,,,9641,,1277,Africa/Harare,2013-03-12
200668,200668,1085510,Epworth,Epworth,Epworth,-17.89,31.1475,P,PPLX,ZW,,10,,,,123250,,1508,Africa/Harare,2012-01-19
200669,200669,1106542,Chitungwiza,Chitungwiza,"Chitungviza,Chitungwiza,Chytungviza,Citungviza...",-18.01274,31.07555,P,PPL,ZW,,10,,,,371244,,1435,Africa/Harare,2022-10-05


Описание таблицы с сайта GeoNames:
- geonameid         : integer id of record in geonames database
- name              : name of geographical point (utf8) varchar(200)
- asciiname         : name of geographical point in plain ascii characters, varchar(200)
- alternatenames    : alternatenames, comma separated, ascii names automatically transliterated, convenience attribute from alternatename table, varchar(10000)
- latitude          : latitude in decimal degrees (wgs84)
- longitude         : longitude in decimal degrees (wgs84)
- feature class     : see http://www.geonames.org/export/codes.html, char(1)
- feature code      : see http://www.geonames.org/export/codes.html, varchar(10)
- country code      : ISO-3166 2-letter country code, 2 characters
- cc2               : alternate country codes, comma separated, ISO-3166 2-letter country code, 200 characters
- admin1 code       : fipscode (subject to change to iso code), see exceptions below, see file admin1Codes.txt for display - names of this code; varchar(20)
- admin2 code       : code for the second administrative division, a county in the US, see file admin2Codes.txt; varchar(80) 
- admin3 code       : code for third level administrative division, varchar(20)
- admin4 code       : code for fourth level administrative division, varchar(20)
- population        : bigint (8 byte int) 
- elevation         : in meters, integer
- dem               : digital elevation model, srtm3 or gtopo30, average elevation of 3''x3'' (ca 90mx90m) or 30''x30'' (ca 900mx900m) area in meters, integer. srtm processed by cgiar/ciat.
- timezone          : the iana timezone id (see file timeZone.txt) varchar(40)
- modification date : date of last modification in yyyy-MM-dd format

В таблице 200670 записей, наиболее интересные столбцы – `geonameid`, `asciiname`, `alternatenames`.

In [5]:
# создание репорта с описанием
full_profile = ProfileReport(cities, title="Full Report", explorative=True)
full_profile

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]



`geonameid` не имеет повторяющихся значений, дубликатов не найдено, в полях `alternatenames` и `asciiname` есть пропуски. Рассмотрим эти пропуски поближе.

In [6]:
cities.loc[cities['asciiname'].isna()]

Unnamed: 0,df_index,geonameid,name,asciiname,alternatenames,latitude,longitude,feature class,feature code,country code,cc2,admin1 code,admin2 code,admin3 code,admin4 code,population,elevation,dem,timezone,modification date
106689,106689,3172215,,,"None,none,ノーネ",44.93645,7.54015,P,PPLA3,IT,,12,TO,1168.0,,7507,246.0,248,Europe/Rome,2014-04-13
165397,165379,583509,Ak”yar,,"Akjar,Akujar,Ak”yar,Khaibulina,Khaybulino,Khay...",51.85905,58.22136,P,PPL,RU,,08,,,,5549,,330,Asia/Yekaterinburg,2010-06-08
169191,169191,8986867,Gradiška,,GradiKa,46.61728,15.64797,P,PPL,SI,,55,,,,929,,264,Europe/Ljubljana,2014-04-24
169197,169197,8986873,Zaboršt,,ZaborT,46.13539,14.61294,P,PPL,SI,,G7,,,,752,,294,Europe/Ljubljana,2014-04-24
169201,169201,8986877,Parižlje,,PariLje,46.27973,15.05669,P,PPL,SI,,F7,,,,739,,292,Europe/Ljubljana,2014-04-24
169209,169209,8986885,Nova Štifta,,Nova Tifta,46.27469,14.74917,P,PPL,SI,,30,,,,633,,538,Europe/Ljubljana,2014-04-24
169210,169210,8986886,Puštal,,PuTal,46.15064,14.31186,P,PPL,SI,,B9,,,,630,,388,Europe/Ljubljana,2014-04-24
169212,169212,8986888,Hajdoše,,HajdoE,46.43289,15.82614,P,PPL,SI,,G9,,,,628,,226,Europe/Ljubljana,2014-04-24
169216,169216,8986892,Žižki,,"Zizki,Zsizsekszer,IKi,Žižki",46.56721,16.31499,P,PPL,SI,,15,,,,587,,167,Europe/Ljubljana,2014-04-24
169217,169217,8986893,Leše,,"Lese,LeE,Leše",46.52846,14.89385,P,PPL,SI,,K6,,,,586,,566,Europe/Ljubljana,2014-04-24


Итальянский город Ноне превратился в тип None, в остальных случаях можно заполнить пропуски значениями из столбца `name`.

In [7]:
# индексы пропущенных значений
idx = cities.loc[cities['asciiname'].isna()].index

# город Ноне
cities.loc[cities['geonameid'] == 3172215, 'asciiname'] = str(None)

In [8]:
# функция для приведения названий к ascii
def to_ascii(string):
    string = str(
        unicodedata.normalize('NFD', string)
        .encode('ascii', 'ignore'))
    return string[2:-1]

In [9]:
# заполнение пропусков и проверка
cities.loc[
    cities['asciiname'].isna(), 'asciiname'] = cities.loc[
    cities['asciiname'].isna(), 'name']\
      .apply(to_ascii)

print('Количество пропусков в asciiname:',
      cities['asciiname'].isna().sum())
cities.iloc[idx]

Количество пропусков в asciiname: 0


Unnamed: 0,df_index,geonameid,name,asciiname,alternatenames,latitude,longitude,feature class,feature code,country code,cc2,admin1 code,admin2 code,admin3 code,admin4 code,population,elevation,dem,timezone,modification date
106689,106689,3172215,,,"None,none,ノーネ",44.93645,7.54015,P,PPLA3,IT,,12,TO,1168.0,,7507,246.0,248,Europe/Rome,2014-04-13
165397,165379,583509,Ak”yar,Akyar,"Akjar,Akujar,Ak”yar,Khaibulina,Khaybulino,Khay...",51.85905,58.22136,P,PPL,RU,,08,,,,5549,,330,Asia/Yekaterinburg,2010-06-08
169191,169191,8986867,Gradiška,Gradiska,GradiKa,46.61728,15.64797,P,PPL,SI,,55,,,,929,,264,Europe/Ljubljana,2014-04-24
169197,169197,8986873,Zaboršt,Zaborst,ZaborT,46.13539,14.61294,P,PPL,SI,,G7,,,,752,,294,Europe/Ljubljana,2014-04-24
169201,169201,8986877,Parižlje,Parizlje,PariLje,46.27973,15.05669,P,PPL,SI,,F7,,,,739,,292,Europe/Ljubljana,2014-04-24
169209,169209,8986885,Nova Štifta,Nova Stifta,Nova Tifta,46.27469,14.74917,P,PPL,SI,,30,,,,633,,538,Europe/Ljubljana,2014-04-24
169210,169210,8986886,Puštal,Pustal,PuTal,46.15064,14.31186,P,PPL,SI,,B9,,,,630,,388,Europe/Ljubljana,2014-04-24
169212,169212,8986888,Hajdoše,Hajdose,HajdoE,46.43289,15.82614,P,PPL,SI,,G9,,,,628,,226,Europe/Ljubljana,2014-04-24
169216,169216,8986892,Žižki,Zizki,"Zizki,Zsizsekszer,IKi,Žižki",46.56721,16.31499,P,PPL,SI,,15,,,,587,,167,Europe/Ljubljana,2014-04-24
169217,169217,8986893,Leše,Lese,"Lese,LeE,Leše",46.52846,14.89385,P,PPL,SI,,K6,,,,586,,566,Europe/Ljubljana,2014-04-24


Признаки `country code` и `admin1 code` понадобятся в дальнейшем для объединения таблиц, однако в них тоже есть пропуски (45 и 29 соответственно). Так как их мало, можно удалить эти объекты.

In [10]:
cities.dropna(subset=['country code', 'admin1 code'], inplace=True)
print('Количество пропусков:',
      cities[['country code', 'admin1 code']].isna().sum(),
      sep='\n')

Количество пропусков:
country code    0
admin1 code     0
dtype: int64


#### alternateNamesV2

In [11]:
# таблица слишком большая для пандаса, поэтому загружаем только часть
query = 'SELECT * FROM "alternateNamesV2" LIMIT 10000'
alt_names = pd.read_sql_query(query, con=engine)
show(alt_names, info=True)

(10000, 10)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   alternateNameId  10000 non-null  object
 1   geonameid        10000 non-null  object
 2   isolanguage      10000 non-null  object
 3   alternate name   10000 non-null  object
 4   isPreferredName  10000 non-null  object
 5   isShortName      10000 non-null  object
 6   isColloquial     10000 non-null  object
 7   isHistoric       10000 non-null  object
 8   from             10000 non-null  object
 9   to               10000 non-null  object
dtypes: object(10)
memory usage: 781.4+ KB
None


Unnamed: 0,alternateNameId,geonameid,isolanguage,alternate name,isPreferredName,isShortName,isColloquial,isHistoric,from,to
0,563070,1127185,,Gaṟḏana-i-Saṟe Hōs̄,,,,,,
1,3609604,1127185,,Gardaneh-ye Sar-e Hūsh,,,,,,
2,5426876,1127185,,Gardanah-ye Sar-e Hōsh,,,,,,
3,5426877,1127185,,گردنۀ سر هوش,,,,,,
4,15569658,1127185,wkdt,Q21748486,,,,,,
9995,8238475,1129263,,Shēlah-ye Qāsim ‘Alī,,,,,,
9996,566173,1129264,,Qāsim Ābāḏ,,,,,,
9997,3090561,1129264,,Qāsimābād,,,,,,
9998,3090562,1129264,,قاسم آباد,,,,,,
9999,3090563,1129264,,Qāsemābād,,,,,,


Описание таблицы с сайта GeoNames:
- alternateNameId   : the id of this alternate name, int
- geonameid         : geonameId referring to id in table 'geoname', int
- isolanguage       : iso 639 language code 2- or 3-characters, optionally followed by a hyphen and a countrycode for country specific variants (ex:zh-CN) or by a variant name (ex: zh-Hant); 4-characters 'post' for postal codes and 'iata','icao' and faac for airport codes, fr_1793 for French Revolution names,  abbr for abbreviation, link to a website (mostly to wikipedia), wkdt for the wikidataid, varchar(7)
- alternate name    : alternate name or name variant, varchar(400)
- isPreferredName   : '1', if this alternate name is an official/preferred name
- isShortName       : '1', if this is a short name like 'California' for 'State of California'
- isColloquial      : '1', if this alternate name is a colloquial or slang term. Example: 'Big Apple' for 'New York'.
- isHistoric        : '1', if this alternate name is historic and was used in the past. Example 'Bombay' for 'Mumbai'.
- from		  : from period when the name was used
- to		  : to period when the name was used

Можно заметить, что таблица alternateNamesV2 вроде как повторяет столбец `alternatenames` таблицы cities в части названий населенных пунктов. Проверим, так ли это на примере города с большим количеством альтернативных названий, например, Москвы.

In [12]:
# создаем список с альтернативными именами Москвы из таблицы cities
temp_cities = list(cities.query('geonameid == 524901')['alternatenames'])
temp_cities = temp_cities[0].split(',')
print('Количество имен:', len(temp_cities))
temp_cities

Количество имен: 93


['MOW',
 'Maeskuy',
 'Maskav',
 'Maskava',
 'Maskva',
 'Mat-xco-va',
 'Matxcova',
 'Matxcơva',
 'Mosca',
 'Moscfa',
 'Moscha',
 'Mosco',
 'Moscou',
 'Moscova',
 'Moscovo',
 'Moscow',
 'Moscoƿ',
 'Moscu',
 'Moscua',
 'Moscòu',
 'Moscó',
 'Moscù',
 'Moscú',
 'Moskva',
 'Moska',
 'Moskau',
 'Mosko',
 'Moskokh',
 'Moskou',
 'Moskov',
 'Moskova',
 'Moskovu',
 'Moskow',
 'Moskowa',
 'Mosku',
 'Moskuas',
 'Moskva',
 'Moskve',
 'Moskvo',
 'Moskvy',
 'Moskwa',
 'Moszkva',
 'Muskav',
 'Musko',
 'Mát-xcơ-va',
 'Mòskwa',
 'Məskeu',
 'Məskəү',
 'masko',
 'maskw',
 'mo si ke',
 'moseukeuba',
 'mosko',
 'mosukuwa',
 'mskw',
 'mwskva',
 'mwskw',
 'mwsqbh',
 'mx s ko',
 'Μόσχα',
 'Мæскуы',
 'Маскав',
 'Масква',
 'Москва',
 'Москве',
 'Москвы',
 'Москова',
 'Москох',
 'Москъва',
 'Мускав',
 'Муско',
 'Мәскеу',
 'Мәскәү',
 'Մոսկվա',
 'מאָסקװע',
 'מאסקווע',
 'מוסקבה',
 'ماسکو',
 'مسکو',
 'موسكو',
 'موسكۋا',
 'ܡܘܣܩܒܐ',
 'मास्को',
 'मॉस्को',
 'মস্কো',
 'மாஸ்கோ',
 'มอสโก',
 'མོ་སི་ཁོ།',
 'მოსკოვი',
 'ሞስኮ',
 

In [13]:
# создаем список с альтернативными именами Москвы из таблицы alternateNamesV2
query = 'SELECT * FROM "alternateNamesV2" WHERE "geonameid" = TEXT(524901)'
temp_alt = list(pd.read_sql_query(query, con=engine)['alternate name'])
print('Количество имен:', len(temp_alt))
temp_alt

Количество имен: 118


['Moskva',
 'Moskau',
 'Moscou',
 'Moscú',
 'Moskvo',
 'Moscow',
 'Moskou',
 'Moskau',
 'Moscú',
 'موسكو',
 'Moscú',
 'Масква',
 'Москва',
 'Moscou',
 'Moskva',
 'Mòskwa',
 'Мускав',
 'Moscfa',
 'Moskva',
 'Μόσχα',
 'Moskva',
 'مسکو',
 'Moskova',
 'Moscó',
 'Moscova',
 'מוסקבה',
 'मास्को',
 'Moskva',
 'Moszkva',
 'Moskwa',
 'Moskva',
 'Moskva',
 'Mosca',
 'モスクワ',
 'Moskuas',
 'მოსკოვი',
 '모스크바',
 'Moscua',
 'Moskau',
 'Moskou',
 'Maskva',
 'Maskava',
 'Москва',
 'Москова',
 'Moskau',
 'Moskou',
 'Moskva',
 'Moscou',
 'Мæскуы',
 'Moskwa',
 'Moscovo',
 'Moscova',
 'Mosca',
 'Moskva',
 'Moskva',
 'Москва',
 'Moskva',
 'มอสโก',
 'Moskova',
 'Мәскәү',
 'Москва',
 'Mát-xcơ-va',
 'Moscou',
 'מאָסקװע',
 '莫斯科',
 'Moscoƿ',
 'Mosku',
 'Moscova',
 'Mosko',
 'Moskva',
 'مسکو',
 'மாஸ்கோ',
 'Муско',
 'موسكۋا',
 'Moskva',
 'Moskva',
 'ሞስኮ',
 'ܡܘܣܩܒܐ',
 'মস্কো',
 'མོ་སི་ཁོ།',
 'Moskva',
 'Москох',
 'Moscù',
 'Москъва',
 'Moskowa',
 'Moscou',
 'Moskou',
 'Moskwa',
 'Մոսկվա',
 'Moskow',
 'मॉस्को',
 'Mosc

Во втором списке названий больше, создадим список, в котором будут названия, которые не совпали.

In [14]:
temp_result = [i for i in temp_alt if i not in temp_cities]
temp_result

['https://en.wikipedia.org/wiki/Moscow',
 'https://uk.wikipedia.org/wiki/%D0%9C%D0%BE%D1%81%D0%BA%D0%B2%D0%B0',
 'http://id.loc.gov/authorities/names/n79076156',
 'RUMOW',
 'Q649']

Остались только ссылки и численные обозначения, остальные названия совпали. Таким образом, столбец `alternatenames` таблицы cities можно использовать без подгрузки названий из таблицы AlternateNamesV2.

#### admin1CodesASCII

In [15]:
query = 'SELECT * FROM "admin1CodesASCII"'
admin = pd.read_sql_query(query, con=engine)
show(admin, info=True)

(3881, 5)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3881 entries, 0 to 3880
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   index       3881 non-null   int64 
 1   code        3881 non-null   object
 2   name        3881 non-null   object
 3   name ascii  3881 non-null   object
 4   geonameid   3881 non-null   int64 
dtypes: int64(2), object(3)
memory usage: 151.7+ KB
None


Unnamed: 0,index,code,name,name ascii,geonameid
0,0,AD.06,Sant Julià de Loria,Sant Julia de Loria,3039162
1,1,AD.05,Ordino,Ordino,3039676
2,2,AD.04,La Massana,La Massana,3040131
3,3,AD.03,Encamp,Encamp,3040684
4,4,AD.02,Canillo,Canillo,3041203
3876,3876,ZW.04,Mashonaland East,Mashonaland East,886842
3877,3877,ZW.03,Mashonaland Central,Mashonaland Central,886843
3878,3878,ZW.01,Manicaland,Manicaland,887358
3879,3879,ZW.09,Bulawayo,Bulawayo,1105843
3880,3880,ZW.10,Harare,Harare,1105844


Описание таблицы с сайта GeoNames:
- geonameid         : integer id of record in geonames database
- name              : name of geographical point (utf8)
- name ascii         : name of geographical point in plain ascii characters,
- code   : fipscode (subject to change to iso code)

Из данной таблицы будем получать название региона по коду страны с номером.

#### countryInfo

In [16]:
query = 'SELECT * FROM "countryInfo"'
country_info = pd.read_sql_query(query, con=engine)
show(country_info, info=True)

(252, 20)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 252 entries, 0 to 251
Data columns (total 20 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   index               252 non-null    int64  
 1   ISO                 251 non-null    object 
 2   ISO3                252 non-null    object 
 3   ISO-Numeric         252 non-null    int64  
 4   fips                249 non-null    object 
 5   Country             252 non-null    object 
 6   Capital             246 non-null    object 
 7   Area(in sq km)      252 non-null    float64
 8   Population          252 non-null    int64  
 9   Continent           210 non-null    object 
 10  tld                 251 non-null    object 
 11  CurrencyCode        251 non-null    object 
 12  CurrencyName        251 non-null    object 
 13  Phone               247 non-null    object 
 14  Postal Code Format  162 non-null    object 
 15  Postal Code Regex   162 non-null    object 
 16

Unnamed: 0,index,ISO,ISO3,ISO-Numeric,fips,Country,Capital,Area(in sq km),Population,Continent,tld,CurrencyCode,CurrencyName,Phone,Postal Code Format,Postal Code Regex,Languages,geonameid,neighbours,EquivalentFipsCode
0,0,AD,AND,20,AN,Andorra,Andorra la Vella,468.0,77006,EU,.ad,EUR,Euro,376,AD###,^(?:AD)*(\d{3})$,ca,3041565,"ES,FR",
1,1,AE,ARE,784,AE,United Arab Emirates,Abu Dhabi,82880.0,9630959,AS,.ae,AED,Dirham,971,,,"ar-AE,fa,en,hi,ur",290557,"SA,OM",
2,2,AF,AFG,4,AF,Afghanistan,Kabul,647500.0,37172386,AS,.af,AFN,Afghani,93,,,"fa-AF,ps,uz-AF,tk",1149361,"TM,CN,IR,TJ,PK,UZ",
3,3,AG,ATG,28,AC,Antigua and Barbuda,St. John's,443.0,96286,,.ag,XCD,Dollar,+1-268,,,en-AG,3576396,,
4,4,AI,AIA,660,AV,Anguilla,The Valley,102.0,13254,,.ai,XCD,Dollar,+1-264,,,en-AI,3573511,,
247,247,ZA,ZAF,710,SF,South Africa,Pretoria,1219912.0,57779622,AF,.za,ZAR,Rand,27,####,^(\d{4})$,"zu,xh,af,nso,en-ZA,tn,st,ts,ss,ve,nr",953987,"ZW,SZ,MZ,BW,NA,LS",
248,248,ZM,ZMB,894,ZA,Zambia,Lusaka,752614.0,17351822,AF,.zm,ZMW,Kwacha,260,#####,^(\d{5})$,"en-ZM,bem,loz,lun,lue,ny,toi",895949,"ZW,TZ,MZ,CD,NA,MW,AO",
249,249,ZW,ZWE,716,ZI,Zimbabwe,Harare,390580.0,14439018,AF,.zw,ZWL,Dollar,263,,,"en-ZW,sn,nr,nd",878675,"ZA,MZ,BW,ZM",
250,250,CS,SCG,891,YI,Serbia and Montenegro,Belgrade,102350.0,10829175,EU,.cs,RSD,Dinar,381,#####,^(\d{5})$,"cu,hu,sq,sr",8505033,"AL,HU,MK,RO,HR,BA,BG",
251,251,AN,ANT,530,NT,Netherlands Antilles,Willemstad,960.0,300000,,.an,ANG,Guilder,599,,,"nl-AN,en,es",8505032,GP,


В данной таблице нас интересует столбцы `ISO` и `Country`, отсюда мы будем получать название страны.

#### geo_test

In [17]:
test = pd.read_csv('geo_test.csv', delimiter=';')
show(test)

(345, 4)


Unnamed: 0,query,name,region,country
0,Смоленск,Smolensk,Smolensk Oblast,Russia
1,Кемерово,Kemerovo,Kuzbass,Russia
2,Бишкек,Bishkek,Bishkek,Kyrgyzstan
3,Москва,Moscow,Moscow,Russia
4,Алматы,Almaty,Almaty,Kazakhstan
340,Отеген-Батыр,Otegen Batyra,Almaty,Kazakhstan
341,Тамань,Taman’,Krasnodar Krai,Russia
342,Ачинск,Achinsk,Krasnoyarsk Krai,Russia
343,Трудовое,Trudovoye,Primorye,Russia
344,Московский,Moskovskiy,Moscow,Russia


Тестовый датасет, с форматом: запрос – название населенного пункта - регион - страна.

**Промежуточный вывод:** все таблицы успешно загружены, заполнено часть пропусков, часть объектов с пропусками в данных удалена. Таблицы готовы к объединению.

### Объединение таблиц

Объединим данные, чтобы в одной таблице была вся необходимая информация.

In [18]:
# создание ключа, по которому будут присоединяться регионы
cities['code'] = cities['country code'] + '.' + cities['admin1 code']
show(cities)

(200596, 21)


Unnamed: 0,df_index,geonameid,name,asciiname,alternatenames,latitude,longitude,feature class,feature code,country code,cc2,admin1 code,admin2 code,admin3 code,admin4 code,population,elevation,dem,timezone,modification date,code
0,0,3038999,Soldeu,Soldeu,,42.57688,1.66769,P,PPL,AD,,2,,,,602,,1832,Europe/Andorra,2017-11-06,AD.02
1,1,3039154,El Tarter,El Tarter,"Ehl Tarter,Эл Тартер",42.57952,1.65362,P,PPL,AD,,2,,,,1052,,1721,Europe/Andorra,2012-11-03,AD.02
2,2,3039163,Sant Julià de Lòria,Sant Julia de Loria,"San Julia,San Julià,Sant Julia de Loria,Sant J...",42.46372,1.49129,P,PPLA,AD,,6,,,,8022,,921,Europe/Andorra,2013-11-23,AD.06
3,3,3039604,Pas de la Casa,Pas de la Casa,"Pas de la Kasa,Пас де ла Каса",42.54277,1.73361,P,PPL,AD,,3,,,,2363,2050.0,2106,Europe/Andorra,2008-06-09,AD.03
4,4,3039678,Ordino,Ordino,"Ordino,ao er di nuo,orudino jiao qu,Ордино,オルデ...",42.55623,1.53319,P,PPLA,AD,,5,,,,3066,,1296,Europe/Andorra,2018-10-26,AD.05
200665,200665,895269,Beitbridge,Beitbridge,"Bajtbridz,Bajtbridzh,Beitbridge,Beitbridzas,Be...",-22.21667,30.0,P,PPL,ZW,,7,,,,58100,,461,Africa/Harare,2022-10-07,ZW.07
200666,200666,895308,Beatrice,Beatrice,Beatrice,-18.25283,30.8473,P,PPL,ZW,,4,,,,1647,,1307,Africa/Harare,2018-05-09,ZW.04
200667,200667,895417,Banket,Banket,"Banket,Banket Junction",-17.38333,30.4,P,PPL,ZW,,5,,,,9641,,1277,Africa/Harare,2013-03-12,ZW.05
200668,200668,1085510,Epworth,Epworth,Epworth,-17.89,31.1475,P,PPLX,ZW,,10,,,,123250,,1508,Africa/Harare,2012-01-19,ZW.10
200669,200669,1106542,Chitungwiza,Chitungwiza,"Chitungviza,Chitungwiza,Chytungviza,Citungviza...",-18.01274,31.07555,P,PPL,ZW,,10,,,,371244,,1435,Africa/Harare,2022-10-05,ZW.10


In [19]:
# присоединение регионов
cities = cities.merge(
    right=admin,
    left_on=['code'],
    right_on=['code'],
    how = 'inner',
)
show(cities)

(200492, 25)


Unnamed: 0,df_index,geonameid_x,name_x,asciiname,alternatenames,latitude,longitude,feature class,feature code,country code,cc2,admin1 code,admin2 code,admin3 code,admin4 code,population,elevation,dem,timezone,modification date,code,index,name_y,name ascii,geonameid_y
0,0,3038999,Soldeu,Soldeu,,42.57688,1.66769,P,PPL,AD,,2,,,,602,,1832,Europe/Andorra,2017-11-06,AD.02,4,Canillo,Canillo,3041203
1,1,3039154,El Tarter,El Tarter,"Ehl Tarter,Эл Тартер",42.57952,1.65362,P,PPL,AD,,2,,,,1052,,1721,Europe/Andorra,2012-11-03,AD.02,4,Canillo,Canillo,3041203
2,9,3041204,Canillo,Canillo,"Canillo,Kanil'o,ka ni e,kaniryo jiao qu,Каниль...",42.5676,1.59756,P,PPLA,AD,,2,,,,3292,,1561,Europe/Andorra,2018-10-26,AD.02,4,Canillo,Canillo,3041203
3,2,3039163,Sant Julià de Lòria,Sant Julia de Loria,"San Julia,San Julià,Sant Julia de Loria,Sant J...",42.46372,1.49129,P,PPLA,AD,,6,,,,8022,,921,Europe/Andorra,2013-11-23,AD.06,0,Sant Julià de Loria,Sant Julia de Loria,3039162
4,3,3039604,Pas de la Casa,Pas de la Casa,"Pas de la Kasa,Пас де ла Каса",42.54277,1.73361,P,PPL,AD,,3,,,,2363,2050.0,2106,Europe/Andorra,2008-06-09,AD.03,3,Encamp,Encamp,3040684
200487,200665,895269,Beitbridge,Beitbridge,"Bajtbridz,Bajtbridzh,Beitbridge,Beitbridzas,Be...",-22.21667,30.0,P,PPL,ZW,,7,,,,58100,,461,Africa/Harare,2022-10-07,ZW.07,3872,Matabeleland South,Matabeleland South,886747
200488,200643,890299,Harare,Harare,"Arare,Charare,HRE,Harare,Hararensis Urbs,Harar...",-17.82772,31.05337,P,PPLC,ZW,,10,,,,1542813,,1494,Africa/Harare,2019-09-05,ZW.10,3880,Harare,Harare,1105844
200489,200668,1085510,Epworth,Epworth,Epworth,-17.89,31.1475,P,PPLX,ZW,,10,,,,123250,,1508,Africa/Harare,2012-01-19,ZW.10,3880,Harare,Harare,1105844
200490,200669,1106542,Chitungwiza,Chitungwiza,"Chitungviza,Chitungwiza,Chytungviza,Citungviza...",-18.01274,31.07555,P,PPL,ZW,,10,,,,371244,,1435,Africa/Harare,2022-10-05,ZW.10,3880,Harare,Harare,1105844
200491,200662,894701,Bulawayo,Bulawayo,"BUQ,Bulavajas,Bulavajo,Bulavejo,Bulawayo,bu la...",-20.15,28.58333,P,PPLA,ZW,,9,,,,1200337,,1348,Africa/Harare,2023-02-24,ZW.09,3879,Bulawayo,Bulawayo,1105843


In [20]:
# присоединение стран
cities = cities.merge(
    right=country_info,
    left_on=['country code'],
    right_on=['ISO']
)
show(cities)

(200492, 45)


Unnamed: 0,df_index,geonameid_x,name_x,asciiname,alternatenames,latitude,longitude,feature class,feature code,country code,cc2,admin1 code,admin2 code,admin3 code,admin4 code,population,elevation,dem,timezone,modification date,code,index_x,name_y,name ascii,geonameid_y,index_y,ISO,ISO3,ISO-Numeric,fips,Country,Capital,Area(in sq km),Population,Continent,tld,CurrencyCode,CurrencyName,Phone,Postal Code Format,Postal Code Regex,Languages,geonameid,neighbours,EquivalentFipsCode
0,0,3038999,Soldeu,Soldeu,,42.57688,1.66769,P,PPL,AD,,2,,,,602,,1832,Europe/Andorra,2017-11-06,AD.02,4,Canillo,Canillo,3041203,0,AD,AND,20,AN,Andorra,Andorra la Vella,468.0,77006,EU,.ad,EUR,Euro,376,AD###,^(?:AD)*(\d{3})$,ca,3041565,"ES,FR",
1,1,3039154,El Tarter,El Tarter,"Ehl Tarter,Эл Тартер",42.57952,1.65362,P,PPL,AD,,2,,,,1052,,1721,Europe/Andorra,2012-11-03,AD.02,4,Canillo,Canillo,3041203,0,AD,AND,20,AN,Andorra,Andorra la Vella,468.0,77006,EU,.ad,EUR,Euro,376,AD###,^(?:AD)*(\d{3})$,ca,3041565,"ES,FR",
2,9,3041204,Canillo,Canillo,"Canillo,Kanil'o,ka ni e,kaniryo jiao qu,Каниль...",42.5676,1.59756,P,PPLA,AD,,2,,,,3292,,1561,Europe/Andorra,2018-10-26,AD.02,4,Canillo,Canillo,3041203,0,AD,AND,20,AN,Andorra,Andorra la Vella,468.0,77006,EU,.ad,EUR,Euro,376,AD###,^(?:AD)*(\d{3})$,ca,3041565,"ES,FR",
3,2,3039163,Sant Julià de Lòria,Sant Julia de Loria,"San Julia,San Julià,Sant Julia de Loria,Sant J...",42.46372,1.49129,P,PPLA,AD,,6,,,,8022,,921,Europe/Andorra,2013-11-23,AD.06,0,Sant Julià de Loria,Sant Julia de Loria,3039162,0,AD,AND,20,AN,Andorra,Andorra la Vella,468.0,77006,EU,.ad,EUR,Euro,376,AD###,^(?:AD)*(\d{3})$,ca,3041565,"ES,FR",
4,3,3039604,Pas de la Casa,Pas de la Casa,"Pas de la Kasa,Пас де ла Каса",42.54277,1.73361,P,PPL,AD,,3,,,,2363,2050.0,2106,Europe/Andorra,2008-06-09,AD.03,3,Encamp,Encamp,3040684,0,AD,AND,20,AN,Andorra,Andorra la Vella,468.0,77006,EU,.ad,EUR,Euro,376,AD###,^(?:AD)*(\d{3})$,ca,3041565,"ES,FR",
200487,200665,895269,Beitbridge,Beitbridge,"Bajtbridz,Bajtbridzh,Beitbridge,Beitbridzas,Be...",-22.21667,30.0,P,PPL,ZW,,7,,,,58100,,461,Africa/Harare,2022-10-07,ZW.07,3872,Matabeleland South,Matabeleland South,886747,249,ZW,ZWE,716,ZI,Zimbabwe,Harare,390580.0,14439018,AF,.zw,ZWL,Dollar,263,,,"en-ZW,sn,nr,nd",878675,"ZA,MZ,BW,ZM",
200488,200643,890299,Harare,Harare,"Arare,Charare,HRE,Harare,Hararensis Urbs,Harar...",-17.82772,31.05337,P,PPLC,ZW,,10,,,,1542813,,1494,Africa/Harare,2019-09-05,ZW.10,3880,Harare,Harare,1105844,249,ZW,ZWE,716,ZI,Zimbabwe,Harare,390580.0,14439018,AF,.zw,ZWL,Dollar,263,,,"en-ZW,sn,nr,nd",878675,"ZA,MZ,BW,ZM",
200489,200668,1085510,Epworth,Epworth,Epworth,-17.89,31.1475,P,PPLX,ZW,,10,,,,123250,,1508,Africa/Harare,2012-01-19,ZW.10,3880,Harare,Harare,1105844,249,ZW,ZWE,716,ZI,Zimbabwe,Harare,390580.0,14439018,AF,.zw,ZWL,Dollar,263,,,"en-ZW,sn,nr,nd",878675,"ZA,MZ,BW,ZM",
200490,200669,1106542,Chitungwiza,Chitungwiza,"Chitungviza,Chitungwiza,Chytungviza,Citungviza...",-18.01274,31.07555,P,PPL,ZW,,10,,,,371244,,1435,Africa/Harare,2022-10-05,ZW.10,3880,Harare,Harare,1105844,249,ZW,ZWE,716,ZI,Zimbabwe,Harare,390580.0,14439018,AF,.zw,ZWL,Dollar,263,,,"en-ZW,sn,nr,nd",878675,"ZA,MZ,BW,ZM",
200491,200662,894701,Bulawayo,Bulawayo,"BUQ,Bulavajas,Bulavajo,Bulavejo,Bulawayo,bu la...",-20.15,28.58333,P,PPLA,ZW,,9,,,,1200337,,1348,Africa/Harare,2023-02-24,ZW.09,3879,Bulawayo,Bulawayo,1105843,249,ZW,ZWE,716,ZI,Zimbabwe,Harare,390580.0,14439018,AF,.zw,ZWL,Dollar,263,,,"en-ZW,sn,nr,nd",878675,"ZA,MZ,BW,ZM",


In [21]:
cities.rename(columns={'Country':'country',
                       'name ascii':'region'},
              inplace=True)

`geonameid_x` отвечает за айди населенных пунктов, `geonameid_y` – за айди регионов.

Так как в данной задаче мы ограничиваемся странами СНГ, а также Грузией, Сербией и Турцией, то оставим только эти страны.

In [22]:
countries = ['AZ', 'AM', 'BY',
             'KG', 'KZ', 'MD',
             'RU', 'TJ', 'UZ',
             'GE', 'RS', 'TR']

cities = cities.loc[cities['country code'].isin(countries)]

**Промежуточный вывод:** таблицы объединены по соответствующим ключам, оставлен определенный круг стран.

## План

Учитывая, что вводимые данные будут преимущественно на русском и английском языках, имеет смысл сосредоточиться на создании отдельных корпусов с русскими и латинскими названиями. Сопоставление запроса и geoname будет происходить с помощью метрики, которая представяет собой сумму расстояний между вектором запроса и названиями корпуса. Русский запрос будет сравниваться с русским корпусом, запрос на латинице – с английским. В случае одинаковых расстояний для двух разных городов, приоритет будет у города с б**о**льшим населением.

![image-4.png](attachment:image-4.png)

### Подготовка корпуса

Подготовим корпус с русскими и английскими названиями. Для этого оставим столбцы с айди городов и регионов, названия городов и регионов, альтернативные имена, количество населения и название страны.

In [23]:
# оставляем только нужные столбцы
corpus = cities[['geonameid_x',
                 'name_x',
                 'asciiname',
                 'alternatenames',
                 'population',
                 'country',
                 'region',
                 'geonameid_y']]

In [24]:
# функция для фильтрации пустых названий, либо названий из одного символа
def to_none(x):
    if len(x) == 0 or x == len(x) * x[0]:
        return False
    else:
        return True
'''
функция приводит к нижнему регистру и оставляет только латинские символы.
Если значение table = False, то вдобавок приводит к ascii формату
'''    
def en_text(string):
    if string == None:
        return
    string = re.sub(r'[^A-Za-z]', '', string.lower())

    return string   

'''
функция приводит к нижнему регистру и оставляет только русские символы,
запятые и символы i из белорусского и украинского языков. Это сделано для того, 
чтобы оставить названия, использующие часть русского алфавита. Если установлен
флаг table, то разделяет str по запятым и фильтрует
'''
def ru_text(string, table=True):
    if string == None:
        return
    string = re.sub(r'[^А-Яа-я,іi]', '', string.lower())
    if table:
        string = string.split(',')
        string = list(filter(to_none, string))
    return string


'''
функция для транслитерации с английского на русский
'''
translit_ru = get_translit_function('ru')
def transliterate(string):
    return [translit_ru(string.lower()).translate(string).lower()]

In [25]:
# обработка русского текста
corpus.loc[:, 'alternatenames'] = corpus.loc[:,'alternatenames']\
      .apply(ru_text)
show(corpus)

(9376, 8)


Unnamed: 0,geonameid_x,name_x,asciiname,alternatenames,population,country,region,geonameid_y
369,174969,Avshar,Avshar,[],4215,Armenia,Ararat,409313
370,174704,Zangakatun,Zangakatun,[зангакатун],1130,Armenia,Ararat,409313
371,174706,Goravan,Goravan,[],2238,Armenia,Ararat,409313
372,174709,Yeghegnavan,Yeghegnavan,[ехегнаван],1221,Armenia,Ararat,409313
373,174713,Vostan,Vostan,[востан],2925,Armenia,Ararat,409313
198480,1514608,Oltinko‘l,Oltinko`l,[],0,Uzbekistan,Andijon,1484846
198481,1514683,Oxunboboyev,Oxunboboyev,[],0,Uzbekistan,Andijon,1484846
198482,1514707,Oqoltin,Oqoltin,[],0,Uzbekistan,Andijon,1484846
198483,1514716,Oyim,Oyim,"[аим, ойим]",32750,Uzbekistan,Andijon,1484846
198484,1538533,Sultonobod,Sultonobod,"[султанабад, султонобод]",20000,Uzbekistan,Andijon,1484846


Часть объектов не имеет русской транслитерации, другая часть наоборот, содержит несколько вариантов. Раскроем списки и "расширим" таблицу, а также добавим русские названия там, где их не было.

In [26]:
# заменяем пустые списки на None
corpus.loc[~corpus['alternatenames'].isna(), 'alternatenames'] =\
       corpus.loc[~corpus['alternatenames'].isna(), 'alternatenames']\
             .apply(lambda x: None if len(x) == 0 else x)
show(corpus)

(9376, 8)


Unnamed: 0,geonameid_x,name_x,asciiname,alternatenames,population,country,region,geonameid_y
369,174969,Avshar,Avshar,,4215,Armenia,Ararat,409313
370,174704,Zangakatun,Zangakatun,[зангакатун],1130,Armenia,Ararat,409313
371,174706,Goravan,Goravan,,2238,Armenia,Ararat,409313
372,174709,Yeghegnavan,Yeghegnavan,[ехегнаван],1221,Armenia,Ararat,409313
373,174713,Vostan,Vostan,[востан],2925,Armenia,Ararat,409313
198480,1514608,Oltinko‘l,Oltinko`l,,0,Uzbekistan,Andijon,1484846
198481,1514683,Oxunboboyev,Oxunboboyev,,0,Uzbekistan,Andijon,1484846
198482,1514707,Oqoltin,Oqoltin,,0,Uzbekistan,Andijon,1484846
198483,1514716,Oyim,Oyim,"[аим, ойим]",32750,Uzbekistan,Andijon,1484846
198484,1538533,Sultonobod,Sultonobod,"[султанабад, султонобод]",20000,Uzbekistan,Andijon,1484846


In [27]:
# создаем столбец для английского поисковика
corpus['en_name'] = corpus['asciiname'].apply(en_text)
show(corpus)

(9376, 9)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  corpus['en_name'] = corpus['asciiname'].apply(en_text)


Unnamed: 0,geonameid_x,name_x,asciiname,alternatenames,population,country,region,geonameid_y,en_name
369,174969,Avshar,Avshar,,4215,Armenia,Ararat,409313,avshar
370,174704,Zangakatun,Zangakatun,[зангакатун],1130,Armenia,Ararat,409313,zangakatun
371,174706,Goravan,Goravan,,2238,Armenia,Ararat,409313,goravan
372,174709,Yeghegnavan,Yeghegnavan,[ехегнаван],1221,Armenia,Ararat,409313,yeghegnavan
373,174713,Vostan,Vostan,[востан],2925,Armenia,Ararat,409313,vostan
198480,1514608,Oltinko‘l,Oltinko`l,,0,Uzbekistan,Andijon,1484846,oltinkol
198481,1514683,Oxunboboyev,Oxunboboyev,,0,Uzbekistan,Andijon,1484846,oxunboboyev
198482,1514707,Oqoltin,Oqoltin,,0,Uzbekistan,Andijon,1484846,oqoltin
198483,1514716,Oyim,Oyim,"[аим, ойим]",32750,Uzbekistan,Andijon,1484846,oyim
198484,1538533,Sultonobod,Sultonobod,"[султанабад, султонобод]",20000,Uzbekistan,Andijon,1484846,sultonobod


In [28]:
# добавляем перевод там, где не было русских названий
corpus.loc[corpus['alternatenames'].isna(), 'alternatenames'] =\
       corpus.loc[corpus['alternatenames'].isna(), 'asciiname']\
             .apply(transliterate)
show(corpus)

(9376, 9)


Unnamed: 0,geonameid_x,name_x,asciiname,alternatenames,population,country,region,geonameid_y,en_name
369,174969,Avshar,Avshar,[авшар],4215,Armenia,Ararat,409313,avshar
370,174704,Zangakatun,Zangakatun,[зангакатун],1130,Armenia,Ararat,409313,zangakatun
371,174706,Goravan,Goravan,[гораван],2238,Armenia,Ararat,409313,goravan
372,174709,Yeghegnavan,Yeghegnavan,[ехегнаван],1221,Armenia,Ararat,409313,yeghegnavan
373,174713,Vostan,Vostan,[востан],2925,Armenia,Ararat,409313,vostan
198480,1514608,Oltinko‘l,Oltinko`l,[олтинко`л],0,Uzbekistan,Andijon,1484846,oltinkol
198481,1514683,Oxunboboyev,Oxunboboyev,[оxунбобоыев],0,Uzbekistan,Andijon,1484846,oxunboboyev
198482,1514707,Oqoltin,Oqoltin,[оqолтин],0,Uzbekistan,Andijon,1484846,oqoltin
198483,1514716,Oyim,Oyim,"[аим, ойим]",32750,Uzbekistan,Andijon,1484846,oyim
198484,1538533,Sultonobod,Sultonobod,"[султанабад, султонобод]",20000,Uzbekistan,Andijon,1484846,sultonobod


In [29]:
# раскрытие списков и расширение таблицы
temp = pd.DataFrame([*corpus['alternatenames'].values], corpus.index)\
         .stack().reset_index(-1, name='ru_name')
corpus = corpus[['geonameid_x',
                       'name_x',
                       'asciiname',
                       'alternatenames',
                       'population',
                       'country',
                       'region',
                       'en_name',
                       'geonameid_y']].join(temp)

corpus.drop(
    ['alternatenames', 'level_1'],
    inplace=True,
    axis=1)

corpus.reset_index(inplace=True, drop=True)
show(corpus)

(13039, 9)


Unnamed: 0,geonameid_x,name_x,asciiname,population,country,region,en_name,geonameid_y,ru_name
0,174969,Avshar,Avshar,4215,Armenia,Ararat,avshar,409313,авшар
1,174704,Zangakatun,Zangakatun,1130,Armenia,Ararat,zangakatun,409313,зангакатун
2,174706,Goravan,Goravan,2238,Armenia,Ararat,goravan,409313,гораван
3,174709,Yeghegnavan,Yeghegnavan,1221,Armenia,Ararat,yeghegnavan,409313,ехегнаван
4,174713,Vostan,Vostan,2925,Armenia,Ararat,vostan,409313,востан
13034,1514707,Oqoltin,Oqoltin,0,Uzbekistan,Andijon,oqoltin,1484846,оqолтин
13035,1514716,Oyim,Oyim,32750,Uzbekistan,Andijon,oyim,1484846,аим
13036,1514716,Oyim,Oyim,32750,Uzbekistan,Andijon,oyim,1484846,ойим
13037,1538533,Sultonobod,Sultonobod,20000,Uzbekistan,Andijon,sultonobod,1484846,султанабад
13038,1538533,Sultonobod,Sultonobod,20000,Uzbekistan,Andijon,sultonobod,1484846,султонобод


Таким образом, каждому альтернативному названию соответствует свой geonameid. Векторизуем русский и латинский корпуса названий.

In [30]:
ru_vectorizer = CountVectorizer(analyzer='char',
                             ngram_range=(1, 2),
                             decode_error='ignore')


ru_sparse = ru_vectorizer.fit_transform(corpus['ru_name'])
ru_sparse

<13039x1072 sparse matrix of type '<class 'numpy.int64'>'
	with 181498 stored elements in Compressed Sparse Row format>

In [31]:
en_vectorizer = CountVectorizer(analyzer='char',
                             ngram_range=(1, 2),
                             decode_error='ignore')


en_sparse = en_vectorizer.fit_transform(corpus['en_name'])
en_sparse

<13039x562 sparse matrix of type '<class 'numpy.int64'>'
	with 190034 stored elements in Compressed Sparse Row format>

Для упрощения работы модуля добавим в разреженную матрицу столбцы с айди городов, регионов и количеством населения. Таким образом, при поиске названий по запросу пользователя можно будет:
- фильтровать результаты без присоединения лишних таблиц;
- быстро подцепить нужные имена регионов из базы SQL.

In [32]:
from scipy.sparse import hstack
from sqlalchemy.types import INTEGER

'''
Функция для добавления выбранных столбцов в разреженную матрицу векторов
'''
def stacking(sparse_matrix, columns, sql_name):
    # добавляем столбцы
    for i in columns:
        sparse_matrix = hstack((sparse_matrix, corpus[i].to_numpy()[:,None])).tocsr()
        
    # загружаем в PostgreSQL  
    pd.DataFrame.sparse.from_spmatrix(sparse_matrix).to_sql(
        sql_name,
        con=engine,
        dtype=INTEGER,
        if_exists='replace',
        index=False)
    
    return sparse_matrix

ru_id = stacking(ru_sparse,
                 ['geonameid_x', 'population', 'geonameid_y'],
                 'ru_sparse')

en_id = stacking(en_sparse,
                 ['geonameid_x', 'population', 'geonameid_y'],
                 'en_sparse')

pickle.dump(en_vectorizer, open("en_vector", "wb"))
pickle.dump(ru_vectorizer, open("ru_vector", "wb"))

**Промежуточный вывод:** подготовлены векторизованные представления названий населенных пунктов для выбранных стран на русском и английском языках.

## Мэтчинг

### Выбор метрики

Выведем несколько дистанций для запросов, намеренно записанных с ошибками.

In [33]:
# инициализация используемых языков
languages = [
    Language.RUSSIAN,
    Language.ENGLISH
]
detector = LanguageDetectorBuilder.from_languages(*languages).build()

In [34]:
'''
функция определяет язык запроса, в зависимости от языка происходит
векторизация и обработка определенными инструментами, далее функция рассчитывает
расстояния и формирует таблицу с результатами. Сортировка происходит по сумме всех 
расстояний и количеству населения (больше - лучше). На вход подается список и датафрейм.
'''
def compare_dist(query, df):
    # опеделение языка, формирование столбца с расстоянием Левенштейна
    for i in query:
        if detector.detect_language_of(i).name != 'RUSSIAN':
            query_vector = en_text(i)
            temp_df = df.copy()
            temp_df['lev'] = temp_df['en_name'].apply(lambda x: ratio(x, query_vector))
            sparse = en_sparse
            vectorizer = en_vectorizer
        else:
            query_vector = ru_text(i, False)
            temp_df = df.copy()
            temp_df['lev'] = temp_df['ru_name'].apply(lambda x: ratio(x, query_vector))
            sparse = ru_sparse
            vectorizer = ru_vectorizer
         
        query_vector = vectorizer.transform([query_vector]).toarray()[0]
        
        temp_dict = {}
        dist = ['cosine', 'euclidean', 'braycurtis', 'minkowski', 'hamming', 'canberra']
        for j in dist:
            temp_dict[j] = []
        
        # добавление небольших чисел, чтобы не было нулевых данных
        for j in range(sparse.shape[0]):
            temp = sparse.getrow(j).toarray()[0]
            temp_dict['cosine'].append(1 - distance.cosine(query_vector, temp))
            temp_dict['euclidean'].append(distance.euclidean(query_vector, temp) + 0.001)
            temp_dict['braycurtis'].append(distance.braycurtis(query_vector, temp) + 0.001)
            temp_dict['hamming'].append(distance.hamming(query_vector, temp) + 0.001)
            temp_dict['canberra'].append(distance.canberra(query_vector, temp) + 0.001)
            temp_dict['minkowski'].append(distance.minkowski(query_vector, temp, p=3) + 0.001)
        
        # стандартизация
        for j in temp_dict.keys():
            temp_df[j] = temp_dict[j]
            if j not in ['cosine', 'lev']:
                temp_df[j] = min(temp_df[j])/temp_df[j]
            else:
                temp_df[j] = temp_df[j]/max(temp_df[j])
                
        temp_df['summary'] = temp_df.iloc[:, -7:].sum(axis=1)
        display(temp_df.sort_values(by=['summary', 'population']).tail(10))


In [35]:
%%time
compare_dist(['Владевосток', 'Кирафск', 'Н. Новгород', 'Stambul'], corpus)

Unnamed: 0,geonameid_x,name_x,asciiname,population,country,region,en_name,geonameid_y,ru_name,lev,cosine,euclidean,braycurtis,minkowski,hamming,canberra,summary
1048,624923,Mastok,Mastok,650,Belarus,Mogilev,mastok,625073,мосток,0.588235,0.693375,0.612469,0.328066,0.669555,0.502558,0.46158,3.855839
7133,468835,Losevo,Losevo,640,Russia,Leningradskaya Oblast',losevo,536199,лосево,0.470588,0.756409,0.654746,0.328066,0.754049,0.469214,0.450041,3.883115
3423,534073,Losevo,Losevo,4476,Russia,Voronezh Oblast,losevo,472039,лосево,0.470588,0.756409,0.654746,0.328066,0.754049,0.469214,0.450041,3.883115
4304,514272,Ostashëvo,Ostashevo,2743,Russia,Moscow Oblast,ostashevo,524925,осташево,0.421053,0.771704,0.654746,0.36897,0.754049,0.469214,0.450041,3.889778
2487,789485,Kladovo,Kladovo,0,Serbia,Central Serbia,kladovo,785958,кладово,0.555556,0.76286,0.654746,0.348521,0.754049,0.469214,0.450041,3.994988
9500,1491719,Sladkovo,Sladkovo,3455,Russia,Tyumen Oblast,sladkovo,1488747,сладково,0.526316,0.771704,0.654746,0.36897,0.754049,0.469214,0.450041,3.995041
10066,2024858,Dostoyevka,Dostoyevka,1700,Russia,Primorye,dostoyevka,2017623,достоевка,0.6,0.834239,0.707191,0.45411,0.793791,0.541004,0.529453,4.459787
10202,2119701,Vostok,Vostok,2779,Russia,Sakhalin Oblast,vostok,2121529,восток,0.705882,0.882478,0.774668,0.458874,0.843505,0.638728,0.642895,4.947031
9981,2013279,Vostok,Vostok,3452,Russia,Primorye,vostok,2017623,восток,0.705882,0.882478,0.774668,0.458874,0.843505,0.638728,0.642895,4.947031
9984,2013348,Vladivostok,Vladivostok,604901,Russia,Primorye,vladivostok,2017623,владивосток,0.909091,1.0,1.0,1.0,1.0,1.0,1.0,6.909091


Unnamed: 0,geonameid_x,name_x,asciiname,population,country,region,en_name,geonameid_y,ru_name,lev,cosine,euclidean,braycurtis,minkowski,hamming,canberra,summary
7265,548392,Kirovsk,Kirovsk,24678,Russia,Leningradskaya Oblast',kirovsk,536199,кіраск,0.769231,0.919866,0.894461,0.857485,0.928351,0.819364,0.73336,5.922118
5415,548391,Kirovsk,Kirovsk,29605,Russia,Murmansk,kirovsk,524304,кіраск,0.769231,0.919866,0.894461,0.857485,0.928351,0.819364,0.73336,5.922118
1079,627272,Kirawsk,Kirawsk,8700,Belarus,Mogilev,kirawsk,625073,кировск,0.714286,0.951499,0.894461,0.928757,0.928351,0.819364,0.73336,5.970077
8701,2022083,Kirensk,Kirensk,13308,Russia,Irkutsk Oblast,kirensk,2023468,киренск,0.714286,0.951499,0.894461,0.928757,0.928351,0.819364,0.73336,5.970077
7264,548392,Kirovsk,Kirovsk,24678,Russia,Leningradskaya Oblast',kirovsk,536199,кировск,0.714286,0.951499,0.894461,0.928757,0.928351,0.819364,0.73336,5.970077
5414,548391,Kirovsk,Kirovsk,29605,Russia,Murmansk,kirovsk,524304,кировск,0.714286,0.951499,0.894461,0.928757,0.928351,0.819364,0.73336,5.970077
10052,2021644,Kraskino,Kraskino,3369,Russia,Primorye,kraskino,2017623,краскино,0.666667,0.983155,0.894461,1.0,0.928351,0.819364,0.73336,6.025358
10404,307625,Kırka,Kirka,4097,Turkey,Eskisehir,kirka,315201,кирка,0.666667,1.0,1.0,0.982192,1.0,1.0,0.916677,6.565536
4738,548333,Kirs,Kirs,11385,Russia,Kirov Oblast,kirs,548389,кирс,0.727273,0.974996,1.0,0.893124,1.0,1.0,1.0,6.595393
10633,307727,Kiraz,Kiraz,11718,Turkey,Izmir Province,kiraz,311044,кираз,0.666667,0.982704,1.0,0.982192,1.0,1.0,1.0,6.631562


Unnamed: 0,geonameid_x,name_x,asciiname,population,country,region,en_name,geonameid_y,ru_name,lev,cosine,euclidean,braycurtis,minkowski,hamming,canberra,summary
5867,519336,Velikiy Novgorod,Velikiy Novgorod,222868,Russia,Novgorod Oblast,velikiynovgorod,519324,великиновгород,0.695652,0.787615,0.353715,0.198946,0.464356,0.218306,0.114362,2.832952
5618,1497095,Novogornyy,Novogornyy,8132,Russia,Chelyabinsk,novogornyy,1508290,новогорный,0.631579,0.801743,0.408419,0.18993,0.550518,0.235006,0.111185,2.92838
7283,555624,Ivangorod,Ivangorod,11074,Russia,Leningradskaya Oblast',ivangorod,536199,івангород,0.666667,0.764593,0.408419,0.179408,0.550518,0.235006,0.126665,2.931276
7284,555624,Ivangorod,Ivangorod,11074,Russia,Leningradskaya Oblast',ivangorod,536199,ивангород,0.666667,0.764593,0.408419,0.179408,0.550518,0.235006,0.126665,2.931276
1187,628155,Gorodok,Gorodok,12410,Belarus,Vitebsk,gorodok,620134,городок,0.625,0.764593,0.408419,0.18993,0.500198,0.305004,0.148243,2.941387
654,627904,Hrodna,Hrodna,373547,Belarus,Grodnenskaya,hrodna,628035,гродно,0.533333,0.808804,0.447388,0.177304,0.584996,0.277457,0.156349,2.985631
6296,520555,Nizhniy Novgorod,Nizhniy Novgorod,1259013,Russia,Nizhny Novgorod Oblast,nizhniynovgorod,559838,нижнийновгород,0.782609,0.825897,0.353715,0.231983,0.436985,0.277457,0.14502,3.053666
3188,559542,Gorodnya,Gorodnya,5000,Russia,Tver Oblast,gorodnya,480041,городня,0.625,0.806738,0.447388,0.18993,0.584996,0.277457,0.156349,3.087858
7043,517144,Novyye Gorki,Novyye Gorki,2877,Russia,Ivanovo Oblast,novyyegorki,555235,новгорки,0.705882,0.808318,0.447388,0.202552,0.584996,0.277457,0.156349,3.182943
5869,519336,Velikiy Novgorod,Velikiy Novgorod,222868,Russia,Novgorod Oblast,velikiynovgorod,519324,новгород,0.941176,1.0,1.0,1.0,1.0,1.0,1.0,6.941176


Unnamed: 0,geonameid_x,name_x,asciiname,population,country,region,en_name,geonameid_y,ru_name,lev,cosine,euclidean,braycurtis,minkowski,hamming,canberra,summary
5291,484646,Tambov,Tambov,293661,Russia,Tambov Oblast,tambov,484638,тамбов,0.615385,0.817424,0.894461,0.686467,0.928351,0.810642,0.80002,5.552749
5292,484646,Tambov,Tambov,293661,Russia,Tambov Oblast,tambov,484638,тамбо,0.615385,0.817424,0.894461,0.686467,0.928351,0.810642,0.80002,5.552749
5293,484646,Tambov,Tambov,293661,Russia,Tambov Oblast,tambov,484638,томбу,0.615385,0.817424,0.894461,0.686467,0.928351,0.810642,0.80002,5.552749
1684,1524451,Dzhambul,Dzhambul,1336,Kazakhstan,Karaganda,dzhambul,1523401,джамбул,0.666667,0.9,0.894461,0.800558,0.928351,0.810642,0.80002,5.800699
1685,1524451,Dzhambul,Dzhambul,1336,Kazakhstan,Karaganda,dzhambul,1523401,жамбыл,0.666667,0.9,0.894461,0.800558,0.928351,0.810642,0.80002,5.800699
9578,1498257,Mul’ta,Mul'ta,704,Russia,Altai,multa,1506272,замульта,0.5,0.903696,1.0,0.786302,1.0,1.0,1.0,6.189998
9579,1498257,Mul’ta,Mul'ta,704,Russia,Altai,multa,1506272,мульта,0.5,0.903696,1.0,0.786302,1.0,1.0,1.0,6.189998
12177,745044,Istanbul,Istanbul,14804116,Turkey,Istanbul,istanbul,745042,византиаii,0.8,1.0,1.0,1.0,1.0,1.0,1.0,6.8
12178,745044,Istanbul,Istanbul,14804116,Turkey,Istanbul,istanbul,745042,истанбул,0.8,1.0,1.0,1.0,1.0,1.0,1.0,6.8
12179,745044,Istanbul,Istanbul,14804116,Turkey,Istanbul,istanbul,745042,стамбул,0.8,1.0,1.0,1.0,1.0,1.0,1.0,6.8


CPU times: total: 17.9 s
Wall time: 18 s


Заметно, что в названиях, где большинство метрик ошибается, косинусное расстояние и расстояние Минковского показывают себя лучше (Кировск, Новгород).

### Проверка на тестовом датасете

Для проверки на тесте немного перепишем предыдущую функцию, чтобы она возвращала список названий. Также используем только косинусное расстояние и расстояние Минковского.

In [36]:
'''
функция определяет язык запроса, в зависимости от языка происходит
векторизация и обработка определенными инструментами, далее функция рассчитывает
расстояния и формирует список с названиями. Сортировка происходит по сумме всех 
расстояний и количеству населения (больше - лучше)
'''
def matching(query, df):
    answer = []
    for i in query:
        if detector.detect_language_of(i).name != 'RUSSIAN':
            query_vector = en_text(i)
            temp_df = df.copy()
            sparse = en_sparse
            vectorizer = en_vectorizer
        else:
            query_vector = ru_text(i, False)
            temp_df = df.copy()
            sparse = ru_sparse
            vectorizer = ru_vectorizer
         
        query_vector = vectorizer.transform([query_vector]).toarray()[0]
        
        temp_dict = {}
        dist = ['cosine', 'minkowski']
        for j in dist:
            temp_dict[j] = []
        
        for j in range(sparse.shape[0]):
            temp = sparse.getrow(j).toarray()[0]
            temp_dict['cosine'].append(1 - distance.cosine(query_vector, temp))
            temp_dict['minkowski'].append(distance.minkowski(query_vector, temp, p=3) + 0.001)
        
        for j in temp_dict.keys():
            temp_df[j] = temp_dict[j]
            if j not in ['cosine']:
                temp_df[j] = min(temp_df[j])/temp_df[j]
            else:
                temp_df[j] = temp_df[j]/max(temp_df[j])
                
        temp_df['summary'] = temp_df.iloc[:, -2:].sum(axis=1)
        answer.append(temp_df.sort_values(by=['summary', 'population']).iloc[-1, 1])
    return answer

In [37]:
ru_test = matching(list(test['query']), corpus)

Создадим таблицу с ответами и выведем долю верно определенных названий.

In [38]:
check = pd.DataFrame({'predict':ru_test, 'true':test['name']})
check['result'] = check['predict'] == check['true']
check['result'].sum()/len(check)

0.9478260869565217

In [39]:
check.query('result == False')

Unnamed: 0,predict,true,result
10,Minsk,Minsk City,False
15,Oral,Yekaterinburg,False
17,Velikiy Novgorod,Nizhniy Novgorod,False
31,Kostanay,Astana,False
54,Lesogorsk,Salihorsk,False
63,Zaslawye,Yaroslavl,False
85,Saint Petersburg,Kaliningrad,False
87,Tolyatti,Stavropol’,False
91,Staryy Biser,Serbia,False
96,Areni,Armenia,False


Заметно, что некоторые названия в столбце `true` совпадают с предсказанными, но записаны чуть по-другому, например, Минск, Атырау, Октябрьский. Таким образом, для наивного подхода получен результат выше 95%, что довольно неплохо.

**Промежуточный вывод:** в рамках данной главы было проведено достаточно много исследований, которые не попали в итоговую тетрадку. Их описание представлено ниже.
1. Векторизация названий, используя различные N-грамы. Было исследовано несколько вариантов, от 1 до 4. В результате было принято решение оставить последовательность из двух элементов, так как при нём получалось наилучшее сочетание производительности/метрики.
2. Использование трансформеров. Данный подход показал метрику хуже, чем у наивного способа (векторизация), при этом дообучение заняло очень долгое время.
3. Использование других переводчиков. Был также протестирован гугл-переводчик, но он периодически "ломался", также испытавался deep translator, но он очень медленно работает, поэтому был выбран пакет "transliterate", несмотря на периодические факапы (Zayed City переводит как Зыед Циты), он выдает адекватный результат за рекордное время.
3. Подготовка корпуса названий по всему датасету, не только по странам СНГ. Данный подход хорош тем, что всегда есть векторизованная матрица, которая содержит в себе все названия. Главный минус - очень медленная скорость выдачи названий, то есть запрос обрабатывается порядка полутора минут на локальной машине. Проверка тестового датасета заняла около пяти часов. Также наблюдается несильное падение метрики, так как появляются новые похожие названия, например: "Bisbi"~"Spb". Интересное наблюдение - для общего датасета метрика Брея-Кертиса работала лучше, чем метрика Минковского, поэтому не исключается вариант, когда используются все три дистанции (косинусное, Минковского, Брея-Кертиса) с различными коэффициентами.

По результатам исследований был выбран подход, основанный на векторизации предобработанного корпуса на русском и английским языках. В качестве дистанций исполоьзуется косинусное расстояние и расстояние Минковского. На данном подходе был создан модуль `geonames` для выдачи унифицированных названий.

## Тестирование модуля

Модуль состоит из нескольких частей:
- импорты;
- общие функции;
- класс SqlConnector;
- класс CreateSparse;
- класс Matching.

Работу с модулем можно условно разделить на несколько этапов:
1. Импорт модуля
2. Настраиваемое соединение с базой данных
3. (Опционально) Выбор стран, в которых планируется поиск, далее векторизация соответствующих корпусов.
4. Поиск

### Импорт и соединение с базой данных

Модуль позволяет настроить соединение с базой SQL, из которой будут подгружаться таблицы.

In [40]:
import geonames

DATABASE = {
    'drivername': 'postgresql',
    'username': 'postgres', 
    'password': '112358', 
    'host': 'localhost',
    'port': 5432,
    'database': 'postgres',
    'query': {}
}

# присоединились к базе данных SQL
connect = geonames.SqlConnector(DATABASE)

Для дальнейшей работы необходимо скачать векторизованные матрицы и сами векторайзеры. Матрицы могут уже находиться в базе SQL, а модели лежать в корне.

In [41]:
# скачиваем разреженные матрицы из базы SQL по их названиям
ru_sparse = connect.download_sparse('ru_sparse')
en_sparse = connect.download_sparse('en_sparse')

# подгружаем предобученные векторайзеры
ru_vec = connect.download_vec('ru_vector')
en_vec = connect.download_vec('en_vector')

### Поиск названий

В данный момент, векторизованные представления названий соответствуют странам СНГ, Грузии и Турции, как и предобученные модели. Допустим, мы хотим оставить это как есть и производить поиск в пределах данных стран. Для этого используем класс `Matching`. При его инициализации необходимо указывать engine для связи с базой SQL, а также разреженные матрицы с векторайзерами.

In [42]:
module = geonames.Matching(ru_sparse=ru_sparse,
                           en_sparse=en_sparse,
                           ru_vectorizer=ru_vec,
                           en_vectorizer=en_vec,
                           engine = connect.engine)

Модуль готов!


Чтобы запустить поиск, используем метод `find` с запросом, по умолчанию метод выводит три ближайших названия в виде словаря с полями `geonameid`, `Country`, `region`, `cosine`. Очередность вывода согласно косинусным расстояниям.

In [43]:
module.find('Владивастоук')

[{'geonameid': 2013348,
  'name': 'Vladivostok',
  'Country': 'Russia',
  'region': 'Primorye',
  'cosine': 1.0},
 {'geonameid': 472357,
  'name': 'Volosovo',
  'Country': 'Russia',
  'region': "Leningradskaya Oblast'",
  'cosine': 0.7943406249793323},
 {'geonameid': 540103,
  'name': 'Kstovo',
  'Country': 'Russia',
  'region': 'Nizhny Novgorod Oblast',
  'cosine': 0.789672569132238}]

In [44]:
module.find('Киравкс', 5)

[{'geonameid': 499727,
  'name': 'Rzhavki',
  'Country': 'Russia',
  'region': 'Moscow Oblast',
  'cosine': 1.0},
 {'geonameid': 307625,
  'name': 'Kırka',
  'Country': 'Turkey',
  'region': 'Eskişehir',
  'cosine': 1.0},
 {'geonameid': 307727,
  'name': 'Kiraz',
  'Country': 'Turkey',
  'region': 'İzmir Province',
  'cosine': 0.982703641586785},
 {'geonameid': 548333,
  'name': 'Kirs',
  'Country': 'Russia',
  'region': 'Kirov Oblast',
  'cosine': 0.974996043043569},
 {'geonameid': 548391,
  'name': 'Kirovsk',
  'Country': 'Russia',
  'region': 'Murmansk',
  'cosine': 0.9514987095307502}]

In [45]:
module.find('Myrmansk', 2)

[{'geonameid': 524305,
  'name': 'Murmansk',
  'Country': 'Russia',
  'region': 'Murmansk',
  'cosine': 1.0},
 {'geonameid': 566629,
  'name': 'Demyansk',
  'Country': 'Russia',
  'region': 'Novgorod Oblast',
  'cosine': 0.8364567316637355}]

### Поиск в других странах

Предположим, что нужно расширить или наоборот уменьшить зону поиска. Для это можно воспользоваться классом `CreateSparse`. При его инициализации необходимо указывать engine для связи с базой SQL, а также таблицу городов, названия которой мы будем использовать. В данном случае это cities500. По умолчанию уже установлены вспомогательные таблицы для названий регионов и стран, однако при необходимости это можно изменить.

In [46]:
loader = geonames.CreateSparse(engine=connect.engine,
                               main_table='cities500')

Модуль готов!


Методы класса позволяют добавлять, убирать, очищать и проверять список стран для поиска. Обозначения стран согласно ISO.

In [47]:
# добавим Испанию
loader.add(['es'])

Добавлены следующие страны: ['es']
Поиск по странам: ['AZ', 'AM', 'BY', 'KG', 'KZ', 'MD', 'RU', 'TJ', 'UZ', 'GE', 'RS', 'TR', 'ES']


In [48]:
# удалим Казахстан
loader.remove(['kz'])

Убраны следующие страны: ['KZ']
Поиск по странам: ['AZ', 'AM', 'BY', 'KG', 'MD', 'RU', 'TJ', 'UZ', 'GE', 'RS', 'TR', 'ES']


In [49]:
# полностью очистим список стран
loader.clear()

Список стран очищен


In [50]:
# проверим
loader.check()

Поиск по странам: []


In [51]:
# добавим Италию
loader.add(['it'])

Добавлены следующие страны: ['it']
Поиск по странам: ['IT']


Чтобы провести поиск по измененному составу стран, необходимо создать новую разреженную матрицу и модели. Для этого используем метод `Vectorize`.

In [52]:
# метод выдает готовые разреженные матрицы
ru_sparse, en_sparse = loader.vectorize()

Векторизация завершена.


In [53]:
# подгружаем обновленные модели
ru_vec = connect.download_vec('ru_vector')
en_vec = connect.download_vec('en_vector')

In [54]:
module = geonames.Matching(ru_sparse=ru_sparse,
                           en_sparse=en_sparse,
                           ru_vectorizer=ru_vec,
                           en_vectorizer=en_vec,
                           engine = connect.engine)

Модуль готов!


In [55]:
module.find('Рим')

[{'geonameid': 3169070,
  'name': 'Rome',
  'Country': 'Italy',
  'region': 'Lazio',
  'cosine': 1.0},
 {'geonameid': 3169366,
  'name': 'Rima',
  'Country': 'Italy',
  'region': 'Piedmont',
  'cosine': 0.8451542547285167},
 {'geonameid': 3169361,
  'name': 'Rimini',
  'Country': 'Italy',
  'region': 'Emilia-Romagna',
  'cosine': 0.7592566023652966}]

In [56]:
module.find('Владивосток')

[{'geonameid': 2523975,
  'name': 'Olivadi',
  'Country': 'Italy',
  'region': 'Calabria',
  'cosine': 0.9906226997870246},
 {'geonameid': 3174661,
  'name': 'Livo',
  'Country': 'Italy',
  'region': 'Trentino-Alto Adige',
  'cosine': 0.96674876498663},
 {'geonameid': 3174662,
  'name': 'Livo',
  'Country': 'Italy',
  'region': 'Lombardy',
  'cosine': 0.96674876498663}]

Владивосток ожидаемо не находит, так как в пуле стран осталась только Италия.

**Промежуточный вывод:** модуль уверенно находит города, написанные на русском и английском языках, причем даже ошибочные названий интерпретируются корректно. Для ускорения процесса поиска можно создать несколько векторизованных матриц и моделей, условно для разных частей света, и подгружать нужные в процессе работы.

## Вывод

**Ход исследовательской работы**

В рамках данной задачи были выполнены следующие этапы:

- проведены исследование и предобработка данных;
- заполнены пропуски;
- выполнена проверка на дубликаты;
- созданы два векторизованных корпуса;
- проведено исследование влияния векторных расстояний на результат.

В качестве MVP был выбран подход с суммарным косинусным расстоянием и расстоянием Минковского.

**Результаты исследовательской работы**

На тестовом датасете получена точность выше 95%. На основе данных, полученных в ходе исследовательских работ, был создан модуль `geonames`, который по запросу пользователя подбирает подходящие названия geonames с высокой точностью. Также модуль позволяет:
- настраивать поключение к БД;
- векторизировать корпуса названий и варьировать списком стран для поиска;
- хранить векторизованные данные в PostgreSQL;
- настраивать количество названий для выдачи.

При этом модуль "терпим" к возможным ошибкам ввода, благодаря комбинации расстояний.

**Рекомендации по улучшению решения**

1. Параметризовать веса расстояний и попробовать решить задачу оптимизации весов с помощью нейросети.
2. В настоящий момент все объекты с пропусками в ключевых столбцах удаляются, поэтому необходимо предусмотреть процесс заполнения пропусков.
3. Предусмотреть ввод на языке, написанном не на латинице/кириллице.