# Создание решения для сопоставления гео названий с унифицированными именами geonames

## Описание проекта

**Заказчик**

Карьерный центр Яндекс Практикум



**Цель:**
- Сопоставление произвольных гео названий с унифицированными именами geonames для внутреннего использования Карьерным центром

**Задачи:**

- Создать решение для подбора наиболее подходящих названий с geonames. Например Ереван -> Yerevan

- На примере РФ и стран наиболее популярных для релокации - Беларусь, Армения, Казахстан, Кыргызстан, Турция, Сербия. Города с населением от 15000 человек.

- Возвращаемые поля geonameid, name, region, country, cosine similarity

- формат данных на выходе: список словарей, например [{dict_1}, {dict_2}, …. {dict_n}] где словарь - одна запись с указанными полями

- Предусмотреть возможность настройки количества выдачи подходящих названий

- Предусмотреть хранение в PostgreSQL данных geonames

- Предусмотреть метод для инициализации класса (первичная векторизация geonames)

- Предусмотреть методы для добавления векторов новых гео названий



## Описание данных

**Используемые таблицы с geonames:**

- admin1CodesASCII

- alternateNamesV2

- cities15000

- countryInfo

Таблицы geonames http://download.geonames.org/export/dump

Тестовый датасет https://disk.yandex.ru/d/wC296Rj3Yso2AQ

## Загрузка и установка бибилиотек

In [13]:
pip install --force-reinstall 'sqlalchemy < 2.0.0'

Collecting sqlalchemy<2.0.0
  Downloading SQLAlchemy-1.4.50-cp310-cp310-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.6/1.6 MB[0m [31m18.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting greenlet!=0.4.17 (from sqlalchemy<2.0.0)
  Downloading greenlet-3.0.3-cp310-cp310-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl (616 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m616.0/616.0 kB[0m [31m56.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: greenlet, sqlalchemy
  Attempting uninstall: greenlet
    Found existing installation: greenlet 3.0.2
    Uninstalling greenlet-3.0.2:
      Successfully uninstalled greenlet-3.0.2
  Attempting uninstall: sqlalchemy
    Found existing installation: SQLAlchemy 2.0.23
    Uninstalling SQLAlchemy-2.0.23:
      Successfully uninstalled SQLAlchemy-2.0.23
[31mERROR: pip's dependency resolver does not

In [12]:
import sqlalchemy
sqlalchemy.__version__

'1.4.50'

In [1]:
!pip install transliterate



In [2]:
!pip install thefuzz



In [3]:
!pip install python-dotenv



In [4]:
!pip install psycopg2



In [3]:
import pandas as pd
import re
import string
import numpy as np
from sqlalchemy.engine.url import URL
from sqlalchemy import create_engine, MetaData, Table, Column,select, Integer, String, DECIMAL, CHAR, BIGINT, func,DATE
from sqlalchemy import create_engine, text
from sqlalchemy.exc import SQLAlchemyError
from sqlalchemy.sql import text
from transliterate import slugify
from transliterate import detect_language
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from thefuzz import process

In [4]:
import os
from dotenv import load_dotenv

In [5]:
import getpass

In [8]:
from google.colab import drive
drive.mount('/content/drive')
DIR = '/content/drive/MyDrive/Projects/Geonames/datasets/'

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## Подключение к базе данных PostgreSQL

In [8]:
    # Указываем путь к файлу .env
env_path = '/content/drive/MyDrive/Projects/Geonames/final/.env'

    # Загружаем переменные окружения из файла
load_dotenv(env_path)

    # Получаем пароль от пользователя, не отображая его в выводе
password = getpass.getpass(prompt='Enter your password: ')

  # Все значения подтягиваем из переменных окружения
USR = os.getenv('USR')
DB_HOST = os.getenv('DB_HOST')
PORT = os.getenv('PORT')
DB = os.getenv('DB')

DATABASE = {
      'drivername': 'postgresql',
      'username': USR,
      'password': password,
      'host': DB_HOST,
      'port': PORT,
      'database': DB,
      'query': {},
  }
    #Geodata2023!

Enter your password: ··········


In [9]:
DATABASE


{'drivername': 'postgresql',
 'username': 'Natalia',
 'password': 'Geodata2023!',
 'host': '77.222.36.33',
 'port': '19679',
 'database': 'geo_v2',
 'query': {}}

In [10]:
# Создаем объект engine
engine = create_engine(URL.create(**DATABASE))
engine

Engine(postgresql://Natalia:***@77.222.36.33:19679/geo_v2)

In [7]:
# Проверка соединения с базой данных
try:
    # Подключаемся к базе данных
    with engine.connect() as conn:
        # Выполняем простой запрос с помощью функции text для приведения строки к SQL-выражению
        result = conn.execute(text("SELECT 1"))
        for _ in result:
            pass  # Перебираем результаты, если они есть
    print(f"Успешно подключились к базе данных: {DATABASE['database']} на {DATABASE['host']}")
except SQLAlchemyError as e:
    print(f"Ошибка при подключении к базе данных: {e}")


Успешно подключились к базе данных: geo_v2 на 77.222.36.33


## Загрузка таблиц в базу данных

### geonames

In [None]:
column_names = [
    'geonameid', 'name', 'asciiname', 'alternatenames', 'latitude', 'longitude',
    'feature_class', 'feature_code', 'country_code', 'cc2', 'admin1_code',
    'admin2_code', 'admin3_code', 'admin4_code', 'population', 'elevation',
    'dem', 'timezone', 'modification_date'
]

In [None]:
data = pd.read_csv('../datasets/RS.txt', sep='\t', names=column_names, encoding='utf-8')

In [None]:
geonames = Table('geonames', metadata,
    Column('geonameid', Integer),
    Column('name', String(200)),
    Column('asciiname', String(200)),
    Column('alternatenames', String(10000)),
    Column('latitude', DECIMAL),
    Column('longitude', DECIMAL),
    Column('feature_class', CHAR(1)),
    Column('feature_code', String(10)),
    Column('country_code', CHAR(2)),
    Column('cc2', String(200)),
    Column('admin1_code', String(20)),
    Column('admin2_code', String(80)),
    Column('admin3_code', String(20)),
    Column('admin4_code', String(20)),
    Column('population', BIGINT),
    Column('elevation', Integer),
    Column('dem', Integer),
    Column('timezone', String(40)),
    Column('modification_date', DATE)
)

metadata.create_all(engine)

"\ngeonames = Table('geonames', metadata,\n    Column('geonameid', Integer),\n    Column('name', String(200)),\n    Column('asciiname', String(200)),\n    Column('alternatenames', String(10000)),\n    Column('latitude', DECIMAL),\n    Column('longitude', DECIMAL),\n    Column('feature_class', CHAR(1)),\n    Column('feature_code', String(10)),\n    Column('country_code', CHAR(2)),\n    Column('cc2', String(200)),\n    Column('admin1_code', String(20)),\n    Column('admin2_code', String(80)),\n    Column('admin3_code', String(20)),\n    Column('admin4_code', String(20)),\n    Column('population', BIGINT),\n    Column('elevation', Integer),\n    Column('dem', Integer),\n    Column('timezone', String(40)),\n    Column('modification_date', DATE)\n)\n\nmetadata.create_all(engine)\n"

In [None]:
data.to_sql('geonames', con=engine, if_exists='append', index=False)

In [None]:
#Тестовый запрос
query = "SELECT * FROM geonames WHERE country_code = 'RS' LIMIT 10  "
pd.read_sql_query(query, con=engine)

Unnamed: 0,geonameid,name,asciiname,alternatenames,latitude,longitude,feature_class,feature_code,country_code,cc2,admin1_code,admin2_code,admin3_code,admin4_code,population,elevation,dem,timezone,modification_date
0,3256445,Veselinovića Brdo,Veselinovica Brdo,"Veselinovica Brdo,Veselinovića Brdo",44.59667,19.36083,T,HLL,RS,,SE,8.0,70734.0,,0,202.0,196,Europe/Belgrade,2020-01-28
1,3256447,Ante,Ante,Ante,44.59611,19.37806,T,SLP,RS,,00,,,,0,,163,Europe/Belgrade,2012-01-19
2,3256449,Kičerić,Kiceric,"Kiceric,Kičerić",44.6175,19.38806,T,HLL,RS,,SE,8.0,70734.0,,0,402.0,400,Europe/Belgrade,2020-01-28
3,3256451,Velike Cerje,Velike Cerje,Velike Cerje,44.61956,19.41549,L,LCTY,RS,,SE,8.0,70734.0,,0,,510,Europe/Belgrade,2020-01-28
4,3256458,Mrsića Grob,Mrsica Grob,"Mrsica Grob,Mrsića Grob",44.62111,19.39972,T,HLL,RS,,SE,8.0,70734.0,,0,,487,Europe/Belgrade,2020-01-28
5,3256460,Lazića Kosa,Lazica Kosa,"Lazica Kosa,Lazića Kosa",44.61085,19.38941,T,SLP,RS,,00,,,,0,,233,Europe/Belgrade,2012-07-05
6,3256462,Veselinovača,Veselinovaca,"Veselinovaca,Veselinovača",44.61083,19.40583,T,HLL,RS,,SE,8.0,70734.0,,0,367.0,360,Europe/Belgrade,2020-01-28
7,3256464,Rasadnik,Rasadnik,Rasadnik,44.60417,19.39417,T,SLP,RS,,00,,,,0,,255,Europe/Belgrade,2012-01-19
8,3256465,Joševica,Josevica,"Josevica,Joševica",44.57932,19.40343,H,STM,RS,,00,,,,0,,145,Europe/Belgrade,2012-07-05
9,3256467,Uroševići,Urosevici,"Urosevici,Uroševići",44.59259,19.3986,P,PPL,RS,,SE,8.0,70734.0,,0,,197,Europe/Belgrade,2020-01-28


### cities15000

In [None]:
column_names = [
    'geonameid', 'name', 'asciiname', 'alternatenames', 'latitude', 'longitude',
    'feature_class', 'feature_code', 'country_code', 'cc2', 'admin1_code',
    'admin2_code', 'admin3_code', 'admin4_code', 'population', 'elevation',
    'dem', 'timezone', 'modification_date'
]

In [None]:
data = pd.read_csv('../datasets/cities15000.txt', sep='\t', names=column_names, encoding='utf-8')
data.head()

"\ndata = pd.read_csv('../datasets/cities15000.txt', sep='\t', names=column_names, encoding='utf-8')\ndata.head()\n"

In [None]:
data.to_sql('cities15000', con=engine, if_exists='append', index=False)

"\ndata.to_sql('cities15000', con=engine, if_exists='append', index=False)\n"

In [None]:
metadata = MetaData()

cities = Table('cities15000', metadata,
    Column('geonameid', Integer),
    Column('name', String(200)),
    Column('asciiname', String(200)),
    Column('alternatenames', String(10000)),
    Column('latitude', DECIMAL),
    Column('longitude', DECIMAL),
    Column('feature_class', CHAR(1)),
    Column('feature_code', String(10)),
    Column('country_code', CHAR(2)),
    Column('cc2', String(200)),
    Column('admin1_code', String(20)),
    Column('admin2_code', String(80)),
    Column('admin3_code', String(20)),
    Column('admin4_code', String(20)),
    Column('population', BIGINT),
    Column('elevation', Integer),
    Column('dem', Integer),
    Column('timezone', String(40)),
    Column('modification_date', DATE)
)

"\nmetadata = MetaData()\n\ncities = Table('cities15000', metadata,\n    Column('geonameid', Integer),\n    Column('name', String(200)),\n    Column('asciiname', String(200)),\n    Column('alternatenames', String(10000)),\n    Column('latitude', DECIMAL),\n    Column('longitude', DECIMAL),\n    Column('feature_class', CHAR(1)),\n    Column('feature_code', String(10)),\n    Column('country_code', CHAR(2)),\n    Column('cc2', String(200)),\n    Column('admin1_code', String(20)),\n    Column('admin2_code', String(80)),\n    Column('admin3_code', String(20)),\n    Column('admin4_code', String(20)),\n    Column('population', BIGINT),\n    Column('elevation', Integer),\n    Column('dem', Integer),\n    Column('timezone', String(40)),\n    Column('modification_date', DATE)\n)\n"

In [None]:
#query = select(func.count()).select_from(cities)

In [None]:
count = pd.read_sql_query(query, con=engine).values[0,0]
print("Number of entries in 'cities15000':", count)

Number of entries in 'cities15000': 3276007


### admin1CodesASCII

In [None]:
column_names = ['code', 'name', 'asciiname', 'geonameid']

"\ncolumn_names = ['code', 'name', 'asciiname', 'geonameid']\n"

In [None]:
'''
data = pd.read_csv('../datasets/admin1CodesASCII.txt', sep='\t', names=column_names, encoding='utf-8')
data.head()
'''

"\ndata = pd.read_csv('../datasets/admin1CodesASCII.txt', sep='\t', names=column_names, encoding='utf-8')\ndata.head()\n"

In [None]:
'''
metadata = MetaData()

cities = Table('admin1CodesASCII', metadata,
    Column('code', CHAR(5)),
    Column('name', String(200)),
    Column('asciiname', String(100)),
    Column('geonameid', Integer)
)
metadata.create_all(engine)

data.to_sql('admin1CodesASCII', con=engine, if_exists='replace', index=False)
'''

"\nmetadata = MetaData()\n\ncities = Table('admin1CodesASCII', metadata,\n    Column('code', CHAR(5)),\n    Column('name', String(200)),\n    Column('asciiname', String(100)),\n    Column('geonameid', Integer)\n)\nmetadata.create_all(engine)\n\ndata.to_sql('admin1CodesASCII', con=engine, if_exists='replace', index=False)\n"

## Исследование данных

### Создаем df

In [None]:
from sqlalchemy import inspect

inspector = inspect(engine)
schemas = inspector.get_schema_names()

for schema in schemas:
    #print("schema: %s" % schema)
    print(inspector.get_table_names(schema=schema))

['sql_features', 'sql_implementation_info', 'sql_parts', 'sql_sizing']
['alternateNames', 'geonames', 'countryInfo', 'countryInfo2', 'cities15000', 'admin1CodesASCII']


In [None]:
pip install --upgrade psycopg2



In [None]:
query = f'''
    SELECT
        cities.geonameid,
        cities.country_code,
        cities.name,
        cities.alternatenames,
        regions.name as region,
        ci."Country"

    FROM
        cities15000 AS cities
    LEFT JOIN
        (SELECT "ISO", "Country" FROM "countryInfo") AS ci
    ON
        cities.country_code = ci."ISO"
    LEFT JOIN
        "admin1CodesASCII" AS regions
    ON
        COALESCE(cities.country_code, '') || '.' || COALESCE(cities.admin1_code, '') = regions.code
    WHERE
        cities.country_code IN ('AM', 'BY', 'GE', 'KG', 'KZ', 'RU', 'RS', 'TR');
'''

df = pd.read_sql_query(query, con=engine, index_col = 'geonameid').drop_duplicates()
df.head()

Unnamed: 0_level_0,country_code,name,alternatenames,region,Country
geonameid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
174875,AM,Kapan,"Ghap'an,Ghapan,Ghap’an,Kafan,Kafin,Kapan,Kapan...",Syunik,Armenia
174895,AM,Goris,"Geryusy,Goris,Горис,Գորիս",Syunik,Armenia
174972,AM,Hats’avan,"Acavan,Atsavan,Hats'avan,Hats’avan,Sisian,Ацав...",Syunik,Armenia
174979,AM,Artashat,"Artachat,Artasat,Artasatas,Artasato,Artaschat,...",Ararat,Armenia
174991,AM,Ararat,"Ararat,Araratas,Ararato,Davalinskiy Tsemzavod,...",Ararat,Armenia


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1731 entries, 174875 to 11238838
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   country_code    1731 non-null   object
 1   name            1731 non-null   object
 2   alternatenames  1712 non-null   object
 3   region          1731 non-null   object
 4   Country         1731 non-null   object
dtypes: object(5)
memory usage: 81.1+ KB


## Решение

In [None]:
# Разбиваем столбец 'alternatenames' на отдельные названия
altnames = [list.split(',') if list else [None] for list in df['alternatenames'].values]

# Получаем названия из столбца 'name'
names = df['name'].values

# Добавляем названия к соответствующим спискам альтернативных названий
for i in range(len(altnames)):
    altnames[i].append(names[i])

# Создаем словарь с индексами DataFrame в качестве ключей и списками имен в качестве значений
name_dict = dict(zip(df.index, altnames))

In [None]:
def search(query, k=10):
    # Если язык запроса отличается, нормализуем его с помощью slugify
    if detect_language(query) is not None:
        query = slugify(query)

    # Контейнер для оценок совпадения для каждого города
    scores = {}

    # Для каждого города вычисляем оценки совпадения с каждым альтернативным именем
    for index, name_list in name_dict.items():
        # Исключаем значения None из name_list
        name_list = [name for name in name_list if name is not None]

        # Преобразуем список имен в строку для использования в CountVectorizer
        name_string = " ".join(name_list)

        # Используем CountVectorizer для векторизации имен
        vectorizer = CountVectorizer()
        vectorizer.fit([query, name_string])
        vectorized_names = vectorizer.transform([query, name_string])

        # Вычисляем cosine similarity
        similarity_scores_cosine = cosine_similarity(vectorized_names)

        # Используем среднее значение cosine similarity в качестве оценки совпадения
        scores[index] = np.mean(similarity_scores_cosine)

    # Сортируем группы имен по оценке совпадения
    sorted_scores = dict(sorted(scores.items(), key=lambda item: item[1], reverse=True))

    # Выбираем индексы DataFrame для топ k
    indexes = list(sorted_scores)[:k]

    # Возвращаем результат в нужном формате
    result = df.loc[indexes]

    # Добавляем оценки в DataFrame
    result.insert(1, column='similarity', value=list(sorted_scores.values())[:k])

    result_list = []
    for idx in indexes:
        result_dict = {
            'geonameid': idx,
            'name': df.loc[idx, 'name'],
            'region': df.loc[idx, 'region'],
            'country': df.loc[idx, 'Country'],
            'similarity': round(sorted_scores[idx], 2)
        }
        result_list.append(result_dict)

    return result_list

### Тест

In [None]:
%%time
k=4
# query = input()
query = 'Тольятти'

search(query, k)

CPU times: user 2.46 s, sys: 24.8 ms, total: 2.49 s
Wall time: 2.49 s


[{'geonameid': 482283,
  'name': 'Tolyatti',
  'region': 'Samara Oblast',
  'country': 'Russia',
  'similarity': 0.56},
 {'geonameid': 625144,
  'name': 'Minsk',
  'region': 'Minsk City',
  'country': 'Belarus',
  'similarity': 0.5},
 {'geonameid': 3194360,
  'name': 'Novi Sad',
  'region': 'Vojvodina',
  'country': 'Serbia',
  'similarity': 0.5},
 {'geonameid': 576116,
  'name': 'Blagoveshchensk',
  'region': 'Bashkortostan Republic',
  'country': 'Russia',
  'similarity': 0.5}]

In [None]:
%%time
k=3
query = 'Сталинград'
#query = 'Атомград'

search(query, k)

CPU times: user 4.03 s, sys: 14.3 ms, total: 4.04 s
Wall time: 5.65 s


[{'geonameid': 472757,
  'name': 'Volgograd',
  'region': 'Volgograd Oblast',
  'country': 'Russia',
  'similarity': 0.56},
 {'geonameid': 625144,
  'name': 'Minsk',
  'region': 'Minsk City',
  'country': 'Belarus',
  'similarity': 0.5},
 {'geonameid': 3194360,
  'name': 'Novi Sad',
  'region': 'Vojvodina',
  'country': 'Serbia',
  'similarity': 0.5}]

## Альтернативнй алгоритм поиска основанный на `fuzzy` search
`Fuzzy` - это эффективная реализация алгоритма поиска расстояния Левенштейна.
Самая быстрая реализация вычислений реализована в алгоритме `fuzzy` search. Существуют различные реализации для Python; здесь мы используем [`thefuzz`](https://github.com/seatgeek/thefuzz).


Для учета различных алфавитов (клиент ориентирован на страны Восточной Европы и Азии, использующие кириллицу и другие нелатинские системы) мы должны убедиться, что и имена ссылок, и запросы записаны латинскими символами. Это легко сделать с помощью [`transliterate`](https://pypi.org/project/transliterate/)

Делаем запрос в базу данных. На этом этапе нам понадобятся только главное и альтернативые названия городов (колонки `name` и `alternatenames`) и `geonameid` как ключ

In [None]:
country_selection = ('RU', 'KZ', 'AM', 'RS', 'ME', 'KG', 'GE')

# Удалить строку WHERE, чтобы выбрать города со всего мира.
query = f'''
SELECT geonameid, name, alternatenames, country_code
FROM cities15000
WHERE country_code IN {country_selection}
'''

df = pd.read_sql_query(query, con=engine, index_col = 'geonameid')
df.head()

In [None]:
df.info()

Обратим внимание, что у некоторых городов нет альтернативных названий. Колонка `name` пустых строк не содержит.

Подготовим dictionary для функции `thefuzz.process()`

In [None]:
# Разделение столбца AlternativeNames на отдельные имена:
altnames = [l.split(',') if l else [None] for l in df.alternatenames.values]

names=df.name.values

for i in range(len(altnames)):
    altnames[i].append(names[i])
# Создание словаря со структурой `geonameID: названия` для всех городов, включая официальные и альтернативные названия

d = {zip(df.index, altnames)} # то же что и d = {ind: n for ind, n in zip(df.index, altnames)}

Сразу реализуем возможность придавать близким совпадениям значительно больший вес, чем далёким. Это может помочь с поиском городов по устаревшим и альтернативным названиям.

In [None]:
def search(query: str, k=10, weight_mode='exp', asdict=True):
    """Быстрый нечеткий поиск названий городов на основе библиотеки thefuzz

    Параметры:
    - query (str): строка запроса
    - k (int, optional): желаемое количество совпадений
    - weight_mode={Any, 'sq', 'exp'} (str, optional):
        * None: не взвешивать более близкие совпадения.
        * 'sq': применять параболическое взвешивание к оценкам сходства
        * 'exp': применять экспоненциальное взвешивание к оценкам сходства
    - asdict (bool, optional): преобразовывать ли результат в python dict. Если False, возвращается Pandas DataFrame """"

    if detect_language(query) не None:
        query = slugify(query)
        scores = {} # контейнер для оценок совпадений для каждого города

    for ind, name_list in d.items(): ## для каждого города вычисляем баллы сходства с каждым альтернативным именем
        _ = np.array(process.extract(query, name_list))

        if weight_mode == 'exp':
            # Вычисляем score и взвешиваем их по экспоненте
            scores[ind] = np.exp(_[:, 1].astype(int)).sum() / len(_) # суммируем экспоненты оценок и нормируем на количество возможных имен
            scores[ind] = np.log(scores[ind]) # возвращаемся к читаемым значениям
        elif weight_mode == 'sq':
            # Вычисляем score и взвешиваем их параболически
            scores[ind] = np.square(_[:, 1].astype(int)).sum() / len(_)
            scores[ind] = np.sqrt(scores[ind])
        else:
            scores[ind] = _[:, 1].astype(int).sum() / len(_)

    # sorted by the matching score (.2 ms faster with the native Python function than with Pandas df.sort_values) see tests below
    scores_df = pd.DataFrame.from_records(
        sorted(scores.items(), key=lambda item: item[1], reverse=True), columns=['geonameid', 'score'])
    scores_df.loc[:, 'score'] = scores_df.loc[:, 'score'].round(3) # so this looks nicer
    indexes = tuple(scores_df.loc[:k-1, 'geonameid']) # select the DataFrame indicies of the top k
    # print(indexes)

    query = f'''
        SELECT DISTINCT
            cities.geonameid,
            cities.name,
            regions.name as region,
            ci."Country" as country

        FROM
            cities15000 AS cities
        LEFT JOIN
            (SELECT "ISO", "Country" FROM "countryInfo") AS ci
        ON
            cities.country_code = ci."ISO"
        LEFT JOIN
            "admin1CodesASCII" AS regions
        ON
            COALESCE(cities.country_code, '') || '.' || COALESCE(cities.admin1_code, '') = regions.code
        WHERE
            cities.geonameid IN {indexes};
    '''

    qres = pd.read_sql_query(query, con=engine)
    result = pd.merge(qres, scores_df, on='geonameid', how='left').sort_values('score', ascending=False).set_index('geonameid')
    if asdict:
        return result.T.to_dict()
    else:
        return result

Проверим работу функции и оценим разные методики взвешивания

In [None]:
%%time
k=3 ## количество выводимых совпадений
query = 'Ржевск'

search(query, k, weight_mode=None, asdict=False)

Историческое название

In [None]:
%%time
k=10 ## number of suggestions
#query = 'Сталинград' # простой пример
query = 'Атомград' # сложный пример

search(query, k, weight_mode=None, asdict=False)

In [None]:
search(query, k, weight_mode='sq', asdict=False) # квадратичное взвешивание

In [None]:
search(query, k, weight_mode='exp', asdict=True) # экспоненциальное взвешивание. Для демонстрации результат выведен в соответствии с ТЗ

Экспоненциальное взвешивание работает гораздо лучше, а квадратичной функции ещё недостаточно. Тем не менее, в рабочем python модуле стоит оставить пользователю возможность задавать функцию весов самостоятельно на случай, если редкие альтернативные названия не нужны и будут мешать.   

Проведём оценку производительности:

In [None]:
test_df = pd.read_csv('../datasets/geo_test.csv', sep=';')
test_df.head()

In [None]:
%%time

queries = test_df['query'].values
for q in queries:
    search(q, 10, weight_mode='exp', asdict=True)

Обработка 346 запросов заняла 3 мин 5 с. Если алгоритм будет использоваться для автозаполнения в реальном времени, его стоит оптимизировать. Так как заказчик сообщил, что собирается использовать поиск для единичных запросов, то 0,5 с - это достаточно быстро и дальнейших улучшений не требуется.

# Выводы

Отличный результат! Мы возвращаем наиболее вероятные совпадения и выделяем среди них особенно точные.
