# Сопоставление произвольных гео названий с унифицированными именами geonames
**Цель проекта**
<br>Сопоставление произвольных гео названий с унифицированными именами geonames

**Задачи:**
- создать решение для подбора наиболее подходящих названий с geonames. Например Ереван -> Yerevan
- на примере РФ и стран наиболее популярных для релокации - Беларусь, Армения, Казахстан, Кыргызстан, Турция, Сербия. Города с населением от 15000 человек (с возможностью масштабирования на сервере заказчика)
- возвращаемые поля geonameid, name, region, country, cosine similarity
- формат данных на выходе: список словарей, например [{dict_1}, {dict_2}, …. {dict_n}] где словарь - одна запись с указанными полями
- возможность настройки количества выдачи подходящих названий (например в параметрах метода)
- коррекция ошибок и опечаток. Например Моченгорск -> Monchegorsk
- хранение в PostgreSQL данных geonames
- хранение векторизованных промежуточных данных в PostgreSQL
- предусмотреть методы для настройки подключения к БД
- предусмотреть метод для инициализации класса (первичная векторизация geonames)
- предусмотреть методы для добавления векторов новых гео названий

**Ход исследования**
- Предобработка данных
- Разделение на выборки
- Применение техник кодирования с учётом моделей, которые будут использованы
- Масштабирование данных (при необходимости)
- Обучение трёх моделей на тренировочной выборке (подбор гиперпараметров)
- Выбор оптимальной модели
- Проверка качества лучшей модели на тестовой выборке, выявление важности признаков
- Отчёт

### Импорт библиотек

In [1]:
import os
import warnings
import pandas as pd


from dotenv import load_dotenv
from sqlalchemy import create_engine, MetaData
from sentence_transformers import SentenceTransformer#, util

warnings.filterwarnings('ignore')

import GeoNamesData
# from sqlalchemy.ext.declarative import declarative_base
# from sqlalchemy.orm import sessionmaker
# from prettytable import PrettyTable
# import time

## Подготовка базы данных

Соединение с базой данных PostgreSQL

In [2]:
load_dotenv()
db_name = os.getenv("DB_NAME")
db_password = os.getenv("DB_PASSWORD")
db_username = os.getenv("DB_USERNAME")

engine = create_engine(f"postgresql://{db_username}:{db_password}@localhost:5432/{db_name}")

Проверка таблиц, уже внесённых в базу

In [3]:
metadata = MetaData()
# Отражение таблиц из базы данных
metadata.reflect(bind=engine)
# Получение списка наименований таблиц
existing_tables = metadata.tables.keys()
print(f"существующие в базе таблицы: {existing_tables}")

существующие в базе таблицы: dict_keys(['cities15000', 'AM', 'geoname_am', 'geoname_kz', 'geonames_ru'])


### Перенос данных из файлов в базу данных

In [None]:
# GeoNamesData.geoname_adding_to_db('data/KZ.txt')

Знакомство с данными

In [4]:
# Ознакомление с данными таблицы geonames_ru
query_gnr = '''
    SELECT
      geonameid,
      name,
      asciiname,
      alternatenames,
      feature_class,
      feature_code,
      admin1_code
    FROM
      geonames_ru
    WHERE
      feature_code NOT IN ('LK', 'ADMF', 'MNMT') AND
      (admin1_code = '54' OR admin1_code = '154')
    '''
gnr = pd.read_sql_query(query_gnr, con=engine)
gnr.info()
gnr.sample(5)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4707 entries, 0 to 4706
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   geonameid       4707 non-null   int64 
 1   name            4707 non-null   object
 2   asciiname       4707 non-null   object
 3   alternatenames  4707 non-null   object
 4   feature_class   4707 non-null   object
 5   feature_code    4707 non-null   object
 6   admin1_code     4707 non-null   object
dtypes: int64(1), object(6)
memory usage: 257.5+ KB


Unnamed: 0,geonameid,name,asciiname,alternatenames,feature_class,feature_code,admin1_code
2103,1507145,Dubrovka,Dubrovka,"Dubrovka,Дубровка",P,PPL,54
3319,7595767,Urochishche Kaudan,Urochishche Kaudan,"Urochishche Kaudan,Urochishhe Kaudan,Урочище К...",L,AREA,54
3467,7596810,Urochishche Shirokiye Kusty,Urochishche Shirokiye Kusty,"Urochishche Shirokiye Kusty,Urochishhe Shiroki...",L,AREA,54
612,1492677,Sergeyevka,Sergeyevka,"Sergeevka,Sergeyevka,Sergino,Сергеевка",P,PPL,54
4631,8465331,Tserkov’ Mikhail-Arkhangela I Novomuchenikov R...,Tserkov' Mikhail-Arkhangela I Novomuchenikov R...,Cerkov' Mikhaila-Arkhangela I Novomuchenikov R...,S,CH,54


In [5]:
# Ознакомление с данными таблицы cities15000
query_c15 = '''
    SELECT
      geonameid,
      name,
      asciiname,
      feature_class,
      feature_code,
      country_code
    FROM
      cities15000
    WHERE
      country_code = 'RU'
    '''
cities = pd.read_sql_query(query_c15, con=engine)
cities.info()
cities.sample(5)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1095 entries, 0 to 1094
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   geonameid      1095 non-null   int64 
 1   name           1095 non-null   object
 2   asciiname      1095 non-null   object
 3   feature_class  1095 non-null   object
 4   feature_code   1095 non-null   object
 5   country_code   1095 non-null   object
dtypes: int64(1), object(5)
memory usage: 51.5+ KB


Unnamed: 0,geonameid,name,asciiname,feature_class,feature_code,country_code
1078,2609906,Baltiysk,Baltiysk,P,PPL,RU
334,515267,Omutninsk,Omutninsk,P,PPL,RU
929,1504212,Kataysk,Kataysk,P,PPL,RU
664,565381,Domodedovo,Domodedovo,P,PPLA2,RU
1052,2028078,Aginskoye,Aginskoye,P,PPLA2,RU


In [6]:
# Ознакомление с данными таблицы geoname_kz
query_gkz = '''
    SELECT
      geonameid,
      name,
      asciiname,
      alternatenames,
      feature_class,
      feature_code,
      admin1_code
    FROM
      geoname_kz
    WHERE
      feature_code NOT IN ('LK', 'ADMF', 'MNMT', 'WLL', 'TMB', 'MRSH')
    '''
cities = pd.read_sql_query(query_gkz, con=engine)
cities.info()
cities.sample(5)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58416 entries, 0 to 58415
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   geonameid       58416 non-null  int64 
 1   name            58416 non-null  object
 2   asciiname       58416 non-null  object
 3   alternatenames  52926 non-null  object
 4   feature_class   58416 non-null  object
 5   feature_code    58416 non-null  object
 6   admin1_code     58245 non-null  object
dtypes: int64(1), object(6)
memory usage: 3.1+ MB


Unnamed: 0,geonameid,name,asciiname,alternatenames,feature_class,feature_code,admin1_code
51746,12342933,Zimovka Ushkiben,Zimovka Ushkiben,"Zimovka Ushkiben,Зимовка Ушкибен",S,CMP,4.0
27051,11409363,Gora Aktasty,Gora Aktasty,"Gora Aktasty,Гора Актасты",T,MT,12.0
51310,12335680,Letnik Atanboz,Letnik Atanboz,"Letnik Atanboz,Летник Атанбоз",S,CMP,7.0
12489,1524790,Chilikty,Chilikty,"Chilikto,Chilikty,Chiliktö",P,PPL,12510144.0
58323,12438264,Lesnoy,Lesnoy,"Lesnoj,Lesnoy,Лесной",P,PPL,13.0


In [None]:
# df = pd.read_csv('RU_BY_KG_KZ_AM_GE_RS_ME/df_full.csv')
# ['country_code', 'name', 'geonameid', 'alternate_name', 'geo_type' (country), 'code', 'country', 'region']

# names = df.name.drop_duplicates().values
# names[:-10]

## Работа с трансформером

In [None]:
labse = SentenceTransformer('sentence-transformers/LaBSE')
sentence_embeddings = labse.encode(sentences)
sentence_embeddings.shape

Вывод:

- получены эмбеддинги текстов при помощи библиотеки sentence_transformer на архитектуре LaBSE
- выбор данной архитектуры обусловлен её способностью распознавать и сравнивать тексты на более, чем 100 языках