# Сопоставление произвольных гео названий с унифицированными именами geonames
**Цель проекта**
<br>Сопоставление произвольных гео названий с унифицированными именами geonames

**Задачи:**
- создать решение для подбора наиболее подходящих названий с geonames. Например Ереван -> Yerevan
- на примере РФ и стран наиболее популярных для релокации - Беларусь, Армения, Казахстан, Кыргызстан, Турция, Сербия. Города с населением от 15000 человек (с возможностью масштабирования на сервере заказчика)
- возвращаемые поля geonameid, name, region, country, cosine similarity
- формат данных на выходе: список словарей, например [{dict_1}, {dict_2}, …. {dict_n}] где словарь - одна запись с указанными полями
- возможность настройки количества выдачи подходящих названий (например в параметрах метода)
- коррекция ошибок и опечаток. Например Моченгорск -> Monchegorsk
- хранение в PostgreSQL данных geonames
- хранение векторизованных промежуточных данных в PostgreSQL
- предусмотреть методы для настройки подключения к БД
- предусмотреть метод для инициализации класса (первичная векторизация geonames)
- предусмотреть методы для добавления векторов новых гео названий

**Ход исследования**
- Предобработка данных
- Разделение на выборки
- Применение техник кодирования с учётом моделей, которые будут использованы
- Масштабирование данных (при необходимости)
- Обучение трёх моделей на тренировочной выборке (подбор гиперпараметров)
- Выбор оптимальной модели
- Проверка качества лучшей модели на тестовой выборке, выявление важности признаков
- Отчёт

### Импорт библиотек

In [3]:
from sqlalchemy import create_engine, text, inspect
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker

import time
import warnings

warnings.filterwarnings('ignore')

import GeoNamesData

## EDA

Печать нескольких строк данных

In [4]:
with open('/home/denis/Documents/main_venv/geonames/data/RU.txt', 'r', encoding='UTF-8') as input_file:
    for _ in range(5):
        line = next(input_file).strip()
        values = line.split('\t')
        formatted_line = '\t'.join('{:<10}'.format(value) for value in values)
        print(formatted_line)

451747    	Zyabrikovo	Zyabrikovo	          	56.84665  	34.7048   	P         	PPL       	RU        	          	77        	          	          	          	0         	          	204       	Europe/Moscow	2011-07-09
451748    	Znamenka  	Znamenka  	          	56.74087  	34.02323  	P         	PPL       	RU        	          	77        	          	          	          	0         	          	215       	Europe/Moscow	2011-07-09
451749    	Zhukovo   	Zhukovo   	          	57.26429  	34.20956  	P         	PPL       	RU        	          	77        	          	          	          	0         	          	237       	Europe/Moscow	2011-07-09
451750    	Zhitovo   	Zhitovo   	          	57.29693  	34.41848  	P         	PPL       	RU        	          	77        	          	          	          	0         	          	247       	Europe/Moscow	2011-07-09
451751    	Zhitnikovo	Zhitnikovo	          	57.20064  	34.57831  	P         	PPL       	RU        	          	77        	          	          	         

Соединение с базой данных PostgreSQL

In [5]:
# Создание соединения с базой данных
engine = create_engine('postgresql://geonames:231130pSQL@localhost:5432/geonames')

In [6]:
# Проверка существования необходимой таблицы
inspector = inspect(engine)
if inspector.has_table('alternate_names'):  # geonames_ru
    print("Таблица существует")
else:
    print("Таблица не существует")

Таблица существует


Перенос данных из файла в таблицу базы данных

In [None]:
# # Создание экземпляра Base
# Base = declarative_base()

# # Создание таблицы в базе данных
# Base.metadata.create_all(engine)

# # Создание сессии
# Session = sessionmaker(bind=engine)
# session = Session()

# # Загрузка данных из файла в таблицу
# with open('/home/denis/Documents/main_venv/geonames/data/alternateNamesV2.txt', 'r', encoding='utf-8') as file:
#     for line in file:
#         data = line.strip().split('\t')
#         alternate_names = GeoNamesData.AlternateNames(
#             alternateNameId=int(data[0]),
#             geonameid=data[1],
#             isolanguage=data[2],
#             alternatename=data[3]
#         )
#         session.add(alternate_names)

# # Фиксация изменений и закрытие сессии
# session.commit()
# session.close()

In [7]:
# Выполнение запроса на вывод первых 10 строк
with engine.connect() as connection:
    query = text("SELECT * FROM geonames_ru LIMIT 10")  # alternate_names
    result = connection.execute(query)
    rows = result.fetchmany(10)
    for row in rows:
        print(row)

(451747, 'Zyabrikovo', 'Zyabrikovo', '', 56.84665, 34.7048, 'P', 'PPL', 'RU', '', '77', '', '', '', 0, None, '204', 'Europe/Moscow', datetime.date(2011, 7, 9))
(451748, 'Znamenka', 'Znamenka', '', 56.74087, 34.02323, 'P', 'PPL', 'RU', '', '77', '', '', '', 0, None, '215', 'Europe/Moscow', datetime.date(2011, 7, 9))
(451749, 'Zhukovo', 'Zhukovo', '', 57.26429, 34.20956, 'P', 'PPL', 'RU', '', '77', '', '', '', 0, None, '237', 'Europe/Moscow', datetime.date(2011, 7, 9))
(451750, 'Zhitovo', 'Zhitovo', '', 57.29693, 34.41848, 'P', 'PPL', 'RU', '', '77', '', '', '', 0, None, '247', 'Europe/Moscow', datetime.date(2011, 7, 9))
(451751, 'Zhitnikovo', 'Zhitnikovo', '', 57.20064, 34.57831, 'P', 'PPL', 'RU', '', '77', '', '', '', 0, None, '198', 'Europe/Moscow', datetime.date(2011, 7, 9))
(451752, 'Zhelezovo', 'Zhelezovo', '', 57.02591, 34.51886, 'P', 'PPL', 'RU', '', '77', '', '', '', 0, None, '192', 'Europe/Moscow', datetime.date(2011, 7, 9))
(451753, 'Zelëntsyno', 'Zelentsyno', '', 56.73452, 34