# Сопоставление произвольных гео названий с унифицированными именами geonames
**Цель проекта**
<br>Сопоставление произвольных гео названий с унифицированными именами geonames

**Задачи:**
- создать решение для подбора наиболее подходящих названий с geonames. Например Ереван -> Yerevan
- на примере РФ и стран наиболее популярных для релокации - Беларусь, Армения, Казахстан, Кыргызстан, Турция, Сербия. Города с населением от 15000 человек (с возможностью масштабирования на сервере заказчика)
- возвращаемые поля geonameid, name, region, country, cosine similarity
- формат данных на выходе: список словарей, например [{dict_1}, {dict_2}, …. {dict_n}] где словарь - одна запись с указанными полями
- возможность настройки количества выдачи подходящих названий (например в параметрах метода)
- коррекция ошибок и опечаток. Например Моченгорск -> Monchegorsk
- хранение в PostgreSQL данных geonames
- хранение векторизованных промежуточных данных в PostgreSQL
- предусмотреть методы для настройки подключения к БД
- предусмотреть метод для инициализации класса (первичная векторизация geonames)
- предусмотреть методы для добавления векторов новых гео названий

**Ход исследования**
- Предобработка данных
- Разделение на выборки
- Применение техник кодирования с учётом моделей, которые будут использованы
- Масштабирование данных (при необходимости)
- Обучение трёх моделей на тренировочной выборке (подбор гиперпараметров)
- Выбор оптимальной модели
- Проверка качества лучшей модели на тестовой выборке, выявление важности признаков
- Отчёт

### Импорт библиотек

In [2]:
# !pip install sentence_transformers

In [4]:
import pandas as pd

from sentence_transformers import SentenceTransformer, util

## Работа с трансформером

In [5]:
labse = SentenceTransformer('sentence-transformers/LaBSE')

.gitattributes:   0%|          | 0.00/391 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

2_Dense/config.json:   0%|          | 0.00/114 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/2.36M [00:00<?, ?B/s]

README.md:   0%|          | 0.00/2.19k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/804 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.88G [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.62M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/411 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/5.22M [00:00<?, ?B/s]

modules.json:   0%|          | 0.00/461 [00:00<?, ?B/s]

In [None]:
sentence_embeddings = labse.encode(sentences)
sentence_embeddings.shape

In [None]:
result = util.semantic_search(labse.encode(query), sentence_embeddings)[0]
print(f"{CORPUS[item['corpus_id']]} {item['score']:.3f}") for item in result

In [None]:
# проверка слова с ошибкой
round(1-distance.cosine(labse.encode('Масква'), labse.encode('Moscow')), 3)

Вывод:

- получены эмбеддинги текстов при помощи библиотеки sentence_transformer на архитектуре LaBSE
- выбор данной архитектуры обусловлен её способностью распознавать и сравнивать тексты на более, чем 100 языках