## Проект "Географическое сопоставление данных в базе заказчика с базой данных GeoNames"

### Цели проекта

Оптимизировать и унифицировать географические данные в базе заказчика а путем сопоставления их с унифицированными данными из базы данных GeoNames.

### Исходные данные

В рамках данной задачи были использованы данные, полученные из источника http://download.geonames.org/export/dump/. Для решения задачи о сопоставлении географических названий были использованы файлы alternateNamesV2, cities15000 и countryInfo. Важно отметить, что эти данные использовались исключительно в контексте разработки решения задачи и могут быть заменены другими данными, соответствующими потребностям заказчика. Также заказчик предоставил файл geo_test.csv для тестирования модели, что позволило провести проверку и оценку эффективности решения.

### Наш подход

Мы разработали решение для сопоставления географических названий в базе Карьерного Центра с данными из базы данных GeoNames. В рамках этого проекта мы:

1. Изучили структуру таблиц и данные в базе данных GeoNames.
2. Скачали необходимые файлы из базы GeoNames.
3. Создали базу данных PostgreSQL и загрузили данные из GeoNames (заказчик уже имел базу данных, основанную на GeoNames, и наш модуль совместим с этой базой).
4. Объединили таблицы и создали рабочий датасет.
5. Провели тестирование различных методов сопоставления географических названий, используя предоставленный тестовый датасет.
6. Создали функцию, позволяющую подключаться к базе данных PostgreSQL и находить наиболее подходящие варианты географических названий.

### Ожидаемые результаты

1. Ноутбук с исследованием и обоснованием выбранного метода сопоставления географических названий.
2. Модуль, который можно подключить к базе данных PostgreSQL и использовать для нахождения наиболее подходящих вариантов географических названий.
3. Возвращаемые поля: geonameid, name, region, country, cosine similarity.
4. Формат данных на выходе: список словарей, например, [{dict_1}, {dict_2}, (dict_n}], где словарь - одна запись с указанными полями.



In [1]:
# Импорты стандартных библиотек
import os
import re
import logging
import numpy as np
import torch
from pathlib import Path

# Импорты сторонних библиотек
import pandas as pd
from sentence_transformers import SentenceTransformer, util
from googletrans import Translator

# Локальные импорты
from my_file import GeoSearch

# Глобальные переменные, настройки, опции, константы
RELOC_COUNTRIES = ['RU', 'BY', 'KG', 'KZ', 'AM', 'GE', 'RS', 'ME']
DATA = Path('data')
MODEL = Path('_'.join(RELOC_COUNTRIES))

# Инициализация объекта GeoSearch
model_path = 'sentence-transformers/LaBSE'
data_path = 'DATA/geo_test.csv'
geo_search = GeoSearch(model_path, data_path)


Создали переменные, которые используем для доступа к данным и моделям в проекте.
Создадим список кодов стран 'RELOC_COUNTRIES' с двузначными ISO-кодами, для нужных нам стран, таких как Россия (RU), Беларусь (BY), Киргизия (KG), Казахстан (KZ), Армения (AM), Грузия (GE), Сербия (RS), и Черногория (ME).

Создали переменную DATA типа Path, которая представляет путь к каталогу "data". 

Создали переменную MODEL типа Path, которая создается с использованием "_".join(RELOC_COUNTRIES). Она формирует строку, объединяя коды стран из списка RELOC_COUNTRIES. Например, если RELOC_COUNTRIES содержит ['RU', 'BY'], то MODEL будет иметь значение "RU_BY". Это, вероятно, используется для создания пути или имени файла, связанного с указанными странами.

# Загрузка датасетов
## Страны

Загружаем датасет "countryInfo.txt" с информацией о странах. Задаем столбцы с различной информацией о странах, такой как код страны, название, столица, площадь, население и др.

In [2]:
countries = pd.read_csv(
    'DATA/countryInfo.txt',
    delimiter='\t',
    header=None,
    names=[
        'country_code',
        'iso_3',
        'iso_numeric',
        'fips',
        'country',
        'capital',
        'area',
        'population',
        'continent',
        'tld',
        'currency_code',
        'currency_name',
        'phone',
        'postal_code_format',
        'postal_code_regex',
        'languages',
        'geonameid',
        'neighbours',
        'equivalent_fips_code'
    ],
    usecols=['geonameid', 'country_code', 'country'],
    skiprows=50 
)

countries.head()


Unnamed: 0,country_code,country,geonameid
0,AD,Andorra,3041565
1,AE,United Arab Emirates,290557
2,AF,Afghanistan,1149361
3,AG,Antigua and Barbuda,3576396
4,AI,Anguilla,3573511


Загружаем файл admin1CodesASCII с информацией о регионах и их кодах в таблице с именем admin_codes. 

In [3]:
admin_codes = pd.read_csv('DATA/admin1CodesASCII.txt', delimiter='\t', header=None, names=['code', 'region', 'ascii_region', 'geonameid'], usecols=['code', 'region', 'geonameid'])
admin_codes['country_code'] = admin_codes['code'].str.split('.').str[0]
admin_codes.head()

Unnamed: 0,code,region,geonameid,country_code
0,AD.06,Sant Julià de Loria,3039162,AD
1,AD.05,Ordino,3039676,AD
2,AD.04,La Massana,3040131,AD
3,AD.03,Encamp,3040684,AD
4,AD.02,Canillo,3041203,AD


Видим, что в этом датафрейме хранится информация о кодах административных регионов и их соответствии странам.

Загружаем данные таблицы cities15000 с информацией о городах. 

In [4]:
cities = pd.read_csv('DATA/cities15000.txt', delimiter='\t',
    low_memory=False, 
    header=None,
    names=[
        'geonameid', 
        'name',
        'ascii_name',  # Заменен 'ascii name' на 'ascii_name'
        'alternate_names', 
        'latitude', 
        'longitude', 
        'feature_class', 
        'feature_code', 
        'country_code', 
        'cc2',
        'admin1_code',
        'admin2_code', 
        'admin3_code', 
        'admin4_code', 
        'population', 
        'elevation', 
        'dem', 
        'timezone', 
        'modification'
    ],
    usecols= [
        'geonameid', 'name', 'ascii_name', 'alternate_names', 'country_code', 'admin1_code',
    ]).dropna()

cities['code'] = cities.country_code + '.' + cities.admin1_code
cities = cities.drop('admin1_code', axis=1)
cities.head()

Unnamed: 0,geonameid,name,ascii_name,alternate_names,country_code,code
0,3040051,les Escaldes,les Escaldes,"Ehskal'des-Ehndzhordani,Escaldes,Escaldes-Engo...",AD,AD.08
1,3041563,Andorra la Vella,Andorra la Vella,"ALV,Ando-la-Vyey,Andora,Andora la Vela,Andora ...",AD,AD.07
2,290594,Umm Al Quwain City,Umm Al Quwain City,"Oumm al Qaiwain,Oumm al Qaïwaïn,Um al Kawain,U...",AE,AE.07
3,291074,Ras Al Khaimah City,Ras Al Khaimah City,"Julfa,Khaimah,RAK City,RKT,Ra's al Khaymah,Ra'...",AE,AE.05
4,291580,Zayed City,Zayed City,"Bid' Zayed,Bid’ Zayed,Madinat Za'id,Madinat Za...",AE,AE.01


Видим, что в этом датафрейме содержатся данные о городах, такие как их геонамид, название, координаты, коды страны и административных регионов.

Загружаем данные таблицы alternateNamesV2 с альтернативными названиями и их характеристиками.

In [5]:
alternate = pd.read_csv('DATA/alternateNamesV2.txt', delimiter='\t',
    header=None,
    low_memory=False,
    names=[
        'alternat_name_id',
        'geonameid',
        'alternate_lang',
        'alternate_names',
        'is_preferred_name',
        'is_short_name',
        'is_colloquial',
        'is_historic',
        'use_from',
        'use_to'
                        ],
   
)
alternate.head(5)

Unnamed: 0,alternat_name_id,geonameid,alternate_lang,alternate_names,is_preferred_name,is_short_name,is_colloquial,is_historic,use_from,use_to
0,1284819,2994701,,Roc Mélé,,,,,,
1,1284820,2994701,,Roc Meler,,,,,,
2,4285256,3007683,,Pic des Langounelles,,,,,,
3,1291197,3017832,,Pic de les Abelletes,,,,,,
4,4290387,3017832,,Pic de la Font-Nègre,,,,,,


Загружаем тестовый датасет:

In [6]:
geo_test = pd.read_csv('DATA/geo_test.csv', sep=';', header=0)
print(geo_test.head())


      query      name           region     country
0  Смоленск  Smolensk  Smolensk Oblast      Russia
1  Кемерово  Kemerovo          Kuzbass      Russia
2    Бишкек   Bishkek          Bishkek  Kyrgyzstan
3    Москва    Moscow           Moscow      Russia
4    Алматы    Almaty           Almaty  Kazakhstan


## Объединение датасетов

Создаем функцию combine_name_and_alternate для объединения оригинальных названий с альтернативными для датафрейма, переданного в качестве аргумента.

In [7]:
def combine_name_and_alternate(df):
    """oбъединяем оригинальные названия с альтернативными""" 
    return (pd 
            .concat([df,
                    df.drop_duplicates(subset='geonameid').assign(alternate_name=df.name)])
            .drop_duplicates() 
            .reset_index(drop=True)
           )

Переводим некоторые данные в числовой формат и происходит удаляем строки, содержащие пропущенные значения в столбце "geonameid" в датафреймах countries и alternate

In [8]:
# Преобразуем столбцы 'geonameid' в числовой формат, игнорируя ошибки (если есть)
countries['geonameid'] = pd.to_numeric(countries['geonameid'], errors='coerce')
alternate['geonameid'] = pd.to_numeric(alternate['geonameid'], errors='coerce')

In [9]:
# Удаляем строки, в которых 'geonameid' содержит отсутствующие значения (NaN)
countries = countries.dropna(subset=['geonameid'])
alternate = alternate.dropna(subset=['geonameid'])

In [10]:
# Объединяем данные о странах и альтернативных названиях по столбцу 'geonameid'
df_countries = (
    countries
    .merge(alternate, on='geonameid', how='left')  # Соединяем данные по 'geonameid' с использованием left join
    .rename(columns={'country': 'name'})  # Переименовываем столбец 'country' в 'name'
    .assign(geo_type='country')  # Добавляем столбец 'geo_type' и присваиваем значение 'country'
    .assign(code=countries.country_code+'.00')  # Добавляем столбец 'code', составленный из 'country_code' и '.00'
)

# Вызываем функцию для объединения оригинальных и альтернативных названий
df_countries = combine_name_and_alternate(df_countries)

# Выводим первые 5 строк результирующего DataFrame
df_countries.head(5)


Unnamed: 0,country_code,name,geonameid,alternat_name_id,alternate_lang,alternate_names,is_preferred_name,is_short_name,is_colloquial,is_historic,use_from,use_to,geo_type,code,alternate_name
0,AD,Andorra,3041565,1298014,ca,Principat d’Andorra,1.0,,,,,,country,AD.00,
1,AD,Andorra,3041565,1298015,,Les Vallées d’Andorre,,,,,,,country,AE.00,
2,AD,Andorra,3041565,1298016,,L’Andorre,,,,,,,country,AF.00,
3,AD,Andorra,3041565,1298017,,Valls d’Andorra,,,,,,,country,AG.00,
4,AD,Andorra,3041565,1298020,,Principauté d’Andorre,,,,,,,country,AI.00,


In [11]:
# Создаем DataFrame df_region, содержащий регионы
df_region = (admin_codes
             .merge(countries[['country_code', 'country']], on='country_code', how='left')  # Соединяем справочные данные о регионах
             .merge(alternate, on='geonameid', how='left')  # Соединяем данные о регионах с альтернативными названиями
             .rename(columns={'region': 'name'})  # Переименовываем столбец 'region' в 'name'
             .assign(geo_type='region')  # Добавляем столбец 'geo_type' и присваиваем значение 'region'
             .drop_duplicates()  # Удаляем дубликаты
             .reset_index(drop=True)  # Сбрасываем индексы
            )

# Вызываем функцию для объединения оригинальных и альтернативных названий
df_region = combine_name_and_alternate(df_region)

# Выводим первые строки результирующего DataFrame
df_region.head()


Unnamed: 0,code,name,geonameid,country_code,country,alternat_name_id,alternate_lang,alternate_names,is_preferred_name,is_short_name,is_colloquial,is_historic,use_from,use_to,geo_type,alternate_name
0,AD.06,Sant Julià de Loria,3039162,AD,Andorra,1297839.0,ca,Sant Julià de Lòria,1.0,1.0,,,,,region,
1,AD.06,Sant Julià de Loria,3039162,AD,Andorra,1297840.0,en,Sant Julià de Loria,,1.0,,,,,region,
2,AD.06,Sant Julià de Loria,3039162,AD,Andorra,1297841.0,ca,Parròquia de Sant Julià de Lòria,1.0,,,,,,region,
3,AD.06,Sant Julià de Loria,3039162,AD,Andorra,2170607.0,post,AD600,,,,,,,region,
4,AD.06,Sant Julià de Loria,3039162,AD,Andorra,2185944.0,fr,Sant Julià de Lòria,,,,,,,region,


In [12]:
# Создаем DataFrame df_cities, содержащий данные о городах
df_cities = (cities
             .merge(admin_codes[['code', 'region']], on='code', how='left')  # Соединяем данные о городах с регионами
             .merge(countries[['country_code', 'country']], on='country_code', how='left')  # Соединяем данные о городах с информацией о странах
             .merge(alternate, on='geonameid', how='left')  # Соединяем данные о городах с альтернативными названиями
             .assign(geo_type='city')  # Добавляем столбец 'geo_type' и присваиваем значение 'city'
             .drop_duplicates()  # Удаляем дубликаты
             .reset_index(drop=True)  # Сбрасываем индексы
            )

# Вызываем функцию для объединения оригинальных и альтернативных названий
df_cities = combine_name_and_alternate(df_cities)

# Выводим первые строки результирующего DataFrame
df_cities.head()

Unnamed: 0,geonameid,name,ascii_name,alternate_names_x,country_code,code,region,country,alternat_name_id,alternate_lang,alternate_names_y,is_preferred_name,is_short_name,is_colloquial,is_historic,use_from,use_to,geo_type,alternate_name
0,3040051,les Escaldes,les Escaldes,"Ehskal'des-Ehndzhordani,Escaldes,Escaldes-Engo...",AD,AD.08,Escaldes-Engordany,Andorra,1297907,ca,Les Escaldes,,,,,,,city,
1,3040051,les Escaldes,les Escaldes,"Ehskal'des-Ehndzhordani,Escaldes,Escaldes-Engo...",AD,AD.08,Escaldes-Engordany,Andorra,1297908,ca,Escaldes,,,,,,,city,
2,3040051,les Escaldes,les Escaldes,"Ehskal'des-Ehndzhordani,Escaldes,Escaldes-Engo...",AD,AD.08,Escaldes-Engordany,Andorra,1904145,fr,Escaldes-Engordany,,,,,,,city,
3,3040051,les Escaldes,les Escaldes,"Ehskal'des-Ehndzhordani,Escaldes,Escaldes-Engo...",AD,AD.08,Escaldes-Engordany,Andorra,1904146,pl,Escaldes-Engordany,,,,,,,city,
4,3040051,les Escaldes,les Escaldes,"Ehskal'des-Ehndzhordani,Escaldes,Escaldes-Engo...",AD,AD.08,Escaldes-Engordany,Andorra,1904147,es,Escaldes-Engordany,,,,,,,city,


In [13]:
# Создаем объединенный DataFrame df_full, содержащий данные о странах, регионах и городах
df_full = pd.concat([df_countries, df_region, df_cities], axis=0)

# Заполняем отсутствующие значения в столбцах 'country', 'region', 'alternate_name' значениями из столбца 'name'
df_full['country'] = df_full['country'].fillna(value=df_full['name'])
df_full['region'] = df_full['region'].fillna(value=df_full['name'])
df_full['alternate_name'] = df_full['alternate_name'].fillna(value=df_full['name'])

# Удаляем дубликаты в DataFrame
df_full = df_full.drop_duplicates()

# Оставляем только данные для определенных стран (согласно списку RELOC_COUNTRIES) и сбрасываем индексы
df_full = df_full[df_full.country_code.isin(RELOC_COUNTRIES)].reset_index(drop=True)

# Выводим результат 
df_full

Unnamed: 0,country_code,name,geonameid,alternat_name_id,alternate_lang,alternate_names,is_preferred_name,is_short_name,is_colloquial,is_historic,use_from,use_to,geo_type,code,alternate_name,country,ascii_name,alternate_names_x,region,alternate_names_y
0,AM,Armenia,174982,135836.0,hy,Hayastani Hanrapetut’yun,,,,,,,country,,Armenia,Armenia,,,Armenia,
1,AM,Armenia,174982,135839.0,,Armenian Soviet Socialist Republic,,,,1.0,,,country,,Armenia,Armenia,,,Armenia,
2,AM,Armenia,174982,1560696.0,af,Armenië,1.0,,,,,,country,,Armenia,Armenia,,,Armenia,
3,AM,Armenia,174982,1560697.0,am,አርሜኒያ,1.0,,,,,,country,,Armenia,Armenia,,,Armenia,
4,AM,Armenia,174982,1560698.0,ar,ارمينيا,,,,,,,country,,Armenia,Armenia,,,Armenia,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29937,RU,Dzerzhinsky,8521440,13929869.0,link,,,,,,,,city,RU.47,Dzerzhinsky,Russia,Dzerzhinsky,"Dzerzhinskij,Дзержинский",Moscow Oblast,https://ru.wikipedia.org/wiki/%D0%94%D0%B7%D0%...
29938,RU,Dzerzhinsky,8521440,15603555.0,wkdt,,,,,,,,city,RU.47,Dzerzhinsky,Russia,Dzerzhinsky,"Dzerzhinskij,Дзержинский",Moscow Oblast,Q135189
29939,RU,Fedorovskiy,11886891,13721178.0,ru,,1.0,,,,,,city,RU.32,Fedorovskiy,Russia,Fedorovskiy,"Fedorovskij,Федоровский",Khanty-Mansia,Федоровский
29940,RU,Mezgor'e,12041452,16325425.0,ru,,1.0,,,,,,city,RU.08,Mezgor'e,Russia,Mezgor'e,"Mezhgor'e,Межгорье",Bashkortostan Republic,Межгорье


In [14]:
df_full.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29942 entries, 0 to 29941
Data columns (total 20 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   country_code       29942 non-null  object 
 1   name               29942 non-null  object 
 2   geonameid          29942 non-null  int64  
 3   alternat_name_id   29942 non-null  float64
 4   alternate_lang     25685 non-null  object 
 5   alternate_names    4816 non-null   object 
 6   is_preferred_name  2715 non-null   float64
 7   is_short_name      308 non-null    float64
 8   is_colloquial      39 non-null     float64
 9   is_historic        427 non-null    float64
 10  use_from           244 non-null    object 
 11  use_to             165 non-null    object 
 12  geo_type           29942 non-null  object 
 13  code               28252 non-null  object 
 14  alternate_name     29942 non-null  object 
 15  country            29942 non-null  object 
 16  ascii_name         251

Датасет содержит 29,942 записи и 20 столбцов.  
Столбцы country_code, name, geonameid, и geo_type не имеют отсутствующих значений (все записи содержат данные).  
Некоторые столбцы содержат много отсутствующих значений, такие как alternate_lang, alternate_names, is_preferred_name, is_short_name,   is_colloquial, is_historic, use_from, и use_to. Это может свидетельствовать о неполноте данных или о том, что эти признаки не всегда   доступны для всех записей.  
Столбцы code, ascii_name, alternate_names_x, alternate_names_y также имеют некоторое количество отсутствующих значений.  
Столбцы geonameid, alternat_name_id, is_preferred_name, is_short_name, is_colloquial, и is_historic имеют числовой тип данных (float64), а остальные столбцы имеют объектный тип данных (object).  

По итогу наш датасет содержит разнообразные данные о географических объектах, включая страны, регионы и города, а также различные альтернативные имена и другие характеристики. Однако, из-за большого количества отсутствующих значений в некоторых столбцах, возможно потребуется дополнительная очистка и предобработка данных перед использованием.



## Сохранение датасета

Создадим директорию MODEL, если она не существует, и сохраним датафрейм df_full внутри нее в виде CSV файла. Это может быть полезно для сохранения данных для последующего использования или анализа.

In [15]:
if not os.path.exists(MODEL):
    os.makedirs(MODEL)
df_full.to_csv(MODEL/'df_full.csv', index=False)

## Подключение к PostgreSQL

In [16]:
from sqlalchemy import create_engine

DATABASE = {
    'drivername': 'postgresql',
    'username': 'postgres', 
    'password': 'wvw123321wvw', 
    'host': 'localhost',
    'port': 5432,
    'database': 'postgres',
    'query': {}
}  

db_connection_string = 'postgresql://postgres:wvw123321wvw@localhost:5432/postgres'

engine = create_engine(db_connection_string)



Данные были успешно загружены в PostgreSQL. Код закоментирован, чтобы при повторном запуске не загружать большие объемы данных повторно.

In [17]:
# Загрузка данных из DataFrame в базу данных PostgreSQL
countries.to_sql('countries', engine, if_exists='replace', index=False)

In [18]:
# Загрузка данных из DataFrame в базу данных PostgreSQL
admin_codes.to_sql('admin_codes', engine, if_exists='replace', index=False)

In [20]:
# Загрузка данных из DataFrame в базу данных PostgreSQL
alternate.to_sql('alternate', engine, if_exists='replace', index=False)

In [21]:
# Загрузка данных из DataFrame в базу данных PostgreSQL
df_full.to_sql('df_full', engine, if_exists='replace', index=False)

In [22]:
# Загрузка данных из DataFrame в базу данных PostgreSQL
geo_test.to_sql('geo_test', engine, if_exists='replace', index=False)

## Подготовка эмбеддингов

Используем Google Translate для перевода текста с русского языка (представленного строкой 'текст') на английский язык.
Создадим объект translator с помощью Translator() и вызовем метод translate(), который принимает текст для перевода и целевой язык (в данном случае, 'en' для английского).
Результат перевода сохраним переменную translated_text.

In [23]:
translator = Translator()
translated_text = translator.translate('текст', dest='en').text
print(translated_text)

lyrics


Дальше нам необходимо инициализировать и подготовить модель для векторизации текста и объект для перевода текста. Для этого создадим экземпляр модели SentenceTransformer с именем model. Эта модель загружается из предварительно обученных весов и используется для векторизации текстовых данных. В данном случае, мы используем модель с именем 'LaBSE', предназначенную для векторизации текстов на разных языках.

Создаем объект translator с помощью Translator(). Этот объект используем для перевода текста с одного языка на другой, при необходимости.

In [24]:
model = SentenceTransformer('sentence-transformers/LaBSE') 
translator = Translator
#(from_lang='ru', to_lang='en')


Выполним загрузку предварительно вычисленных векторных представлений, если они уже были созданы, или их создание на основе текстовых данных, если файл не существует. Это полезно для оптимизации времени выполнения, чтобы избежать повторных вычислений в случае наличия сохраненных векторов.

In [25]:
# Проверяем наличие файла 'embeddings.pqt' в директории, указанной переменной MODEL
if os.path.isfile(MODEL/'embeddings.pqt'):
    logging.info('Load embeddings')  # Выводим сообщение о загрузке векторных представлений из файла
    embeddings = pd.read_parquet(MODEL/'embeddings.pqt').values  # Считываем векторные представления из файла
else:
    logging.info('Encode embeddings...')  # Выводим сообщение о начале процесса векторизации
    # Выполняем векторизацию текстов из столбца 'alternate_name' датафрейма df_full
    embeddings = model.encode(df_full.alternate_name.str.lower().values,  
                                normalize_embeddings=True,  # Нормализуем векторы
                                show_progress_bar=False)  # Не показываем прогресс-бар
    # Сохраняем векторные представления в файл 'embeddings.pqt' в формате Parquet без индексов
    pd.DataFrame(embeddings).to_parquet(MODEL/'embeddings.pqt', index=False)


Напишем функцию, которая выполняет поиск семантически близких элементов в корпусе векторных представлений embeddings на основе вопроса пользователя. Функция может выполнять перевод вопроса на английский язык (translate=True), векторизовать вопрос и находить наиболее похожие элементы, а также возвращать только имена элементов или полную информацию о них в зависимости от параметра names_only.







Теперь наша задача установить путь к модели, которую мы будем использовать для векторизации текста. В данном случае, model_path установлен на 'sentence-transformers/LaBSE', что означает, что будет использована модель LaBSE (Language-agnostic BERT Sentence Embedding) из библиотеки sentence-transformers. Эта модель предназначена для векторизации текстов на разных языках.

Так же устанавливаем путь к данным, которые мы используем для поиска семантически близких элементов. 

from my_file import GeoSearch импортирует класс GeoSearch из файла my_file.py (мой проектный модуль с классом GeoSearch в файле my_file.py).

geo_search создает экземпляр класса GeoSearch с указанными model_path и data_path.


In [26]:
geo_search = GeoSearch(model_path, data_path)

После выполнения этого кода у нас создан объект geo_search, который можно использовать для выполнения операций по поиску семантически близких элементов на основе модели и данных, указанных в model_path и data_path.

## Отчет:

Импортированы необходимые библиотеки для обработки данных, машинного обучения, работы с базами данных и другие задачи.

Определено использование доступного устройства для PyTorch (GPU, многоядерная поддержка или CPU).

Загружены данные о странах, регионах и городах из различных файлов, включая альтернативные названия для каждого объекта.

Данные были обработаны, объединены и подготовлены для дальнейшего анализа и использования.

Создана база данных PostgreSQL для хранения данных, и они были успешно загружены в эту базу.

Разработан класс GeoSearch, который использует предобученную модель LaBSE для векторизации текста и позволяет выполнять поиск похожих объектов на основе семантической близости текста.

Созданы функции для исправления орфографии и перевода текста с использованием Google Translate.

Разработана функция get_similar, которая выполняет поиск похожих объектов на основе векторных представлений текста и возвращает результаты.

В проекте также присутствует тестовый датасет geo_test, для которого выполняется анализ результатов работы модели GeoSearch, включая вычисление точности с использованием sklearn.metrics.accuracy_score.

Создан отчетный код, который выполняет все вышеперечисленные шаги и демонстрирует их работу.

Проект также содержит внешний модуль my_file.py, который, содержит класс GeoSearch и дополнительные функции, не показанные в коде проекта.

Проект предположительно успешно выполняет задачу поиска похожих географических объектов на основе текстовых данных и сохраняет векторные представления для дальнейшего использования.