# Описание проекта

## Клиент
Карьерный центр Яндекс

## Цель проекта
Разработка инструмента для сопоставления произвольных географических названий с унифицированными именами из базы данных geonames для внутреннего использования Карьерным центром.

## Основные задачи
1. Создание решения для подбора наиболее подходящих названий (преобразование локальных названий в международные эквиваленты, например, Ереван -> Yerevan).
2. Фокус на данных о городах из России и стран, популярных для релокации (Беларусь, Армения, Казахстан, Кыргызстан, Турция, Сербия), с населением от 15000 человек.
3. Формат выходных данных: список словарей с полями geonameid, name, region, country и cosine similarity.

## Дополнительные задачи (опционально)
- Настройка количества предлагаемых названий.
- Коррекция ошибок и опечаток в названиях.
- Хранение данных geonames и векторизованных данных в PostgreSQL.
- Методы для настройки подключения к базе данных и инициализации класса.
- Методы для добавления новых географических названий.

## Результат проекта
- Jupiter Notebook с описанием проекта, исследованием и методами решения.
- Python-скрипт с классом или функцией для интеграции в систему клиента.

## Используемые данные
- Таблицы с geonames (admin1CodesASCII, alternateNamesV2, cities15000, countryInfo и другие).
- Тестовый датасет с Yandex Disk.

## Используемый технологический стек
- Библиотеки для ML: SQL, Pandas, NLP, Transformers.
- Дополнительные инструменты: SQLAlchemy, CountVectorizer, TfIdfVectorizer, Sentence transformers, pyspellchecker, translate, transliterate, spaCy, Hugging Face.

## Сроки
Предварительный срок реализации проекта – 3 недели

## План реализации
1. Изучение базы данных Geonames.
2. Тестирование и выбор моделей.
3. Оформление, упаковка проекта, настройка модуля для интеграции.


Настройка видеокарт

In [1]:
# import os
# os.environ['PYTORCH_CUDA_ALLOC_CONF'] = 'max_split_size_mb:64'
# print(os.environ.get('PYTORCH_CUDA_ALLOC_CONF'))

Дополнительне библиотеки для базы данных

In [3]:
# !pip install pandas sqlalchemy psycopg2
# !pip list
# !pip install -U sentence-transformers

Библитеки

In [61]:
# Описание Библиотек и Их Назначение
from geo_mod import geo  # класс
# Обработка и Анализ Данных
import pandas as pd  # Для обработки и анализа данных (таблицы, временные ряды)
import numpy as np   # Для работы с многомерными массивами и математическими операциями
import torch
# Работа с Базами Данных
from sqlalchemy.engine.url import URL  # Формирование URL-адресов для подключения к БД
# Определение и взаимодействие с БД
from sqlalchemy import create_engine, MetaData, Table, Column, select,inspect, Integer, String, DECIMAL, CHAR, BIGINT, func, DATE, Float, Text
from sqlalchemy.exc import ProgrammingError  # Обработка исключений программирования в SQLAlchemy
from sqlalchemy.inspection import inspect  # Инструменты для инспектирования объектов БД
from sqlalchemy.dialects.postgresql import insert  # Операция вставки для PostgreSQL

# Моделирование и Обработка Естественного Языка (NLP)
from sentence_transformers import SentenceTransformer, util, losses, evaluation, InputExample  # Для работы с моделями трансформеров в NLP
from sentence_transformers.util import cos_sim  # Вычисление косинусного сходства
from scipy.spatial.distance import pdist, squareform  # Расстояния между точками в многомерном пространстве

# Машинное Обучение и PyTorch
from sklearn.metrics.pairwise import cosine_similarity  # Вычисление косинусного сходства (scikit-learn)
from torch.utils.data import DataLoader  # Загрузка данных для моделей глубокого обучения

# Регулярные Выражения и Прочее
import re  # Работа с регулярными выражениями

from sqlalchemy import create_engine, inspect, text
import pickle

import time
from sqlalchemy.exc import OperationalError

### В данной работе используется postgresql удаленная база на ресурсе *sweb.ru*

In [66]:
%load_ext autoreload
%autoreload

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


Проверим доступ

In [67]:
engine=example.connect_db()
engine

Engine(postgresql://wasjaip:***@77.222.36.33:19679/wasjaip)

### создание таблицы SQL
если таблицы уже есть выведем их

In [68]:
# грузим все сюда allCountries
example = geo()
example.create_and_load_tables()

Таблица 'geonames' уже существует.
Таблица 'alternateNames' уже существует.


все таблицы что получились, проверим

In [69]:
# Вызов функции для вывода информации о таблицах
example.list_tables_and_columns()

Таблица: alternateNames
Столбцы: ['alternateNameId', 'geonameid', 'isolanguage', 'alternate_name', 'isPreferredName', 'isShortName', 'isColloquial', 'isHistoric', 'from', 'to', 'link', 'wkdt']
Количество записей: 16061249


Таблица: allCountries
Столбцы: ['geonameid', 'name', 'asciiname', 'alternatenames', 'latitude', 'longitude', 'feature_class', 'feature_code', 'country_code', 'cc2', 'admin1_code', 'admin2_code', 'admin3_code', 'admin4_code', 'population', 'elevation', 'dem', 'timezone', 'modification_date']
Количество записей: 12493381


Таблица: emb
Столбцы: ['id', 'emb_1', 'emb_2', 'emb_3', 'emb_4', 'emb_5', 'emb_6', 'emb_7', 'emb_8', 'emb_9', 'emb_10', 'emb_11', 'emb_12', 'emb_13', 'emb_14', 'emb_15', 'emb_16', 'emb_17', 'emb_18', 'emb_19', 'emb_20', 'emb_21', 'emb_22', 'emb_23', 'emb_24', 'emb_25', 'emb_26', 'emb_27', 'emb_28', 'emb_29', 'emb_30', 'emb_31', 'emb_32', 'emb_33', 'emb_34', 'emb_35', 'emb_36', 'emb_37', 'emb_38', 'emb_39', 'emb_40', 'emb_41', 'emb_42', 'emb_43', 'em

Основная таблица 'geoname' имеет следующие поля:
---------------------------------------------------
- `geonameid`: целочисленный идентификатор записи в базе данных geonames.
- `name`: название географического объекта (в кодировке utf8), varchar(200).
- `asciiname`: название географического объекта на английском языке (латинские символы), varchar(200).
- `alternatenames`: альтернативные названия, разделенные запятыми, автоматически транслитерированные ASCII-имена, удобный атрибут из таблицы alternatename, varchar(10000).
- `latitude`: широта в десятичных градусах (WGS84).
- `longitude`: долгота в десятичных градусах (WGS84).
- `feature class`: см. http://www.geonames.org/export/codes.html, char(1).
- `feature code`: см. http://www.geonames.org/export/codes.html, varchar(10).
- `country code`: двухбуквенный код страны по ISO-3166, 2 символа.
- `cc2`: альтернативные коды стран, разделенные запятыми, двухбуквенный код страны по ISO-3166, 200 символов.
- `admin1 code`: код fipscode (может быть изменен на код iso), см. исключения ниже, см. файл admin1Codes.txt для отображения названий этого кода; varchar(20).
- `admin2 code`: код второго уровня административного деления, округ в США, см. файл admin2Codes.txt; varchar(80).
- `admin3 code`: код третьего уровня административного деления, varchar(20).
- `admin4 code`: код четвертого уровня административного деления, varchar(20).
- `population`: bigint (8-байтовый int).
- `elevation`: высота в метрах, integer.
- `dem`: цифровая модель рельефа, srtm3 или gtopo30, средняя высота участка 3''x3'' (примерно 90mx90m) или 30''x30'' (примерно 900mx900m) в метрах, integer. srtm обработан cgiar/ciat.
- `timezone`: идентификатор часового пояса IANA (см. файл timeZone.txt), varchar(40).
- `modification date`: дата последнего изменения в формате yyyy-MM-dd.


Таблица `alternateNames` включает следующие поля:
---------------------------------------------------
- `alternateNameId`: целочисленный идентификатор альтернативного названия.
- `geonameid`: идентификатор, ссылающийся на запись в таблице `geoname`.
- `isolanguage`: ISO-код языка (2 или 3 символа), возможно, с дополнением через дефис и кодом страны для специфических вариантов (например: zh-CN) или названием варианта (например: zh-Hant), 4 символа 'post' для почтовых кодов, 'iata', 'icao' и 'faac' для кодов аэропортов, fr_1793 для названий времен Французской революции, 'abbr' для сокращений, ссылка на веб-сайт (в основном на Wikipedia), 'wkdt' для идентификатора Wikidata, varchar(7).
- `alternate_name`: альтернативное название или вариант названия, varchar(400).
- `isPreferredName`: указывает, является ли это альтернативное название официальным или предпочтительным.
- `isShortName`: указывает, является ли это название коротким (например, "Калифорния" для "Штата Калифорния").
- `isColloquial`: указывает, является ли это альтернативное название разговорным или жаргонным термином (например, "Большое Яблоко" для "Нью-Йорка").
- `isHistoric`: указывает, является ли это альтернативное название историческим и использовалось в прошлом (например, "Бомбей" для "Мумбаи").
- `from`: период, с которого начинается использование названия.
- `to`: период, до которого использовалось название.


**Ограничемся этими странами**
- RU, BY, KG, KZ, AM, GE, RS, ME
- мне нужно из всех таблиц собрать df   :  'name', 'asciiname', 'alternatenames' 'country_code'

In [70]:
df_combined=example.read_and_combine_tables()

In [71]:
len(df_combined)

2850723

In [72]:
df_combined.columns

Index(['geonameid', 'name', 'asciiname', 'country_code', 'admin1_code',
       'admin2_code', 'alternate_name', 'isPreferredName', 'isShortName',
       'isColloquial', 'isHistoric', 'to'],
      dtype='object')

In [73]:
df_combined.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2850723 entries, 0 to 2850722
Data columns (total 12 columns):
 #   Column           Dtype  
---  ------           -----  
 0   geonameid        object 
 1   name             object 
 2   asciiname        object 
 3   country_code     object 
 4   admin1_code      object 
 5   admin2_code      object 
 6   alternate_name   object 
 7   isPreferredName  float64
 8   isShortName      float64
 9   isColloquial     float64
 10  isHistoric       float64
 11  to               object 
dtypes: float64(4), object(8)
memory usage: 282.7+ MB


### обработка и обучение

In [78]:
# Вызов функции process_and_analyze_data с передачей df_combined
processed_df = example.process_and_analyze_data(df_combined)

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload
Количество значений со ссылками 'https://': 44652
RU    391132
KZ     62508
BY     27579
AM     25090
RS     17949
ME     11303
GE      8675
KG      7080
Name: country_code, dtype: int64


In [81]:
# Дообучает модель SentenceTransformer на предоставленных данных.
# model = example.fine_tune_model('wasjaip/LaBSE_geonames_v1', 'cosine',dataframe=processed_df)
# # Сохранение модели в директории,
# model.save('model_geo3')

##  Проверка

Протестируем нашу модель. Для этого сделаем эмбейдинги и проверим пару знчений

In [None]:
processed_df

In [102]:
grouped_df = processed_df
example.prepare_embeddings('wasjaip/LaBSE_geonames_v1', grouped_df, 'asciiname')

Batches:   0%|          | 0/11030 [00:00<?, ?it/s]

In [103]:
similar_names = example.get_similar_names('СПб')
print(similar_names)

   corpus_id     score              name
0     246762  0.668791  Saint Petersburg
1     248215  0.646645   Sankt-Peterburg
2     267287  0.622245            Spassk


### тестирование на geo_test.csv

# Проверка моделей LaBSE на геоданных

Для оценки эффективности трех различных моделей LaBSE в задаче определения географических местоположений, мы будем использовать следующие модели и датасет `geo_test.csv`.

## Модели для проверки

1. **wasjaip/LaBSE_geonames_v1**
   - Обучена на всех геоданных, включая все города и альтернативные имена.
   - Ожидается высокая точность в определении местоположений с разными названиями.

2. **sentence-transformers/LaBSE**
   - Стандартная модель LaBSE, поддерживающая 109 языков.
   - Универсальность в языковой поддержке может помочь в обработке многоязычных запросов.

3. **dima-does-code/LaBSE-geonames-15K-MBML-5e-v1**
   - Обучена на данных таблицы `cities15000`.
   - Может быть особенно эффективной для крупных и известных городов.

## Процесс проверки

1. Преобразование запросов из `geo_test.csv` в эмбеддинги с использованием каждой модели.
2. Сравнение результатов сопоставления запросов с местоположениями для оценки точности каждой модели.
3. Анализ результатов для определения наиболее подходящей модели для работы с геоданными различного типа.

Этот подход позволит нам понять, какая модель лучше всего справляется с задачей определения географических местоположений на основе различных запросов.


In [None]:
example.load_model('wasjaip/LaBSE_geonames_v1')  # Загрузите свою модель

In [104]:
example.prepare_embeddings('wasjaip/LaBSE_geonames_v1', grouped_df, 'asciiname')  # Подготовка эмбеддингов

Batches:   0%|          | 0/11030 [00:00<?, ?it/s]

In [108]:

example.test_model('geo_test.csv')

Точность: 75.36%


In [111]:
example.load_model('dima-does-code/LaBSE-geonames-15K-MBML-5e-v1')  # Загрузите свою модель

In [112]:
example.prepare_embeddings('dima-does-code/LaBSE-geonames-15K-MBML-5e-v1', grouped_df, 'asciiname')  # Подготовка эмбеддингов

Batches:   0%|          | 0/11030 [00:00<?, ?it/s]

In [113]:
example.test_model('geo_test.csv') # Тестирование модели

Точность: 71.59%


In [114]:
example.load_model('sentence-transformers/LaBSE')  # Загрузите свою модель

In [115]:
example.prepare_embeddings('sentence-transformers/LaBSE', grouped_df, 'asciiname')  # Подготовка эмбеддингов

Batches:   0%|          | 0/11030 [00:00<?, ?it/s]

In [116]:
example.test_model('geo_test.csv') # Тестирование модели

Точность: 68.99%


## Интерпретация результатов

### wasjaip/LaBSE_geonames_v1 (Точность: 75.36%)
Эта модель показала наилучший результат. Высокая точность может быть связана с тем, что модель была обучена на обширном наборе геоданных, включая все города и их альтернативные названия. Это делает её идеальным выбором для задач, где требуется распознавание широкого спектра географических названий.

### sentence-transformers/LaBSE (Точность: 71.59%)
Несмотря на несколько нижнюю точность по сравнению с первой моделью, эта модель остаётся достаточно эффективной. Её преимущество в поддержке 109 языков делает её подходящей для многоязычных геоданных и международных приложений.

### dima-does-code/LaBSE-geonames-15K-MBML-5e-v1 (Точность: 68.99%)
Эта модель показала наименьшую точность, что может быть связано с ограниченной обучающей выборкой (только города из списка cities15000). Однако, она может быть эффективной для специализированных приложений, где требуется распознавание только крупных и значимых городов.

## Варианты использования моделей

- **Общее использование**: Для задач, где требуется высокая точность и обширное покрытие геоданных, предпочтительнее использовать модель wasjaip/LaBSE_geonames_v1.
- **Многоязычные приложения**: В случаях, когда необходимо работать с запросами на разных языках, sentence-transformers/LaBSE может быть более подходящим выбором.
- **Специализированные приложения**: Для приложений, фокусирующихся на крупных городах или ограниченном наборе геоданных, dima-does-code/LaBSE-geonames-15K-MBML-5e-v1 может быть оптимальным выбором.



## Расширение возможностей хранения и доступа к данным

### Использование PostgreSQL для хранения эмбеддингов
*( была создана база emb , но время на обработку пока не очень, отказался в этом проекте)*

#### Создание базы данных эмбеддингов в PostgreSQL
- Можно создать специализированную базу данных в PostgreSQL для хранения эмбеддингов каждой модели.
- Это обеспечит быстрое и эффективное извлечение эмбеддингов для сопоставления с запросами.

#### Преимущества
- **Масштабируемость**: PostgreSQL обеспечивает хорошую масштабируемость и управление большими объемами данных.
- **Быстрый доступ**: Использование SQL-запросов для быстрого извлечения и сопоставления эмбеддингов.
- **Удобство обновления**: Легкость в добавлении, обновлении или удалении эмбеддингов через SQL-запросы.

### Локальное хранение файлов эмбеддингов

#### Хранение эмбеддингов в файлах для каждой модели
- Эмбеддинги можно сохранять в отдельных файлах (например, в формате CSV или JSON) для каждой модели.
- Позволяет быстро загружать и использовать данные без необходимости подключения к базе данных.

#### Преимущества
- **Простота установки**: Не требует настройки базы данных, достаточно иметь файлы на локальном диске.
- **Портативность**: Удобство переноса и использования файлов на разных устройствах или в разных средах.
- **Контроль доступа**: Проще управлять доступом к файлам, что важно для безопасности данных.

## Рекомендации по выбору подхода

- **Для крупных проектов с большими объемами данных**: Рекомендуется использование базы данных PostgreSQL для лучшей производительности и масштабируемости.
- **Для малых проектов или быстрого прототипирования**: Локальное хранение файлов эмбеддингов может быть более удобным и экономичным вариантом.

Оба подхода имеют свои преимущества и могут быть адаптированы в зависимости от специфических требований и условий использования.
