# 1. Задача

### Выделить ключевые слова из запроса пользователя в соответствии с иерархической предметной областью.



Ограничения:

1. Слова должны находиться на одной ветке. Приэтом не допускается использование нескольких агрегаторов на **одном уровне.** 
2. Слова, лежащие даже в абсолютно разных ветках, могут быть очень похожи. Например, "ипотека" - "none" -  "агентские", "ипотека" - "агентские обязанности"; "онлайн", "офлайн"; "с господдержкой", "без господдержки"; и т.д.
3. От перестановки слов - ничего не ломается.
4. Допускаются опечатки до некоторого значения.
5. Если есть длинный ключ (), то он хуже обрабатывается базовыми методами, например, расстоянием Левенштейна. Очень маленькие слова также зависят от формы слова (план - планов - низкий Левенштейн).
6. В ключах могут быть уменьшенные синонимы.


# 2. Исходные данные и библиотеки

### Библиотеки

In [None]:
# %pip install requirements_main.txt

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import json
from rapidfuzz import fuzz, process

from utils.config import levels
from utils.get_dynamic_query_list import *
from utils.fit_hierarchy import *
from utils.process_query import *

### Исходная иерархия:

In [2]:
with open('data/bank_hierarchy.json', 'r') as f:
    hierarchy = json.load(f)
    
hierarchy

{'Corporate': {'Вклады': {'None': {'None': {'None': ['Количество операций',
      'Сумма, млн ₽']}},
   'До востребования': {'None': {'None': ['Количество операций',
      'Сумма, млн ₽']},
    'Плавающая ставка': {'None': ['Количество операций', 'Сумма, млн ₽'],
     'Длинные': ['Количество операций', 'Сумма, млн ₽'],
     'Короткие': ['Количество операций', 'Сумма, млн ₽']},
    'Фиксированная ставка': {'None': ['Количество операций', 'Сумма, млн ₽'],
     'Длинные': ['Количество операций', 'Сумма, млн ₽'],
     'Короткие': ['Количество операций', 'Сумма, млн ₽']}},
   'Срочные': {'None': {'None': ['Количество операций', 'Сумма, млн ₽']},
    'Плавающая ставка': {'None': ['Количество операций', 'Сумма, млн ₽'],
     'Длинные': ['Количество операций', 'Сумма, млн ₽'],
     'Короткие': ['Количество операций', 'Сумма, млн ₽']},
    'Фиксированная ставка': {'None': ['Количество операций', 'Сумма, млн ₽'],
     'Длинные': ['Количество операций', 'Сумма, млн ₽'],
     'Короткие': ['Количес

### Подгрузка тренировочной и валидационной выборки

# 3. Описание алгоритма решения

### 1. fit_hierarchy

Сперва вытаскиваем из нашего дерева нормализованные ключевые слова, а также словарь типа "нормализованнео значение - ключ в исходнике". Так мы быстро можем собирать и валидировать ответ

### 2. process_query. Общее описание

Обработка запроса. Разделяется на два алгоритма: первый - long_fuzzy_match - обрабатывает ключи с двумя и более словами с помощью вложенных окон; второй - short_fuzzy_match - обрабатывает слова по одному, тем самым идеально подходит для однословных ключей.
<br><br>
После того, как алгоритмы вернули свои слова, они проходят проверку по контекстной матрице. Если проверка не пройдена, то запускается проверка по схожим словам (этот алгоритм решает проблему сильно похожих слов на разных ветках). В конце снова проверяется контекстная совместимость. 
<br><br>
На выход подается словарь с найденными значениями и уровнями, на которых нашлись эти значения.

### 2.1. long_fuzzy_match

### 2.2. short_fuzzy_match

### 2.3. update_context_matrix

# 4. ShowCase - демонстрация: метрики, тестирование, UI

# 5. Итоги и результаты