# Решение #2 - Равное голосование

Решение использует следующие алгоритмы:
* Косинусное расстояние
* Расстояние Дамерау-Левенштейна
* L2-расстояние
* N-граммы + метрика Индекс Тверского
* Расстояние Хэмминга
* Проверка наборов местоимений

Решение основано на объединении результатов разных алгоритмов.

## Загрузка данных

In [1]:
from src import *
data = load_dataset.load('../data/sample.json')

In [2]:
data

['ты нашел их или нет',
 'почему она так со мной поступает',
 'никто туда больше не ходит',
 'у него с собой не было тогда денег',
 'почему они с нами так поступают',
 'он всю ночь стонал от сильной боли',
 'я больше не хочу с тобой играть',
 'тому было тогда всего тринадцать лет',
 'что сделал том с деньгами',
 'том меня сейчас хочет видеть',
 'он даже меня не замечает',
 'тебе это все нравится',
 'у него тогда не было с собой денег',
 'я его больше не увижу',
 'почему она так с ней поступает',
 'я хотел бы учиться в бостоне',
 'том и мэри объявили сегодня о своей пбмолвке',
 'том этим сейчас занимается',
 'я не могу больше ждать',
 'мост очень длинный и высокий',
 'том был просто не готов',
 'пусть свиньи это едят',
 'я ничего не хочу делать',
 'ты хотел мне рассказать о свободе',
 'что пел джон на сцене',
 'я написал влера письмо',
 'тому это тоже не нравится',
 'сколько сейчас времени в париже',
 'мы не были готовы',
 'они их только что нашли',
 'тому было больше не к кому обратить

## Группировка предложений

In [3]:
from tqdm.auto import tqdm
from ipywidgets import FloatProgress

# Функция группировки строк
def find_groups(data):
    groups = []                        # Cписок для сохранения групп
    threshold = 0.9                    # Ограничение для алгоритмов верификации рерайтов
    used = [False for _ in range(len(data))]    # Список меток использования строк
    for current_id in tqdm(range(len(data))):
        if (used[current_id]):
            continue
        current_group = []             # Текущая группа
        current_group.append(data[current_id])
        used[current_id] = True
        for next_id in range(current_id + 1, len(data)):
            if (used[next_id]):
                continue
            line1 = data[current_id]
            line2 = data[next_id]
            # Проверка строк с помощью алгоритмов верификации
            if (cosine_count.is_rewrite_cosine_count(line1, line2, threshold) or
               dam_lev_dist.is_rewrite_damerau_levenshtein_distance(line1, line2, threshold) or
               distance_L2.is_rewrite_distance_L2(line1, line2, threshold) or
               ngrams.is_rewrite_tverskiy_ngram(line1, line2, threshold)):
                if (pronouns.check_pronoun_correspondence(line1, line2) or(hamming_distance_custom.clean_hamming_distance(line1, line2) == 1)):
                    current_group.append(line2)  # Добавление строки в текущую группу
                    used[next_id] = True
        groups.append(current_group)             # Добавление сформированной группы к результирующему списку
    return groups
   
        

In [4]:
groups = find_groups(data)

  0%|          | 0/412 [00:00<?, ?it/s]

## Результаты работы

### Количество найденных групп рерайтов

In [None]:
len(groups)

### Найденные группы

In [None]:
groups

### Группы размера 1

In [None]:
groups1 = [group for group in groups if len(group) == 1]

In [None]:
len(groups1)

In [None]:
groups1

### Группы размера 2

In [None]:
groups2 = [group for group in groups if len(group) == 2]

In [None]:
len(groups2)

In [None]:
groups2

### Группы размера 3

In [None]:
groups3 = [group for group in groups if len(group) == 3]

In [None]:
len(groups3)

In [None]:
groups3

## Сохранение результатов

In [None]:
save_groups.save_groups(groups, "../output/solution2-result.json")