In [35]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn

# Функция начальной обработки строк

In [36]:
import re
def preprocess_text(text):
    text = text.lower()                  # Приводим текст к нижнему регистру
    text = re.sub(r'[^\w-]', ' ', text)  # Удаляем знаки препинания
    text = re.sub(r'_', ' ', text)       # Удаляем нижнее подчеркиваниее на всякий случай
    text = re.sub(r'\s+', ' ', text)     # Удаляем лишние пробелы
    text = text.replace('ё','е')         # заменяем ё на е
    return text.strip()                  # удаляем начальные и конечные пробелы

# Загрузка датасета

In [37]:
df = pd.read_json('sample.json')
df['text'] = df['text'].apply(preprocess_text)
print(df.to_string())

      id                                                text
0      1                                 ты нашел их или нет
1      2                    почему она так со мной поступает
2      3                          никто туда больше не ходит
3      4                  у него с собой не было тогда денег
4      5                     почему они с нами так поступают
5      6                  он всю ночь стонал от сильной боли
6      7                     я больше не хочу с тобой играть
7      8                тому было тогда всего тринадцать лет
8      9                           что сделал том с деньгами
9     10                        том меня сейчас хочет видеть
10    11                            он даже меня не замечает
11    12                               тебе это все нравится
12    13                  у него тогда не было с собой денег
13    14                               я его больше не увижу
14    15                      почему она так с ней поступает
15    16                

# Векторизация подсчетом

In [38]:
from countVectorizer import countVectorize

# from sklearn.feature_extraction.text import CountVectorizer
# def countVectorize(left,right):
#     countVectorizer = CountVectorizer()
#     countVector = countVectorizer.fit_transform([left,right])
#     return countVector.toarray()

# Векторизация TF-IDF

In [39]:
from tfidfVectorizer import tfidfVectorize

# from sklearn.feature_extraction.text import TfidfVectorizer

# def tfidfVectorize(left,right):
#     tfidfVectorizer = TfidfVectorizer()
#     tfidfVector = tfidfVectorizer.fit_transform([left,right])
#     return tfidfVector.toarray()

# Все строки в одном тексте

In [40]:
all_text = ''.join([str + " " for str in df['text'].to_numpy()])[:-1] # Конкатенация всех строк
all_text

'ты нашел их или нет почему она так со мной поступает никто туда больше не ходит у него с собой не было тогда денег почему они с нами так поступают он всю ночь стонал от сильной боли я больше не хочу с тобой играть тому было тогда всего тринадцать лет что сделал том с деньгами том меня сейчас хочет видеть он даже меня не замечает тебе это все нравится у него тогда не было с собой денег я его больше не увижу почему она так с ней поступает я хотел бы учиться в бостоне том и мэри объявили сегодня о своей пбмолвке том этим сейчас занимается я не могу больше ждать мост очень длинный и высокий том был просто не готов пусть свиньи это едят я ничего не хочу делать ты хотел мне рассказать о свободе что пел джон на сцене я написал влера письмо тому это тоже не нравится сколько сейчас времени в париже мы не были готовы они их только что нашли тому было больше не к кому обратиться том не знает ничего о семье мэри я живу сейчас в бостоне я ничего не хочу пить мне нужны будут подробности мы ничего н

# Уникальные для датасета слова

In [41]:
unique_words = list(set(preprocess_text(all_text).split(' ')))[1:] # также содержит слова, имеющие опечатки
unique_words

['будеоь',
 'звука',
 'слышит',
 'скрывать',
 'одежду',
 'вот',
 'выражение',
 'слышно',
 'пили',
 'говорю',
 'услышать',
 'редко',
 'ввести',
 'европе',
 'сухое',
 'хочет',
 'будешь',
 'рому',
 'правильно',
 'разбудить',
 'всем',
 'невиновны',
 'свои',
 'смотрят',
 'свою',
 'слова',
 'не',
 'чуо',
 'меняется',
 'согласен',
 'утро',
 'деньгами',
 'работает',
 'занят',
 'завтра',
 'своими',
 'мои',
 'высадить',
 'вернется',
 'обязан',
 'сможет',
 'видеть',
 'работать',
 'ьто',
 'тебе',
 'скажет',
 'кричу',
 'газету',
 'из',
 'до',
 'телефону',
 'что-то',
 'приходи',
 'горах',
 'играешь',
 'осуществиться',
 'буду',
 'доказать',
 'школу',
 'ты',
 'просил',
 'ещм',
 'обдумать',
 'америке',
 'встретил',
 'понимаете',
 'по-моему',
 'суешь',
 'исчезнуть',
 'нужна',
 'можешь',
 'могу',
 'поступают',
 'скажер',
 'для',
 'сделел',
 'дал',
 'многие',
 '-',
 'едят',
 'неплохо',
 'прийти',
 'поблизости',
 'тома',
 'том',
 'третьего',
 'испанском',
 'компьютер',
 'комментарии',
 'парнем',
 'говорит'

# Все строки в виде списка

In [42]:
strings = list(df['text'])
strings

['ты нашел их или нет',
 'почему она так со мной поступает',
 'никто туда больше не ходит',
 'у него с собой не было тогда денег',
 'почему они с нами так поступают',
 'он всю ночь стонал от сильной боли',
 'я больше не хочу с тобой играть',
 'тому было тогда всего тринадцать лет',
 'что сделал том с деньгами',
 'том меня сейчас хочет видеть',
 'он даже меня не замечает',
 'тебе это все нравится',
 'у него тогда не было с собой денег',
 'я его больше не увижу',
 'почему она так с ней поступает',
 'я хотел бы учиться в бостоне',
 'том и мэри объявили сегодня о своей пбмолвке',
 'том этим сейчас занимается',
 'я не могу больше ждать',
 'мост очень длинный и высокий',
 'том был просто не готов',
 'пусть свиньи это едят',
 'я ничего не хочу делать',
 'ты хотел мне рассказать о свободе',
 'что пел джон на сцене',
 'я написал влера письмо',
 'тому это тоже не нравится',
 'сколько сейчас времени в париже',
 'мы не были готовы',
 'они их только что нашли',
 'тому было больше не к кому обратить

# Анализ строк (найденные закономерности приведены в гугл-документе)

## 2 одинаковые по смыслу строки, но в одной добавлено (удалено в замисимости от того, какая исходная) слово

In [43]:
sorted([str for str in strings if str.find('том') != -1 and str.find('живет')!=-1])

['том не живет в бостоне', 'том сейчас не живет в бостоне']

## 2 одинаковые по смыслу строки, в которых поменяли местами слова

In [44]:
sorted([str for str in strings if str.find('том') != -1 and str.find('друз')!=-1])

['том - один из лучших моих друзей', 'том - один из моих лучших друзей']

## 2 одинаковые по смыслу строки, но в одной строке есть опечатка

In [45]:
sorted([str for str in strings if str.find('том') != -1 and str.find('объявили')!=-1])

['том и мэри объявили сегодня о своей пбмолвке',
 'том и мэри объявили сегодня о своей помолвке']

In [100]:
sorted([str for str in strings if str.find('почему') != -1 or str.find('поступает')!=-1])

['почему все на нас смотрят',
 'почему всн на нас смотрят',
 'почему никто нам не помогает',
 'почему он так со мной поступает',
 'почему она с ним так поступает',
 'почему она так с ней поступает',
 'почему она так с ним поступает',
 'почему она так со мной поступает',
 'почему они с нами так поступают',
 'почему они так с ним поступают',
 'почему ты просто не можешь позвонить им']

In [46]:
sorted([str for str in strings if str.find('жить') != -1 and str.find('')!=-1])

['мы не можем прожить ни дня без воды',
 'мы ни дня не можем прожить без воды',
 'том не может жить без мэри',
 'я жить не могу без тома',
 'я не могу жить без тома']

In [47]:
sorted([str for str in strings if str.find('я') != -1])

['больше мы для него ничего не можем сделать',
 'все говорят что они невиновны',
 'все они говорят что невиновны',
 'говорят в горах погода быстро меняется',
 'говорят погода в горах быстро меняется',
 'думаю я мог бы и один это сделать',
 'если у тебя будет время завтра приходи ко мне',
 'иди сюда я тебе еще кое-что покажу',
 'извините я хотел бы ьто примерить',
 'извините я хотел бы это примерить',
 'интерфейс очень интуитивно понятен',
 'какая гора самая высокая в европе',
 'какая гора самая высокая в мире',
 'когда я его видел в последний раз',
 'кто мне может это объяснить',
 'кто может мне это объяснить',
 'лакая гора самая высокая в европе',
 'мне придется это еще раз обдумать',
 'мне придется это ещм раз обдумать',
 'мне сегодня не нужно никуда идти',
 'можешь меня высадить у библиотеки',
 'мы не были так заняты',
 'мы не можем прожить ни дня без воды',
 'мы ни дня не можем прожить без воды',
 'мы сегодня поговорим с томом',
 'мы теряем здесь время',
 'на печи старая кошка вози

In [48]:
sorted([str for str in strings if str.find('ждать') != -1])

['мы больше не хотим ждать',
 'он больше не может ждать',
 'я больше не могу ждать',
 'я не могу больше ждать']

In [49]:
sorted([str for str in strings if str.find('почему') != -1])

['почему все на нас смотрят',
 'почему всн на нас смотрят',
 'почему никто нам не помогает',
 'почему он так со мной поступает',
 'почему она с ним так поступает',
 'почему она так с ней поступает',
 'почему она так с ним поступает',
 'почему она так со мной поступает',
 'почему они с нами так поступают',
 'почему они так с ним поступают',
 'почему ты просто не можешь позвонить им']

In [50]:
sorted([str for str in strings if str.find('могу') != -1])

['я больше не могу доверять тому',
 'я больше не могу ждать',
 'я жить не могу без тома',
 'я их тоже не могу найти',
 'я не могу больше ждать',
 'я не могу в этом году поехать за границу',
 'я не могу жить без тома',
 'я не могу ничего найти',
 'я не могу поехать в этом году за границу',
 'я не могу сейчас говорить',
 'я ничего не могу доказать',
 'я ничего не могу найти',
 'я рмогу там быть через час',
 'я сейчас не могу говорить',
 'я смогу там быть через час']

In [51]:
sorted([str for str in strings if str.find('вчера') != -1])

['вчера был просто не мой день',
 'вчера просто был не мой день',
 'кен был вчера дома',
 'кен вчера был дома',
 'он сказал что вчера был дома',
 'она сказала что вчера была дома',
 'том тебе звонил вчера вечером',
 'я вчера неплохо провел время',
 'я написал вчера письмо',
 'я неплохо провел вчера время']

In [52]:
sorted([str for str in strings if str.find('десят') != -1])

['прибавить пять к десяти легко']

In [53]:
sorted([str for str in strings if str.find('птиц') != -1])

['многие птицы на зиму улетают на юг', 'многие птицы осенью улетают на юг']

# Алгоритмы

In [54]:
from karlovskiy_distance import *
# # расстояние Карловского
# def karlovskiy_distance(left : str, right : str) -> float:
#     left = '\b\b' + left + '\f\f'
#     right = '\b\b' + right + '\f\f'
#     dist = -4
#     for i in range(len(left) - 2):
#         if left[i:i+3] not in right:
#             dist += 1
#     for i in range(len(right) - 2):
#         if right[i:i+3] not in left:
#             dist += 1
#     return 1 - max(0, dist) / (len(left) + len(right) - 8)
    
# def is_rewrite_karlovskiy_distance(left : str, right : str,threshold : float) -> bool:
#     return karlovskiy_distance(left, right) > threshold

In [55]:
from word_set import *
# # Простой подсчет слов
# # сделать визуализацию с помощью кругов эйлера
# def word_set(left : str, right : str) -> float: 
#     left = set(left.split(' '))
#     right = set(right.split(' '))
#     return 1 - len((left - right) | (right - left)) / len(left | right)

# def is_rewrite_word_set(left : str, right : str, threshold : float) -> bool: 
#     return word_set(left,right) > threshold

In [56]:
from jaccard import *
# # коэффициент Жаккарда
# def Jaccard(left : str, right : str) -> float:
#     a = set(left)
#     b = set(right)
#     c = (a & b)
#     up = len(c)
#     down = len(a) + len(b) - len(c)
#     if(down != 0):
#         return up/down
#     else:
#         return 1.0 

# def is_rewrite_Jaccard(left : str, right : str, threshold : float) -> bool:
#     return Jaccard(left,right) > threshold

In [57]:
from sorensen import *
# # Коэффииент Серенсена
# def Sorensen(left : str, right : str) -> float:
#     a = set()
#     b = set()
#     for i in range(len(left)-1):
#         a.add(left[i] + left[i+1])
#     for i in range(len(right)-1):
#         b.add(right[i] + right[i+1])
#     return 2 * len(a & b) / (len(a) + len(b))

# def is_rewrite_Sorensen(left : str, right : str, threshold : float) -> bool:
#     return Sorensen(left,right) > threshold

In [58]:
from myers import *
# # алгоритм Майерса
# def myers(left : str, right : str) -> float:
#     m = len(left)
#     n = len(right)
    
#     # Инициализация матрицы
#     matrix = [[0] * (n+1) for _ in range(m+1)]
#     for i in range(m+1):
#         matrix[i][0] = i
#     for j in range(n+1):
#         matrix[0][j] = j
    
#     # Заполнение матрицы
#     for i in range(1, m+1):
#         for j in range(1, n+1):
#             if left[i-1] == right[j-1]:
#                 matrix[i][j] = matrix[i-1][j-1]
#             else:
#                 matrix[i][j] = min(matrix[i-1][j] + 1, # удаление
#                                     matrix[i][j-1] + 1, # вставка
#                                     matrix[i-1][j-1] + 1) # замена
    
#     return 1 - matrix[m][n] / max(m,n)

# def is_rewrite_myers(left : str, right : str, threshold : float) -> bool:
#     return myers(left,right) > threshold

In [59]:
from cosine_tfidf import *
# from numpy.linalg import norm

# #Косинусное сходство при векторизации tf-idf
# def cosine_tfidf(left : str,right : str) -> float:
#     vec = tfidf(left,right)
#     return np.dot(vec[0],vec[1])/(norm(vec[0])*norm(vec[1]))

# def is_rewrite_cosine_tfidf(left : str, right : str, threshold : float) -> bool:
#     return cosine_tfidf(left,right) > threshold

In [60]:
from cosine_count import *
# #Косинусное сходство при векторизации count
# def cosine_count(left : str,right : str) -> float:
#     vec = count(left,right)
#     return np.dot(vec[0],vec[1])/(norm(vec[0])*norm(vec[1]))

# def is_rewrite_cosine_count(left : str,right : str, threshold : float) -> bool:
#     return cosine_count(left,right) > threshold

In [61]:
from jaro_winkler import *
# from math import floor

# # Расстояние Джаро
# def jaro_distance(left:str, right:str):
     
#     if (left == right):
#         return 1.0
 
#     len1 = len(left)
#     len2 = len(right)
#     max_dist = floor(max(len1, len2) / 2) - 1
 
#     match = 0
 
#     hash_left = [0] * len(left)
#     hash_right = [0] * len(right)
 
#     for i in range(len1):
 
#         for j in range(max(0, i - max_dist), 
#                        min(len2, i + max_dist + 1)):
             
#             if (left[i] == right[j] and hash_right[j] == 0):
#                 hash_left[i] = 1
#                 hash_right[j] = 1
#                 match += 1
#                 break
 
#     if (match == 0):
#         return 0.0
 
#     t = 0
#     point = 0
 
#     for i in range(len1):
#         if (hash_left[i]):
#             while (hash_right[point] == 0):
#                 point += 1
 
#             if (left[i] != right[point]):
#                 t += 1
#             point += 1
#     t = t//2
 
#     return (match/ len1 + match / len2 + (match - t) / match)/ 3.0

# # Расстояние Джаро-Винклера
# def jaro_Winkler(left : str, right : str) -> float: 
 
#     jaro_dist = jaro_distance(left, right); 
 
#     if (jaro_dist > 0.7) :
 
#         prefix = 0; 
 
#         for i in range(min(len(left), len(right))) :
         
#             if (left[i] == right[i]) :
#                 prefix += 1; 
 
#             else :
#                 break; 
 
#         prefix = min(4, prefix); 
#         jaro_dist += 0.1 * prefix * (1 - jaro_dist); 
#     return jaro_dist

# def is_rewrite_jaro_winkler(left : str, right : str, threshold : float) -> bool:
#     return jaro_Winkler(left,right) > threshold

In [62]:
from distance_L1 import *
# # Расстояние L1
# def distance_L1(left:str, right:str)->float:
#     vec = count(left,right)
#     distance = 0
#     for i in range(len(vec[0])):
#         distance += abs(vec[0][i] - vec[1][i])
#     return 1 - distance / (sum(vec[0]) + sum(vec[1]))

# def is_rewrite_distance_L1(left:str, right:str, threshold:float)->bool:
#     return distance_L1(left,right) > threshold

In [63]:
from distance_L2 import *
# from math import sqrt

# # Расстояние L2
# def distance_L2(left:str, right:str)->float:
#     vec = count(left,right)
#     distance = 0
#     for i in range(len(vec[0])):
#         distance += (vec[0][i] - vec[1][i])**2
#     return 1 - sqrt(distance) / (sum(vec[0]) + sum(vec[1]))

# def is_rewrite_distance_L2(left:str, right:str, threshold:float)->bool:
#     return distance_L2(left,right) > threshold

In [64]:
from JSD import *
# import scipy.stats

# # Дивергенция Дженсена-Шеннона
# def JSD(left:str, right:str)->float:
#     vec = count(left,right)
#     p = np.array(vec[0])
#     q = np.array(vec[1])
#     m = (p + q) / 2
#     divergence = (scipy.stats.entropy(p, m) + scipy.stats.entropy(q, m)) / 2
#     distance = np.sqrt(divergence)
#     return 1 - distance

# def is_rewrite_JSD(left:str, right:str, threshold:float)->bool:
#     return JSD(left,right) > threshold

In [65]:
from hellinger import *
# # Расстояние Хеллингера
# def hellinger_distance(left:str,right:str)->float:
#     vec = count(left,right)
#     s = 0
#     for p_i, q_i in zip(vec[0], vec[1]):
#         s = (np.sqrt(p_i) - np.sqrt(q_i)) ** 2
#     return 1 - np.sqrt(s / 2)
    
# def is_rewrite_hellinger_distance(left:str,right:str, threshold:float)->bool:
#     return hellinger_distance(left,right) > threshold

In [96]:
# Расстояние Хэмминга (Для отлавливания опечаток)
def is_rewrite_hamming_distance_custom(left:str,right:str,threshold=0.9)->bool:
    if len(left) != len(right):
        return False
    c = 0
    for i in range(len(left)):
        c += left[i]!=right[i]
    return c == 1

# # Расстояние Хэмминга нормализованное
# def hamming_distance_normalized(left:str,right:str)->float:
#     if len(left)!=len(right):
#         # вставить алгоритм выравнивания последовательностей
#     c = 0
#     for i in range(len(left)):
#         c += left[i]!=right[i]
#     return 1 - c / len(left)
# def is_rewrite_hamming_distance_normalized(left:str,right:str,threshold:float)->bool:
#     hamming_distance_normalized(left,right) > threshold

In [97]:
check_algorithm(is_rewrite_hamming_distance_custom)

я жить не могу без тома  ::  я не могу жить без тома
False

мы не можем прожить ни дня без воды  ::  мы ни дня не можем прожить без воды
False

том не живет в бостоне  ::  том сейчас не живет в бостоне
False

том и мэри объявили сегодня о своей помолвке  ::  том и мэри объявили сегодня о своей пбмолвке
True

многие птицы на зиму улетают на юг  ::  многие птицы осенью улетают на юг
False


мы не можем прожить ни дня без воды  ::  многие птицы осенью улетают на юг
False

я жить не могу без тома  ::  почему она так с ней поступает
False

мы не можем прожить ни дня без воды  ::  я не могу ничего найти
False

ты нашел их или нет  ::  ты не будешь один
False

я больше не хочу с тобой играть  ::  я не могу ничего найти
False

я не хочу больше на вас работать  ::  я не могу ничего найти
False

я не хочу больше на вас работать  ::  я не хочу с тобой больше играть
False

я ничего не хочу делать  ::  я ничего не хочу пить
False

почему она так с ней поступает  ::  почему она так с ним поступает
F

In [67]:
# Эксперимент

tfidfVectorizer = TfidfVectorizer()
tfidfVector = tfidfVectorizer.fit_transform(strings)
strings_vectorized = tfidfVector.toarray()
strings_vectorized

def test_cosine(left:str,right:str)->float:
    vec = tfidfVectorizer.transform([left,right]).toarray()
    return np.dot(vec[0],vec[1])/(norm(vec[0])*norm(vec[1]))
def is_rewrite_test_cosine(left:str,right:str,threshold:float)->bool:
    return test_cosine(left,right) > threshold

In [68]:
# check_algorithm(test_cosine)

# Проверить свой код можно ниже

In [87]:
from typing import Callable
def check_algorithm(function:Callable[str,str]):
    print('я жить не могу без тома',' :: ','я не могу жить без тома')
    print(function('я жить не могу без тома','я не могу жить без тома'))
    print()
    print('мы не можем прожить ни дня без воды',' :: ','мы ни дня не можем прожить без воды')
    print(function('мы не можем прожить ни дня без воды','мы ни дня не можем прожить без воды'))
    print()
    print('том не живет в бостоне',' :: ','том сейчас не живет в бостоне')
    print(function('том не живет в бостоне','том сейчас не живет в бостоне'))
    print()
    print('том и мэри объявили сегодня о своей помолвке',' :: ','том и мэри объявили сегодня о своей пбмолвке')
    print(function('том и мэри объявили сегодня о своей помолвке','том и мэри объявили сегодня о своей пбмолвке'))
    print()
    print('многие птицы на зиму улетают на юг',' :: ','многие птицы осенью улетают на юг')
    print(function('многие птицы на зиму улетают на юг','многие птицы осенью улетают на юг'))
    print('\n=======================================================================================\n')
    print('мы не можем прожить ни дня без воды',' :: ','многие птицы осенью улетают на юг')
    print(function('мы не можем прожить ни дня без воды','многие птицы осенью улетают на юг'))
    print()
    print('я жить не могу без тома',' :: ','почему она так с ней поступает')
    print(function('я жить не могу без тома','почему она так с ней поступает'))
    print()
    print('мы не можем прожить ни дня без воды',' :: ','я не могу ничего найти')
    print(function('том и мэри объявили сегодня о своей помолвке','почему она так с ним поступает'))
    print()
    print('ты нашел их или нет',' :: ','ты не будешь один')
    print(function('ты нашел их или нет','ты не будешь один'))
    print()
    print('я больше не хочу с тобой играть',' :: ','я не могу ничего найти')
    print(function('я больше не хочу с тобой играть','я не могу ничего найти'))
    print()
    print('я не хочу больше на вас работать',' :: ','я не могу ничего найти')
    print(function('я не хочу больше на вас работать','я не могу ничего найти'))
    print()
    print('я не хочу больше на вас работать',' :: ','я не хочу с тобой больше играть')
    print(function('я не хочу больше на вас работать','я не хочу с тобой больше играть'))
    print()
    print('я ничего не хочу делать',' :: ','я ничего не хочу пить')
    print(function('я ничего не хочу делать','я ничего не хочу пить'))
    print()
    print('почему она так с ней поступает',' :: ','почему она так с ним поступает')
    print(function('почему она так с ней поступает','почему она так с ним поступает'))

In [70]:
check_algorithm(karlovskiy_distance)

я жить не могу без тома  ::  я не могу жить без тома
0.9565217391304348

мы не можем прожить ни дня без воды  ::  мы ни дня не можем прожить без воды
1.0

том не живет в бостоне  ::  том сейчас не живет в бостоне
0.9019607843137255

том и мэри объявили сегодня о своей помолвке  ::  том и мэри объявили сегодня о своей пбмолвке
0.9772727272727273

многие птицы на зиму улетают на юг  ::  многие птицы осенью улетают на юг
0.835820895522388


мы не можем прожить ни дня без воды  ::  многие птицы осенью улетают на юг
0.02941176470588236

я жить не могу без тома  ::  почему она так с ней поступает
0.037735849056603765

мы не можем прожить ни дня без воды  ::  я не могу ничего найти
0.027027027027026973

ты нашел их или нет  ::  ты не будешь один
0.2777777777777778

я больше не хочу с тобой играть  ::  я не могу ничего найти
0.15094339622641506

я не хочу больше на вас работать  ::  я не могу ничего найти
0.2222222222222222

я не хочу больше на вас работать  ::  я не хочу с тобой больше играть

In [71]:
check_algorithm(word_set)

я жить не могу без тома  ::  я не могу жить без тома
1.0

мы не можем прожить ни дня без воды  ::  мы ни дня не можем прожить без воды
1.0

том не живет в бостоне  ::  том сейчас не живет в бостоне
0.8333333333333334

том и мэри объявили сегодня о своей помолвке  ::  том и мэри объявили сегодня о своей пбмолвке
0.7777777777777778

многие птицы на зиму улетают на юг  ::  многие птицы осенью улетают на юг
0.7142857142857143


мы не можем прожить ни дня без воды  ::  многие птицы осенью улетают на юг
0.0

я жить не могу без тома  ::  почему она так с ней поступает
0.0

мы не можем прожить ни дня без воды  ::  я не могу ничего найти
0.0

ты нашел их или нет  ::  ты не будешь один
0.125

я больше не хочу с тобой играть  ::  я не могу ничего найти
0.19999999999999996

я не хочу больше на вас работать  ::  я не могу ничего найти
0.19999999999999996

я не хочу больше на вас работать  ::  я не хочу с тобой больше играть
0.4

я ничего не хочу делать  ::  я ничего не хочу пить
0.6666666666666667


In [72]:
check_algorithm(cosine_count)

я жить не могу без тома  ::  я не могу жить без тома
0.9999999999999998

мы не можем прожить ни дня без воды  ::  мы ни дня не можем прожить без воды
0.9999999999999998

том не живет в бостоне  ::  том сейчас не живет в бостоне
0.8944271909999159

том и мэри объявили сегодня о своей помолвке  ::  том и мэри объявили сегодня о своей пбмолвке
0.8333333333333335

многие птицы на зиму улетают на юг  ::  многие птицы осенью улетают на юг
0.8164965809277261


мы не можем прожить ни дня без воды  ::  многие птицы осенью улетают на юг
0.0

я жить не могу без тома  ::  почему она так с ней поступает
0.0

мы не можем прожить ни дня без воды  ::  я не могу ничего найти
0.0

ты нашел их или нет  ::  ты не будешь один
0.22360679774997896

я больше не хочу с тобой играть  ::  я не могу ничего найти
0.22360679774997896

я не хочу больше на вас работать  ::  я не могу ничего найти
0.20412414523193154

я не хочу больше на вас работать  ::  я не хочу с тобой больше играть
0.5477225575051661

я ничего не

In [73]:
check_algorithm(cosine_tfidf)

я жить не могу без тома  ::  я не могу жить без тома
1.0000000000000002

мы не можем прожить ни дня без воды  ::  мы ни дня не можем прожить без воды
1.0000000000000002

том не живет в бостоне  ::  том сейчас не живет в бостоне
0.8181802073667197

том и мэри объявили сегодня о своей помолвке  ::  том и мэри объявили сегодня о своей пбмолвке
0.7168117414430624

многие птицы на зиму улетают на юг  ::  многие птицы осенью улетают на юг
0.7192918182472702


мы не можем прожить ни дня без воды  ::  многие птицы осенью улетают на юг
0.0

я жить не могу без тома  ::  почему она так с ней поступает
0.0

мы не можем прожить ни дня без воды  ::  я не могу ничего найти
0.0

ты нашел их или нет  ::  ты не будешь один
0.12735952979479354

я больше не хочу с тобой играть  ::  я не могу ничего найти
0.12735952979479356

я не хочу больше на вас работать  ::  я не могу ничего найти
0.11521554337793123

я не хочу больше на вас работать  ::  я не хочу с тобой больше играть
0.3808726084759438

я ничего не

In [74]:
check_algorithm(Jaccard)

я жить не могу без тома  ::  я не могу жить без тома
1.0

мы не можем прожить ни дня без воды  ::  мы ни дня не можем прожить без воды
1.0

том не живет в бостоне  ::  том сейчас не живет в бостоне
0.7857142857142857

том и мэри объявили сегодня о своей помолвке  ::  том и мэри объявили сегодня о своей пбмолвке
1.0

многие птицы на зиму улетают на юг  ::  многие птицы осенью улетают на юг
0.8333333333333334


мы не можем прожить ни дня без воды  ::  многие птицы осенью улетают на юг
0.4166666666666667

я жить не могу без тома  ::  почему она так с ней поступает
0.4

мы не можем прожить ни дня без воды  ::  я не могу ничего найти
0.43478260869565216

ты нашел их или нет  ::  ты не будешь один
0.4666666666666667

я больше не хочу с тобой играть  ::  я не могу ничего найти
0.6

я не хочу больше на вас работать  ::  я не могу ничего найти
0.42857142857142855

я не хочу больше на вас работать  ::  я не хочу с тобой больше играть
0.8

я ничего не хочу делать  ::  я ничего не хочу пить
0.75



In [75]:
check_algorithm(myers)

я жить не могу без тома  ::  я не могу жить без тома
0.5652173913043479

мы не можем прожить ни дня без воды  ::  мы ни дня не можем прожить без воды
0.6

том не живет в бостоне  ::  том сейчас не живет в бостоне
0.7586206896551724

том и мэри объявили сегодня о своей помолвке  ::  том и мэри объявили сегодня о своей пбмолвке
0.9772727272727273

многие птицы на зиму улетают на юг  ::  многие птицы осенью улетают на юг
0.7941176470588236


мы не можем прожить ни дня без воды  ::  многие птицы осенью улетают на юг
0.17142857142857137

я жить не могу без тома  ::  почему она так с ней поступает
0.2666666666666667

мы не можем прожить ни дня без воды  ::  я не могу ничего найти
0.2272727272727273

ты нашел их или нет  ::  ты не будешь один
0.3157894736842105

я больше не хочу с тобой играть  ::  я не могу ничего найти
0.3548387096774194

я не хочу больше на вас работать  ::  я не могу ничего найти
0.375

я не хочу больше на вас работать  ::  я не хочу с тобой больше играть
0.4375

я ничего

In [76]:
check_algorithm(distance_L1)

я жить не могу без тома  ::  я не могу жить без тома
1.0

мы не можем прожить ни дня без воды  ::  мы ни дня не можем прожить без воды
1.0

том не живет в бостоне  ::  том сейчас не живет в бостоне
0.8888888888888888

том и мэри объявили сегодня о своей помолвке  ::  том и мэри объявили сегодня о своей пбмолвке
0.8333333333333334

многие птицы на зиму улетают на юг  ::  многие птицы осенью улетают на юг
0.7692307692307692


мы не можем прожить ни дня без воды  ::  многие птицы осенью улетают на юг
0.0

я жить не могу без тома  ::  почему она так с ней поступает
0.0

мы не можем прожить ни дня без воды  ::  я не могу ничего найти
0.0

ты нашел их или нет  ::  ты не будешь один
0.2222222222222222

я больше не хочу с тобой играть  ::  я не могу ничего найти
0.2222222222222222

я не хочу больше на вас работать  ::  я не могу ничего найти
0.19999999999999996

я не хочу больше на вас работать  ::  я не хочу с тобой больше играть
0.5454545454545454

я ничего не хочу делать  ::  я ничего не хо

In [77]:
check_algorithm(distance_L2)

я жить не могу без тома  ::  я не могу жить без тома
1.0

мы не можем прожить ни дня без воды  ::  мы ни дня не можем прожить без воды
1.0

том не живет в бостоне  ::  том сейчас не живет в бостоне
0.8888888888888888

том и мэри объявили сегодня о своей помолвке  ::  том и мэри объявили сегодня о своей пбмолвке
0.882148869802242

многие птицы на зиму улетают на юг  ::  многие птицы осенью улетают на юг
0.8667653224947017


мы не можем прожить ни дня без воды  ::  многие птицы осенью улетают на юг
0.7327387580875756

я жить не могу без тома  ::  почему она так с ней поступает
0.683772233983162

мы не можем прожить ни дня без воды  ::  я не могу ничего найти
0.6984886554222364

ты нашел их или нет  ::  ты не будешь один
0.7060276321039344

я больше не хочу с тобой играть  ::  я не могу ничего найти
0.7060276321039344

я не хочу больше на вас работать  ::  я не могу ничего найти
0.717157287525381

я не хочу больше на вас работать  ::  я не хочу с тобой больше играть
0.7967210929545645

я 

In [78]:
check_algorithm(hellinger_distance)

я жить не могу без тома  ::  я не могу жить без тома
1.0

мы не можем прожить ни дня без воды  ::  мы ни дня не можем прожить без воды
1.0

том не живет в бостоне  ::  том сейчас не живет в бостоне
1.0

том и мэри объявили сегодня о своей помолвке  ::  том и мэри объявили сегодня о своей пбмолвке
1.0

многие птицы на зиму улетают на юг  ::  многие птицы осенью улетают на юг
1.0


мы не можем прожить ни дня без воды  ::  многие птицы осенью улетают на юг
0.2928932188134524

я жить не могу без тома  ::  почему она так с ней поступает
0.2928932188134524

мы не можем прожить ни дня без воды  ::  я не могу ничего найти
0.2928932188134524

ты нашел их или нет  ::  ты не будешь один
1.0

я больше не хочу с тобой играть  ::  я не могу ничего найти
0.2928932188134524

я не хочу больше на вас работать  ::  я не могу ничего найти
0.2928932188134524

я не хочу больше на вас работать  ::  я не хочу с тобой больше играть
1.0

я ничего не хочу делать  ::  я ничего не хочу пить
1.0

почему она так с н

In [79]:
from pronouns import *
check_pronoun_correspondence('почему она так с ней поступает','почему они так с ним поступают')

False

In [149]:
check_pronoun_correspondence('почему она так с ней поступает','почему они так с ней поступает')

False

In [147]:
check_pronoun_correspondence('ты не будешь один', 'ты не будеоь один')

True

# Решение 1 - Фильтрация

In [258]:
pd.options.mode.chained_assignment = None # Убираем лишние предупреждения
df['used'] = [False] * len(df)


def filter(groups,function,threshold,check_pronoun=True):
    for i in range(len(df)):
        if df['used'][i]:
            continue
        groups.append([])
        groups[-1].append(df['text'][i])
        df['used'][i] = True
        
        for j in range(i+1,len(df)):
            if df['used'][j]:
                continue
            if(function(df['text'][i],df['text'][j],threshold)):
                # if (check_pronoun and ~check_pronoun_correspondence(df['text'][i],df['text'][j])):
                #     continue
                groups[-1].append(df['text'][j])
                df['used'][j] = True
                
        if len(groups[-1]) == 1:
            df['used'][i] = False
            groups = groups[:-1]
    return groups

groups = []

groups = filter(groups,is_rewrite_word_set,threshold=0.99,check_pronoun=False) # Отлавливаем перестановки слов
groups = filter(groups,is_rewrite_hamming_distance_custom,threshold=0.9,check_pronoun=True) # Отлавливаем опечатки
# groups = filter(groups,is_rewrite_cosine_tfidf,0.7,check_pronoun=False)
# groups = filter(groups,is_rewrite_karlovskiy_distance,0.8,check_pronoun=False)
print(sum([len(group) for group in groups]))
# groups = groups + [[str] for str in list(df[df['used']==False]['text'])]

# df = df.drop('used',axis=1)

202


In [253]:
assert sum([len(group) for group in groups]) == len(df)

In [254]:
sum([len(group) for group in groups])

412

In [256]:
groups

[['никто туда больше не ходит', 'никто больше туда не ходит'],
 ['у него с собой не было тогда денег', 'у него тогда не было с собой денег'],
 ['я больше не хочу с тобой играть', 'я не хочу с тобой больше играть'],
 ['том меня сейчас хочет видеть', 'том хочет меня сейчас видеть'],
 ['я его больше не увижу', 'я больше его не увижу'],
 ['я не могу больше ждать', 'я больше не могу ждать'],
 ['мост очень длинный и высокий', 'мост очень длинный и очень высокий'],
 ['пусть свиньи это едят', 'пусть это свиньи едят'],
 ['ты хотел мне рассказать о свободе', 'ты хотел рассказать мне о свободе'],
 ['что пел джон на сцене', 'что джон пел на сцене'],
 ['мы не были готовы', 'мы были не готовы'],
 ['они их только что нашли', 'они только что их нашли'],
 ['том не знает ничего о семье мэри', 'том ничего не знает о семье мэри'],
 ['я живу сейчас в бостоне', 'я сейчас живу в бостоне'],
 ['я ничего не хочу пить', 'я не хочу ничего пить'],
 ['мне нужны будут подробности', 'мне будут нужны подробности'],
 [

In [249]:
[l for l in groups if len(l) > 2]

[]

In [250]:
[l for l in groups if len(l) == 2]

[['никто туда больше не ходит', 'никто больше туда не ходит'],
 ['у него с собой не было тогда денег', 'у него тогда не было с собой денег'],
 ['я больше не хочу с тобой играть', 'я не хочу с тобой больше играть'],
 ['том меня сейчас хочет видеть', 'том хочет меня сейчас видеть'],
 ['я его больше не увижу', 'я больше его не увижу'],
 ['я не могу больше ждать', 'я больше не могу ждать'],
 ['мост очень длинный и высокий', 'мост очень длинный и очень высокий'],
 ['пусть свиньи это едят', 'пусть это свиньи едят'],
 ['ты хотел мне рассказать о свободе', 'ты хотел рассказать мне о свободе'],
 ['что пел джон на сцене', 'что джон пел на сцене'],
 ['мы не были готовы', 'мы были не готовы'],
 ['они их только что нашли', 'они только что их нашли'],
 ['том не знает ничего о семье мэри', 'том ничего не знает о семье мэри'],
 ['я живу сейчас в бостоне', 'я сейчас живу в бостоне'],
 ['я ничего не хочу пить', 'я не хочу ничего пить'],
 ['мне нужны будут подробности', 'мне будут нужны подробности'],
 [

In [172]:
threshold = 0.89 # при необходимости можно изменить
function = is_rewrite_hamming_distance_custom # заменяете на свою функцию

pd.options.mode.chained_assignment = None # Убираем лишние предупреждения
df['used'] = [False] * len(df)

groups = []
for i in range(len(df)):
    if df['used'][i]:
        continue
    groups.append([])
    groups[-1].append(df['text'][i])
    df['used'][i] = True
    for j in range(i+1,len(df)):
        if df['used'][j]:
            continue
        if(function(df['text'][i],df['text'][j],threshold)):
            groups[-1].append(df['text'][j])
            df['used'][j] = True

df = df.drop('used',axis=1)

In [173]:
assert sum([len(group) for group in groups]) == len(df)

In [174]:
groups

[['ты нашел их или нет'],
 ['почему она так со мной поступает'],
 ['никто туда больше не ходит'],
 ['у него с собой не было тогда денег'],
 ['почему они с нами так поступают'],
 ['он всю ночь стонал от сильной боли'],
 ['я больше не хочу с тобой играть'],
 ['тому было тогда всего тринадцать лет'],
 ['что сделал том с деньгами', 'что сделел том с деньгами'],
 ['том меня сейчас хочет видеть'],
 ['он даже меня не замечает'],
 ['тебе это все нравится'],
 ['у него тогда не было с собой денег'],
 ['я его больше не увижу'],
 ['почему она так с ней поступает'],
 ['я хотел бы учиться в бостоне'],
 ['том и мэри объявили сегодня о своей пбмолвке',
  'том и мэри объявили сегодня о своей помолвке'],
 ['том этим сейчас занимается'],
 ['я не могу больше ждать'],
 ['мост очень длинный и высокий'],
 ['том был просто не готов'],
 ['пусть свиньи это едят'],
 ['я ничего не хочу делать'],
 ['ты хотел мне рассказать о свободе'],
 ['что пел джон на сцене'],
 ['я написал влера письмо', 'я написал вчера письмо

In [211]:
[l for l in groups if len(l) > 2]

[['почему она так со мной поступает',
  'почему она так с ней поступает',
  'почему он так со мной поступает'],
 ['я все ей рассказываю', 'я ему все рассказываю', 'я все им рассказываю']]

In [189]:
[l for l in groups if len(l) == 2]

[['никто туда больше не ходит', 'никто больше туда не ходит'],
 ['у него с собой не было тогда денег', 'у него тогда не было с собой денег'],
 ['я больше не хочу с тобой играть', 'я не хочу с тобой больше играть'],
 ['том меня сейчас хочет видеть', 'том хочет меня сейчас видеть'],
 ['я его больше не увижу', 'я больше его не увижу'],
 ['я не могу больше ждать', 'я больше не могу ждать'],
 ['мост очень длинный и высокий', 'мост очень длинный и очень высокий'],
 ['пусть свиньи это едят', 'пусть это свиньи едят'],
 ['ты хотел мне рассказать о свободе', 'ты хотел рассказать мне о свободе'],
 ['что пел джон на сцене', 'что джон пел на сцене'],
 ['мы не были готовы', 'мы были не готовы'],
 ['они их только что нашли', 'они только что их нашли'],
 ['том не знает ничего о семье мэри', 'том ничего не знает о семье мэри'],
 ['я живу сейчас в бостоне', 'я сейчас живу в бостоне'],
 ['я ничего не хочу пить', 'я не хочу ничего пить'],
 ['мне нужны будут подробности', 'мне будут нужны подробности'],
 [

In [190]:
[l for l in groups if len(l) == 1]

[]