# Новый код

In [None]:
%pip install rapidfuzz

In [None]:
import pandas as pd
import numpy as np

from rapidfuzz import process, utils, fuzz
import re
import string

from pymystem3 import Mystem
from nltk.corpus import stopwords
from nltk import word_tokenize

In [None]:
import nltk
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
df = pd.read_excel('/content/drive/MyDrive/fuzzy_duplicates/test_5000.xlsx')
# df = pd.read_excel('test_5000.xlsx')
print(len(df))
df.dropna(subset='annotation', inplace=True)
print(len(df))

9900
9881


In [None]:
# предобработка текста
russian_stopwords_ss = stopwords.words("russian")
russian_stopwords_ss.extend(['который', "это", "такой", "сегодня", "еще", "точно", "спасибо", "весь", "все",
                             "каждый", "видимо", "также", "так", "сам", "пока", "ты", "быть", "просто", "почему",
                             "какой", "поэтому", "вообще", "например", "очень", "год", "вчера", "кто", "что",
                             "становиться", "говорить", "рассказывать", "делать", "сделать", "мочь", "видеть", "новый",
                             "место", "добрый", "день"])
russian_stopwords_smi = stopwords.words("russian")
russian_stopwords_smi.extend(["пресс", "служба", "который", "это", "этот", "сообщать", "также", "свой", "другой",
                              "поэтому", "число", "время", "российский", "страна", "сайт", "проект", "такой",
                              "год", "вопрос", "административый", "округ", "столица", "наш", "россия", "сегодня",
                              "каждый", "кроме", "должный"])

mystem = Mystem()

# Функция для предобработки строк текста
def preparation(texts, ss: bool):
    for i in range(len(texts)):
        # приводим к нижнему регистру
        texts[i] = str(texts[i]).lower()
        # оставляем только русские символы
        texts[i] = re.sub("[^а-яё]", " ", texts[i])
        # удаляем множественные пробелы
        texts[i] = re.sub(r"\s+", " ", texts[i], flags=re.I)
        # удаляем стоп слова и лемматизируем
        russian_stopwords = russian_stopwords_ss if ss else russian_stopwords_smi
        texts[i] = " ".join([token for token in word_tokenize(texts[i]) if token not in russian_stopwords and token != ' '])
    # лемматизируем
    texts = ' br '.join(texts)
    tokens = mystem.lemmatize(texts)
    tokens = [token for token in tokens if token not in russian_stopwords and token != " "]
    texts = " ".join(tokens)
    # После лемматизации, разбиваем тексты в список по спец-метке
    texts = texts.split(' br ')

    return texts

In [None]:
from transformers import AutoTokenizer, AutoModel
import torch
from concurrent.futures import ThreadPoolExecutor

def load_model_and_tokenizer(model_name):
  tokenizer = AutoTokenizer.from_pretrained(model_name)
  model = AutoModel.from_pretrained(model_name)
  if torch.cuda.is_available():
      model = model.to('cuda')  # Перемещение модели на GPU
  return [tokenizer, model]

def get_embedding(text, model, tokenizer):
    # Токенизация текста
    encoded_input = tokenizer(text, return_tensors='pt', padding=True, truncation=True, max_length=64)
    # Получение векторов последнего скрытого слоя
    with torch.no_grad():
        model_output = model(**encoded_input)
    # Возьмём среднее всех токенов в последнем слое и уберем лишнюю размерность
    embeddings = model_output.last_hidden_state.mean(dim=1).squeeze()
    return embeddings.numpy().tolist()  # Преобразуем тензор в NumPy массив для использования в функции cosine


# код для многопоточности и обработки по батчам ================================
def get_embeddings(texts, model, tokenizer, batch_size=32):
    # Разбиваем тексты на батчи
    batches = [texts[i:i + batch_size] for i in range(0, len(texts), batch_size)]
    # Создаём пул потоков
    with ThreadPoolExecutor() as executor:
        results = list(executor.map(lambda batch: get_batch_embedding(batch, model, tokenizer), batches))
    # Объединяем результаты из всех батчей
    return np.vstack(results).tolist()

def get_batch_embedding(text_batch, model, tokenizer):
    # Токенизация батча текстов
    encoded_input = tokenizer(text_batch, return_tensors='pt', padding=True, truncation=True, max_length=64)
    # Получение векторов последнего скрытого слоя
    with torch.no_grad():
        model_output = model(**encoded_input)
    # Возьмём среднее всех токенов в последнем слое для каждого элемента в батче
    embeddings = model_output.last_hidden_state.mean(dim=1)
    return embeddings.detach().numpy()  # Преобразуем тензор в NumPy массив

In [None]:
from scipy.spatial.distance import cosine

# вычисление косинусной схожести векторов
def cosine_similarity(vec1, vec2):
    # Вычисление косинусного сходства
    similarity = 1 - cosine(vec1, vec2)
    return similarity

# создание матрицы попарных сравнений
def create_combined_similarity_matrix(df1, df2=None):
    len_df1 = len(df1)

    # Определяем, сколько всего будет столбцов в матрице
    total_cols = len_df1 + (len(df2) if df2 is not None else 0)

    # Создаем пустую матрицу схожести
    similarity_matrix = np.zeros((len_df1, total_cols))

    # Заполнение матрицы схожести для внутренних сравнений df1
    for i in range(len_df1):
        for j in range(i+1, len_df1):
            sim = cosine_similarity(df1.iloc[i]['annotation_vectors'], df1.iloc[j]['annotation_vectors'])
            similarity_matrix[i, j] = sim
            similarity_matrix[j, i] = sim

    # Если df2 предоставлен, заполняем матрицу для сравнений между df1 и df2
    if df2 is not None:
        for i in range(len_df1):
            for j in range(len(df2)):
                sim = cosine_similarity(df1.iloc[i]['annotation_vectors'], df2.iloc[j]['annotation_vectors'])
                similarity_matrix[i, len_df1 + j] = sim

    return similarity_matrix

In [None]:
# добавление колонки dupl_id в new_df
def add_duplicate_ids(new_df, old_df=None, similarity_matrix=None, threshold=0.85):
    # Сброс индексов для корректной работы с индексами
    new_df = new_df.reset_index(drop=True)

    if old_df is not None:
        old_df = old_df.reset_index(drop=True)
        combined_df = pd.concat([new_df, old_df]).reset_index(drop=True)
    else:
        combined_df = new_df.copy()

    # Обновление new_df с новыми столбцами для ID дубликатов
    new_df['dupl_id_oldest'] = None
    new_df['dupl_ids'] = None

    # Если матрица схожести не предоставлена, создаем её
    if similarity_matrix is None:
        similarity_matrix = create_combined_similarity_matrix(new_df, old_df)

    # Обход каждой записи в new_df
    for i in new_df.index:
        high_similarity_indices = np.where(similarity_matrix[i] >= threshold)[0]
        similarities = similarity_matrix[i][high_similarity_indices]

        if high_similarity_indices.size > 0:
            # Получение дат всех схожих записей
            dates = combined_df.loc[high_similarity_indices, 'dt_object']

            # Нахождение самого старого документа
            oldest_index = dates.idxmin()

            # Присваивание ID самого старого документа и списка ID с уровнями схожести
            new_df.at[i, 'dupl_id_oldest'] = combined_df.at[oldest_index, 'id']
            new_df.at[i, 'dupl_ids'] = {combined_df.at[index, 'id']: round(sim, 4) for index, sim in zip(high_similarity_indices, similarities)}

    return new_df

In [None]:
def find_fuzzy_duplicates(new_df, old_df=None):
    # Задаем необходимые колонки и их функции генерации в словаре
    columns_to_add = {
        'preprocessed_annotation': lambda df: preparation(df['annotation'].tolist(), ss=True),
        'annotation_vectors': lambda df: df['preprocessed_annotation'].apply(lambda x: get_embedding(x, model, tokenizer)), # без многопоточности и батчей
        # 'annotation_vectors': lambda df: get_embeddings(df['preprocessed_annotation'].tolist(), model, tokenizer), # с многопоточностью и батчами
        'dupl_id_oldest': lambda df: None,
        'dupl_ids': lambda df: None
    }
    # Добавляем колонки, если они еще не существуют
    for column, func in columns_to_add.items():
        if column not in new_df.columns:
            new_df.loc[:, column] = func(new_df)
        if old_df is not None and column not in old_df.columns:
            old_df.loc[:, column] = func(old_df)

    similarity_matrix = create_combined_similarity_matrix(new_df, old_df)
    new_df = add_duplicate_ids(new_df, old_df, similarity_matrix)

    df = pd.concat([new_df, old_df]).reset_index(drop=True) if old_df is not None else new_df.reset_index(drop=True)
    return df

In [None]:
def remove_fuzzy_duplicates(df):
    # Сортировка DataFrame по дате
    df = df.sort_values(['dt_object', 'id'])

    # Множество для отслеживания уже обработанных идентификаторов
    seen_ids = set()

    # Метки для удаления
    to_delete = []

    # Итерация по строкам DataFrame
    for index, row in df.iterrows():
        current_id = row['id']
        # Если текущий id уже встречался, помечаем строку для удаления
        if current_id in seen_ids:
            to_delete.append(index)
        else:
            # Проверяем, не является ли dupl_ids None
            if row['dupl_ids']:
                # Добавляем id из словаря dupl_ids в множество seen_ids
                seen_ids.update(row['dupl_ids'].keys())
            # Добавляем текущий id в множество seen_ids
            seen_ids.add(current_id)

    # Удаление дубликатов
    df = df.drop(to_delete)
    df = df.sort_index()

    return df

##Тестирование

In [None]:
model_name = 'cointegrated/rubert-tiny2'
# model_name = 'sentence-transformers/distiluse-base-multilingual-cased-v2'
# model_name = 'symanto/sn-xlm-roberta-base-snli-mnli-anli-xnli'
# model_name = 'sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2'
# model_name = 'sentence-transformers/LaBSE'
# model_name = 'cointegrated/LaBSE-en-ru'
# model_name = 'DeepPavlov/rubert-base-cased'
# model_name = 'sberbank-ai/sbert_large_nlu_ru'
tokenizer, model = load_model_and_tokenizer(model_name)

In [None]:
new_df = df.head(50)
old_df = df.iloc[100:150]

In [None]:
%time result_df = find_fuzzy_duplicates(new_df, old_df)

In [None]:
result_df.head()

Unnamed: 0.1,Unnamed: 0,id,is_sent,system,source_type,message_id,report_id,report_name,link,title,...,time_base,blog_link,is_ppb,subscribers,author,author_link,preprocessed_annotation,annotation_vectors,dupl_id_oldest,dupl_ids
0,100,5939510,False,Медиалогия,Соцсети,100876048228,3480354,Департамент ПиООС,https://telegram.me/stranaru/58686,,...,2023-10-28 22:24:11,https://t.me/stranaru,False,0,СТРАНА RU,https://t.me/stranaru,необъявленный вырубка дерево битцевский лес ох...,"[0.9462890625, 0.08488605916500092, 0.15459685...",5939515.0,"{5939513: 1.0, 5939515: 1.0, 5939631: 1.0, 593..."
1,101,5939511,False,Медиалогия,Соцсети,100876014412,3214233,Подведомственные предприятия и органы исп. вла...,https://twitter.com/chrergk/status/17183453813...,,...,2023-10-28 22:24:36,https://twitter.com/chrergk,False,1,cha-,https://twitter.com/chrergk,подарочек альбедо кли авто привет альбедо альб...,"[1.2239466905593872, 0.27856558561325073, -0.2...",,
2,102,5939512,False,Медиалогия,Соцсети,100876042262,3214233,Подведомственные предприятия и органы исп. вла...,https://vk.com/wall-221568689_429,,...,2023-10-28 22:24:37,https://vk.com/club221568689,False,40,Приют «Пушистый друг». Сектор Е.,https://vk.com/club221568689,выгул погода получаться продолжительный посеща...,"[0.7008453607559204, -0.006614699959754944, -0...",5939519.0,{5939519: 1.0}
3,103,5939513,False,Медиалогия,Соцсети,100875349651,3214233,Подведомственные предприятия и органы исп. вла...,https://telegram.me/shto_tam_v_rossii/75263,,...,2023-10-28 22:24:38,https://t.me/shto_tam_v_rossii,False,13,Что там в России?,https://t.me/shto_tam_v_rossii,необъявленный вырубка дерево битцевский лес ох...,"[0.9462890625, 0.08488605916500092, 0.15459685...",5939510.0,"{5939510: 1.0, 5939515: 1.0, 5939631: 1.0, 593..."
4,104,5939514,False,Медиалогия,Соцсети,100875248741,3214233,Подведомственные предприятия и органы исп. вла...,https://telegram.me/polit_birga/58761,,...,2023-10-28 22:24:38,https://t.me/polit_birga,False,0,Политическая биржа,https://t.me/polit_birga,москвич обнаруживать метровый змея свой кварти...,"[0.2954915761947632, -0.05625434219837189, 0.3...",5939530.0,"{5939530: 1.0, 5939531: 1.0, 5939534: 1.0, 593..."


In [None]:
print(result_df[result_df['id'] == 5939510]['annotation'].tolist()[0])
print(result_df[result_df['id'] == 5939515]['annotation'].tolist()[0])

Необъявленная Вырубка Деревьев в Битцевском Лесу:... Охрана Природы в Действии Автор: [Ваше имя] В недавнем инциденте, который произошел в районе Анино в Битцевском лесу, столичные общественные инспекторы от <b>ДПиООС</b>, Росприроднадзора и КПЭБ быстро отреагировали на сигнал о незаконной порубке деревьев.... Неизвестные лица активно вырубали деревья, и местные жители беспокойно обратились за помощью к экологическим организациям.... По...
Необъявленная Вырубка Деревьев в Битцевском Лесу:... Охрана Природы в Действии Автор: [Ваше имя] В недавнем инциденте, который произошел в районе Анино в Битцевском лесу, столичные общественные инспекторы от <b>ДПиООС</b>, Росприроднадзора и КПЭБ быстро отреагировали на сигнал о незаконной порубке деревьев.... Неизвестные лица активно вырубали деревья, и местные жители беспокойно обратились за помощью к экологическим организациям.... По...


In [None]:
no_dupl_df = remove_fuzzy_duplicates(result_df)

In [None]:
no_dupl_df.head()

Unnamed: 0.1,Unnamed: 0,id,is_sent,system,source_type,message_id,report_id,report_name,link,title,...,time_base,blog_link,is_ppb,subscribers,author,author_link,preprocessed_annotation,annotation_vectors,dupl_id_oldest,dupl_ids
0,100,5939510,False,Медиалогия,Соцсети,100876048228,3480354,Департамент ПиООС,https://telegram.me/stranaru/58686,,...,2023-10-28 22:24:11,https://t.me/stranaru,False,0,СТРАНА RU,https://t.me/stranaru,необъявленный вырубка дерево битцевский лес ох...,"[0.9462890625, 0.08488605916500092, 0.15459685...",5939515.0,"{5939513: 1.0, 5939515: 1.0, 5939631: 1.0, 593..."
1,101,5939511,False,Медиалогия,Соцсети,100876014412,3214233,Подведомственные предприятия и органы исп. вла...,https://twitter.com/chrergk/status/17183453813...,,...,2023-10-28 22:24:36,https://twitter.com/chrergk,False,1,cha-,https://twitter.com/chrergk,подарочек альбедо кли авто привет альбедо альб...,"[1.2239466905593872, 0.27856558561325073, -0.2...",,
2,102,5939512,False,Медиалогия,Соцсети,100876042262,3214233,Подведомственные предприятия и органы исп. вла...,https://vk.com/wall-221568689_429,,...,2023-10-28 22:24:37,https://vk.com/club221568689,False,40,Приют «Пушистый друг». Сектор Е.,https://vk.com/club221568689,выгул погода получаться продолжительный посеща...,"[0.7008453607559204, -0.006614699959754944, -0...",5939519.0,{5939519: 1.0}
5,105,5945512,False,Brand Analytics,Соцсети,1000031752,12454959,Районные сообщества ЗелАО,https://vk.com/wall-30252262_167797?reply=1679...,,...,2023-10-29 23:30:15,,False,50410,Сергей Попов,https://vk.com/id35514692,алексей спартаковский цвет белый красный белый...,"[0.5580000877380371, -0.037287548184394836, -0...",,
8,108,5939517,False,Brand Analytics,Соцсети,1000087342,12458870,Районные сообщества ВАО 2,https://vk.com/wall-136569697_78407?reply=78423,,...,2023-10-28 22:25:55,,False,27584,Дмитрий Никитин,https://vk.com/id66476822,думать лишь гавно набросать портить здоровье н...,"[0.11552662402391434, -0.024081168696284294, 0...",5939524.0,{5939524: 1.0}
