In [1]:
import numpy as np
import pickle

from os import listdir
from sklearn.feature_extraction.text import TfidfVectorizer
from tqdm import tqdm

In [2]:
all_texts = []

for filename in sorted(listdir('clean_files')):
    all_texts.append(pickle.load(open(f'clean_files/{filename}', 'rb'))['text'])

In [3]:
tfidf_vectorizer = TfidfVectorizer(max_features=2048)
vectors = tfidf_vectorizer.fit_transform(all_texts)

In [4]:
vectors.shape[1]

2048

In [5]:
vectors = vectors.toarray()
vectors /= np.expand_dims(np.linalg.norm(vectors, axis=1), axis=1)

In [6]:
sim_matrix = vectors @ vectors.T

In [7]:
np.fill_diagonal(sim_matrix, -1)

In [8]:
most_similar_pairs = np.dstack(np.unravel_index(np.argsort((-sim_matrix).ravel()), sim_matrix.shape))[0, :20]

In [9]:
for pair in most_similar_pairs:
    print(sim_matrix[pair[0], pair[1]])
    print("_" * 100)
    print("text 1:", all_texts[pair[0]])
    print("_" * 100)
    print("text 2:", all_texts[pair[1]])

1.0
____________________________________________________________________________________________________
text 1: Для всех, кто хорошо себя вёл в этом году и не только, мы приготовили приятный сюрприз. 



Любой издатель зарабатывает на рекламе — будь то ТВ, радио, газета или сайт. Чем интереснее контент и активнее читатели, тем больше рекламодателей хотят разместить рекламу. И тем активнее продвинутая аудитория пытается эту рекламу переключить/пролистать/отключить с помощью скриптов и прочих адблоков. Получается коллизия: издателя любят за качественную площадку и ненавидят за рекламу. Как говорится, I love to hate you. 

Понимая весь этот расклад, вы неоднократно просили нас сделать возможность платного отключения рекламы на наших проектах. Мы думали, считали, спрашивали как там у коллег, потом опять думали, и решили… сделать эту опцию бесплатной. Потому настало время, когда наш бизнес перестал зависеть от баннеров и мы можем себе позволить отключить медийную рекламу для 48 тыс пользов

Interesting! We actually have some duplicates.

In [10]:
for pair in most_similar_pairs:
    print(sim_matrix[pair[0], pair[1]])

1.0
1.0
0.9685210517014781
0.9685210517014781
0.9628544252456239
0.9628544252456239
0.9496426774392002
0.9496426774392002
0.9173005663974223
0.9173005663974223
0.9169869342405781
0.9169869342405781
0.9161586387952158
0.9161586387952158
0.9144145707052759
0.9144145707052759
0.914144944594802
0.914144944594802
0.912728377161777
0.912728377161777


But there is only one of them. All the other pairs of documents with a high similarity score are just documents on the same topic and addressed to the same audiences.