In [3]:
import nltk
import pymorphy3
from nltk.corpus import stopwords
from collections import Counter
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

In [4]:
with open ('na_zap_fronte.txt', 'r', encoding='windows-1251') as book1:
    zap_front = book1.read()
with open ('noch_v_lissabone.txt', 'r', encoding='windows-1251') as book2:
    lissabon = book2.read()
with open ('three_comrades.txt', 'r', encoding='windows-1251') as book3:
    three_comrades = book3.read()
with open ('triumfalnaya_arka.txt', 'r', encoding='windows-1251') as book4:
    triumf = book4.read()
with open ('vremya_zhit.txt', 'r', encoding='windows-1251') as book5:
    vremya = book5.read()
with open ('vzaimy.txt', 'r', encoding='windows-1251') as book6:
    vzaimy = book6.read()

In [5]:
wordtok = nltk.tokenize.RegexpTokenizer('\w+')
zap_front_tok = wordtok.tokenize(zap_front)
lissabon_tok = wordtok.tokenize(lissabon)
three_comrades_tok = wordtok.tokenize(three_comrades)
triumf_tok = wordtok.tokenize(triumf)
vremya_tok = wordtok.tokenize(vremya)
vzaimy_tok = wordtok.tokenize(vzaimy)

In [6]:
stop_words = set(stopwords.words('russian'))
custom_stop_word = ['это', 'нам', 'x', 'нас', 'ещё', "наш", "который", 'всё',"свой", 'весь']
stop_words.update(custom_stop_word)

def filtered_book(book_tok):

    book_tok = [token.lower() for token in book_tok]
    morph = pymorphy3.MorphAnalyzer()
    filtered_tokens = [token.strip() for token in book_tok if token not in stop_words]
    lemmatized_tokens = [morph.parse(word)[0].normal_form for word in filtered_tokens]
    filtered_lemmas = [token.strip() for token in lemmatized_tokens if token not in stop_words]

    return filtered_lemmas

In [7]:
zap_front_filtered = filtered_book(zap_front_tok)
lissabon_filtered = filtered_book(lissabon_tok)
three_comrades_filtered = filtered_book(three_comrades_tok)
triumf_filtered = filtered_book(triumf_tok)
vremya_filtered = filtered_book(vremya_tok)
vzaimy_filtered = filtered_book(vzaimy_tok)

In [10]:
book_names = ["На западном фронте без перемен","Три товарища","Триумфальная арка","Время жить и время умирать","Жизнь взаймы","Ночь в Лиссабоне"]
book_toks = [zap_front_tok, three_comrades_tok, triumf_tok, vremya_tok, vzaimy_tok, lissabon_tok]
book_filtered = [zap_front_filtered, three_comrades_filtered, triumf_filtered, vremya_filtered, vzaimy_filtered, lissabon_filtered]

In [11]:
for i in range(len(book_names)):
    print(f'{book_names[i]}\nдлина книги: {len(book_toks[i])}\nдлина без стоп слов: {len(book_filtered[i])}')
    print(f'{round((1-len(book_filtered[i])/len(book_toks[i]))*100, 2)}%')

На западном фронте без перемен
длина книги: 58646
длина без стоп слов: 30873
47.36%
Три товарища
длина книги: 114521
длина без стоп слов: 63364
44.67%
Триумфальная арка
длина книги: 126393
длина без стоп слов: 70883
43.92%
Время жить и время умирать
длина книги: 92260
длина без стоп слов: 51003
44.72%
Жизнь взаймы
длина книги: 57762
длина без стоп слов: 31830
44.89%
Ночь в Лиссабоне
длина книги: 65239
длина без стоп слов: 33534
48.6%


In [12]:
def cos_sim(filtered_lemmas):
    filtered_texts = [" ".join(tokens) for tokens in filtered_lemmas]
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform(filtered_texts)
    cosine_similarities = cosine_similarity(tfidf_matrix)
    for i in range(len(filtered_texts)):
        for j in range(len(filtered_texts)):
            if j != i:
                print(f"Косинусное сходство текста {i + 1} с текстом {j + 1}: {cosine_similarities[i][j]}")
        print('________')

In [13]:
cos_sim(book_filtered)

Косинусное сходство текста 1 с текстом 2: 0.38570341833913213
Косинусное сходство текста 1 с текстом 3: 0.2483861578103579
Косинусное сходство текста 1 с текстом 4: 0.2917860227536995
Косинусное сходство текста 1 с текстом 5: 0.20147418643477438
Косинусное сходство текста 1 с текстом 6: 0.44884080330344445
________
Косинусное сходство текста 2 с текстом 1: 0.38570341833913213
Косинусное сходство текста 2 с текстом 3: 0.31037600889169714
Косинусное сходство текста 2 с текстом 4: 0.3221160641030286
Косинусное сходство текста 2 с текстом 5: 0.25861781056434846
Косинусное сходство текста 2 с текстом 6: 0.5687346842195227
________
Косинусное сходство текста 3 с текстом 1: 0.2483861578103579
Косинусное сходство текста 3 с текстом 2: 0.31037600889169714
Косинусное сходство текста 3 с текстом 4: 0.18896447374160077
Косинусное сходство текста 3 с текстом 5: 0.15162804733162635
Косинусное сходство текста 3 с текстом 6: 0.3355796436818262
________
Косинусное сходство текста 4 с текстом 1: 0.29178