In [1]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.probability import FreqDist
from nltk.tag import pos_tag
import pymorphy2

In [2]:
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package stopwords to /Users/Vadim/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/Vadim/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [3]:
morph = pymorphy2.MorphAnalyzer()

In [4]:
stop_words = set(stopwords.words('russian'))

In [5]:
file_paths = ["book1857_ok.txt", "book1863_ok.txt", "book1873_ok.txt", "book1876_ok.txt", "book1882_ok.txt", "book1887_ok.txt"]

In [6]:
lexical_diversity = []
pos_counts = []
most_common_words = []

In [7]:
for file_path in file_paths:
    with open(file_path, 'r') as file:
        book = file.read()
    
    # Токенизация текста
    words = word_tokenize(book, language='russian')
    
    # Удаление стоп-слов
    filtered_words = [word for word in words if word.lower() not in stop_words and word.isalnum()]
    
    # Лемматизация
    lemmatized_words = [morph.parse(word)[0].normal_form for word in filtered_words]
        
    # Разметка слов
    tagged = pos_tag(lemmatized_words)
    
    # Вычисляем лексическое разнообразие
    lexical_diversity.append(len(set(lemmatized_words)) / len(lemmatized_words))
    
    # Считаем количество определенных частей речи
    pos_counts.append(FreqDist(tag for (word, tag) in tagged))
    
    # Считаем самые встречающиеся слова
    fdist = FreqDist(lemmatized_words)
    most_common_words.append(fdist.most_common(10))

# Выводим результаты анализа для каждого файла
for i, file_path in enumerate(file_paths):
    print(f"Анализ для файла {file_path}:")
    print(f"Лексическое разнообразие: {lexical_diversity[i]}")
    print(f"Количество частей речи: {pos_counts[i]}")
    print(f"Самые встречающиеся слова: {most_common_words[i]}")
    print("\n")




Анализ для файла book1857_ok.txt:
Лексическое разнообразие: 0.1714166431316691
Количество частей речи: <FreqDist with 22 samples and 81439 outcomes>
Самые встречающиеся слова: [('это', 1101), ('говорить', 806), ('который', 633), ('свой', 570), ('сказать', 550), ('дело', 544), ('знать', 488), ('ваш', 484), ('такой', 449), ('человек', 429)]


Анализ для файла book1863_ok.txt:
Лексическое разнообразие: 0.38459760818071526
Количество частей речи: <FreqDist with 20 samples and 17309 outcomes>
Самые встречающиеся слова: [('это', 200), ('который', 158), ('говорить', 133), ('свой', 112), ('сказать', 110), ('трифонович', 98), ('кондратий', 92), ('ваш', 86), ('человек', 72), ('наш', 72)]


Анализ для файла book1873_ok.txt:
Лексическое разнообразие: 0.18329180398145917
Количество частей речи: <FreqDist with 26 samples and 74646 outcomes>
Самые встречающиеся слова: [('который', 823), ('это', 793), ('свой', 483), ('человек', 455), ('время', 382), ('говорить', 369), ('один', 365), ('наш', 353), ('де