In [1]:
import os
import nltk
from nltk import ngrams
from collections import Counter

# Загрузка необходимых ресурсов NLTK
nltk.download('punkt')
nltk.download('stopwords')
from nltk.corpus import stopwords

# Путь к папке с текстовыми файлами
folder_path = r'e:\cleaned_texts_'

# Список для хранения текстов
texts = []

# Чтение всех .txt файлов в указанной папке
for filename in os.listdir(folder_path):
    if filename.endswith('.txt'):
        with open(os.path.join(folder_path, filename), 'r', encoding='utf-8') as file:
            texts.append(file.read())

# Объединение всех текстов в один
full_text = ' '.join(texts)

# Токенизация текста
tokens = nltk.word_tokenize(full_text)

# Очистка от пунктуации, цифр и стоп-слов
stop_words = set(stopwords.words('russian'))

# Ваш собственный список стоп-слов
custom_stop_words = {"а", "то", "все", "она", "так", "его", "но", "да", "ты", "к", "у", "же", "вы", "за",
                     "бы", "по", "только", "ее", "мне", "было", "вот", "от", "меня", "еще", "нет", "о", "из", 
                     "ему", "теперь", "когда", "даже", "ну", "вдруг", "ли", "если", "уже", "или", "ни", 
                     "быть", "был", "него", "до", "вас", "нибудь", "опять", "уж", "вам", "ведь", "там", 
                     "потом", "себя", "ничего", "ей", "может", "они", "тут", "где", "есть", "надо", 
                     "ней", "для", "мы", "тебя", "их", "чем", "была", "сам", "чтоб", "без", "будто", 
                     "чего", "раз", "тоже", "себе", "под", "жизнь", "будет", "ж", "тогда", "кто", 
                     "этот", "говорил", "того", "потому", "этого", "какой", "совсем", "ним", "здесь", 
                     "этом", "один", "почти", "мой", "тем", "чтобы", "нее", "кажется", "сейчас", 
                     "были", "куда", "зачем", "сказать", "всех", "никогда", "сегодня", "можно", 
                     "при", "наконец", "два", "об", "другой", "хоть", "после", "над", "больше", 
                     "тот", "через", "эти", "нас", "про", "них", "какая", "много", "разве", "три", 
                     "эту", "моя", "впрочем", "хорошо", "свою", "этой", "перед", "иногда", "лучше", 
                     "чуть", "том", "нельзя", "такой", "им", "более", "всегда", "конечно", "всю", 
                     "между", "это", "сказал", "сказала", "андрей", "ростов", "сказал", "то", 
                     "её", "не", "что", "он", "на", "я", "до", "сих", "пор", "ко", "опубликовано", 
                     "это", "со", "как", "н", "то", "г", "сих", "пор", "стр", "ирли", "см", "гбп", 
                     "гпб", "печатается", "публикуется", "собрание", "сочинений", "публикации", 
                     "автографу", "цгали", "полное", "письма"}

# Объединение стандартных и пользовательских стоп-слов
all_stop_words = stop_words.union(custom_stop_words)

# Очистка токенов
cleaned_tokens = [
    token.lower() for token in tokens
    if token.isalpha() and token.lower() not in all_stop_words
]

# Получение триграмм
trigrams = ngrams(cleaned_tokens, 3)

# Подсчет частоты триграмм
trigram_freq = Counter(trigrams)

# Задание порогов частоты
min_frequency_threshold = 21
max_frequency_threshold = 46

# Фильтрация триграмм по частоте
filtered_trigrams = {
    trigram: freq for trigram, freq in trigram_freq.items()
    if min_frequency_threshold <= freq < max_frequency_threshold
}

# Сортировка триграмм по частоте
sorted_trigrams = sorted(filtered_trigrams.items(), key=lambda item: item[1])

# Вывод триграмм с частотой в заданном диапазоне
print(f"Триграммы с частотой от {min_frequency_threshold} до {max_frequency_threshold}:")
for trigram, freq in sorted_trigrams:
    print(f"{trigram}: {freq}")

# Получение биграмм
bigrams = ngrams(cleaned_tokens, 2)

# Подсчет частоты биграмм
bigram_freq = Counter(bigrams)

# Вывод наиболее распространенных биграмм
print("\nНаиболее распространенные биграммы:")
for bigram, freq in bigram_freq.most_common(10):
    print(f"{bigram}: {freq}")


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\alexewd\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\alexewd\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Триграммы с частотой от 21 до 46:
('выход', 'отдельного', 'издания'): 21
('годы', 'впервые', 'сборнике'): 22
('покорный', 'слуга', 'лесков'): 23
('уважаемый', 'петр', 'карлович'): 23
('года', 'лесков', 'писал'): 24
('чающие', 'движения', 'воды'): 24
('ваш', 'покорный', 'слуга'): 24
('неточная', 'цитата', 'стихотворения'): 24
('музей', 'впервые', 'сборнике'): 24
('впервые', 'сборнике', 'толстого'): 24
('министерства', 'народного', 'просвещения'): 27
('толстовский', 'музей', 'впервые'): 27
('петербург', 'милостивый', 'государь'): 28
('мелочи', 'архиерейской', 'жизни'): 28
('лет', 'тому', 'назад'): 29
('говорит', 'домна', 'платоновна'): 31
('шестидесятые', 'годы', 'впервые'): 35

Наиболее распространенные биграммы:
('самом', 'деле'): 512
('крайней', 'мере'): 282
('прим', 'автора'): 240
('друг', 'друга'): 224
('имеется', 'виду'): 218
('таким', 'образом'): 213
('марфа', 'андревна'): 199
('катерина', 'львовна'): 197
('речь', 'идет'): 178
('домна', 'платоновна'): 163


In [2]:
# Вывод наиболее распространенных биграмм и триграмм
print("Наиболее распространенные биграммы:")
for bigram, freq in bigram_freq.most_common(30):
    print(f"{bigram}: {freq}")

print("\nНаиболее распространенные триграммы:")
for trigram, freq in trigram_freq.most_common(30):
    print(f"{trigram}: {freq}")

Наиболее распространенные биграммы:
('самом', 'деле'): 512
('крайней', 'мере'): 282
('прим', 'автора'): 240
('друг', 'друга'): 224
('имеется', 'виду'): 218
('таким', 'образом'): 213
('марфа', 'андревна'): 199
('катерина', 'львовна'): 197
('речь', 'идет'): 178
('домна', 'платоновна'): 163
('впервые', 'впервые'): 150
('всяком', 'случае'): 148
('николая', 'лескова'): 143
('друг', 'другу'): 136
('свое', 'время'): 133
('черт', 'знает'): 125
('бог', 'знает'): 124
('лесков', 'николая'): 121
('лизавета', 'егоровна'): 121
('очень', 'рад'): 116
('примечание', 'письму'): 112
('слава', 'богу'): 107
('преданный', 'лесков'): 107
('тому', 'назад'): 103
('новое', 'время'): 103
('шестидесятые', 'годы'): 99
('евгения', 'петровна'): 99
('ольга', 'федотовна'): 99
('наст', 'т'): 96
('исторический', 'вестник'): 96

Наиболее распространенные триграммы:
('лесков', 'николая', 'лескова'): 121
('впервые', 'впервые', 'впервые'): 92
('сборнике', 'шестидесятые', 'годы'): 63
('лесков', 'имеет', 'виду'): 60
('впервые