In [18]:

import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer, PorterStemmer
from nltk.tokenize import word_tokenize

document = """Сегодня утром в Москве прошла пресс-конференция Министерства энергетики, на которой обсудили перспективы развития возобновляемых источников энергии в России. По словам представителей ведомства, в ближайшие пять лет планируется увеличение доли солнечных и ветровых станций в общей структуре энергогенерации страны. Особое внимание уделяется регионам с высоким потенциалом инсоляции — Калмыкии, Астраханской и Волгоградской областям. Также отмечалось, что инвесторы проявляют растущий интерес к проектам по производству и хранению водорода. Правительство готовит пакет налоговых льгот и субсидий, чтобы стимулировать компании к внедрению экологичных технологий. По оценкам экспертов, реализация программы позволит сократить выбросы углекислого газа на 12 % уже к 2030 году и создаст более десяти тысяч новых рабочих мест в энергетическом секторе.
Кроме того, на конференции были представлены новые разработки в области энергоэффективности и цифровизации энергетической инфраструктуры. В частности, обсуждались возможности использования искусственного интеллекта для оптимизации распределения электроэнергии и повышения надежности сетей. Участники мероприятия подчеркнули важность международного сотрудничества в сфере устойчивого развития энергетики и обмена передовыми технологиями. В завершение пресс-конференции министр энергетики отметил, что переход к зеленой энергетике является приоритетом государственной политики и ключевым фактором обеспечения энергетической безопасности страны в долгосрочной перспективе."""

docs = [document]
from typing import List

def my_preprocess(text: str, remove_stop: bool = True, lemmatize: bool = True) -> str:
    tokens = word_tokenize(text)
    tokens = [t.lower() for t in tokens if t.isalpha()]
    if remove_stop:
        stop_words = set(stopwords.words("russian"))
        tokens = [t for t in tokens if t not in stop_words]
    if lemmatize:
         lemmatizer = WordNetLemmatizer()
         tokens = [lemmatizer.lemmatize(t) for t in tokens]
    else:
         stemmer = PorterStemmer()
         tokens = [stemmer.stem(t) for t in tokens]
    return " ".join(tokens)

docs_clean = [my_preprocess(d) for d in docs]
docs_clean

['сегодня утром москве прошла министерства энергетики которой обсудили перспективы развития возобновляемых источников энергии россии словам представителей ведомства ближайшие пять лет планируется увеличение доли солнечных ветровых станций общей структуре энергогенерации страны особое внимание уделяется регионам высоким потенциалом инсоляции калмыкии астраханской волгоградской областям также отмечалось инвесторы проявляют растущий интерес проектам производству хранению водорода правительство готовит пакет налоговых льгот субсидий стимулировать компании внедрению экологичных технологий оценкам экспертов реализация программы позволит сократить выбросы углекислого газа году создаст десяти тысяч новых рабочих мест энергетическом секторе кроме конференции представлены новые разработки области энергоэффективности цифровизации энергетической инфраструктуры частности обсуждались возможности использования искусственного интеллекта оптимизации распределения электроэнергии повышения надежности сет

In [3]:
with open("WarAndPeace_original.txt", "r", encoding="utf-8") as f:
    text = f.read()

print(text[:500])

Ñïàñèáî, ÷òî ñêà÷àëè êíèãó â áåñïëàòíîé ýëåêòðîííîé áèáëèîòåêå Royallib.ru: http://royallib.ru

Âñå êíèãè àâòîðà: http://royallib.ru/author/tolstoy_lev.html

Ýòà æå êíèãà â äðóãèõ ôîðìàòàõ: http://royallib.ru/book/tolstoy_lev/voyna_i_mir_kniga_1.html

Ïðèÿòíîãî ÷òåíèÿ!





Òîì ïåðâûé



×àñòü ïåðâàÿ



I

– Eh bien, mon prince. G&#234;nes et Lucques ne sont plus que des apanages, des ïîìåñòüÿ, de la famille Buonaparte. Non, je vous pr&#233;viens que si vous ne me dites pas que nous avons la gue


In [2]:
import chardet

with open("WarAndPeace_original.txt", "rb") as f:
    raw = f.read()

result = chardet.detect(raw)
print(result)

{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}


In [6]:
# Step 1: Read the double-encoded UTF-8 file
with open("WarAndPeace_original.txt", "r", encoding="utf-8") as f:
    text_double_encoded = f.read()

# Step 2: Encode it as bytes using 'latin1' to recover the original bytes
bytes_original = text_double_encoded.encode('latin1', errors='ignore')

# Step 3: Decode using the correct Windows-1251
text_correct = bytes_original.decode('windows-1251')

# Optional: Handle HTML entities if present
import html
text_correct = html.unescape(text_correct)

# Step 4: Save as UTF-8
with open("file_utf8.txt", "w", encoding="utf-8") as f:
    f.write(text_correct)


In [5]:
import ftfy

with open("WarAndPeace_original.txt", "r", encoding="utf-8") as f:
    text = f.read()

text_fixed = ftfy.fix_text(text)

with open("WarAndPeace_utf8.txt", "w", encoding="utf-8") as f:
    f.write(text_fixed)


In [9]:
import re
from sklearn.feature_extraction.text import CountVectorizer
import inspect

if not hasattr(inspect, 'getargspec'):
    inspect.getargspec = inspect.getfullargspec

import pymorphy2
import nltk

# Download Russian stopwords if not already
nltk.download('stopwords')
from nltk.corpus import stopwords

# 1. Read UTF-8 Russian text file
with open("WarAndPeace_utf8.txt", "r", encoding="utf-8") as f:
    text = f.read()

# 2. Preprocessing: lowercase + remove non-alphabetic characters
text = text.lower()
text = re.sub(r'[^а-яё\s]', ' ', text)  # keep only Cyrillic letters and spaces

# 3. Tokenization
tokens = text.split()

# 4. Lemmatization
morph = pymorphy2.MorphAnalyzer()
lemmatized_tokens = [morph.parse(token)[0].normal_form for token in tokens]

# 5. Remove stopwords
russian_stopwords = set(stopwords.words('russian'))
tokens_clean = [token for token in lemmatized_tokens if token not in russian_stopwords]

# 6. Reconstruct cleaned text for BoW
clean_text = " ".join(tokens_clean)

# 7. Bag-of-Words using scikit-learn
vectorizer = CountVectorizer()
X = vectorizer.fit_transform([clean_text])  # you can pass a list of documents

# 8. Output
# print("Feature names (words):", vectorizer.get_feature_names_out())
# print("Bag-of-Words vector:", X.toarray())

# Print the most frequent 200 words with frequencysies
import numpy as np
bow_vec = CountVectorizer(max_features=10000, ngram_range=(1,1))
X_bow = bow_vec.fit_transform([clean_text])
terms_bow = np.array(bow_vec.get_feature_names_out())


[nltk_data] Downloading package stopwords to /Users/jus/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [None]:
bow_sum = np.array(X_bow.sum(axis=0)).flatten()
# Get indices of the top 10 terms (in the correct order) 
# ie. sort the sum array, take the last 10 indices, and reverse them to get descending order
# Most frequent
# bow_indices = np.argsort(bow_sum)[-1000:][::-1]
# Least frequent
bow_indices = np.argsort(bow_sum)[:1000]
top_terms = []
top_counts = []
print("Top 10 Bag of Words terms:")
for idx in bow_indices:
    top_terms.append(bow_vec.get_feature_names_out()[idx])
    top_counts.append(bow_sum[idx])
    print(f"  {bow_vec.get_feature_names_out()[idx]}: {bow_sum[idx]}")

Top 10 Bag of Words terms:
  аа: 1
  золотистый: 1
  зоркий: 1
  зравие: 1
  стенной: 1
  зрячий: 1
  стекаться: 1
  стекать: 1
  стезя: 1
  иверсковать: 1
  игнатиевич: 1
  игнашка: 1
  стегнуть: 1
  стегно: 1
  стебель: 1
  игреневый: 1
  игривый: 1
  ствол: 1
  игрушечный: 1
  ство: 1
  идиот: 1
  идиотизм: 1
  степенность: 1
  знаэта: 1
  значиться: 1
  стереть: 1
  стотысячный: 1
  сторонник: 1
  земский: 1
  стоптать: 1
  зикина: 1
  злеть: 1
  столичный: 1
  столетний: 1
  столбик: 1
  зловещий: 1
  иена: 1
  стойко: 1
  змея: 1
  знайта: 1
  стихотворение: 1
  стихийный: 1
  стиснуть: 1
  стирать: 1
  стеснительно: 1
  значимый: 1
  стерпеться: 1
  значительность: 1
  злопамятный: 1
  зелье: 1
  иерархия: 1
  статуеобразный: 1
  изготовляться: 1
  изгубить: 1
  издали: 1
  станционный: 1
  издать: 1
  издохнуть: 1
  издыхать: 1
  изливать: 1
  излишек: 1
  измаил: 1
  становящий: 1
  станина: 1
  стальной: 1
  изменяемый: 1
  сталкиваться: 1
  изменяться: 1
  измокнуть: 1
  изм

In [13]:
bow_sum = np.array(X_bow.sum(axis=0)).flatten()

import numpy as np

# Create a mask for tokens with frequency >= 10
mask = bow_sum >= 10
valid_indices = np.where(mask)[0]  # indices of tokens with freq >= 10
valid_bow_sum = bow_sum[valid_indices]
sorted_indices = valid_indices[np.argsort(valid_bow_sum)[:1000]]

top_terms = []
top_counts = []
print("Top 10 Bag of Words terms:")
for idx in sorted_indices:
    top_terms.append(bow_vec.get_feature_names_out()[idx])
    top_counts.append(bow_sum[idx])
    print(f"  {bow_vec.get_feature_names_out()[idx]}: {bow_sum[idx]}")

Top 10 Bag of Words terms:
  репутация: 10
  величие: 10
  прижать: 10
  лететь: 10
  ульм: 10
  отчётливо: 10
  привлекательный: 10
  кутузовский: 10
  охотно: 10
  верховой: 10
  удивлённый: 10
  умоляющий: 10
  приблизить: 10
  удивиться: 10
  очнуться: 10
  удерживаться: 10
  курагин: 10
  кукла: 10
  ошибаться: 10
  крыло: 10
  записать: 10
  прибежать: 10
  прерывать: 10
  веселиться: 10
  величественный: 10
  велита: 10
  сознавать: 10
  опускать: 10
  брюнна: 10
  притворно: 10
  оружие: 10
  особа: 10
  успокоивать: 10
  магницкий: 10
  усиливаться: 10
  отказ: 10
  усик: 10
  любовник: 10
  усесться: 10
  василиевич: 10
  политика: 10
  василь: 10
  вахмистр: 10
  завести: 10
  лунный: 10
  везти: 10
  отправляться: 10
  ловить: 10
  соединить: 10
  лишить: 10
  защищать: 10
  предстоящий: 10
  креститься: 10
  убивать: 10
  возбудить: 10
  ключ: 10
  возвращение: 10
  поддерживать: 10
  подмосковный: 10
  квартальный: 10
  избавиться: 10
  спуститься: 10
  камень: 10
  вольн