In [None]:
import pandas as pd
import re
import pymorphy2
from wordcloud import STOPWORDS

In [None]:
# Инициализация морфологического анализатора
morph = pymorphy2.MorphAnalyzer()

# Стоп-слова
russian_stopwords = set(STOPWORDS)
russian_stopwords.update([
    "это", "как", "в", "на", "я", "с", "что", "он", "она", "мы", "вы", "у",
    "к", "от", "до", "за", "по", "из", "под", "без", "для", "и", "но", "да",
    "или", "то", "же", "бы", "быть", "их", "так", "тоже", "очень", "еще"
])

# Функция предобработки текста
def preprocess_text(text):
    if pd.isna(text):
        return ""
    text = text.lower()
    text = re.sub(r'[^а-яё ]', ' ', text)
    words = text.split()
    cleaned_words = []
    for word in words:
        if word not in russian_stopwords:
            lemma = morph.parse(word)[0].normal_form
            if lemma not in russian_stopwords:
                cleaned_words.append(lemma)
    return " ".join(cleaned_words)

In [None]:
# Пути к данным
blinovskaya_path = "../data/sobchak_blinovskaya_ready_with_date.csv"
buzova_path = "../data/sobchak_buzova_ready_with_date.csv"
morgenstern_path = "../data/sobchak_morgenstern2_ready_with_date.csv"

# Загрузка данных
blinovskaya_df = pd.read_csv(blinovskaya_path)
buzova_df = pd.read_csv(buzova_path)
morgenstern_df = pd.read_csv(morgenstern_path)

# Применяем предобработку к колонке "text"
blinovskaya_df['clean_text'] = blinovskaya_df['text'].apply(preprocess_text)
buzova_df['clean_text'] = buzova_df['text'].apply(preprocess_text)
morgenstern_df['clean_text'] = morgenstern_df['text'].apply(preprocess_text)

# Мини-проверка (первые 3 строки каждого датафрейма)
print("Первые строки Блиновская:")
display(blinovskaya_df[['text', 'clean_text']].head(3))

print("Первые строки Бузова:")
display(buzova_df[['text', 'clean_text']].head(3))

print("Первые строки Моргенштерн:")
display(morgenstern_df[['text', 'clean_text']].head(3))