In [16]:
import nltk
import pandas as pd
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

In [17]:
RANDOM_STATE = 42

In [18]:
df = pd.read_csv('./lenta_df.csv')

In [19]:
nltk.download('stopwords')
nltk.download('punkt_tab')
russian_stopwords = set(stopwords.words('russian'))

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Gulfik\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\Gulfik\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


In [20]:
def preprocess_text(text):
    """
    Делаем токенизацию и удаляем стоп-слова с помощью библиотеки nltk
    :param text:
    :return токены:
    """
    tokens = word_tokenize(text, language='russian')
    filtered_tokens = [word for word in tokens if word.isalnum() and word.lower() not in russian_stopwords]
    return ' '.join(filtered_tokens)


df['text'] = df['text'].dropna().apply(preprocess_text)
cleaned_df = df.copy()
cleaned_df.shape

(84929, 3)

In [21]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(cleaned_df['text'], cleaned_df['bloc'], test_size=0.2,
                                                    random_state=RANDOM_STATE)

Используем Tf-idf со случайными параметрами. Выбрал его вместо CountVectorizer, потому что посчитал, что tfidf учитывает редкость слов в корпусе документов.

In [22]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(max_features=10000, ngram_range=(1, 2))
X_train_tfidf = vectorizer.fit_transform(X_train)
X_test_tfidf = vectorizer.transform(X_test)

Обучем несколько моделей со случайными параметрами

In [23]:
from sklearn.linear_model import LogisticRegression

model_lg = LogisticRegression(max_iter=1000, solver='lbfgs', random_state=RANDOM_STATE)
model_lg.fit(X_train_tfidf, y_train)
model_lg_pred = model_lg.predict(X_test_tfidf)

In [24]:
from sklearn.naive_bayes import MultinomialNB

model_nb = MultinomialNB()
model_nb.fit(X_train_tfidf, y_train)
model_nb_pred = model_nb.predict(X_test_tfidf)

In [25]:
from sklearn.ensemble import RandomForestClassifier

model_rf = RandomForestClassifier(random_state=RANDOM_STATE, n_estimators=200, max_depth=30)
model_rf.fit(X_train_tfidf, y_train)
model_rf_pred = model_rf.predict(X_test_tfidf)

In [26]:
from sklearn.svm import LinearSVC

model_svm = LinearSVC(random_state=RANDOM_STATE, C=1)
model_svm.fit(X_train_tfidf, y_train)
model_svm_pred = model_svm.predict(X_test_tfidf)

In [27]:
from sklearn.tree import DecisionTreeClassifier

model_tree = DecisionTreeClassifier(random_state=RANDOM_STATE, max_depth=30)
model_tree.fit(X_train_tfidf, y_train)
model_tree_pred = model_tree.predict(X_test_tfidf)

In [28]:
from sklearn.metrics import classification_report


print(f'Logistic regression report: {classification_report(y_test, model_lg_pred)}')
print(f'NB report: {classification_report(y_test, model_nb_pred)}')
print(f'Random forest report: {classification_report(y_test, model_rf_pred)}')
print(f'SVM report: {classification_report(y_test, model_svm_pred)}')
print(f'Decision tree report: {classification_report(y_test, model_tree_pred)}')
# print(f'XGB classifier report: {classification_report(y_test, model_xgb_pred)}')

Logistic regression report:               precision    recall  f1-score   support

           0       0.88      0.88      0.88      1978
           1       0.87      0.91      0.89      2015
           2       0.95      0.96      0.95      2024
           3       0.92      0.95      0.93      1934
           4       0.99      0.99      0.99      1936
           5       0.99      0.99      0.99      1851
           6       0.83      0.70      0.76      1170
           7       0.98      0.98      0.98      2063
           8       0.96      0.96      0.96      2015

    accuracy                           0.94     16986
   macro avg       0.93      0.92      0.93     16986
weighted avg       0.93      0.94      0.93     16986

NB report:               precision    recall  f1-score   support

           0       0.83      0.70      0.76      1978
           1       0.77      0.84      0.80      2015
           2       0.86      0.95      0.90      2024
           3       0.83      0.93      

Посмотрим на roc_auc Logistic Regression

In [30]:
from sklearn.metrics import roc_auc_score

model_lg_proba = model_lg.predict_proba(X_test_tfidf)
roc_auc = roc_auc_score(y_test, model_lg_proba, multi_class='ovr')

print('ROC AUC для log reg:', roc_auc)

ROC AUC для log reg: 0.9956553398582252


Из репортов видно, что лучше всего с задачей справились линейная SVM и Logistic Regression. Скорее всего они справились лучше всего, так как я использовал tf-idf, и после этой обработки признаков, данные стали линейно разделимы.

Попрубем подобрать параметры для Logistic Regression, и, например, для Random Forest:

In [113]:
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV

pipeline = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('logreg', LogisticRegression(random_state=RANDOM_STATE))
])

param_grid = {
    # Параметры TF-IDF
    'tfidf__max_features': [5000, 10000, 20000],     # Максимальное количество признаков (токенов)
    'tfidf__ngram_range': [(1, 1), (1, 2), (1, 3)],  # Диапазон n-грамм (униграммы, биграммы, триграммы)
    'tfidf__min_df': [1, 2, 5],                      # Минимальная частота документа для включения токена
    'tfidf__max_df': [0.8, 0.9, 1.0],                # Максимальная доля документов, содержащих токен

    # Параметры Logistic Regression
    'logreg__C': [0.01, 0.1, 1, 10, 100],
    'logreg__solver': ['lbfgs', 'liblinear'],
    'logreg__penalty': ['l2'],
    'logreg__max_iter': [100, 500, 1000]
}

grid_search = GridSearchCV(
    pipeline,
    param_grid,
    cv=3,
    scoring='accuracy',
    verbose=2,
    n_jobs=-1
)
grid_search.fit(X_train, y_train)

print('Лучшие параметры Logistic Regression:', grid_search.best_params_)
print('Лучшая точность на валидации:', grid_search.best_score_)

best_lg_pipeline = grid_search.best_estimator_
lg_pred = best_lg_pipeline.predict(X_test)

print(classification_report(y_test, lg_pred))

Fitting 3 folds for each of 2430 candidates, totalling 7290 fits
Лучшие параметры Logistic Regression: {'logreg__C': 100, 'logreg__max_iter': 100, 'logreg__penalty': 'l2', 'logreg__solver': 'liblinear', 'tfidf__max_df': 1.0, 'tfidf__max_features': 20000, 'tfidf__min_df': 5, 'tfidf__ngram_range': (1, 2)}
Лучшая точность на валидации: 0.9213333333333334
              precision    recall  f1-score   support

           0       0.82      0.86      0.84       469
           1       0.86      0.88      0.87       498
           2       0.94      0.95      0.95       472
           3       0.92      0.93      0.93       543
           4       0.99      1.00      0.99       474
           5       0.99      0.99      0.99       561
           6       0.85      0.77      0.81       489
           7       0.98      0.98      0.98       477
           8       0.95      0.95      0.95       517

    accuracy                           0.92      4500
   macro avg       0.92      0.92      0.92      4

In [115]:
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('rf', RandomForestClassifier(random_state=RANDOM_STATE))
])

# Параметры
param_grid = {
    'tfidf__max_features': [20000],
    'tfidf__ngram_range': [(1, 2)],
    'tfidf__min_df': [5],

    'rf__n_estimators': [100, 200, 500],
    'rf__max_depth': [10, 20, 30],
    'rf__min_samples_split': [2, 5, 10],
    'rf__min_samples_leaf': [1, 2, 4],
}

grid_search = GridSearchCV(
    pipeline,
    param_grid,
    cv=3,
    scoring='accuracy',
    verbose=2,
    n_jobs=-1
)
grid_search.fit(X_train, y_train)

print('Лучшие параметры RandomForest:', grid_search.best_params_)
print('Лучшая точность на валидации:', grid_search.best_score_)

best_rf_pipeline = grid_search.best_estimator_
rf_pred = best_rf_pipeline.predict(X_test)

print(classification_report(y_test, rf_pred))

Fitting 3 folds for each of 81 candidates, totalling 243 fits


  _data = np.array(data, dtype=dtype, copy=copy,


Лучшие параметры RandomForest: {'rf__max_depth': 30, 'rf__min_samples_leaf': 4, 'rf__min_samples_split': 10, 'rf__n_estimators': 500, 'tfidf__max_features': 20000, 'tfidf__min_df': 5, 'tfidf__ngram_range': (1, 2)}
Лучшая точность на валидации: 0.8819444444444445
              precision    recall  f1-score   support

           0       0.78      0.73      0.75       469
           1       0.80      0.84      0.82       498
           2       0.86      0.94      0.90       472
           3       0.84      0.92      0.88       543
           4       0.96      0.99      0.98       474
           5       0.95      0.99      0.97       561
           6       0.90      0.73      0.81       489
           7       0.96      0.96      0.96       477
           8       0.94      0.87      0.90       517

    accuracy                           0.89      4500
   macro avg       0.89      0.89      0.89      4500
weighted avg       0.89      0.89      0.89      4500



Как видно из репорта, модели хуже всего определяют нулевой класс (тему 'Общество/Россия'). Также модели не улучшились после подбора параметров. Вероятно, это связано с тем, что данные после tf-idf уже хорошо разделимы, поэтому для улучшения можно заняться созданием новых признаков или улучшить препобработку данных.

Обучим на тестовых данных и сохраним submission:

In [29]:
test_df = pd.read_csv('./test_news.csv')
test_df['cleaned_text'] = test_df['content'].apply(preprocess_text)
y_pred_test = model_lg.predict(test_df['cleaned_text'])
pd.DataFrame({'topic': y_pred_test}).reset_index().to_csv('submission.csv', index=False)

ValueError: could not convert string to float: 'Фото обороны ДНР Игорю Стрелкову Гиркину пришлось уйти подполье встретиться Петербурге тридцатью поклонниками создании нужной атмосферы задействованы автозак Росгвардии кинолог одна собака четыре полицейские машины чертова дюжина силовиков последние семь лет Стрелков Гиркин выступал Петербурге столь часто это само перестало событием Предыдущий собирал аншлаг той Листве январе Книжная лавка Листва Литейном проспекте принадлежит издательству Черная сотня самом названии которого содержится указание правый характер сподвижников считают обществом патриотов регулярной основе проходят встречи читателями Военкор Владлен Татарский приходил сюда несколько часов взорванной Университетской набережной бомбы Бывала Листве Дарья Дугина Весной выступал самый известный путчем маршем Пригожина мятежник полковник Квачков Фото Листва ПетербургФото Листва ПетербургПоделитьсяКак правило рядовые встречи Листве проводятся счет довольно символических пожертвований пользу русской армии лекцию Стрелковым темой заявлен мятеж ЧВК Вагнер количество билетов ограничили двадцатью цену увеличили 8 4 000 рублей Часть денег подчеркивают организаторы предполагалось потратить охрану остальные нужды фронта учетом ограниченного количества мест речь идет сумме меньше 100 тысяч рублей встречи Листва заявила фронт отправят вырученные средства совпало сразу анонса Стрелкова полиция начала проявлять интерес людям Листвы Точнее одному человеку организатору мероприятий магазина члену правого движения Савве Федосееву Первый задержали уличного конфликта который назвал бытовым Федосеева отпустили протокола время второго задержания буквально дня лекции информационное поле вброшены националистические мотивы полиция сообщила предотвратила массовую драку Фото Алина Ампелонская Фото Алина Ампелонская Фото Алина Ампелонская ПоделитьсяТем временем разминирование Листвы походило обыск Ассортимент книжного магазина полицейские изучали кинолога вместе собакой уехал свое Янино словам сотрудников лавки силовики отрубили камеры внутрь пускали числе адвоката Официальных комментариев объяснений стороны полиции последовало следующий день 10 Листва ПетербургФото Листва ПетербургФото Листва ПетербургФото Листва ПетербургФото Листва ПетербургПоделиться новой локации участников проинформировали телефону Свое помещение предоставило петербургское отделение партии Другая Россия Лимонова Федосеев рассказал Фонтанке заранее подготовили запасной план слушатель утверждают Листве отказался приехали Аудитория итоге увеличилась 30 человек входе охрана досмотрела рюкзаки сумки присутствующих попросили воздержаться публикации фотографий конца мероприятия добавили адвокат прибудет полиция присутствует Фото Фото Фото Поделиться лекцию Стрелков прибыл ровно восьми часам Пошутил жена просила уложиться 15 минут Лекция обошлась откровений обороны сразу сказал практически обо всем писал своем информация инсайдерская основанная собственном анализе Минут сорок говорил непосредственно мятеже лишним часа отвечал вопросы немного следите обычно говорит пишет Стрелков основные тезисы вероятно угадаете протяжении вечера атмосфера напряженной Звук проезжающих мимо машин заставлял прислушиваться едут гости Стрелков иронизировал даст бог доживет 53 Разошлись одиннадцати сделав прощание памятную фотокарточку имперским флагом Фото Фото Федор Данилов'

In [31]:
test_df = pd.read_csv('./test_news.csv')
test_df['cleaned_text'] = test_df['content'].apply(preprocess_text)

X_test_tfidf = vectorizer.transform(test_df['cleaned_text'])
y_pred_test = model_lg.predict(X_test_tfidf)

pd.DataFrame({'topic': y_pred_test}).reset_index().to_csv('submission.csv', index=False)

In [36]:
from sklearn.pipeline import Pipeline
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report

# Пайплайн с TfidfVectorizer и SVM
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('svm', SVC(random_state=RANDOM_STATE))
])

# Параметры для настройки
param_grid = {
    'tfidf__max_features': [20000],
    'tfidf__ngram_range': [(1, 2)],
    'tfidf__min_df': [5],

    'svm__kernel': ['poly', 'sigmoid'],  # Типы ядер
    'svm__C': [10, 100],                         # Регуляризация
    'svm__gamma': [0.1, 1],             # Масштабирование (для rbf, poly, sigmoid)
    'svm__degree': [2, 3, 4]                             # Только для poly
}

# Настройка GridSearchCV
grid_search = GridSearchCV(
    pipeline,
    param_grid,
    cv=3,
    scoring='accuracy',
    verbose=2,
    n_jobs=-1
)

# Обучение модели
grid_search.fit(X_train, y_train)

# Результаты
print('Лучшие параметры SVM:', grid_search.best_params_)
print('Лучшая точность на валидации:', grid_search.best_score_)

# Оценка модели на тестовых данных
best_svm_pipeline = grid_search.best_estimator_
svm_pred = best_svm_pipeline.predict(X_test)

print(classification_report(y_test, svm_pred))


Fitting 3 folds for each of 24 candidates, totalling 72 fits
Лучшие параметры SVM: {'svm__C': 10, 'svm__degree': 2, 'svm__gamma': 0.1, 'svm__kernel': 'sigmoid', 'tfidf__max_features': 20000, 'tfidf__min_df': 5, 'tfidf__ngram_range': (1, 2)}
Лучшая точность на валидации: 0.9355489190080047
              precision    recall  f1-score   support

           0       0.88      0.89      0.88      1978
           1       0.91      0.91      0.91      2015
           2       0.95      0.95      0.95      2024
           3       0.93      0.94      0.94      1934
           4       1.00      0.99      1.00      1936
           5       0.99      0.99      0.99      1851
           6       0.83      0.78      0.80      1170
           7       0.99      0.98      0.98      2063
           8       0.96      0.97      0.96      2015

    accuracy                           0.94     16986
   macro avg       0.94      0.93      0.94     16986
weighted avg       0.94      0.94      0.94     16986



In [37]:
test_df = pd.read_csv('./test_news.csv')
test_df['cleaned_text'] = test_df['content'].apply(preprocess_text)
y_pred_test = best_svm_pipeline.predict(test_df['cleaned_text'])
pd.DataFrame({'topic': y_pred_test}).reset_index().to_csv('submission.csv', index=False)