### Предобработка текста

In [1]:
import pandas as pd
import re

In [2]:
df = pd.read_csv("https://storage.yandexcloud.net/auth-def-2024/datasets/meta_table_with_texts.csv")
df = df[['author', 'text']]
df.head(5)

Unnamed: 0,author,text
0,Пушкин Александр Сергеевич,"\n \nЛитературный альбомъ.\n""Сраженный рыцар..."
1,Карамзин Николай Михайлович,\nО достоинстве древних и новых\n(Перевод с не...
2,Гоголь Николай Васильевич,\n Гоголь Н. В. Полное собрание сочинений и ...
3,Мамин-Сибиряк Дмитрий Наркисович,\n \nД. МАМИНЪ-СИБИРЯКЪПОЛНОЕ СОБРАНІЕ СОЧИН...
4,Мамин-Сибиряк Дмитрий Наркисович,\nДмитрий Мамин-Сибиряк\nНимфа\nI.\n Щегольс...


Загружаем лемматизированные тексты из заранее подготовленного файла, сформированного после экспериментов.

In [4]:
df_lemm = pd.read_csv('https://storage.yandexcloud.net/auth-def-2024/datasets/lemm_texts.csv')
df_lemm.head()

Unnamed: 0,author,lemm_text
0,Пушкин Александр Сергеевич,литературный альбомъ сразить рыцарь послднимъ ...
1,Карамзин Николай Михайлович,достоинство древний новый перевод немецкий нек...
2,Гоголь Николай Васильевич,полный собрание сочинение письмо так переписка...
3,Мамин-Сибиряк Дмитрий Наркисович,собрана сочиненйтомъ восьмой издан марксъ петр...
4,Мамин-Сибиряк Дмитрий Наркисович,нимфа щегольский волжский пароход вулкан дать ...


In [5]:
df['lemm_text'] = df_lemm['lemm_text']
df.head()

Unnamed: 0,author,text,lemm_text
0,Пушкин Александр Сергеевич,"\n \nЛитературный альбомъ.\n""Сраженный рыцар...",литературный альбомъ сразить рыцарь послднимъ ...
1,Карамзин Николай Михайлович,\nО достоинстве древних и новых\n(Перевод с не...,достоинство древний новый перевод немецкий нек...
2,Гоголь Николай Васильевич,\n Гоголь Н. В. Полное собрание сочинений и ...,полный собрание сочинение письмо так переписка...
3,Мамин-Сибиряк Дмитрий Наркисович,\n \nД. МАМИНЪ-СИБИРЯКЪПОЛНОЕ СОБРАНІЕ СОЧИН...,собрана сочиненйтомъ восьмой издан марксъ петр...
4,Мамин-Сибиряк Дмитрий Наркисович,\nДмитрий Мамин-Сибиряк\nНимфа\nI.\n Щегольс...,нимфа щегольский волжский пароход вулкан дать ...


In [6]:
# Удаление невалидной записи с английским текстом
df = df.drop(index=1918)
df = df.reset_index(drop=True)
len(df)

2564

In [7]:
# Токенизация текста
def words_list(x):
  # Подсчёт слов в тексте
  words = re.findall(r'\b\w+\b', x)
  return [w.lower() for w in words]

In [8]:
df['words'] = df['lemm_text'].apply(words_list)
df.head(5)

Unnamed: 0,author,text,lemm_text,words
0,Пушкин Александр Сергеевич,"\n \nЛитературный альбомъ.\n""Сраженный рыцар...",литературный альбомъ сразить рыцарь послднимъ ...,"[литературный, альбомъ, сразить, рыцарь, послд..."
1,Карамзин Николай Михайлович,\nО достоинстве древних и новых\n(Перевод с не...,достоинство древний новый перевод немецкий нек...,"[достоинство, древний, новый, перевод, немецки..."
2,Гоголь Николай Васильевич,\n Гоголь Н. В. Полное собрание сочинений и ...,полный собрание сочинение письмо так переписка...,"[полный, собрание, сочинение, письмо, так, пер..."
3,Мамин-Сибиряк Дмитрий Наркисович,\n \nД. МАМИНЪ-СИБИРЯКЪПОЛНОЕ СОБРАНІЕ СОЧИН...,собрана сочиненйтомъ восьмой издан марксъ петр...,"[собрана, сочиненйтомъ, восьмой, издан, марксъ..."
4,Мамин-Сибиряк Дмитрий Наркисович,\nДмитрий Мамин-Сибиряк\nНимфа\nI.\n Щегольс...,нимфа щегольский волжский пароход вулкан дать ...,"[нимфа, щегольский, волжский, пароход, вулкан,..."


Загрузим эвристики, которые были рассчитаны и отобраны на этапе проведения экспериментов и замера метрик качества моделей.

In [10]:
# Загрузка фрейма с эвристиками
df_heuristics = pd.read_csv('https://storage.yandexcloud.net/auth-def-2024/datasets/heuristics.csv')
df_heuristics.head(5)

Unnamed: 0,avg_tonality,avg_subjectivity,total_words,avg_words_per_sentence
0,0.066585,0.229008,353,15.347826
1,-0.232829,0.358885,1008,15.75
2,-0.010425,0.195767,196245,7.540634
3,-0.000427,0.007812,9247,8.353207
4,-0.000427,0.007812,4477,6.962675


### Формирование выборок

На этапе проведения экспериментов было принято решение использовать комбинированный подход в выборе признаков.

In [20]:
X_heuristics = df_heuristics.iloc[:2564].copy()
X_words = df['words'].copy()
y = df['author'].copy()

In [21]:
print("X_heuristics:", X_heuristics.shape)
print("X_words:", X_words.shape)
print("y:", y.shape)

X_heuristics: (2564, 4)
X_words: (2564,)
y: (2564,)


In [22]:
from sklearn.model_selection import train_test_split

# Обучающая и тренировочная выборки
X_heur_train, X_heur_test, X_words_train, X_words_test, y_train, y_test = train_test_split(X_heuristics, X_words, y, test_size=0.2, random_state=42)

Обучение модели для дальнейшего формирования эмбеддингов на тренировочных данных:

In [23]:
from gensim.models import Word2Vec

w2v_model = Word2Vec(sentences=X_words_train, vector_size=300, window=5, min_count=1, workers=4)

In [24]:
import numpy as np

# Функция для представления текста как среднего из векторов слов
def vectorize_text(text, model):
    vectors = [model.wv[word] for word in text if word in model.wv]
    if len(vectors) == 0:
        return np.zeros(model.vector_size)  # Если нет слов из текста, возвращаем нулевой вектор
    return np.mean(vectors, axis=0)

In [25]:
X_train_vect = np.array([vectorize_text(text, w2v_model) for text in X_words_train])
X_test_vect = np.array([vectorize_text(text, w2v_model) for text in X_words_test])

In [26]:
# Формирование итоговых датасетов
X_train_combined = np.hstack([X_heur_train, X_train_vect])
X_test_combined = np.hstack([X_heur_test, X_test_vect])

### Создание пайплайна

На этапе проведения экспериментов было выявлено, что лучшие метрики качества выдавала логистическая регрессия. Поэтому в пайплайне указываем `LogisticRegression`:

In [27]:
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler

# Пайплайн
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('classifier', LogisticRegression(max_iter=1000, random_state=42))
])

pipeline.fit(X_train_combined, y_train)
y_pred = pipeline.predict(X_test_combined)

In [28]:
from sklearn.metrics import accuracy_score, f1_score, recall_score, precision_score, classification_report, confusion_matrix

# Оценка качества модели
# Accuracy
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

# Precision, Recall, F1 (взвешенные для многоклассовой задачи)
precision = precision_score(y_test, y_pred, average='weighted')
recall = recall_score(y_test, y_pred, average='weighted')
f1 = f1_score(y_test, y_pred, average='weighted')

print("Precision:", precision)
print("Recall:", recall)
print("F1 Score:", f1)

# Матрица ошибок
conf_matrix = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:\n", conf_matrix)

Accuracy: 0.834307992202729
Precision: 0.8355736298923315
Recall: 0.834307992202729
F1 Score: 0.8340566700012821
Confusion Matrix:
 [[14  1  1  0  1  0  3  0  0  0  0  0  2]
 [ 1 41  0  0  0  0  3  0  1  0  1  0  2]
 [ 0  0 31  2  0  0  0  1  0  1  2  1  2]
 [ 0  0  1 36  0  0  2  0  0  0  3  2  0]
 [ 0  1  1  0  8  0  0  0  0  1  0  0  1]
 [ 0  0  1  0  0 53  0  0  0  1  0  1  0]
 [ 1  4  1  1  0  0 56  0  0  0  0  0  3]
 [ 0  0  1  0  0  0  0  6  0  0  0  2  0]
 [ 1  1  0  0  0  0  0  0 51  0  0  0  0]
 [ 3  0  0  1  1  0  1  1  0 27  0  0  0]
 [ 0  1  0  1  0  0  0  0  0  0 35  0  0]
 [ 1  0  1  4  1  0  1  0  0  1  0 56  0]
 [ 1  1  0  4  0  0  3  0  0  0  1  2 14]]


По итогу на комбинированном наборе фичей (эвристики + текстовые) логистическая регрессия показала значения метрик точности предсказания в районе $\approx 81\%$.

### Модели бустинга

Что рассматривается:

- **CatBoost**: Выбрали, потому что он автоматически обрабатывает категориальные признаки и помогает избежать утечек данных.
- **XGBoost**: Выбрали за его проверенную временем эффективность и мощные методы регуляризации.
- **LightGBM**: Он нужен, потому что быстро обучается и легко масштабируется на большие данные.
- **AdaBoost**: Выбрали за простоту и скорость сборки ансамбля простых моделей для быстрого прототипирования.
- **GradientBoosting**: Используем как базовую модель благодаря стабильности и удобной интеграции со scikit-learn.
- **HistGradientBoosting**: Он отличается высокой скоростью обучения благодаря гистограммному подходу и удобен для средних и больших наборов данных.

In [None]:
pip install catboost xgboost lightgbm

In [48]:
import warnings
warnings.filterwarnings("ignore")

from sklearn.preprocessing import LabelEncoder
from catboost import CatBoostClassifier
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier
from sklearn.ensemble import AdaBoostClassifier, GradientBoostingClassifier #, HistGradientBoostingClassifier
import time

le = LabelEncoder()
y_train_enc = le.fit_transform(y_train)
y_test_enc = le.transform(y_test)

models = {
    'CatBoost': CatBoostClassifier(verbose=0),
    'XGBoost': XGBClassifier(use_label_encoder=True, eval_metric='logloss'),
    'LightGBM': LGBMClassifier(verbose=-1),
    'AdaBoost': AdaBoostClassifier(),
    'GradientBoosting': GradientBoostingClassifier()#,
    # 'HistGradientBoosting': HistGradientBoostingClassifier(),
}

results = {}

for name, model in models.items():
    print(f"Обучение модели: {name}")
    start = time.time()
    model.fit(X_train_combined, y_train_enc)
    spent_time = time.time() - start
    y_pred = model.predict(X_test_combined)
    f1 = f1_score(y_test_enc, y_pred, average='macro')
    precision = precision_score(y_test_enc, y_pred, average='macro')
    results[name] = {'F1': f1, 'Precision': precision, 'Time': spent_time}
    print(f"{name} - F1: {f1:.4f}, Precision: {precision:.4f}, Time for train: {spent_time:.4f} seconds\n")

Обучение модели: CatBoost
CatBoost - F1: 0.8473, Precision: 0.8693, Time for train: 454.2200 seconds

Обучение модели: XGBoost
XGBoost - F1: 0.8440, Precision: 0.8553, Time for train: 13.1700 seconds

Обучение модели: LightGBM
LightGBM - F1: 0.8443, Precision: 0.8549, Time for train: 26.3123 seconds

Обучение модели: AdaBoost
AdaBoost - F1: 0.5633, Precision: 0.6331, Time for train: 4.6816 seconds

Обучение модели: GradientBoosting
GradientBoosting - F1: 0.8329, Precision: 0.8439, Time for train: 253.8849 seconds

Обучение модели: HistGradientBoosting
HistGradientBoosting - F1: 0.8748, Precision: 0.8840, Time for train: 18.1880 seconds



In [49]:
# Сравнительная таблица с результатами
results_df = pd.DataFrame.from_dict(results, orient='index')
results_df

Unnamed: 0,F1,Precision,Time
CatBoost,0.847346,0.869288,454.220045
XGBoost,0.843979,0.855294,13.169978
LightGBM,0.844301,0.854919,26.312289
AdaBoost,0.563344,0.633146,4.68158
GradientBoosting,0.832901,0.843909,253.88487
HistGradientBoosting,0.874779,0.883981,18.188022


> По лучшей модели бустинга сделаем GridSearchCV, выявив лучшие гиперпараметры

In [53]:
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import make_scorer

scorer = make_scorer(f1_score, average='macro')

param_grid_hist = {
    'learning_rate': [0.05, 0.1],
    'max_iter': [100, 200],
    'max_depth': [3, 5, 7],
}

hist_model = HistGradientBoostingClassifier(random_state=42)
grid_search_hist = GridSearchCV(hist_model, param_grid_hist, scoring=scorer, cv=5, n_jobs=-1, verbose=1)
grid_search_hist.fit(X_train_combined, y_train_enc)

print("Best params HistGradientBoosting:", grid_search_hist.best_params_)
print("Best F1:", grid_search_hist.best_score_)

Fitting 5 folds for each of 12 candidates, totalling 60 fits
Best params HistGradientBoosting: {'learning_rate': 0.1, 'max_depth': 3, 'max_iter': 200}
Best F1: 0.8512799887731749


In [56]:
param_grid_xgb = {
    'learning_rate': [0.05, 0.1],
    'max_depth': [3, 5, 7],
    'n_estimators': [100, 200],
    'subsample': [0.8, 1.0],
}

xgb_model = XGBClassifier(use_label_encoder=False, eval_metric='logloss', random_state=42)
grid_search_xgb = GridSearchCV(xgb_model, param_grid_xgb, scoring=scorer, cv=5, n_jobs=-1, verbose=1)
grid_search_xgb.fit(X_train_combined, y_train_enc)

print("Best params XGBoost:", grid_search_xgb.best_params_)
print("Best F1 XGBoost:", grid_search_xgb.best_score_)

Fitting 5 folds for each of 24 candidates, totalling 120 fits
Best params XGBoost: {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 200, 'subsample': 0.8}
Best F1 XGBoost: 0.8597017339092187


Сохранение моделей в `.pkl` файлы:

In [None]:
!pip install pickle

In [None]:
from pickle import dump

# Сохранение моделей в файл
dump(w2v_model, 'w2v_model.pkl')
dump(pipeline, 'pipeline.pkl')  # Сохранение Logistic Regression