### Предобработка текста

In [1]:
import pandas as pd
import re

In [2]:
df = pd.read_csv("https://storage.yandexcloud.net/auth-def-2024/datasets/meta_table_with_texts.csv")
df = df[['author', 'text']]
df.head(5)

Unnamed: 0,author,text
0,Пушкин Александр Сергеевич,"\n \nЛитературный альбомъ.\n""Сраженный рыцар..."
1,Карамзин Николай Михайлович,\nО достоинстве древних и новых\n(Перевод с не...
2,Гоголь Николай Васильевич,\n Гоголь Н. В. Полное собрание сочинений и ...
3,Мамин-Сибиряк Дмитрий Наркисович,\n \nД. МАМИНЪ-СИБИРЯКЪПОЛНОЕ СОБРАНІЕ СОЧИН...
4,Мамин-Сибиряк Дмитрий Наркисович,\nДмитрий Мамин-Сибиряк\nНимфа\nI.\n Щегольс...


Загружаем лемматизированные тексты из заранее подготовленного файла, сформированного после экспериментов.

In [3]:
df_lemm = pd.read_csv('https://storage.yandexcloud.net/auth-def-2024/datasets/lemm_texts.csv')
df_lemm.head()

Unnamed: 0,author,lemm_text
0,Пушкин Александр Сергеевич,литературный альбомъ сразить рыцарь послднимъ ...
1,Карамзин Николай Михайлович,достоинство древний новый перевод немецкий нек...
2,Гоголь Николай Васильевич,полный собрание сочинение письмо так переписка...
3,Мамин-Сибиряк Дмитрий Наркисович,собрана сочиненйтомъ восьмой издан марксъ петр...
4,Мамин-Сибиряк Дмитрий Наркисович,нимфа щегольский волжский пароход вулкан дать ...


In [4]:
df['lemm_text'] = df_lemm['lemm_text']
df.head()

Unnamed: 0,author,text,lemm_text
0,Пушкин Александр Сергеевич,"\n \nЛитературный альбомъ.\n""Сраженный рыцар...",литературный альбомъ сразить рыцарь послднимъ ...
1,Карамзин Николай Михайлович,\nО достоинстве древних и новых\n(Перевод с не...,достоинство древний новый перевод немецкий нек...
2,Гоголь Николай Васильевич,\n Гоголь Н. В. Полное собрание сочинений и ...,полный собрание сочинение письмо так переписка...
3,Мамин-Сибиряк Дмитрий Наркисович,\n \nД. МАМИНЪ-СИБИРЯКЪПОЛНОЕ СОБРАНІЕ СОЧИН...,собрана сочиненйтомъ восьмой издан марксъ петр...
4,Мамин-Сибиряк Дмитрий Наркисович,\nДмитрий Мамин-Сибиряк\nНимфа\nI.\n Щегольс...,нимфа щегольский волжский пароход вулкан дать ...


In [5]:
# Удаление невалидной записи с английским текстом
df = df.drop(index=1918)
df = df.reset_index(drop=True)
len(df)

2564

In [6]:
# Токенизация текста
def words_list(x):
  # Подсчёт слов в тексте
  words = re.findall(r'\b\w+\b', x)
  return [w.lower() for w in words]

In [7]:
df['words'] = df['lemm_text'].apply(words_list)
df.head(5)

Unnamed: 0,author,text,lemm_text,words
0,Пушкин Александр Сергеевич,"\n \nЛитературный альбомъ.\n""Сраженный рыцар...",литературный альбомъ сразить рыцарь послднимъ ...,"[литературный, альбомъ, сразить, рыцарь, послд..."
1,Карамзин Николай Михайлович,\nО достоинстве древних и новых\n(Перевод с не...,достоинство древний новый перевод немецкий нек...,"[достоинство, древний, новый, перевод, немецки..."
2,Гоголь Николай Васильевич,\n Гоголь Н. В. Полное собрание сочинений и ...,полный собрание сочинение письмо так переписка...,"[полный, собрание, сочинение, письмо, так, пер..."
3,Мамин-Сибиряк Дмитрий Наркисович,\n \nД. МАМИНЪ-СИБИРЯКЪПОЛНОЕ СОБРАНІЕ СОЧИН...,собрана сочиненйтомъ восьмой издан марксъ петр...,"[собрана, сочиненйтомъ, восьмой, издан, марксъ..."
4,Мамин-Сибиряк Дмитрий Наркисович,\nДмитрий Мамин-Сибиряк\nНимфа\nI.\n Щегольс...,нимфа щегольский волжский пароход вулкан дать ...,"[нимфа, щегольский, волжский, пароход, вулкан,..."


Загрузим эвристики, которые были рассчитаны и отобраны на этапе проведения экспериментов и замера метрик качества моделей.

In [8]:
# Загрузка фрейма с эвристиками
df_heuristics = pd.read_csv('https://storage.yandexcloud.net/auth-def-2024/datasets/heuristics.csv')
df_heuristics.head(5)

Unnamed: 0,avg_tonality,avg_subjectivity,total_words,avg_words_per_sentence
0,0.066585,0.229008,353,15.347826
1,-0.232829,0.358885,1008,15.75
2,-0.010425,0.195767,196245,7.540634
3,-0.000427,0.007812,9247,8.353207
4,-0.000427,0.007812,4477,6.962675


### Формирование выборок

На этапе проведения экспериментов было принято решение использовать комбинированный подход в выборе признаков.

In [9]:
X_heuristics = df_heuristics.iloc[:2564].copy()
X_words = df['words'].copy()
y = df['author'].copy()

In [10]:
print("X_heuristics:", X_heuristics.shape)
print("X_words:", X_words.shape)
print("y:", y.shape)

X_heuristics: (2564, 4)
X_words: (2564,)
y: (2564,)


In [11]:
from sklearn.model_selection import train_test_split

# Обучающая и тренировочная выборки
X_heur_train, X_heur_test, X_words_train, X_words_test, y_train, y_test = train_test_split(X_heuristics, X_words, y, test_size=0.2, random_state=42)

Обучение модели `Word2Vec` с использованием `SkipGram` для дальнейшего формирования эмбеддингов на тренировочных данных:

In [12]:
from gensim.models import Word2Vec

w2v_model = Word2Vec(sentences=X_words_train, vector_size=300, window=5, min_count=1, workers=4, sg=1)

In [13]:
import numpy as np

# Функция для представления текста как среднего из векторов слов
def vectorize_text(text, model):
    vectors = [model.wv[word] for word in text if word in model.wv]
    if len(vectors) == 0:
        return np.zeros(model.vector_size)  # Если нет слов из текста, возвращаем нулевой вектор
    return np.mean(vectors, axis=0)

In [14]:
X_train_vect = np.array([vectorize_text(text, w2v_model) for text in X_words_train])
X_test_vect = np.array([vectorize_text(text, w2v_model) for text in X_words_test])

In [15]:
# Формирование итоговых датасетов
X_train_combined = np.hstack([X_heur_train, X_train_vect])
X_test_combined = np.hstack([X_heur_test, X_test_vect])

### Создание пайплайна

На этапе проведения экспериментов в `baseline_pipeline_v2.ipynb` было выявлено, что лучшие метрики качества среди моделей бустинга выдавал XGBoost с гиперпараметрами

```
'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 200, 'subsample': 0.8
```


Поэтому в пайплайне указываем `XGBoost`:

In [None]:
pip install xgboost

In [19]:
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler, LabelEncoder
from xgboost import XGBClassifier

# Кодирование таргета необходимо для корректной работы модели XGBoost
le = LabelEncoder()
y_train_enc = le.fit_transform(y_train)
y_test_enc = le.transform(y_test)

# Пайплайн
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('classifier', XGBClassifier(eval_metric='logloss', learning_rate=0.1, max_depth=3, n_estimators=200, subsample=0.8))
])

pipeline.fit(X_train_combined, y_train_enc)
y_pred_boost = pipeline.predict(X_test_combined)

In [20]:
from sklearn.metrics import accuracy_score, f1_score, recall_score, precision_score, classification_report, confusion_matrix

# Оценка качества модели бустинга
# Accuracy
accuracy = accuracy_score(y_test_enc, y_pred_boost)
print("Accuracy:", accuracy)

# Precision, Recall, F1 (взвешенные для многоклассовой задачи)
precision = precision_score(y_test_enc, y_pred_boost, average='weighted')
recall = recall_score(y_test_enc, y_pred_boost, average='weighted')
f1 = f1_score(y_test_enc, y_pred_boost, average='weighted')

print("Precision:", precision)
print("Recall:", recall)
print("F1 Score:", f1)

# Матрица ошибок
conf_matrix = confusion_matrix(y_test_enc, y_pred_boost)
print("Confusion Matrix:\n", conf_matrix)

Accuracy: 0.9005847953216374
Precision: 0.9023075326306939
Recall: 0.9005847953216374
F1 Score: 0.9005750187843661
Confusion Matrix:
 [[16  2  0  0  0  0  2  0  0  0  0  2  0]
 [ 0 44  0  1  0  0  1  0  0  0  1  1  1]
 [ 0  0 36  1  0  0  1  0  0  0  1  1  0]
 [ 1  0  1 35  0  0  3  0  1  0  0  0  3]
 [ 0  0  0  0 11  0  0  0  0  0  0  0  1]
 [ 0  1  0  0  0 54  0  0  1  0  0  0  0]
 [ 0  0  1  0  1  0 63  0  0  0  0  0  1]
 [ 0  0  0  1  0  0  0  8  0  0  0  0  0]
 [ 0  0  0  1  0  0  0  0 50  0  0  1  1]
 [ 1  0  0  0  1  0  0  0  0 31  0  1  0]
 [ 1  0  0  0  0  0  0  0  1  0 34  1  0]
 [ 0  0  1  1  1  0  1  0  1  1  0 59  0]
 [ 0  2  0  1  0  0  1  0  0  0  0  1 21]]


In [27]:
print(classification_report(y_test_enc, y_pred_boost, target_names=list(y_train.unique())))

                                   precision    recall  f1-score   support

         Лермонтов Михаил Юрьевич       0.84      0.73      0.78        22
 Мамин-Сибиряк Дмитрий Наркисович       0.90      0.90      0.90        49
        Куприн Александр Иванович       0.92      0.90      0.91        40
     Блок Александр Александрович       0.85      0.80      0.82        44
Салтыков-Щедрин Михаил Евграфович       0.79      0.92      0.85        12
            Бунин Иван Алексеевич       1.00      0.96      0.98        56
             Чехов Антон Павлович       0.88      0.95      0.91        66
        Гоголь Николай Васильевич       1.00      0.89      0.94         9
      Карамзин Николай Михайлович       0.93      0.94      0.93        53
     Достоевский Федор Михайлович       0.97      0.91      0.94        34
          Тургенев Иван Сергеевич       0.94      0.92      0.93        37
       Пушкин Александр Сергеевич       0.88      0.91      0.89        65
      Есенин Сергей Алек

По итогу на комбинированном наборе фичей (эвристики + текстовые), а также при использовании word2vec модели со SkipGram, бустинг модель XGBoost показала гораздо лучшие значения метрик точности предсказания в районе $\approx 90\%$

(до этого значения метрик доходили до $\approx 81\%$ у модели логистической регрессии, и по $\approx 87-88\%$ для word2vec со skipgram и xgboost по отдельности).

### Сохранение моделей в `.pkl` файлы:

In [31]:
from pickle import dump

with open('w2v_model.pkl', 'wb') as f:
    dump(w2v_model, f)

with open('pipeline.pkl', 'wb') as f:
    dump(pipeline, f)  # Сохранение XGBoost