<a href="https://colab.research.google.com/github/trotsak/text/blob/main/text_ml_pre.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Название проекта: Классификация текстов для интернет-магазина «Викишоп»**.

Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию.

Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.

Постройте модель со значением метрики качества *F1* не меньше 0.75.

**Инструкция по выполнению проекта**

1. Загрузите и подготовьте данные.
2. Обучите разные модели.
3. Сделайте выводы.

Для выполнения проекта применять *BERT* необязательно, но вы можете попробовать.

**Описание данных**

Данные находятся в файле `toxic_comments.csv`. Столбец *text* в нём содержит текст комментария, а *toxic* — целевой признак.

In [None]:
!pip install -q catboost contractions

In [None]:
!python -m spacy download en_core_web_md -q

In [None]:
# работа с операционной системой
import os

## Импорт библиотек для анализа и визуализации данных

# работа с данными в формате таблиц
import pandas as pd

# работа с многомерными массивами
import numpy as np

# Импортируем функцию sqrt (квадратный корень) из модуля math
from math import sqrt

# Импортируем функцию autocorrelation_plot из библиотеки pandas.plotting
from pandas.plotting import autocorrelation_plot

# визуализация данных
import matplotlib.pyplot as plt

# импорт функции display для отображения датафреймов и других объектов в Jupyter Notebook
from IPython.display import display

# Импорт модуля re для работы с регулярными выражениями
import re

# импорт конфигурационных параметров для настройки отображения графиков
from matplotlib import rcParams, rcParamsDefault

# расширенные возможности визуализации
import seaborn as sns

# Импортируем модуль time для работы со временем
import time

## Импорт библиотек для статистического анализа

# статистические функции
from scipy import stats as st

# Импортируем функцию adfuller из модуля statsmodels.tsa.stattools
from statsmodels.tsa.stattools import adfuller

# Импорт функции для выполнения теста KPSS (Kwiatkowski-Phillips-Schmidt-Shin)
# для проверки стационарности временного ряда
from statsmodels.tsa.stattools import kpss

# Импортируем функции для визуализации автокорреляции и частичной автокорреляции
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf

# импорт библиотеки для статистического анализа
import scipy.stats as stats

# Импорт функции seasonal_decompose из библиотеки statsmodels.
from statsmodels.tsa.seasonal import seasonal_decompose

## Импорт библиотек для машинного обучения

# Импортируем ColumnTransformer для предобработки данных по столбцам
from sklearn.compose import ColumnTransformer

# Импортируем Pipeline для создания конвейера обработки данных и обучения модели
from sklearn.pipeline import Pipeline

# Импортируем функцию set_config из библиотеки scikit-learn
from sklearn import set_config


# общая библиотека машинного обучения
import sklearn

# разделение данных и оценка моделей
from sklearn.model_selection import train_test_split, cross_val_score, cross_validate, RandomizedSearchCV

# кодирование категориальных переменных и стандартизация
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder, StandardScaler

# Импортируем класс LinearRegression из библиотеки sklearn (подмодуля linear_model)
# from sklearn.linear_model import LinearRegression

# Импортируем класс RandomForestRegressor из библиотеки sklearn (подмодуля ensemble)
# from sklearn.ensemble import RandomForestRegressor

# Импортируем KNNImputer из библиотеки sklearn.impute
# from sklearn.impute import KNNImputer

# Импорт модели LightGBM
# from lightgbm import LGBMRegressor

# Импортируем lightgbm как lgb
import lightgbm as lgb

# Импорт функции mean_squared_error из библиотеки scikit-learn
from sklearn.metrics import mean_squared_error, make_scorer

## Импорт библиотеки для обработки предупреждений

# управление предупреждениями
import warnings

# игнорировать предупреждения (если нужно)
# warnings.filterwarnings('ignore')

import optuna
import re
import string
import requests
import nltk
from nltk.corpus import stopwords as nltk_stopwords
from nltk.stem import WordNetLemmatizer

nltk.download('stopwords')
nltk.download('wordnet')
wnl = WordNetLemmatizer()


stopwords = set(nltk_stopwords.words('english'))

from sklearn.metrics import f1_score


from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression


import spacy

nlp = spacy.load("en_core_web_sm")

from tqdm import tqdm
tqdm.pandas()

# Создание общего прогресс-бара для apply
tqdm.pandas(desc="Общий прогресс")


In [None]:
class Color:

    """
    Класс для хранения цветовых кодов для форматирования текстов в терминале.
    """

    PURPLE = '\033[95m'      # Фиолетовый цвет
    CYAN = '\033[96m'        # Бирюзовый цвет
    DARK_CYAN = '\033[36m'   # Темно-бирюзовый цвет
    BLUE = '\033[94m'        # Синий цвет
    GREEN = '\033[92m'       # Зеленый цвет
    YELLOW = '\033[93m'      # Желтый цвет
    RED = '\033[91m'         # Красный цвет
    BOLD = '\033[1m'         # Жирный текст
    UNDERLINE = '\033[4m'    # Подчеркнутый текст
    END = '\033[0m'          # Сброс формата текста


In [None]:
# определение констант
RANDOM_STATE = 42
TEST_SIZE = 0.10
CV_COUNTS=5

In [None]:
# системные настройки
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)

### Настроим параметры отображения графиков в Matplotlib для лучшей визуализации и качества изображения.

In [None]:
# установка стиля графиков на основе библиотеки Seaborn
sns.set_style('whitegrid')

# Включаем отображение объектов scikit-learn в виде диаграммы
set_config(display='diagram')

# установка формата изображения SVG для обеспечения более четкого и качественного изображение графиков.
%config InlineBackend.figure_format = 'svg'

# масштабный фактор, который будет использоваться для изменения параметра dpi.
factor = 0.8

# извлечение значения по умолчанию для точек на дюйм (dpi) из настроек Matplotlib.
default_dpi = rcParamsDefault['figure.dpi']

# установка разрешения (dpi) для всех фигур путём умножения значения dpi на масштабный фактор.
rcParams['figure.dpi'] = default_dpi*factor

# включение отображения графиков в Jupyter
%matplotlib inline

# установка размера диаграмм
rcParams['figure.figsize'] = [12.0, 6.0]

## Подготовка

### Загрузим данные из csv-файла в датафрейм.

In [None]:
## считывание данных из csv-файлов в датафреймы

# назначение путей к файлам
file_paths = {
    'toxic_comments': '/datasets/ toxic_comments.csv'
}

# словарь для хранения загруженных данных
dataframes = {}

# проход по всем файлам
for name, path in file_paths.items():
    try:
        if os.path.exists(path):
            dataframes[name] = pd.read_csv(path)
            print(f'Файл {path} загружен из локального пути.')
        else:
            url = f'https://code.s3.yandex.net/datasets/{name}.csv'
            dataframes[name] = pd.read_csv(url)
            print(f'Файл {path} загружен из URL.')
    except Exception as e:
        print(f'Не удалось загрузить {path}: {e}')

# присваивание загруженным датафреймам отдельных переменных
comments_data = dataframes['toxic_comments']

## Анализ

### Изучим общую информацию о полученном датафрейме
Создадим функцию `data_info` для вывода общей информации по датафрейму.

In [None]:
# создание функции для вывода общей информации по датафрейму
def data_info(data, dataframe_name):
    """
    Отображает общую информацию о переданном датафрейме.

    Функция выполняет следующие операции:
    1. Отображение первых нескольких строк датафрейма.
    2. Вывод общей информации о датафрейме, включая типы данных и количество ненулевых значений.
    3. Отображение статистического описания числовых столбцов.
    4. Подсчет и вывод количества пропущенных значений в каждом столбце.
    5. Вывод количества явных дубликатов в датафрейме.
    6. Отображение списка названий столбцов в датафрейме.
    7. Вывод уникальных значений для столбцов с типом данных 'object'.
    8. Вывод числа уникальных значений для каждого столбца.
    9. Вывод числа дублей для каждого столбца.

    Параметры:
    ----------
    data : pandas.DataFrame
        Датафрейм, для которого необходимо вывести информацию.
    dataframe_name : str
        Имя датафрейма (для отображения в выводе).
    """

    # отображение первых несколько строк датафрейма
    print(Color.BOLD + f"Первые строки датафрейма {dataframe_name}:\n" + Color.END)
    display(data.head())
    print()

    # вывод информацию о датафрейме, включая типы данных и количество ненулевых значений
    print(Color.BOLD + f"Общая информация о датафрейме {dataframe_name}:\n" + Color.END)
    data.info()
    print()

    # отображение статистического описания числовых столбцов датафрейма
    print(Color.BOLD + f"Статистическое описание числовых столбцов датафрейма {dataframe_name}:\n" + Color.END)
    display(data.describe())
    print()

    # отображение количества пропущенных значений в каждом столбце
    print(Color.BOLD + f"Количества пропущенных значений в каждом столбце датафрейма {dataframe_name}:\n" + Color.END)
    display(data.isna().sum())
    print()

    # вывод количества явных дубликатов в датафрейме
    print(f'Количество явных дубликатов в датафрейме: {Color.RED}{data.duplicated().sum()}{Color.END}.')
    print()

    # отображение списка названий столбцов в датафрейме
    print(Color.BOLD + f"Cписок названий столбцов в датафрейме {dataframe_name}:\n" + Color.END)
    display(data.columns.tolist())

    # отображение всех уникальных значений и их количества в столбцах типа 'object'
    for i in data.columns:
        if data[i].dtype == 'object':
            unique_values = data[i].unique()
            num_unique_values = len(unique_values)
            num_duplicates = data[i].duplicated().sum()
            print(f'В столбце {Color.BOLD}\'{i}\'{Color.END} содержится {num_unique_values} уникальных значений: \
            {Color.BOLD}{unique_values}{Color.END}')
            print(f'Число дублей в столбце {Color.BOLD}\'{i}\'{Color.END}: {Color.RED}{num_duplicates}{Color.END}')

#### Общая информация о датафреме `taxi_data`:

In [None]:
# получение общей информации по датафрейму с помощью функции data_info
data_info(comments_data, 'comments_data')

**Выводы:**

В датафрейме `taxi_data` содержится 4416 строк и 2 колонки с численными и временными типами данных. Индекс отсортирован в монотонном порядке.

Согласно документации колонки содержат следующую информацию:

- `datetime` - время заказов такси,
- `num_orders` - количество заказов такси.

Подписи колонок соответствуют хорошему стилю написания, пропущенные значения и аномалии отсутствуют, даты расположены в хронологическом порядке, присутствуют дубли, но в данной ситуации это нормально, удалять не будем, количество заказов такси может повторяться.

За 1-часовой период: в среднем 84 заказа, типичная нагрузка в 75% случаев составляет до 107 заказов, изменчивость умеренная - стандартное отклонение 45,  максимальное число заказов значительно отличается от значения среднего и медианы - 462, что указывает на наличие всплесков спроса; минимальное число заказов - 0.

In [None]:
comments_data = comments_data.drop('Unnamed: 0', axis=1)
display(comments_data.head())
comments_data.info()

In [None]:
# Оптимизируем тип данных признака 'toxic' (int64 переведем в формат uint8):
comments_data['toxic'] = comments_data['toxic'].astype('uint8')

In [None]:
comments_data.groupby('toxic')['text'].count()

In [None]:
# from tqdm import tqdm
# def lemmatize_text(text):

#     # Удаляем символы, не относящиеся к русскому алфавиту
#     sub_text = re.sub(r'[^a-zA-Z ]', ' ', text)
#     join_text = " ".join(sub_text.split())

#     doc = nlp(join_text)

#     lemmatized_tokens = []


#     # Добавляем прогресс-бар с помощью tqdm
#     for token in doc:
#         lemmatized_tokens.append(token.lemma_)

#     # Удаляем лишние пробелы и объединяем лемматизированные токены
#     lem_text = " ".join(lemmatized_tokens)

#     return lem_text

In [None]:
# lemmatize_text("The striped bats are hanging on their feet for best")

In [None]:
nlp.pipe_names

In [None]:
disabled_pipes = [ "parser",  "ner"]
nlp = spacy.load('en_core_web_sm', disable=disabled_pipes)

In [None]:
# lemm_texts = []

# for doc in tqdm(nlp.pipe(comments_data['text'].values, disable = ['ner', 'parser']),
#                 total=comments_data.shape[0],
#                 desc="Обработка текста"
#                 ):
#         lemm_text = " ".join([i.lemma_ for i in doc])
#         lemm_texts.append(lemm_text)

In [None]:
# # import spacy

# # # Загрузка модели Spacy для английского языка
# # nlp = spacy.load("en_core_web_sm")

# # Исходное предложение
# sentence = "The striped bats are hanging on their feet for best"

# # Применение модели Spacy
# doc = nlp(sentence)

# # Лемматизированный текст
# lemm_text = " ".join([token.lemma_ for token in doc])

# print("Исходный текст:", sentence)
# print("Лемматизированный текст:", lemm_text)

In [None]:
# # Проверяем первые N строк
# for i, lemm_text in enumerate(lemm_texts[:5]):
#     print(f"Текст {i + 1}: {comments_data['text'].iloc[i]}")
#     print(f"Лемматизированный: {lemm_text}")
#     print("-" * 50)

In [None]:
# Результат
# comments_data['lemm_texts'] = lemm_texts

In [None]:
# comments_data.head()

In [None]:
# comments_data['lem_text'] = comments_data['text'].progress_apply(lemmatize_text)
# print(comments_data['lem_text'].head())

In [None]:
# Загружаем более мощную модель spaCy
nlp = spacy.load('en_core_web_md', disable=["ner", "parser", "textcat"])

In [None]:
import contractions

# Функция очистки текста
def clean_text(text):
    text = contractions.fix(text)  # Разворачивает сокращения
    text = text.lower()  # Приводим к нижнему регистру
    text = re.sub(r'<.*?>', '', text)  # Удаляем HTML-теги
    text = re.sub(r'\([^)]*\)', '', text)  # Удаляем текст в скобках
    text = re.sub(r'\d{1,2}:\d{2}', '', text)  # Убираем время (формат 21:51)
    text = re.sub(r'\d{4}', '', text)  # Удаляем года (например, 2016)
    text = re.sub(r'\b(january|february|march|april|may|june|july|august|september|october|november|december)\b \d{1,2},? \d{4}', '', text)  # Убираем даты
    text = re.sub(r'[^a-z\s]', '', text)  # Оставляем только буквы и пробелы
    text = re.sub(r'\s+', ' ', text).strip()  # Убираем лишние пробелы
    return text

In [None]:
# # Функция для очистки текста
# def clean_text(text):
#     text = text.lower()  # Приводим к нижнему регистру
#     text = re.sub(r'\([^)]*\)', '', text)  # Удаляем скобки и их содержимое
#     text = re.sub(r'\d{1,2}:\d{2}', '', text)  # Удаляем время (например, 21:51)
#     text = re.sub(r'\d{4}', '', text)  # Удаляем года (например, 2016)
#     text = re.sub(r'\s+', ' ', text).strip()  # Убираем лишние пробелы
#     return text

In [None]:
# Применяем очистку к каждому комментарию
comments_data['clean_text'] = comments_data['text'].apply(clean_text)

In [None]:
extra_stopwords = {"d'aww", "daww", "hey", "sir"}  # Расширяем список стоп-слов
lemm_texts = []
for doc in tqdm(nlp.pipe(comments_data['clean_text'].tolist()), total=len(comments_data), desc="Лемматизация"):

    lemm_text = " ".join([
    token.lemma_
    for token in doc
    if not token.is_stop and            # Исключаем стоп-слова
       not token.is_punct and           # Исключаем пунктуацию
       token.lemma_ not in extra_stopwords and  # Исключаем дополнительные стоп-слова
       len(token.text) > 2              # Убираем слишком короткие слова
])



    # lemm_text = " ".join([token.lemma_ for token in doc if not token.is_stop and not token.is_punct])
    # lemm_text = " ".join([token.lemma_ for token in doc if not token.is_stop and not token.is_punct not in extra_stopwords and len(token.text) > 2])
    # lemm_text = " ".join([token.lemma_ for token in doc if token.text not in extra_stopwords])
    lemm_texts.append(lemm_text)

comments_data["lemm_text"] = lemm_texts  # Добавляем в DataFrame

In [None]:
comments_data.head()

In [None]:
# Проверяем первые N строк
for i, lemm_text in enumerate(lemm_texts[:5]):
    print(f"Текст {i + 1}: {comments_data['text'].iloc[i]}")
    print(f"Лемматизированный: {lemm_text}")
    print("-" * 50)

## Добавим новые признаки

In [None]:
# # Добавить длину текста как признак

# comments_data["text_length"] = comments_data["text"].apply(len)
# comments_data["word_count"] = comments_data["text"].apply(lambda x: len(x.split()))

In [None]:
# # Количество восклицательных и вопросительных знаков

# comments_data["excl_marks"] = comments_data["text"].apply(lambda x: x.count("!"))
# comments_data["quest_marks"] = comments_data["text"].apply(lambda x: x.count("?"))

In [None]:
# # Процент заглавных букв

# comments_data["caps_ratio"] = comments_data["text"].apply(lambda x: sum(1 for c in x if c.isupper()) / len(x) if len(x) > 0 else 0)

In [None]:
# # Наличие токсичных слов

# toxic_words = {"stupid", "idiot", "hate", "dumb", "bitch", "fuck", "suck", "moron"}
# comments_data["toxic_words_count"] = comments_data["lemm_text"].apply(lambda x: sum(1 for word in x.split() if word in toxic_words))

In [None]:
# # Количество ссылок и упоминаний
# import re

# comments_data["num_links"] = comments_data["text"].apply(lambda x: len(re.findall(r'http[s]?://', x)))
# comments_data["num_mentions"] = comments_data["text"].apply(lambda x: len(re.findall(r'@\w+', x)))

 преобразовать текст в числовой формат для модели

 Векторизация текста (TF-IDF)

In [None]:
from tqdm import tqdm
tqdm.pandas()
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(max_features=150_000, ngram_range=(1,2))
# X = vectorizer.fit_transform(comments_data["lemm_text"])
X = vectorizer.fit_transform(tqdm(comments_data["lemm_text"], desc="Векторизация TF-IDF"))
y = comments_data["toxic"]

In [None]:
# from tqdm import tqdm
# tqdm.pandas()  # Подключаем tqdm к Pandas

# vectorizer = TfidfVectorizer(max_features=100_000, ngram_range=(1,2))

# # Прогресс-бар при обработке текстов
# X = vectorizer.fit_transform(tqdm(comments_data["lemm_text"], desc="Векторизация TF-IDF"))


In [None]:
# from sklearn.feature_extraction.text import TfidfVectorizer

# vectorizer = TfidfVectorizer(max_features=5000)  # Ограничиваем до 5000 слов
# X = vectorizer.fit_transform(comments_data["lemm_text"])
# y = comments_data["toxic"]

In [None]:
# comments_data.info()

In [None]:
# # Создание матрицы из остальных численных признаков
# additional_features = comments_data[[
#     "text_length", "word_count", "excl_marks", "quest_marks",
#     "caps_ratio", "toxic_words_count", "num_links", "num_mentions"
# ]].values

In [None]:
# # Масштабируем дополнительные признаки
# scaler = StandardScaler()
# scaled_additional_features = scaler.fit_transform(
#     comments_data[["text_length", "word_count", "excl_marks", "quest_marks",
#                    "caps_ratio", "toxic_words_count", "num_links", "num_mentions"]].values
# )

In [None]:
# from scipy.sparse import hstack

# Объединение TF-IDF с дополнительными признаками
# X = hstack([X_tfidf, additional_features])

In [None]:
# Целевая переменная
# y = comments_data["toxic"]

In [None]:
# import random

# # Строка X[0]
# row = X[0]

# # Печать случайных 5 ненулевых элементов
# sample_indices = random.sample(range(len(row.data)), k=min(5, len(row.data)))  # Случайные индексы
# for idx in sample_indices:
#     print(f"Feature {row.indices[idx]}: {row.data[idx]}")

In [None]:
# X


In [None]:
# y.sample(5)

In [None]:
# print(X.shape)

In [None]:
# print(vectorizer.get_feature_names_out())

Разделение на обучающую и тестовую выборку

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)

Обучение модели логистической регрессии

In [None]:
model = LogisticRegression(class_weight="balanced", max_iter=100, random_state=RANDOM_STATE)
model.fit(X_train, y_train)

In [None]:
from sklearn.model_selection import GridSearchCV

param_grid = {
    'C': [0.1, 1, 10],  # Регуляризация
    'penalty': ['l1', 'l2'],
    'solver': ['liblinear', 'lbfgs']
}

grid_search = GridSearchCV(LogisticRegression(class_weight="balanced", max_iter=500, random_state=42),
                           param_grid, scoring='f1', cv=5, n_jobs=-1)
grid_search.fit(X, y)

print(f"Лучшие параметры: {grid_search.best_params_}")
print(f"Средний F1-score: {grid_search.best_score_:.4f}")

In [None]:
# from sklearn.linear_model import LogisticRegression
# from sklearn.model_selection import GridSearchCV

# param_grid = {
#     'C': [0.01, 0.1, 1, 10],  # Чем меньше C, тем сильнее регуляризация
#     'penalty': ['l1', 'l2'],  # L1 - Lasso, L2 - Ridge
#     'solver': ['liblinear']  # liblinear поддерживает L1
# }

# grid_search = GridSearchCV(LogisticRegression(class_weight="balanced", max_iter=500, random_state=42),
#                            param_grid, scoring='f1', cv=5, n_jobs=-1)
# grid_search.fit(X_train, y_train)

# best_model = grid_search.best_estimator_

# # Оценка лучшей модели
# y_pred_best = best_model.predict(X_test)
# f1_best = f1_score(y_test, y_pred_best)
# print(f"F1-score лучшей модели: {f1_best:.4f}")

Оценка качества модели

In [None]:
# from sklearn.metrics import f1_score, accuracy_score

# y_pred = model.predict(X_test)

# f1 = f1_score(y_test, y_pred)
# acc = accuracy_score(y_test, y_pred)

# print(f"F1-score: {f1:.4f}")
# print(f"Accuracy: {acc:.4f}")

1. Улучшить векторизацию текста
Попробуем TF-IDF с биграммами и триграммами, чтобы учесть соседние слова:

In [None]:
# from tqdm import tqdm
# import numpy as np

# vectorizer = TfidfVectorizer(max_features=70_000, ngram_range=(1,2))

# batch_size = 10_000  # Размер батча
# lemm_texts = comments_data["lemm_text"].tolist()
# X_parts = []

# for i in tqdm(range(0, len(lemm_texts), batch_size), desc="Обработка TF-IDF"):
#     X_part = vectorizer.fit_transform(lemm_texts[i:i+batch_size])
#     X_parts.append(X_part)

# X = np.vstack(X_parts)  # Объединяем обратно


### CatBoost

In [None]:
!pip install catboost -q

In [None]:
# Обучим CatBoost с кросс-валидацией (StratifiedKFold для дисбаланса классов):
from sklearn.model_selection import cross_val_score, StratifiedKFold
from catboost import CatBoostClassifier

# Модель CatBoost
cat_model = CatBoostClassifier(iterations=200, depth=4, learning_rate=0.1,
                               loss_function='Logloss',
                               verbose=100,
                               random_state=42,
                               od_type="Iter",
                               od_wait=50,
                               thread_count=-1)


# Кросс-валидация (StratifiedKFold для дисбаланса классов)

cv = StratifiedKFold(n_splits=3, shuffle=True, random_state=42)
cv_scores = cross_val_score(cat_model, X, y, cv=cv, scoring="f1")

print(f"Средний F1-score CatBoost: {cv_scores.mean():.4f}")
print(f"Разброс значений: {cv_scores}")


NameError: name 'X' is not defined

In [None]:
# cat_model.fit(X_train, y_train)

# # Оценка на тесте
# y_pred_cat = cat_model.predict(X_test)
# print(f"F1-score CatBoost: {f1_score(y_test, y_pred_cat):.4f}")


### BERT

In [None]:
!pip install transformers torch datasets -q


In [None]:
import torch
from torch.utils.data import DataLoader, Dataset
from transformers import BertTokenizer, BertForSequenceClassification, AdamW, get_scheduler
from sklearn.model_selection import train_test_split


In [None]:
# Загружаем предобученный токенизатор BERT

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Токенизация
def tokenize_texts(texts):
    return tokenizer(texts, padding=True, truncation=True, max_length=512, return_tensors="pt")

# Разбиваем данные
X_train, X_test, y_train, y_test = train_test_split(comments_data["lemm_text"], comments_data["toxic"], test_size=0.2, stratify=comments_data["toxic"], random_state=42)

# Токенизируем
train_encodings = tokenize_texts(X_train.tolist())
test_encodings = tokenize_texts(X_test.tolist())


In [None]:
#  Создаём Dataset для PyTorch

class ToxicDataset(Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    def __len__(self):
        return len(self.labels)

    def __getitem__(self, idx):
        item = {key: val[idx] for key, val in self.encodings.items()}
        item["labels"] = torch.tensor(self.labels.iloc[idx])
        return item

# Создаём PyTorch dataset
train_dataset = ToxicDataset(train_encodings, y_train)
test_dataset = ToxicDataset(test_encodings, y_test)

# DataLoader для обучения
train_loader = DataLoader(train_dataset, batch_size=8, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=8, shuffle=False)


In [None]:
# Загружаем предобученный BERT для классификации
model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2)  # Два класса: токсичный / нетоксичный
model.to("cuda" if torch.cuda.is_available() else "cpu")


In [None]:
# Настраиваем оптимизатор и лосс-функцию
optimizer = AdamW(model.parameters(), lr=5e-5)
loss_fn = torch.nn.CrossEntropyLoss()


In [None]:
#  Обучаем BERT
device = "cuda" if torch.cuda.is_available() else "cpu"
model.train()

for epoch in range(3):  # 3 эпохи
    total_loss = 0
    for batch in train_loader:
        batch = {k: v.to(device) for k, v in batch.items()}
        outputs = model(**batch)
        loss = outputs.loss
        total_loss += loss.item()

        loss.backward()
        optimizer.step()
        optimizer.zero_grad()

    print(f"Эпоха {epoch + 1}, Средний loss: {total_loss / len(train_loader):.4f}")


In [None]:
# Оцениваем качество (F1-score)
from sklearn.metrics import f1_score

model.eval()
predictions, true_labels = [], []

with torch.no_grad():
    for batch in test_loader:
        batch = {k: v.to(device) for k, v in batch.items()}
        outputs = model(**batch)
        logits = outputs.logits
        preds = torch.argmax(logits, dim=-1).cpu().numpy()
        labels = batch["labels"].cpu().numpy()

        predictions.extend(preds)
        true_labels.extend(labels)

# Оцениваем F1-score
f1 = f1_score(true_labels, predictions)
print(f"F1-score BERT: {f1:.4f}")


## Объединяем TF-IDF с новыми признаками

In [None]:
# import scipy.sparse as sp

# X_meta = comments_data[["text_length", "word_count", "excl_marks", "quest_marks", "caps_ratio", "toxic_words_count", "num_links", "num_mentions"]]
# X_meta = sp.csr_matrix(X_meta)  # Преобразуем в sparse-формат


In [None]:
# print(f"Размер TF-IDF: {X.shape}")  # Должно быть (159292, N)
# print(f"Размер X_meta: {X_meta.shape}")  # Должно быть (159292, M)


In [None]:
# # Проверим, есть ли пропущенные значения в comments_data
# print(comments_data.isnull().sum())  # Есть ли NaN в колонках?
# print(comments_data.shape)  # Должно быть (159292, ...)


In [None]:
# comments_data["lemm_text"] = comments_data["lemm_text"].fillna("")


In [None]:
# print(comments_data.index[:5])
# print(pd.DataFrame(X.toarray()).index[:5])  # Индексы TF-IDF
# print(X_meta.index[:5])  # Индексы доп. признаков


In [None]:
# print(f"Размер TF-IDF: {X.shape}")
# print(f"Размер X_meta: {X_meta.shape}")


In [None]:
# Проверим размеры данных перед объединением

In [None]:
# X_combined = sp.hstack([X, X_meta])  # Объединяем с TF-IDF

In [None]:
# print(comments_data.shape)  # Должно быть (159292, N)
# print(comments_data.isnull().sum())  # Проверяем NaN


In [None]:
# print(comments_data[["text_length", "word_count", "excl_marks", "quest_marks",
                    #  "caps_ratio", "toxic_words_count", "num_links", "num_mentions"]].isnull().sum())


In [None]:
# import scipy.sparse as sp

# X_meta = comments_data[["text_length", "word_count", "excl_marks", "quest_marks",
#                         "caps_ratio", "toxic_words_count", "num_links", "num_mentions"]]
# X_meta = sp.csr_matrix(X_meta)  # Преобразуем в sparse

# # Проверяем размеры
# print(f"Размер TF-IDF: {X.shape}")
# print(f"Размер X_meta: {X_meta.shape}")


In [None]:
# X_combined = sp.hstack([X, X_meta])  # Объединяем с TF-IDF

In [None]:
# import numpy as np

# # Check shapes
# print(f"Shape of X: {X.shape}")
# print(f"Length of y: {len(y)}")

# # Optionally check for mismatched indices or missing values
# if hasattr(X, 'index') and hasattr(y, 'index'):
#     print(f"Mismatched indices? {not np.array_equal(X.index, y.index)}")

# # Example adjust lengths (if you know how to align)
# min_length = min(len(X), len(y))
# X = X[:min_length]  # Truncate X
# y = y[:min_length]  # Truncate y

In [None]:
# rows = sparse_matrix.shape[0]
# print(f"Number of rows in sparse matrix: {rows}")

# print(f"Length of y: {len(y)}")

In [None]:
# model.fit(X_combined, y_train)