<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Подготовка" data-toc-modified-id="Подготовка-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Подготовка</a></span></li><li><span><a href="#Обучение" data-toc-modified-id="Обучение-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Обучение</a></span></li><li><span><a href="#Выводы" data-toc-modified-id="Выводы-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Выводы</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Проект для «Викишоп»

Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. 

Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.

Постройте модель со значением метрики качества *F1* не меньше 0.75. 

**Инструкция по выполнению проекта**

1. Загрузите и подготовьте данные.
2. Обучите разные модели. 
3. Сделайте выводы.

Для выполнения проекта применять *BERT* необязательно, но вы можете попробовать.

**Описание данных**

Данные находятся в файле `toxic_comments.csv`. Столбец *text* в нём содержит текст комментария, а *toxic* — целевой признак.

## Подготовка

In [2]:
~pip install pymystem3

Collecting pymystem3
  Downloading pymystem3-0.2.0-py3-none-any.whl.metadata (5.5 kB)
Downloading pymystem3-0.2.0-py3-none-any.whl (10 kB)
Installing collected packages: pymystem3
Successfully installed pymystem3-0.2.0
Note: you may need to restart the kernel to use updated packages.


In [3]:
import pandas as pd
from pymystem3 import Mystem
from tqdm import notebook
from tqdm.notebook import tqdm
import re
import nltk
from nltk.corpus import stopwords as nltk_stopwords
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score
RANDOM_STATE =42

In [None]:
try^df = pd.read_csv('/datasets/toxic_comments.csv', index_col=0)

In [None]:
df.head()

In [None]:
df.info()

In [None]:
df.duplicated().sum()

In [None]:
df.shape[0]

In [None]:
tqdm.pandas()
m = Mystem()

In [None]:
custom_stopwords = set(nltk_stopwords.words('english')) | {
    'would', 'could', 'should', 'might', 'may', 'also', 'us', 'get', 'go', 'like'
}

In [None]:
def clear_text(text):
    """Улучшенная очистка текста"""
    text = text.lower()  
    text = re.sub(r'[^a-zA-Zа-яА-Я\s]', ' ', text)  
    text = re.sub(r'\s+', ' ', text).strip()  
    return text

def lemmatize(text):
    cleaned = clear_text(text)
    lemmas = m.lemmatize(cleaned)
    lemm_text = "".join(lemmas).strip()
    words = [word for word in lemm_text.split() if word not in custom_stopwords]
    return " ".join(words)

In [None]:


# def clear_text(text):
#     """Очистка текста от не-буквенных символов"""
#     tmp = re.sub(r'[^a-zA-Zа-яА-Я]', ' ', text)
#     tmp_lst = tmp.split()
#     return ' '.join(tmp_lst)

# def lemmatize(text):
#     """Лемматизация очищенного текста"""
#     cleaned = clear_text(text)
#     lemm_list = m.lemmatize(cleaned)
#     lemm_text = "".join(lemm_list).strip()
#     return lemm_text


In [None]:
df['clear_lemma'] = df['text'].progress_apply(lemmatize)

In [None]:
df.head()

In [None]:
X = df['clear_lemma']
y = df['toxic']

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=RANDOM_STATE)

In [None]:
X_train = X_train.values.astype('U')
X_test = X_test.values.astype('U')

In [None]:
# nltk.download('stopwords')
# stopwords = list(nltk_stopwords.words('english'))

In [None]:
tfidf = TfidfVectorizer(
    stop_words=custom_stopwords,
    ngram_range=(1, 2),  
    max_features=5000
)

In [None]:
X_train_tfidf = tfidf.fit_transform(X_train)

In [None]:
X_train_tfidf.shape

In [None]:
model = LogisticRegression(solver="saga", max_iter=500, random_state=RANDOM_STATE)


In [None]:
with tqdm(total=1, desc="Training model") as pbar:
    model.fit(X_train_tfidf, y_train)
    pbar.update(1)

In [None]:
X_test_tfidf = tfidf.transform(X_test) 

In [None]:
predictions = model.predict(X_test_tfidf)

In [None]:
f1 = f1_score(predictions, y_test)
print(f"F1-score на тренировочных данных: {f1:.4f}")

## Обучение

In [None]:
from xgboost import XGBClassifier

model = XGBClassifier(
    n_estimators=200,
    max_depth=5,
    learning_rate=0.1,
    random_state=RANDOM_STATE,
    eval_metric='logloss',  # для бинарной классификации
    use_label_encoder=False,
)

model.fit(X_train_tfidf, y_train)
predictions = model.predict(X_test_tfidf)
f1 = f1_score(y_test, predictions)
print(f"F1-score с XGBoost: {f1:.4f}")

## Выводы

## Чек-лист проверки

- [x]  Jupyter Notebook открыт
- [ ]  Весь код выполняется без ошибок
- [ ]  Ячейки с кодом расположены в порядке исполнения
- [ ]  Данные загружены и подготовлены
- [ ]  Модели обучены
- [ ]  Значение метрики *F1* не меньше 0.75
- [ ]  Выводы написаны