# Проект классификации отзывов для интернет-магазина

 Магазину требуется инструмент, который будет искать токсичные комментарии, оставляемые пользователями в описании товаров магазина и отправлять их на модерацию.

**Цель проекта:** Обучить модель классифицировать комментарии на позитивные и негативные. В нашем распоряжении набор данных с разметкой о токсичности правок.

Целевое значение метрики качества *F1* не меньше 0.75.


**Описание данных**

Данные находятся в файле `toxic_comments.csv`. Столбец *text* в нём содержит текст комментария, а *toxic* — целевой признак.

## Подготовка данных

In [None]:
!pip install spacy -q

In [None]:
import re
import pandas as pd
import spacy
from tqdm.notebook import tqdm
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import f1_score
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split,  GridSearchCV

In [None]:
df_comm = pd.read_csv("/datasets/toxic_comments.csv")

In [None]:
RANDOM_STATE=12345

In [None]:
df_comm.head(10)

Unnamed: 0.1,Unnamed: 0,text,toxic
0,0,Explanation\nWhy the edits made under my usern...,0
1,1,D'aww! He matches this background colour I'm s...,0
2,2,"Hey man, I'm really not trying to edit war. It...",0
3,3,"""\nMore\nI can't make any real suggestions on ...",0
4,4,"You, sir, are my hero. Any chance you remember...",0
5,5,"""\n\nCongratulations from me as well, use the ...",0
6,6,COCKSUCKER BEFORE YOU PISS AROUND ON MY WORK,1
7,7,Your vandalism to the Matt Shirvington article...,0
8,8,Sorry if the word 'nonsense' was offensive to ...,0
9,9,alignment on this subject and which are contra...,0


In [None]:
df_comm.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159292 entries, 0 to 159291
Data columns (total 3 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   Unnamed: 0  159292 non-null  int64 
 1   text        159292 non-null  object
 2   toxic       159292 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 3.6+ MB


In [None]:
df_comm.duplicated().sum()

0

In [None]:
df_comm.isna().sum()

Unnamed: 0    0
text          0
toxic         0
dtype: int64

Датасет состоит из 159292 строк, столбца с текстами сообщений и стобца с разметкой целевого признака. Пропусков и дубликатов в датасете нет. Посмотрим на соотношение классов целевого признака

In [None]:
df_comm['toxic'].value_counts()

0    143106
1     16186
Name: toxic, dtype: int64

Имеет место выраженный дисбаланс целевого признака (нетоксичных комментариев почти в 10 раз больше чем токсичных), однако менять датасет не будем чтобы получить более честную работу моделей.

 Для подготовки данных к обучению удалим лишние символы и пробелы с помощью регулярных выражений, токенизируем и лемматизируем текст. Очищенный текст добавим в датасет. Для удобства выполним подготовку с помощью функции.

In [None]:
def clean_text(text):

    text = text.lower()
    regular = r'[\*+\#+\№\"\-+\+\=+\?+\&\^\.+\;\,+\>+\(\)\/+\:\\+]'
    regular_url = r'(http\S+)|(www\S+)|([\w\d]+www\S+)|([\w\d]+http\S+)'
    text = re.sub(regular, '', text)
    text = re.sub(r'(\d+\s\d+)|(\d+)',' NUM ', text)
    text = re.sub(r'\s+', ' ', text)
    return text


nlp = spacy.load('en_core_web_sm', disable=['parser', 'ner'])
def lemmatize_text(text):
    text = clean_text(text)
    doc = nlp(text)
    text = [token.lemma_ for token in doc]
    text = ' '.join(text)
    return text

tqdm.pandas()
df_comm['lemm_text'] = df_comm['text'].progress_apply(lemmatize_text)

  0%|          | 0/159292 [00:00<?, ?it/s]

In [None]:
df_comm.head()

Unnamed: 0.1,Unnamed: 0,text,toxic,lemm_text
0,0,Explanation\nWhy the edits made under my usern...,0,explanation why the edit make under my usernam...
1,1,D'aww! He matches this background colour I'm s...,0,d'aww ! he match this background colour I be s...
2,2,"Hey man, I'm really not trying to edit war. It...",0,hey man I be really not try to edit war it be ...
3,3,"""\nMore\nI can't make any real suggestions on ...",0,more I can not make any real suggestion on i...
4,4,"You, sir, are my hero. Any chance you remember...",0,you sir be my hero any chance you remember wha...


 Следующим этапом выделим признаки, на которых будем обучать модели. Разделим датасет на тренировочную и тествовую выборки, при разделении учтем дисбаланс классов.

In [None]:
X=df_comm['lemm_text']
y=df_comm['toxic']

In [None]:
X_train, X_test, y_train, y_test=train_test_split(X, y, test_size=0.3, stratify=y, random_state=12345)

## Обучение

для обучения моделей используем пайплайн с классификаторами - дерево решений, логистическая регрессия, KNN. Проведем кросс-валидацию для подбора гиперпараметров моделей. Результаты обучения всех моделей выведем в таблицу.

In [None]:
pipe = Pipeline([
    ('vect', TfidfVectorizer()),
    ('models', DecisionTreeClassifier(random_state=RANDOM_STATE))
])

In [None]:
param_grid = [
    {
    "vect__ngram_range": ((1, 1), (1, 2))
    },
    {
        'models': [DecisionTreeClassifier(random_state=RANDOM_STATE)],
        'models__min_samples_leaf': range(3,6),
        'models__max_depth': range(3,6)
    },
    {
        'models': [LogisticRegression(random_state=RANDOM_STATE)],
        'models__C': range(5,15),
        'models__penalty': ['l1', 'l2', 'elasticnet']
    } ,
    {
        'models': [KNeighborsClassifier(n_neighbors=300)]

    }
                 ]

In [None]:
grid_search = GridSearchCV(
    pipe,
    param_grid=param_grid,
    cv=3,
    scoring='f1',
    n_jobs=-1
)

In [None]:
grid_search.fit(X_train, y_train)

Traceback (most recent call last):
  File "/opt/conda/lib/python3.9/site-packages/sklearn/model_selection/_validation.py", line 593, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "/opt/conda/lib/python3.9/site-packages/sklearn/pipeline.py", line 346, in fit
    self._final_estimator.fit(Xt, y, **fit_params_last_step)
  File "/opt/conda/lib/python3.9/site-packages/sklearn/linear_model/_logistic.py", line 1306, in fit
    solver = _check_solver(self.solver, self.penalty, self.dual)
  File "/opt/conda/lib/python3.9/site-packages/sklearn/linear_model/_logistic.py", line 443, in _check_solver
    raise ValueError("Solver %s supports only 'l2' or 'none' penalties, "
ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.

Traceback (most recent call last):
  File "/opt/conda/lib/python3.9/site-packages/sklearn/model_selection/_validation.py", line 593, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "/opt/conda/

GridSearchCV(cv=3,
             estimator=Pipeline(steps=[('vect', TfidfVectorizer()),
                                       ('models',
                                        DecisionTreeClassifier(random_state=12345))]),
             n_jobs=-1,
             param_grid=[{'vect__ngram_range': ((1, 1), (1, 2))},
                         {'models': [DecisionTreeClassifier(random_state=12345)],
                          'models__max_depth': range(3, 6),
                          'models__min_samples_leaf': range(3, 6)},
                         {'models': [LogisticRegression(C=13,
                                                        random_state=12345)],
                          'models__C': range(5, 15),
                          'models__penalty': ['l1', 'l2', 'elasticnet']},
                         {'models': [KNeighborsClassifier(n_neighbors=300)]}],
             scoring='f1')

In [None]:
res = pd.DataFrame(grid_search.cv_results_)
res = res.drop (['std_fit_time','mean_score_time',
                 'std_score_time','params','split0_test_score','split1_test_score',
                 'split2_test_score','std_test_score'], axis=1)
res

Unnamed: 0,mean_fit_time,param_vect__ngram_range,param_models,param_models__max_depth,param_models__min_samples_leaf,param_models__C,param_models__penalty,mean_test_score,rank_test_score
0,133.197824,"(1, 1)",,,,,,0.691579,11
1,604.631311,"(1, 2)",,,,,,0.67934,12
2,4.76483,,DecisionTreeClassifier(random_state=12345),3.0,3.0,,,0.427721,22
3,4.720769,,DecisionTreeClassifier(random_state=12345),3.0,4.0,,,0.427966,21
4,4.699417,,DecisionTreeClassifier(random_state=12345),3.0,5.0,,,0.428153,20
5,5.151276,,DecisionTreeClassifier(random_state=12345),4.0,3.0,,,0.47222,18
6,5.111781,,DecisionTreeClassifier(random_state=12345),4.0,4.0,,,0.472283,17
7,5.119505,,DecisionTreeClassifier(random_state=12345),4.0,5.0,,,0.473542,16
8,5.577193,,DecisionTreeClassifier(random_state=12345),5.0,3.0,,,0.502856,13
9,5.585274,,DecisionTreeClassifier(random_state=12345),5.0,4.0,,,0.502666,15


In [None]:
print('The best model and its parameters:\n\n', grid_search.best_estimator_)
print ('The metric of the best model on cross-validation:', grid_search.best_score_)

The best model and its parameters:

 Pipeline(steps=[('vect', TfidfVectorizer()),
                ('models', LogisticRegression(C=13, random_state=12345))])
The metric of the best model on cross-validation: 0.7812920327938802


In [None]:
best_model = grid_search.best_estimator_
best_params = grid_search.best_params_

y_pred_test = grid_search.best_estimator_.predict(X_test)
f1_test = f1_score(y_test, y_pred_test)

print ("F1 on test set is:", f1_test)

F1 on test set is: 0.7850360370666971


Лучшая модель, выбранная при кросс-валидации - логистическая регрессия с параметром регуляризации capacity =13, регуляризацией l2, значение метрики F1 на кросс-валидации 78.1%, на тестовой выбоке  78,5% (удлвлетворяют требованиям проекта).

## Выводы

Согласно цели проекта - обучить модель выявлять токсичные комментарии на сайте магазина была проведена загрузка необходимых библиотек, датасета, проведена первичная оценка данных.

На втором этапе проведена проведена подготовка текстов комментариев к обучению моделей -  удалены лишние символы, пробелы,  проведена токенизация и лемматизация текста.  

Лемматизированный текст передан пайплайну, включающему векторайзер TF-IDF, 3 модели (логистическая регрессия, дерево решений, метод ближайших соседей).

Проведена кросс-валидация для подбора лучшей модели и ее гиперпараметров, лучшей моделью выбрана логистическая регрессия, метрика F1 на кросс-валидации 78,1%. Получены предсказания на тествой выборке, метрика F1 на тествовой выборке составила 78,5%.

Таким образом, логистическая регрессия с учетом ее быстрой работы и удовлетворительного качества предсказаний может быть использована для отбора токсичных комментариев.