<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Краткое-описание-проекта" data-toc-modified-id="Краткое-описание-проекта-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Краткое описание проекта</a></span></li><li><span><a href="#Цель-проекта" data-toc-modified-id="Цель-проекта-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Цель проекта</a></span></li><li><span><a href="#Описание-данных" data-toc-modified-id="Описание-данных-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Описание данных</a></span></li><li><span><a href="#Подготовка" data-toc-modified-id="Подготовка-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Подготовка</a></span></li><li><span><a href="#Обучение" data-toc-modified-id="Обучение-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Обучение</a></span><ul class="toc-item"><li><span><a href="#Logistic-Regression" data-toc-modified-id="Logistic-Regression-5.1"><span class="toc-item-num">5.1&nbsp;&nbsp;</span>Logistic Regression</a></span></li><li><span><a href="#Decision-Tree-Classifier" data-toc-modified-id="Decision-Tree-Classifier-5.2"><span class="toc-item-num">5.2&nbsp;&nbsp;</span>Decision Tree Classifier</a></span></li><li><span><a href="#Catboost-Classifier" data-toc-modified-id="Catboost-Classifier-5.3"><span class="toc-item-num">5.3&nbsp;&nbsp;</span>Catboost Classifier</a></span></li></ul></li><li><span><a href="#Выводы" data-toc-modified-id="Выводы-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Выводы</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-7"><span class="toc-item-num">7&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Проект для интернет-магазина

## Краткое описание проекта
Интернет-магазин запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. 

## Цель проекта
Обучите модель классифицировать комментарии на позитивные и негативные. Постройте модель со значением метрики качества *F1* не меньше 0.75. 

## Описание данных

- `text` - содержит текст комментария
- `toxic` — целевой признак.

In [1]:
#pip install -U pip setuptools wheel

In [2]:
#pip install -U spacy

In [3]:
#!python -m spacy download en_core_web_sm

In [4]:
import warnings

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from tqdm.notebook import tqdm
from nltk.corpus import stopwords
from nltk.probability import FreqDist
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import f1_score
from sklearn.utils import shuffle
from catboost import CatBoostClassifier

import re
import nltk
import spacy

warnings.filterwarnings('ignore')

In [5]:
tqdm.pandas()
nltk.download('stopwords')

stopwords = set(stopwords.words('english'))

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Acer\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


## Подготовка

In [6]:
try:
    data = pd.read_csv('/datasets/toxic_comments.csv', index_col=0)
except:
    data = pd.read_csv(r'C:\Users\Acer\Documents\Практикум\toxic_comments.csv', index_col=0)

In [7]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 159292 entries, 0 to 159450
Data columns (total 2 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   text    159292 non-null  object
 1   toxic   159292 non-null  int64 
dtypes: int64(1), object(1)
memory usage: 3.6+ MB


In [8]:
data.sample(5)

Unnamed: 0,text,toxic
71414,"""\nit was there until teh admin changed it to ...",0
69163,"At this point there is no need to merge, singl...",0
33828,"Jehochman, I think the three points you listed...",0
36651,"""=Short response===\nI have to say I haven't r...",0
81375,"Oi Wankstain ==\n\nFuck off you ignorant cunt,...",1


In [9]:
data.isna().sum()

text     0
toxic    0
dtype: int64

In [10]:
data.toxic.value_counts(normalize=True)

0    0.898388
1    0.101612
Name: toxic, dtype: float64

In [11]:
data.duplicated().sum()

0

**Вывод:**
1. Данные содержат 159292 объектов, в них нет дубликатов и пропусков
2. Данные кроме букв латинского алфавита так же содержат сторонние символы, например "\n
3. Так же в данных почти 90% ответов отрицательные, т.е. присутствует дисбаланс классов, будем исправлять это с помощью class_weight='balanced'
4. Столбец Unnamed: 0 фактически дублирует индексы и не несёт полезной информации, используем его в качестве индексов.

Очистим данные от посторонних символов

In [12]:
def clear_text(text):
    text = text.lower()
    text = re.sub(r'[^a-zA-Z]', ' ', text)   
    text = ' '.join(text.split())
    return text

In [13]:
%%time

data['text'] = data['text'].apply(clear_text) 

Wall time: 6.7 s


In [14]:
data.head()

Unnamed: 0,text,toxic
0,explanation why the edits made under my userna...,0
1,d aww he matches this background colour i m se...,0
2,hey man i m really not trying to edit war it s...,0
3,more i can t make any real suggestions on impr...,0
4,you sir are my hero any chance you remember wh...,0


Лемматизируем текст

In [15]:
nlp = spacy.load('en_core_web_sm')

def lemmatize_text_spacy(text):
    doc = nlp(text)
    lemmatized_text = " ".join([token.lemma_ for token in doc])
    return lemmatized_text

In [16]:
%%time
data['text'] = data['text'].progress_apply(lemmatize_text_spacy)

  0%|          | 0/159292 [00:00<?, ?it/s]

Wall time: 48min 37s


In [18]:
fdist = nltk.FreqDist(sum(data['text'].map(word_tokenize), []))
fdist.plot(30, cumulative=False)

NameError: name 'word_tokenize' is not defined

In [None]:
df_negative = df[df['toxic'] == 1]
text_cloud = ' '.join(df_negative['text'])
cloud = WordCloud(stopwords=stopwords, max_words=80, collocations=False).generate(text_cloud)
plt.figure(figsize=(12,8))
plt.imshow(cloud)
plt.axis('off')
plt.show()  

Разобьём датасет на обучающую и тренировочную выборки.

In [None]:
features = data['text']
target = data['toxic']

features_train, features_test, target_train, target_test = train_test_split(
    features, target, test_size=0.25, random_state=42, stratify = target)

In [None]:
features_train.shape, features_test.shape, target_train.shape, target_test.shape

In [None]:
data.text

## Обучение

Обучать будем три модели:
1. Logistic Regression
2. Random Forest Classifier
3. Catboost Classifier

### Logistic Regression

In [None]:
%%time

pipeline = Pipeline([
    ('tf_idf', TfidfVectorizer(stop_words=stopwords)),
    ('lr', LogisticRegression(class_weight='balanced', random_state=42))
])

param = {'lr__C': [0.1, 1, 10],
        'lr__solver': ['lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga']}


grid_lr = GridSearchCV(pipeline, param, scoring='f1', cv=5, n_jobs=-1)
grid_lr.fit(features_train, target_train)

lr_cv_score = cross_val_score(grid_lr, features_train, target_train, scoring='f1',cv=5).mean()
lr_cv_score

### Decision Tree Classifier

In [None]:
%%time

pipeline = Pipeline([
    ('tf_idf', TfidfVectorizer(stop_words=stopwords)),
    ('dtc', DecisionTreeClassifier(class_weight='balanced', random_state=42))
])

param = {'dtc__max_depth': range(10, 100, 20)}

grid_dtc = GridSearchCV(pipeline, param, scoring='f1', cv=3, n_jobs=-1)
grid_dtc.fit(features_train, target_train)

dtc_cv_score = cross_val_score(grid_dtc, features_train, target_train, scoring='f1',cv=5).mean()
dtc_cv_score

### Catboost Classifier

Т.к. проект выполняется локально, уменьшим датасет перед применением Catboost, иначе ядро упадёт

In [None]:
features_train_cb = features_train[:400]
features_test_cb = features_test[:100]
target_train_cb = target_train[:400]
target_test_cb = target_test[:100]

In [None]:
%%time

pipeline = Pipeline([
    ('tf_idf', TfidfVectorizer(stop_words=stopwords)),
    ('cb', CatBoostClassifier(auto_class_weights='Balanced', iterations=30))
    
])

param = {'cb__learning_rate': [0.03, 0.1],
        'cb__depth': [4, 6],
        'cb__l2_leaf_reg': [1, 3]}

grid_cb = GridSearchCV(pipeline, param, scoring='f1', cv=3)
grid_cb.fit(features_train_cb, target_train_cb, verbose=False)

cb_cv_score = cross_val_score(grid_cb, features_train_cb, target_train_cb, scoring='f1',cv=5).mean()
cb_cv_score

**Вывод**:
Лучшую метрику F1, а так же лучшее время показала модель Logistic Regression, значение F1 = 0.7657038462627914

Её и будем использовать для финального тестирования.

## Выводы

In [None]:
predictions = grid_lr.predict(features_test)
f1 = f1_score(target_test, predictions)
f1

**Вывод**:
В данном проекте нам было необходимо обучить модель классифицировать комментарии на позитивные и негативные. А так же построить модель со значением метрики качества *F1* не меньше 0.75. 

Был проведён анализ данных:
1. Данные содержат 159292 объектов, в них нет дубликатов и пропусков
2. Данные кроме букв латинского алфавита так же содержат сторонние символы, например "\n
3. Так же в данных почти 90% ответов отрицательные, т.е. присутствует дисбаланс классов, будем исправлять это с помощью class_weight='balanced'
4. Столбец Unnamed: 0 фактически дублирует символы и не несёт полезной информации, удалим его.

Была проведена предобработка данных:
1. Текст был очищен от лишних символов.
2. Лемматизирован с помощью библиотеки Spacy
3. Разделён на обучающую и тренировочную выборки 
4. Так же был вычислен TF-IDF

Были обучены три типа моделей:
1. Logistic Regression
2. Random Forest Classifier
3. Catboost Classifier

Лучше моделью однозначно стала модель **Logistic Regression** с минимальным временем обучения и максимальным значением метрики F1 = 0.766

Остальные модели обучались гораздо дольше и показали гораздо меньшие значения метрики: 
- Random Forest Classifier: 0.65
- Catboost Classifier: 0.11

Для финального тестирования была выбрана модель **Logistic Regression**, которая показала метрику **F1 = 0.766**, на финальном тестировании.