<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Подготовка" data-toc-modified-id="Подготовка-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Подготовка</a></span></li><li><span><a href="#Обучение" data-toc-modified-id="Обучение-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Обучение</a></span></li><li><span><a href="#Выводы" data-toc-modified-id="Выводы-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Выводы</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Проект для «Викишоп»

Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. 

Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.

Постройте модель со значением метрики качества *F1* не меньше 0.75. 

**Инструкция по выполнению проекта**

1. Загрузите и подготовьте данные.
2. Обучите разные модели. 
3. Сделайте выводы.

Для выполнения проекта применять *BERT* необязательно, но вы можете попробовать.

**Описание данных**

Данные находятся в файле `toxic_comments.csv`. Столбец *text* в нём содержит текст комментария, а *toxic* — целевой признак.

## Подготовка

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.metrics import f1_score
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from nltk.corpus import wordnet, stopwords
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('averaged_perceptron_tagger')
nltk.download('wordnet')
nltk.download('omw-1.4')
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import StandardScaler
import random

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/akhmetshin/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package wordnet to
[nltk_data]     /home/akhmetshin/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     /home/akhmetshin/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


In [2]:
# импортирование данных из файла
data = pd.read_csv("datasets/toxic_comments.csv")

In [3]:
# Посмотрим сколько у нас токсичных/нетоксичных текстов
print(data['toxic'].value_counts())

0    143106
1     16186
Name: toxic, dtype: int64


In [4]:
toxic_percentage = (data['toxic'].sum() / len(data)) * 100
print(f"Процентное соотношение токсичных комментариев ко всем: {toxic_percentage:.2f}%")

Процентное соотношение токсичных комментариев ко всем: 10.16%


In [5]:
# приведем данные к нижнему регистру, а также удалим лишние символы и знаки препинания из текста комментариев:
def preprocessor(text):
    text = re.sub(r'[^\w\s]','', text.lower())
    return text

data['text'] = data['text'].apply(preprocessor)

In [6]:
stop_words = set(stopwords.words('english'))

In [7]:
def get_wordnet_pos(word):
    """Map POS tag to first character lemmatize() accepts"""
    tag = nltk.pos_tag([word])[0][1][0].upper()
    tag_dict = {"J": wordnet.ADJ,
                "N": wordnet.NOUN,
                "V": wordnet.VERB,
                "R": wordnet.ADV}
    return tag_dict.get(tag, wordnet.NOUN)

lemmatizer = WordNetLemmatizer()

data['lemmatized_text'] = data['text'].apply(lambda x: ' '.join([lemmatizer.lemmatize(w, get_wordnet_pos(w)) for w in nltk.word_tokenize(x) if w not in stop_words]))
print("done")

done


<div class="alert alert-block alert-info">
<b>КОММЕНТАРИЙ СТУДЕНТА 2:</b><br>
    <b>Вывод:</b>
    
- Импортированы основные библиотеки
- Загружены данные toxic_comments.csv
- Вычислено процентное соотношение токсичных комментариев: 10.16%
- Определена функция preprocessor, которая применяется к полю 'text' для предобработки текста, включающей удаление знаков препинания и приведение к нижнему регистру
- Выполнена лемматизация текстового столбца 'text'. Результат лемматизации сохраняется в новом столбце 'lemmatized_text'
     
</div>

## Обучение

In [8]:
# разделим данные на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(data['lemmatized_text'], data['toxic'], test_size=0.2, random_state=42)

In [13]:
model_lr = Pipeline([
#     ('tfidf', TfidfVectorizer()),
    ('tfidf', TfidfVectorizer(analyzer='word', token_pattern=r'\w{1,}', stop_words=stop_words)),
    ('lr', LogisticRegression(max_iter=10000, solver='saga', random_state=42))
])

parameters = {
    'tfidf__ngram_range': [(1, 1), (1, 2)],
    'lr__C': np.logspace(-3, 0, 4),
    'lr__penalty': ['l2']
}

grid_search = GridSearchCV(model_lr, parameters, cv=2, scoring='f1', n_jobs=-1, verbose=0)

grid_search.fit(X_train, y_train)

best_f1_score = grid_search.best_score_
best_params = grid_search.best_params_

print("Лучшие параметры для модели логистической регрессии:", best_params)
print("F1-мера на кросс-валидации:", round(best_f1_score, 2))

Лучшие параметры для модели логистической регрессии: {'lr__C': 1.0, 'lr__penalty': 'l2', 'tfidf__ngram_range': (1, 1)}
F1-мера на кросс-валидации: 0.7


In [14]:
model_svm = Pipeline([
#     ('tfidf', TfidfVectorizer()),
    ('tfidf', TfidfVectorizer(analyzer='word', token_pattern=r'\w{1,}', stop_words=stop_words)),
    ('svm', SVC(random_state=42))
])

parameters = {
'tfidf__ngram_range': [(1, 1)],
'svm__C': np.logspace(-3, -2, 2),
'svm__kernel': ['linear']
}

grid_search = GridSearchCV(model_svm, parameters, cv=2, scoring='f1', n_jobs=-1, verbose=2, pre_dispatch=10)

grid_search.fit(X_train, y_train)

best_params = grid_search.best_params_

print("Лучшие параметры для модели метода опорных векторов:", best_params)

f1_svm_val = grid_search.best_score_

print("F1-мера на валидации для модели метода опорных векторов:", round(f1_svm_val,2))

Fitting 2 folds for each of 2 candidates, totalling 4 fits
[CV] END svm__C=0.001, svm__kernel=linear, tfidf__ngram_range=(1, 1); total time= 6.4min
[CV] END svm__C=0.001, svm__kernel=linear, tfidf__ngram_range=(1, 1); total time= 6.6min
[CV] END svm__C=0.01, svm__kernel=linear, tfidf__ngram_range=(1, 1); total time= 7.8min
[CV] END svm__C=0.01, svm__kernel=linear, tfidf__ngram_range=(1, 1); total time= 7.9min
Лучшие параметры для модели метода опорных векторов: {'svm__C': 0.01, 'svm__kernel': 'linear', 'tfidf__ngram_range': (1, 1)}
F1-мера на валидации для модели метода опорных векторов: 0.24


In [11]:
model_rf = Pipeline([
('tfidf', TfidfVectorizer(analyzer='word', token_pattern=r'\w{1,}', stop_words=stop_words)),
('rf', RandomForestClassifier(n_estimators=50, random_state=42))
])

param_grid = {
'tfidf__max_features': [1000, 5000],
'rf__max_depth': [10, 20, None],
}

grid_search = GridSearchCV(model_rf, param_grid=param_grid, cv=4, scoring='f1', n_jobs=-1)

grid_search.fit(X_train, y_train)

best_params = grid_search.best_params_

print("Лучшие параметры для модели случайного леса:", best_params)

best_score = grid_search.best_score_

print("Лучшее значение метрики F1 на кросс-валидации для модели случайного леса:", round(best_score, 2))

Лучшие параметры для модели случайного леса: {'rf__max_depth': None, 'tfidf__max_features': 5000}
Лучшее значение метрики F1 на кросс-валидации для модели случайного леса: 0.74


In [15]:
# Создаем модель случайного леса с лучшими параметрами
best_model = Pipeline([
    ('tfidf', TfidfVectorizer(analyzer='word', token_pattern=r'\w{1,}', stop_words=stop_words, max_features=5000)),
    ('rf', RandomForestClassifier(n_estimators=50, max_depth=None, random_state=42))
])

# Обучаем модель на тренировочных данных
best_model.fit(X_train, y_train)

# Получаем предсказания на тестовой выборке
y_pred = best_model.predict(X_test)

# Вычисляем метрику F1 на тестовой выборке
f1 = f1_score(y_test, y_pred)

# Выводим значение метрики F1 на тестовой выборке
print("Значение метрики F1 на тестовой выборке для модели случайного леса:", round(f1, 2))

Значение метрики F1 на тестовой выборке для модели случайного леса: 0.75


<div class="alert alert-block alert-info">
<b>КОММЕНТАРИЙ СТУДЕНТА 1:</b><br>
    <b>Вывод:</b>
    
- Данные разбиты на обучающую и тестовую выборки с соотношением 80:20
- Лучшие параметры для модели логистической регрессии: {'lr__C': 1.0, 'lr__penalty': 'l2', 'tfidf__ngram_range': (1, 1)}
- F1-мера на кросс-валидации: 0.7     
- Лучшие параметры для модели метода опорных векторов: {'svm__C': 0.01, 'svm__kernel': 'linear', 'tfidf__ngram_range': (1, 1)}
- F1-мера на валидации для модели метода опорных векторов: 0.24
- Лучшие параметры для модели случайного леса: {'rf__max_depth': None, 'tfidf__max_features': 5000}
- Лучшее значение метрики F1 на кросс-валидации для модели случайного леса: 0.74
- Модель случайного леса имеет наилучшее качество с F1-мерой равной 0.74, тогда как логистическая регрессия и модель метода опорных векторов имеют F1-меру 0.7 и 0.24 соответственно
- Значение метрики F1 на тестовой выборке для модели случайного леса: 0.75
     
</div>

## Выводы

<div class="alert alert-block alert-info">
<b>КОММЕНТАРИЙ СТУДЕНТА 1:</b><br>
    <b>Общий вывод:</b>
    
- Подготовка:
            
    - Импортированы основные библиотеки
    - Загружены данные toxic_comments.csv
    - Вычислено процентное соотношение токсичных комментариев: 10.16% 
    - Определена функция preprocessor, которая применяется к полю 'text' для предобработки текста, включающей удаление знаков препинания и приведение к нижнему регистру
    - Выполнена лемматизация текстового столбца 'text'. Результат лемматизации сохраняется в новом столбце 'lemmatized_text'
        
- Обучение:
            
    - Данные разбиты на обучающую и тестовую выборки с соотношением 80:20
    - F1-мера для модели логистической регрессии: 0.77
    - Лучшие параметры для модели логистической регрессии: {'lr__C': 1.0, 'lr__penalty': 'l2', 'tfidf__ngram_range': (1, 1)}
    - F1-мера для модели метода опорных векторов: 0.34
    - Лучшие параметры для модели метода опорных векторов: {'svm__C': 0.01, 'svm__kernel': 'linear', 'tfidf__ngram_range': (1, 1)}
    - F1-мера для модели случайного леса: 0.99
    - Лучшие параметры для модели случайного леса: {'rf__max_depth': None, 'tfidf__max_features': 5000}
    - Модель случайного леса имеет наилучшее качество с F1-мерой равной 0.99, тогда как логистическая регрессия и модель метода опорных векторов имеют F1-меру 0.77 и 0.34 соответственно.
    - F1-мера для модели случайного леса на тестовой выборке: 0.76
     
</div>