<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Подготовка" data-toc-modified-id="Подготовка-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Подготовка</a></span></li><li><span><a href="#Обучение" data-toc-modified-id="Обучение-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Обучение</a></span><ul class="toc-item"><li><span><a href="#Логистическая-регрессия" data-toc-modified-id="Логистическая-регрессия-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Логистическая регрессия</a></span></li><li><span><a href="#Стохастический-градиентный-спуск" data-toc-modified-id="Стохастический-градиентный-спуск-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Стохастический градиентный спуск</a></span></li><li><span><a href="#Градиентный-бустинг" data-toc-modified-id="Градиентный-бустинг-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Градиентный бустинг</a></span></li></ul></li><li><span><a href="#Выводы" data-toc-modified-id="Выводы-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Выводы</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Проект для «Викишоп»

Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. 

Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.

Постройте модель со значением метрики качества *F1* не меньше 0.75. 

**Инструкция по выполнению проекта**

1. Загрузите и подготовьте данные.
2. Обучите разные модели. 
3. Сделайте выводы.

Для выполнения проекта применять *BERT* необязательно, но вы можете попробовать.

**Описание данных**

Данные находятся в файле `toxic_comments.csv`. Столбец *text* в нём содержит текст комментария, а *toxic* — целевой признак.

In [1]:
import pandas as pd
import numpy as np

import nltk
nltk.download('wordnet')
nltk.download('stopwords')

import re
import timeit

from nltk.corpus import stopwords as nltk_stopwords
from nltk.stem import WordNetLemmatizer

from sklearn.feature_extraction.text import TfidfVectorizer 
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression 
from sklearn.linear_model import SGDClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import make_scorer
from sklearn.metrics import f1_score
from lightgbm import LGBMClassifier

import warnings
warnings.filterwarnings('ignore')

[nltk_data] Downloading package wordnet to /Users/mikhail/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/mikhail/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


## Подготовка

In [2]:
try:
    data = pd.read_csv('/Users/mikhail/Desktop/praktikum/project_13/toxic_comments.csv')
    
except:
    data = pd.read_csv('/datasets/toxic_comments.csv')

In [3]:
data.sample(10, random_state=0)

Unnamed: 0,text,toxic
74251,"""\nI haven't paraphrased you at all, Gary. Yo...",0
131406,I BLOCKED REVERS! I BLOCKED REVERS! I BLOCKED ...,1
120969,I'm sorry. I'd like to unreservedly retract my...,1
121827,I don't know if this is exactly like the Press...,0
4771,"Thank you all, we'll all improve the Wikipedia...",0
79050,"I removed\nIf V is separable, it follows that ...",0
86098,Leave your emotions out of it. That is the exa...,0
55703,another thing this article needs is a descript...,0
113939,"""\nYou may take my word for it that it is. and...",0
19481,"20, 19 March 2010 (UTC)\nI do. This isn't a sc...",0


In [4]:
data.describe()

Unnamed: 0,toxic
count,159571.0
mean,0.101679
std,0.302226
min,0.0
25%,0.0
50%,0.0
75%,0.0
max,1.0


In [5]:
data['toxic'].value_counts()

0    143346
1     16225
Name: toxic, dtype: int64

In [6]:
corpus = data['text'].values.astype('U')

In [7]:
# запишем функцию для очистки текста 

def clean(text):    
    text = text.lower()    
    text = re.sub(r"(?:\n|\r)", " ", text)
    text = re.sub(r"[^a-zA-Z ]+", "", text).strip()
    return text

In [8]:
data['text'] = data['text'].apply(clean)

In [9]:
# запишем функцию для лемматизации текста 

def lemmatize(text):
    lemmatizer = WordNetLemmatizer()
    lem = [lemmatizer.lemmatize(w) for w in nltk.word_tokenize(text)]
    result = " ".join(lem)
    return result

In [10]:
data['lemma_text'] = data['text'].apply(lemmatize)

In [11]:
# проверим результат

data.sample(10, random_state=0)

Unnamed: 0,text,toxic,lemma_text
74251,i havent paraphrased you at all gary you comp...,0,i havent paraphrased you at all gary you compl...
131406,i blocked revers i blocked revers i blocked re...,1,i blocked revers i blocked revers i blocked re...
120969,im sorry id like to unreservedly retract my pr...,1,im sorry id like to unreservedly retract my pr...
121827,i dont know if this is exactly like the press ...,0,i dont know if this is exactly like the press ...
4771,thank you all well all improve the wikipedia i...,0,thank you all well all improve the wikipedia i...
79050,i removed if v is separable it follows that an...,0,i removed if v is separable it follows that an...
86098,leave your emotions out of it that is the exac...,0,leave your emotion out of it that is the exact...
55703,another thing this article needs is a descript...,0,another thing this article need is a descripti...
113939,you may take my word for it that it is andemu,0,you may take my word for it that it is andemu
19481,march utc i do this isnt a science encycloped...,0,march utc i do this isnt a science encyclopedi...


In [12]:
# обозначим фичи и таргеты
# разделим на обучающую и тестовую выборки

X = data['lemma_text']
y = data['toxic'] 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=1234)

In [13]:
display(X_train.shape)
display(y_train.shape)
display(X_test.shape)
display(y_test.shape)

(127656,)

(127656,)

(31915,)

(31915,)

In [14]:
# при помощи функции TfidfVectorizer создадим векторы величин из твитов для дальнейшего обучения

stopwords = set(nltk_stopwords.words('english'))
count_tf_idf = TfidfVectorizer(stop_words=stopwords)

In [15]:
# обучим только на тренировочной выборке

tf_idf = count_tf_idf.fit(X_train)
X_train = count_tf_idf.transform(X_train)
X_test = count_tf_idf.transform(X_test)

In [16]:
display(X_train.shape)
display(X_test.shape)

(127656, 182944)

(31915, 182944)

## Обучение

In [17]:
# запишем функции для обучения моделей и нахождения значения метрики F1

def fit(model):
    start_time = timeit.default_timer()
    model.fit(X_train, y_train)
    fit_time = timeit.default_timer() - start_time
    return fit_time

def score(model, target = y_test, features = X_test):
    start_time = timeit.default_timer()
    score = f1_score(target, model.predict(features))
    predict_time = timeit.default_timer() - start_time
    return score, predict_time

### Логистическая регрессия

In [18]:
# подберем параметры логистической регрессии

#lr_parameters = {'C': (8, 9, 10), 
#                 'fit_intercept': (True, False), 
#                 'solver': ('newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga')
#                }
#model = LogisticRegression(random_state=12345, class_weight='balanced')
#grid = GridSearchCV(model, lr_parameters, cv=3, scoring=make_scorer(f1_score))
#grid.fit(X_train, y_train)

#grid.best_params_

In [19]:
# обучим модель логистической регрессии с нашими параметрами и получим значение F1 на тестовой выборке

lr = LogisticRegression(class_weight='balanced', random_state=12345, C=8, fit_intercept=True, solver='newton-cg')
lr_fit_time = fit(lr)
print('Время обучения модели:', lr_fit_time)
Score, time  = score(lr)
print('Значение F1:', Score)
print('Время предсказания:', time)

Время обучения модели: 23.125245543000005
Значение F1: 0.7687600174850648
Время предсказания: 0.07919277199999897


### Стохастический градиентный спуск

In [20]:
# подберем параметры стохастического градиентного спуска

#sgdc_parameters = {"loss" : ["hinge", "log", "squared_hinge", "modified_huber"], 
#                   "alpha" : [0.0001, 0.001, 0.01, 0.1], 
#                   "penalty" : ["l2", "l1", "none"]
#                  }
#model = SGDClassifier()
#grid = GridSearchCV(model, sgdc_parameters, cv=3, scoring=make_scorer(f1_score))
#grid.fit(X_train, y_train)

#grid.best_params_

In [21]:
# обучим модель стохастического градиентного спуска с нашими параметрами и получим значение F1 на тестовой выборке

sgdc = SGDClassifier(alpha=0.0001, loss='hinge', max_iter=10, n_jobs=-1, penalty='none')
sgdc_fit_time = fit(sgdc)
print('Время обучения модели:', sgdc_fit_time)
Score, time  = score(sgdc)
print('Значение F1:', Score)
print('Время предсказания:', time)

Время обучения модели: 1.0492801959999838
Значение F1: 0.7707028531663187
Время предсказания: 0.04315898000004381


### Градиентный бустинг

In [22]:
# подберем параметры градиентного бустинга

#lgbmc_parameters = {'max_depth': [4,6,8], 'num_leaves': [20,30,40]}
#model = LGBMClassifier(random_state=12345)
#grid = GridSearchCV(model, lgbmc_parameters, cv=3, scoring=make_scorer(f1_score))
#grid.fit(X_train, y_train)

#grid.best_params_

In [23]:
# обучим модель градиентного бустинга с нашими параметрами и получим значение F1 на тестовой выборке

lgbmc = LGBMClassifier(objective ='binary', random_state=12345, n_estimators=150, num_leaves=130, max_depth=40)
lgbmc_fit_time = fit(lgbmc)
print('Время обучения модели:', lgbmc_fit_time)
Score, time  = score(lgbmc)
print('Значение F1:', Score)
print('Время предсказания:', time)

Время обучения модели: 333.40010837899996
Значение F1: 0.7595350526698148
Время предсказания: 6.37100271099996


## Выводы

- на вход получили корпус текстов
- была проведена лемматизация полученых текстов
- были выделены фичи и таргеты, в дальнейшем разбитые на обучающую и тестовые выборки
- при помощи функции TfidfVectorizer были созданы векторы величин из твитов
- были выбраны и обучены три модели классификации: логистическая регрессия, стохастический градиентный спуск и градиентный бустинг
- все три модели показали метрику F1 выше заданного значения в 0,75
- лучшая модель по всем параметрам (метрика F1, скорость обучения и скорость предсказания) - стохастический градиентный спуск с метрикой F1 = 0.7707028531663187