## Подготовка данных

In [1]:
import pandas as pd

import numpy as np

import nltk
from nltk.corpus import wordnet
from nltk.stem import WordNetLemmatizer
from nltk.tag import pos_tag
from nltk.tokenize import word_tokenize

import re

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC
from sklearn.metrics import f1_score
from sklearn.dummy import DummyClassifier
from sklearn.tree import DecisionTreeClassifier

from tqdm import tqdm

In [2]:
# Вводим константу.
RANDOM_STATE = 123

In [4]:
data.info()
data.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159292 entries, 0 to 159291
Data columns (total 3 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   Unnamed: 0  159292 non-null  int64 
 1   text        159292 non-null  object
 2   toxic       159292 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 3.6+ MB


Unnamed: 0.1,Unnamed: 0,text,toxic
0,0,Explanation\nWhy the edits made under my usern...,0
1,1,D'aww! He matches this background colour I'm s...,0
2,2,"Hey man, I'm really not trying to edit war. It...",0
3,3,"""\nMore\nI can't make any real suggestions on ...",0
4,4,"You, sir, are my hero. Any chance you remember...",0


In [5]:
# Создаём корпус текстов
corpus = data['text'].values

In [6]:
nltk.download('averaged_perceptron_tagger')
nltk.download('punkt')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/jovyan/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package punkt to /home/jovyan/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [7]:
# Функция предобработки текстов.
# Каждый текст переводится в нижний регистр,
# затем очищается, на выходе получается текст,
# состоящий только из английских букв.
def clear_text(text):
    text = text.lower()
    text = re.sub(r'[^a-z]', ' ', text)
    text = text.split()
    text = ' '.join(text)
    return(text)

# Функция, возвращающая POS-тэг, то есть
# часть речи для слова
def get_wordnet_pos(word):
    tag = pos_tag([word])[0][1][0].upper()
    tag_dict = {"J": wordnet.ADJ,
                "N": wordnet.NOUN,
                "V": wordnet.VERB,
                "R": wordnet.ADV}
    return tag_dict.get(tag, wordnet.NOUN)

In [8]:
# Инициализируем лемматизатор
lemmatizer = WordNetLemmatizer()

# Список, в котором будут храниться лемматизерованные тексты
lemm_text = []

In [9]:
# Очищаем каждый текст в корпусе, а затем лемматизируем
for i in tqdm(range(len(corpus))):
    sentence = clear_text(corpus[i])
    sentence = [lemmatizer.lemmatize(w, get_wordnet_pos(w)) for w in word_tokenize(sentence)]
    lemm_text.append(" ".join(sentence))
data['lemm_text'] = lemm_text

100%|██████████| 159292/159292 [17:47<00:00, 149.21it/s]


In [10]:
data.head()

Unnamed: 0.1,Unnamed: 0,text,toxic,lemm_text
0,0,Explanation\nWhy the edits made under my usern...,0,explanation why the edits make under my userna...
1,1,D'aww! He matches this background colour I'm s...,0,d aww he match this background colour i m seem...
2,2,"Hey man, I'm really not trying to edit war. It...",0,hey man i m really not try to edit war it s ju...
3,3,"""\nMore\nI can't make any real suggestions on ...",0,more i can t make any real suggestion on impro...
4,4,"You, sir, are my hero. Any chance you remember...",0,you sir be my hero any chance you remember wha...


In [11]:
# Разделяем выборки на обучающую, валидационную и тестовую
corpus_train, corpus_valid, \
target_train, target_valid = train_test_split(data['lemm_text'], data['toxic'], \
                                              train_size=.6, \
                                              random_state=RANDOM_STATE, \
                                              stratify=data['toxic'])
corpus_valid, corpus_test, \
target_valid, target_test = train_test_split(corpus_valid, target_valid, \
                                             train_size=.5, \
                                             random_state=RANDOM_STATE, \
                                             stratify=target_valid)

In [12]:
# Вычислим TF-IDF для корпусов текстов с учётом стоп слов
stopwords = nltk.corpus.stopwords.words('english')
count_tf_idf = TfidfVectorizer(stop_words=stopwords)
tf_idf_train = count_tf_idf.fit_transform(corpus_train)
tf_idf_valid = count_tf_idf.transform(corpus_valid)
tf_idf_test = count_tf_idf.transform(corpus_test)

**Вывод:** Тексты очищены. Корпусы текстов для обучения, валидации и теста подготовлены. Вычислена велечина TF-IDF.

## Обучение моделей

Обучим модель логистической регрессии, затем модель опорных векторов.

In [13]:
%%time
f1_best = 0
penalty_type = ['l2', 'l1']
for c in tqdm(np.arange(8, 10, 0.5)):
    for pen in penalty_type:
        if pen == 'l1':
            solver = 'liblinear'
        else:
            solver = 'lbfgs'
        model = LogisticRegression(penalty=pen, C=c, max_iter=1000, solver=solver)
        model.fit(tf_idf_train, target_train)
        pred = model.predict(tf_idf_valid)
        score = f1_score(target_valid, pred)
        if score > f1_best:
            f1_best = score
            model_lr = model
            best_penalty = pen
            best_c = c
            solv = solver
print(f'''
f1-мера у логистической регрессии равна {f1_best} при гиперпарамметрах
penalty = {best_penalty},
C = {best_c},
solver = {solv}
''')

100%|██████████| 4/4 [06:36<00:00, 99.10s/it] 


f1-мера у логистической регрессии равна 0.7717785061238571 при гиперпарамметрах
penalty = l2,
C = 9.0,
solver = lbfgs

CPU times: user 2min 51s, sys: 3min 44s, total: 6min 35s
Wall time: 6min 36s





In [14]:
modlel_lscv = LinearSVC()
modlel_lscv.fit(tf_idf_train, target_train)
pred = modlel_lscv.predict(tf_idf_valid)
print('f1-мера на валидационной выборке у модели опорных =', f1_score(target_valid, pred))

f1-мера на валидационной выборке у модели опорных = 0.7761502671032224


**Вывод:** f1-мера выше у модели опорных векторов. На данной модели проведём финальное тестирование.

## Выводы

In [15]:
test_pred = modlel_lscv.predict(tf_idf_test)
print('f1-мера на тестовой выборке у модели опорных =', f1_score(target_test, test_pred))

f1-мера на тестовой выборке у модели опорных = 0.7690443213296398


Проверим модель на адекватность.

In [16]:
dummy = DummyClassifier(strategy='constant', constant=1)
dummy.fit(tf_idf_test, target_test)
dummy_pred = dummy.predict(tf_idf_test)
print('f1-мера на валидационной выборке у случайной модели =', f1_score(target_test, dummy_pred))

f1-мера на валидационной выборке у случайной модели = 0.18446546614998857


**Вывод:** f1-мера модели опорных векторов на тестовых данных в несколько раз выше модели, у которых все предикты "токсичные".

## Общий вывод

**Подготовка**  
Данные загружены, сформирован корпус текстов. После очистки тексты включают в себя только буквы английского алфавита. Данные разделены на обучающие, валидационные, тестовые.  
**Обучение**  
Обучены модель логистической регрессии, а также модель опорных векторов. Вычислена f1-мера. Модель опорных векторов выбрана для финального тестирования, так как у неё лучшая метрика качества.  
**Выводы**  
Проведено финальное тестирование модели опорных векторов, f1-мера выше 0.75. Модель адекватная, если отмечать каждый текст как токсичный, то метрика качества будет ниже примерно в 4 раза.