**ФИО:** `Соломенцев А.С.`

# Домашняя работа № 1

**Цель:** обучить бинарный классификатор для поиска токсичного контента (твитов).

In [8]:
import numpy as np
import pandas as pd

from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import *

In [90]:
df = pd.read_csv('data/train_data.csv')
df['toxic'] = df.toxic.astype(int)
df.sample(10)

Unnamed: 0,comment,toxic
7778,ВОЖДЬ Я УБЬЮ ТЕБЯ СУКА\n,1
3342,Дык малолетний долбоёб поди и правда дебил как...,1
4119,этого пидора в Химках видал недавно на гик-кон...,1
5076,"Демонетизация Это уже все давно поняли, что вы...",0
9264,Ну арендовать же конечно выгодней)\n,0
9042,"Не бит не крашен, только летняя эксплуатация!\n",0
4830,"Не тот пост, не тот коммент. Чувак, ты обдолба...",1
10793,"Я был довольно болезненным, меня температура п...",0
2129,"Кузьма куколд с больной уретрой, диабетом и ег...",1
2573,"А в итоге соснут хохлы. Уж не знаю как, но это...",1


In [92]:
X_train, X_test, y_train, y_test = train_test_split(df.comment, df.toxic, test_size=0.2, stratify=df.toxic)

In [107]:
X_train.index

Int64Index([ 7302,  4293,  8209,  2074,  7974,  5644,  1087,  7498,  2561,
             4653,
            ...
             7609,  9254,   347, 10172,  2780,  3467,  7888,  9949,  7625,
             4601],
           dtype='int64', length=8647)

In [111]:
df_train = pd.DataFrame(data=np.array([X_train, y_train]), index=['comment', 'toxic'], columns=X_train.index).T
df_test = pd.DataFrame(data= np.array([X_test, y_test]), index= ['comment', 'toxic'], columns= X_test.index).T

In [98]:
#  Baseline 4 - BoW для слов

vec = CountVectorizer(ngram_range=(1,1))
bow = vec.fit_transform(X_train)

In [99]:
list(vec.vocabulary_.items())[:10]

[('меня', 20159),
 ('такая', 42072),
 ('кружка', 17895),
 ('процессе', 34309),
 ('мытья', 21402),
 ('развалилась', 35083),
 ('руках', 36954),
 ('на', 21463),
 ('100500', 28),
 ('мелких', 20083)]

In [100]:
clf = LogisticRegression(random_state=42, max_iter=1000)
clf.fit(bow, y_train)
y_pred = clf.predict(vec.transform(X_test))
acc = accuracy_score(y_true=y_test, y_pred=y_pred)
print(classification_report(y_true=y_test, y_pred=y_pred))

              precision    recall  f1-score   support

           0       0.85      0.93      0.89      1440
           1       0.82      0.68      0.75       722

    accuracy                           0.85      2162
   macro avg       0.84      0.80      0.82      2162
weighted avg       0.84      0.85      0.84      2162



__________________________

## baseline 2: preprocessing + bow -> 5

In [47]:
from sklearn.feature_extraction.text import TfidfVectorizer
import re
from pymorphy2 import MorphAnalyzer
from functools import lru_cache
from nltk.corpus import stopwords

In [48]:
m = MorphAnalyzer()
regex = re.compile('[А-Яа-яA-z]+')

def words_only(text, regex=regex):
    try:
        return regex.findall(text.lower())
    except:
        return []

In [53]:
@lru_cache(128)
def lemmatize_word(token, pymorphy=m):
    return pymorphy.parse(token)[0].normal_form

def lemmatize_text(text):
    return [lemmatize_word(w) for w in text]

mystopwords = stopwords.words('russian')
def remove_stopwords(lemmas, stopwords= mystopwords):
    return [w for w in lemmas if not w in stopwords and len(w) >= 3]

def clean_text(text):
    tokens = words_only(text)
    lemmas = lemmatize_text(tokens)
    
    return ' '.join(remove_stopwords(lemmas))

In [113]:
from tqdm import tqdm

X_train_lem = list(tqdm(map(clean_text, X_train), total=len(X_train)))

df_train['lemmas'] = X_train_lem

df_train.sample()

100%|██████████████████████████████████████| 8647/8647 [00:32<00:00, 269.89it/s]


Unnamed: 0,comment,toxic,lemmas
1521,"В любой семье не без урода, но тогда хотя бы б...",0,любой семья урод хотя бороться это кичиться со...


In [114]:
X_test_lem = list(tqdm(map(clean_text, X_test), total=len(X_test)))

df_test['lemmas'] = X_test_lem

df_test.sample()

100%|██████████████████████████████████████| 2162/2162 [00:08<00:00, 268.85it/s]


Unnamed: 0,comment,toxic,lemmas
2388,"Я не знаю как это правильно сформулировать, но...",0,знать это правильно сформулировать женщина соц...


In [119]:
vec = CountVectorizer(ngram_range=(1,2))
bow = vec.fit_transform(X_train_lem)

clf = LogisticRegression(random_state=42, max_iter=500)
clf.fit(bow, y_train)
y_pred = clf.predict(vec.transform(X_test_lem))
acc = accuracy_score(y_test, y_pred)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.85      0.95      0.90      1440
           1       0.87      0.66      0.75       722

    accuracy                           0.86      2162
   macro avg       0.86      0.81      0.83      2162
weighted avg       0.86      0.86      0.85      2162



## baseline 3: preproc + fasttext -> 6

In [120]:
import fasttext

In [126]:
with open('train.txt', 'w') as f:
    for comment, toxic in zip(X_train_lem, y_train):
        f.write(f'__label__{toxic} {comment.lower()}\n')

In [127]:
with open('test.txt', 'w') as f:
    for comment, toxic in zip(X_test_lem, y_test):
        f.write(f'__label__{toxic} {comment.lower()}\n')

In [128]:
classifier = fasttext.train_supervised('train.txt')
result = classifier.test('test.txt')
print(result)

(2162, 0.8672525439407955, 0.8672525439407955)


Read 0M words
Number of words:  25090
Number of labels: 2
Progress: 100.0% words/sec/thread: 2494828 lr: -0.000002 avg.loss:  0.262966 ETA:   0h 0m 0sProgress: 100.0% words/sec/thread: 2488954 lr:  0.000000 avg.loss:  0.262966 ETA:   0h 0m 0s


In [135]:
pred = classifier.predict(X_test_lem)
new_pred = [int(line[0][-1]) for line in pred[0]]
acc = accuracy_score(y_test, new_pred)
print(acc)
print(classification_report(y_test, new_pred))

0.8672525439407955
              precision    recall  f1-score   support

           0       0.87      0.93      0.90      1440
           1       0.85      0.73      0.79       722

    accuracy                           0.87      2162
   macro avg       0.86      0.83      0.85      2162
weighted avg       0.87      0.87      0.86      2162



In [139]:
df_train.iloc[:20]

Unnamed: 0,comment,toxic,lemmas
7302,У меня такая кружка в процессе мытья развалила...,0,кружка процесс мытьё развалиться рука мелкий о...
4293,"отличная планировка, мастер бедрум и три спаль...",0,отличный планировка мастер бедрум спальня
8209,А вот это вы ерунду говорите. Простому работяг...,0,это ерунда говорить простой работяга сладко см...
2074,Прибыль банка уменьшиться не за счёт начислены...,0,прибыль банк уменьшиться начислёный процент де...
7974,"Все верно, но уровень гринда тут все равно нес...",0,всё верно уровень гринд всё равно несравнимый ...
5644,а в Москве где не подскажете?)\n,0,москва подсказать
1087,"Вкину свою хуиту, буду рад критике и подписчик...",1,вкинуть свой хуит рад критика подписчик
7498,"И флаг погранцовский висит, не настоящий погра...",1,флаг погранцовский висеть настоящий погранец д...
2561,Бля...что за название Тапок? Кто-нибудь может ...,1,бля название тапка нибыть мочь объяснить
4653,"бядь, я когда после отдыха на горах, возвращаю...",0,бесть отдых гора возвращаться город становитьс...


In [142]:
df_train.loc[7498].comment

'И флаг погранцовский висит, не настоящий погранец давно бы уже чего-нибудь придумал.\n'

In [None]:
from transformers import BertTokenizer, BertForSequenceClassification

# load tokenizer and model weights
tokenizer = BertTokenizer.from_pretrained('SkolkovoInstitute/russian_toxicity_classifier')
model = BertForSequenceClassification.from_pretrained('SkolkovoInstitute/russian_toxicity_classifier')

# prepare the input
batch = tokenizer.encode('ты супер', return_tensors='pt')

# inference
model(batch)