In [9]:
import pandas as pd
import razdel
import nltk
from nltk.corpus import stopwords
from razdel import tokenize as razdel_tokenize

In [10]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import MultinomialNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score
from sklearn.metrics.pairwise import cosine_distances, cosine_similarity

In [None]:
# Задание 1

In [11]:
data = pd.read_csv('labeled.csv')

In [12]:
data.toxic.value_counts(normalize=True)

toxic
0.0    0.66514
1.0    0.33486
Name: proportion, dtype: float64

In [13]:
train, test = train_test_split(data, stratify=data.toxic, test_size=0.1, shuffle=True)

In [14]:
train.reset_index(inplace=True)
test.reset_index(inplace=True)

In [None]:
# Векторизация с дефолтной токенизацией

In [30]:
vectorizer = TfidfVectorizer(min_df=10, max_df=0.3)
X = vectorizer.fit_transform(train.comment) 
X_test = vectorizer.transform(test.comment) 

In [31]:
y = train.toxic.values
y_test = test.toxic.values

In [32]:
clf = RandomForestClassifier(n_estimators=100, class_weight='balanced')

In [33]:
clf.fit(X, y)

In [35]:
clf.classes_

array([0., 1.])

In [36]:
preds = clf.predict(X_test)

In [37]:
print(classification_report(y_test, preds, zero_division=0))

              precision    recall  f1-score   support

         0.0       0.80      0.89      0.85      2847
         1.0       0.74      0.57      0.65      1477

    accuracy                           0.78      4324
   macro avg       0.77      0.73      0.75      4324
weighted avg       0.78      0.78      0.78      4324



In [38]:
# Векторизация с токенизацией razdel

In [40]:
from razdel import tokenize as razdel_tokenize

In [41]:
def razdel_tokenizer(text):
    tokens = list(razdel_tokenize(text))
    return ' '.join([token.text.lower() for token in tokens])

In [42]:
vectorizer = TfidfVectorizer(tokenizer=razdel_tokenizer, min_df=10, max_df=0.3)
X = vectorizer.fit_transform(train.comment) 
X_test = vectorizer.transform(test.comment) 
y = train.toxic.values
y_test = test.toxic.values

In [43]:
clf = RandomForestClassifier(n_estimators=100, class_weight='balanced')
clf.fit(X, y)
preds = clf.predict(X_test)

print(classification_report(y_test, preds, zero_division=0))

              precision    recall  f1-score   support

         0.0       0.81      0.52      0.63      2847
         1.0       0.45      0.76      0.57      1477

    accuracy                           0.60      4324
   macro avg       0.63      0.64      0.60      4324
weighted avg       0.69      0.60      0.61      4324



In [44]:
# Задание 2

In [55]:
import numpy as np

In [67]:
# COUNT_VEC и LogReg

stop = list(stopwords.words('russian'))

count_vec = CountVectorizer(lowercase=True, encoding='UTF-8', min_df=1, tokenizer=lambda text: [token.text for token in tokenize(text)], stop_words=stop)

X = count_vec.fit_transform(train.comment)
X_test = count_vec.transform(test.comment)

y = train.toxic.values
y_test = test.toxic.values



In [68]:
clf = LogisticRegression(C=0.5, class_weight='balanced', max_iter=100, penalty='l1', solver='saga')
clf.fit(X, y)
clf.classes_
preds = clf.predict(X_test)



In [69]:
print(classification_report(y_test, preds, zero_division=0))

              precision    recall  f1-score   support

         0.0       0.86      0.77      0.81      2847
         1.0       0.63      0.76      0.69      1477

    accuracy                           0.77      4324
   macro avg       0.75      0.76      0.75      4324
weighted avg       0.78      0.77      0.77      4324



In [70]:
percents_top10 = list(np.sort(clf.predict_proba(X_test)[:, 1])[::-1][:10])
indices_top10  = list(np.argsort(clf.predict_proba(X_test)[:, 1])[::-1][:10])
top10_sents = [count_vec.inverse_transform(X_test[i]) for i in indices_top10]
top10_sents

[[array(['(', ')', ',', '-', '.', '...', '?', 'po', 'азии', 'акт',
         'баранов', 'бляядь', 'большей', 'большинство', 'боятся', 'бросил',
         'бугуртят', 'будь', 'бутылку', 'быдло', 'важно', 'ваша', 'вашего',
         'видите', 'виноват', 'воистину', 'вокруг', 'воспитывают', 'всей',
         'вспомните', 'вся', 'всё', 'выжившего', 'выражаться', 'говна',
         'говорить', 'говоришь', 'гопник', 'гопника', 'гопота', 'горах',
         'города', 'городов', 'группу', 'давай', 'давали', 'даги', 'дагов',
         'даю', 'действительно', 'детей', 'дикарями', 'друг', 'друга',
         'другие', 'другим', 'друзья', 'думаете', 'думаешь', 'дырок',
         'ебал', 'ебали', 'еблом', 'ещё', 'живёт', 'жопу', 'залили',
         'замечать', 'заставили', 'захватить', 'защищая', 'знаешь',
         'знакомые', 'зуб', 'иди', 'идёт', 'избивают', 'изменилось',
         'империи', 'истории', 'историю', 'итоге', 'кавказ', 'кавказа',
         'кавказцев', 'какого', 'класс', 'классе', 'кодеров', 'кол

In [53]:
# TF-IDF_VEC и KNN
vectorizer = TfidfVectorizer(lowercase=True, encoding='UTF-8', min_df=1, tokenizer=lambda text: [token.text for token in tokenize(text)], stop_words=stop)

X = vectorizer.fit_transform(train.comment)
X_test = vectorizer.transform(test.comment)

y = train.toxic.values
y_test = test.toxic.values

X.shape, X_test.shape



((10088, 55043), (4324, 55043))

In [71]:
clf = KNeighborsClassifier(n_neighbors=10)

clf.fit(X, y)

preds = clf.predict(X_test)

In [50]:
print(classification_report(y_test, preds, zero_division=0))

              precision    recall  f1-score   support

         0.0       0.77      0.96      0.85      2847
         1.0       0.85      0.45      0.59      1477

    accuracy                           0.79      4324
   macro avg       0.81      0.71      0.72      4324
weighted avg       0.80      0.79      0.76      4324



In [72]:
percents_top10 = list(np.sort(clf.predict_proba(X_test)[:, 1])[::-1][:10])
indices_top10  = list(np.argsort(clf.predict_proba(X_test)[:, 1])[::-1][:10])
top10_sents = [count_vec.inverse_transform(X_test[i]) for i in indices_top10]
top10_sents

[[array(['!', ',', '.', '18', '?', 'авторитет', 'года', 'дело', 'держись',
         'конце', 'кроме', 'мужик', 'станет', 'хохлоботов', 'этих'],
        dtype='<U67')],
 [array([',', '.', '?', 'блядь', 'её', 'знают', 'отправить', 'парься',
         'психушку', 'шизофреник'], dtype='<U67')],
 [array([',', '.', 'евреи', 'знаем', 'отобрать', 'придумали', 'русских'],
        dtype='<U67')],
 [array([',', '.', 'абхазии', 'всё', 'выбили', 'выбить', 'говна', 'гум',
         'дерьма', 'драмнбаса', 'забил', 'иглу', 'макак', 'никаких',
         'получить', 'посадив', 'прибыль', 'проблема', 'профитов', 'путин',
         'расеянин', 'сирии', 'уплатит', 'хуй'], dtype='<U67')],
 [array([',', 'каким', 'куколды', 'печь', 'пиздец', 'плачет', 'полном',
         'просто', 'серьезе', 'сидят', 'сказки', 'слушают', 'чате', 'это',
         'этому'], dtype='<U67')],
 [array(['....', 'ждал', 'кто-то', 'ой', 'хохлов', 'хуйни'], dtype='<U67')],
 [array([',', '.', 'вашу', 'понимаю', 'речь', 'счастью'], dtype='<U67

In [73]:
# Задание 3

In [92]:
stop_words = list(stopwords.words('russian'))
stop_words

['и',
 'в',
 'во',
 'не',
 'что',
 'он',
 'на',
 'я',
 'с',
 'со',
 'как',
 'а',
 'то',
 'все',
 'она',
 'так',
 'его',
 'но',
 'да',
 'ты',
 'к',
 'у',
 'же',
 'вы',
 'за',
 'бы',
 'по',
 'только',
 'ее',
 'мне',
 'было',
 'вот',
 'от',
 'меня',
 'еще',
 'нет',
 'о',
 'из',
 'ему',
 'теперь',
 'когда',
 'даже',
 'ну',
 'вдруг',
 'ли',
 'если',
 'уже',
 'или',
 'ни',
 'быть',
 'был',
 'него',
 'до',
 'вас',
 'нибудь',
 'опять',
 'уж',
 'вам',
 'ведь',
 'там',
 'потом',
 'себя',
 'ничего',
 'ей',
 'может',
 'они',
 'тут',
 'где',
 'есть',
 'надо',
 'ней',
 'для',
 'мы',
 'тебя',
 'их',
 'чем',
 'была',
 'сам',
 'чтоб',
 'без',
 'будто',
 'чего',
 'раз',
 'тоже',
 'себе',
 'под',
 'будет',
 'ж',
 'тогда',
 'кто',
 'этот',
 'того',
 'потому',
 'этого',
 'какой',
 'совсем',
 'ним',
 'здесь',
 'этом',
 'один',
 'почти',
 'мой',
 'тем',
 'чтобы',
 'нее',
 'сейчас',
 'были',
 'куда',
 'зачем',
 'всех',
 'никогда',
 'можно',
 'при',
 'наконец',
 'два',
 'об',
 'другой',
 'хоть',
 'после',
 'на

In [94]:
vectorizer = TfidfVectorizer(stop_words=stop_words, max_features=9000, min_df=3, max_df=0.07)
X = vectorizer.fit_transform(train.comment) 
X_test = vectorizer.transform(test.comment)
y = train.toxic.values
y_test = test.toxic.values

In [80]:
# LogisticRegression

In [81]:
lr = LogisticRegression(C=0.1, class_weight='balanced')
lr.fit(X, y)
preds = lr.predict(X_test)

print(classification_report(y_test, preds))

              precision    recall  f1-score   support

         0.0       0.88      0.86      0.87      2847
         1.0       0.75      0.78      0.76      1477

    accuracy                           0.83      4324
   macro avg       0.81      0.82      0.82      4324
weighted avg       0.84      0.83      0.83      4324



In [82]:
feature_names = vectorizer.get_feature_names_out()

coef = lr.coef_[0]

feature_importance = dict(zip(feature_names, coef))

top_toxic_words = sorted(feature_importance.items(), key=lambda x: x[1], reverse=True)
top_toxic_words = [(word, coef) for word, coef in top_toxic_words][:10]
top_toxic_words

[('тебе', 1.401223353403698),
 ('хохлы', 1.3522763030728544),
 ('хохлов', 1.346924136944774),
 ('нахуй', 1.0203327638376465),
 ('пиздец', 0.9841256547065218),
 ('хуй', 0.8880385198275667),
 ('блядь', 0.8855707259045223),
 ('блять', 0.8416125551199733),
 ('тред', 0.8279622981949827),
 ('сука', 0.7972458700368875)]

In [83]:
# DecisionTreeClassifier

In [84]:
dtc = DecisionTreeClassifier(max_depth=1200, class_weight='balanced')
dtc.fit(X, y)
preds = dtc.predict(X_test)

print(classification_report(y_test, preds))

              precision    recall  f1-score   support

         0.0       0.83      0.76      0.79      2847
         1.0       0.60      0.69      0.64      1477

    accuracy                           0.74      4324
   macro avg       0.71      0.72      0.72      4324
weighted avg       0.75      0.74      0.74      4324



In [85]:
feature_names = vectorizer.get_feature_names_out()

feature_importance = dtc.feature_importances_

top_toxic_words_dtc = [(feature_names[idx], importance) for idx, importance in enumerate(feature_importance)]
top_toxic_words_dtc = sorted(top_toxic_words, key=lambda x: x[1], reverse=True)[:10]
top_toxic_words_dtc

[('тебе', 1.401223353403698),
 ('хохлы', 1.3522763030728544),
 ('хохлов', 1.346924136944774),
 ('нахуй', 1.0203327638376465),
 ('пиздец', 0.9841256547065218),
 ('хуй', 0.8880385198275667),
 ('блядь', 0.8855707259045223),
 ('блять', 0.8416125551199733),
 ('тред', 0.8279622981949827),
 ('сука', 0.7972458700368875)]

In [86]:
# MultinomialNB

In [87]:
nb = MultinomialNB(alpha=1, fit_prior=False)
nb.fit(X, y)
preds = nb.predict(X_test)

print(classification_report(y_test, preds))

              precision    recall  f1-score   support

         0.0       0.87      0.90      0.89      2847
         1.0       0.80      0.74      0.77      1477

    accuracy                           0.85      4324
   macro avg       0.83      0.82      0.83      4324
weighted avg       0.84      0.85      0.85      4324



In [88]:
feature_names = vectorizer.get_feature_names_out()

log_probs = nb.feature_log_prob_

class_1_log_probs = log_probs[1] 
word_probs = list(zip(class_1_log_probs, feature_names))  
top_toxic_words_nb = sorted(word_probs, reverse=True)[:10] 
top_toxic_words_nb

[(-6.014525313370823, 'просто'),
 (-6.059139361118227, 'тебе'),
 (-6.310675391696311, 'хохлы'),
 (-6.320719813838121, 'хохлов'),
 (-6.510448668137349, 'ещё'),
 (-6.526854354514809, 'нахуй'),
 (-6.540902732625231, 'почему'),
 (-6.603896385467091, 'хуй'),
 (-6.6146986072874006, 'пиздец'),
 (-6.669191315470519, 'вообще')]

In [89]:
# RandomForestClassifier

In [90]:
rf = RandomForestClassifier(n_estimators=100, class_weight='balanced', max_depth=20)
rf.fit(X, y)

preds = rf.predict(X_test)

print(classification_report(y_test, preds, zero_division=0))

              precision    recall  f1-score   support

         0.0       0.88      0.63      0.73      2847
         1.0       0.54      0.84      0.66      1477

    accuracy                           0.70      4324
   macro avg       0.71      0.73      0.70      4324
weighted avg       0.77      0.70      0.71      4324



In [91]:
feature_names = vectorizer.get_feature_names_out()

importances = rf.feature_importances_ 

top_indices = importances.argsort()[::-1][:5]

top_toxic_words_rf = [(feature_names[idx], importances[idx]) for idx in top_indices]
top_toxic_words_rf

[('очень', 0.0228499138120917),
 ('хохлов', 0.019677561260564764),
 ('года', 0.019586775546079557),
 ('хохлы', 0.016771813770288517),
 ('например', 0.01568223587134489)]