# Домашнее задание № 2. Мешок слов

In [1]:
import pandas as pd
import razdel
import nltk
from nltk.corpus import stopwords
from razdel import tokenize as razdel_tokenize

In [2]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import MultinomialNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score
from sklearn.metrics.pairwise import cosine_distances, cosine_similarity

In [3]:
data = pd.read_csv('labeled.csv')

## Задание 1 (3 балла)

У векторайзеров в sklearn есть встроенная токенизация на регулярных выражениях. Найдите способо заменить её на кастомную токенизацию

Обучите векторайзер с дефолтной токенизацией и с токенизацией razdel.tokenize. Обучите классификатор (любой) с каждым из векторизаторов. Сравните метрики и выберете победителя. 

(в вашей тетрадке должен быть код обучения и все метрики; если вы сдаете в .py файлах то сохраните полученные метрики в отдельном файле или в комментариях)

In [4]:
data.toxic.value_counts(normalize=True)

toxic
0.0    0.66514
1.0    0.33486
Name: proportion, dtype: float64

In [5]:
train, test = train_test_split(data, stratify=data.toxic, test_size=0.1, shuffle=True)

In [6]:
train.reset_index(inplace=True)
test.reset_index(inplace=True)

### Векторизация с дефолтной токенизацией

In [20]:
vectorizer = TfidfVectorizer(min_df=10, max_df=0.3)
X = vectorizer.fit_transform(train.comment) 
X_test = vectorizer.transform(test.comment) 

In [21]:
y = train.toxic.values
y_test = test.toxic.values

In [22]:
clf = RandomForestClassifier(n_estimators=100, class_weight='balanced')

In [23]:
clf.fit(X, y)

In [24]:
clf.classes_

array([0., 1.])

In [25]:
preds = clf.predict(X_test)

In [26]:
print(classification_report(y_test, preds, zero_division=0))

              precision    recall  f1-score   support

         0.0       0.80      0.91      0.85       959
         1.0       0.75      0.55      0.64       483

    accuracy                           0.79      1442
   macro avg       0.78      0.73      0.74      1442
weighted avg       0.78      0.79      0.78      1442



### Векторизация с токенизацией razdel

Вариант 1: применяем razdel_tokenizer напрямую в качестве аргумента в TfidfVectorizer.
Токенизация происходит внутри TfidfVectorizer на этапе преобразования текста в векторы.

In [11]:
from razdel import tokenize as razdel_tokenize

In [12]:
def razdel_tokenizer(text):
    tokens = list(razdel_tokenize(text))
    return ' '.join([token.text.lower() for token in tokens])

In [13]:
vectorizer = TfidfVectorizer(tokenizer=razdel_tokenizer, min_df=10, max_df=0.3)
X = vectorizer.fit_transform(train.comment) 
X_test = vectorizer.transform(test.comment) 
y = train.toxic.values
y_test = test.toxic.values



In [14]:
clf = RandomForestClassifier(n_estimators=100, class_weight='balanced')
clf.fit(X, y)
preds = clf.predict(X_test)

print(classification_report(y_test, preds, zero_division=0))

              precision    recall  f1-score   support

         0.0       0.82      0.50      0.62       959
         1.0       0.44      0.78      0.56       483

    accuracy                           0.59      1442
   macro avg       0.63      0.64      0.59      1442
weighted avg       0.69      0.59      0.60      1442



Вариант 2. Создаем новые столбцы "tokens" в тренировочном и тестовом наборах данных, содержащие кастомный токенизированный текст.
Преобразует уже токенизированный с razdel текст из столбцов tokens в векторы с помощью TfidfVectorizer.
При этом векторайзер видимо сам дополнительно токенизирует уже токенизированный текст своими механизмами.

In [15]:
# Токенизация с razdel (создание новых столбцов в обучающей и тестовой выборках, содержащих токенизированные с razdel тексты)
train['tokens'] = train['comment'].apply(razdel_tokenizer)
test['tokens'] = test['comment'].apply(razdel_tokenizer)

In [16]:
vectorizer = TfidfVectorizer(min_df=10, max_df=0.3)
X = vectorizer.fit_transform(train['tokens']) 
X_test = vectorizer.transform(test['tokens'])
y = train['toxic'].values
y_test = test['toxic'].values

In [17]:
clf = RandomForestClassifier(n_estimators=100, class_weight='balanced')
clf.fit(X, y)
preds = clf.predict(X_test)
print(classification_report(y_test, preds, zero_division=0))

              precision    recall  f1-score   support

         0.0       0.82      0.89      0.85       959
         1.0       0.74      0.61      0.67       483

    accuracy                           0.80      1442
   macro avg       0.78      0.75      0.76      1442
weighted avg       0.79      0.80      0.79      1442



### Оценка
Если задавать свой токенизатор на этапе обучения векторизатора как параметр, то качество модели сильно ухудшается.
Если токенизировать текст своим токенизатором перед подачей векторизатору и при этом явно не задавать параметр "tokenizer", то результат получается другой: модель справилась лучше, чем при первом варианте кастомной токенизации, и примерно также, как с дефолтной токенизацией, по всем основным метриками для обоих классов.

## Задание 2 (3 балла)

Обучите 2 любых разных классификатора из семинара. Предскажите токсичность для текстов из тестовой выборки (используйте одну и ту же выборку для обоих классификаторов) и найдите 10 самых токсичных для каждого из классификаторов. Сравните получаемые тексты - какие тексты совпадают, какие отличаются, правда ли тексты токсичные?

Требования к моделям:   
а) один классификатор должен использовать CountVectorizer, другой TfidfVectorizer  
б) у векторазера должны быть вручную заданы как минимум 5 параметров (можно ставить разные параметры tfidfvectorizer и countvectorizer)  
в) у классификатора должно быть задано вручную как минимум 2 параметра (по возможности)  
г)  f1 мера каждого из классификаторов должна быть минимум 0.75  

*random_seed не считается за параметр

### 1. CountVectorizer + MultinomialNB

In [72]:
!pip install gensim

Collecting gensim
  Using cached gensim-4.3.2-cp311-cp311-macosx_10_9_x86_64.whl (24.1 MB)
Installing collected packages: gensim
Successfully installed gensim-4.3.2

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip available: [0m[31;49m22.3.1[0m[39;49m -> [0m[32;49m23.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [27]:
from gensim.utils import tokenize

In [10]:
data = pd.read_csv('labeled.csv')
train, test = train_test_split(data, test_size=0.1, shuffle=True)
train.reset_index(inplace=True)
test.reset_index(inplace=True)

In [30]:
def gensim_tokenizer(text):
    return list(tokenize(text, lowercase=True))

In [33]:
count_vectorizer = CountVectorizer(tokenizer=gensim_tokenizer, min_df=4, max_df=0.8, max_features=5000, ngram_range=(1,2))
X = count_vectorizer.fit_transform(train.comment)
X_test = count_vectorizer.transform(test.comment) 
y = train.toxic.values
y_test = test.toxic.values



In [34]:
clf = MultinomialNB(alpha=1, fit_prior=False)
clf.fit(X, y)
preds = clf.predict(X_test)

print(classification_report(y_test, preds))

              precision    recall  f1-score   support

         0.0       0.88      0.87      0.87       937
         1.0       0.76      0.77      0.76       505

    accuracy                           0.83      1442
   macro avg       0.82      0.82      0.82      1442
weighted avg       0.83      0.83      0.83      1442



In [35]:
# Вероятности принадлежности к классу 1 (токсичные)
probs = clf.predict_proba(X_test)[:, 1]

# Создаем DataFrame с предсказаниями и вероятностями
predictions_df = pd.DataFrame({
    'text': test['comment'],  # Тексты из тестовой выборки
    'toxicity_prediction': preds,  # Предсказания
    'toxicity_probability': probs  # Вероятности
})

# Находим 10 самых токсичных текстов
top_10_toxic = predictions_df.sort_values(by='toxicity_probability', ascending=False).head(10)

In [36]:
pd.set_option('display.max_colwidth', None)
top_10_toxic

Unnamed: 0,text,toxicity_prediction,toxicity_probability
941,"Конечно, это резонансное событие требует отдельного треда для обсуждения и 19 тредов до этого шло обсуждение. Тред назывался нейтрально Рассстрел мусульман в новозеландской мечети . Но сегодня ОП, по совместительству борец за Арийскую Раssy и мамкин фашик назвал его в честь стрелка KEBAB REMOVER(англ. уничтожитель чурок ) и с утра пораньше решил в ОП-посте(заголовке треда) обозначить тред, как героизирующий(в первом треде) и оправдывающий(в третьем треде) терракт этого стрелка. Пик стронгли релейтед. 20 тред. В третьей строке заголовка ОП восхваляет и героизирует террориста, цитирую заголовок: KEBAB REMOVER тред 20 Продолжаем пиздеть тут. Слава Герою! Я репортил тред в форме репорта и в прикрепе в d , реакции никакой. Видимо, школомодеры сами симпатизируют нацизму и закрывают на это глаза. 21 тред. После того, как я пригрозил ему репортом, в этот раз мамкин фашик, убирает строку про героя и зачем-то вместо неё ставит нацистское приветствие дивизии СС Галичина. KEBAB REMOVER тред 21 Продолжаем пиздеть тут. Слава Украiнi! 22 тред. В этот раз тот же остроумный ОП поставил на третью строчку PRESS R TO PAY RESPECT!(англ. Нажмите R, чтобы выразить уважение!) т.е. уважение стрелку за то, что он совершил терракт. Еще он выделил жирным шрифтом предложение Именно эту мечеть он выбрал потому, что на её месте раньше находилась церковь. , будто то бы для оправдания стрелка. KEBAB REMOVER тред 22 Продолжаем пиздеть тут. PRESS R TO PAY RESPECT! Эти действия подпадают под конкретные статьи УК РФ, (публичное оправдание терроризма или пропаганда терроризма), а модерация никак не трёт такие заголовки треда, не реагирует на репорты. Да, я понимаю, что на Дваче возможна любая точка зрения, но хотя бы шапка треда должна быть нейтральной и уж точно не должна оправдывать и героизировать терроризм фашизм и не нарушать законодательство. Такое название треда автоматически собирает в нём нацистскую падаль и сворачивает обсуждение в сторону фашистской идеологии.\n",1.0,1.0
483,"Нет, пожалуй, отвечу развернутее. Представь, что тебя ограбили. Ты идешь в частную полицию, выкладываешь бабки на стол, говоришь о случившемся. Полицаи по мере своих сил расследуют инцидент. Они дают тебе список потенциальных преступников, вероятнее всего, из одного человека. Ты приходишь к человеку, говоришь, так и так, чувак, я тебя подозреваю, хочу судиться. Если он тоже хочет судиться, то он идет с тобой в выбранный вами обоими суд. Если не хочет, то ты обращаешься в суд со своей доказательной базой, он приходит к человеку и обращается с подобной фразой: вы, гражданин такой-то такой-то, обвиняетесь по тому-то тому-то. Пройдите с нами в зал суда для разбирательств, или мы, согласно статье такой-то такой-то действующего законодательства имеем право вас наказать. Если человек соглашается, то вы судитесь. Если он виновен, то ему назначается наказание и он оплачивает издержки суда, если нет, то ты оплачиваешь издержки суда и идешь искать преступника дальше силами частной полиции. Звучит пиздец как плохо, да? Ну так вот, РЫНОЧЕК ПОРЕШАЕТ так, чтобы все работало куда эффективнее. Вместо хождения по частным полицейским бюро ты, скорее всего, возьмешь у одного или нескольких из них страховку на случай примененных в твою сторону правонарушений. Для них профит в том, что они будут стабильно получать от тебя бабки, для тебя - в том, что ты можешь спать спокойно. Сами частные полицаи уже заключают контракты с судами, чтобы избежать анальной ебли с твоим хождением туда-сюда, взамен они сами ходят по предполагаемым преступникам и предлагают им пройти судиться. На самом рынке останутся наиболее эффективные суды и полицаи, потому что неэффективным никто не захочет заносить бабки. Остается вопрос: в чем тебе профит ходить в суд, если ты в жизни и мухи не обидел, кроме избежания наказания, которого ты и не заслуживаешь? И даже это порешает рыночек, потому что, очевидно, суды, которые компенсируют или даже поощряют тебя за то, чтобы ты к ним ходил, даже если ты невиновен, будут выглядеть более привлекательно. Надеюсь, на вопрос я ответил. К слову, продажные суды не будут популярны как раз из-за своей продажности, потому что выгоду от этого получает только искодатель, и то только тогда, когда дает иск ни за что. А государство из судов не вырастет как раз потому, что сами суды не будут обладать оружием, им будут обладать полицаи. Ну и конкуренция, опять же. Апелляции подавать в высшие суды, которые будут работать по тем же принципам.\n",1.0,1.0
210,"Что ты несешь? ты поехавший? Ты понимаешь чем к примеру физичиеские законы отличаются от теорий разной степени охуительности ? Закон гравитации работет на всей планете Земля независимо от твоих манятеорий. Пространство блядь- трехмерно. А ты утверждаешь что оно может быть , 5,6 и прочее мерным, но доказать и продемонстрировать мы не можем по этому представим... Ты ты тупой верун Есть невидимый мужик , доказать и подтвердить мы не можем но давайте поверим... Иди нахуй. Ты настолько туп что не понимаешь даже что время- это иллюзия.\n",1.0,1.0
976,"Ебать, кто смотрит сыромятникова?? Где еще можно найти настолько отталкивающий тембр голоса и манеру говорить?? Блять а полезный контент в стиле - сейчас я покажу как играть на гитаре с автотюном - который уже давно был у западников? А его охуенные видео как сделать песдатый звук, где звук выхожит полным мутным говном, потому что он напрямую в дешевую звуковую карту играет? А его бородка ебаная?? Что это блять? А блять когда он палится с подложенной аудиодорожкой когда играет на камеру, причём блять настолько нелепо, что даже видео заметно замедляет, чтобы попадало в звук, а потом говорит, что так оно все и задумано? А его блять гиперкривляния и гримасы во время игры?? Что это за пиздец? Видно же, что специально старается показать ДУШУ , которой у него на самом деле нет!! Блять у меня такой испанский стыд со всей этой хуйни ебаный в рот! Теперь еще у него будет ебанутая истеричка-жена, которая его уже загнала под неебический каблук, и будет его уничтожать окончательно. Бляя она тоже хороша. Поет мягко говоря, МЯГКО ГОВОРЯ не всегда хорошо(об этом еще Зилков мягко намекал, в его способностях никто не сомневается), зато при любом удобном случае говорит о том, что у нее неебичское ололо образование, охуенный опыт в педагогический, в ответ на сомнения в ее способностях певческих она сделала попытку страйка по авторским правам, ЗАСТАВИВ ЕЩЕ ДВУХ МУЖИКОВ ТОЖЕ ЕЕ СДЕЛАТЬ , а когда закономерно соснула, устроила истерический стрим, где стуча руками по столу на полном серьезе человека сравнивала с БАНЫМ ГИТЛЕРОМ БЛЯТЬ , который миллионами уничтожал людей ирл, а не в ютубе, затем приправив все охуительной порцией слез и соплей под омежные кукареки своего муженька? Блять это что за фантасмагория нахуй? Is this the real life?\n",1.0,1.0
57,"Несправедливый раздел Русские себе почти всё забрали АХАХАХ ТУПАЯ РУСНЯ МЫ ОБЪЯВЛЯЕМ НЕЗАВИСИМОСТЬ, А ЗА ДОЛГИ И ОБЯЗАТЕЛЬСТВА БУДЕТЕ ОТВЕЧАТЬ САМИ ЛАДНО, ТОГДА МЫ ЗАБИРАЕМ И ПРАВА ПО ЭТИМ ОБЯЗАТЕЛЬСТВАМ. АХАХА ТУПАЯ РУСНЯ БЕР Т ДОЛГИ, А МЫ БУДЕМ СВОБОДНЫМИ И ЧИСТЫМИ РУСНЯ НАС ОБОБРАЛА! РУСНЯ ВС ЗАБРАЛА! Какие же нацмены дегенераты, пиздец просто. Лживый урод, все ядерное оружие из республик свезли в квазигосударство рф .И почему такие границы, зачем к рф пристегнули столько нерусских земель? Вывезли всё ядерное оружие Что такое Беловежский Договор и зачем Украина отказалась от ядерного оружия Это так теперь называется принудительное изъятие ядерного арсенала? Настолько принудительное, что на Незалежной получали деньги от США за распил самолётов Белый Лебедь с записью на камеру. Нацмен, ты прежде чем срать, попробовал хотя бы изучить историю.\n",1.0,1.0
1050,"Да Евген просто шлюшка без мнения - то блядь пиндосы ему плохие КОКОКО НА КРОВИ ВТОРОЙ МИРОВОЙ ПОДНЯЛИСЬ (намекая на поставки оружия совкам за бабки, только если бы не муриканское вооружение - сосали бы мы все сейчас длинный болт товарища фюрера) То блядь совки ему плохие - сплошная гебня и гулаги, то сука СОВКИ ХОРОШИЕ КОКОКО - НЕПРАВДА НЕ ВСЯ СТРАНА ГУЛАГ. СУКА АЖ ТРЯСЕТ. А споледний обзор - это вообще КРУЖКА - ЛУКЪЯНЕНКО КОКОКО ВЕЛИЧАЙШИЙ ФАНТАСТ СОВРЕМЕННОСТИ Я ЕЩЕ В 2005 НА НЕГО ДРОЧИЛ ПОКА ЭТО НЕ БЫЛО МЭЙНСТРИМОМ КАК ВАМ НЕ СТЫДНО ЗЛОСТНЫЕ КИНОДЕЛЫ ОБСИРАТЬ И ПОГАНИТЬ ТВОРЧЕСТВО ЭТОГО ВЕЛИКОГО ЧЕЛОВЕКА О ЛУКЪЯНЕНКО КОКОКО КОКОКО ДАЙТЕ Я ЕМУ ОТСОСУ и сука тутже через 15 минут АЙ АЙ АЙ АВТОР САМ ОДОБРИЛ ВСЕ ОТКЛОНЕНИЯ ОТ СУЖЕТА КНИГИ КАК НИХОРОШО АЙ АЙ АЙ - но даже тут побоялся сказать прямо - Лукъяненко продался - нет он увиливает и юлит как змея, ак червь, как червь ПИДОР. БЭДКОМЕДИАН - хуже червя ПИДОРА\n",1.0,1.0
265,"В Киеве на вокзале Мен було рок в 19, коли мене перший раз мав в зад хлопець рок в п д 30. Я тод перш рази став заходити на вокзал Ки в-Пасажирський в туалети - де були каб ни з д рками написи на ст нах. Так як досв ду ще не було н якого, то як знайомиться не уявляв. Сам перший природно не п дходив. А видивлявся на написи. дрочив св й член стоячи в каб нц . Хлопець був у сус дн й каб нц , в н побачив це, хитнув мен головою, запрошуючи п ти з ним. А так як н кого б льше в той момент не було, а був уже веч р, над на щось нше не було -все ж п шов за ним. У мене вже тод з явилася молофья - я вже спускав. Так як трохи ран ше ще не було, при дрочц робив це до при много стану - коли просто ставало дуже добре - але з хуя н чого не вид лялося. А до цього мен вже к лька раз в смоктали член хлопц мужики, я спускав м в рот, знав як це при мно. Ми прийшли б ля вокзалу кудись в кущ . В н розстебнув мен мотню, д став м й член став дрочити. А в той час нав ть це - коли хтось чужий рукою просто всього лише дрочив мен - було все одно дуже при мно. забирало. Бо коли тоб дрочать чужою рукою в дитинств - це вже щось: в д цього балд ш дуже. В н, ймов рно, здогадуючись, що перед ним зовс м новачок не намагався нав ть мен св й дати в руку: Так в н мене зав в , а пот м попросив повернутися: Я запитав нав що, справд не розум ючи нав що - а в н сказав треба так. я як теля повернувся п дкоряючись команд дорослого. В н приспустив мен штани, труси приставив до дерева у якого ми стояли, трохи нагнувши мене. А сам встав ззаду. По звуках я зрозум в, що в н розст ба соб свою мотню д ста св й член. В н притулився до мо поп сво м хуем, в д чого я здригнувся, але в н взяв мене за м й член знову став дрочити. А ншою рукою водити по стегнах з внутр шньо сторони. П д ймаючись в д кол н до поп - це посилювало кайф в д дрочк , я мл в, в н це теж в дчував, вже спок йно став тертися сво м хуем мен по поп . Пот м в н перестав дрочити мен , я почув як в н послинив св й член мою д рочку приставив мен св й член, в дсунув мене в д дерева трохи, пригнув мене почав засовували член в мене. Я стояв нагнувшись, упершись руками в дерево, н живий, н мертвий - перший раз в житт хлопець в мене засовував св й хуй! Я боявся - як все буде, що буде з мною, як це. Мен пощастило, звичайно, для першого разу, що у нього був маленький тонкий хуй. Тому н яких проблем у нього з всуванням його хуя в мою св жу попку не було. Оск льки мен не було боляче або непри мно я стояв не с паючись. Чекаючи як що буде дал :. В н засунув св й член весь в мене. т льки коли в н встромив його до к нця - було в дчуття що в н у щось уперся. Але не боляче зовс м. треба сказати чесно, що було при мно в дчувати, коли яйця його доторкнулися до мо попки, до д рочки, коли весь член був уже всередин не .. Це при мне в дчуття, коли умоглядно уявля ш що в тебе чийсь член засунуть: Це було мабуть нав ть при мн ше н ж все нше - в дчувати його яйця б ля очка. Коли весь член вже там. коли в н пот м став й бати мене, я намагався щоб част ше яйця його впиралися в попу мен , нав ть нод насаджувався сам глибше на його член, до упору. Але показувати що мен щось при мно тод здавалося ще не зручним - б льший час я просто стояв обхопивши дерево руками, а в н вставляв член в мене. Хоча особливого кайфу я ще тод не в дчував - було в дчуття - що просто в мене встромляв хлопець св й член ходив там. Так в н мав мене, продовжуючи одночасно весь цей час одн ю рукою дрочить мен - п дтримуючи в мен бажання: - ось в д цього мен було при мно. Природно. Це був його розрахунок. Я досить швидко в д дрочк чужою рукою спустив, в дразу з скочив з його члена. Але в дчув що у мене щось липкою ззаду на стегнах: Що щось тече по стегнах з очка. ось це мене засмутило сильно. вбило - я здогадався зрозум в що в н спустив в мене. Запитав, - Ти що ск нчив у мене? в н сказав - так. запитав мене - а ти що перший раз це робив? я мало не плачучи в д образи сказав - що так, перший раз: поставив йому дурне питання - нав що ти в мене спустив? Я не припускав цього, думав що в н просто посует ться в мене св й хуй все, а тут мен стало не по соб : було огидно, - особливо п сля того як сам пустив, - що на мен чужа гидота , як тод сприймав чужу малофю . Та тим б льше на сво му т л . Але справа була зроблена: хлопця 19 рок в видрали в дупу! спустили сперму йому в очко! В струнку, пружну, н жну попочку з н жною д рочкою, засунувши в не перший раз член! У перший момент було огидно в д того що щось липке, спочатку тепле, ст кало по стегнах, а пот м застигло так: (а так як не готувався до цього, то витерти було н чим:) Тод було прикро, не за те що ви бав, а що не попередивши, спустив в мене. Так як тод сперма сприймалася як щось мерзенне, тим б льше на соб . Пот м згадував про це вже з та мним насолодою, нав ть бажанням, щоб це повторилося: я поб г швидко з цього м сця, скор ше в д нього, а липка р дина на стегнах весь час нагадувала, що мене т льки що ви бли в жопу. Слава Укра н !",1.0,1.0
203,"лахтадырые и ольгинцы (Лахта, Ольгино) это которые провластные комменты пишут, мол у пендосов еще хуже, в европе пидоры. В рунете дохуя еще киберсотенцев - это хохляцкие ципсо, у них несколько этих самых ципсо, 72-е и 74-е в основном на дваче. Пишут по-русски, как правило от лица русских, создают вбросы, фейкньюс и так далее. Пишут какие же хохлы молодцы, их уже в европу взяли, нам надо им Крым отдать вместе с Кубанью и покаяться. Им американцы еще денежкой помогают, они работают в их интересах и сходят за русских. Хотя часто палятся, пишут через дефис, буква е вместо э , и т.д. Ну есть еще редакторы соцсетей из ФБК - это самые дно, тупые малолетние студентики мечтающие о борьбе против системы, они, как првило, даже забесплатно работают, волонтеры, короче. Пишут как в рашке хуево жить, банду путина долой, и т.д. Их называют окатышами.\n",1.0,1.0
70,"нету. В тех же США большинство негров-мужчин были судимы. Пидораха, ты определись, у тебя речь о мигрантах или таких же коренных полноправных гражданах-неграх? ты еслибыкаешь да баттхертишь оп принёс пруфы скриншот газеты уровня СПИД-инфо хач-вампир выебал ЗЭКА Я же не svin ja чтобы копаться в желтушном мусоре и тащить всё сюда в тред. Вон есть всякие паблики новости русского мира , наслаждайся пруфами там.\n",1.0,1.0
36,"ДА КАКОГО ЕБАНОГО ХУЯ МНЕ ТЕПЕРЬ ЮТУБ РЕКОМЕНДУЕТ ЕБУЧЕГО ШЕВЦОВА НАХУЙ СУКА БЛЯДЬ? Я КЛЯНУСЬ ЖОПОЙ БЛЯДЬ, Я НА ТРУБУ ЗАХОЖУ ТОЛЬКО САУНДТРЕКИ ИЗ ФИЛЬМ И ИГОР ПОСЛУШАТЬ. ЧТОБ ВАШЕГО АЙТИПЕДИЮ РАСКАЛЕННЫМИ КОЧЕРГАМИ В ЖОПУ ШПИОН ОТ ГУГОЛА ЕБАЛ, БЛЯДЬ. ЭТО ЖЕ ВСЕ ИЗ-ЗА ТОГО, ЧТО Я НА ХРЮ ЗАШЕЛ ПО НАВОДКЕ АБУ, ДА? МЕЙЛААААААААААААААААААААААААААААААЧ\n",1.0,1.0


Почему-то toxicity_probability для некоторых текстов здесь 100 процентная, выглядит подозрительно. Я не поняла, с чем связана такая высокая степень уверенности модели

### 2. TfidfVectorizer + LogisticRegression

In [4]:
data = pd.read_csv('labeled.csv')
train, test = train_test_split(data, test_size=0.1, shuffle=True)
train.reset_index(inplace=True)
test.reset_index(inplace=True)

In [5]:
stop_words_russian = stopwords.words('russian')

In [6]:
tfidfvectorizer = TfidfVectorizer(max_features=9000, min_df=4, max_df=0.5, ngram_range=(1, 2), stop_words=stop_words_russian)
X = tfidfvectorizer.fit_transform(train.comment)
X_test = tfidfvectorizer.transform(test.comment)

y = train.toxic.values
y_test = test.toxic.values

In [7]:
clf = LogisticRegression(C=0.7, class_weight='balanced', max_iter=2000, multi_class="ovr")
clf.fit(X, y)

preds = clf.predict(X_test)

print(classification_report(y_test, preds, zero_division=0))

              precision    recall  f1-score   support

         0.0       0.90      0.87      0.88       962
         1.0       0.75      0.80      0.78       480

    accuracy                           0.85      1442
   macro avg       0.83      0.84      0.83      1442
weighted avg       0.85      0.85      0.85      1442



In [8]:
probs = clf.predict_proba(X_test)[:, 1]
predictions_df = pd.DataFrame({
    'text': test['comment'],  
    'toxicity_prediction': preds,
    'toxicity_probability': probs
})
top_10_toxic = predictions_df.sort_values(by='toxicity_probability', ascending=False).head(10)

In [9]:
pd.set_option('display.max_colwidth', None)
top_10_toxic

Unnamed: 0,text,toxicity_prediction,toxicity_probability
839,"Нахуй иди чмо ебаное, рот твой ебал. Говна поешь, быдло\n",1.0,0.994479
1214,"блядь, заткнись ты . я уже взлетаю нахуй.\n",1.0,0.984635
186,"Вы вот смеетесь, а что будет, когда у нас эти смешные хохлы закончатся?\n",1.0,0.983661
1401,соси как хохлы сосут хохол\n,1.0,0.978343
669,"У-ух, ненавижу, блядь, хохлов.\n",1.0,0.978301
1048,Замуж тебе надо барыня...\n,1.0,0.975246
1315,"Но Трамп и в правда дегенерат. Жаль, что этот клоун победил и мы теперь живем в пиздеце. Блять, если бы Клинтон сейчас была у власти, то в мире не было бы такого трэша. В рот ебал промыток с альт-райтом головного мозга, вы же нихуя своей головой думать не можете, животные, мемов про сжв насмотрелись теперь строите из себя дохуя консерваторов.\n",1.0,0.971841
780,потому что хохлы - пидорашки\n,1.0,0.971239
1050,"Блять, маргиналошизики, чего вас так тянет сюда? Пиздуйте в свой тред и там создавайте борду с ue b er marginal\n",1.0,0.961476
659,Нахуй ты высрался тогда тут? МНЕ НИНРАВИЦА ЯСКОЗАЛ ХРЯ\n,1.0,0.96143


### Оценка
И там, и там комментарии токсичные, но не совпадают из-за разных векторайзеров в первую очередь, наверное. У CountVectorizer – токсичные лонгриды про политику, у Tfidf – короткие аграссивные высказывания.

## Задание 3 (4 балла - 1 балл за каждый классификатор)

Для классификаторов Logistic Regression, Decision Trees, Naive Bayes, RandomForest найдите способ извлечь важность признаков для предсказания токсичного класса. Сопоставьте полученные числа со словами (или нграммами) в словаре и найдите топ - 5 "токсичных" слов для каждого из классификаторов. 

Важное требование: в топе не должно быть стоп-слов. Для этого вам нужно будет правильным образом настроить векторизацию. 
Также как и в предыдущем задании у классификаторов должно быть задано вручную как минимум 2 параметра (по возможности, f1 мера каждого из классификаторов должна быть минимум 0.75

##### Стоп-слова

In [7]:
stop_words = list(stopwords.words('russian'))
# почему-то эти слова появлялись в топе токсичности у нескольких моделей, поэтому добавила их тоже в список стоп-слов
additional_stop_words = stop_words + ["это", "тебе", "почему", "очень", "просто", "например", "стоит", "ещё", "года", "знаю", "время", "всё", "лет", "вообще"]
additional_stop_words

['и',
 'в',
 'во',
 'не',
 'что',
 'он',
 'на',
 'я',
 'с',
 'со',
 'как',
 'а',
 'то',
 'все',
 'она',
 'так',
 'его',
 'но',
 'да',
 'ты',
 'к',
 'у',
 'же',
 'вы',
 'за',
 'бы',
 'по',
 'только',
 'ее',
 'мне',
 'было',
 'вот',
 'от',
 'меня',
 'еще',
 'нет',
 'о',
 'из',
 'ему',
 'теперь',
 'когда',
 'даже',
 'ну',
 'вдруг',
 'ли',
 'если',
 'уже',
 'или',
 'ни',
 'быть',
 'был',
 'него',
 'до',
 'вас',
 'нибудь',
 'опять',
 'уж',
 'вам',
 'ведь',
 'там',
 'потом',
 'себя',
 'ничего',
 'ей',
 'может',
 'они',
 'тут',
 'где',
 'есть',
 'надо',
 'ней',
 'для',
 'мы',
 'тебя',
 'их',
 'чем',
 'была',
 'сам',
 'чтоб',
 'без',
 'будто',
 'чего',
 'раз',
 'тоже',
 'себе',
 'под',
 'будет',
 'ж',
 'тогда',
 'кто',
 'этот',
 'того',
 'потому',
 'этого',
 'какой',
 'совсем',
 'ним',
 'здесь',
 'этом',
 'один',
 'почти',
 'мой',
 'тем',
 'чтобы',
 'нее',
 'сейчас',
 'были',
 'куда',
 'зачем',
 'всех',
 'никогда',
 'можно',
 'при',
 'наконец',
 'два',
 'об',
 'другой',
 'хоть',
 'после',
 'на

In [8]:
vectorizer = TfidfVectorizer(stop_words=additional_stop_words, max_features=9000, min_df=3, max_df=0.07)
X = vectorizer.fit_transform(train.comment) 
X_test = vectorizer.transform(test.comment)
y = train.toxic.values
y_test = test.toxic.values

### LogisticRegression

In [144]:
lr = LogisticRegression(C=0.1, class_weight='balanced')
lr.fit(X, y)
preds = lr.predict(X_test)

print(classification_report(y_test, preds))

              precision    recall  f1-score   support

         0.0       0.90      0.89      0.89       952
         1.0       0.78      0.80      0.79       490

    accuracy                           0.86      1442
   macro avg       0.84      0.84      0.84      1442
weighted avg       0.86      0.86      0.86      1442



In [176]:
# Получение слов из векторизатора
feature_names = vectorizer.get_feature_names_out()

# Получение коэффициентов признаков из обученной модели
coef = lr.coef_[0]

# Сопоставление слов и их важности
feature_importance = dict(zip(feature_names, coef))

# Получение топа наиболее важных токсичных слов
top_toxic_words = sorted(feature_importance.items(), key=lambda x: x[1], reverse=True)
top_toxic_words = [(word, coef) for word, coef in top_toxic_words][:10]
top_toxic_words

[('хохлы', 1.6098924657473772),
 ('хохлов', 1.4739131403732524),
 ('нахуй', 1.2322095208399824),
 ('блять', 1.1448430196455224),
 ('блядь', 1.067223912226172),
 ('пиздец', 1.0594777556942567),
 ('хуй', 0.9896100748796677),
 ('сука', 0.9717789569005622),
 ('лол', 0.9317705943435961),
 ('дебил', 0.9138525707614747)]

### DecisionTreeClassifier

In [177]:
dtc = DecisionTreeClassifier(max_depth=1200, class_weight='balanced')
dtc.fit(X, y)
preds = dtc.predict(X_test)

print(classification_report(y_test, preds))

              precision    recall  f1-score   support

         0.0       0.85      0.77      0.81       952
         1.0       0.62      0.73      0.67       490

    accuracy                           0.76      1442
   macro avg       0.73      0.75      0.74      1442
weighted avg       0.77      0.76      0.76      1442



In [174]:
# Получение слов из векторайзера
feature_names = vectorizer.get_feature_names_out()

# Получение важности слов из классификатора
feature_importance = dtc.feature_importances_

# Сопоставление слов и их значимости, затем отбор топа наиболее важных токсичных слов
top_toxic_words_dtc = [(feature_names[idx], importance) for idx, importance in enumerate(feature_importance)]
top_toxic_words_dtc = sorted(top_toxic_words, key=lambda x: x[1], reverse=True)[:10]
top_toxic_words_dtc

[('хохлы', 1.6098924657473772),
 ('хохлов', 1.4739131403732524),
 ('нахуй', 1.2322095208399824),
 ('блять', 1.1448430196455224),
 ('блядь', 1.067223912226172),
 ('пиздец', 1.0594777556942567),
 ('хуй', 0.9896100748796677),
 ('сука', 0.9717789569005622),
 ('лол', 0.9317705943435961),
 ('дебил', 0.9138525707614747)]

### MultinomialNB

In [9]:
nb = MultinomialNB(alpha=1, fit_prior=False)
nb.fit(X, y)
preds = nb.predict(X_test)

print(classification_report(y_test, preds))

              precision    recall  f1-score   support

         0.0       0.87      0.89      0.88       959
         1.0       0.78      0.74      0.76       483

    accuracy                           0.84      1442
   macro avg       0.83      0.82      0.82      1442
weighted avg       0.84      0.84      0.84      1442



In [10]:
# Получение слов из векторизатора
feature_names = vectorizer.get_feature_names_out()

# Получение логарифма вероятности слова для каждого класса из модели
log_probs = nb.feature_log_prob_

# Нахождение топа токсичных слов для класса 1 (токсичные комментарии)
class_1_log_probs = log_probs[1]  # Выбор логарифмов вероятностей для класса 1
word_probs = list(zip(class_1_log_probs, feature_names))  # Сопоставление логарифмов вероятностей и слов
top_toxic_words_nb = sorted(word_probs, reverse=True)[:10]  # Получение топ слов с наибольшими логарифмами вероятностей
top_toxic_words_nb

[(-6.090361257073701, 'хохлы'),
 (-6.277617279223223, 'хохлов'),
 (-6.2779892595985345, 'нахуй'),
 (-6.545303981054182, 'блять'),
 (-6.548194340983322, 'пиздец'),
 (-6.555814690165637, 'блядь'),
 (-6.556869541119329, 'хуй'),
 (-6.592087323495406, 'тред'),
 (-6.706077945007733, 'сука'),
 (-6.813682963053642, 'лол')]

### RandomForestClassifier

In [11]:
rf = RandomForestClassifier(n_estimators=100, class_weight='balanced', max_depth=20)
rf.fit(X, y)

preds = rf.predict(X_test)

print(classification_report(y_test, preds, zero_division=0))

              precision    recall  f1-score   support

         0.0       0.87      0.64      0.74       959
         1.0       0.53      0.81      0.64       483

    accuracy                           0.70      1442
   macro avg       0.70      0.73      0.69      1442
weighted avg       0.76      0.70      0.71      1442



In [15]:
# Получение слов из векторизатора
feature_names = vectorizer.get_feature_names_out()

# Получение значений важности признаков из классификатора
importances = rf.feature_importances_ 

# я так поняла, в RandomForest нельзя получить значимость слов для отдельных классов, только в целом
# Сортировка индексов признаков по важности и выбор топа самых важных
top_indices = importances.argsort()[::-1][:5]

# Создание списка из топа важных слов
top_toxic_words_rf = [(feature_names[idx], importances[idx]) for idx in top_indices]
top_toxic_words_rf


[('хохлов', 0.02008077289313733),
 ('хохлы', 0.019607595071454577),
 ('нахуй', 0.017667217041182882),
 ('тред', 0.016225391255067802),
 ('блядь', 0.014238066756471204)]