# Домашнее задание № 2. Мешок слов

## Задание 1 (3 балла)

У векторайзеров в sklearn есть встроенная токенизация на регулярных выражениях. Найдите способо заменить её на кастомную токенизацию

Обучите векторайзер с дефолтной токенизацией и с токенизацией razdel.tokenize. Обучите классификатор с каждым из векторизаторов. Сравните метрики и выберете победителя. 

(в вашей тетрадке должен быть код обучения и все метрики; если вы сдаете в .py файлах то сохраните полученные метрики в отдельном файле или в комментариях)

In [1]:
import pandas as pd

In [2]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import MultinomialNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score
from sklearn.metrics.pairwise import cosine_distances, cosine_similarity

from IPython.display import Image
from IPython.core.display import HTML 
from sklearn.decomposition import TruncatedSVD
from tqdm.auto import tqdm
from razdel import tokenize

In [3]:
data = pd.read_csv('labeled.csv')

In [4]:
data.head()

Unnamed: 0,comment,toxic
0,"Верблюдов-то за что? Дебилы, бл...\n",1.0
1,"Хохлы, это отдушина затюканого россиянина, мол...",1.0
2,Собаке - собачья смерть\n,1.0
3,"Страницу обнови, дебил. Это тоже не оскорблени...",1.0
4,"тебя не убедил 6-страничный пдф в том, что Скр...",1.0


In [5]:
data['toxic'].value_counts()

0.0    9586
1.0    4826
Name: toxic, dtype: int64

In [6]:
train, test = train_test_split(data, test_size=0.1, shuffle=True)

In [7]:
train.reset_index(inplace=True)
test.reset_index(inplace=True)

In [8]:
y = train.toxic.values
y_test = test.toxic.values

# Дефолтная токенизация

In [9]:
vectorizer = CountVectorizer() 

In [10]:
X = vectorizer.fit_transform(train.comment)
X_test = vectorizer.transform(test.comment) 

In [11]:
X.shape

(12970, 63531)

In [12]:
X_test.shape

(1442, 63531)

In [13]:
clf = DecisionTreeClassifier(max_depth=8, class_weight='balanced')
clf.fit(X, y)
preds = clf.predict(X_test)

print(classification_report(y_test, preds))

              precision    recall  f1-score   support

         0.0       0.82      0.59      0.69       971
         1.0       0.47      0.74      0.57       471

    accuracy                           0.64      1442
   macro avg       0.64      0.66      0.63      1442
weighted avg       0.71      0.64      0.65      1442



# Razdel токенизация

In [14]:
def razdel_tokenize(text):
    tokens = list(tokenize(text))
    tokens = [token.text for token in tokens]
    return tokens

In [15]:
razdel_verctorizer = CountVectorizer(tokenizer = razdel_tokenize)

In [16]:
X_razdel = razdel_verctorizer.fit_transform(train.comment)
X_razdel_test = razdel_verctorizer.transform(test.comment) 

In [17]:
X_razdel.shape

(12970, 64425)

In [18]:
X_razdel_test.shape

(1442, 64425)

In [19]:
clf_razdel = DecisionTreeClassifier(max_depth=8, class_weight='balanced')
clf_razdel.fit(X_razdel, y)
preds_razdel = clf_razdel.predict(X_razdel_test)

print(classification_report(y_test, preds_razdel))

              precision    recall  f1-score   support

         0.0       0.80      0.68      0.73       971
         1.0       0.49      0.65      0.56       471

    accuracy                           0.67      1442
   macro avg       0.64      0.66      0.65      1442
weighted avg       0.70      0.67      0.68      1442



Результаты получились примерно одинаковые. Однако иногда модель с токенизацией razdel дает немного лучшие результаты.

## Задание 2 (3 балла)

Преобразуйте таблицу с абсолютными частотностями в семинарской тетрадке в таблицу с tfidf значениями. (Таблица - https://i.ibb.co/r5Nc2HC/abs-bow.jpg) Формула tfidf есть в семинаре на картнике с пояснениями на английском. 
Считать нужно в питоне. Формат итоговой таблицы может быть любым, главное, чтобы был код и можно было воспроизвести вычисления. 

In [20]:
Image(url="https://i.ibb.co/r5Nc2HC/abs-bow.jpg",
     width=600, height=600)

In [21]:
import sklearn as sk
import math 

In [22]:
text = ['я и ты', 'ты и я', 'я, я и только я', 'только не я', 'он']

In [23]:
voc = ['я', 'ты', 'и', 'только', 'не', 'он']

In [24]:
def count_tf(term, sent): # count tf (TF = Number of times term t appears in a document) / (Total number of terms in the document)
    tf = []
    tf = sent.count(term) / len(sent.split())
    return tf

In [25]:
def count_idf(term, text): #count IDF (IDF = log_e(Total number of documents / Number of documents with term t in it) )
        df = 0
        idf = []
        for d in text:
            if term in d:
                df += 1
                idf = math.log(len(text) / df) 
        return idf

In [26]:
def count_tfidf(term, sent, text): #tfidf = tf * idf
    tfidf = []
    tfidf = count_tf(term, sent) * count_idf(term, text)
    return tfidf

In [27]:
table_tfidf = pd.DataFrame()

In [28]:
for s in voc:
    x = []
    for d in text:
        x.append(count_tfidf(s, d, text))
    table_tfidf[s] = x
    
table_tfidf.index = text
print(table_tfidf)

                        я       ты         и    только        не        он
я и ты           0.074381  0.30543  0.170275  0.000000  0.000000  0.000000
ты и я           0.074381  0.30543  0.170275  0.000000  0.000000  0.000000
я, я и только я  0.133886  0.00000  0.102165  0.183258  0.000000  0.000000
только не я      0.074381  0.00000  0.000000  0.305430  0.536479  0.000000
он               0.000000  0.00000  0.000000  0.000000  0.000000  1.609438


## Задание 3 (2 балла)

Обучите 2 любых разных классификатора из семинара. Предскажите токсичность для текстов из тестовой выборки (используйте одну и ту же выборку для обоих классификаторов) и найдите 10 самых токсичных для каждого из классификаторов. Сравните получаемые тексты - какие тексты совпадают, какие отличаются, правда ли тексты токсичные?

Требования к классификаторам:   
а) один должен использовать CountVectorizer, другой TfidfVectorizer  
б) у векторазера должны быть вручную заданы как минимум 5 параметров  
в) у классификатора должно быть задано вручную как минимум 2 параметра  
г)  f1 мера каждого из классификаторов должна быть минимум 0.75  

In [29]:
import nltk
from nltk.corpus import stopwords
from pprint import pprint

In [30]:
data = pd.read_csv('labeled.csv')
data.comment = data.comment
data.head()

Unnamed: 0,comment,toxic
0,"Верблюдов-то за что? Дебилы, бл...\n",1.0
1,"Хохлы, это отдушина затюканого россиянина, мол...",1.0
2,Собаке - собачья смерть\n,1.0
3,"Страницу обнови, дебил. Это тоже не оскорблени...",1.0
4,"тебя не убедил 6-страничный пдф в том, что Скр...",1.0


# CountVectorizer & LogisticRegression

In [31]:
vect_count = CountVectorizer(ngram_range=(1,2), 
                             max_df=0.5, 
                             min_df=2,
                             stop_words=None, 
                             max_features=4000)
X_train, X_test, y_train, y_test = train_test_split(data.comment, data.toxic, test_size=0.1, shuffle=True)
X_train = vect_count.fit_transform(X_train)
X_test = vect_count.transform(X_test)

In [32]:
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((12970, 4000), (1442, 4000), (12970,), (1442,))

In [33]:
clf_lr = LogisticRegression(C=1, class_weight='balanced', max_iter=1000)
clf_lr.fit(X_train, y_train)

preds = clf_lr.predict(X_test)
print(classification_report(y_test, preds))


              precision    recall  f1-score   support

         0.0       0.91      0.81      0.86       993
         1.0       0.66      0.83      0.74       449

    accuracy                           0.82      1442
   macro avg       0.79      0.82      0.80      1442
weighted avg       0.83      0.82      0.82      1442



In [34]:
with open('labeled.csv', encoding='utf-8') as f:
    texts = f.readlines()[0:3000]

In [35]:
def analyze_dvach(vectorizer, model, texts):

    X = vectorizer.transform(texts)

    preds = model.predict(X)
    pred_probs = model.predict_proba(X)

    top10_toxic = pred_probs[:,1].argsort()[::-1][:10]
    top10_toxic_probs = pred_probs[top10_toxic, 1]
    return top10_toxic, top10_toxic_probs

In [36]:
top10_lr_count, probs = analyze_dvach(vect_count, clf_lr, texts)

In [37]:
for _id, prob in zip(top10_lr_count, probs):
    print(prob)
    print(texts[_id])
    print('*****')

1.0
"Стас, никому, кроме тебя и армии твоих подсосов(которые представляют собой типичный дегенеративный биомусор, ведущийся на любые скандалы-интриги), твои ролики нахуй не нужны. Серьёзно, ты сделал новости с целью показать, что такое говно может делать любой, а аудитория осталась на том же уровне, ведь людям извне ты не интересен. Да ещё и просит не подписываться, чтобы такую-то годноту ложкой хлебать подольше. Ты обосрался, стал посмешищем для абсолютно всех ютуберов, которые не являются полными ебланами. Тот же Хованский не ссыт тебе на ебало только потому, что ты вертишься с ним в одной компании, иногда даже лично пересекаетесь. Приятно было слышать, как он говорил, что отстреливался бы от таких, как ты, из огнестрела, стараясь забрать с собой побольше коммунистов, когда они придут его оаскулачиапть? Он открыто хуесосил людей и за меньшие грехи. Сложи 2 и 2, как он к тебе относится на самом деле. После чего ты сделал ещё более смешной ролик, где истеришь как побитая шлюха во время

# TfidfVectorizer & KNN

In [38]:
vect_tfidf = TfidfVectorizer(ngram_range=(1,1), 
                             max_df=0.7, 
                             min_df=2,
                             stop_words=None, 
                             max_features=50000)
X_train, X_test, y_train, y_test = train_test_split(data.comment, data.toxic, test_size=0.1, shuffle=True)
X_train = vect_tfidf.fit_transform(X_train)
X_test = vect_tfidf.transform(X_test)

In [39]:
clf_knn = KNeighborsClassifier(n_neighbors=11, 
                           weights='distance',
                           metric='cosine')
clf_knn.fit(X_train, y_train)
preds = clf_knn.predict(X_test)

print(classification_report(y_test, preds))

              precision    recall  f1-score   support

         0.0       0.84      0.90      0.87       966
         1.0       0.76      0.65      0.70       476

    accuracy                           0.82      1442
   macro avg       0.80      0.77      0.78      1442
weighted avg       0.81      0.82      0.81      1442



In [40]:
top10_knn_tfidf, _probs = analyze_dvach(vect_tfidf, clf_knn, texts)

In [41]:
for _id, prob in zip(top10_knn_tfidf, _probs):
    print(prob)
    print(texts[_id])
    print('*****')

1.0
"регулярно игнорировались После чего орда приходила и давала пизды русские разоряли Пираты, а не русские, они и русские города разоряли

*****
1.0
"Нахуй этого неадеквата.

*****
1.0
"В Украине 99,9 людей вообще не знают кто он такой, а оставшемуся 0,1 на него пох й. Получается, он делает контент об Украине для российского внутреннего употребления, и ничем не отличается от той же скабеевой и киселёва)",1.0

*****
1.0
Вообще-то отказ встречаться с вами у неё дома или рядом - не показатель. Никто не обязан вас вести туда или сюда. Ояебу следователь нашёлся.,1.0

*****
1.0
"О, типичная яжемать что ли? Заказывай еду на дом, нанимай няню, думай. Дорого? Твои проблемы. Решение рожать было твоим. А вот подумать о неудобствах, которые ты создаешь своей коляской в магазинах, где и без того узкие проходы, у яжематери наверное вообще в голову не приходит? Интересно откуда такое мировоззрение берется у некоторых что им все должны?",1.0

*****
1.0
"Полно таких дебилов, незнающих тему.

*****
1.

Вторая модель дает более ёмкие высказывания (правда, не все из них можно отнести к очень токсичным, например, "выходи и приступай к изучению русского языка" едва ли можно назвать очень токсичным комментарием). Первая модель дает более полные/объемные высказывания, в которых, кажется, везде содержится соответствующая лексика, маркирующая токсичность. Пересечений среди топ-10 токсичных комментариев нет.