### 0. Всякие импорты

In [1]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score

In [2]:
import razdel

In [3]:
import pandas as pd
data = pd.read_csv('labeled.csv')

In [4]:
train, test = train_test_split(data, test_size=0.1, shuffle=True)

In [5]:
train.reset_index(inplace=True)
test.reset_index(inplace=True)

In [6]:
def razdel_tokenizer(text):
    return [token.text for token in razdel.tokenize(text)]

## TFIDF

### 1 Встроенная

In [None]:
vectorizer = TfidfVectorizer(min_df=10, max_features=100, max_df=0.3)
X = vectorizer.fit_transform(train.comment)
X_test = vectorizer.transform(test.comment)

In [8]:
y = train.toxic.values
y_test = test.toxic.values

In [9]:
clf = MultinomialNB(alpha=1.)
clf.fit(X, y)
preds = clf.predict(X_test)

### 2. Кастомная

In [None]:
my_vectorizer = TfidfVectorizer(tokenizer=razdel_tokenizer)
X_custom = my_vectorizer.fit_transform(train.comment)
X_test_custom = my_vectorizer.transform(test.comment)



In [11]:
y_custom = train.toxic.values
y_test_custom = test.toxic.values

In [12]:
my_clf = MultinomialNB(alpha=1.)
my_clf.fit(X_custom, y_custom)
preds_custom = my_clf.predict(X_test_custom)

### 3. Сравнение

In [13]:
print(classification_report(y_test, preds))

              precision    recall  f1-score   support

         0.0       0.74      0.97      0.84       999
         1.0       0.79      0.23      0.36       443

    accuracy                           0.75      1442
   macro avg       0.77      0.60      0.60      1442
weighted avg       0.76      0.75      0.69      1442



In [14]:
print(classification_report(y_test_custom, preds_custom))

              precision    recall  f1-score   support

         0.0       0.75      0.99      0.85       999
         1.0       0.93      0.23      0.37       443

    accuracy                           0.76      1442
   macro avg       0.84      0.61      0.61      1442
weighted avg       0.80      0.76      0.70      1442



In [15]:
print("Accuracy:", accuracy_score(y_test, preds))
print("Accuracy customized:", accuracy_score(y_test_custom, preds_custom))

Accuracy: 0.7461858529819695
Accuracy customized: 0.7593619972260749


## CountVectorizer

### 1. Встроенная

In [16]:
vectorizer = CountVectorizer()

X = vectorizer.fit_transform(train.comment)
X_test = vectorizer.transform(test.comment)

In [17]:
y = train.toxic.values
y_test = test.toxic.values

In [18]:
clf = MultinomialNB(alpha=1.)
clf.fit(X, y)
preds = clf.predict(X_test)

### 2. Кастомная токенизация

In [19]:
my_vectorizer = CountVectorizer(tokenizer=razdel_tokenizer)
X_custom = my_vectorizer.fit_transform(train.comment)
X_test_custom = my_vectorizer.transform(test.comment)



In [20]:
y_custom = train.toxic.values
y_test_custom = test.toxic.values

In [21]:
my_clf = MultinomialNB()
my_clf.fit(X_custom, y_custom)
y_pred_custom = my_clf.predict(X_test_custom)

### 3. Сравнение

In [22]:
print(classification_report(y_test, preds))

              precision    recall  f1-score   support

         0.0       0.87      0.96      0.91       999
         1.0       0.88      0.67      0.76       443

    accuracy                           0.87      1442
   macro avg       0.87      0.81      0.83      1442
weighted avg       0.87      0.87      0.86      1442



In [23]:
print(classification_report(y_test_custom, preds_custom))

              precision    recall  f1-score   support

         0.0       0.75      0.99      0.85       999
         1.0       0.93      0.23      0.37       443

    accuracy                           0.76      1442
   macro avg       0.84      0.61      0.61      1442
weighted avg       0.80      0.76      0.70      1442



In [24]:
print("Accuracy:", accuracy_score(y_test, preds))
print("Accuracy customized:", accuracy_score(y_test_custom, preds_custom))

Accuracy: 0.8682385575589459
Accuracy customized: 0.7593619972260749


Для векторайзера Tf-Idf лучше сработала кастомная токенизация, хотя разница между встроенной невелика.  
Для векторайзера Count сильно лучше сработала встроенная токенизация.  
Почти у всех низкий recall, но у встроенного CountVectorizer аж целых 0.64, что и значительно повлияло на общую точность

# Задание 2 BeamSearch

tf-idf - LogisticRegression
count - decisiontree


In [25]:
vectorizer_count = CountVectorizer(max_features=100, ngram_range=(1, 2), strip_accents='unicode',min_df=10, max_df = 0.3 )

X_count = vectorizer_count.fit_transform(train.comment)
X_test_count = vectorizer_count.transform(test.comment)
y_count = train.toxic.values
y_test_count = test.toxic.values

In [None]:
vectorizer_tf= TfidfVectorizer(min_df=10, max_features=100, max_df=0.3, ngram_range=(1, 2), smooth_idf=True)
X_tf = vectorizer_tf.fit_transform(train.comment)
X_test_tf = vectorizer_tf.transform(test.comment)
y_tf = train.toxic.values
y_test_tf = test.toxic.values

In [27]:
clf_log =  LogisticRegression(C=0.1, class_weight='balanced', solver='saga')
clf_log.fit(X_count, y_count)
preds_log = clf_log.predict(X_test_count)

print(classification_report(y_test_count, preds_log))

              precision    recall  f1-score   support

         0.0       0.86      0.64      0.73       999
         1.0       0.48      0.75      0.59       443

    accuracy                           0.68      1442
   macro avg       0.67      0.70      0.66      1442
weighted avg       0.74      0.68      0.69      1442



In [28]:
clf_knei = KNeighborsClassifier(n_neighbors=15, algorithm='ball_tree', leaf_size=10)
clf_knei.fit(X_tf, y_tf)
preds_tf = clf_knei.predict(X_test_tf)

print(classification_report(y_test_tf, preds_tf))



              precision    recall  f1-score   support

         0.0       0.79      0.79      0.79       999
         1.0       0.53      0.53      0.53       443

    accuracy                           0.71      1442
   macro avg       0.66      0.66      0.66      1442
weighted avg       0.71      0.71      0.71      1442



Я потыкала разные параметры у разных классификаторов, но лучшее значение f1-меры это 0.69 :(((

In [29]:
def get_top(clf, vec, X_test):
    probas = clf.predict_proba(vec.transform(X_test))[:, 1]
    top = probas.argsort()[-10:][::-1]
    return X_test.iloc[top]

top1 = get_top(clf_log, vectorizer_count, test.comment)
top2 = get_top(clf_knei, vectorizer_tf , test.comment)


print("\nТоп 10 CountVectorizer LogisticRegression:")
for i in top1:
    print(i)

print("\nТоп 10 TfidfVectorizer KNeighborsClassifier:")
for i in top2:
    print(i)



Топ 10 CountVectorizer LogisticRegression:
Нет, мне тебя жалко, ты ненавидишь союз, не любишь русских, особенно Путина, даже своих предков также поливаеш грязью, особенно символично, что несмотря на ненависть к русским, у тебя такой ник, это какая-то квинтэссенция изливания желчи во всё вокруг. Ведь по сути, ты же просто пришёл и сказал: вот это говно, это и это, когда к тебе обратились (понятно, что именно ради этого всё и затевалось) со словами, молодой человек, ваш юношеский максимализм неуместен, вы посчитали это слабостью: как же, они не могут так же издеваться и при этом не попасть под бан.

Оп. Доказательство того, что ты не умеешь читать. Вижу, что такое заусенец, вижу кромки деталей не должны иметь заусенцев . Только я, в отличии от тебя, еще читаю другие слова кроме искомых, а именно: кромки МЕТАЛЛИЧЕСКИХ деталей не должны иметь заусенцев . Ты слился: по IQ, по умению читать, по умению делать оценку качества, по умению отвечать на вопросы. Странно, что ты дышать умеешь и даж

У комбинации CountVectorizer LogisticRegression и более токсичные, а агрессивные комментарии... И они сильно длиннее. (точных совпадений нет)  
У комбинации TfidfVectorizer KNeighborsClassifier есть не такие обидные комментарии и скорее в одном комментарии только одно оскорбление.  
Наверное потому что просто векторайзеры по-разному работают вот.

Люблю Твиттер. То есть Х. (нет.)