### Задание 1.

Задание: обучите три классификатора:

1) на токенах с высокой частотой

2) на токенах со средней частотой

3) на токенах с низкой частотой

Сравните полученные результаты, оцените какие токены наиболее важные для классификации.

### Задание 2.
найти фичи с наибольшей значимостью, и вывести их

### Задание 3.
1) сравнить count/tf-idf/hashing векторайзеры/полносвязанную сетку (построить classification_report)

2) подобрать оптимальный размер для hashing векторайзера

3) убедиться что для сетки нет переобучения

In [1]:
import pandas as pd
import numpy as np
from sklearn.metrics import *
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline

from nltk.tokenize import word_tokenize
from string import punctuation

from collections import Counter

from sklearn.linear_model import LogisticRegression # можно заменить на любимый классификатор
from sklearn.feature_extraction.text import CountVectorizer
import warnings
warnings.filterwarnings("ignore")

In [2]:
# считываем данные и заполняем общий датасет
positive = pd.read_csv('positive.csv', sep=';', usecols=[3], names=['text'])
positive['label'] = 1
negative = pd.read_csv('negative.csv', sep=';', usecols=[3], names=['text'])
negative['label'] = 0
df = positive.append(negative)

In [3]:
x_train, x_test, y_train, y_test = train_test_split(df.text, df.label)

#### Посмотрим на качество с полным корпусом слов.

In [4]:
vec = CountVectorizer(ngram_range=(1, 1))
bow = vec.fit_transform(x_train) # bow -- bag of words (мешок слов)

In [5]:
clf = LogisticRegression(random_state=42)
clf.fit(bow, y_train)

In [6]:
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

           0       0.77      0.76      0.76     28148
           1       0.76      0.77      0.77     28561

    accuracy                           0.76     56709
   macro avg       0.76      0.76      0.76     56709
weighted avg       0.76      0.76      0.76     56709



#### Соберем корпус из всех слов

In [7]:
corpus = [token for tweet in df.text for token in word_tokenize(tweet) if token not in punctuation]
print(len(corpus))

2870536


In [8]:
freq_dict = Counter(corpus)
freq_dict_sorted = sorted(freq_dict.items(), key=lambda x: -x[1])

#### Сортируем уникальные слова по их частоте

In [89]:
len(freq_dict_sorted)  # Всего уникальных слов

351123

#### Возьмем первые 10к популярных слов

In [10]:
first_try = freq_dict_sorted[10000:]

In [11]:
first_try = [x[0] for x in first_try]

In [12]:
vec = CountVectorizer(ngram_range=(1, 1), stop_words=first_try)
bow = vec.fit_transform(x_train) # bow -- bag of words (мешок слов)

In [13]:
clf = LogisticRegression(random_state=42)
clf.fit(bow, y_train)

In [14]:
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

           0       0.73      0.74      0.74     27639
           1       0.75      0.75      0.75     29070

    accuracy                           0.74     56709
   macro avg       0.74      0.74      0.74     56709
weighted avg       0.74      0.74      0.74     56709



#### Возьмем 160к слов из середины частотного списка

In [15]:
second_try = freq_dict_sorted[:10000] + freq_dict_sorted[170000:]
second_try = [x[0] for x in second_try]

In [16]:
vec = CountVectorizer(ngram_range=(1, 1), stop_words=second_try)
bow = vec.fit_transform(x_train) # bow -- bag of words (мешок слов)
clf = LogisticRegression(random_state=42)
clf.fit(bow, y_train)

In [17]:
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

           0       0.75      0.63      0.68     32895
           1       0.58      0.70      0.64     23814

    accuracy                           0.66     56709
   macro avg       0.66      0.67      0.66     56709
weighted avg       0.68      0.66      0.66     56709



#### Возьмем последние 50к слов из частотного списка

In [18]:
last_try = freq_dict_sorted[:300000]
last_try = [x[0] for x in last_try]

In [19]:
vec = CountVectorizer(ngram_range=(1, 1), stop_words=last_try)
bow = vec.fit_transform(x_train) # bow -- bag of words (мешок слов)
clf = LogisticRegression(random_state=42)
clf.fit(bow, y_train)

In [20]:
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

           0       0.93      0.53      0.68     48566
           1       0.21      0.75      0.33      8143

    accuracy                           0.56     56709
   macro avg       0.57      0.64      0.50     56709
weighted avg       0.82      0.56      0.63     56709



### Из 350000 уникальных слов взял первые 10000, что показало лучший результат.  Т.е. самые популярные - самые важные.

In [21]:
vec = CountVectorizer(ngram_range=(1, 1))
bow = vec.fit_transform(x_train) # bow -- bag of words (мешок слов)

In [22]:
clf = LogisticRegression(random_state=42)
clf.fit(bow, y_train)

In [23]:
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

           0       0.77      0.76      0.76     28148
           1       0.76      0.77      0.77     28561

    accuracy                           0.76     56709
   macro avg       0.76      0.76      0.76     56709
weighted avg       0.76      0.76      0.76     56709



In [24]:
list_feat_names = [x[0] for x in list(vec.vocabulary_.items())]

In [25]:
features = [x for x in zip(clf.coef_[0], list_feat_names)]

In [26]:
sorted_features = sorted(features, key=lambda x: -abs(x[0]))

### Отсортированные фичи по весам (по модулю)

In [27]:
sorted_features[:50]

[(-9.501297652121641, 'hlh'),
 (-7.430833331427391, 'ис'),
 (7.311470062028128, 'берем'),
 (-6.988027094897322, 'cp5vao3thu'),
 (-6.197430454664498, 'aiza_polska'),
 (-6.1219363795146275, 'fdusrmktwr'),
 (5.899573986841503, 'офигел'),
 (5.140042240180932, 'maria15357'),
 (-4.977238310539068, 'isaenkodasha'),
 (-4.893726176480694, 'лечитесь'),
 (4.768594796545198, 'вложила'),
 (-4.6361114133376775, 'kattyfka'),
 (-4.554376454610247, 'anneo_official'),
 (-4.339464550735462, 'ранетооооок'),
 (-4.207368970747518, 'табличку'),
 (-4.0528723296085145, 'всево'),
 (-3.991762910392123, 'рассекретили'),
 (-3.9489477503006656, 'ебучей'),
 (3.7586708214115268, 'перечитать'),
 (-3.404672709420085, 'каргина'),
 (-3.2220678629435393, 'оскарбляет'),
 (-3.197300706309078, 'провалился'),
 (-3.187227396318022, 'грантфайлы'),
 (-3.175612088146901, 'kuzmargo'),
 (-3.100214916099722, 'хорошееей'),
 (3.093479949987492, 'дрежись'),
 (-3.088417943549076, 'добби'),
 (-3.022961235110642, 'обращались'),
 (-2.93624

### Потестим разные эмбединги

#### CountV

In [73]:
vec = CountVectorizer(ngram_range=(1, 1))
bow = vec.fit_transform(x_train) # bow -- bag of words (мешок слов)

In [74]:
clf = LogisticRegression(random_state=42)
clf.fit(bow, y_train)

In [75]:
pred = clf.predict(vec.transform(x_train))
print(classification_report(pred, y_train))

              precision    recall  f1-score   support

           0       0.90      0.90      0.90     84249
           1       0.90      0.91      0.90     85876

    accuracy                           0.90    170125
   macro avg       0.90      0.90      0.90    170125
weighted avg       0.90      0.90      0.90    170125



In [76]:
clf = LogisticRegression(random_state=42)
clf.fit(bow, y_train)

In [77]:
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

           0       0.77      0.76      0.76     28148
           1       0.76      0.77      0.77     28561

    accuracy                           0.76     56709
   macro avg       0.76      0.76      0.76     56709
weighted avg       0.76      0.76      0.76     56709



#### Tf-Idf

In [78]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [79]:
vec = TfidfVectorizer(ngram_range=(1, 1))
bow = vec.fit_transform(x_train) # bow -- bag of words (мешок слов)

In [80]:
clf = LogisticRegression(random_state=42)
clf.fit(bow, y_train)

In [81]:
pred = clf.predict(vec.transform(x_train))
print(classification_report(pred, y_train))

              precision    recall  f1-score   support

           0       0.82      0.86      0.84     80989
           1       0.86      0.83      0.85     89136

    accuracy                           0.84    170125
   macro avg       0.84      0.85      0.84    170125
weighted avg       0.85      0.84      0.84    170125



In [82]:
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

           0       0.73      0.77      0.75     26653
           1       0.79      0.75      0.77     30056

    accuracy                           0.76     56709
   macro avg       0.76      0.76      0.76     56709
weighted avg       0.76      0.76      0.76     56709



#### Hashing
*подобрал оптимально кеоличество фичей - 10к, при увеличении в дальнейшем прирост качества не значительный, относительно количества увеличенных фичей.

In [83]:
from sklearn.feature_extraction.text import HashingVectorizer

In [84]:
vec = HashingVectorizer(n_features=10000)
bow = vec.fit_transform(x_train) # bow -- bag of words (мешок слов)

In [85]:
clf = LogisticRegression(random_state=42)
clf.fit(bow, y_train)

In [86]:
pred = clf.predict(vec.transform(x_train))
print(classification_report(pred, y_train))

              precision    recall  f1-score   support

           0       0.72      0.75      0.73     81660
           1       0.76      0.74      0.75     88465

    accuracy                           0.74    170125
   macro avg       0.74      0.74      0.74    170125
weighted avg       0.74      0.74      0.74    170125



In [87]:
clf = LogisticRegression(random_state=42)
clf.fit(bow, y_train)

In [88]:
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

           0       0.70      0.72      0.71     27226
           1       0.73      0.72      0.72     29483

    accuracy                           0.72     56709
   macro avg       0.72      0.72      0.72     56709
weighted avg       0.72      0.72      0.72     56709



#### TF-IDF показал себя лучше остальных, однако Hashing позволил сократить размерность, что сильно повлияло на скорость. Также из всех моделей при использовании Hasing обобщающая способность модели лучше всего, модель почти не переобучилась. 