In [None]:
# !wget https://dropbox.com/s/fnpq3z4bcnoktiv/positive.csv

In [None]:
# !wget https://www.dropbox.com/s/r6u59ljhhjdg6j0/negative.csv

In [1]:
import pandas as pd
import numpy as np
from sklearn.metrics import *
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline

In [2]:
positive = pd.read_csv('positive.csv', sep=';', usecols=[3], names=['text'])
positive['label'] = ['positive'] * len(positive)
negative = pd.read_csv('negative.csv', sep=';', usecols=[3], names=['text'])
negative['label'] = ['negative'] * len(negative)
df = pd.concat([positive, negative])

In [3]:
df.head()

Unnamed: 0,text,label
0,"@first_timee хоть я и школота, но поверь, у на...",positive
1,"Да, все-таки он немного похож на него. Но мой ...",positive
2,RT @KatiaCheh: Ну ты идиотка) я испугалась за ...,positive
3,"RT @digger2912: ""Кто то в углу сидит и погибае...",positive
4,@irina_dyshkant Вот что значит страшилка :D\nН...,positive


In [4]:
df.shape

(226834, 2)

In [5]:
x_train, x_test, y_train, y_test = train_test_split(df.text, df.label)

In [6]:
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer

In [7]:
from nltk import ngrams

In [8]:
sent = 'Если б мне платили каждый раз'.split()
list(ngrams(sent, 1))

[('Если',), ('б',), ('мне',), ('платили',), ('каждый',), ('раз',)]

In [9]:
list(ngrams(sent, 2))

[('Если', 'б'),
 ('б', 'мне'),
 ('мне', 'платили'),
 ('платили', 'каждый'),
 ('каждый', 'раз')]

In [10]:
vec = CountVectorizer(ngram_range=(1, 1))
bow = vec.fit_transform(x_train)

In [11]:
list(vec.vocabulary_.items())[:10]

[('ахахаах', 102004),
 ('ну', 169387),
 ('ти', 221611),
 ('мене', 157526),
 ('насмішив', 164327),
 ('всьоравно', 115840),
 ('голова', 120616),
 ('мама', 155796),
 ('купила', 150549),
 ('коктейля', 146242)]

In [12]:
clf = LogisticRegression(solver='liblinear', random_state=42)
clf.fit(bow, y_train)

In [13]:
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

    negative       0.77      0.76      0.76     28261
    positive       0.76      0.77      0.77     28448

    accuracy                           0.77     56709
   macro avg       0.77      0.77      0.77     56709
weighted avg       0.77      0.77      0.77     56709



In [16]:
vec = CountVectorizer(ngram_range=(2, 3))
bow = vec.fit_transform(x_train)
clf = LogisticRegression(solver='liblinear', random_state=42)
clf.fit(bow, y_train)
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

    negative       0.75      0.69      0.72     30002
    positive       0.68      0.73      0.71     26707

    accuracy                           0.71     56709
   macro avg       0.71      0.71      0.71     56709
weighted avg       0.71      0.71      0.71     56709



### TF-IDF

In [17]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [18]:
vec = TfidfVectorizer(ngram_range=(1, 1))
bow = vec.fit_transform(x_train)
clf = LogisticRegression(solver='liblinear', random_state=42)
clf.fit(bow, y_train)
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

    negative       0.73      0.76      0.75     26766
    positive       0.78      0.75      0.77     29943

    accuracy                           0.76     56709
   macro avg       0.76      0.76      0.76     56709
weighted avg       0.76      0.76      0.76     56709



In [19]:
import nltk
from nltk.tokenize import word_tokenize
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/al/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [20]:
example = 'Это был плохой опыт:('
word_tokenize(example)

['Это', 'был', 'плохой', 'опыт', ':', '(']

### Стоп-слова и пунктуация

In [21]:
from nltk.corpus import stopwords
nltk.download('stopwords')
print(stopwords.words('russian'))

['и', 'в', 'во', 'не', 'что', 'он', 'на', 'я', 'с', 'со', 'как', 'а', 'то', 'все', 'она', 'так', 'его', 'но', 'да', 'ты', 'к', 'у', 'же', 'вы', 'за', 'бы', 'по', 'только', 'ее', 'мне', 'было', 'вот', 'от', 'меня', 'еще', 'нет', 'о', 'из', 'ему', 'теперь', 'когда', 'даже', 'ну', 'вдруг', 'ли', 'если', 'уже', 'или', 'ни', 'быть', 'был', 'него', 'до', 'вас', 'нибудь', 'опять', 'уж', 'вам', 'ведь', 'там', 'потом', 'себя', 'ничего', 'ей', 'может', 'они', 'тут', 'где', 'есть', 'надо', 'ней', 'для', 'мы', 'тебя', 'их', 'чем', 'была', 'сам', 'чтоб', 'без', 'будто', 'чего', 'раз', 'тоже', 'себе', 'под', 'будет', 'ж', 'тогда', 'кто', 'этот', 'того', 'потому', 'этого', 'какой', 'совсем', 'ним', 'здесь', 'этом', 'один', 'почти', 'мой', 'тем', 'чтобы', 'нее', 'сейчас', 'были', 'куда', 'зачем', 'всех', 'никогда', 'можно', 'при', 'наконец', 'два', 'об', 'другой', 'хоть', 'после', 'над', 'больше', 'тот', 'через', 'эти', 'нас', 'про', 'всего', 'них', 'какая', 'много', 'разве', 'три', 'эту', 'моя', 'впр

[nltk_data] Downloading package stopwords to /home/al/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [22]:
from string import punctuation
punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [23]:
noise = stopwords.words('russian') + list(punctuation)

In [24]:
vec = CountVectorizer(ngram_range=(1, 1), tokenizer=word_tokenize, stop_words=noise)
bow = vec.fit_transform(x_train)
clf = LogisticRegression(solver='liblinear', random_state=42)
clf.fit(bow, y_train)
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))



              precision    recall  f1-score   support

    negative       0.80      0.76      0.78     29332
    positive       0.76      0.80      0.78     27377

    accuracy                           0.78     56709
   macro avg       0.78      0.78      0.78     56709
weighted avg       0.78      0.78      0.78     56709



In [None]:
!pip install razdel

In [25]:
from razdel import tokenize

def tokenizer(string):
    return [x.text for x in tokenize(string)]

In [26]:
tokenizer(example)

['Это', 'был', 'плохой', 'опыт', ':(']

In [27]:
vec = CountVectorizer(ngram_range=(1, 1), tokenizer=tokenizer, stop_words=noise)
bow = vec.fit_transform(x_train)
clf = LogisticRegression(solver='liblinear', random_state=42)
clf.fit(bow, y_train)
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

    negative       0.84      0.84      0.84     28137
    positive       0.84      0.85      0.84     28572

    accuracy                           0.84     56709
   macro avg       0.84      0.84      0.84     56709
weighted avg       0.84      0.84      0.84     56709



In [28]:
import pymorphy2

morph = pymorphy2.MorphAnalyzer()


In [29]:
def lemmatize(string):
    return [morph.parse(token)[0].normal_form for token in tokenizer(string)]

print(lemmatize(example))

['это', 'быть', 'плохой', 'опыт', ':(']


In [30]:
vec = TfidfVectorizer(ngram_range=(1, 1), tokenizer=lemmatize)
bow = vec.fit_transform(x_train)
clf = LogisticRegression(random_state=42)
clf.fit(bow, y_train)
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

    negative       1.00      1.00      1.00     27742
    positive       1.00      1.00      1.00     28967

    accuracy                           1.00     56709
   macro avg       1.00      1.00      1.00     56709
weighted avg       1.00      1.00      1.00     56709



In [33]:
res = x_test.to_frame().reset_index(drop=True)
res['pred'] = pd.Series(pred)
pd.set_option('display.max_colwidth', None)
res.sample(10)

Unnamed: 0,text,pred
43052,RT @novadima: Получил винил на почте и иду улыбаюсь как дурак),positive
10102,"На корпоратив не пришел никто, с кем я общаюсь:( какая-то засада. Спортзал в Сосновке, конкурсы, это все. Спасите мой вечер походом в кино!",negative
2014,"@i1Krilow @LiYu33091721 Так, хорош издеваться)))))))",positive
11152,"А нехер говорить, что всем тру фанатам важны их песни, не пиздите, плизик :-)",positive
33810,@Usagi_usagi48 а мне с принцессками вообще не везет:(,negative
1563,@blast_wave_ @ZhenyaProtasova у нас самостоятельная((,negative
12687,"@sanyapro_1988 @anya_kazanceva_ Не ну а что? Возбудись сам, или рука тебе в помощь)",positive
41140,@Nyarga_Jane Откуда? Даже у меня их 2 с половиной всего ((,negative
15150,"RT @Cokolik13: 12 декабря - ""Виктория""- фестиваль добра!)",positive
45716,"@SugarVodonaeva мечтаю побывать в Испании, сходить на футбол и посмотреть вживую биатлон. Хотя, лучше не мечтать, а добиваться))",positive
