In [1]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.model_selection import ShuffleSplit, cross_val_score

from sklearn.naive_bayes import MultinomialNB

import pandas as pd

In [2]:
dataset = pd.read_csv('data/cleaned_data.csv', index_col=0).dropna()

In [3]:
ngram_schemes = [(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6)]
stop_symbols = [":)", ")", ":D", ":(", "(", "!"]

In [4]:
dataset.head()

Unnamed: 0,text,label,repeat,favourite,:),),:D,:(,(,!
0,хоть я и школотый но поверь у мы то же самый о...,1,0,0,0,1,1,0,0,0
1,да всетаки он немного похожий на он но мой мал...,1,0,0,0,0,1,0,0,0
2,ну ты идиотка я испугаться за ты,1,0,1,0,1,0,0,0,1
3,кто то в угол сидеть и погибать от голод а мы ...,1,0,1,0,0,1,0,0,0
4,вот что значит страшилка но блинпосмотреть вес...,1,0,0,0,0,1,0,0,0


In [5]:
for index, row in dataset.iterrows():
    for symb in stop_symbols:
        if (row[symb] > 0):
            row['text'] += ' ' + symb

In [6]:
dataset['text'].head()

0    хоть я и школотый но поверь у мы то же самый о...
1    да всетаки он немного похожий на он но мой мал...
2                     ну ты идиотка я испугаться за ты
3    кто то в угол сидеть и погибать от голод а мы ...
4    вот что значит страшилка но блинпосмотреть вес...
Name: text, dtype: object

In [8]:
for ngram_scheme in ngram_schemes:

    print('N-gram Scheme:', ngram_scheme)

    count_vectorizer = CountVectorizer(analyzer = "word", ngram_range=ngram_scheme) 
    
    X = count_vectorizer.fit_transform(dataset['text'])
    y = dataset['label']
    
    cv = ShuffleSplit(n_splits=5, test_size=0.3, random_state=0)
    
    clf = MultinomialNB()
    NB_result = cross_val_score(clf, X, y, cv=cv).mean()
    print('NB:', NB_result.mean())

N-gram Scheme: (1, 1)
NB: 0.7211685697071227
N-gram Scheme: (1, 2)
NB: 0.7363958324148776
N-gram Scheme: (1, 3)
NB: 0.7362576966597598
N-gram Scheme: (1, 4)
NB: 0.7354318211876737
N-gram Scheme: (1, 5)
NB: 0.7345471645431968
N-gram Scheme: (1, 6)
NB: 0.7338123998883158


In [9]:
for ngram_scheme in ngram_schemes:

    print('N-gram Scheme:', ngram_scheme)
     
    tfidf_vectorizer = TfidfVectorizer(analyzer = "word", ngram_range=ngram_scheme)
    
    X = tfidf_vectorizer.fit_transform(dataset['text'])
    y = dataset['label']
    
    cv = ShuffleSplit(n_splits=5, test_size=0.3, random_state=0)
    
    clf = MultinomialNB()
    NB_result = cross_val_score(clf, X, y, cv=cv).mean()
    print('NB:', NB_result.mean())

N-gram Scheme: (1, 1)
NB: 0.7166042116710019
N-gram Scheme: (1, 2)
NB: 0.7395553204308659
N-gram Scheme: (1, 3)
NB: 0.7427295037399521
N-gram Scheme: (1, 4)
NB: 0.7442636923393438
N-gram Scheme: (1, 5)
NB: 0.7448191744184338
N-gram Scheme: (1, 6)
NB: 0.7449955179356053
