In [19]:
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split

import json
import numpy
import nltk
import numpy as np
import pandas as pd
import re

In [4]:
data = pd.read_csv("../data/train_data_features.csv").drop('Unnamed: 0', axis=1)
data.fillna(value="", inplace=True)

In [14]:
def clean_sentance(raw, language='bg+en'):
    """language: 'bg+en', 'bg', 'en', 'symbol'"""
    if language == 'bg+en':
        regex = "[^а-яА-Яa-zA-Z]"
    elif language == 'bg':
        regex = "[^а-яА-Я]"
    elif language == 'en':
        regex = "[^a-zA-Z]"
    elif language == 'symbol':
        regex = "[^-!$%^&*()_+|~=`{}\[\]:\";'<>?,.\/]"
    elif language == '!':
        regex = "[^?!]"
    clean = re.sub(regex," ", raw)
    clean = re.sub(' +',' ',clean)
    clean = str.lower(clean)
    return clean

In [20]:
data["body"] = data["Content"].apply(clean_sentance)
data["title"] = data["Content Title"].apply(clean_sentance)
data["X"] = data.apply(lambda x: x.title + x.body, axis=1)

In [21]:
X = data.X.as_matrix()
y = (data.fake_news_score.as_matrix() - 1) / 2

In [22]:
X_train, X_test, y_train, y_test = train_test_split(X, y)

In [38]:
stopword = """а
ако
ала
бе
в
вас
вече
взема
ви
вие
винаги
внимава
време
все
г
ги
глас
го
д
да
до
е
ето
за
зад
защо
защото
и
из
или
им
й
каза
как
каква
какво
както
какъв
като
кога
когато
което
които
кой
който
колко
която
къде
където
към
ли
м
ме
ми
мокър
моля
момента
му
н
на
над
назад
най
нас
не
него
нещо
нея
ни
ние
никой
нито
нищо
но
някои
някой
няколко
няма
от
отгоре
отново
още
пак
по
под
поне
пред
преди
през
при
пък
с
са
сам
само
се
сега
си
със
също
т
тази
така
такива
такъв
там
твой
те
тези
ти
т.н.
то
това
този
той
точно
три
тук
тъй
тя
тях
у
ч
часа
че
чрез
ще
щом
я"""
stopword = stopword.split('\n')

In [47]:
model = Pipeline([
    ('tfidf', TfidfVectorizer(ngram_range=(1,3), stop_words=stopword)),
    ('log', LogisticRegression())
])

model.fit(X_train, y_train)

Pipeline(steps=[('tfidf', TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 3), norm='l2', preprocessor=None, smooth_idf=True,
 ...ty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False))])

In [48]:
y_pred = model.predict(X_test)
print(classification_report(y_pred, y_test))
print((y_pred == y_test).mean())

             precision    recall  f1-score   support

        0.0       0.22      0.79      0.34        56
        1.0       0.98      0.76      0.85       648

avg / total       0.92      0.76      0.81       704

0.758522727273


In [49]:
y_pred

array([ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  0.,
        1.,  1.,  1.,  1.,  0.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  0.,  1.,  1.,  1.,  1.,  0.,  1.,  1.,  1.,  0.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  0.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        0.,  1.,  1.,  1.,  1.,  1.,  0.,  1.,  1.,  1.,  1.,  0.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  0.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  0.,  0.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  0.,
        1.,  1.,  1.,  0.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1

In [55]:
def get_dist(a):
    return len(a), a.sum(), a.sum()/len(a)

In [57]:
get_dist(y_train)

(2111, 1438.0, 0.6811937470393179)

In [56]:
get_dist(y_test)

(704, 502.0, 0.71306818181818177)