In [25]:
from urllib import parse

import numpy as np
import pandas as pd
from sklearn.svm import LinearSVC
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import LabelBinarizer
from sklearn.model_selection import train_test_split

In [5]:
df = pd.read_excel("data/FN_Training_Set.xlsx")

In [46]:
df.columns

Index(['fake_news_score', 'click_bait_score', 'Content Title', 'Content Url',
       'Content Published Time', 'Content', 'domain'],
      dtype='object')

In [16]:
df['domain'] = df['Content Url'].astype(str).apply(lambda t: parse.urlparse(t).netloc)

In [19]:
train, test = train_test_split(df, test_size=0.1)

In [34]:
binarizer = LabelBinarizer()
binarizer.fit(df['domain'])

In [37]:
df_train, df_test = train_test_split(df, test_size=0.1)

In [38]:
x_train = binarizer.transform(df_train['domain'])
x_test = binarizer.transform(df_test['domain'])

In [42]:
clf = LinearSVC()
clf.fit(x_train, df_train.click_bait_score)

LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
     intercept_scaling=1, loss='squared_hinge', max_iter=1000,
     multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
     verbose=0)

In [44]:
clf.score(x_test, df_test.click_bait_score)

0.89007092198581561

In [47]:
clf = LinearSVC()
clf.fit(x_train, df_train.fake_news_score)

LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
     intercept_scaling=1, loss='squared_hinge', max_iter=1000,
     multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
     verbose=0)

In [48]:
clf.score(x_test, df_test.fake_news_score)

0.89007092198581561

In [49]:
df_train.shape, df_test.shape

((2533, 7), (282, 7))

In [50]:
# Check which are correct and wrong

In [98]:
df_test = df_test.copy()
df_test['correct'] = (clf.predict(x_test) == df_test.fake_news_score)

In [101]:
df_test[df_test.correct]

Unnamed: 0,fake_news_score,click_bait_score,Content Title,Content Url,Content Published Time,Content,domain,correct
2642,1,1,Развлечение | Продуценти обмислят филм за Людм...,http://www.dnevnik.bg/razvlechenie/2016/12/01/...,2016-12-01 16:40:00,Биографичен филм за дъщерята на Тодор Живков Л...,www.dnevnik.bg,True
695,3,3,Голямата химическа лъжа в Сирия,http://gudelnews.com/index.php/2016-02-27-12-0...,2017-04-08 10:06:00,Светът е изправен пред трета световна война. Н...,gudelnews.com,True
2745,1,1,Можем ли да сравняваме Тръмп с Рейгън?:: Inves...,http://www.investor.bg/sasht/337/a/mojem-li-da...,2016-11-27 08:57:00,Доналд Тръмп. Снимка: архив Ройтерс Победата н...,www.investor.bg,True
1730,3,3,"Забравеният завет на Ванга-Лек, който цери и н...",http://novinite33.com/kia/6277,2017-02-01 19:02:00,"Веднъж попитали Ванга , когато човечеството ще...",novinite33.com,True
2572,3,3,Разпад на еврозоната означава Трета световна в...,http://www.monitor.bg/a/view/21599-Юнкер-Разпа...,2016-12-07 16:02:00,Председателят на Европейската комисия Жан Клод...,www.monitor.bg,True
817,3,3,Няма как да не сте чували за мистерията около ...,http://lifebg.net/179606/,2017-03-29 08:15:00,"През 1990 година, по заповед на Генералния щаб...",lifebg.net,True
997,1,1,Най-мъдрите мисли и пророчества на баба Ванга ...,http://www.blitz.bg/obshtestvo/nay-mdrite-misl...,2017-03-21 20:33:00,Вангелия Пандева Гущерова е по-известна като В...,www.blitz.bg,True
688,3,3,Голямата химическа лъжа в Сирия,http://trafficnews.bg/komentari/news/72864/,2017-04-08 14:52:00,"Колелото на историята се върти, но ние, хората...",trafficnews.bg,True
747,3,3,Уникална надгробна плоча откриха в Хераклея Си...,http://vest.bg/2017/новини-от-българия/уникалн...,2017-04-06 04:37:00,На поредното ценно откритие се натъкнаха специ...,vest.bg,True
672,3,3,Изглежда нелогично Башар Асад да нападне Хан Ш...,http://epicenter.bg/article/Vladimir-Chukov--I...,2017-04-08 23:12:00,"- Проф. Чуков, през 2003 г. САЩ нападнаха Ирак...",epicenter.bg,True


In [100]:
df_test[~df_test.correct]

Unnamed: 0,fake_news_score,click_bait_score,Content Title,Content Url,Content Published Time,Content,domain,correct
218,1,1,България посърна! Напусна ни осиновената дъщер...,http://www.dailypress.bg/българия-посърна-напу...,2017-05-04 13:45:00,"Цяла Лешница изпраща баба Венетка, осиновената...",www.dailypress.bg,False
2765,1,1,Проф. Съргойчев: Не сме ли в навечерието на то...,http://bultimes.com/prof-sargojchev-ne-sme-li-...,2016-11-24 16:05:00,Д-р Стоян Съргойчев е лектор и консултант на Н...,bultimes.com,False
1247,3,3,Числото '93' - Езотерика - Форум за конспираци...,http://forum.xnetbg.net/index.php?topic=21243....,2017-03-05 22:48:00,"Oberon, И аз питам същото. Все пак намерих инт...",forum.xnetbg.net,False
432,1,3,Известен екстрасенс ни изправи на нокти: Трета...,https://skafeto.com/любопитно/известен-екстрас...,2017-04-20 20:14:00,Известен екстрасенс направи зловеща прогноза и...,skafeto.com,False
2724,1,1,Франсоа Фийон - кандидатът на дясното за прези...,http://bulevard.bg/news/fransoa-fiyon-kandidat...,2016-11-28 08:54:00,"Кой е Фийон и какво обещава на французите, ако...",bulevard.bg,False
2328,3,3,Ясновидката Мария стана жертва на еротична война,http://konkurent.bg/article/88836/iasnovidkata...,2017-01-01 21:10:00,Непозната поведе истинска магическа война срещ...,konkurent.bg,False
2740,1,1,Рецепти за билколечение от Bilko.bg,http://www.bg-mamma.com/index.php?PHPSESSID=5r...,2016-11-27 13:53:00,"Цитат на: wwwrrr в сб, 26 ное 2016, 22:15Цитат...",www.bg-mamma.com,False
1313,3,3,Никога не е късно да станеш за резил,http://shash.bg/elena-poptodorova-polsha-zadur...,2017-02-28 17:57:00,Факти: Бившият български посланик в САЩ Елена ...,shash.bg,False
2785,1,1,Странните предсказания на Economist за 2017 г:...,http://bultimes.com/strannite-predskazaniya-na...,2016-11-21 14:10:00,"Виждаме карти таро с образи, даващи представа ...",bultimes.com,False
2689,1,1,Мехлемът на Баба Ванга ме спаси. Забравих за б...,http://chujdozemec.com/здраве/мехлемът-на-баба...,2016-11-29 11:51:00,"Сместа, приготвена вкъщи, помага да се справим...",chujdozemec.com,False


In [102]:
df.corr()

Unnamed: 0,fake_news_score,click_bait_score
fake_news_score,1.0,0.976846
click_bait_score,0.976846,1.0
