In [16]:
from urllib import parse

import numpy as np
import pandas as pd
from sklearn.svm import LinearSVC
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import LabelBinarizer
from sklearn.model_selection import train_test_split

In [17]:
df = pd.read_excel("data/FN_Training_Set.xlsx")

In [18]:
df.columns

Index(['fake_news_score', 'click_bait_score', 'Content Title', 'Content Url',
       'Content Published Time', 'Content'],
      dtype='object')

In [19]:
df['domain'] = df['Content Url'].astype(str).apply(lambda t: parse.urlparse(t).netloc)

In [20]:
train, test = train_test_split(df, test_size=0.1, random_state=42)

In [21]:
binarizer = LabelBinarizer()
binarizer.fit(df['domain'])

LabelBinarizer(neg_label=0, pos_label=1, sparse_output=False)

In [22]:
df_train, df_test = train_test_split(df, test_size=0.1, random_state=42)

In [23]:
x_train = binarizer.transform(df_train['domain'])
x_test = binarizer.transform(df_test['domain'])

In [24]:
clf = LinearSVC()
clf.fit(x_train, df_train.click_bait_score)

LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
     intercept_scaling=1, loss='squared_hinge', max_iter=1000,
     multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
     verbose=0)

In [25]:
clf.score(x_test, df_test.click_bait_score)

0.89007092198581561

In [26]:
clf = LinearSVC()
clf.fit(x_train, df_train.fake_news_score)

LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
     intercept_scaling=1, loss='squared_hinge', max_iter=1000,
     multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
     verbose=0)

In [27]:
clf.score(x_test, df_test.fake_news_score)

0.89007092198581561

In [28]:
df_train.shape, df_test.shape

((2533, 7), (282, 7))

In [29]:
# Check which are correct and wrong

In [30]:
df_test = df_test.copy()
df_test['correct'] = (clf.predict(x_test) == df_test.fake_news_score)

In [31]:
df_test[df_test.correct]

Unnamed: 0,fake_news_score,click_bait_score,Content Title,Content Url,Content Published Time,Content,domain,correct
450,3,3,Екстрасенс предрече Трета световна война,http://bulbox.net/regioni-haskovo/5600045/,2017-04-19 17:30:00,"Според екстрасенса Хорасио Вийегас, който прав...",bulbox.net,True
1174,3,3,Предсказанията за 2017-та година на „Спящия пр...,http://vchas.bg/321112/,2017-03-11 12:12:00,"Според Кейси Трета световна война няма да има,...",vchas.bg,True
2425,1,1,Нямо 6-годишно момченце проговори на гроба на ...,http://www.novini.bg/news/397523-нямо-6-годишн...,2016-12-22 14:32:00,Дете проговори на гроба на българската ясновид...,www.novini.bg,True
2665,1,1,"Извинявам се, че нарекох колежките ""овчедушни""",http://www.blitz.bg/sport/gimnastika/neshka-ro...,2016-11-30 12:51:00,"Нешка Робева прояви мъдрост и показа, че има ж...",www.blitz.bg,True
1505,3,3,"УТРЕ Е СВ. ВАЛЕНТИН, НО НЕ БЪДЕТЕ ОВЦЕ! НЕ ИСК...",http://novinite711.com/noa/28111,2017-02-13 20:49:00,"Отново сме в това време от годината, когато чо...",novinite711.com,True
2248,1,1,Пророчества вещаят апокалипсис през 2017 г.,http://www.168chasa.bg/article/5975927,2017-01-07 13:14:00,"Както всяка година, и през новата 2017-а не ли...",www.168chasa.bg,True
2720,1,1,За сегашното положение и настъпващите промени,https://anonybulgaria.wordpress.com/2016/11/28...,2016-11-28 13:34:00,Този анализ няма за цел да даде чисти доказате...,anonybulgaria.wordpress.com,True
677,1,1,"2017-а носи природни катаклизми, атентати и ог...",https://novinite.eu/astrolozi-preduprezhdavat-...,2017-04-08 22:06:00,2017-та година ще бъде много труден период за ...,novinite.eu,True
1103,3,3,РУСКИ МЕДИИ ГРЪМНАХА С НАЙ-СТРОГО ПАЗЕНАТА ТАЙ...,http://bulgaria365.info/?p=282848,2017-03-15 00:38:00,"Baнгa e poдилa cин, ĸoгaтo e билa eдвa нa 17 г...",bulgaria365.info,True
2321,3,3,ВСИЧКИ ВПЕРИХА В ПОГЛЕД! ИЗТЕКОХА НОВИ РАЗКРИТ...,http://vchas.bg/304897/,2017-01-02 13:51:00,Внучето на премиера в оставка Бойко Борисов се...,vchas.bg,True


In [32]:
df_test[~df_test.correct]

Unnamed: 0,fake_news_score,click_bait_score,Content Title,Content Url,Content Published Time,Content,domain,correct
1192,1,1,Ако ти подарят един от тези предмети - хвърли ...,https://skafeto.com/любопитно/ако-ти-подарят-е...,2017-03-09 17:20:00,Прочутата пророчица Баба Ванга е вярвала дълбо...,skafeto.com,False
2689,1,1,Мехлемът на Баба Ванга ме спаси. Забравих за б...,http://chujdozemec.com/здраве/мехлемът-на-баба...,2016-11-29 11:51:00,"Сместа, приготвена вкъщи, помага да се справим...",chujdozemec.com,False
309,1,1,Дядо Ральо от с. Кости: Откриха ми 5 см. увели...,https://skafeto.com/здраве/народна-медицина/дя...,2017-04-28 12:15:00,92-годишният дядо Ральо от странджанското село...,skafeto.com,False
2758,1,1,ПИсимистични непукиЗи с прЪвУписТен АУТсхаймер...,http://www.bg-mamma.com/index.php?PHPSESSID=8k...,2016-11-25 19:28:00,Цитатаз съм опъки човек ЦитаткокълчеЦитатимах...,www.bg-mamma.com,False
2605,1,1,Петричка екзотика: Радо Шишарката пее при Ванга,http://bulbox.net/regioni-blagoevg/5081143/,2016-12-04 14:15:00,Фолклегендата Радо Шишарката и пророчицата Ван...,bulbox.net,False
2713,1,1,Деси Тенекеджиева става Людмила Живкова,http://epicenter.bg/article/Desi-Tenekedzhieva...,2016-11-28 18:04:00,Деси Тенекеджиева ще реализира стара обща идея...,epicenter.bg,False
2645,1,1,Нешка Робева се оттегля завинаги от гимнастика...,http://www.struma.bg/news/106990/1/1/Neshka-Ro...,2016-12-01 14:23:00,Нешка Робева се оттегля от художествената гимн...,www.struma.bg,False
1288,3,3,Западните Балкани и регионалната (не)сигурност...,http://www.memoriabg.com/2017/03/02/zapadnite-...,2017-03-02 11:05:00,Генерал Уесли Кларк описва операция „Съюзна си...,www.memoriabg.com,False
2672,1,1,Людмила Живкова възкръсва! (СНИМКИ) – PernikTo...,http://perniktoday.net/людмила-живкова-възкръс...,2016-11-30 05:54:00,Следващата година през пролетта предстои да из...,perniktoday.net,False
1769,1,1,store.bg - Лола - Мейк Бългерия грейт агейн - ...,https://www.book.store.bg/p194992/lola-mejk-by...,2017-01-31 15:10:00,Някои предложения за управлението на държавата...,www.book.store.bg,False


In [33]:
df.corr()

Unnamed: 0,fake_news_score,click_bait_score
fake_news_score,1.0,0.976846
click_bait_score,0.976846,1.0
