In [1]:
# -*- coding: utf-8 -*-

import pandas
import matplotlib.pyplot as pyplot

from nltk.corpus import reuters
from nltk.corpus import stopwords

from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import MultiLabelBinarizer
from sklearn.feature_extraction.text import HashingVectorizer
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import LinearSVC
from sklearn.multiclass import OneVsRestClassifier

In [2]:
label_binarizer = MultiLabelBinarizer()
stop_words = stopwords.words("english")
hashing_vectorizer = HashingVectorizer(stop_words = stop_words, alternate_sign = False)

In [3]:
doc_id = reuters.fileids()
train_id = [d for d in doc_id if d.startswith('training/')]
test_id = [d for d in doc_id if d.startswith('test/')]
    
train_data = [reuters.raw(doc_id) for doc_id in train_id]
test_data = [reuters.raw(doc_id) for doc_id in test_id]

train_label = [reuters.categories(doc_id) for doc_id in train_id]
test_label = [reuters.categories(doc_id) for doc_id in test_id]

train_label = label_binarizer.fit_transform(train_label)
test_label = label_binarizer.transform(test_label)

In [4]:
train_hashing = hashing_vectorizer.fit_transform(train_data)
test_hashing = hashing_vectorizer.transform(test_data)

In [5]:
clf = OneVsRestClassifier(LinearSVC(random_state=0))
clf.fit(train_hashing, train_label)

predictions = clf.predict(test_hashing)

In [8]:
p_labels = label_binarizer.inverse_transform(predictions)
t_labels = label_binarizer.inverse_transform(test_label)

i = 0
for data, p_label, t_label, p, t in zip(test_data, p_labels, t_labels, predictions, test_label):
    if (p == t).all():
        print i, ':', p_label, " ", t_label
    i += 1

0 : (u'trade',)   (u'trade',)
1 : (u'grain',)   (u'grain',)
4 : (u'palm-oil', u'veg-oil')   (u'palm-oil', u'veg-oil')
5 : (u'ship',)   (u'ship',)
7 : (u'grain', u'wheat')   (u'grain', u'wheat')
8 : (u'gold',)   (u'gold',)
9 : (u'acq',)   (u'acq',)
11 : (u'interest', u'money-fx')   (u'interest', u'money-fx')
13 : (u'ipi',)   (u'ipi',)
15 : (u'earn',)   (u'earn',)
16 : (u'earn',)   (u'earn',)
18 : (u'bop', u'trade')   (u'bop', u'trade')
22 : (u'earn',)   (u'earn',)
23 : (u'earn',)   (u'earn',)
24 : (u'earn',)   (u'earn',)
25 : (u'earn',)   (u'earn',)
26 : (u'tin',)   (u'tin',)
27 : (u'trade',)   (u'trade',)
28 : (u'zinc',)   (u'zinc',)
29 : (u'sugar',)   (u'sugar',)
30 : (u'sugar',)   (u'sugar',)
31 : (u'acq',)   (u'acq',)
37 : (u'earn',)   (u'earn',)
38 : (u'trade',)   (u'trade',)
39 : (u'acq',)   (u'acq',)
41 : (u'earn',)   (u'earn',)
42 : (u'trade',)   (u'trade',)
44 : (u'cpi',)   (u'cpi',)
46 : (u'acq',)   (u'acq',)
47 : (u'sugar',)   (u'sugar',)
48 : (u'sugar',)   (u'sugar',)
49 : (

576 : (u'acq',)   (u'acq',)
577 : (u'earn',)   (u'earn',)
578 : (u'acq',)   (u'acq',)
579 : (u'earn',)   (u'earn',)
580 : (u'earn',)   (u'earn',)
581 : (u'earn',)   (u'earn',)
583 : (u'acq',)   (u'acq',)
586 : (u'grain', u'wheat')   (u'grain', u'wheat')
587 : (u'earn',)   (u'earn',)
588 : (u'earn',)   (u'earn',)
589 : (u'acq',)   (u'acq',)
590 : (u'earn',)   (u'earn',)
591 : (u'acq',)   (u'acq',)
592 : (u'earn',)   (u'earn',)
593 : (u'earn',)   (u'earn',)
595 : (u'corn', u'grain')   (u'corn', u'grain')
597 : (u'earn',)   (u'earn',)
598 : (u'earn',)   (u'earn',)
599 : (u'corn', u'grain')   (u'corn', u'grain')
601 : (u'acq',)   (u'acq',)
602 : (u'earn',)   (u'earn',)
603 : (u'grain',)   (u'grain',)
604 : (u'grain', u'wheat')   (u'grain', u'wheat')
606 : (u'acq',)   (u'acq',)
607 : (u'acq',)   (u'acq',)
611 : (u'fuel',)   (u'fuel',)
613 : (u'grain', u'wheat')   (u'grain', u'wheat')
615 : (u'orange',)   (u'orange',)
616 : (u'earn',)   (u'earn',)
617 : (u'copper',)   (u'copper',)
618 : (u'e

1052 : (u'acq',)   (u'acq',)
1053 : (u'acq',)   (u'acq',)
1054 : (u'acq',)   (u'acq',)
1055 : (u'earn',)   (u'earn',)
1056 : (u'earn',)   (u'earn',)
1057 : (u'acq',)   (u'acq',)
1058 : (u'interest',)   (u'interest',)
1059 : (u'acq',)   (u'acq',)
1060 : (u'acq',)   (u'acq',)
1061 : (u'earn',)   (u'earn',)
1062 : (u'acq',)   (u'acq',)
1063 : (u'acq',)   (u'acq',)
1064 : (u'earn',)   (u'earn',)
1065 : (u'acq',)   (u'acq',)
1066 : (u'earn',)   (u'earn',)
1068 : (u'acq',)   (u'acq',)
1069 : (u'earn',)   (u'earn',)
1071 : (u'earn',)   (u'earn',)
1072 : (u'acq',)   (u'acq',)
1073 : (u'earn',)   (u'earn',)
1074 : (u'earn',)   (u'earn',)
1075 : (u'acq',)   (u'acq',)
1076 : (u'earn',)   (u'earn',)
1077 : (u'crude',)   (u'crude',)
1078 : (u'earn',)   (u'earn',)
1079 : (u'earn',)   (u'earn',)
1080 : (u'acq',)   (u'acq',)
1081 : (u'acq',)   (u'acq',)
1082 : (u'earn',)   (u'earn',)
1083 : (u'acq',)   (u'acq',)
1084 : (u'crude',)   (u'crude',)
1086 : (u'dlr', u'money-fx')   (u'dlr', u'money-fx')
1087

1489 : (u'acq',)   (u'acq',)
1492 : (u'acq',)   (u'acq',)
1493 : (u'acq',)   (u'acq',)
1494 : (u'acq',)   (u'acq',)
1495 : (u'acq',)   (u'acq',)
1496 : (u'earn',)   (u'earn',)
1497 : (u'money-fx',)   (u'money-fx',)
1498 : (u'interest', u'money-fx')   (u'interest', u'money-fx')
1499 : (u'earn',)   (u'earn',)
1500 : (u'trade',)   (u'trade',)
1501 : (u'earn',)   (u'earn',)
1502 : (u'earn',)   (u'earn',)
1503 : (u'crude',)   (u'crude',)
1504 : (u'earn',)   (u'earn',)
1505 : (u'acq',)   (u'acq',)
1506 : (u'acq',)   (u'acq',)
1507 : (u'acq',)   (u'acq',)
1508 : (u'acq',)   (u'acq',)
1509 : (u'crude',)   (u'crude',)
1510 : (u'interest', u'money-fx')   (u'interest', u'money-fx')
1512 : (u'gnp',)   (u'gnp',)
1513 : (u'earn',)   (u'earn',)
1515 : (u'acq',)   (u'acq',)
1516 : (u'trade',)   (u'trade',)
1517 : (u'interest',)   (u'interest',)
1518 : (u'crude',)   (u'crude',)
1519 : (u'reserves',)   (u'reserves',)
1521 : (u'earn',)   (u'earn',)
1523 : (u'acq',)   (u'acq',)
1525 : (u'acq',)   (u'acq',

1986 : (u'acq',)   (u'acq',)
1987 : (u'money-supply',)   (u'money-supply',)
1989 : (u'acq',)   (u'acq',)
1990 : (u'acq',)   (u'acq',)
1991 : (u'earn',)   (u'earn',)
1992 : (u'earn',)   (u'earn',)
1993 : (u'acq',)   (u'acq',)
1994 : (u'earn',)   (u'earn',)
1995 : (u'acq',)   (u'acq',)
1996 : (u'lead', u'zinc')   (u'lead', u'zinc')
1999 : (u'acq',)   (u'acq',)
2000 : (u'earn',)   (u'earn',)
2001 : (u'acq',)   (u'acq',)
2003 : (u'acq',)   (u'acq',)
2004 : (u'acq',)   (u'acq',)
2005 : (u'earn',)   (u'earn',)
2006 : (u'acq',)   (u'acq',)
2007 : (u'acq',)   (u'acq',)
2008 : (u'coffee',)   (u'coffee',)
2009 : (u'earn',)   (u'earn',)
2010 : (u'acq',)   (u'acq',)
2011 : (u'acq',)   (u'acq',)
2012 : (u'nat-gas',)   (u'nat-gas',)
2013 : (u'acq',)   (u'acq',)
2014 : (u'earn',)   (u'earn',)
2015 : (u'acq',)   (u'acq',)
2016 : (u'nat-gas',)   (u'nat-gas',)
2017 : (u'acq',)   (u'acq',)
2018 : (u'earn',)   (u'earn',)
2019 : (u'earn',)   (u'earn',)
2021 : (u'gnp',)   (u'gnp',)
2022 : (u'coffee',)   (u'

2439 : (u'crude',)   (u'crude',)
2442 : (u'earn',)   (u'earn',)
2443 : (u'crude', u'ship')   (u'crude', u'ship')
2444 : (u'coffee',)   (u'coffee',)
2445 : (u'acq',)   (u'acq',)
2446 : (u'earn',)   (u'earn',)
2448 : (u'earn',)   (u'earn',)
2449 : (u'earn',)   (u'earn',)
2450 : (u'earn',)   (u'earn',)
2451 : (u'crude',)   (u'crude',)
2452 : (u'earn',)   (u'earn',)
2453 : (u'earn',)   (u'earn',)
2454 : (u'earn',)   (u'earn',)
2455 : (u'acq',)   (u'acq',)
2456 : (u'earn',)   (u'earn',)
2457 : (u'acq',)   (u'acq',)
2458 : (u'earn',)   (u'earn',)
2459 : (u'earn',)   (u'earn',)
2460 : (u'earn',)   (u'earn',)
2462 : (u'earn',)   (u'earn',)
2463 : (u'earn',)   (u'earn',)
2464 : (u'earn',)   (u'earn',)
2465 : (u'interest', u'money-fx')   (u'interest', u'money-fx')
2466 : (u'earn',)   (u'earn',)
2467 : (u'earn',)   (u'earn',)
2469 : (u'earn',)   (u'earn',)
2470 : (u'earn',)   (u'earn',)
2471 : (u'earn',)   (u'earn',)
2472 : (u'earn',)   (u'earn',)
2473 : (u'acq',)   (u'acq',)
2474 : (u'earn',)   

2998 : (u'acq',)   (u'acq',)
2999 : (u'money-fx',)   (u'money-fx',)
3002 : (u'acq',)   (u'acq',)
3003 : (u'earn',)   (u'earn',)
3004 : (u'earn',)   (u'earn',)
3005 : (u'acq',)   (u'acq',)
3007 : (u'rubber',)   (u'rubber',)
3009 : (u'trade',)   (u'trade',)
3011 : (u'coffee',)   (u'coffee',)
3012 : (u'crude',)   (u'crude',)
3013 : (u'grain', u'rice')   (u'grain', u'rice')
3014 : (u'acq',)   (u'acq',)
3016 : (u'ship',)   (u'ship',)
3018 : (u'gold',)   (u'gold',)
