In [6]:
from utils import dataset
from utils import nlp
from utils import classifiers
%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


## Parse input

In [7]:
tweets = dataset.read_tweets('DatasetFavCon')
tweets[:5]

[{'tweet_id': '5956',
  'category': 'NEUTRAL',
  'text': 'PUBLICIDAD SUBLIMINAL http://t.co/Tj1FJI0R1l http://t.co/LbjFbyqI1i vía @gaceta_es #27S #Catalunya'},
 {'tweet_id': '5436',
  'category': 'AGAINST',
  'text': '@CiudadanosCs de #Cataluña, gracias por "resistir" y trabajar 365 días con mano tendida para construir, no para romper nada. #ApoderadosCs'},
 {'tweet_id': '6083',
  'category': 'NEUTRAL',
  'text': 'Hay vida más allá del #27S #firamedievalspm # santaperpetua #mascosta http://t.co/50lS2VRVTG'},
 {'tweet_id': '4405',
  'category': 'NEUTRAL',
  'text': 'viendo en VIVO en #Periscope: Sede Ciudadanos:hablamos con los militantes #27S https://t.co/xjXDtX11bH'},
 {'tweet_id': '7920', 'category': 'NEUTRAL', 'text': 'Paciencia #27S'}]

## Pre-processing dataset

In [8]:
data = nlp.run_pipeline(tweets, [
    nlp.remove_old_style_retweet_text,
    nlp.remove_hyperlinks,
    nlp.remove_hashtags,
    nlp.tokenize,
    nlp.reject_stopwords,
    nlp.reject_emoticons,
    nlp.reject_punctuations,
    nlp.stem,
    nlp.bag_of_words
])
data[:2]

[({'publicidad': True, 'sublimin': True}, 'NEUTRAL'),
 ({'cataluña': True,
   'gracia': True,
   'resistir': True,
   'trabajar': True,
   '365': True,
   'día': True,
   'mano': True,
   'tendida': True,
   'construir': True,
   'romper': True,
   'apoderadosc': True},
  'AGAINST')]

## Predicting with a NaiveBayesClassifier

In [9]:
TEST_SIZE = 0.2

result = classifiers.classify_with_naive_bayes(data, TEST_SIZE)
result['accuracy']

0.6878612716763006

## Analysis of the results

In [10]:
classifier = result['classifier']
classifier.show_most_informative_features(10)

Most Informative Features
                    avui = True            FAVOR : NEUTRA =     36.8 : 1.0
           independència = True            FAVOR : NEUTRA =     16.7 : 1.0
                història = True            FAVOR : NEUTRA =     12.0 : 1.0
                  escaño = True           AGAINS : FAVOR  =     11.8 : 1.0
              juntspelsi = True            FAVOR : NEUTRA =     11.8 : 1.0
                      10 = True           NEUTRA : FAVOR  =     10.9 : 1.0
                      ja = True            FAVOR : AGAINS =     10.6 : 1.0
                     dia = True            FAVOR : AGAINS =     10.2 : 1.0
              juntspelsí = True            FAVOR : NEUTRA =     10.0 : 1.0
                      pp = True           NEUTRA : FAVOR  =      9.9 : 1.0
