In [11]:
import utils.functions as fun
from utils import dataset

%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


## Parse input

In [12]:
tweets = dataset.read_tweets('DatasetFavCon')
tweets[:5]

[{'tweet_id': '5247',
  'category': 'AGAINST',
  'text': 'Victoria del sí, o victoria del NO?? Menos del 50% a favor en #eleccionescatalanas #27S'},
 {'tweet_id': '4103',
  'category': 'NEUTRAL',
  'text': 'El PP ja no té vot ocult a Catalunya. Sembla ser que Ciutadans ha capitalitzat el vot del no #27s Veurem què passa...'},
 {'tweet_id': '5468',
  'category': 'AGAINST',
  'text': '#27S Que la participación haya subido es buen dato. Que lo haga para desmantelar una mentira como la independentista sería lo ideal.'},
 {'tweet_id': '1797',
  'category': 'FAVOR',
  'text': '#Catalunya opta per #independència a les urnes. http://t.co/k4ysUuXRiq @laclaunoticies #JuntsPelSí #27S #HemGuanyat http://t.co/I4PVgbuKPa'},
 {'tweet_id': '4886',
  'category': 'AGAINST',
  'text': 'Los que plantean las elecciones del #27S como plebiscitarias son los que dicen que ganan con resultados parlamentarios. O lo uno o lo otro'}]

## Pre-processing dataset

In [13]:
pipeline = [
    fun.remove_characters_from_tweet,
    fun.tokenize,
    fun.filter_tokens,
    fun.stem,
    fun.bag_of_words
]

data = fun.labeled_featureset(tweets, pipeline)
data[:2]

[({'victoria': True,
   'meno': True,
   '50': True,
   'favor': True,
   'eleccionescatalana': True,
   '27': True},
  'AGAINST'),
 ({'pp': True,
   'ja': True,
   'té': True,
   'vot': True,
   'ocult': True,
   'catalunya': True,
   'sembla': True,
   'ser': True,
   'ciutadan': True,
   'capitalitzat': True,
   '27': True,
   'veurem': True,
   'què': True,
   'passa': True,
   '...': True},
  'NEUTRAL')]

## Predicting with a NaiveBayesClassifier

In [14]:
TEST_SIZE = 0.2

result = fun.classify_with_naive_bayes(data, TEST_SIZE)
result['accuracy']

0.6856465005931198

## Analysis of the results

In [15]:
classifier = result['classifier']
classifier.show_most_informative_features(10)

Most Informative Features
             somriurecup = True            FAVOR : NEUTRA =    114.9 : 1.0
             guanyemjunt = True            FAVOR : NEUTRA =     89.1 : 1.0
             apoderadosc = True           AGAINS : FAVOR  =     87.3 : 1.0
           participación = True           NEUTRA : FAVOR  =     78.5 : 1.0
                      il = True            FAVOR : NEUTRA =     71.8 : 1.0
               votapermi = True            FAVOR : NEUTRA =     64.4 : 1.0
                   lliur = True            FAVOR : NEUTRA =     54.4 : 1.0
               guanyarem = True            FAVOR : NEUTRA =     54.4 : 1.0
                   visca = True            FAVOR : NEUTRA =     46.2 : 1.0
             enhorabuena = True           AGAINS : FAVOR  =     40.9 : 1.0
