In [19]:
import utils.functions as fun
from utils import dataset
from utils import nlp


%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


## Parse input

In [20]:
tweets = dataset.read_tweets('DatasetCatSpa')
tweets[:5]

[{'tweet_id': '1395',
  'category': 'CAT',
  'text': 'Gallina de piel. Emocionada. #SomLaHistoria #27S #catalunya #democracia'},
 {'tweet_id': '2931',
  'category': 'CAT',
  'text': 'Bon dia, aquest #Diumenge és molt millor que qualsevol #Divendres. Somrient. #27S'},
 {'tweet_id': '6246',
  'category': 'SPA',
  'text': '#27s al otro lado de las urnas... https://t.co/lHU7QkdWF2'},
 {'tweet_id': '2323',
  'category': 'CAT',
  'text': "9:03 cua fins la cantonada per votar a Dominiques de l' ensenyament, carrer Mallorca. La força d'un poble! #27S #27S2015"},
 {'tweet_id': '2091',
  'category': 'CAT',
  'text': 'Acabo de rebre les paperetes per anar al Cons Esp a votar abans de les 14h del 25S. Gràcies ESP. Visca la vostra democràcia. #VotaPerMi #27S'}]

## Pre-processing dataset

In [21]:
data = nlp.run_pipeline(tweets, [
    nlp.remove_old_style_retweet_text,
    nlp.remove_hyperlinks,
    nlp.remove_hashtags,
    nlp.tokenize,
    nlp.reject_stopwords,
    nlp.reject_emoticons,
    nlp.reject_punctuations,
    nlp.stem,
    nlp.bag_of_words
])
data[:2]

[({'gallina': True,
   'piel': True,
   'emocionada': True,
   'somlahistoria': True,
   '27': True,
   'catalunya': True,
   'democracia': True},
  'CAT'),
 ({'bon': True,
   'dia': True,
   'aquest': True,
   'diumeng': True,
   'és': True,
   'molt': True,
   'millor': True,
   'qualsevol': True,
   'divendr': True,
   'somrient': True,
   '27': True},
  'CAT')]

## Predicting with a NaiveBayesClassifier

In [22]:
TEST_SIZE = 0.2

result = fun.classify_with_naive_bayes(data, TEST_SIZE)
result['accuracy']

0.9816023738872404

## Analysis of the results

In [23]:
classifier = result['classifier']
classifier.show_most_informative_features(10)

Most Informative Features
               escrutado = True              SPA : CAT    =    123.3 : 1.0
               resultado = True              SPA : CAT    =    118.6 : 1.0
                  escaño = True              SPA : CAT    =    104.6 : 1.0
                      hi = True              CAT : SPA    =     94.3 : 1.0
                     amb = True              CAT : SPA    =     82.7 : 1.0
                    avui = True              CAT : SPA    =     78.8 : 1.0
                   ahora = True              SPA : CAT    =     76.9 : 1.0
                      mé = True              CAT : SPA    =     74.8 : 1.0
           participación = True              SPA : CAT    =     73.2 : 1.0
                  españa = True              SPA : CAT    =     66.7 : 1.0
