## Import libraries

In [51]:
import functions as fun


%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


## Parse input

In [52]:
tweets = fun.parse_input_as_dictonary()
tweets[:5]

[{'tweet_id': '1395',
  'category': 'CAT',
  'text': 'Gallina de piel. Emocionada. #SomLaHistoria #27S #catalunya #democracia'},
 {'tweet_id': '2931',
  'category': 'CAT',
  'text': 'Bon dia, aquest #Diumenge és molt millor que qualsevol #Divendres. Somrient. #27S'},
 {'tweet_id': '6246',
  'category': 'SPA',
  'text': '#27s al otro lado de las urnas... https://t.co/lHU7QkdWF2'},
 {'tweet_id': '2323',
  'category': 'CAT',
  'text': "9:03 cua fins la cantonada per votar a Dominiques de l' ensenyament, carrer Mallorca. La força d'un poble! #27S #27S2015"},
 {'tweet_id': '2091',
  'category': 'CAT',
  'text': 'Acabo de rebre les paperetes per anar al Cons Esp a votar abans de les 14h del 25S. Gràcies ESP. Visca la vostra democràcia. #VotaPerMi #27S'}]

## Pre-processing of a tweet

In [53]:
a_tweet = "A #Oliana: 84,39% participació. Resultats @JuntsPelSi 811 Cup 76 Ciutadans 61 Catalunya si q es pot 28 Psc 66 Pp 60 Unio 43 #GuanyemJunts"
a_tweet

'A #Oliana: 84,39% participació. Resultats @JuntsPelSi 811 Cup 76 Ciutadans 61 Catalunya si q es pot 28 Psc 66 Pp 60 Unio 43 #GuanyemJunts'

In [54]:
clean_tweet = fun.remove_characters_from_tweet(a_tweet)
clean_tweet

'A Oliana: 84,39% participació. Resultats @JuntsPelSi 811 Cup 76 Ciutadans 61 Catalunya si q es pot 28 Psc 66 Pp 60 Unio 43 GuanyemJunts'

In [55]:
tokens = fun.tokenize(clean_tweet)
tokens

['a',
 'oliana',
 ':',
 '84,39',
 '%',
 'participació',
 '.',
 'resultats',
 '811',
 'cup',
 '76',
 'ciutadans',
 '61',
 'catalunya',
 'si',
 'q',
 'es',
 'pot',
 '28',
 'psc',
 '66',
 'pp',
 '60',
 'unio',
 '43',
 'guanyemjunts']

In [56]:
words = fun.filter_tokens(tokens)
words

['oliana',
 '84,39',
 'participació',
 'resultats',
 '811',
 'cup',
 '76',
 'ciutadans',
 '61',
 'catalunya',
 'si',
 'q',
 'pot',
 '28',
 'psc',
 '66',
 'pp',
 '60',
 'unio',
 '43',
 'guanyemjunts']

In [57]:
stems = fun.stem(words)
stems

['oliana',
 '84,39',
 'participació',
 'resultat',
 '811',
 'cup',
 '76',
 'ciutadan',
 '61',
 'catalunya',
 'si',
 'q',
 'pot',
 '28',
 'psc',
 '66',
 'pp',
 '60',
 'unio',
 '43',
 'guanyemjunt']

In [58]:
bag_of_words = fun.bag_of_words(stems)
bag_of_words

{'oliana': True,
 '84,39': True,
 'participació': True,
 'resultat': True,
 '811': True,
 'cup': True,
 '76': True,
 'ciutadan': True,
 '61': True,
 'catalunya': True,
 'si': True,
 'q': True,
 'pot': True,
 '28': True,
 'psc': True,
 '66': True,
 'pp': True,
 '60': True,
 'unio': True,
 '43': True,
 'guanyemjunt': True}

## Pre-processing dataset

In [59]:
pipeline = [
    fun.remove_characters_from_tweet,
    fun.tokenize,
    fun.filter_tokens,
    fun.stem,
    fun.bag_of_words
]

data = fun.labeled_featureset(tweets, pipeline)
data[:2]

[({'gallina': True,
   'piel': True,
   'emocionada': True,
   'somlahistoria': True,
   '27': True,
   'catalunya': True,
   'democracia': True},
  'CAT'),
 ({'bon': True,
   'dia': True,
   'aquest': True,
   'diumeng': True,
   'és': True,
   'molt': True,
   'millor': True,
   'qualsevol': True,
   'divendr': True,
   'somrient': True,
   '27': True},
  'CAT')]

## Predicting with a NaiveBayesClassifier

In [60]:
TEST_SIZE = 0.2

result = fun.classify_with_naive_bayes(data, TEST_SIZE)
result['accuracy']

0.9810089020771513

## Analysis of the results

In [61]:
classifier = result['classifier']
classifier.show_most_informative_features(10)

Most Informative Features
                  escaño = True              SPA : CAT    =    170.2 : 1.0
               escrutado = True              SPA : CAT    =    135.9 : 1.0
               resultado = True              SPA : CAT    =    121.7 : 1.0
                     amb = True              CAT : SPA    =     97.9 : 1.0
                      hi = True              CAT : SPA    =     93.3 : 1.0
                   ahora = True              SPA : CAT    =     81.9 : 1.0
                      mé = True              CAT : SPA    =     78.9 : 1.0
                  aquest = True              CAT : SPA    =     74.2 : 1.0
           participación = True              SPA : CAT    =     71.0 : 1.0
                  españa = True              SPA : CAT    =     69.8 : 1.0
