In [1]:
import utils.functions as fun

%load_ext autoreload
%autoreload 2

## Parse input

In [2]:
tweets = fun.parse_input_as_dictonary('DatasetFavCon')
tweets[:5]

[{'tweet_id': '5247',
  'category': 'AGAINST',
  'text': 'Victoria del sí, o victoria del NO?? Menos del 50% a favor en #eleccionescatalanas #27S'},
 {'tweet_id': '4103',
  'category': 'NEUTRAL',
  'text': 'El PP ja no té vot ocult a Catalunya. Sembla ser que Ciutadans ha capitalitzat el vot del no #27s Veurem què passa...'},
 {'tweet_id': '5468',
  'category': 'AGAINST',
  'text': '#27S Que la participación haya subido es buen dato. Que lo haga para desmantelar una mentira como la independentista sería lo ideal.'},
 {'tweet_id': '1797',
  'category': 'FAVOR',
  'text': '#Catalunya opta per #independència a les urnes. http://t.co/k4ysUuXRiq @laclaunoticies #JuntsPelSí #27S #HemGuanyat http://t.co/I4PVgbuKPa'},
 {'tweet_id': '4886',
  'category': 'AGAINST',
  'text': 'Los que plantean las elecciones del #27S como plebiscitarias son los que dicen que ganan con resultados parlamentarios. O lo uno o lo otro'}]

## Pre-processing of a tweet

In [3]:
a_tweet = "A #Oliana: 84,39% participació. Resultats @JuntsPelSi 811 Cup 76 Ciutadans 61 Catalunya si q es pot 28 Psc 66 Pp 60 Unio 43 #GuanyemJunts"
a_tweet

'A #Oliana: 84,39% participació. Resultats @JuntsPelSi 811 Cup 76 Ciutadans 61 Catalunya si q es pot 28 Psc 66 Pp 60 Unio 43 #GuanyemJunts'

In [4]:
clean_tweet = fun.remove_characters_from_tweet(a_tweet)
clean_tweet

'A Oliana: 84,39% participació. Resultats @JuntsPelSi 811 Cup 76 Ciutadans 61 Catalunya si q es pot 28 Psc 66 Pp 60 Unio 43 GuanyemJunts'

In [5]:
tokens = fun.tokenize(clean_tweet)
tokens

['a',
 'oliana',
 ':',
 '84,39',
 '%',
 'participació',
 '.',
 'resultats',
 '811',
 'cup',
 '76',
 'ciutadans',
 '61',
 'catalunya',
 'si',
 'q',
 'es',
 'pot',
 '28',
 'psc',
 '66',
 'pp',
 '60',
 'unio',
 '43',
 'guanyemjunts']

In [6]:
words = fun.filter_tokens(tokens)
words

['oliana',
 '84,39',
 'participació',
 'resultats',
 '811',
 'cup',
 '76',
 'ciutadans',
 '61',
 'catalunya',
 'si',
 'q',
 'pot',
 '28',
 'psc',
 '66',
 'pp',
 '60',
 'unio',
 '43',
 'guanyemjunts']

In [7]:
stems = fun.stem(words)
stems

['oliana',
 '84,39',
 'participació',
 'resultat',
 '811',
 'cup',
 '76',
 'ciutadan',
 '61',
 'catalunya',
 'si',
 'q',
 'pot',
 '28',
 'psc',
 '66',
 'pp',
 '60',
 'unio',
 '43',
 'guanyemjunt']

In [8]:
bag_of_words = fun.bag_of_words(stems)
bag_of_words

{'oliana': True,
 '84,39': True,
 'participació': True,
 'resultat': True,
 '811': True,
 'cup': True,
 '76': True,
 'ciutadan': True,
 '61': True,
 'catalunya': True,
 'si': True,
 'q': True,
 'pot': True,
 '28': True,
 'psc': True,
 '66': True,
 'pp': True,
 '60': True,
 'unio': True,
 '43': True,
 'guanyemjunt': True}

## Pre-processing dataset

In [9]:
pipeline = [
    fun.remove_characters_from_tweet,
    fun.tokenize,
    fun.filter_tokens,
    fun.stem,
    fun.bag_of_words
]

data = fun.labeled_featureset(tweets, pipeline)
data[:2]

[({'victoria': True,
   'meno': True,
   '50': True,
   'favor': True,
   'eleccionescatalana': True,
   '27': True},
  'AGAINST'),
 ({'pp': True,
   'ja': True,
   'té': True,
   'vot': True,
   'ocult': True,
   'catalunya': True,
   'sembla': True,
   'ser': True,
   'ciutadan': True,
   'capitalitzat': True,
   '27': True,
   'veurem': True,
   'què': True,
   'passa': True,
   '...': True},
  'NEUTRAL')]

## Predicting with a NaiveBayesClassifier

In [10]:
TEST_SIZE = 0.2

result = fun.classify_with_naive_bayes(data, TEST_SIZE)
result['accuracy']

0.6957295373665481

## Analysis of the results

In [11]:
classifier = result['classifier']
classifier.show_most_informative_features(10)

Most Informative Features
             guanyemjunt = True            FAVOR : NEUTRA =    128.1 : 1.0
             apoderadosc = True           AGAINS : NEUTRA =    124.5 : 1.0
                   iceta = True           AGAINS : FAVOR  =    101.3 : 1.0
               llibertat = True            FAVOR : NEUTRA =     85.3 : 1.0
                      il = True            FAVOR : NEUTRA =     76.1 : 1.0
           participación = True           NEUTRA : FAVOR  =     75.4 : 1.0
             enhorabuena = True           AGAINS : FAVOR  =     48.5 : 1.0
                   lliur = True            FAVOR : NEUTRA =     46.6 : 1.0
              governemno = True            FAVOR : AGAINS =     35.5 : 1.0
                   futur = True            FAVOR : AGAINS =     34.1 : 1.0
