In [12]:
import utils.functions as fun

%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


## Parse input

In [13]:
tweets = fun.parse_input_as_dictonary('DatasetMaFe')
tweets[:5]

[{'tweet_id': '164',
  'category': 'MALE',
  'text': "Ara és l'hora! A votar! #27s"},
 {'tweet_id': '3296',
  'category': 'MALE',
  'text': '#27STV3 Em sembla que Catalunya ha fet un CUP a la taula i ha dit prou...'},
 {'tweet_id': '39',
  'category': 'MALE',
  'text': 'Ara volen contar vots?? Que comencin pel vot exterior #27S #SomLaHistoria'},
 {'tweet_id': '6753',
  'category': 'MALE',
  'text': "#cataluña (1) Mas no ha encontrado esa 'mayoría abrumadora' qe buscaba. Dependerà de los anticapitalistas de la CUP... qué paradoja!"},
 {'tweet_id': '5135',
  'category': 'MALE',
  'text': 'DE PEN DE PEN DEN CÍA!!!!!!! Gritos de Junts pel Sí hacia los de la CUP. #eleccionescatalanas'}]

## Pre-processing of a tweet

In [14]:
a_tweet = "A #Oliana: 84,39% participació. Resultats @JuntsPelSi 811 Cup 76 Ciutadans 61 Catalunya si q es pot 28 Psc 66 Pp 60 Unio 43 #GuanyemJunts"
a_tweet

'A #Oliana: 84,39% participació. Resultats @JuntsPelSi 811 Cup 76 Ciutadans 61 Catalunya si q es pot 28 Psc 66 Pp 60 Unio 43 #GuanyemJunts'

In [15]:
clean_tweet = fun.remove_characters_from_tweet(a_tweet)
clean_tweet

'A Oliana: 84,39% participació. Resultats @JuntsPelSi 811 Cup 76 Ciutadans 61 Catalunya si q es pot 28 Psc 66 Pp 60 Unio 43 GuanyemJunts'

In [16]:
tokens = fun.tokenize(clean_tweet)
tokens

['a',
 'oliana',
 ':',
 '84,39',
 '%',
 'participació',
 '.',
 'resultats',
 '811',
 'cup',
 '76',
 'ciutadans',
 '61',
 'catalunya',
 'si',
 'q',
 'es',
 'pot',
 '28',
 'psc',
 '66',
 'pp',
 '60',
 'unio',
 '43',
 'guanyemjunts']

In [17]:
words = fun.filter_tokens(tokens)
words

['oliana',
 '84,39',
 'participació',
 'resultats',
 '811',
 'cup',
 '76',
 'ciutadans',
 '61',
 'catalunya',
 'si',
 'q',
 'pot',
 '28',
 'psc',
 '66',
 'pp',
 '60',
 'unio',
 '43',
 'guanyemjunts']

In [18]:
stems = fun.stem(words)
stems

['oliana',
 '84,39',
 'participació',
 'resultat',
 '811',
 'cup',
 '76',
 'ciutadan',
 '61',
 'catalunya',
 'si',
 'q',
 'pot',
 '28',
 'psc',
 '66',
 'pp',
 '60',
 'unio',
 '43',
 'guanyemjunt']

In [19]:
bag_of_words = fun.bag_of_words(stems)
bag_of_words

{'oliana': True,
 '84,39': True,
 'participació': True,
 'resultat': True,
 '811': True,
 'cup': True,
 '76': True,
 'ciutadan': True,
 '61': True,
 'catalunya': True,
 'si': True,
 'q': True,
 'pot': True,
 '28': True,
 'psc': True,
 '66': True,
 'pp': True,
 '60': True,
 'unio': True,
 '43': True,
 'guanyemjunt': True}

## Pre-processing dataset

In [20]:
pipeline = [
    fun.remove_characters_from_tweet,
    fun.tokenize,
    fun.filter_tokens,
    fun.stem,
    fun.bag_of_words
]

data = fun.labeled_featureset(tweets, pipeline)
data[:2]

[({'ara': True, 'és': True, "l'hora": True, 'votar': True, '27': True},
  'MALE'),
 ({'27stv3': True,
   'em': True,
   'sembla': True,
   'catalunya': True,
   'fet': True,
   'cup': True,
   'taula': True,
   'i': True,
   'dit': True,
   'prou': True,
   '...': True},
  'MALE')]

## Predicting with a NaiveBayesClassifier

In [21]:
TEST_SIZE = 0.2

result = fun.classify_with_naive_bayes(data, TEST_SIZE)
result['accuracy']

0.6627497062279671

## Analysis of the results

In [22]:
classifier = result['classifier']
classifier.show_most_informative_features(10)

Most Informative Features
                      jp = True             MALE : FEMALE =     23.6 : 1.0
                   mòbil = True           FEMALE : MALE   =     21.7 : 1.0
             jojahevotat = True           FEMALE : MALE   =     15.0 : 1.0
                 seguint = True           FEMALE : MALE   =     11.0 : 1.0
                       0 = True             MALE : FEMALE =     10.2 : 1.0
                 atenció = True             MALE : FEMALE =      9.0 : 1.0
                      48 = True             MALE : FEMALE =      8.6 : 1.0
                 emocion = True           FEMALE : MALE   =      8.3 : 1.0
          independentist = True             MALE : FEMALE =      8.3 : 1.0
               aplicació = True           FEMALE : MALE   =      7.9 : 1.0
