In [1]:
import utils.functions as fun

%load_ext autoreload
%autoreload 2

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


## Parse input

In [2]:
tweets = fun.parse_input_as_dictonary('DatasetCatSpa')
tweets[:5]

[{'tweet_id': '1395',
  'category': 'CAT',
  'text': 'Gallina de piel. Emocionada. #SomLaHistoria #27S #catalunya #democracia'},
 {'tweet_id': '2931',
  'category': 'CAT',
  'text': 'Bon dia, aquest #Diumenge és molt millor que qualsevol #Divendres. Somrient. #27S'},
 {'tweet_id': '6246',
  'category': 'SPA',
  'text': '#27s al otro lado de las urnas... https://t.co/lHU7QkdWF2'},
 {'tweet_id': '2323',
  'category': 'CAT',
  'text': "9:03 cua fins la cantonada per votar a Dominiques de l' ensenyament, carrer Mallorca. La força d'un poble! #27S #27S2015"},
 {'tweet_id': '2091',
  'category': 'CAT',
  'text': 'Acabo de rebre les paperetes per anar al Cons Esp a votar abans de les 14h del 25S. Gràcies ESP. Visca la vostra democràcia. #VotaPerMi #27S'}]

## Pre-processing of a tweet

In [3]:
a_tweet = "A #Oliana: 84,39% participació. Resultats @JuntsPelSi 811 Cup 76 Ciutadans 61 Catalunya si q es pot 28 Psc 66 Pp 60 Unio 43 #GuanyemJunts"
a_tweet

'A #Oliana: 84,39% participació. Resultats @JuntsPelSi 811 Cup 76 Ciutadans 61 Catalunya si q es pot 28 Psc 66 Pp 60 Unio 43 #GuanyemJunts'

In [4]:
clean_tweet = fun.remove_characters_from_tweet(a_tweet)
clean_tweet

'A Oliana: 84,39% participació. Resultats @JuntsPelSi 811 Cup 76 Ciutadans 61 Catalunya si q es pot 28 Psc 66 Pp 60 Unio 43 GuanyemJunts'

In [5]:
tokens = fun.tokenize(clean_tweet)
tokens

['a',
 'oliana',
 ':',
 '84,39',
 '%',
 'participació',
 '.',
 'resultats',
 '811',
 'cup',
 '76',
 'ciutadans',
 '61',
 'catalunya',
 'si',
 'q',
 'es',
 'pot',
 '28',
 'psc',
 '66',
 'pp',
 '60',
 'unio',
 '43',
 'guanyemjunts']

In [6]:
words = fun.filter_tokens(tokens)
words

['oliana',
 '84,39',
 'participació',
 'resultats',
 '811',
 'cup',
 '76',
 'ciutadans',
 '61',
 'catalunya',
 'si',
 'q',
 'pot',
 '28',
 'psc',
 '66',
 'pp',
 '60',
 'unio',
 '43',
 'guanyemjunts']

In [7]:
stems = fun.stem(words)
stems

['oliana',
 '84,39',
 'participació',
 'resultat',
 '811',
 'cup',
 '76',
 'ciutadan',
 '61',
 'catalunya',
 'si',
 'q',
 'pot',
 '28',
 'psc',
 '66',
 'pp',
 '60',
 'unio',
 '43',
 'guanyemjunt']

In [8]:
bag_of_words = fun.bag_of_words(stems)
bag_of_words

{'oliana': True,
 '84,39': True,
 'participació': True,
 'resultat': True,
 '811': True,
 'cup': True,
 '76': True,
 'ciutadan': True,
 '61': True,
 'catalunya': True,
 'si': True,
 'q': True,
 'pot': True,
 '28': True,
 'psc': True,
 '66': True,
 'pp': True,
 '60': True,
 'unio': True,
 '43': True,
 'guanyemjunt': True}

## Pre-processing dataset

In [9]:
pipeline = [
    fun.remove_characters_from_tweet,
    fun.tokenize,
    fun.filter_tokens,
    fun.stem,
    fun.bag_of_words
]

data = fun.labeled_featureset(tweets, pipeline)
data[:2]

[({'gallina': True,
   'piel': True,
   'emocionada': True,
   'somlahistoria': True,
   '27': True,
   'catalunya': True,
   'democracia': True},
  'CAT'),
 ({'bon': True,
   'dia': True,
   'aquest': True,
   'diumeng': True,
   'és': True,
   'molt': True,
   'millor': True,
   'qualsevol': True,
   'divendr': True,
   'somrient': True,
   '27': True},
  'CAT')]

## Predicting with a NaiveBayesClassifier

In [10]:
TEST_SIZE = 0.2

result = fun.classify_with_naive_bayes(data, TEST_SIZE)
result['accuracy']

0.9804154302670623

## Analysis of the results

In [11]:
classifier = result['classifier']
classifier.show_most_informative_features(10)

Most Informative Features
               escrutado = True              SPA : CAT    =    130.8 : 1.0
               resultado = True              SPA : CAT    =    116.2 : 1.0
                  escaño = True              SPA : CAT    =     98.9 : 1.0
                      hi = True              CAT : SPA    =     94.4 : 1.0
                   ahora = True              SPA : CAT    =     82.2 : 1.0
                      és = True              CAT : SPA    =     81.8 : 1.0
                    avui = True              CAT : SPA    =     80.7 : 1.0
                     amb = True              CAT : SPA    =     79.6 : 1.0
                      mé = True              CAT : SPA    =     76.7 : 1.0
                  aquest = True              CAT : SPA    =     75.1 : 1.0
