In [1]:
import string
import pandas as pd
import numpy as np
from nltk import word_tokenize
from collections import Counter
import operator
from sklearn.preprocessing import MultiLabelBinarizer
from sklearn.model_selection import train_test_split

### Read Data

In [2]:
df = pd.read_csv('db.csv', sep='\t')

Unnamed: 0,id,text,sentiment
0,1,@caprichOreality Fica assim não miga &lt;3 Tud...,1
1,2,Parti me todo a descer a avenida de Gaia com o...,1
2,3,Amanhã é dia de dar um trato na palestra para ...,1
3,4,@thankovsky @patorebaichado eu também tenho :)...,1
4,5,ok. Sim. Aham. Tá. De boa. Vai lá. :) https://...,1
5,6,@Mancel_Mazi Bila brao go firsetek çêbú serçav...,1
6,7,@JoseAbrantes6 Prefiro amar o meu clube nas vi...,1
7,8,@Bel_Reedus Recomendamos que vá até uma loja C...,1
8,9,@CrizArtEX @_GlitchMC @SirZeusMCPE @cesargohan...,1
9,10,"@peace2who jbg, sad ce ispasti da sam tracara :)",1


### Getting sample

In [3]:
df_0 = df[df['sentiment'] == 0].sample(n = int(0.05*df.shape[0]))
df_1 = df[df['sentiment'] == 1].sample( n= int(0.05*df.shape[0]))

In [4]:
df = df_0.append(df_1)

In [5]:
df.shape

(5808, 3)

### Generate Tokens

In [6]:
def remove_punctuation(text):
    exclude = set(string.punctuation)
    return ''.join(ch for ch in text if ch not in exclude)

In [7]:
df['tokens'] = df.apply(lambda row: Counter(word_tokenize(remove_punctuation(row['text'].lower()))), axis=1)

### Inverted Index

In [8]:
indice_invertido = {}


for token_list, _id in zip(df.tokens, df.id):
    for token in token_list.keys():
        if token not in indice_invertido.keys():
            indice_invertido[token] = [_id]
        else:
            indice_invertido[token].append(_id)

In [9]:
def idf(termo):
    '''
        Função que retorna o idf. Baseia-se na presença do termo nos documentos do corpus.
        params:
            termo (str): termo alvo a ser calculado o idf.
        return:
            (float): o idf do termo.
    '''
    
    N = df.shape[0] # tamanho do corpus
    return np.log(N/len(indice_invertido[termo.lower().strip()]))

In [10]:
def tf(termo):
    return len(indice_invertido[termo])

### Calculating TF-IDF for each termn in tweets

In [11]:
def get_tfidfs(tokens_list):
    resp = {}
    for token in tokens_list:
        resp[token] = tf(token)*idf(token)
    return resp

In [12]:
def get_topics(tokens_list, n=5):
    tfidfs = get_tfidfs(tokens_list)
    
    sorted_d = sorted(tfidfs.items(), key=operator.itemgetter(1),reverse=True)
    
    return [topic[0] for topic in sorted_d[:n]] 
    

#### Getting topics for each tweet

In [13]:
df['topics'] = df.apply(lambda row: get_topics(row['tokens']), axis=1)

In [14]:
df_processed = df[['id','topics', 'sentiment']]

In [15]:
df_processed = df_processed.drop('topics', 1).join(df.topics.str.join('|').str.get_dummies())

## Classifier

### Split Data

In [21]:
df_temp = df_processed[[i for i in list(df_processed.columns) if i not in ['id', 'sentiment']]]
X = df_temp.as_matrix()

In [22]:
y = df_processed[['sentiment']].as_matrix()

In [23]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.75, random_state=1234)

In [24]:
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()

In [26]:
model = gnb.fit(X_train, y_train)

  y = column_or_1d(y, warn=True)


In [27]:
model

GaussianNB(priors=None)

### Prediction

In [170]:
tweets = ["@caprichOreality Fica assim não miga &lt;3 Tudo se arranja, que seja o que Deus quiser :)", 
          "Parti me todo a descer a avenida de Gaia com o skate :)", 
          "E chegou ao fim!! Um breve resumo do BEDA :) Gostei muito de fazer os posts todos dias este mês. Foi um mês... https://t.co/SsP0zidtU4",
            "Fiquei acordada até agr pro meu pai falar que não tem o dinheiro da minha passagem",
         "A dias q ñ durmo to cansado magoado exausto :("]

In [171]:
tweets_processed = [tweet.split() for tweet in tweets ]

In [172]:
tweets_processed

[['@caprichOreality',
  'Fica',
  'assim',
  'não',
  'miga',
  '&lt;3',
  'Tudo',
  'se',
  'arranja,',
  'que',
  'seja',
  'o',
  'que',
  'Deus',
  'quiser',
  ':)'],
 ['Parti',
  'me',
  'todo',
  'a',
  'descer',
  'a',
  'avenida',
  'de',
  'Gaia',
  'com',
  'o',
  'skate',
  ':)'],
 ['E',
  'chegou',
  'ao',
  'fim!!',
  'Um',
  'breve',
  'resumo',
  'do',
  'BEDA',
  ':)',
  'Gostei',
  'muito',
  'de',
  'fazer',
  'os',
  'posts',
  'todos',
  'dias',
  'este',
  'mês.',
  'Foi',
  'um',
  'mês...',
  'https://t.co/SsP0zidtU4'],
 ['Fiquei',
  'acordada',
  'até',
  'agr',
  'pro',
  'meu',
  'pai',
  'falar',
  'que',
  'não',
  'tem',
  'o',
  'dinheiro',
  'da',
  'minha',
  'passagem'],
 ['A', 'dias', 'q', 'ñ', 'durmo', 'to', 'cansado', 'magoado', 'exausto', ':(']]

In [173]:
tweets_test = []

### Vetoriza tweets capturados pela hashtag

In [174]:
num_columns_to_train = X_train.shape[1]

for tweet_topics in tweets_processed:
    row = np.zeros((df_resp.shape[1],), dtype=int)
    
    #fill the row
    for topic in tweet_topics:
        if topic in (df_processed.columns.values):
            idx = df_processed.columns.get_loc(topic)
            row[idx] = 1
    
    tweets_test.append(row)

In [176]:
resp = model.predict(tweets_test)

In [179]:
[' '.join(tweet) for tweet in tweets_processed]

['@caprichOreality Fica assim não miga &lt;3 Tudo se arranja, que seja o que Deus quiser :)',
 'Parti me todo a descer a avenida de Gaia com o skate :)',
 'E chegou ao fim!! Um breve resumo do BEDA :) Gostei muito de fazer os posts todos dias este mês. Foi um mês... https://t.co/SsP0zidtU4',
 'Fiquei acordada até agr pro meu pai falar que não tem o dinheiro da minha passagem',
 'A dias q ñ durmo to cansado magoado exausto :(']

In [177]:
resp

array([0, 1, 1, 0, 1])