In [1]:
import csv
import pandas as pd
import re
import nltk as nl

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics
from sklearn.model_selection import cross_val_predict

### 1. O dataset

In [2]:
df = pd.read_csv("db.csv", encoding='utf-8', delimiter = '\t')

In [3]:
def remove_stopwords(text):
    stopwords = set(nl.corpus.stopwords.words('portuguese'))
    words = [i for i in text.split() if not i in stopwords]
    return (" ".join(words))

def remove_links(text):
    return re.sub(r"http\S+", "", text)

def remove_mentions(text):
    return re.sub(r"@\w+", "", text)

def remove_retweets(text):
    return re.sub(r"rt\s", "", text)

def remove_special_chars(text):
    text = re.sub(r'[^\w\s]', ' ', text)
    text = re.sub(r"$\d+\W+|\b\d+\b|\W+\d+$", "", text)
    text_with_no_special_chars = re.sub("\s+", " ", text)
    return text_with_no_special_chars

def stemming(text):
    stemmer = nl.stem.RSLPStemmer()
    words = []
    for word in text.split():
        words.append(stemmer.stem(word))
    return (" ".join(words))

def standardize_text(text):
    text = text.lower()
    text = remove_links(text)
    text = remove_mentions(text)
    text = remove_retweets(text)
    text = remove_stopwords(text)
    text = remove_special_chars(text)
    #text = stemming(text)
    return text
def sentiment_to_name(n):
    if n == 0:
        n = 'Negativo'
    elif n == 1:
        n = 'Positivo'
    return n

In [4]:
df.text = df.text.apply(standardize_text)
df.sentiment = df.sentiment.apply(sentiment_to_name)
df.head()

Unnamed: 0,id,text,sentiment
0,1,fica assim miga lt tudo arranja deus quiser,Positivo
1,2,parti todo descer avenida gaia skate,Positivo
2,3,amanhã é dia dar trato palestra thedevconf aju...,Positivo
3,4,posso sentar vocês,Positivo
4,5,ok sim aham tá boa vai lá,Positivo


### 2. O modelo

#### 2.1 Construindo o modelo

In [22]:
tweets = df['text'].values
classes = df['sentiment'].values

In [6]:
vectorizer = CountVectorizer(ngram_range = (1, 2))
freq_tweets = vectorizer.fit_transform(tweets)

modelo = MultinomialNB()
modelo.fit(freq_tweets, classes)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

#### 2.2 Testando o modelo

In [7]:
testes = ["Lula é top",
          "Estou muito feliz com o governo de São Paulo esse ano",
          "Odeio a politica brasileira",
          "Pisa esse final de período",
          "Amizade com Ítalo",
          "O prefeito de São Paulo está fazendo um ótimo trabalho"]

freq_testes = vectorizer.transform(testes)
modelo.predict(freq_testes)

array(['Positivo', 'Positivo', 'Negativo', 'Positivo', 'Positivo',
       'Positivo'], dtype='<U8')

In [8]:
resultados = cross_val_predict(modelo, freq_tweets, classes, cv = 10)
resultados

array(['Negativo', 'Positivo', 'Positivo', ..., 'Negativo', 'Negativo',
       'Negativo'], dtype='<U8')

In [9]:
metrics.accuracy_score(classes, resultados)


0.7456107133021206

In [10]:
sentimentos = ["Positivo", "Negativo"]
print(metrics.classification_report(classes, resultados, sentimentos))

             precision    recall  f1-score   support

   Positivo       0.78      0.70      0.74     29924
   Negativo       0.71      0.79      0.75     28172

avg / total       0.75      0.75      0.75     58096



#### 2.3 Comparando o modelo


In [11]:
freq = vectorizer.transform(df.text)
predict_tweets = modelo.predict(freq)


In [12]:
df['predicted'] = predict_tweets
df.head()

Unnamed: 0,id,text,sentiment,predicted
0,1,fica assim miga lt tudo arranja deus quiser,Positivo,Positivo
1,2,parti todo descer avenida gaia skate,Positivo,Positivo
2,3,amanhã é dia dar trato palestra thedevconf aju...,Positivo,Positivo
3,4,posso sentar vocês,Positivo,Positivo
4,5,ok sim aham tá boa vai lá,Positivo,Positivo


In [13]:
not_match = df[df["sentiment"] != df["predicted"]]
not_match.shape

(3681, 4)

In [14]:
match = df[df["sentiment"] == df["predicted"]]
match.shape

(54415, 4)

### 3. Aplicando o modelo

In [15]:
lula = pd.read_csv("lulala.csv", encoding='utf-8', delimiter = '\t')
lula.head()

Unnamed: 0,DATE,TWEET
0,2018-07-30 12:37:56,RT @ptbrasiI: A ex-presidenta do Chile mbachel...
1,2018-07-30 12:37:44,RT @Vivihtuitando: Os reféns da mídia golpista...
2,2018-07-30 12:37:35,"RT @abdalafarah: Lula é tão absurdo que, mesmo..."
3,2018-07-30 12:37:03,RT @humbertocostapt: Transmissão do festival p...
4,2018-07-30 12:36:55,RT @jgprates: Eu acho legal quando dizem que m...


In [16]:
lula.TWEET = lula.TWEET.apply(standardize_text)
lula.head()

Unnamed: 0,DATE,TWEET
0,2018-07-30 12:37:56,ex presidenta chile mbachelet defendeu sus re...
1,2018-07-30 12:37:44,reféns mídia golpista têm ideia importância f...
2,2018-07-30 12:37:35,lula é tão absurdo que sequestrado cem dias c...
3,2018-07-30 12:37:03,transmissão festival tvt bateu recordes ato r...
4,2018-07-30 12:36:55,acho legal dizem militante esquerda ganha def...


In [18]:
freq_lula = vectorizer.transform(lula.TWEET)
predict_tweets_lula = modelo.predict(freq_lula)

lula['predicted'] = predict_tweets_lula
lula.head()

Unnamed: 0,DATE,TWEET,predicted
0,2018-07-30 12:37:56,ex presidenta chile mbachelet defendeu sus re...,Negativo
1,2018-07-30 12:37:44,reféns mídia golpista têm ideia importância f...,Positivo
2,2018-07-30 12:37:35,lula é tão absurdo que sequestrado cem dias c...,Negativo
3,2018-07-30 12:37:03,transmissão festival tvt bateu recordes ato r...,Positivo
4,2018-07-30 12:36:55,acho legal dizem militante esquerda ganha def...,Positivo
