# Atividade Final - Análise de Sentimentos do Twitter

**Autora: Dandara Sousa**

Esse é a atividade final da atividade de Recuperação da Informação do 2018.1 do curso de Ciência da Computação - UFCG. A intenção é fazer um alisador de sentimentos do Twitter. Inicialmente foi dado um arquivo csv com exemplos de tuítes com suas classificações (positivo/negativo). Esse arquivo deve ser utilizado para montar um modelo que depois será aplicado para tuítes de um assunto específico (neste caso, utilizei a hashtag **#LulaLivre**).
Algumas observações a serem feitas:
1. No csv inicial os arquivos são classificados da seguinte forma: se possui :) no final é um tuíte positivo e se tiver :( é negativo. Por essa razão é aceitável e até previsível que a precisão da predição não seja tão alta.
2. Pela API do twitter é possível apenas recuperar tuítes num espaço de 7 dias. Sendo assim, o volume de dados não é tão alto quanto gostaria que fosse. 

In [1]:
import csv
import pandas as pd
import re
import nltk as nl

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics
from sklearn.model_selection import cross_val_predict

### 1. O dataset

Como dito anteriormente, o dataset inicial é um conjunto de tuítes com uma classificação entre positivo ou negativo. Porém, como os dados ainda vem com links, menções e marcas de retuítes faz-se necessário que haja uma limpeza. As próximas linhas de código envolvem o carregamento do dataset, a limpeza e a renomeação da classificação (de *"0"* ou *"1"* para *"Negativo"* ou *"Positivo"*).

In [2]:
df = pd.read_csv("db.csv", encoding='utf-8', delimiter = '\t')

In [3]:
def remove_stopwords(text):
    stopwords = set(nl.corpus.stopwords.words('portuguese'))
    words = [i for i in text.split() if not i in stopwords]
    return (" ".join(words))

def remove_links(text):
    return re.sub(r"http\S+", "", text)

def remove_mentions(text):
    return re.sub(r"@\w+", "", text)

def remove_retweets(text):
    return re.sub(r"rt\s", "", text)

def remove_special_chars(text):
    text = re.sub(r'[^\w\s]', ' ', text)
    text = re.sub(r"$\d+\W+|\b\d+\b|\W+\d+$", "", text)
    text_with_no_special_chars = re.sub("\s+", " ", text)
    return text_with_no_special_chars

def stemming(text):
    stemmer = nl.stem.RSLPStemmer()
    words = []
    for word in text.split():
        words.append(stemmer.stem(word))
    return (" ".join(words))

def standardize_text(text):
    text = text.lower()
    text = remove_links(text)
    text = remove_mentions(text)
    text = remove_retweets(text)
    text = remove_stopwords(text)
    text = remove_special_chars(text)
    return text
def sentiment_to_name(n):
    if n == 0:
        n = 'Negativo'
    elif n == 1:
        n = 'Positivo'
    return n

In [4]:
df.text = df.text.apply(standardize_text)
df.sentiment = df.sentiment.apply(sentiment_to_name)
df.head()

Unnamed: 0,id,text,sentiment
0,1,fica assim miga lt tudo arranja deus quiser,Positivo
1,2,parti todo descer avenida gaia skate,Positivo
2,3,amanhã é dia dar trato palestra thedevconf aju...,Positivo
3,4,posso sentar vocês,Positivo
4,5,ok sim aham tá boa vai lá,Positivo


### 2. O modelo

#### 2.1 Construindo o modelo

Para a construção do modelo será utilizado o modelo de bigramas para vetorizar a cada duas palavras dado que, de certa forma, uma palavra sozinha faz menos sentido do que duas juntas. Também o Bag of Words que cria um vetor com cada uma das palavras do texto completo da base,depois, calcula a frequência em que essas palavras ocorrem em uma data sentença para treinar o modelo.

In [5]:
tweets = df['text'].values
classes = df['sentiment'].values
vectorizer = CountVectorizer(ngram_range = (1, 2))
freq_tweets = vectorizer.fit_transform(tweets)

modelo = MultinomialNB()
modelo.fit(freq_tweets, classes)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

#### 2.2 Testando o modelo

Agora, vamos testar o modelo com algumas frases que vimos como positivas ou negativas e ver o que é retornado.

In [7]:
testes = ["Lula é top",
          "Me sinto feliz com a universidade",
          "Odeio a politica brasileira",
          "Que comecem a fase de buscar empregos",
          "As eleições esse ano não serão fáceis",
          "O governo federal está cada vez pior"]

freq_testes = vectorizer.transform(testes)
modelo.predict(freq_testes)

array(['Positivo', 'Positivo', 'Negativo', 'Positivo', 'Positivo',
       'Negativo'], dtype='<U8')

Novamente, é válido lembrar que por não ter uma classificação "Neutro" fica mais difícil categorizar um tuíte. *"As eleições esse ano não serão fáceis"* não seria um tuíte positivo ou negativo, melhor se encaixaria em neutro.

#### 2.3 Validação do modelo

Para a validação dos dados, faremos uma validação cruzada. Em seguidas observaremos a acurácia (quanto mais próximo de 1 melhor) e por último, veremos as medidas de validação do modelo com base nos sentimentos. 

In [9]:
resultados = cross_val_predict(modelo, freq_tweets, classes, cv = 10)
metrics.accuracy_score(classes, resultados)

0.7456107133021206

*Obs.:*
1. *precision = true positive / (true positive + false positive)* 
2. *recall    = true positive / (true positive + false negative)* 
3. *f1-score  = 2 x ((precision x recall) / (precision + recall))*


In [10]:
sentimentos = ["Positivo", "Negativo"]
print(metrics.classification_report(classes, resultados, sentimentos))

             precision    recall  f1-score   support

   Positivo       0.78      0.70      0.74     29924
   Negativo       0.71      0.79      0.75     28172

avg / total       0.75      0.75      0.75     58096



#### 2.4 Comparando o modelo


Se números às vezes as métricas são abstratas demais vamos simplificar para números. Quanto dos sentimentos preditos eram os sentimentos previamente classificados e quantos não?

In [11]:
freq = vectorizer.transform(df.text)
predict_tweets = modelo.predict(freq)


In [12]:
df['predicted'] = predict_tweets
df.head()

Unnamed: 0,id,text,sentiment,predicted
0,1,fica assim miga lt tudo arranja deus quiser,Positivo,Positivo
1,2,parti todo descer avenida gaia skate,Positivo,Positivo
2,3,amanhã é dia dar trato palestra thedevconf aju...,Positivo,Positivo
3,4,posso sentar vocês,Positivo,Positivo
4,5,ok sim aham tá boa vai lá,Positivo,Positivo


In [13]:
not_match = df[df["sentiment"] != df["predicted"]]
not_match.shape

(3681, 4)

In [14]:
match = df[df["sentiment"] == df["predicted"]]
match.shape

(54415, 4)

Acima podemos ver que nosso modelos teve **3681** predições erradas mas acertou **54415**. Consideramos, de certa forma, um bom modelo de predição dada as dificuldades.

### 3. Aplicando o modelo

Indo então para o que realmente importa, vamos classificar os tuítes com #LulaLivre como positivo ou negativo utilizando o modelo construído acima. O processo é semelhante ao anterior e ao final é possível acessar o csv com todos os tuítes (originais) + classificação.

In [21]:
lula = pd.read_csv("lulala.csv", encoding='utf-8', delimiter = '\t')
lula.TWEET = lula.TWEET.apply(standardize_text)
lula.head()

Unnamed: 0,DATE,TWEET
0,2018-07-30 12:37:56,ex presidenta chile mbachelet defendeu sus re...
1,2018-07-30 12:37:44,reféns mídia golpista têm ideia importância f...
2,2018-07-30 12:37:35,lula é tão absurdo que sequestrado cem dias c...
3,2018-07-30 12:37:03,transmissão festival tvt bateu recordes ato r...
4,2018-07-30 12:36:55,acho legal dizem militante esquerda ganha def...


In [23]:
freq_lula = vectorizer.transform(lula.TWEET)
predict_tweets_lula = modelo.predict(freq_lula)

lula_to_csv = pd.read_csv("lulala.csv", encoding='utf-8', delimiter = '\t')
lula_to_csv['predicted'] = predict_tweets_lula
lula_to_csv.head()

Unnamed: 0,DATE,TWEET,predicted
0,2018-07-30 12:37:56,RT @ptbrasiI: A ex-presidenta do Chile mbachel...,Negativo
1,2018-07-30 12:37:44,RT @Vivihtuitando: Os reféns da mídia golpista...,Positivo
2,2018-07-30 12:37:35,"RT @abdalafarah: Lula é tão absurdo que, mesmo...",Negativo
3,2018-07-30 12:37:03,RT @humbertocostapt: Transmissão do festival p...,Positivo
4,2018-07-30 12:36:55,RT @jgprates: Eu acho legal quando dizem que m...,Positivo


In [25]:
lula_to_csv.to_csv("tuiteslulalivreclassificados.csv", sep='\t', encoding='utf-8')


[Link para o csv.](https://bit.ly/2LArpt3)