## Lista 7 - Exercício de Mineração de texto

#### Questão 1 

Use o dataset "tweets_trump.csv", que contém todos os tweets do D. Trump e faça o que é pedido abaixo.

a) Utilizando o texto dos tweets identifique 5 tópicos latentes com o LDA, com um preprocessamento básico -- remoção de urls, remoção de pontuação, stemming e conversão para minúsculo. 

b) Avalie os tópicos encontrados. Algum preprocessamento a mais poderia ser útil para a produção de um melhor resultado?


In [43]:
import pandas as pd
import re
import nltk
import spacy
import string
from sklearn.metrics.pairwise import cosine_similarity

In [46]:
# Importar arquivo
dfTweets= pd.read_csv("tweets_trump.csv")
tweets = dfTweets['text']
tweets[0]

'Republicans and Democrats have both created our economic problems.'

In [56]:
# Remover URLS
url_pattern = r'http[s]?://\S+'
tweets = tweets[~tweets.str.match(url_pattern)]
tweets = tweets.apply(lambda x: re.sub(url_pattern, '', x))

# Converter para minúsculo
tweets = tweets.str.lower()

# remover pontuação
PONTUACAO = string.punctuation
def remove_pontuacao(text):
    return text.translate(str.maketrans('', '', PONTUACAO))

tweets = tweets.apply(lambda text: remove_pontuacao(text))

# Remover stop words
from nltk.corpus import stopwords

STOPWORDS = set(stopwords.words('english'))
def remove_stopwords(text):
    return " ".join([word for word in str(text).split() if word not in STOPWORDS])

tweets = tweets.apply(lambda text: remove_stopwords(text))

# Stemming
from nltk.stem.porter import PorterStemmer

stemmer = PorterStemmer()
def stem_words(text):
    return " ".join([stemmer.stem(word) for word in text.split()])

tweets = tweets.apply(lambda text: stem_words(text))

tweets

0                 republican democrat creat econom problem
1        thrill back great citi charlott north carolina...
2        rt cbsherridg read letter surveil court obtain...
3        unsolicit mail ballot scam major threat democr...
4        rt mzhemingway friendli tell event comey appar...
                               ...                        
56566    rt randpaul don’t know joebiden think continu ...
56567    rt elisestefanik presid realdonaldtrump excel ...
56568    rt teamtrump live presidenti debat debates2020...
56569    sign order support worker delphi corpor make s...
56570    suburban women want safeti amp secur joe biden...
Name: text, Length: 55265, dtype: object

In [57]:
from gensim.models.ldamodel import LdaModel
from gensim.corpora.dictionary import Dictionary

# Tópicos
dataset_prep = [d.split() for d in tweets]
dictionary_prep = Dictionary(dataset_prep)
corpus_prep = [dictionary_prep.doc2bow(doc) for doc in dataset_prep]

model_prep = LdaModel(corpus=corpus_prep, id2word=dictionary_prep, num_topics=5, iterations=100, passes=5,random_state=1)

In [58]:
for i in model_prep.show_topics(num_topics=5, num_words=6, log=False):
    print(i)
    print('---')

(0, '0.062*"rt" + 0.036*"realdonaldtrump" + 0.036*"presid" + 0.021*"trump" + 0.011*"impeach" + 0.010*"hillari"')
---
(1, '0.017*"border" + 0.016*"us" + 0.015*"amp" + 0.014*"american" + 0.013*"countri" + 0.011*"state"')
---
(2, '0.044*"thank" + 0.031*"great" + 0.022*"trump" + 0.020*"realdonaldtrump" + 0.016*"rt" + 0.010*"donald"')
---
(3, '0.027*"great" + 0.013*"big" + 0.012*"get" + 0.011*"go" + 0.010*"make" + 0.010*"time"')
---
(4, '0.020*"news" + 0.017*"fake" + 0.014*"media" + 0.012*"report" + 0.011*"amp" + 0.009*"collu"')
---


## Questão 2

Use o dataset "tweets_trump.csv" e responda:

a) Qual o sentimento dos 5 tweets com maior número de retweets?

b) Faça uma análise do sentimento geral de todos os tweets. Para isso, visualize a distribuição de polaridade para embasar a sua resposta.