In [77]:
from pyspark.sql import SparkSession
import re
import unidecode
import demoji
import pandas as pd
import demoji
import spacy
from nltk.corpus import stopwords
from spacy.lang.pt.stop_words import STOP_WORDS
from string import punctuation
from sklearn.feature_extraction.text import TfidfVectorizer

nlp = spacy.load("pt")
nlp.Defaults.stop_words |= {"gt", "to","uol","mi","budddhetg","the", "ne", "vou", "ta", "via","ex", "pq", "vc","aa","pra","to", "a", "b", "c", "d", "e", "f", "g", "h", "i", "j", "k", "l", "m", "n", "o", "p", "q", "r", "s", "t", "u", "v", "w", "x", "y", "z"}
palavras_irrelevantes = set(stopwords.words('portuguese') + list(punctuation))

In [None]:
sparkSession = SparkSession.builder.appName("twitter_mining_leo").getOrCreate()

In [78]:
df_load = sparkSession.read.csv('hdfs://localhost:9000/user/hadoop/twitter/').toPandas()

In [79]:
df = df_load.rename(columns={"_c0": "id", "_c1": "text"})

In [80]:
def cleanText(tweet):
    if "|" in tweet:
        tweet = tweet.split("|")[1]
        
    tweet = ' '.join(re.sub("(@[A-Za-z0-9]+)|(#[A-Za-z0-9]+)|([0-9])", " ", tweet).split())
    tweet = ' '.join(re.sub("(\w+:\/\/\S+)", " ", tweet).split())
    tweet = ' '.join(re.sub("[\_\|\.\,\"\'\!\?\:\;\$\-\(\)\=]", " ", tweet).split())
    tweet = tweet.lower()
    
    le = list(demoji.findall(tweet))
    for i in le:
        tweet = tweet.replace(i, "")
    
    if tweet.startswith('rt '):
        tweet = tweet.replace("rt ", "")
    
    lNewTweet = []
    for i in tweet.split(" "):
        if i not in palavras_irrelevantes and i not in STOP_WORDS:
            lNewTweet.append(i)
    
    newTweet = " ".join(lNewTweet)
        
    return unidecode.unidecode(newTweet.replace(" rt ", ""))

In [81]:
df = df.dropna()

In [82]:
df["clean_text"] = df.text.apply(cleanText)

In [83]:
vectorizer = TfidfVectorizer()    
vect = vectorizer.fit_transform(df["clean_text"].values)

In [85]:
# vectorizer.get_feature_names()
# vect.todense()

In [96]:
df_1 = pd.DataFrame(vect[2].T.todense(), index=vectorizer.get_feature_names(), columns=["TFIDF"])
df_2 = df_1.sort_values('TFIDF', ascending=False)
df_2.head(10)

Unnamed: 0,TFIDF
figado,0.36904
antecipado,0.36904
ky,0.351286
agradece,0.338688
papai,0.328917
noel,0.328917
presente,0.328917
crianca,0.298565
natal,0.27533
parlamento,0.0


In [97]:
df["text"].values[0:2]

array(['Kiss: "Em 2009, boate inaugurou e foi um fracasso", diz engenheiro https://t.co/uNhFH2IFks',
       'Samara Felippo diz que amigas perderam papéis por não transar com diretores https://t.co/LiCQtfTQGn'],
      dtype=object)

In [93]:
df["clean_text"].head()

0        kiss boate inaugurou fracasso engenheiro ifks
1    samara felippo amigas perderam papeis transar ...
2    crianca agradece papai noel presente natal ant...
3    unico eclipse solar total visto antartida imagens
4    jogador italiano lembra briga cr ronaldo fenom...
Name: clean_text, dtype: object

In [None]:
t = 'Em depoimento no julgamento dos réus do caso da boate Kiss, o engenheiro \
civil Thiago Mutti, 46, disse que inicialmente o local, em Santa Maria (RS), \
foi considerada um "fracasso", com movimento fraco e com poucas festas. \
Ele é 14ª pessoa a ser ouvida no Tribunal do Júri que já dura cinco dias em Porto Alegre.\
Mutti disse que a família dele investiu cerca de R$ 250 mil para transformar o \
local em uma casa noturna - antes funcionava um curso pré-vestibular. Porém, \
sem retorno financeiro, decidiram deixar o negócio - tocado em conjunto com outros dois sócios: \
Alexandre Costa e Elton Cristiano Uroda. Mutti negou que fosse sócio proprietário da casa \
noturna, função que, segundo o engenheiro, era ocupada pela irmã dele. \
Porém, no começo do depoimento, a promotora de justiça Lúcia Helena Callegari salientou que \
ele está sendo processado por falsidade ideológica por "colocar laranjas" para tocar o negócio.\
Por conta disso, o juiz Orlando Faccini Neto o rebaixou à condição de informante — antes estava \
como testemunha. O magistrado explicou que, como testemunha, ele tinha a obrigação de falar a verdade, \
caso contrário responderia por falso testemunho. E justificou que a mudança de testemunha para informante \
se deu porque o processo ainda está em andamento - sem decisão final.\
A ideia de abrir uma nova casa noturna na cidade, explicou Mutti, surgiu após Costa identificar \
que ainda havia espaço para investir no ramo em Santa Maria. "Minha irmã estava voltando para \
Santa Maria e tinha uma reserva de dinheiro. E eu incentivei (o negócio)."\
Segundo o engenheiro, o outro sócio que iria "tocar o negócio" e que foi ele que \
encontrou a sala comercial, de cerca de 630 metros quadrados. A família de Mutti não tinha \
experiência na área. "Em 2009, a boate inaugurou e foi um fracasso. Como a reforma demorou, \
minha irmã resolveu fazer prova de mestrado e meu pai assumiu, e tinha até procuração dela. \
Daí minha irmã disse que ia vender [a] parte [dela]." O outro sócio não aceitou comprar a parte \
da família e, por isso, Mutti decidiu procurar outras pessoas para ver se tinham interesse em entrar \
no negócio. "Ofereci para o Kiko [Elissandro Spohr, um dos réus e sócio da Kiss na época do incêndio].\
Perguntei para o Kiko se queria comprar a parte da minha irmã e [ele] disse 'quero'." Porém, segundo Mutti,\
Kiko colocou uma condição: só iria comprar a parte quando saísse o alvará da prefeitura. Na negociação, \
o empresário. 
'

