In [1]:
import pandas as pd
from nlputils import read_data

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/igorecarvalho/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [2]:
xlsx = '../data/tweets.xlsx'
corpora = read_data.Preprocessing(xlsx)
tweets = corpora.create_dataframe()

In [3]:
tweets[:5]

Unnamed: 0,username,date,retweets,favorites,text,geo,mentions,hashtags,id,permalink
0,,2019-10-29 20:56:00,4,30,Alcolumbre diz que reforma da Previdência deve...,,,,1189330082529250048,https://twitter.com/folha/status/1189330082529...
1,,2019-10-29 20:50:00,2,10,Vitoriosas do Top Alimentação apostam em tendê...,,,,1189328572277819904,https://twitter.com/folha/status/1189328572277...
2,,2019-10-29 20:45:00,23,72,Funcionário do Instituto Nacional de Direitos ...,,,,1189327313843970048,https://twitter.com/folha/status/1189327313843...
3,,2019-10-29 20:40:00,7,111,"Para leitora, 'Coringa' é soco no estômago. Qu...",,,,1189326044328669952,https://twitter.com/folha/status/1189326044328...
4,,2019-10-29 20:39:00,7,31,Ataque de hackers ao WhatsApp transformou 100 ...,,,,1189325804259419904,https://twitter.com/folha/status/1189325804259...


In [4]:
def normalize_date(timestamp):
    return str(timestamp.date())

In [5]:
def normalize_df(dataframe, complete):
    if complete ==  False:
        del dataframe['username']
        del dataframe['retweets']
        del dataframe['favorites']
        del dataframe['geo']
        del dataframe['mentions']
        del dataframe['hashtags']
        del dataframe['permalink']
        
    dataframe['date'] = dataframe['date'].apply(normalize_date)
    dataframe['normalized_news'] = dataframe['text'].apply(corpora.normalize)
    dataframe = dataframe.dropna()
    dataframe = dataframe.drop_duplicates(subset='id')
    dataframe = dataframe.sort_values('date')
    
    return dataframe

In [6]:
def group_tweets(tweets, since, until):
    date_groups = {}
    for date in tweets.groupby('date'):
        if date[0] >= since and date[0] <= until:
            date_groups[date[0]] = {'news': [], 'normalized_news': [], 'id': [], 'theme': [], 'tweets': []}
            date_groups[date[0]]['news'].append(date[1]['text'])
            date_groups[date[0]]['id'].extend(date[1]['id'])
            for sent in date[1]['normalized_news']:
                date_groups[date[0]]['normalized_news'].extend(sent)
    return date_groups

In [7]:
import itertools
import nltk
from nltk.collocations import *
from nlputils import lexical

bigram_measures = nltk.collocations.BigramAssocMeasures()
trigram_measures = nltk.collocations.TrigramAssocMeasures()
normalizer = lexical.Preprocessing()

In [8]:
def n_gram_finder(ngram, nfreq, nmost, tagged_sentences):
    normalized_sentences = list(itertools.chain.from_iterable(tagged_sentences))
    normalized_sentences = normalizer.remove_stopwords(normalized_sentences)
    if ngram == 2 :
        bifinder = BigramCollocationFinder.from_words(normalized_sentences)
        bifinder.apply_freq_filter(nfreq)
        return bifinder.nbest(bigram_measures.pmi, nmost)
    if ngram == 3:
        trifinder = TrigramCollocationFinder.from_words(normalized_sentences)
        trifinder.apply_freq_filter(nfreq)
        return trifinder.nbest(trigram_measures.pmi, nmost)

In [9]:
def add_tweets_themes(date_groups):
    for date in date_groups:
        tagged_sentences = date_groups[date]['normalized_news']
        date_groups[date]['theme'] = n_gram_finder(2, 3, 5, tagged_sentences)

# TWEETS - DATES

In [10]:
tweets = normalize_df(tweets, complete=False)
date_groups = group_tweets(tweets, '2019-10-01', '2019-10-31')
add_tweets_themes(date_groups)

In [11]:
tweets[:10]

Unnamed: 0,date,text,id,normalized_news
45844,2019-01-08,Familiares de Queiroz não comparecem a depoime...,1082789047234320000,"[[familiares, de, queiroz, não, comparecem, a,..."
45829,2019-01-08,Folha abre inscrições para Programa de Treinam...,1082818573263949952,"[[folha, abre, inscrições, para, programa, de,..."
45830,2019-01-08,João Pereira Coutinho | O sonho do fanático é ...,1082816727778550016,"[[joão, pereira, coutinho, o, sonho, do, fanát..."
45831,2019-01-08,Folha realiza sessão gratuita de filme vencedo...,1082816176370140032,"[[folha, realiza, sessão, gratuita, de, filme,..."
45832,2019-01-08,"Série 'Lorena', sobre mulher que mutilou pênis...",1082809691976140032,"[[série, lorena, sobre, mulher, que, mutilou, ..."
45833,2019-01-08,"Com aeroporto saturado, Lisboa terá novo termi...",1082807426359929984,"[[com, aeroporto, saturado, lisboa, terá, novo..."
45834,2019-01-08,Novidades de 2019: casa em Maresias é opção pa...,1082806661704739968,"[[novidades, de, 2019, casa, em, maresias, é, ..."
45835,2019-01-08,Promotoria pede para MPF apurar tráfico de beb...,1082805159556770048,"[[promotoria, pede, para, mpf, apurar, tráfico..."
45843,2019-01-08,Medida atinge também processos para identifica...,1082791561677549952,"[[medida, atinge, também, processos, para, ide..."
45837,2019-01-08,Equipe do Vídeo Show não soube com antecedênci...,1082802897375689984,"[[equipe, do, vídeo, show, não, soube, com, an..."


In [12]:
pd.DataFrame(date_groups)

Unnamed: 0,2019-10-01,2019-10-02,2019-10-03,2019-10-04,2019-10-05,2019-10-06,2019-10-07,2019-10-08,2019-10-09,2019-10-10,...,2019-10-20,2019-10-21,2019-10-22,2019-10-23,2019-10-24,2019-10-25,2019-10-26,2019-10-27,2019-10-28,2019-10-29
id,"[1179136913845989888, 1179130624587820032, 117...","[1179474890900019968, 1179476403877789952, 117...","[1179843561828699904, 1179854143613260032, 117...","[1180205958661850112, 1180199920323689984, 118...","[1180578403973360128, 1180558272077509888, 118...","[1180942062239259904, 1180944326253250048, 118...","[1181288595623030016, 1181288080231320064, 118...","[1181655761518070016, 1181662305924320000, 118...","[1182020162482030080, 1182021672783790080, 118...","[1182384315667219968, 1182376510713400064, 118...",...,"[1185989056318060032, 1185989317673580032, 118...","[1186341380718840064, 1186336344500400128, 118...","[1186737245954459904, 1186728931912800000, 118...","[1187098627547810048, 1187096352439840000, 118...","[1187456736904509952, 1187456696416900096, 118...","[1187776845170820096, 1187778859544000000, 118...","[1188187047699320064, 1188175223423670016, 118...","[1188537611146720000, 1188533320839130112, 118...","[1188886900993590016, 1188899745173029888, 118...","[1189281511972969984, 1189259866730350080, 118..."
news,[[PF emite certidão à Justiça para dizer que L...,"[[Para Maia, derrota em abono não significa pe...",[[Flávia Boggio | Acho impossível esconder a i...,[[Camargo processa ex-executivo por desvio mil...,"[[Desde janeiro, o jornal tem uma editoria de ...","[[Em sintonia, a brasileira O Terno e a portug...",[[CNN rejeita dois anúncios da campanha de Tru...,[[Economia mundial sofre com desaceleração sin...,[[Twitter diz que dados destinados a segurança...,[[EUA detêm britânicos do Estado islâmico que ...,...,[[Elio Gaspari | General Villas Bôas deveria d...,[[Sylvia Colombo | O Chile é o país mais desig...,[[Vereadores querem interditar aeroporto de Gu...,"[[Casa de Edemar Cid Ferreira, do falido Banco...","[[Mundo, Universo, Terra, Grand... É possível ...","[[Palestrante, Kaká fala sobre fracasso em Cop...",[[Folha Top of Mind chega à 29ª edição com núm...,[[Dona da Louis Vuitton faz oferta para compra...,[[PVC | Contraponto é decidir que só os técnic...,[[STJ aceita pedido de Lula e suspende julgame...
normalized_news,"[[pf, emite, certidão, à, justiça, para, dizer...","[[para, maia, derrota, em, abono, não, signifi...","[[flávia, bogio, acho, impossível, esconder, a...","[[camargo, processa, exexecutivo, por, desvio,...","[[desde, janeiro, o, jornal, tem, uma, editori...","[[em, sintonia, a, brasileira, o, terno, e, a,...","[[cn, rejeita, dois, anúncios, da, campanha, d...","[[economia, mundial, sofre, com, desaceleração...","[[twiter, diz, que, dados, destinados, a, segu...","[[eua, detêm, britânicos, do, estado, islâmico...",...,"[[elio, gaspari, general, vilas, bôas, deveria...","[[sylvia, colombo, o, chile, é, o, país, mais,...","[[vereadores, querem, interditar, aeroporto, d...","[[casa, de, edemar, cid, ferreira, do, falido,...","[[mundo, universo, terra, grand], [é, possível...","[[palestrante, kaká, fala, sobre, fracasso, em...","[[folha, top, of, mind, chega, à, 29ª, edição,...","[[dona, da, louis, vuiton, faz, oferta, para, ...","[[pvc, contraponto, é, decidir, que, só, os, t...","[[stj, aceita, pedido, de, lula, e, suspende, ..."
theme,"[(lava, jato), (proposta, reforma), (senado, a...","[(reforma, previdência), (lava, jato), (via, f...","[(pacote, anticrime), (quintafeira, 3), (desta...","[(lava, jato), (dia, metal), (rock, in), (in, ...","[(conselhos, tutelares), (in, rio), (rock, in)...","[(marcelo, álvaro), (turismo, marcelo), (álvar...","[(laranjas, psl), (ranking, universitário), (i...","[(lava, jato), (ranking, universitário), (ruf,...","[(lava, jato), (senado, aprova), (mulheres, ne...","[(irmã, dulce), (diz, secretário), (via, blog)...",...,"[(casé, retoma), (elio, gaspari), (estrela, no...","[(lava, jato), (silva, pt), (nesta, segunda), ...","[(reforma, previdência), (via, folhapoder), (v...","[(bom, pra), (cachorro, liviamarra), (pra, cac...","[(rosa, weber), (paulo, coelho), (2ª, instânci...","[(segunda, instância), (nesta, sexta), (sexta,...","[(américa, latina), (bruna, figueiredo), (emir...","[(domingo, 27), (sábado, 26), (‘, vou), (’, ‘)...","[(inscrições, gratuitas), (bruno, covas), (via...","[(sítio, atibaia), (arábia, saudita), (via, fo..."
tweets,[],[],[],[],[],[],[],[],[],[],...,[],[],[],[],[],[],[],[],[],[]


In [13]:
import os
tweets_path = '../data/tweets_result'
tweets_csv = os.listdir(tweets_path)
tweets_csv = [d for d in tweets_csv]
tweets_csv.remove('pull1')

In [14]:
import itertools
import numpy as np
for filename in tweets_csv:
    date, ngram1, ngram2 = filename.replace('.csv','').split('_')
    
    dataframe = pd.read_csv(tweets_path + '/' + filename, encoding='UTF-8')
    
    dataframe = dataframe.drop_duplicates(subset='id')
    dataframe = dataframe.sort_values('date')
    dataframe = dataframe.dropna()
    
    dataframe['normalized_tweets'] = dataframe['text'].apply(corpora.normalize)
    
    hue = []
    for tweet in dataframe['normalized_tweets']:
        sent = []
        for sentence in tweet:
            if (ngram1 in sentence) and (ngram2 in sentence):
                #print(ngram1, ngram2, tweet)
                sent = list(itertools.chain.from_iterable(tweet))
        if len(sent) == 0:
            sent = np.NaN
        hue.append(sent)
    dataframe['normalized_tweets'] = hue
    dataframe = dataframe.dropna()
    del dataframe['date']
    
    date_groups[date]['tweets'] = dataframe

In [15]:
date_groups['2019-10-01']['tweets'][:5]

Unnamed: 0,text,id,normalized_tweets
1399,Lava Jato cobra multa de R$ 5 milhões para lib...,1179157075294859264,"[lava, jato, cobra, multa, de, r, 5, milhões, ..."
1396,"Gilmar, Janot e Lava Jato, hoje, na TVT http:/...",1179157203665768456,"[gilmar, janot, e, lava, jato, hoje, na, tvt, ..."
1395,Para com isso mulher. Até o Janot admitiu no l...,1179157215397191680,"[para, com, isso, mulher, até, o, janot, admit..."
1393,"Estrago da Lava Jato 12,6 milhões de brasileir...",1179157293692309506,"[estrago, da, lava, jato, 126, milhões, de, br..."
1391,"falando em comparação, como anda o pano que a ...",1179157393042808837,"[falando, em, comparação, como, anda, o, pano,..."


# ORGANIZAÇÃO DOS DADOS COLETADOS E NORMALIZADOS

In [16]:
def depurated_tweets(date_groups):
    tweets = {'date': [], 'news': [], 'polarity_new': [], 'news_keywords': [], 'tweets': [], 'normalized_tweets': [], 'polarity_tweets': []}
    for date in date_groups:
        tweets['date'].append(date)
        tweets['news'].append(date_groups[date]['news'])
        tweets['polarity_new'].append(None)
        tweets['news_keywords'].append(date_groups[date]['theme'][0])
        tweets['tweets'].append(date_groups[date]['tweets']['text'])
        tweets['normalized_tweets'].append(date_groups[date]['tweets']['normalized_tweets'])
        tweets['polarity_tweets'].append(None)
    
    return tweets

In [17]:
depur = depurated_tweets(date_groups)

In [18]:
pd.DataFrame(depur)[:5]

Unnamed: 0,date,news,polarity_new,news_keywords,tweets,normalized_tweets,polarity_tweets
0,2019-10-01,[[PF emite certidão à Justiça para dizer que L...,,"(lava, jato)",1399 Lava Jato cobra multa de R$ 5 milhões ...,"1399 [lava, jato, cobra, multa, de, r, 5, m...",
1,2019-10-02,"[[Para Maia, derrota em abono não significa pe...",,"(reforma, previdência)",1398 Economia com reforma da Previdência de...,"1398 [economia, com, reforma, da, previdênc...",
2,2019-10-03,[[Flávia Boggio | Acho impossível esconder a i...,,"(pacote, anticrime)",1399 Governo Federal lança campanha publici...,"1399 [governo, federal, lança, campanha, pu...",
3,2019-10-04,[[Camargo processa ex-executivo por desvio mil...,,"(lava, jato)",1399 # BRASIL: Los fiscales justicieros del...,"1399 [brasil, los, fiscales, justicieros, d...",
4,2019-10-05,"[[Desde janeiro, o jornal tem uma editoria de ...",,"(conselhos, tutelares)",1399 Invasão da Universal ameaça aparelhar ...,"1399 [invasão, da, universal, ameaça, apare...",


In [19]:
pd.DataFrame(depur)[:5]

Unnamed: 0,date,news,polarity_new,news_keywords,tweets,normalized_tweets,polarity_tweets
0,2019-10-01,[[PF emite certidão à Justiça para dizer que L...,,"(lava, jato)",1399 Lava Jato cobra multa de R$ 5 milhões ...,"1399 [lava, jato, cobra, multa, de, r, 5, m...",
1,2019-10-02,"[[Para Maia, derrota em abono não significa pe...",,"(reforma, previdência)",1398 Economia com reforma da Previdência de...,"1398 [economia, com, reforma, da, previdênc...",
2,2019-10-03,[[Flávia Boggio | Acho impossível esconder a i...,,"(pacote, anticrime)",1399 Governo Federal lança campanha publici...,"1399 [governo, federal, lança, campanha, pu...",
3,2019-10-04,[[Camargo processa ex-executivo por desvio mil...,,"(lava, jato)",1399 # BRASIL: Los fiscales justicieros del...,"1399 [brasil, los, fiscales, justicieros, d...",
4,2019-10-05,"[[Desde janeiro, o jornal tem uma editoria de ...",,"(conselhos, tutelares)",1399 Invasão da Universal ameaça aparelhar ...,"1399 [invasão, da, universal, ameaça, apare...",


# SALVANDO DATAFRAME COM PICKLE

In [24]:
pd.DataFrame(depur).to_pickle('../data/depurate_tweets.pkl')