# Extração dos dados do Twitter para a formação da massa de dados

In [7]:
# importação de bibliotecas
import pandas as pd
import json

import tweepy as tw
from segredo import ACCESS_TOKEN, ACCESS_TOKEN_SECRET, CONSUMER_KEY, CONSUMER_SECRET

from time import sleep

from pymongo import MongoClient
from bson import json_util

#### Autenticação de acesso a API do Twitter

In [8]:
auth = tw.OAuthHandler(consumer_key=CONSUMER_KEY, consumer_secret=CONSUMER_SECRET)
auth.set_access_token(ACCESS_TOKEN, ACCESS_TOKEN_SECRET)

api = tw.API(auth)

In [9]:
# código de indentificação do país de onde serão extraídas as tendencias
BRAZIL_WOE_ID = 23424768

#### Conexão com o banco de dados (Mogodb)

In [10]:
client = MongoClient("mongodb://mongoUser:mongoPW@localhost:27017/")

db = client.tweets_massa

tweets_collection = db.tweets

#### Geração da lista dos 10 tópicos mais comentados no Twitter

In [11]:
# extração dos trends 
brazil_trends = api.get_place_trends(BRAZIL_WOE_ID)

# tranformação de dataframe
trends_df = pd.DataFrame.from_dict(brazil_trends[0]["trends"])

# eliminando as colunas que não serão utilizadas
trends_df.drop(columns=["url", "promoted_content", "query"], axis=1, inplace=True)

# substituição dos valores nulos da coluna tweet_volume por 0
trends_df.fillna(0, inplace=True)

# converção dos valores da coluna tweet_volume para inteiro
trends_df[['tweet_volume']] = trends_df[['tweet_volume']].astype('int')

# colocando em ordem do mais citado
trends_df.sort_values(by='tweet_volume', ascending=False, inplace=True)

# eliminação do caracter '#'
trends_df['name'] = trends_df['name'].str.replace('#', '')

# reset do indice
trends_df.reset_index(inplace=True, drop=True)

# gerando a lista das 10 primeiras
trends_top10_list = list(trends_df['name'][:10])

# imprimindo os top 10 com o seu volume
#print(trends_df[:10])

#### Captura dos tweets relacionado a lista dos 10 mais do Twitter

In [12]:
cont = 1

minutos = 15 #tempo de intervalo das extrações
segundos = minutos * 60 #o tempo de cada intervalo em segundos
vezes = 6

while cont <= vezes:

    for i in range(10):
        
        trends_top10_list = trends_top10_list
        
        query_search = trends_top10_list[i] + ' -filter:retweets'
        cursor_tweets = tw.Cursor(api.search_tweets, 
                                q=query_search, 
                                lang="pt").items(200)

        for tweet in cursor_tweets:
            # colocar barra de tempo
            
            #print(tweet._json)
            # enviar a coleção de dados originais (raw) para o banco de dados
            tweets_collection.insert_one(tweet._json)
            
    if cont == vezes:
        break
            
    sleep(segundos)
    cont += 1

# Entrada de dados para tratamento

#### Carregando os dados (raw) do banco

In [13]:
# transformando a coleção do banco em dataframe
tweets_df = pd.DataFrame(list(tweets_collection.find()))

tweets_df.head()

Unnamed: 0,_id,created_at,id,id_str,text,truncated,entities,metadata,source,in_reply_to_status_id,...,retweet_count,favorite_count,favorited,retweeted,lang,possibly_sensitive,quoted_status_id,quoted_status_id_str,quoted_status,extended_entities
0,63095f602cabac75ec72dc2f,Sat Aug 27 00:02:56 +0000 2022,1563316094433398784,1563316094433398784,@renmeloh Antony faz de refém família do técnico,False,"{'hashtags': [], 'symbols': [], 'user_mentions...","{'iso_language_code': 'pt', 'result_type': 're...","<a href=""http://twitter.com/download/iphone"" r...",1.563291e+18,...,0,0,False,False,pt,,,,,
1,63095f602cabac75ec72dc30,Sat Aug 27 00:02:52 +0000 2022,1563316077563891712,1563316077563891712,As roupinhas da shein do Antony tá começando a...,False,"{'hashtags': [], 'symbols': [], 'user_mentions...","{'iso_language_code': 'pt', 'result_type': 're...","<a href=""http://twitter.com/download/iphone"" r...",,...,0,0,False,False,pt,,,,,
2,63095f602cabac75ec72dc31,Sat Aug 27 00:02:43 +0000 2022,1563316041182511105,1563316041182511105,@junior_ln @FCamposoficial 90 milhões é muita ...,True,"{'hashtags': [], 'symbols': [], 'user_mentions...","{'iso_language_code': 'pt', 'result_type': 're...","<a href=""http://twitter.com/download/iphone"" r...",1.563265e+18,...,0,0,False,False,pt,,,,,
3,63095f602cabac75ec72dc32,Sat Aug 27 00:02:09 +0000 2022,1563315895862038530,1563315895862038530,“Desde fevereiro eu informei ao Ajax que quero...,True,"{'hashtags': [], 'symbols': [], 'user_mentions...","{'iso_language_code': 'pt', 'result_type': 're...","<a href=""http://twitter.com/download/android"" ...",,...,1,1,False,False,pt,False,,,,
4,63095f602cabac75ec72dc33,Sat Aug 27 00:01:34 +0000 2022,1563315749518983170,1563315749518983170,“Falei várias vezes que quero sair do Ajax. In...,True,"{'hashtags': [], 'symbols': [], 'user_mentions...","{'iso_language_code': 'pt', 'result_type': 're...","<a href=""http://twitter.com/download/android"" ...",,...,1,1,False,False,pt,False,,,,


#### Tratamento dos dados

In [14]:
# exibindo as colunas e salvando em uma lista
colunas_list = list(tweets_df.columns)

colunas_list.remove('id')
colunas_list.remove('text')

colunas_list

['_id',
 'created_at',
 'id_str',
 'truncated',
 'entities',
 'metadata',
 'source',
 'in_reply_to_status_id',
 'in_reply_to_status_id_str',
 'in_reply_to_user_id',
 'in_reply_to_user_id_str',
 'in_reply_to_screen_name',
 'user',
 'geo',
 'coordinates',
 'place',
 'contributors',
 'is_quote_status',
 'retweet_count',
 'favorite_count',
 'favorited',
 'retweeted',
 'lang',
 'possibly_sensitive',
 'quoted_status_id',
 'quoted_status_id_str',
 'quoted_status',
 'extended_entities']

In [15]:
# eliminando as colunas que não serão utilizadas
tweets_df.drop(columns=colunas_list, axis=1, inplace=True)

tweets_df.head()

Unnamed: 0,id,text
0,1563316094433398784,@renmeloh Antony faz de refém família do técnico
1,1563316077563891712,As roupinhas da shein do Antony tá começando a...
2,1563316041182511105,@junior_ln @FCamposoficial 90 milhões é muita ...
3,1563315895862038530,“Desde fevereiro eu informei ao Ajax que quero...
4,1563315749518983170,“Falei várias vezes que quero sair do Ajax. In...


In [16]:
from leia import SentimentIntensityAnalyzer

'''
importando biblioteca leia, que é derivada da vader (classificação de sentimento)

@misc{Almeida2018,
  author = {Almeida, Rafael J. A.},
  title = {LeIA - Léxico para Inferência Adaptada},
  year = {2018},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {/url{https://github.com/rafjaa/LeIA}}
}

O léxico VADER original é descrito no paper:

@inproceedings{gilbert2014vader,
  title={Vader: A parsimonious rule-based model for sentiment analysis of social media text},
  author={Gilbert, CJ Hutto Eric},
  booktitle={Eighth International Conference on Weblogs and Social Media (ICWSM-14). Available at (20/04/16) http://comp. social. gatech. edu/papers/icwsm14. vader. hutto. pdf},
  year={2014}
}

'''

# instanciando
analyser = SentimentIntensityAnalyzer()

In [17]:
# função para tranformar guardar o score (compoud) 
def analise(texto):
    df_analisado = analyser.polarity_scores(texto)['compound'] 
    return df_analisado

# função que transforma valores maiores que 0 em positivo, menores em negativo
# e iguais a 0 em neutro (normalização)
def analise2(score):
    if score > 0:
        return 'positivo'
    
    if score < 0:
        return 'negativo'
    
    return 'neutro'

In [18]:
# aplicando a função e guardando na coluna pre_sentiment
tweets_df['pre_sentiment'] = tweets_df['text'].apply(analise)

# aplicando a função e guardando na coluna sentiment
tweets_df['sentiment'] = tweets_df['pre_sentiment'].apply(analise2)

tweets_df

Unnamed: 0,id,text,pre_sentiment,sentiment
0,1563316094433398784,@renmeloh Antony faz de refém família do técnico,0.0000,neutro
1,1563316077563891712,As roupinhas da shein do Antony tá começando a...,0.0000,neutro
2,1563316041182511105,@junior_ln @FCamposoficial 90 milhões é muita ...,0.2500,positivo
3,1563315895862038530,“Desde fevereiro eu informei ao Ajax que quero...,-0.2023,negativo
4,1563315749518983170,“Falei várias vezes que quero sair do Ajax. In...,-0.0516,negativo
...,...,...,...,...
10996,1563302092571574272,sempre comentei com a duda que achava que tinh...,0.0000,neutro
10997,1563301929073389568,@ST4RFlR3 imagina ser uma atriz fodona tal com...,-0.4215,negativo
10998,1563301745756778497,"O usa o feminismo, o relacionamento com o Harr...",-0.5994,negativo
10999,1563301505704546305,"O cara defende a O, fala mal da florence kkkkk...",-0.8625,negativo


In [19]:
# remover a coluna 'pre_sentiment'
tweets_df.drop(columns='pre_sentiment', axis=1, inplace=True)

# trocar os nomes das colunas
tweets_df.rename(columns={'text':'tweet','sentiment':'label'}, inplace=True)

In [20]:
tweets_df

Unnamed: 0,id,tweet,label
0,1563316094433398784,@renmeloh Antony faz de refém família do técnico,neutro
1,1563316077563891712,As roupinhas da shein do Antony tá começando a...,neutro
2,1563316041182511105,@junior_ln @FCamposoficial 90 milhões é muita ...,positivo
3,1563315895862038530,“Desde fevereiro eu informei ao Ajax que quero...,negativo
4,1563315749518983170,“Falei várias vezes que quero sair do Ajax. In...,negativo
...,...,...,...
10996,1563302092571574272,sempre comentei com a duda que achava que tinh...,neutro
10997,1563301929073389568,@ST4RFlR3 imagina ser uma atriz fodona tal com...,negativo
10998,1563301745756778497,"O usa o feminismo, o relacionamento com o Harr...",negativo
10999,1563301505704546305,"O cara defende a O, fala mal da florence kkkkk...",negativo


#### Limpando o texto da coluna tweet

In [22]:
# importando a biblioteca de processamento de linguagen natural e a de expreções regulares (regex)
import nltk
import re

# usando as funções stopword e remover os caracteres indesejados
def Preprocessing(instancia):
    instancia = re.sub(r"http\S+", "", instancia).lower().replace('.','').replace(';','').replace('-','').replace(':','').replace(')','').replace('"','')
    stopwords = set(nltk.corpus.stopwords.words('portuguese'))
    palavras = [i for i in instancia.split() if not i in stopwords]
    return (" ".join(palavras))

In [23]:
# aplicando a função de limpeza de dados:
tweets_df['tweet_clean'] = [Preprocessing(i) for i in tweets_df['tweet']]
pd.set_option('display.max_colwidth', None) 

tweets_df.head()

Unnamed: 0,id,tweet,label,tweet_clean
0,1563316094433398784,@renmeloh Antony faz de refém família do técnico,neutro,@renmeloh antony faz refém família técnico
1,1563316077563891712,As roupinhas da shein do Antony tá começando a chegar &gt;&gt;&gt;&gt;&gt;&gt; 😍😍,neutro,roupinhas shein antony tá começando chegar &gt&gt&gt&gt&gt&gt 😍😍
2,1563316041182511105,@junior_ln @FCamposoficial 90 milhões é muita coisa e eles só disputam campeonatos nacionais então não sei ce faria… https://t.co/vz1urpVE1u,positivo,@junior_ln @fcamposoficial 90 milhões muita coisa disputam campeonatos nacionais então sei ce faria…
3,1563315895862038530,“Desde fevereiro eu informei ao Ajax que quero sair. Interrompi minhas férias em junho para informar pessoalmente.… https://t.co/YoaSzwEno8,negativo,“desde fevereiro informei ajax quero sair interrompi férias junho informar pessoalmente…
4,1563315749518983170,“Falei várias vezes que quero sair do Ajax. Insisto desde fevereiro. As pessoas precisam me ouvir e entender que mi… https://t.co/1sj24bPFbj,negativo,“falei várias vezes quero sair ajax insisto desde fevereiro pessoas precisam ouvir entender mi…


#### Salvando os dado modificados

Salvando os dados em um arquivo csv

In [24]:
tweets_df.to_csv('twitter_sentiments.csv')

Salvando dos dados tratados no banco de dados

In [25]:
# conecção com o banco de dados
#client = MongoClient("mongodb://dio:dio@localhost:27017/")
#db = client.tweets_mod
#tweets_mod_collection = db.tweets

# Salvando os dados no banco
#tweets_df.reset_index(inplace=True)
#data_dict = tweets_df.to_dict("records")

#tweets_mod_collection.insert_many(data_dict)