# Extração dos dados do Twitter para a formação da massa de dados

In [1]:
# importação de bibliotecas
import pandas as pd
import json

import tweepy as tw
from segredo import ACCESS_TOKEN, ACCESS_TOKEN_SECRET, CONSUMER_KEY, CONSUMER_SECRET

from time import sleep

from pymongo import MongoClient
from bson import json_util

#### Autenticação de acesso a API do Twitter

In [2]:
auth = tw.OAuthHandler(consumer_key=CONSUMER_KEY, consumer_secret=CONSUMER_SECRET)
auth.set_access_token(ACCESS_TOKEN, ACCESS_TOKEN_SECRET)

api = tw.API(auth)

In [3]:
# código de indentificação do país de onde serão extraídas as tendencias
BRAZIL_WOE_ID = 23424768

#### Conexão com o banco de dados (Mogodb)

In [4]:
client = MongoClient("mongodb://dio:dio@localhost:27017/")

db = client.tweets_massa

tweets_collection = db.tweets

#### Geração da lista dos 10 tópicos mais comentados no Twitter

In [5]:
def twitter_top10():

    # extração dos trends 
    brazil_trends = api.trends_place(BRAZIL_WOE_ID)

    # tranformação de dataframe
    trends_df = pd.DataFrame.from_dict(brazil_trends[0]["trends"])

    # eliminando as colunas que não serão utilizadas
    trends_df.drop(columns=["url", "promoted_content", "query"], axis=1, inplace=True)

    # substituição dos valores nulos da conluna tweet_volume por 0
    trends_df.fillna(0, inplace=True)

    # converção dos valores da conluna tweet_volume para inteiro
    trends_df[['tweet_volume']] = trends_df[['tweet_volume']].astype('int')

    # conlocando em ordem do mais citado
    trends_df.sort_values(by='tweet_volume', ascending=False, inplace=True)

    # eliminação do caracter '#'
    trends_df['name'] = trends_df['name'].str.replace('#', '')

    # reset do indice
    trends_df.reset_index(inplace=True, drop=True)

    # gerando a lista das 10 primeiras
    #trends_top10_list = list(trends_df['name'][:10])

    return list(trends_df['name'][:10])

#### Captura dos tweets relacionado a lista dos 10 mais do Twitter

In [6]:
cont = 1

minutos = 15 #tempo de intervalo das extrações
segundos = minutos * 60 #o tempo de cada intervalo em segundos
vezes = 6

while cont <= vezes:

    for i in range(10):
        
        trends_top10_list = twitter_top10()
        
        query_search = trends_top10_list[i] + ' -filter:retweets'
        cursor_tweets = tw.Cursor(api.search, q=query_search, lang="pt").items(200)

        for tweet in cursor_tweets:
            #print(tweet._json)
            # enviar a coleção de dados originais (raw) para o banco de dados
            tweets_collection.insert_one(tweet._json)
            
    if cont == vezes:
        break
            
    sleep(segundos)
    cont += 1

# Entrada de dados para tratamento

#### Carregando os dados (raw) do banco

In [7]:
# transformando a coleção do banco em dataframe
tweets_df = pd.DataFrame(list(tweets_collection.find()))

tweets_df.head()

Unnamed: 0,_id,created_at,id,id_str,text,truncated,entities,extended_entities,metadata,source,...,is_quote_status,retweet_count,favorite_count,favorited,retweeted,possibly_sensitive,lang,quoted_status_id,quoted_status_id_str,quoted_status
0,621d631e1f1ec7a2ff7c2946,Tue Mar 01 00:04:19 +0000 2022,1498449015142244354,1498449015142244354,Seleção da Rússia está fora da Copa por causa ...,False,"{'hashtags': [], 'symbols': [], 'user_mentions...","{'media': [{'id': 1498449012336246787, 'id_str...","{'iso_language_code': 'pt', 'result_type': 're...","<a href=""http://twitter.com/download/android"" ...",...,False,0,0,False,False,True,pt,,,
1,621d631e1f1ec7a2ff7c2947,Tue Mar 01 00:04:10 +0000 2022,1498448974478458883,1498448974478458883,A FIFA já se pronunciou sobre a mexicana que f...,False,"{'hashtags': [], 'symbols': [], 'user_mentions...",,"{'iso_language_code': 'pt', 'result_type': 're...","<a href=""http://twitter.com/download/android"" ...",...,False,0,0,False,False,,pt,,,
2,621d631e1f1ec7a2ff7c2948,Tue Mar 01 00:03:59 +0000 2022,1498448929951784960,1498448929951784960,@pedro_galindo @sk_serge A FIFA tem uma políti...,False,"{'hashtags': [], 'symbols': [], 'user_mentions...",,"{'iso_language_code': 'pt', 'result_type': 're...","<a href=""http://twitter.com/download/android"" ...",...,False,0,0,False,False,,pt,,,
3,621d631e1f1ec7a2ff7c2949,Tue Mar 01 00:03:47 +0000 2022,1498448878995230731,1498448878995230731,Estamos ao vivassos!\n\nChega mais que vamos c...,True,"{'hashtags': [], 'symbols': [], 'user_mentions...",,"{'iso_language_code': 'pt', 'result_type': 're...","<a href=""https://about.twitter.com/products/tw...",...,False,1,0,False,False,False,pt,,,
4,621d631e1f1ec7a2ff7c294a,Tue Mar 01 00:03:43 +0000 2022,1498448863686012928,1498448863686012928,@RicharlysonAlv5 @LOUDgg Vcs acham que isso é ...,False,"{'hashtags': [], 'symbols': [], 'user_mentions...",,"{'iso_language_code': 'pt', 'result_type': 're...","<a href=""http://twitter.com/download/android"" ...",...,False,0,0,False,False,,pt,,,


#### Tratamento dos dados

In [8]:
# exibindo as colunas e salvando em uma lista
colunas_list = list(tweets_df.columns)

colunas_list.remove('id')
colunas_list.remove('text')

colunas_list

['_id',
 'created_at',
 'id_str',
 'truncated',
 'entities',
 'extended_entities',
 'metadata',
 'source',
 'in_reply_to_status_id',
 'in_reply_to_status_id_str',
 'in_reply_to_user_id',
 'in_reply_to_user_id_str',
 'in_reply_to_screen_name',
 'user',
 'geo',
 'coordinates',
 'place',
 'contributors',
 'is_quote_status',
 'retweet_count',
 'favorite_count',
 'favorited',
 'retweeted',
 'possibly_sensitive',
 'lang',
 'quoted_status_id',
 'quoted_status_id_str',
 'quoted_status']

In [9]:
# eliminando as colunas que não serão utilizadas
tweets_df.drop(columns=colunas_list, axis=1, inplace=True)

tweets_df.head()

Unnamed: 0,id,text
0,1498449015142244354,Seleção da Rússia está fora da Copa por causa ...
1,1498448974478458883,A FIFA já se pronunciou sobre a mexicana que f...
2,1498448929951784960,@pedro_galindo @sk_serge A FIFA tem uma políti...
3,1498448878995230731,Estamos ao vivassos!\n\nChega mais que vamos c...
4,1498448863686012928,@RicharlysonAlv5 @LOUDgg Vcs acham que isso é ...


In [10]:
# importando biblioteca leia, que é derivada da vader (classificação de sentimento)
from leia import SentimentIntensityAnalyzer

# instanciando
analyser = SentimentIntensityAnalyzer()

In [11]:
# função para tranformar guardar o score (compoud) 
def analise(texto):
    df_analisado = analyser.polarity_scores(texto)['compound'] 
    return df_analisado

# função que transforma valores maiores que 0 em 1, menores em -1 e iguais em 0 (normalização)
def analise2(score):
    if score > 0:
        return 'positivo'
    
    if score < 0:
        return 'negativo'
    
    return 'neutro'

In [12]:
# aplicando a função e guardando na coluna pre_sentiment
tweets_df['pre_sentiment'] = tweets_df['text'].apply(analise)

# aplicando a função e guardando na coluna sentiment
tweets_df['sentiment'] = tweets_df['pre_sentiment'].apply(analise2)

tweets_df

Unnamed: 0,id,text,pre_sentiment,sentiment
0,1498449015142244354,Seleção da Rússia está fora da Copa por causa ...,-0.5267,negativo
1,1498448974478458883,A FIFA já se pronunciou sobre a mexicana que f...,0.0000,neutro
2,1498448929951784960,@pedro_galindo @sk_serge A FIFA tem uma políti...,0.0000,neutro
3,1498448878995230731,Estamos ao vivassos!\n\nChega mais que vamos c...,0.0000,neutro
4,1498448863686012928,@RicharlysonAlv5 @LOUDgg Vcs acham que isso é ...,0.0000,neutro
...,...,...,...,...
11995,1498453589911556096,Acho que agora só faltam 4 feats da Marília pr...,-0.4404,negativo
11996,1498453564800348161,quase me atraso pro rolê pq fiquei 2 horas and...,-0.2782,negativo
11997,1498453538397204482,Não dá pra voltar no tempo ? Kkk,-0.2960,negativo
11998,1498453506050641922,não acredito que ele disse isto 🤣🤣🤣,-0.2960,negativo


In [13]:
# remover a coluna 'pre_sentiment'
tweets_df.drop(columns='pre_sentiment', axis=1, inplace=True)

# trocar os nomes das colunas
tweets_df.rename(columns={'text':'tweet','sentiment':'label'}, inplace=True)

In [14]:
tweets_df

Unnamed: 0,id,tweet,label
0,1498449015142244354,Seleção da Rússia está fora da Copa por causa ...,negativo
1,1498448974478458883,A FIFA já se pronunciou sobre a mexicana que f...,neutro
2,1498448929951784960,@pedro_galindo @sk_serge A FIFA tem uma políti...,neutro
3,1498448878995230731,Estamos ao vivassos!\n\nChega mais que vamos c...,neutro
4,1498448863686012928,@RicharlysonAlv5 @LOUDgg Vcs acham que isso é ...,neutro
...,...,...,...
11995,1498453589911556096,Acho que agora só faltam 4 feats da Marília pr...,negativo
11996,1498453564800348161,quase me atraso pro rolê pq fiquei 2 horas and...,negativo
11997,1498453538397204482,Não dá pra voltar no tempo ? Kkk,negativo
11998,1498453506050641922,não acredito que ele disse isto 🤣🤣🤣,negativo


#### Limpando o texto da coluna tweet

In [15]:
# importando a biblioteca de processamento de linguagen natural e a de expreções regulares (regex)
import nltk
import re

# usundo as funções stopword e remover os caracteres indesejados
def Preprocessing(instancia):
    instancia = re.sub(r"http\S+", "", instancia).lower().replace('.','').replace(';','').replace('-','').replace(':','').replace(')','').replace('"','')
    stopwords = set(nltk.corpus.stopwords.words('portuguese'))
    palavras = [i for i in instancia.split() if not i in stopwords]
    return (" ".join(palavras))

In [16]:
# aplicando a função de limpeza de dados:
tweets_df['tweet_clean'] = [Preprocessing(i) for i in tweets_df['tweet']]
pd.set_option('display.max_colwidth', None) 

tweets_df.head()

Unnamed: 0,id,tweet,label,tweet_clean
0,1498449015142244354,Seleção da Rússia está fora da Copa por causa da guerra. \nAssim decidiram FIFA e UEFA https://t.co/BCsbsmoCm9,negativo,seleção rússia copa causa guerra assim decidiram fifa uefa
1,1498448974478458883,A FIFA já se pronunciou sobre a mexicana que foi estuprad@ ?,neutro,fifa pronunciou sobre mexicana estuprad@ ?
2,1498448929951784960,@pedro_galindo @sk_serge A FIFA tem uma política tão exploratória quanto os EUA. \n\nSegue ae,neutro,@pedro_galindo @sk_serge fifa política tão exploratória quanto eua segue ae
3,1498448878995230731,"Estamos ao vivassos!\n\nChega mais que vamos conferir tudo oque saiu hoje sobre o FIFA 23 CROSSPLAY!\nInvestimentos, p… https://t.co/RHGLWGVLXq",neutro,"vivassos! chega vamos conferir tudo oque saiu hoje sobre fifa 23 crossplay! investimentos, p…"
4,1498448863686012928,@RicharlysonAlv5 @LOUDgg Vcs acham que isso é modo carreira do Fifa só pode kkkk,neutro,@richarlysonalv5 @loudgg vcs acham modo carreira fifa pode kkkk


#### Salvando os dado modificados

In [17]:
# Salvando a massa de dados modificada em csv
#tweets_df.to_csv('twitter_sentiments.csv')

In [18]:
# Salvando a massa de dados modificada no banco de dados (mongodb)

# conecção com o banco de dados
client = MongoClient("mongodb://dio:dio@localhost:27017/")
db = client.tweets_mod
tweets_mod_collection = db.tweets

# Salvando os dados no banco
tweets_df.reset_index(inplace=True)
data_dict = tweets_df.to_dict("records")

tweets_mod_collection.insert_many(data_dict)

<pymongo.results.InsertManyResult at 0x16a53f7fd80>