# Extração dos dados do Twitter para a formação da massa de dados

In [None]:
# importação de bibliotecas
import pandas as pd
import json

import tweepy as tw
from segredo import ACCESS_TOKEN, ACCESS_TOKEN_SECRET, CONSUMER_KEY, CONSUMER_SECRET

from time import sleep

from pymongo import MongoClient
from bson import json_util

#### Autenticação de acesso a API do Twitter

In [None]:
auth = tw.OAuthHandler(consumer_key=CONSUMER_KEY, consumer_secret=CONSUMER_SECRET)
auth.set_access_token(ACCESS_TOKEN, ACCESS_TOKEN_SECRET)

api = tw.API(auth)

In [None]:
# código de indentificação do país de onde serão extraídas as tendencias
BRAZIL_WOE_ID = 23424768

#### Conexão com o banco de dados (Mogodb)

In [None]:
client = MongoClient("mongodb://dio:dio@localhost:27017/")

db = client.tweets_massa

tweets_collection = db.tweets

#### Geração da lista dos 10 tópicos mais comentados no Twitter

In [None]:
# extração dos trends 
brazil_trends = api.trends_place(BRAZIL_WOE_ID)

# tranformação de dataframe
trends_df = pd.DataFrame.from_dict(brazil_trends[0]["trends"])

# eliminando as colunas que não serão utilizadas
trends_df.drop(columns=["url", "promoted_content", "query"], axis=1, inplace=True)

# substituição dos valores nulos da coluna tweet_volume por 0
trends_df.fillna(0, inplace=True)

# converção dos valores da coluna tweet_volume para inteiro
trends_df[['tweet_volume']] = trends_df[['tweet_volume']].astype('int')

# colocando em ordem do mais citado
trends_df.sort_values(by='tweet_volume', ascending=False, inplace=True)

# eliminação do caracter '#'
trends_df['name'] = trends_df['name'].str.replace('#', '')

# reset do indice
trends_df.reset_index(inplace=True, drop=True)

# gerando a lista das 10 primeiras
trends_top10_list = list(trends_df['name'][:10])

# imprimindo os top 10 com o seu volume
#print(trends_df[:10])

#### Captura dos tweets relacionado a lista dos 10 mais do Twitter

In [None]:
cont = 1

minutos = 15 #tempo de intervalo das extrações
segundos = minutos * 60 #o tempo de cada intervalo em segundos
vezes = 6

while cont <= vezes:

    for i in range(10):
        
        trends_top10_list = trends_top10_list
        
        query_search = trends_top10_list[i] + ' -filter:retweets'
        cursor_tweets = tw.Cursor(api.search, q=query_search, lang="pt").items(200)

        for tweet in cursor_tweets:
            # colocar barra de tempo
            
            #print(tweet._json)
            # enviar a coleção de dados originais (raw) para o banco de dados
            tweets_collection.insert_one(tweet._json)
            
    if cont == vezes:
        break
            
    sleep(segundos)
    cont += 1

# Entrada de dados para tratamento

#### Carregando os dados (raw) do banco

In [None]:
# transformando a coleção do banco em dataframe
tweets_df = pd.DataFrame(list(tweets_collection.find()))

tweets_df.head()

#### Tratamento dos dados

In [None]:
# exibindo as colunas e salvando em uma lista
colunas_list = list(tweets_df.columns)

colunas_list.remove('id')
colunas_list.remove('text')

colunas_list

In [None]:
# eliminando as colunas que não serão utilizadas
tweets_df.drop(columns=colunas_list, axis=1, inplace=True)

tweets_df.head()

In [None]:
# importando biblioteca leia, que é derivada da vader (classificação de sentimento)
from leia import SentimentIntensityAnalyzer

"""@misc{Almeida2018,
author = {Almeida, Rafael J. A.},
title = {LeIA - Léxico para Inferência Adaptada},
year = {2018},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/rafjaa/LeIA}}
}

"""

# instanciando
analyser = SentimentIntensityAnalyzer()

In [None]:
# função para tranformar guardar o score (compoud) 
def analise(texto):
    df_analisado = analyser.polarity_scores(texto)['compound'] 
    return df_analisado

# função que transforma valores maiores que 0 em positivo, menores em negativo
# e iguais a 0 em neutro (normalização)
def analise2(score):
    if score > 0:
        return 'positivo'
    
    if score < 0:
        return 'negativo'
    
    return 'neutro'

In [None]:
# aplicando a função e guardando na coluna pre_sentiment
tweets_df['pre_sentiment'] = tweets_df['text'].apply(analise)

# aplicando a função e guardando na coluna sentiment
tweets_df['sentiment'] = tweets_df['pre_sentiment'].apply(analise2)

tweets_df

In [None]:
# remover a coluna 'pre_sentiment'
tweets_df.drop(columns='pre_sentiment', axis=1, inplace=True)

# trocar os nomes das colunas
tweets_df.rename(columns={'text':'tweet','sentiment':'label'}, inplace=True)

In [None]:
tweets_df

#### Limpando o texto da coluna tweet

In [None]:
# importando a biblioteca de processamento de linguagen natural e a de expreções regulares (regex)
import nltk
import re

# usundo as funções stopword e remover os caracteres indesejados
def Preprocessing(instancia):
    instancia = re.sub(r"http\S+", "", instancia).lower().replace('.','').replace(';','').replace('-','').replace(':','').replace(')','').replace('"','')
    stopwords = set(nltk.corpus.stopwords.words('portuguese'))
    palavras = [i for i in instancia.split() if not i in stopwords]
    return (" ".join(palavras))

In [None]:
# aplicando a função de limpeza de dados:
tweets_df['tweet_clean'] = [Preprocessing(i) for i in tweets_df['tweet']]
pd.set_option('display.max_colwidth', None) 

tweets_df.head()

#### Salvando os dado modificados

Salvando os dados em um arquivo csv

In [None]:
tweets_df.to_csv('twitter_sentiments.csv')

Salvando dos dados tratados no banco de dados

In [None]:
# conecção com o banco de dados
#client = MongoClient("mongodb://dio:dio@localhost:27017/")
#db = client.tweets_mod
#tweets_mod_collection = db.tweets

# Salvando os dados no banco
#tweets_df.reset_index(inplace=True)
#data_dict = tweets_df.to_dict("records")

#tweets_mod_collection.insert_many(data_dict)