# Coleta de Dados do Twitter

In [50]:
# Biblioteca
import tweepy
import sys

In [51]:
# Autenticação
consumer_key = ' '
consumer_secret = ' '
access_token = ' '
access_token_secret = ' '

In [52]:
auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_token_secret)

api = tweepy.API(auth)

public_tweets = api.home_timeline()
for tweet in public_tweets:
    print(tweet.text)

# Análise de Polaridade (Sentimento)

In [53]:
# Biblioteca
import tweepy

In [54]:
# Autenticação
consumer_key = ' '
consumer_secret = ' '
access_token = ' '
access_token_secret = ' '

In [55]:
# Criação do token de autenticação
auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_token_secret)

token = tweepy.API(auth)

## Busca por palavra-chave

In [56]:
# Definição da palavra que será pesquisada no Twitter
keyword = ('covid-19 or covid or corona or coronavírus')

In [57]:
# Busca por palavras-chave
tweets = token.search(q = keyword, count = 10, result_types = 'mixed')

# por default, "count = 100". O valor máximo de count é 18000
# "Lang = pt" => utilizado quando eu quiser somente tweets em português

**Observação**

Fazer busca por palavra chave, busca o text do tweet truncado.
* tweets = token.search(q = keyword, lang = pt)

Fazer busca por palavra chave, busca o text do tweet por inteiro.
*  tweets = token.search(q = keyword, tweet_mode = 'extended')

In [58]:
# Verificação da quantidade de tweets coletado
print("Total de tweets coletados %s." % (len(tweets)))

Total de tweets coletados 10.


In [59]:
# Impreesão do nome do usuário (*screen_name*) e o texto do tweet
for tweet in tweets:
    print("Usuário: %s" % {tweet.user.screen_name})
    print("Tweet: %s" % {tweet.text})

Usuário: {'Queen2Lion'}
Tweet: {'RT @poll_today: Is it a pet peeve of yours / does it get on your nerves when someone says or writes the short form of a word?\n\nSuch as "gua…'}
Usuário: {'GWFS7777'}
Tweet: {"RT @GeorgiaLogCabin: OR's youngest COVID-19 victim didn't have corona virus https://t.co/yyFmQBatwP"}
Usuário: {'Strangeangel14'}
Tweet: {"RT @GeorgiaLogCabin: OR's youngest COVID-19 victim didn't have corona virus https://t.co/yyFmQBatwP"}
Usuário: {'bestillanlisten'}
Tweet: {"RT @GeorgiaLogCabin: OR's youngest COVID-19 victim didn't have corona virus https://t.co/yyFmQBatwP"}
Usuário: {'pjmugs'}
Tweet: {"RT @GeorgiaLogCabin: OR's youngest COVID-19 victim didn't have corona virus https://t.co/yyFmQBatwP"}
Usuário: {'DorisMoonlight'}
Tweet: {'RT @MayorOfLA: If you are age 65 or older or have a chronic underlying medical condition, and have symptoms such as cough, shortness of bre…'}
Usuário: {'twig_harpoon'}
Tweet: {'RT @ReadyLA: Free COVID-19 testing to ALL LA residents! Visit on

## Análise de Polaridade

Para fazer a análise de polaridade é utilizada a função *sentiment.polarity* do pacote *TextBlob*

In [60]:
# Pacotes
from textblob import TextBlob as tb
import numpy as np

In [61]:
# Variável que armazena as polaridades
analysis = None

In [62]:
# Lista vazia para armazenar scores
tweets_score = []

In [63]:
for tweet in tweets:
    print('**', tweet.text)
    analysis = tb(tweet.text)
    polarity = analysis.sentiment.polarity
    tweets_score.append(polarity)
    # para cada vez que for calculada a polaridade a mesma será adicionada ao vetor de polaridade

** RT @poll_today: Is it a pet peeve of yours / does it get on your nerves when someone says or writes the short form of a word?

Such as "gua…
** RT @GeorgiaLogCabin: OR's youngest COVID-19 victim didn't have corona virus https://t.co/yyFmQBatwP
** RT @GeorgiaLogCabin: OR's youngest COVID-19 victim didn't have corona virus https://t.co/yyFmQBatwP
** RT @GeorgiaLogCabin: OR's youngest COVID-19 victim didn't have corona virus https://t.co/yyFmQBatwP
** RT @GeorgiaLogCabin: OR's youngest COVID-19 victim didn't have corona virus https://t.co/yyFmQBatwP
** RT @MayorOfLA: If you are age 65 or older or have a chronic underlying medical condition, and have symptoms such as cough, shortness of bre…
** RT @ReadyLA: Free COVID-19 testing to ALL LA residents! Visit one of the more than 100 sites located throughout LA County to get a free tes…
** RT @MayorOfLA: If you think you have been in contact with someone who tested positive, free COVID-19 testing is available.

Make an appoint…
** RT @Georg

In [64]:
print('Vetor de Polaridade:', tweets_score)

Vetor de Polaridade: [0.0, -0.07500000000000001, -0.07500000000000001, -0.07500000000000001, -0.07500000000000001, 0.05555555555555555, 0.4666666666666666, 0.34242424242424246, -0.07500000000000001, -0.07500000000000001]


In [65]:
print('Média de sentimento:' + str(np.mean(tweets_score)))

Média de sentimento:0.04146464646464646


## Análise de Polaridade para tweets que não estão em inglês

In [66]:
polarities = []

for tweet in tweets:
    analysis = tb(tweet.text)                                   # para o modo extendido é "tweet.full_text"
    if analysis.detect_language() != 'en':
        traducao = tb(str(analysis.translate(to = 'en')))       # tradução do tweet para o inglês
        print('Texto traduzido %s:' % traducao)
        polarity = traducao.sentiment.polarity
    else:
        polarity = analysis.sentiment.polarity
        polarities.append(polarity)

In [67]:
print('Vetor de Polaridade:', polarities)

Vetor de Polaridade: [0.0, -0.07500000000000001, -0.07500000000000001, -0.07500000000000001, -0.07500000000000001, 0.05555555555555555, 0.4666666666666666, 0.34242424242424246, -0.07500000000000001, -0.07500000000000001]


In [68]:
print('Média de sentimento:' + str(np.mean(polarities)))

Média de sentimento:0.04146464646464646


## Armazenamento dos tweets coletados

In [69]:
# Biblioteca
import json

In [70]:
status = tweets[0]

# Conversão para string
json_str = json.dumps(status._json)

# Deserialização de uma string para um objeto python
parsed = json.loads(json_str)

In [71]:
type(tweets)

tweepy.models.SearchResults

In [72]:
type(json_str)

str

In [73]:
type(parsed)

dict

In [74]:
# Deserialização dos tweets e gravação dos dados no arquivo json
datasetPatch = ' '

with open(datasetPatch + '\\tweets_keywords.json', 'a', encoding = 'utf8') as filename:
    status = tweet

    # Conversão para uma string
    json_str = json.dumps(status._json)

    # Deserialização de uma string para um objeto python do tipo dict
    parsed = json.loads(json_str)

    # Armazenamento do tweet deserializado no arquivo
    json.dump(parsed, ensure_ascii = FALSE, sort_keys = True, indent = 4, separators = (',', ':')) 

SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape (<ipython-input-74-962dbf4aa90e>, line 2)