# Coleta de Dados no Twitter utilizando a biblioteca Tweepy do Python

**OBSERVAÇÃO:**

Antes de usar o tweepy pela primeira vez, <span style="color:red">é necessário instalar o pacote</span>. Para isso, acesse o prompt do anaconda e execute o comando:

<h2><center>conda -c install conda-forge tweepy</center></h2>

**Importação do pacote tweepy**

<span style="color:red">**SEMPRE** é necessário importar</span> o(s) pacote(s) que serão usados no seu script.

Vamos importar os pacotes que precisaremos usar nessa aplicação: TextBlob, Tweepy e NumPy. Tenha certeza que os pacotes foram previamente instalados.

In [1]:
# Importação dos pacotes
import tweepy

### Credenciais para utlização da API do Twitter

Para utilizar a API do Twitter, é necessário ter uma conta no Twitter, solicitar o acesso de desenvolvedor, criar sua aplicação e gerar suas credenciais.

- Veja o vídeo explicativo "APIs e coleta de dados": https://igti.instructure.com/courses/3068/pages/apis-e-coleta-de-dados?module_item_id=203835

In [2]:
# Credenciais para utilização da API do Twitter
consumer_key = ''
consumer_secret = ''
access_token = ''
access_token_secret = ''

Fazer a autenticação na API usando suas credencias

In [3]:
auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_token_secret)
token = tweepy.API(auth)

### Realizando a busca por palavra-chave

In [4]:
# Definir a(s) palavra(s)-chave que deseja-se pesquisar no Twitter
#keyword = 'covid-19'
keyword = ('covid OR covid-19 OR corona OR coronavirus')

In [5]:
# Fazer a busca pro palavra-chave

# resulta_type --> mixed (default), recent, popular
# tweets --> variável que irá armazenas todos os tweets com a(s) palavra(s) escolhida(s) na função search da API

tweets = token.search(q=keyword, count=10, result_type='mixed')

#tweets = token.search(q=keyword, count=10, result_type='mixed', tweet_mode='extended', lang='pt')

**Observação:**

Fazer a pesquisa por palavra-chave buscando o texto do tweet truncado:

- tweets = token.search(q=keyword, lang='pt')

Fazer a pesquisa por palavra-chave buscando o texto do tweet por inteiro

- tweets = token.search(q=keyword, tweet_mode='extended')

In [6]:
# Para verificar a quantidade de tweets colentado, use a função "len()"
print("Total de tweets coletados %s." % (len(tweets)))

Total de tweets coletados 10.


In [15]:
# Podemos imprimir o nome do usuário (screen_name) e o texto do tweet
for tweet in tweets:
    print("Usuário: %s" % {tweet.user.screen_name})
    print("     Tweet: %s" % {tweet.text})
    #print("    Tweet: %s" % {tweet.full_text}) #no caso da busca em tweet_mode='extended'

Usuário: {'IAMJADEJACKSON'}
     Tweet: {'“Once COVID is over” is starting to sound about as confident as “When I win the lotto..” 🥴'}
Usuário: {'DGHisham'}
     Tweet: {'Marilah kita belajar drp negara2 lain supaya kita dpt mencegah drp dilanda gelombang tsunami Covid-19 yg lebih dahs… https://t.co/Y6B9jiNsOH'}
Usuário: {'RBReich'}
     Tweet: {'The coronavirus is completely out of control in the U.S. We should lock down the whole nation for the month of Augu… https://t.co/VrQxI55RoL'}
Usuário: {'Teresa_LS'}
     Tweet: {'RT @PlayersTribune: The Players of the Pac-12 will opt-out of fall camp and game participation due to COVID-19 and other serious concerns u…'}
Usuário: {'oneLOVE231745'}
     Tweet: {'RT @ElijahSchaffer: CDC openly admits hospitals have an incentive to inflate coronavirus numbers \n\n https://t.co/gq8JL42Dnx'}
Usuário: {'zwahlebe'}
     Tweet: {'RT @ginsig: Du reist trotz Corona mit dem Flugzeug in die Ferien und bist überrascht, dass bei der Kontrolle am Flughafen e

### Análise de polaridade

Para fazer a **análise de polaridade**, vamos usar a função sentiment.polarity do pacote TextBlob.

- A função sentiment.polarity retornará um número entre -1 e 1, onde quanto maior esse número, menos "chateada" a pessoa que postou está.

Ou seja, quanto maior esse número, mais positivoé o tweet. Podemos ainda considerar que a polaridade 0 (zero) pode indicar uma neutralidade do tweet.

**OBSERVAÇÃO:**

Antes de usar o textblob e numpy pela primeira vez, <span style="color:red">é necessário instalar os pacotes</span>. Para isso, acesse o prompt do anaconda e execute o comando:

<h2><center>conda -c install conda-forge textblob</center></h2>

<h2><center>conda -c install conda-forge numpy</center></h2>

In [19]:
# Importação dos pacotes
from textblob import TextBlob as tb
import numpy as np

In [20]:
# Variável que irá armazenar as polaridades
analysis = None

In [22]:
# Lista vazia para armazenas os scores
tweets_score = []

In [23]:
# Coletando os scores de cada tweet e apresentando os textos
for tweet in tweets:
    print('**', tweet.text)
    analysis = tb(tweet.text)
    polarity = analysis.sentiment.polarity
    tweets_score.append(polarity)

** “Once COVID is over” is starting to sound about as confident as “When I win the lotto..” 🥴
** Marilah kita belajar drp negara2 lain supaya kita dpt mencegah drp dilanda gelombang tsunami Covid-19 yg lebih dahs… https://t.co/Y6B9jiNsOH
** The coronavirus is completely out of control in the U.S. We should lock down the whole nation for the month of Augu… https://t.co/VrQxI55RoL
** RT @PlayersTribune: The Players of the Pac-12 will opt-out of fall camp and game participation due to COVID-19 and other serious concerns u…
** RT @ElijahSchaffer: CDC openly admits hospitals have an incentive to inflate coronavirus numbers 

 https://t.co/gq8JL42Dnx
** RT @ginsig: Du reist trotz Corona mit dem Flugzeug in die Ferien und bist überrascht, dass bei der Kontrolle am Flughafen ein Gedränge ents…
** RT @ruthmkb: @TypesAndSpells Ontario reported 116 new cases today,👉"62% of those newly infected were under the age of 39." #COVIDIOTS #Youn…
** RT @kanpurnagarpol: #kanpurnagarpolice #COVID__19 के दृष

In [26]:
# Apresentando os índices de polaridade de cada tweet
print('Vetor de polaridade:', tweets_score)

Vetor de polaridade: [0.42500000000000004, 0.0, 0.04814814814814814, -0.24583333333333335, 0.0, 0.0, 0.13636363636363635, 0.0, 0.05, 0.0]


In [27]:
# Apresentando a média das polaridades
print('MÉDIA DE SENTIMENTO: ' + str(np.mean(tweets_score))) #a função mean() pertence ao pacote numpy

MÉDIA DE SENTIMENTO: 0.04136784511784512


Análise de polaridade para tweets que não foram postados em inglês

In [28]:
# coletando novamente as polaridades com tradução dos textos para o inglês
polarities = []

for tweet in tweets: #para cada tweet
    analysis = tb(tweet.text) #tweet.full_text para modo extendido

    if analysis.detect_language() != 'en': #verifica se o tweet está em inglês e, caso não esteja, o texto será traduzido
        traducao = tb(str(analysis.translate(to='en')))

        print('Texto traduzido: %s' % traducao)

        polarity = traducao.sentiment.polarity
    else:
        polarity = analysis.sentiment.polarity
    
    polarities.append(polarity)

Texto traduzido: Let us learn from other countries so that we can prevent from being hit by the more severe Covid-19 tsunami… https://t.co/Y6B9jiNsOH
Texto traduzido: RT @ginsig: In spite of Corona, you are going on vacation by plane and you are surprised that there is a crowd at the airport control…
Texto traduzido: RT @kanpurnagarpol: Suspected vehicle /…
Texto traduzido: RT @majesticdevil_: the covid taught us that seeing the mouth of the person you are talking to is very important to understand what they are talking about ...


In [29]:
# Apresentando os novos índices de polaridade de cada tweet
print('Vetor de polaridade:', polarities)

Vetor de polaridade: [0.42500000000000004, 0.1875, 0.04814814814814814, -0.24583333333333335, 0.0, 0.1, 0.13636363636363635, 0.0, 0.52, 0.0]


In [30]:
# Apresentando a média das polaridades novamente
print('MÉDIA DE SENTIMENTO: ' + str(np.mean(polarities)))

MÉDIA DE SENTIMENTO: 0.11711784511784513


### Armazenar os tweets coletados

Até aqui, nós criamos nossa auntenticação e já temos acesso aos tweets coletados. Agora, vamos armazenar nossos tweets.

**Armazenar em arquivos**

In [31]:
# Importanção do pacote json
import json

In [32]:
status = tweets[0]

# Convertendo para string
json_str = json.dumps(status._json)

# Deserializando a string para um objeto Python do tipo dict
parsed = json.loads(json_str) 

In [33]:
# Apresentando o tipo da variável
type(tweets)

tweepy.models.SearchResults

In [34]:
# Apresentando o tipo da variável
type(json_str)

str

In [35]:
# Apresentando o tipo da variável
type(parsed)

dict

Agora vamos deserializar os tweets e gravar o arquivo json.

**Observação:** Antes de executar o script, verifique se o caminho de gravação do arquivo definido na varíavel *datasetPath* existe

In [37]:
import os

# datasetPath = r'C:\Users\USUARIO\Downloads\IGTI\Bootcamp Online - Cientista de Dados\3_Modulo2_Coleta_e_Obtencao_de_Dados\Parte2\AulasPraticas\dados\tweets_keywords.json'

filename = 'tweets_keywords.json'
path = os.path.join(os.getcwd(), "dados") #diretório_atual/dados
file_path = os.path.join(path, filename)

# with open(datasetPath + '/' + filename, 'a', encoding='utf-8') as file_object:
with open(file_path, 'a', encoding='utf-8') as file_object:
    for tweet in tweets:
        status = tweet

        # Convertendo para string
        json_str = json.dumps(status._json)

        # Deserializando a string para um objeto Python do tipo dict
        parsed = json.loads(json_str)

        # Gravando o tweet deserializado no arquivo
        json.dump(parsed, file_object, ensure_ascii=False, sort_keys=True, indent=4, separators=(',', ':'))

**Armazenar no MongoDB**

In [38]:
# Importação do pacote pymongo
import pymongo

In [40]:
# Conexão ao banco de dados
con = pymongo.MongoClient('localhost', 27017)

In [41]:
# Selecionando o banco de dados
db = con.twitterdb

In [42]:
# Selecionando a coleção para armazenar os tweets
collection = db.tweets_keywords

In [43]:
# Listando a quantidade de tweets existentes na coleção
db.tweets_keywords.count()

0

In [44]:
# Listando a quantidade de tweets existentes na coleção (função recomendada)
db.tweets_keywords.count_documents({})

0

In [45]:
i = 0

# Para cada tweet no vetor de resultado tweets
for tweet in tweets:
    db.tweets_keywords.insert_one(tweet._json)
    i= i+1
    #print("Tweet inserido com sucesso!!")

In [47]:
# Listando a quantidade de tweets inseridos
print("Quantidade de tweets inseridos: %s" % i)

Quantidade de tweets inseridos: 10


In [48]:
# Listando a quantidade de tweets existentes na coleção (função recomendada)
db.tweets_keywords.count_documents({})

10