# Coleta de dados utilizando a API do Twitter

## Importando bibliotecas necessárias

In [1]:
import pandas as pd
import tweepy as tw

## Chaves de acesso fornecidas pelo Twitter

As redes sociais fornecem acesso através das APIs, mas para utilizá-las requer autenticação fornecida pela própria rede social. Após conseguir a autenticação fornecidada pelo Twitter, vamos salvar em um arquivo as chaves de autenticação. Depois vamos ler esse arquivo e armazenar cada linha correspondente a uma chave em uma variável.

In [2]:
with open('twitter_tokens.txt', 'r') as file:
    consumer_key = file.readline().strip('\n')
    consumer_secret = file.readline().strip('\n')
    access_token = file.readline().strip('\n')
    access_token_secret = file.readline().strip('\n')
        

## Realizando autenticação na API do Twitter

In [3]:
auth = tw.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_token_secret)

api = tw.API(auth) # Cria conexão de acesso com o tweeter

## Testando a API com tweets públicos da timeline

In [4]:
# Pega todos os primeiros tweets da timeline e os exibe.
public_tweets = api.home_timeline() 
for tweet in public_tweets:
    print(tweet.text)

Então, esse ano vai ter 3. https://t.co/BHPMUN5IOx
100 dias para a Olímpíada: veja os candidatos a estrela em Tóquio https://t.co/esZQUDUlSg
O conteúdo produzido pelo veículo de cultura pop, tecnologia e ciência será integrado ao SuperApp do Magalu!… https://t.co/7fYtiCMD8A
[RT] #DavidTennant starring in #DoctorWho: Dalek Universe Volume One is now available from @bigfinish… https://t.co/4q489IIdlu
Vacinas da gripe e da Covid-19: fundador da Anvisa explica a relação entre os imunizantes. Afinal, posso ser vacina… https://t.co/OHnQzfDm35
Nossa, quanta gente me seguindo. De onde surgiu tanto interesse? Acho que é pelo meu conteúdo, só pode ser.
RT @manekablu: @VEJA @EconomicoRadar Agora sim, com essa imagem que o dono do boteco descobre onde está a garrafa de Fanta Mamão que o @Can…
RT @VEJA: Magazine Luiza compra o NerdCast, um dos maiores podcasts brasileiros (no @EconomicoRadar). https://t.co/4lcRXBBXUA https://t.co/…
Valeu! Prefiro ficar observando. #pas https://t.co/TJbKpxYImB
Tem e

## Extraindo tweets baseado em tema

Para buscar tweets com temas específicos vamos utilizar a função Cursor da biblioteca tweepy. 

In [5]:
 # Variável que é atribuída as palavras que queremos extrair
busca_palavras = '#vacina'

In [6]:
# Busca os tweets relacionados a(s) palavra(s) procuradas.
tweets = tw.Cursor(api.search, q=busca_palavras).items(50)

## Verificando atributos contidos nos tweets

Os tweets obtidos estão estruturados no formato JSON. Portanto temos pares de chave e valor, que são atributos nomeados e valores associados a eles. Podemos visualizar a estrutura dos tweets utilizando a função ._json 

In [7]:
# Exibe a estrutura dos tweets
tweet._json

{'created_at': 'Wed Apr 14 13:42:36 +0000 2021',
 'id': 1382328435582906375,
 'id_str': '1382328435582906375',
 'text': 'RT @cidpixel: @CancerJack https://t.co/K1blfnTak0',
 'truncated': False,
 'entities': {'hashtags': [],
  'symbols': [],
  'user_mentions': [{'screen_name': 'cidpixel',
    'name': '🔥👾 Cid Pixel',
    'id': 1192197528453820419,
    'id_str': '1192197528453820419',
    'indices': [3, 12]},
   {'screen_name': 'CancerJack',
    'name': 'Tucano Lu',
    'id': 37987887,
    'id_str': '37987887',
    'indices': [14, 25]}],
  'urls': [],
  'media': [{'id': 1382328260189683719,
    'id_str': '1382328260189683719',
    'indices': [26, 49],
    'media_url': 'http://pbs.twimg.com/media/Ey8EOo-XAAc_QZY.jpg',
    'media_url_https': 'https://pbs.twimg.com/media/Ey8EOo-XAAc_QZY.jpg',
    'url': 'https://t.co/K1blfnTak0',
    'display_url': 'pic.twitter.com/K1blfnTak0',
    'expanded_url': 'https://twitter.com/cidpixel/status/1382328273259089924/photo/1',
    'type': 'photo',
    'si

#### Dentre os atributos apresentados, podemos destacar: 
<ul>
    <li>created_at: Data de criação;</li>
    <li>name: Contém o nome da pessoa;</li>
    <li>description: contém a descrição do usuário;</li>
    <li>location: local onde foi postado o tweet;</li>
    <li>text: Texto que a pessoa postou.</li>
</ul>

É possível também visualizar mais facilmente os atributos utilizando a função keys(), que mostra apenas os atributos contidos nos tweets.

In [8]:
# Mostra apenas os atributos
vars(tweet).keys()

dict_keys(['_api', '_json', 'created_at', 'id', 'id_str', 'text', 'truncated', 'entities', 'extended_entities', 'source', 'source_url', 'in_reply_to_status_id', 'in_reply_to_status_id_str', 'in_reply_to_user_id', 'in_reply_to_user_id_str', 'in_reply_to_screen_name', 'author', 'user', 'geo', 'coordinates', 'place', 'contributors', 'retweeted_status', 'is_quote_status', 'retweet_count', 'favorite_count', 'favorited', 'retweeted', 'possibly_sensitive', 'possibly_sensitive_appealable', 'lang'])

Podemos ainda saber as chaves contidos dentro de um atributo, especificando qual chave queremos visualizar. No caso vamos visualizar as chaves contidas dentro do atributo user.

In [9]:
# Mostra os atributos dentro de user
vars(tweet.user).keys()

dict_keys(['_api', '_json', 'id', 'id_str', 'name', 'screen_name', 'location', 'description', 'url', 'entities', 'protected', 'followers_count', 'friends_count', 'listed_count', 'created_at', 'favourites_count', 'utc_offset', 'time_zone', 'geo_enabled', 'verified', 'statuses_count', 'lang', 'contributors_enabled', 'is_translator', 'is_translation_enabled', 'profile_background_color', 'profile_background_image_url', 'profile_background_image_url_https', 'profile_background_tile', 'profile_image_url', 'profile_image_url_https', 'profile_banner_url', 'profile_link_color', 'profile_sidebar_border_color', 'profile_sidebar_fill_color', 'profile_text_color', 'profile_use_background_image', 'has_extended_profile', 'default_profile', 'default_profile_image', 'following', 'follow_request_sent', 'notifications', 'translator_type'])

# Visualizando os dados dos tweets

Com base no que foi citado acima, podemos visualizar os dados desejados do tweets. Vamos visualizar o nome do usuário e o texto publicado por ele.

In [10]:
# Visualizando os tweets obtidos e nomes dos usuários
for tweet in tweets:
    print(tweet.user.name, ": ", tweet.text)

Mercado News :  UE: Pfizer antecipa entrega de mais 50 milhões de doses de vacina contra covid-19 https://t.co/EKRk3ZhEka 

#Pfizer… https://t.co/lY0LbVFwq9
Alexis Junqueira :  @Steh_Papaiano Não dá para esperar muito da #CoronaVac, uma vacina de baixa qualidade, que para a pesquisa e desenv… https://t.co/tDk6Riskd7
Mulher Imprensa #fiqueemcasa :  RT @bellagoncalvs: "A população recebe não somente uma dose da vacina, mas sim uma dose da própria pátria". 

Se para o capitalismo a corri…
SANTANA Jornalista .`.🇧🇷 :  VACINAÇÃO EM SÃO PAULO 

#gripe #vacina #vacinainfluenza #vacinadagripe #pmbnoticias 

https://t.co/5S6D61uB1v
Jornal de Brasília :  #Política #Brasil #Governo #Vacina #Queiroga #Doses #Junho 
Declaração foi dada após reunião do comitê de combate à… https://t.co/WF0TCD8r3T
Luiz Serpa :  RT @agenciacma: Dinamarca suspende definitivamente vacina contra covid-19 de AstraZeneca https://t.co/wK7VwpKJQx #AstraZeneca #covid #Dinam…
Jornale :  Paraná receberá mais 368 mil doses de vac

## Retirando tweets repetidos

Para retirar tweets repetidos, vamos adicionar na string de busca o comando "-filter:retweets" para informar que não deve ser mostrado informações de retweets. 

In [22]:
# Cria uma variável que é atribuída as palavras que desejamos extrair de tweets
busca_palavras = "#vacina" + "-filter:retweets" 

In [23]:
# buscando novos retweets
tweets = tw.Cursor(api.search, q=busca_palavras).items(50)

In [24]:
for tweet in tweets:
    print(tweet.created_at, '\n', tweet.user.name, '\n', tweet.text, '\n')

2021-04-14 14:11:03 
 ZBN Investimentos 
 Boa notícia! #vacina

📰 Brasil receberá 15,5 milhões de doses da Pfizer entre abril e junho, segundo o ministro da… https://t.co/mCuKXu5KZw 

2021-04-14 14:10:40 
 Jornal de Brasília 
 #Mundo #Dinamarca #Vacina #AstraZeneca #pandemia #COVID19
As quase 150.000 pessoas que receberam uma dose desta vac… https://t.co/d6uVukSCLo 

2021-04-14 14:06:59 
 Tհiɑցօ DiղiՀ 
 O tanto de video que circula de profissionais da saúde que fingem estar aplicando vacina e na realidade so fura a p… https://t.co/oaCAoSiaBv 

2021-04-14 14:06:30 
 Jornal de Brasília 
 #Política #Brasil #Governo #Pacheco #Vacina #Compra #Iniciativa #Privada 
Presidente do Senado falou em resistência… https://t.co/t6VecSK0vp 

2021-04-14 14:03:44 
 Portal da Vacina 
 Por mais inevitável que possa parecer a preferência pela vacina de maior porcentagem publicada nos estudos, não são… https://t.co/k16EuIDOit 

2021-04-14 14:02:21 
 Mercado News 
 UE: Pfizer antecipa entrega de mais 50 milh

## Observação
É importante citar que o método Cursor, busca Tweets em tempo real, então toda vez que for executado será obtido resultados diferentes, pois a todo minuto são postados novos tweets. Portanto, é preciso criar uma estrutura para armazenar os tweets coletados.

In [25]:
# Revendo quais chaves iremos utilizar para armazenar os dados
vars(tweet.user).keys()

dict_keys(['_api', '_json', 'id', 'id_str', 'name', 'screen_name', 'location', 'description', 'url', 'entities', 'protected', 'followers_count', 'friends_count', 'listed_count', 'created_at', 'favourites_count', 'utc_offset', 'time_zone', 'geo_enabled', 'verified', 'statuses_count', 'lang', 'contributors_enabled', 'is_translator', 'is_translation_enabled', 'profile_background_color', 'profile_background_image_url', 'profile_background_image_url_https', 'profile_background_tile', 'profile_image_url', 'profile_image_url_https', 'profile_banner_url', 'profile_link_color', 'profile_sidebar_border_color', 'profile_sidebar_fill_color', 'profile_text_color', 'profile_use_background_image', 'has_extended_profile', 'default_profile', 'default_profile_image', 'following', 'follow_request_sent', 'notifications', 'translator_type'])

## Criando lista de armazenamento

In [29]:
# buscando tweets mais recentes
tweets = tw.Cursor(api.search, q=busca_palavras).items(50)

In [30]:
# Lista que armazena os tweets
lista_tweets = []
for tweet in tweets:
    dados_tweet = [] # Lista que armazena os dados de cada tweet
    dados_tweet.append(tweet.created_at)
    dados_tweet.append(tweet.user.name)
    dados_tweet.append(tweet.user.description)
    dados_tweet.append(tweet.user.location)
    dados_tweet.append(tweet.text)
    
    lista_tweets.append(dados_tweet)    

In [32]:
lista_tweets[:3]

[[datetime.datetime(2021, 4, 14, 14, 11, 3),
  'ZBN Investimentos',
  'Somos a ZBN Investimentos, uma assessoria financeira vinculada ao BTG Pactual.',
  'Rua Padre chagas, 415 - 1102',
  'Boa notícia! #vacina\n\n📰 Brasil receberá 15,5 milhões de doses da Pfizer entre abril e junho, segundo o ministro da… https://t.co/mCuKXu5KZw'],
 [datetime.datetime(2021, 4, 14, 14, 10, 40),
  'Jornal de Brasília',
  'O Jornal de Brasilia é um dos principais veículos da capital, atingindo um extenso público, com enorme e conceituada credibilidade.',
  'Brasília',
  '#Mundo #Dinamarca #Vacina #AstraZeneca #pandemia #COVID19\nAs quase 150.000 pessoas que receberam uma dose desta vac… https://t.co/d6uVukSCLo'],
 [datetime.datetime(2021, 4, 14, 14, 6, 59),
  'Tհiɑցօ DiղiՀ',
  'Paulista, meu!',
  '',
  'O tanto de video que circula de profissionais da saúde que fingem estar aplicando vacina e na realidade so fura a p… https://t.co/oaCAoSiaBv']]

## Criando um dataframe para armazenar a lista

Após criar a lista, devemos criar um dataframe para armazenar de forma adequada os dados coletados.

In [33]:
df_tweets = pd.DataFrame(lista_tweets, columns=['data', 'nome', 'descricao', 'localidade', 'post'])

In [35]:
df_tweets

Unnamed: 0,data,nome,descricao,localidade,post
0,2021-04-14 14:11:03,ZBN Investimentos,"Somos a ZBN Investimentos, uma assessoria fina...","Rua Padre chagas, 415 - 1102","Boa notícia! #vacina\n\n📰 Brasil receberá 15,5..."
1,2021-04-14 14:10:40,Jornal de Brasília,O Jornal de Brasilia é um dos principais veícu...,Brasília,#Mundo #Dinamarca #Vacina #AstraZeneca #pandem...
2,2021-04-14 14:06:59,Tհiɑցօ DiղiՀ,"Paulista, meu!",,O tanto de video que circula de profissionais ...
3,2021-04-14 14:06:30,Jornal de Brasília,O Jornal de Brasilia é um dos principais veícu...,Brasília,#Política #Brasil #Governo #Pacheco #Vacina #C...
4,2021-04-14 14:03:44,Portal da Vacina,O portal é uma iniciativa da rede sindical bra...,,Por mais inevitável que possa parecer a prefer...
5,2021-04-14 14:02:21,Mercado News,Acompanhe o Mercado News e mantenha-se informa...,São Paulo,UE: Pfizer antecipa entrega de mais 50 milhões...
6,2021-04-14 14:00:16,Alexis Junqueira,"Sommelier de Cervejas, Mestre em Estilos e Téc...","São Paulo, Brasil",@Steh_Papaiano Não dá para esperar muito da #C...
7,2021-04-14 13:55:50,SANTANA Jornalista .`.🇧🇷,"SANTANA, Comendador, Bacharel em Ciência Polít...",SÃO PAULO / BRASIL,VACINAÇÃO EM SÃO PAULO \n\n#gripe #vacina #vac...
8,2021-04-14 13:55:04,Jornal de Brasília,O Jornal de Brasilia é um dos principais veícu...,Brasília,#Política #Brasil #Governo #Vacina #Queiroga #...
9,2021-04-14 13:50:49,Jornale,Jornale | redacao@jornale.com.br\nCEL: (41) 9....,"Curitiba, Brasil",Paraná receberá mais 368 mil doses de vacinas ...


Foi demonstrado aqui como extrair os dados do Twitter utilizando sua API. Uma vez que os tweets coletados estão armazenados em um dataframe, os dados poderão ser tratados adequadamente para extrair informações quando desejado.