<a href="https://colab.research.google.com/github/oldairjsilva/IGTI/blob/main/coleta_dados_twitter.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Instalando biblioteca do Twitter

In [None]:
!pip install tweepy

Collecting tweepy
  Downloading tweepy-4.8.0-py2.py3-none-any.whl (77 kB)
     ---------------------------------------- 77.4/77.4 KB 2.2 MB/s eta 0:00:00
Collecting oauthlib<4,>=3.2.0
  Downloading oauthlib-3.2.0-py3-none-any.whl (151 kB)
     -------------------------------------- 151.5/151.5 KB 4.6 MB/s eta 0:00:00
Collecting requests-oauthlib<2,>=1.2.0
  Downloading requests_oauthlib-1.3.1-py2.py3-none-any.whl (23 kB)
Installing collected packages: oauthlib, requests-oauthlib, tweepy
Successfully installed oauthlib-3.2.0 requests-oauthlib-1.3.1 tweepy-4.8.0


### Documentação da biblioteca Tweepy
https://docs.tweepy.org/en/latest/getting_started.html

In [None]:
import tweepy as tw
import pandas as pd

## Chaves de acesso fornecidas pelo Twitter

### Abrir documento que contém as informações de acesso

In [None]:
with open ("twitter_token.txt", "r") as file:
    consumer_key = file.readline().strip('\n') # elimina o caracter \n que é uma quebra de linha
    consumer_secret = file.readline().strip('\n')
    token = file.readline().strip('\n')
    access_token = file.readline().strip('\n')
    access_token_secret = file.readline().strip('\n')

### Realizando autentificação na API do Twitter

In [None]:
auth = tw.OAutHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_token_secret)

api = tw.API(auth) # Cria a conexão de acesso com o twitter

public_tweets = api.home_timeline() # Pega todos os primeiros twittes da timeline

### Visualizando os tweets públicos da time line 

In [None]:
for tweet in public_tweets: # mostra os principais tweets da time line
    print(tweet.text)

### Extraindo tweets baseado em tema
Para buscar os twwets vamos utilizar a função cursor da biblioteca tweepy. Para saber como utlizar o cursor podemos abrir a documentação da biblioteca. https://docs.tweepy.org/en/v3.5.0/cursor_tutorial.html

In [None]:
busca_palavras = "#vacina" # Cria uma variável que é atribuída as palavras que queremos extrair

In [None]:
# busca os tweets relacionado a(s) palavra(s) procuradas
tweets = tw.Cursor(api.search, # metodo da API para buscar tweets
                  q = busca_palavras).items(50) # especifica o número de tweets retornados

NameError: name 'api' is not defined

### Verificando atributos disponibilização em um tweet

In [None]:
for tweet in tweets:
    print(tweet.user.name, tweet.text) # traz o texto contidos nos tweets

### Verificando atributos chaves contidas dentro de um tweet

In [None]:
tweet.json

NameError: name 'tweet' is not defined

### Visualizando tweets coletados
Cada tweet possui uma série de atributos. Por exemplo:
1. created_at: Data de publicação
2. name: Contém o nome da pessoa
3. description: Contém a descrição do usuário
4. location: Local onde foi postado o tweet
5. text: Texto que a pessoa postou

In [None]:
# Para facilitar a visualização
vars(tweet).keys() # retornar todas as chaves dentro de tweets

In [None]:
vars(tweet.user).keys() # retorna todas as chaves dentro do atributo user

In [None]:
print(tweet.user.name, '-', tweet.user.location)

### Retirando tweets repetidos
Para retirar os tweets repetidos, vamos adicionar na string de busca o comando "-filter:retweets" para informar que não queremos informações de retweets

In [None]:
busca_palavras = "#vacina" + "-filter:retweets" # Cria uma variável que é atribuída as palavras que queremos extrair

In [None]:
# busca os tweets relacionado a(s) palavra(s) procuradas
tweets = tw.Cursor(api.search, # metodo da API para buscar tweets
                  q = busca_palavras).items(50) # especifica o número de tweets retornados

In [None]:
for tweet in tweets:
    print(tweet.created_at, '\n', tweet.user.name, '\n', tweet.text, '\n') # traz o texto contidos nos tweets

### Observação importante
O cursor é um método dinamico. Dessa forma, todas as vezes que o método é executado novos resultados são retornados. Isso acontece porque os tweets são postados a todo minuto. Ou seja, a busca é em tempo real.

O próximo passo é criar uma estrutura de armazenamento para salvar os tweets que estamos coletando.

In [None]:
vars(tweet.user).keys()

### Criando lista de armazenamento
Vamos criar uma lista vazia e adicionando os dados coletados dos tweets.

In [None]:
# busca os tweets relacionado a(s) palavra(s) procuradas
tweets = tw.Cursor(api.search, # metodo da API para buscar tweets
                  q = busca_palavras).items(50) # especifica o número de tweets retornados

In [None]:
lista_tweets = []
for tweet in tweets:
    dados_tweet = []
    dados_tweet.append(tweet.created_at)
    dados_tweet.append(tweet.user.name)
    dados_tweet.append(tweet.user.description)
    dados_tweet.append(tweet.user.location)
    dados_tweet.append(tweet.text)
    
    lista_tweets.append(dados_tweet)

In [None]:
lista_tweets[:3]

### Criando um dataframe para armazenamento da lista
Vamos criar um dataframe passando a lista dos tweets

In [None]:
df_tweets = pd.DataFrame(lista_tweets, columns = ['data', 'nome', 'descricao', 'localidade', 'post'])

In [None]:
df_tweets