# Twitter API

___API___ é uma interface de progração de aplicativos, que fornece acesso a todos os tweets do site. Além disso é possivel enviar requisições (queries) para os servidores do Twitter para filtrar os tweets baseador em, por exemplo: usuarios, localização, tendencias, termos, hashtags, etc...<br>
Para isto é necessario uma autenticação.
* Criando uma conta no Twitter
* Acessando a pagina de desenvolvedor e vincular

Para fazermos os request a API é necessario adquirir algumas credenciais de identificação:
* consumer key, 
* consumer secret, 
* access token, and 
* access token secret (Click on Create Access Token to create those).

__Armazenaremos as credenciais e chaves em um arquivo pkl, e através dele forneceremos tais credenciais para acessar a API__

In [1]:
import pickle #Modulo para serializar dados, "codificar e decodificar"
import os

___Executar a celula abaixo apenas uma vez!!!!___

In [2]:
if not os.path.exists('secret_twitter_credentials.pkl'):
    #Criando um objeto, Twitter, que armazenará e utilizará todas as credenciais
    Twitter={}
    Twitter['Consumer Key'] = 'vbsRaCIiNRX6dnt5n96Fg30vt'
    Twitter['Consumer Secret'] = 'DaZxTWZpZJUrj8PYKC3DCsqhtN4qoEGbMOygIim8YoRDqE5VjP'
    Twitter['Access Token'] = '1053033058289537025-6MpQJ0QgF6ZeSj8GYpR3fTmBA3jHih'
    Twitter['Access Token Secret'] = '6inkj0hCBb8fWZrcbmkFNa2wjR2Hx43GuqofRpIVl37qq'
    
    with open('secret_twitter_credentials.pkl', 'wb') as f:
        pickle.dump(Twitter, f)
else:
    Twitter = pickle.load(open('secret_twitter_credentials.pkl', 'rb'))

__Agora é necessário intalar o pacote do Twitter para interagir com a API__<br>
_pip install twitter_

## Authorizing an application to access Twitter account data

In [3]:
#Importando a biblioteca
import twitter

#Criando um objeto da classe twitter para criar outro objeto, este de autenticação
auth = twitter.oauth.OAuth(Twitter['Access Token'],
                           Twitter['Access Token Secret'],
                           Twitter['Consumer Key'],
                           Twitter['Consumer Secret'])

#Passando o a autenticação(objeto autenticação) para um objeto da classe Twitter
twitter_api = twitter.Twitter(auth=auth)

print(twitter_api)

<twitter.api.Twitter object at 0x7f473078d450>


## Retrieving trends

O Twitter identifica a localização através do "Yahoo! On Earth ID".<br>
Para saber topicos de todo o mundo o ID = 1.<br>
Para verificar o ID de qualquer região: http://woeid.rosselliot.co.nz/

In [4]:
#Alguns IDs de paises e cidades
WORLD_WOE_ID = 1
BR_WOE_ID = 455819
SP_WOE_ID = 455827
US_WOE_ID = 23424977

In [5]:
#Solicitando, para a API, os tópicos principais de cada região


#NOTA: É necessario o prefixo "_" ao ID para que a string seja parametrizada para a query.
#Caso contrario o pacote do Twitter adiciona o valor do ID a própria URL como um caso especial.

#O metodo 'trends.place' do objeto (da classe twitter) fornece os 50 tópicos principais de qualquer localização
world_trends = twitter_api.trends.place(_id=WORLD_WOE_ID)
br_trends = twitter_api.trends.place(_id=BR_WOE_ID)
local_trends = twitter_api.trends.place(_id=SP_WOE_ID)

__A Resposta da API será no formato JSON__<br>
__JSON__ _é um formato de aqrquivo, semi-estruturado, usado para transferir dados pela web, pode-se fazer um paralelo com os dicionarios e listas do Python_

In [6]:
#world_trends[:2]
#br_trends[:2]
#local_trends[:2]

In [7]:
trends = local_trends
print(type(trends)) #Tipo = Objeto da classe twitter com as requisições em json
print(list(trends[0].keys())) #Chaves do arquivo json (semelhante a dicionarios)
#print(trends[0]['trends']) # Printa apenas o primeiro elemento da chave 'trends'

<class 'twitter.api.TwitterListResponse'>
['trends', 'as_of', 'created_at', 'locations']


## Working with JSON

Nesta e em varias outras situações é importante saber trabalhar com JSON para entender e analisar dados, principalmente de APIs.

In [8]:
#Importando modulo do python que trata arquivos em JSON
import json

In [9]:
#O metodo dumps aparesenta a saida numa forma mais agradável
#O argumento indent=1, faz com que a identação respeite os parenteses, chaves, etc..

print((json.dumps(br_trends[:2], indent=1)))

[
 {
  "trends": [
   {
    "name": "Wellington Paulista",
    "url": "http://twitter.com/search?q=%22Wellington+Paulista%22",
    "promoted_content": null,
    "query": "%22Wellington+Paulista%22",
    "tweet_volume": null
   },
   {
    "name": "#SergioMoroJuizLadrao",
    "url": "http://twitter.com/search?q=%23SergioMoroJuizLadrao",
    "promoted_content": null,
    "query": "%23SergioMoroJuizLadrao",
    "tweet_volume": 15550
   },
   {
    "name": "#DeixeDeSeguirAPepa",
    "url": "http://twitter.com/search?q=%23DeixeDeSeguirAPepa",
    "promoted_content": null,
    "query": "%23DeixeDeSeguirAPepa",
    "tweet_volume": 31678
   },
   {
    "name": "Paulo Miranda",
    "url": "http://twitter.com/search?q=%22Paulo+Miranda%22",
    "promoted_content": null,
    "query": "%22Paulo+Miranda%22",
    "tweet_volume": null
   },
   {
    "name": "Vitor Carvalho",
    "url": "http://twitter.com/search?q=%22Vitor+Carvalho%22",
    "promoted_content": null,
    "query": "%22Vitor+Carvalho%22"

## Intersection of two sets of trends

In [10]:
#Criando um set com os trends das regiões
#Set são conjuntos desordenados com elementos unicos; possui alguns metodos para cruzar as informações entre 
#dois, ou mais, sets
trends_set = {}
trends_set['world'] = set([trend['name']
                          for trend in world_trends[0]['trends']])

trends_set['br'] = set([trend['name']
                          for trend in br_trends[0]['trends']])

trends_set['local'] = set([trend['name']
                          for trend in local_trends[0]['trends']])

In [11]:
#Loop para atribuir cada trend a sua respectiva localização e printa-los
for loc in ['world', 'br', 'local']:
    print(('-'*10, loc))
    print((','.join(trends_set[loc])))

('----------', 'world')
#لاجديد_بطلنا_يزيد,#لجنه_الانضباط_والاخلاق,#Ulisse,#لبنان_يثور,Mallorca,#JuveBologna,Jovic,#ChileDesperto,Courtois,#MyUnpopularGamingOpinion,#المريخي_واليامي_بالبوليفارد,#ToqueDeQuedaYa,#RenunciaPiñeraCuliao,#headies2019,#19Oct,#UTRPSV,#l6nalbertrivera,#FNCWIN,#SiSePuedeArgentina,Illini,#tusiquevales,#TheWall,#ProphetofCompassion,#NationalPeriodDay,#تصفيات_زد_رصيدك5,#YeniYıla60BinÖğretmen,#StrictlyComeDancing,Badgers,#CelebrityXFactor,#CRYMCI,#4YearsWithTWICE,Buffon,#bensana,#L6NardeCatalunya,#FAQSkeepcalmTV3,#BerniesBack,Lovie Smith,Odriozola,#SerieAxESPN,#ReOrbitLOONA,#BirAileHikayesi,Wisconsin,#الاتحاد_الوحده,#DALS,#ThingsNotToBuyPreOwned,#EkremBaşkanYalnızDeğildir,#Korea_pride_BTS,#تجمع_العاقلين_السعوديين7,#YPGkillsKurds,Abdullah Avcı
('----------', 'br')
#DeixeDeSeguirAPepa,Mallorca,Phelipe Megiolaro,#OleoNoNordeste,Jovic,Courtois,#SóTocaTop,Rômulo e André,#fncwin,Bologna,#SSCWB10ANOS,#ProgramaDaMaisa,Paulo Miranda,sterling,#LaLigaFoxPremium,Angela Davis,#S

In [12]:
#Para analisar a intersecção entre os trends dessas regiões utilizaremos os metodos do objeto set()

#Insersecção entre World e BR
print(('='*10, 'Intersection of world and BR'))
print((trends_set['world'].intersection(trends_set['br'])))

#Intersecção entre BR e SP
print('\n')
print(('='*10, 'Intersection of BR and SP'))
print((trends_set['br'].intersection(trends_set['local'])))

{'#ReOrbitLOONA', 'Mallorca', '#Korea_pride_BTS', 'Jovic', 'Courtois', '#4YearsWithTWICE', 'Buffon'}


{'#DeixeDeSeguirAPepa', 'Mallorca', 'Phelipe Megiolaro', 'Jovic', '#OleoNoNordeste', '#SóTocaTop', 'Rômulo e André', '#fncwin', 'Bologna', '#ProgramaDaMaisa', '#SSCWB10ANOS', 'Paulo Miranda', '#LaLigaFoxPremium', 'Angela Davis', '#SergioMoroJuizLadrao', '#gameshowproenem', 'David Braz', '#4DaysToLoseYouToLoveMe', '#goLOUD', '#TaMuitoCalorEEu', 'Juve', '#MeMnoSoTocaTop', 'Wellington Paulista', '#sabadou', '#fcseguefcs', 'O Galhardo', 'LUCAS VIANA ESTAMOS COM VOCÊ', 'Fnatic', 'Márcio Braga', '#4YearsWithTWICE', 'Buffon', '#FFPL', 'Vitor Carvalho', '#ReOrbitLOONA', '#Korea_pride_BTS', '#GOT7inParis', 'Thaciano', '#FORxGRE', '#CaldeiraodoHuck', '#GarotosDoNinho', 'Capixaba'}


In [16]:
#print((trends_set['local']))

## Search for a topic

Para acessar os tweets sobre um determinado tema:<br>
__twitter.api.search.tweets(q="topic")__<br><br>

Cada tweet não é apenas uma string de 140 caracteres, mas também um conjunto de varias outras informações relacionadas a cada um deles. Há muitos metadados em cada tweet, que consiste de uma lista de status, que são keys de um dicionario.<br><br>
__Utilizaremos estes metadados para extrair informações interessantes sobre os tweets__

In [17]:
#Olhando os tweets relacionados a hastag
topic = '#BolsonaroVagabundo'

#Numero de tweets que iremos coletar
number = 100

#Requisitando a API
#Retorna uma lista ou objeto com os tweets e metadados associados
search_results = twitter_api.search.tweets(q=topic, count=number)


statuses = search_results['statuses']

In [18]:
len(statuses)
#O resultado, devolvido pela api, esta no formato JSON
print(statuses)

[{'created_at': 'Sat Oct 19 21:02:53 +0000 2019', 'id': 1185662626103209986, 'id_str': '1185662626103209986', 'text': 'RT @senadorhumberto: Esse é o espantalho que @JairBolsonaro escolheu para ministro da Educação. É uma vergonha por dia. Assistam e podem vo…', 'truncated': False, 'entities': {'hashtags': [], 'symbols': [], 'user_mentions': [{'screen_name': 'senadorhumberto', 'name': 'Humberto Costa', 'id': 76049312, 'id_str': '76049312', 'indices': [3, 19]}, {'screen_name': 'jairbolsonaro', 'name': 'Jair M. Bolsonaro', 'id': 128372940, 'id_str': '128372940', 'indices': [45, 59]}], 'urls': []}, 'metadata': {'iso_language_code': 'pt', 'result_type': 'recent'}, 'source': '<a href="http://twitter.com/download/android" rel="nofollow">Twitter for Android</a>', 'in_reply_to_status_id': None, 'in_reply_to_status_id_str': None, 'in_reply_to_user_id': None, 'in_reply_to_user_id_str': None, 'in_reply_to_screen_name': None, 'user': {'id': 404288195, 'id_str': '404288195', 'name': 'Aldair Miranda 

___Frequentemento o twitter devolve resultados duplicados para cada tweet, vamos remove-los___

In [78]:
all_text=[]
filtered_statuses = []

for s in statuses:
    if not s["text"] in all_text:
        filtered_statuses.append(s)
        all_text.append(s["text"])
        
statuses = filtered_statuses

In [79]:
len(statuses)

68

_Ou seja, mais da metade dos dados estavam duplicados_

In [80]:
#Extraindo o texto dos tweets
#Lembrando que 'searcg_results' ainda contem os dados duplicados!!!
[s['text'] for s in search_results['statuses']]

['RT @luh_roma: 😂😂😂😂😂\n\nNa treta eu sou a menina com a manga 🥭 \n\n#BolsonaroVagabundo https://t.co/iITa06WGKw',
 'RT @christiborati: Mas,  apesar de achar o Deputado Delegado Waldir ser completamente destrambelhado ,  achei que caiu como uma luva o #Bol…',
 'RT @IvanValente: Mais de vinte anos como deputado, Bolsonaro não fez nada! Como presidente, os resultados positivos que ele entrega ao Bras…',
 '@folha_poder BRIGUEM E SE MATEM, VAGABUNDOS #BolsonaroVagabundo',
 'RT @Loro_Maciel: Nova era com a velha política. \n#BolsonaroVagabundo https://t.co/6rz4d2Qp9P',
 'RT @Adrieli_S: Que injusta essa hashtag #BolsonaroVagabundo, todo mundo sabe que ele trabalhou muito nos 30 anos de congresso dele!\nSegue a…',
 '#BolsonaroVagabundo\n#BolsonaroVagabundo',
 'Inútil #BolsonaroVagabundo',
 '#BolsonaroVagabundo',
 '#BolsonaroVagabundo',
 'RT @senadorhumberto: Esse é o espantalho que @JairBolsonaro escolheu para ministro da Educação. É uma vergonha por dia. Assistam e podem vo…',
 'RT @luh_roma:

In [81]:
#Outra forma de exibir estes dados é utilizando os metodos para lidar com arquivos JSON
print(json.dumps(statuses[0], indent=1))

{
 "created_at": "Fri Oct 18 21:22:20 +0000 2019",
 "id": 1185305132080226304,
 "id_str": "1185305132080226304",
 "text": "RT @luh_roma: \ud83d\ude02\ud83d\ude02\ud83d\ude02\ud83d\ude02\ud83d\ude02\n\nNa treta eu sou a menina com a manga \ud83e\udd6d \n\n#BolsonaroVagabundo https://t.co/iITa06WGKw",
 "truncated": false,
 "entities": {
  "hashtags": [
   {
    "text": "BolsonaroVagabundo",
    "indices": [
     62,
     81
    ]
   }
  ],
  "symbols": [],
  "user_mentions": [
   {
    "screen_name": "luh_roma",
    "name": "\ud83c\udf3b \u00a3uh \ud83c\udf3b\ud83d\udea9",
    "id": 1103929793689542659,
    "id_str": "1103929793689542659",
    "indices": [
     3,
     12
    ]
   }
  ],
  "urls": [],
  "media": [
   {
    "id": 1185241147934986240,
    "id_str": "1185241147934986240",
    "indices": [
     82,
     105
    ],
    "media_url": "http://pbs.twimg.com/ext_tw_video_thumb/1185241147934986240/pu/img/EJ-CXSBBwUSsfyQP.jpg",
    "media_url_https": "https://pbs.twimg.com/ext_tw_vi

## Extract text, screen names, and hashtags from tweets

In [82]:
status_texts = [status['text'] for status in statuses]

screen_names = [user_mention['screen_name'] for status in statuses
                                               for user_mention in status['entities']['user_mentions']]

hashtags = [hashtag['text'] for status in statuses
                               for hashtag in status['entities']['hashtags']]

#Criando uma bag-of-words com as palavras dos tweets
words = [w for t in status_texts
            for w in t.split()]

In [83]:
#Utilizando o metodo do pacote JSON para analisar os primeiros 5 elementos das listas criadas
print(json.dumps(status_texts[:5], indent=1))
print(json.dumps(screen_names[:5], indent=1))
print(json.dumps(hashtags[:5], indent=1))
print(json.dumps(words[:5], indent=1))

[
 "RT @luh_roma: \ud83d\ude02\ud83d\ude02\ud83d\ude02\ud83d\ude02\ud83d\ude02\n\nNa treta eu sou a menina com a manga \ud83e\udd6d \n\n#BolsonaroVagabundo https://t.co/iITa06WGKw",
 "RT @christiborati: Mas,  apesar de achar o Deputado Delegado Waldir ser completamente destrambelhado ,  achei que caiu como uma luva o #Bol\u2026",
 "RT @IvanValente: Mais de vinte anos como deputado, Bolsonaro n\u00e3o fez nada! Como presidente, os resultados positivos que ele entrega ao Bras\u2026",
 "@folha_poder BRIGUEM E SE MATEM, VAGABUNDOS #BolsonaroVagabundo",
 "RT @Loro_Maciel: Nova era com a velha pol\u00edtica. \n#BolsonaroVagabundo https://t.co/6rz4d2Qp9P"
]
[
 "luh_roma",
 "christiborati",
 "IvanValente",
 "folha_poder",
 "Loro_Maciel"
]
[
 "BolsonaroVagabundo",
 "BolsonaroVagabundo",
 "BolsonaroVagabundo",
 "BolsonaroVagabundo",
 "BolsonaroVagabundo"
]
[
 "RT",
 "@luh_roma:",
 "\ud83d\ude02\ud83d\ude02\ud83d\ude02\ud83d\ude02\ud83d\ude02",
 "Na",
 "treta"
]


# Create Frequency Distributions

_Utilizaremos o pacote padrão __collections__ que contem a classe __Counter__ que torna fácil criar distribuições de frequencias._

__Fazendo desta forma o output seria muito difícil de se ler devido a sintaxe, por tanto usaremos algumas formas de formatação de strings para melhorar a leitura do output.__<br>

<center>print("{:20} | {:>6}".format(k,v))</center>

Para cada string printada, teremos:<br>
__{:20}__ Irá moldar a string em 20 espaços <br>
__{:^20}__ Irá centralizar a string no meio de 20 espaços<br>
__{:>20}__ Irá alinhas à direita de 20 espaços

Para mais: https://pyformat.info/

In [87]:
#A classe counter retorna uma lista e conta quantas vezes cada item se repete
from collections import Counter

In [98]:
#O metodo "most_common()" retorna as contagens ordenadas
for item in [words, screen_names, hashtags]:
    #'c' é um objeto da classe Counter
    c = Counter(item)
    print(c.most_common()[:10])
    print()

[('#BolsonaroVagabundo', 53), ('RT', 30), ('o', 20), ('de', 16), ('a', 11), ('que', 11), ('e', 11), ('do', 10), ('com', 7), ('não', 7)]

[('jairbolsonaro', 7), ('luh_roma', 4), ('senadorhumberto', 2), ('camiladelmondes', 2), ('VEJA', 2), ('joomikhail', 2), ('christiborati', 1), ('IvanValente', 1), ('folha_poder', 1), ('Loro_Maciel', 1)]

[('BolsonaroVagabundo', 58), ('Bolsolao', 2), ('LulaLivre', 1), ('ImpeachmentdoBolsonaroURGENTE', 1), ('PSLtraidor', 1), ('QueimaQuengaral', 1), ('Bolsolão', 1)]



_Este output, uma lista de tuplas, é dificil de ler, devido a sintaxe, vamos melhorar isso:_

In [119]:
#função para deixar o output mais legível
#Imprime uma "tabela" com as informações desejadas
def prettyprint_counts(label, list_of_tuples):
    print("\n{:^20} | {:^6}".format(label, "Count"))
    print("*"*40)
    for k,v in list_of_tuples:
        print("{:20} | {:>6}".format(k,v))

In [120]:
for label, data in (('Word', words), ('Screen Name', screen_names), ('Hashtags', hashtags)):
    c = Counter(data)
    prettyprint_counts(label, c.most_common()[:10])


        Word         | Count 
****************************************
#BolsonaroVagabundo  |     53
RT                   |     30
o                    |     20
de                   |     16
a                    |     11
que                  |     11
e                    |     11
do                   |     10
com                  |      7
não                  |      7

    Screen Name      | Count 
****************************************
jairbolsonaro        |      7
luh_roma             |      4
senadorhumberto      |      2
camiladelmondes      |      2
VEJA                 |      2
joomikhail           |      2
christiborati        |      1
IvanValente          |      1
folha_poder          |      1
Loro_Maciel          |      1

      Hashtags       | Count 
****************************************
BolsonaroVagabundo   |     58
Bolsolao             |      2
LulaLivre            |      1
ImpeachmentdoBolsonaroURGENTE |      1
PSLtraidor           |      1
QueimaQuengaral      |   

## Finding the most popular retweets

In [144]:
#Analisaremos através do numero de retweets
#Primeiro armazenamos uma lista de tuplas, garantindo que o contador do tweet (nº de vezes que ele foi retuitado)
#seja o primeiro elemento da tupla

#LIST COMPREHENSIONS
retweets = [
            #Armazenando uma tupla com esse valores...
            (status['retweet_count'],
             status['retweeted_status']['user']['screen_name'],
             status['text'].replace("\n", "\\"))
    
            #Para cada status...
            for status in statuses
                #Desde que...
                if 'retweeted_status' in status
            ]

In [146]:
#len(retweets)

__Agora contruiremos outra função prettyprint para imprimir o tweet inteiro, ou seja, tweet com retweet__<br>
_Também dividir o tweet em 3 linhas se for necessario_

In [165]:
row_template = "{:^7} | {:^15} | {:50}"

def prettyprint_tweets_2(list_of_tuples):
    print()
    print(row_template.format("Count", "Screen Name", "Text"))
    print("*"*80)
    for count, screen_names, text in list_of_tuples:
        #Dividindo o tweet 3 linhas, com 50 caracteres cada para ter alguma margem
        #Se o tweet for muito pequeno isto nao será preciso
        #Se for maior será divido em outras linhas
        print(row_template.format(count, screen_names, text[:50]))
        if len(text) > 50:
            print(row_template.format("", "", text[50:100]))
            if len(text) > 100:
                print(row_template.format("", "", text[100:]))
        print('-'*80)

In [166]:
#Printando - de forma legível - os 5 tweets mais populares
#A função "sorted" retorna os elementos de uma lista, ordenado

prettyprint_tweets_2(sorted(retweets, reverse=True)[:10])


 Count  |   Screen Name   | Text                                              
********************************************************************************
  457   |    Adrieli_S    | RT @Adrieli_S: Que injusta essa hashtag #Bolsonaro
        |                 | Vagabundo, todo mundo sabe que ele trabalhou muito
        |                 |  nos 30 anos de congresso dele!\Segue a…          
--------------------------------------------------------------------------------
  393   | hospicio_brasil | RT @hospicio_brasil: Ele xinga, pragueja, espernei
        |                 | a, finge que trabalha, mas nunca produziu nada de 
        |                 | relevante para o país. Sequer um alfine…          
--------------------------------------------------------------------------------
  374   | izanildosabino  | RT @izanildosabino: É bem possível q a gravação q 
        |                 | o presidente do PSL tem para implodir Bolsonaro re
        |                 | vele quem mandou 