<h1 align=center><b>Capítulo 7</b></h1>
<h1 align=center>Extração de dados usando API<h1>

APIs baseadas na web permitem que os usuários interajam com informações na web. A API lida diretamente com dados que estão em um padrão formatado fácil de usar e manter. Algumas APIs também exigem autenticação do usuário antes de fornecer dados ao usuário. Este capítulo abordará o uso de Python e algumas APIs da Web para interagir e extrair dados da API disponível. Geralmente, as APIs fornecem dados em um formato de documento intercambiável, como JSON, CSV e XML.

## Introdução às APIs da Web
Uma informação de programação de aplicativo baseada na web, ou API baseada na web, é uma interface fornecida por um site para retornar informações para a solicitação recebida. Uma API da Web (ou API) é, na verdade, um serviço da Web fornecido por sites a usuários ou aplicativos da Web de terceiros ou scripts automatizados para compartilhar e trocar informações.

Geralmente, essa é uma interface do usuário (IU) processada por meio de um navegador da Web para recuperar determinadas informações de solicitações feitas a um site ou servidor da Web. Sites com grande quantidade de informações de qualquer tipo podem fornecer uma API web para seu usuário, o que facilita o compartilhamento de informações.

## REST e SOAP
A API é um serviço fornecido por servidores da Web que se baseiam em princípios ou arquitetura de software. **Simple Object Access Protocol (SOAP)** e **Representational State Transfer (REST)** são métodos para acessar serviços da web. Enquanto REST é uma arquitetura, SOAP é um protocolo baseado em padrões web. Estaremos lidando com a API REST nas próximas seções.

### REST
REST é um estilo de arquitetura de software baseado em um conjunto de definição e endereçamento de princípios de rede. REST é uma arquitetura de software, não um conjunto de padrões. REST usa protocolo HTTP padrão e métodos como GET, POST, PUT e DELETE para fornecer serviços. É sem estado, multicamadas e também suporta cache.

As APIs da Web geralmente são classificadas como serviços da Web RESTful; eles fornecem uma interface para o usuário e outros recursos para comunicação. Serviços web RESTful (APIs REST ou APIs web) (https://restfulapi.net/) é o serviço fornecido pela web para adaptação à arquitetura REST. Os serviços fornecidos via REST não precisam ser adaptados aos novos padrões, desenvolvimento ou estruturas. Na maioria das vezes, ele usará uma solicitação GET, juntamente com as strings de consulta que foram emitidas para as APIs, procurando sua resposta. Os códigos de status HTTP (https://restfulapi.net/http-status-codes/) (404, 200, 304) são frequentemente rastreados para determinar a resposta de uma API. As respostas também podem ser obtidas em vários formatos, como JSON, XML e CSV.

Em termos de escolha entre REST e SOAP, REST é mais fácil e eficiente quando se trata de processamento em comparação com SOAP, e está sendo disponibilizado ao público por um grande número de sites.

### SOAP
SOAP (https://www.w3.org/TR/soap/is) é um conjunto de padrões especificados pelo W3C e também representa alternativa ao REST quando se trata de web services.

O SOAP usa HTTP e **SMTP (Simple Mail Transfer Protocol)**, e é usado para troca de documentos pela internet, bem como por meio de procedimentos remotos. O SOAP usa XML como um serviço de mensagens e também é conhecido como protocolo baseado em XML. As solicitações SOAP contêm documentos XML (com um envelope e um corpo) que descrevem os métodos e parâmetros que são enviados a um servidor. O servidor executará o método recebido, juntamente com os parâmetros, e enviará uma resposta SOAP de volta ao programa que iniciou a solicitação.

O SOAP é altamente extensível e inclui tratamento de erros integrado. Também funciona com outros protocolos, como SMTP. O SOAP também é independente de plataformas e linguagens de programação e é implementado principalmente em ambientes corporativos distribuídos.

### Fazendo solicitações para a API da web usando um navegador da web

A obtenção de informações sobre os parâmetros a serem aplicados por meio de strings de consulta e a obtenção da chave de API, se necessário, é a etapa preliminar para obter acesso à API. A maioria das APIs públicas ou gratuitas são bastante diretas e fáceis de gerenciar em comparação com as APIs de desenvolvedor fornecidas pelo Google, Twitter e Facebook.

As solicitações de API podem ser feitas usando um navegador da web. No entanto, tentaremos mostrar alguns casos gerais que podem ser encontrados ao acessar APIs, além de exibir algumas propriedades importantes da API RESTful.

#### Caso 1 – acessando uma API simples (solicitação e resposta)

Vamos aplicar na URL  `https://api.sunrise-sunset.org/json?lat=27.717245&lng=85.323959&date=2019-03-04` o exemplo a seguir.

Vamos processar uma solicitação por meio de uma API simples para obter os horários do nascer e do pôr do sol (disponíveis em UTC) para Katmandu, Nepal. As strings de consulta exigem valores para `lat` (latitude), `lng` (longitude) e data para o local escolhido. Como podemos ver, a resposta que obtivemos está no formato JSON (formatado usando uma extensão do navegador), e sua solicitação bem-sucedida foi verificada usando uma ferramenta de desenvolvedor baseada em navegador com Método de solicitação e Código de status HTTP (200 , ou seja, OK ou Sucesso)

In [4]:
import requests

url = 'https://api.sunrise-sunset.org/json?lat=27.717245&lng=85.323959&date=2019-03-04'
results = requests.get(url)
print("Status Code: ", results.status_code)
print("Headers-ContentType: ", results.headers['Content-Type'])
print("Headers: ", results.headers)
jsonResult = results.json() #read JSON content
print("Type JSON Results",type(jsonResult))
print(jsonResult)
print("SunRise & Sunset: ",jsonResult['results']['sunrise']," & ",jsonResult['results']['sunset'])


Status Code:  200
Headers-ContentType:  application/json
Headers:  {'Server': 'nginx', 'Date': 'Mon, 17 Oct 2022 00:09:22 GMT', 'Content-Type': 'application/json', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Vary': 'Accept-Encoding', 'Access-Control-Allow-Origin': '*', 'Content-Encoding': 'gzip'}
Type JSON Results <class 'dict'>
{'results': {'sunrise': '12:39:17 AM', 'sunset': '12:21:44 PM', 'solar_noon': '6:30:30 AM', 'day_length': '11:42:27', 'civil_twilight_begin': '12:17:03 AM', 'civil_twilight_end': '12:43:58 PM', 'nautical_twilight_begin': '11:49:54 PM', 'nautical_twilight_end': '1:11:07 PM', 'astronomical_twilight_begin': '11:22:47 PM', 'astronomical_twilight_end': '1:38:14 PM'}, 'status': 'OK'}
SunRise & Sunset:  12:39:17 AM  &  12:21:44 PM


#### Caso 2 – demonstrando códigos de status e respostas informativas da API

Nesta seção, usaremos o seguinte URL: `https://api.twitter.com/1.1/search/tweets.json?q=`.

Nesta seção, processaremos uma solicitação de API do Twitter. A URL a ser solicitada é `https://api.twitter.com/1.1/search/tweets.json?q=`. Ao usar esse URL, podemos identificar facilmente que a string de consulta, q, está vazia e que o valor esperado pela API do Twitter não é fornecido. A URL completa deveria ser algo como `https://api.twitter.com/1.1/search/tweets.json?q=nasa&result_type=popular`.

A resposta que foi retornada foi para uma chamada de API incompleta, e pode ser vista na captura de tela a seguir, junto com o código de status HTTP (400 ou Bad Request) e uma mensagem que foi retornada pela API informando erros com "message" : *"Bad Authentication data"*. Para obter mais informações sobre a opção de pesquisa da API do Twitter, consulte `https://developer.twitter.com/en/docs/tweets/search/api-reference/get-search-tweets`:

In [10]:
import requests
import json
url = 'https://api.twitter.com/1.1/search/tweets.json?q='
results = requests.get(url)
print("Status Code: ", results.status_code)
print("Headers: Content-Type: ", results.headers['Content-Type'])
jsonResult = results.content
#jsonResult = results.json()
print(jsonResult)
jsonFinal = json.loads(jsonResult.decode())
print(jsonFinal)
# print(json.loads(requests.get(url).content.decode()))
if results.status_code==400:
    print(jsonFinal['errors'][0]['message'])
else:
	pass

Status Code:  400
Headers: Content-Type:  application/json; charset=utf-8
b'{"errors":[{"code":215,"message":"Bad Authentication data."}]}'
{'errors': [{'code': 215, 'message': 'Bad Authentication data.'}]}
Bad Authentication data.


#### Caso 3 – demonstrando a funcionalidade de cache da API RESTful
Nesta seção, usaremos o seguinte URL: `https://api.github.com/`.

GitHUb (`https://github.com/`) é um local para desenvolvedores e seus repositórios de código. A API do GitHub é bastante famosa entre os desenvolvedores, todos os quais vêm de várias origens de programação. Como podemos ver na captura de tela a seguir, a resposta é obtida em `JSON`. A solicitação foi bem-sucedida, pois o código de status HTTP retornado era `200`, ou seja, `OK` ou `Sucess`.

Como você pode ver, fizemos uma chamada básica para `https://api.github.com`. O conteúdo retornado contém links para a API, juntamente com alguns parâmetros a serem fornecidos para chamadas específicas, como `{/gist_id}`, `{/target}` e `{query}`.

Vamos enviar uma solicitação para a API novamente, mas desta vez sem nenhuma alteração ou atualização nos valores dos parâmetros. O conteúdo que receberemos será semelhante à resposta anterior, mas haverá uma diferença no `Status Code` HTTP; ou seja, obteremos `304 Not Modified` em comparação com 200 `OK`.

Este código de status HTTP (`304` ou `Não Modificado`) demonstra a funcionalidade de armazenamento em cache do REST. Como a resposta não possui atualizações ou conteúdo atualizado, a funcionalidade de armazenamento em cache do lado do cliente entra em ação. Isso ajuda no tempo de processamento, bem como no tempo e no uso da largura de banda. O cache é uma das propriedades importantes dos web services RESTful. A seguir está o código Python revelando a propriedade cache da API RESTful, que foi obtida passando cabeçalhos externos que foram fornecidos ao parâmetro headers ao fazer uma solicitação com `requests.get()`:

In [11]:
import requests
url = 'https://api.github.com'
#First Request
results = requests.get(url)
print("Status Code: ", results.status_code)
print("Headers: ", results.headers)
#Second Request with 'headers'
etag = results.headers['ETag']
print("ETag: ",etag)
results = requests.get(url, headers={'If-None-Match': etag})
print("Status Code: ", results.status_code)

Status Code:  200
Headers:  {'Server': 'GitHub.com', 'Date': 'Mon, 17 Oct 2022 01:56:53 GMT', 'Content-Type': 'application/json; charset=utf-8', 'Cache-Control': 'public, max-age=60, s-maxage=60', 'Vary': 'Accept, Accept-Encoding, Accept, X-Requested-With', 'ETag': 'W/"4f825cc84e1c733059d46e76e6df9db557ae5254f9625dfe8e1b09499c449438"', 'X-GitHub-Media-Type': 'github.v3; format=json', 'Access-Control-Expose-Headers': 'ETag, Link, Location, Retry-After, X-GitHub-OTP, X-RateLimit-Limit, X-RateLimit-Remaining, X-RateLimit-Used, X-RateLimit-Resource, X-RateLimit-Reset, X-OAuth-Scopes, X-Accepted-OAuth-Scopes, X-Poll-Interval, X-GitHub-Media-Type, X-GitHub-SSO, X-GitHub-Request-Id, Deprecation, Sunset', 'Access-Control-Allow-Origin': '*', 'Strict-Transport-Security': 'max-age=31536000; includeSubdomains; preload', 'X-Frame-Options': 'deny', 'X-Content-Type-Options': 'nosniff', 'X-XSS-Protection': '0', 'Referrer-Policy': 'origin-when-cross-origin, strict-origin-when-cross-origin', 'Content-Se

Nesta seção, aprendemos sobre várias APIs, acessando-as por meio do uso de recursos, e demonstramos vários conceitos importantes que são relevantes para os métodos de web scraping. Na próxima seção, vamos extrair dados com o uso de APIs.

### Web scraping usando APIs

Nesta seção, solicitaremos APIs e coletaremos os dados necessários por meio delas. Tecnicamente, os dados obtidos por meio de uma API não são semelhantes à execução de uma atividade de raspagem, pois não podemos apenas extrair os dados necessários da API e processá-los ainda mais.

#### Exemplo 1 – pesquisando e coletando nomes e URLs de universidades

Vamos importar as bibliotecas necessárias e usar a função readUrl() para solicitar a API e retornar a resposta JSON, conforme mostrado no código a seguir:


In [14]:
import requests
import json
dataSet = []

def readUrl(search):
    results = requests.get(url+search)
    print("Status Code: ", results.status_code)
    print("Headers: Content-Type: ", results.headers['Content-Type'])
    return results.json()

url = 'http://universities.hipolabs.com/search?name='
jsonResult = readUrl('Wales') # print(jsonResult)
for university in jsonResult:
    name = university['name']
    url = university['web_pages'][0]
    dataSet.append([name,url])

print("Total Universities Found: ",len(dataSet))
print(dataSet)

Status Code:  200
Headers: Content-Type:  application/json
Total Universities Found:  20
[['University of Wales, Swansea', 'http://www.swan.ac.uk/'], ['University of Wales, Newport', 'http://www.newport.ac.uk/'], ['University of Wales, Lampeter', 'http://www.lamp.ac.uk/'], ['University of Wales, Aberystwyth', 'http://www.aber.ac.uk/'], ['University of Wales, Bangor', 'http://www.bangor.ac.uk/'], ['University of Wales, Lampeter', 'http://www.lamp.ac.uk/'], ['University of Wales, Newport', 'http://www.newport.ac.uk/'], ['University of Wales, Bangor', 'http://www.bangor.ac.uk/'], ['University of Wales, Aberystwyth', 'http://www.aber.ac.uk/'], ['University of Wales, Swansea', 'http://www.swan.ac.uk/'], ['University of Wales Institute, Cardiff', 'http://www.uwic.ac.uk/'], ['University of Wales College of Medicine', 'http://www.uwcm.ac.uk/'], ['University of Wales', 'http://www.wales.ac.uk/'], ['Johnson & Wales University', 'http://www.jwu.edu/'], ['University of New South Wales', 'http://ww

#### Exemplo 2 – extrair informações de eventos do GitHub

GitHub `Events` lista as atividades públicas que foram realizadas nos últimos 90 dias. Esses eventos são fornecidos em páginas, com 30 itens por página e um máximo de 300 sendo exibidos. Existem várias seções dentro de eventos, todas as quais revelam a descrição sobre o `actor`, `repo`, `org`, `created_at`, `type` e muito mais.

In [18]:
url = 'https://api.github.com/'
from collections import Counter

if __name__ == "__main__":
    eventTypes=[]
    #IssueCommentEvent,WatchEvent,PullRequestReviewCommentEvent,CreateEvent
    for page in range(1, 4): #First 3 pages
        events = readUrl('events?page=' + str(page))
        for event in events:
	        id = event['id']
	        type = event['type']
	        actor = event['actor']['display_login']
	        repoUrl = event['repo']['url']
	        createdAt = event['created_at']
	        eventTypes.append(type)
	        dataSet.append([id, type, createdAt, repoUrl, actor])
    eventInfo = dict(Counter(eventTypes))
    print("Individual Event Counts:", eventInfo)
    print("CreateEvent Counts:", eventInfo['CreateEvent'])
    print("DeleteEvent Counts:", eventInfo['DeleteEvent'])

print("Total Events Found: ", len(dataSet))
print(dataSet)

Status Code:  200
Headers: Content-Type:  application/json; charset=utf-8
Status Code:  200
Headers: Content-Type:  application/json; charset=utf-8
Status Code:  200
Headers: Content-Type:  application/json; charset=utf-8
Individual Event Counts: {'PushEvent': 47, 'WatchEvent': 4, 'PullRequestEvent': 9, 'IssuesEvent': 4, 'ForkEvent': 5, 'CreateEvent': 10, 'PullRequestReviewEvent': 3, 'DeleteEvent': 4, 'IssueCommentEvent': 4}
CreateEvent Counts: 10
DeleteEvent Counts: 4
Total Events Found:  110
[['University of Wales, Swansea', 'http://www.swan.ac.uk/'], ['University of Wales, Newport', 'http://www.newport.ac.uk/'], ['University of Wales, Lampeter', 'http://www.lamp.ac.uk/'], ['University of Wales, Aberystwyth', 'http://www.aber.ac.uk/'], ['University of Wales, Bangor', 'http://www.bangor.ac.uk/'], ['University of Wales, Lampeter', 'http://www.lamp.ac.uk/'], ['University of Wales, Newport', 'http://www.newport.ac.uk/'], ['University of Wales, Bangor', 'http://www.bangor.ac.uk/'], ['Univ