# Adquisión de datos `API`

- [ ] descarga directa
- [X] petición GET a través de API de terceros (ej. AEMET, Ayto. Barcelona....)
- web crawling (que es una práctica ilegal...pero muy de moda entre los hackers!?¿!)

*** 
## Acceso a API manualmente

Podemos utilizar la librería de Python [Requests](http://docs.python-requests.org/) para realizar peticiones a web API de manera manual. Para ello, tendremos que acceder a la documentación de la API con la que queramos actuar, construir manualmente las peticiones para obtener la información deseada y procesar también manualmente la respuesta recibida.

Veamos un ejemplo de petición HTTP a una API pública. El sitio http://postcodes.io/ ofrece una API de geolocalización sobre códigos postales en el Reino Unido. Leyendo la documentación, podemos ver que tiene un método GET con la URL http://api.postcodes.io/postcodes/código-postal que nos retorna información del código postal especificado. 

In [26]:
# Importamos la librería requests
import requests
# El parámetro sort_keys FALSE para ordenar o no alfabeticamente
# el parámetro indent para buscar entre los anidados (niveles)
def json_print(json_data, limit=None):
    if isinstance(json_data, (str)):
        json_data = json.loads(json_data)
    nice = json.dumps(json_data, sort_keys=False, indent=3, separators=(',',':'))
    print("\n".join(nice.split("\n")[0:limit]))
    if limit is not None:
        print("[....]")

In [4]:
# Realizamos una petición GET a la API por un código postal `E98 1TT`
# Podemos utilizar opcionalmente en caso de separación por espacio la codificación ASCII %20
response = requests.get('http://api.postcodes.io/postcodes/E98%201TT')

In [7]:
# Realizamos una petición GET a la API por un código postal `E98 1TT`
# Podemos utilizar opcionalmente en caso de separación por espacio la codificación ASCII %20
response_emt = requests.get('https://openapi.emtmadrid.es/v1/hello/')

In [8]:
response_emt

<Response [200]>

In [5]:
response

<Response [200]>

In [9]:
# Mostramos los resultados de la respuesta recibida en caso de obtener `200`
print(u"Código de estado de la respuesta: ",response.status_code, "\n")

Código de estado de la respuesta:  200 



In [15]:
# Mostramos la cabecera de la respuesta
print(response.headers)

{'Date': 'Fri, 11 Dec 2020 19:38:43 GMT', 'Content-Type': 'application/json; charset=utf-8', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Set-Cookie': '__cfduid=db029573e625cd89666279b99b4bcbfda1607715523; expires=Sun, 10-Jan-21 19:38:43 GMT; path=/; domain=.postcodes.io; HttpOnly; SameSite=Lax', 'X-GNU': 'Michael J Blanchard', 'Access-Control-Allow-Origin': '*', 'ETag': 'W/"36d-BWWNmOIYupt4CfqWuk9qrACGUjY"', 'CF-Cache-Status': 'HIT', 'Age': '185', 'cf-request-id': '06f4e923410000ff0c2ab3c000000001', 'Report-To': '{"endpoints":[{"url":"https:\\/\\/a.nel.cloudflare.com\\/report?s=HGacCwX60R38ZAq7HT2GkVp8IF2FEHMMAPIBtJfAYHTiw3MHIR5NAV8E5UdK7SCCfDGeA1UL87gfWydpo39uIy3Q%2FxrlfqWKlmI6tmLgtVhc"}],"group":"cf-nel","max_age":604800}', 'NEL': '{"report_to":"cf-nel","max_age":604800}', 'Vary': 'Accept-Encoding', 'Server': 'cloudflare', 'CF-RAY': '6001aae53d65ff0c-MAD', 'Content-Encoding': 'gzip'}


In [21]:
print(type(response.headers))

<class 'requests.structures.CaseInsensitiveDict'>


In [23]:
print(type(dict(response.headers)))

<class 'dict'>


In [34]:
# Vamos a imprimirlo en manera "nice" pero devolverá error si no le indico que tipo
# de objeto tiene que ser convertido a dict o list
import json
from json_print import *
json_print(response.headers)

NameError: name 'json' is not defined

In [27]:
# Imprimimos en pantalla el header
json_print(dict(response.headers))

{
   "Date":"Fri, 11 Dec 2020 19:38:43 GMT",
   "Content-Type":"application/json; charset=utf-8",
   "Transfer-Encoding":"chunked",
   "Connection":"keep-alive",
   "Set-Cookie":"__cfduid=db029573e625cd89666279b99b4bcbfda1607715523; expires=Sun, 10-Jan-21 19:38:43 GMT; path=/; domain=.postcodes.io; HttpOnly; SameSite=Lax",
   "X-GNU":"Michael J Blanchard",
   "Access-Control-Allow-Origin":"*",
   "ETag":"W/\"36d-BWWNmOIYupt4CfqWuk9qrACGUjY\"",
   "CF-Cache-Status":"HIT",
   "Age":"185",
   "cf-request-id":"06f4e923410000ff0c2ab3c000000001",
   "Report-To":"{\"endpoints\":[{\"url\":\"https:\\/\\/a.nel.cloudflare.com\\/report?s=HGacCwX60R38ZAq7HT2GkVp8IF2FEHMMAPIBtJfAYHTiw3MHIR5NAV8E5UdK7SCCfDGeA1UL87gfWydpo39uIy3Q%2FxrlfqWKlmI6tmLgtVhc\"}],\"group\":\"cf-nel\",\"max_age\":604800}",
   "NEL":"{\"report_to\":\"cf-nel\",\"max_age\":604800}",
   "Vary":"Accept-Encoding",
   "Server":"cloudflare",
   "CF-RAY":"6001aae53d65ff0c-MAD",
   "Content-Encoding":"gzip"
}


In [28]:
# Imprimimos el cuerpo del json
json_print(str(response.text))

{
   "status":200,
   "result":{
      "postcode":"E98 1TT",
      "quality":1,
      "eastings":534427,
      "northings":180564,
      "country":"England",
      "nhs_ha":"London",
      "longitude":-0.064393,
      "latitude":51.508024,
      "european_electoral_region":"London",
      "primary_care_trust":"Tower Hamlets",
      "region":"London",
      "lsoa":"Tower Hamlets 026B",
      "msoa":"Tower Hamlets 026",
      "incode":"1TT",
      "outcode":"E98",
      "parliamentary_constituency":"Poplar and Limehouse",
      "admin_district":"Tower Hamlets",
      "parish":"Tower Hamlets, unparished area",
      "admin_county":null,
      "admin_ward":"St Katharine's & Wapping",
      "ced":null,
      "ccg":"NHS Tower Hamlets",
      "nuts":"Tower Hamlets",
      "codes":{
         "admin_district":"E09000030",
         "admin_county":"E99999999",
         "admin_ward":"E05009330",
         "parish":"E43000220",
         "parliamentary_constituency":"E14000882",
         "ccg":"E3800

In [33]:
response.raw

<urllib3.response.HTTPResponse at 0x7fa1c8459730>