## La librería requests de Python

La forma más sencilla de invocar APIs REST en Python es a través de la librería [requests](https://2.python-requests.org/en/master/). Esta librería no está disponible dentro del conjunto de librerías estándar del lenguaje de programación Python y por lo general tendríamos que instalarla. En este caso esta instalación no es necesaria ya que estamos utilizando el entorno Colab, y al ser *requests* una librería muy utilizada, Google la ha pre-instalado en este entorno.

Para poder utilizar la librería, es necesario importarla:


In [1]:
import requests

Para poder experimentar con esta librería, utilizaremos el servicio REST proporcionado por GitHub (https://developer.github.com/v3/). En concreto, utilizaremos el servicio de búsqueda de repositorios, a través de la siguiente URL:

```
https://api.github.com/search/repositories?q=snake+language:java&sort=stars&order=desc
```

Esta URL incluye las siguientes partes:
* El dominio es **https://api.github.com**.
* La ruta de destino es **/search/repositories**.
* Los parámetros son **q=snake+language:java&sort=stars&order=desc**. Esta es la descripción de estos parámetros:

parámetro | valor | Signifciado
--- | --- | ---
q | snake+language:java | El parámetro de búsqueda. Buscaremos todos los repositorios con el texto snake escritos en el lenguaje de programación Java.
sort | stars | Ordena los resultados por el número de estrellas.
order | des | Ordena los resultados en orden descendente, de más estrellas a menos.

Para realizar una petición GET a esta URL utilizaremos el método `requests.get()`.

```
requests.get(url, params=None)
```

En esta función, el argumento `url`	es la combinación del dominio y la ruta de destino (`https://api.github.com/search/repositories`). 
`params` es un parámetro opcional con `None` como valor por defecto. En caso de ser proporcionado, será un diccionario.

El método `requests.get` devuelve un objeto *response*.

Empezaremos por definir las variables *url* con el dominio y ruta de destino del servicio web, *query*, con el diccionario de parámetros a enviar.

In [2]:
url = 'https://api.github.com/search/repositories'
query = {'q': 'tetris+language:assembly', 'sort': 'stars', 'order': 'desc'}

Ahora podemos realizar la llamada utilizando estas dos variables.

In [3]:
response = requests.get(url, params=query)

La variable `response` contien un objeto de tipo Response, el cual encapsula la respuesta HTTP. Entre los atributos de un objeto response encontraremos:

Atributo | Significado | Nombre de atributo
--- | --- | ---
Código de estado | Código de estado HTTP. | status_code
Texto | Contenido de la respuesta en Unicode | text
Ok | Valor booleano que indica si la petición se ha realizado correctamente | ok
json | Si el servicio web responde con un formato JSON, aquí tendremos el contenido de esa respuesta | json()
Encabezado | Un diccionario con el encabezado de la respuesta | headers
Contenido | El contenido de la respuesta, sin procesar | content

Como recordatorio, el código de estado HTTP es la forma en la que un servidor web indica el resultado de una petición. Por ejemplo, el código **404** es el utilizado para indicar que el recurso solicitado no se ha encontrado en el servidor. El sitio web [MDN](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status) contiene un listado de todos los códigos y sus significados.

Analizaremos cuál es el código del estado de la respuesta para nuestra petición.

In [4]:
response.status_code

200

El código obtenido es **200**, por lo que nuestra petición ha sido gestionada sin ningún problema. Un servidor web puede devolver otros códigos que también indiquen un resultado correcto, por lo que utilizaremos el atributo **ok** para confirmar que la petición se ha realizado correctamente.

In [5]:
response.ok

True

El servicio REST de GitHub devuelve los datos en formato JSON, por lo que podemos obtener el contenido de la respuesta con el método `json()`.

In [6]:
data = response.json()
data

{'total_count': 450,
 'incomplete_results': False,
 'items': [{'id': 68911683,
   'node_id': 'MDEwOlJlcG9zaXRvcnk2ODkxMTY4Mw==',
   'name': 'tetros',
   'full_name': 'daniel-e/tetros',
   'private': False,
   'owner': {'login': 'daniel-e',
    'id': 5294331,
    'node_id': 'MDQ6VXNlcjUyOTQzMzE=',
    'avatar_url': 'https://avatars.githubusercontent.com/u/5294331?v=4',
    'gravatar_id': '',
    'url': 'https://api.github.com/users/daniel-e',
    'html_url': 'https://github.com/daniel-e',
    'followers_url': 'https://api.github.com/users/daniel-e/followers',
    'following_url': 'https://api.github.com/users/daniel-e/following{/other_user}',
    'gists_url': 'https://api.github.com/users/daniel-e/gists{/gist_id}',
    'starred_url': 'https://api.github.com/users/daniel-e/starred{/owner}{/repo}',
    'subscriptions_url': 'https://api.github.com/users/daniel-e/subscriptions',
    'organizations_url': 'https://api.github.com/users/daniel-e/orgs',
    'repos_url': 'https://api.github.com/u

Como puedes ver en la celda de arriba, `data` es un diccionario, por lo que podemos acceder a sus atributos y valores como accedemos a los de cualquier diccionario en Python.

In [7]:
# Mostrar todos los atributos del diccionario
print(data.keys())

# Mostrar el valor de total_counts
print('Total number of repositories matching query is {data["total_counts"]}')

# Mostrar la cantidad de elementos dentro de la lista items
print('The length of the items array is {len(data["items"])}')

# Obtener el primer elemento de la lista items
item1 = data['items'][0]

# Mostrar los atributos del primer item
print(item1.keys())



dict_keys(['total_count', 'incomplete_results', 'items'])
Total number of repositories matching query is {data["total_counts"]}
The length of the items array is {len(data["items"])}
dict_keys(['id', 'node_id', 'name', 'full_name', 'private', 'owner', 'html_url', 'description', 'fork', 'url', 'forks_url', 'keys_url', 'collaborators_url', 'teams_url', 'hooks_url', 'issue_events_url', 'events_url', 'assignees_url', 'branches_url', 'tags_url', 'blobs_url', 'git_tags_url', 'git_refs_url', 'trees_url', 'statuses_url', 'languages_url', 'stargazers_url', 'contributors_url', 'subscribers_url', 'subscription_url', 'commits_url', 'git_commits_url', 'comments_url', 'issue_comment_url', 'contents_url', 'compare_url', 'merges_url', 'archive_url', 'downloads_url', 'issues_url', 'pulls_url', 'milestones_url', 'notifications_url', 'labels_url', 'releases_url', 'deployments_url', 'created_at', 'updated_at', 'pushed_at', 'git_url', 'ssh_url', 'clone_url', 'svn_url', 'homepage', 'size', 'stargazers_count'

## Ejemplo: Servicio web de Food and Drug Administration

Ahora utilizaremos el servicio web web de la Food and Drug Administration que brinda información sobre [retirada de alimentos](https://open.fda.gov/apis/food/enforcement/). Utilizaremos este servicio para resumir las retiradas de alimentos del año 2018.

### El servicio web

La [documentación](https://open.fda.gov/apis/food/enforcement/how-to-use-the-endpoint/) de este servicio web explica cómo realizar una llamada y que respuesta esperar. La URL base y la ruta de destino es `https://api.fda.gov/food/enforcement.json`. 

Entre los parámetros a proporcionar tenemos `limit` con el número máximo de elementos a devolver.
Para especificar un rango de fechas, utilizaremos el parámetro `report_date` con la fecha inicial y fecha final, en formato YYYYMMDD.


In [8]:
import requests

url = 'https://api.fda.gov/food/enforcement.json?search=report_date:[20180101+TO+20181231]'
query = {'limit': 99}

response = requests.get(url, query)
response.ok


True

Ahora examinaremos el contenido de la respuesta y lo procesaremos. Gracias a la documentación del servicio web, sabemos que el contenido sigue el siguiente formato:

```json
{
  "meta": {
    "disclaimer": "Do not rely on openFDA to make decisions regarding medical care. While we make every effort to ensure that data is accurate, you should assume all results are unvalidated. We may limit or otherwise restrict your access to the API in line with our Terms of Service.",
    "terms": "https://open.fda.gov/terms/",
    "license": "https://open.fda.gov/license/",
    "last_updated": "2019-02-23",
    "results": {
      "skip": 0,
      "limit": 1,
      "total": 4024
    }
  },
  "results": [
    {
      "country": "United States",
      "city": "Medford",
      "reason_for_recall": "Product received from supplier is being recalled due to the potential to be contaminated with Salmonella",
      "address_1": "2500 S Pacific Hwy",
      "address_2": "",
      "code_info": "Best By Date on the recalled nut products - 01MAY11 through 24SEPT13.    The lot code format for the baskets is DDDYM(H or C), with DDD representing the Julian date, Y representing the year, and letter M, H or C representing the production facility, printed on the shipping container.  The affected lots would have been between 1460M(H or C) to 2682M(H or C).",
      "product_quantity": "15,264 - 12 oz. jars",
      "center_classification_date": "20121026",
      "distribution_pattern": "Nationwide and Canada through online ordering www.harryanddavid.com/h/home and through retail stores located throught the U.S.",
      "state": "OR",
      "product_description": "Harry & David Creamy Raspberry Peanut Spread, 12 oz. jars, labeled in part: \"HARRY & DAVID CREAMY RASPBERRY PEANUT SPREAD***NET WT. 12 OZ. (340g)***INGREDIENTS: ROASTED PEANUTS, SUGAR, RASPBERRY COMPOUND***MADE FOR: HARRY AND DAVID MEDFORD, OR 97501***7 80994 73872 0***\"    The 12 oz. jars are sold individually and also as gift add-ons for gift baskets.     The gift baskets are listed below:    Harry & David Apple Snack Box;  Wolferman's Bee Sweet Gift Basket;  Wolferman's Hearty Snack Gift Basket;  Wolferman's All-Day Assortment Gift Basket;  Wolferman's Fathers Day Basket",
      "report_date": "20121107",
      "classification": "Class I",
      "openfda": {},
      "recall_number": "F-0562-2013",
      "recalling_firm": "Harry and David Operations, Inc.",
      "initial_firm_notification": "Two or more of the following: Email, Fax, Letter, Press Release, Telephone, Visit",
      "event_id": "63306",
      "product_type": "Food",
      "termination_date": "20130314",
      "more_code_info": null,
      "recall_initiation_date": "20120927",
      "postal_code": "97501-8724",
      "voluntary_mandated": "Voluntary: Firm Initiated",
      "status": "Terminated"
    }
  ]
}
```

Vemos que el JSON resultante contiene dos atributos: *meta* and *results*. meta contiene información sobre la misma consulta: una declaración sobre responabilidad, el número total de resultados, el número de resultados omitidos, y cuántos han sido devueltos. results es una lista de objetos, donde cada objeto incluye los detalles de un incidente en particular. Deseamos solamente un subconjunto de estos atributos, por lo que iteraremos sobre estos resultados y construiremos un diccionario más simple.

In [9]:
# nos aseguramos de que la respuesta es correcta
if(response.ok):
  # obtenemos todos los datos de la respuesta
  data = response.json()
  # obtenemos la lista results
  raw_incidents = data['results']
  # iteramos sobre estos y obtenmos solamente los atributos que nos interesan
  incidents = [{
      'city':incident['city'],
      'state': incident['state'],
      'reason': incident['reason_for_recall'],
      'date': incident['report_date'],
      'company': incident['recalling_firm'],
      'product_type': incident['product_type'],
      'postal_code': incident['postal_code']
  } for incident in raw_incidents]
  # mostramos en pantalla los primeros 5 elementos de nuestra lista
  print(incidents[:5])

[{'city': 'Seattle', 'state': 'WA', 'reason': 'Coffee Toffee is recalled because pecan is listed on the Ingredients statement but it is not listed in the Contains statement.', 'date': '20180620', 'company': 'Yukon Jackson', 'product_type': 'Food', 'postal_code': '98134-2139'}, {'city': 'Minneapolis', 'state': 'MN', 'reason': 'Shipping container from CA to HI was not held at proper temperature which could cause food items to be contaminated with spoilage organisms or pathogens', 'date': '20180509', 'company': 'Target Corporation', 'product_type': 'Food', 'postal_code': '55402-3601'}, {'city': 'Kent City', 'state': 'MI', 'reason': 'Nyblad Orchards Inc. initiated a voluntary recall of multiple varieties of whole fresh apples due to potential contamination with Listeria monocytogenes.', 'date': '20180117', 'company': 'Nyblad Orchards', 'product_type': 'Food', 'postal_code': '49330-9752'}, {'city': 'Lenexa', 'state': 'KS', 'reason': 'Sharp edges were observed on several of the cans which ha

Por una propia limitación del servicio web, solo podemos obtener los primeros 99 resultados de esta búsqueda. Para poder obtener todos los resultados necesitamos realizar varias llamadas a este servicio. En la segunda llamada podemos indicar que deseamos omitir los primeros 99 resultados a través del parámetro `skip`. En la tercera, indicaremos que deseamos omitir los primeros 198 resultados, y así sucesivamente hasta que obtengamos todos los resultados.

In [10]:
# definimos una función para procesar los datos
def process_data(raw_incidents):
  # iteramos sobre los resultados y obtenemos los atributos de interés
  return [{
      'city':incident['city'],
      'state': incident['state'],
      'reason': incident['reason_for_recall'],
      'date': incident['report_date'],
      'company': incident['recalling_firm'],
      'product_type': incident['product_type'],
      'postal_code': incident['postal_code']
  } for incident in raw_incidents]
  

# declaramos una lista para almacenar los resultados
incidents = []

# declaramos variables para definir los resultados a omitir y el total a obtener en cada iteración
skip = 0
limit = 99

# realizamos la primera llamada
url = 'https://api.fda.gov/food/enforcement.json?search=report_date:[20180101+TO+20181231]'
query = {'limit': limit, 'skip': skip}
response = requests.get(url, query)
print('Querying {}'.format(response.url))

# nos aseguramos de obtener una respuesta correcta
if(response.ok):
  # obtenemos los datos de la respuesta
  data = response.json()
  
  # obtenmos los datos de meta
  meta_data = data['meta']

  total = meta_data['results']['total']
  print('Hay un total de {} resultados a obtener.'.format(total))
  
  # procesamos los resultados obtenidos hasta ahora
  incidents = process_data(data['results'])
  print('{} resultados procesados'.format(len(incidents)))
  
  # incremntamos las filas a omitir

  skip = skip + limit
  
  while skip < total:
    query = {'limit': limit, 'skip': skip}
    response = requests.get(url, query)
    print('Consultando {}'.format(response.url))
    if(response.ok):
      #  concatenamos los nuevos incidentes a los anteriores      
      incidents = incidents + process_data(response.json()['results'])
      print('{} resultados procesados'.format(len(incidents)))
      # incrementamos las filas aomitir
      skip = skip + limit
      
print('{} resultados obtenidos'.format(len(incidents)))      

Querying https://api.fda.gov/food/enforcement.json?search=report_date:%5B20180101+TO+20181231%5D&limit=99&skip=0
Hay un total de 1958 resultados a obtener.
99 resultados procesados
Consultando https://api.fda.gov/food/enforcement.json?search=report_date:%5B20180101+TO+20181231%5D&limit=99&skip=99
198 resultados procesados
Consultando https://api.fda.gov/food/enforcement.json?search=report_date:%5B20180101+TO+20181231%5D&limit=99&skip=198
297 resultados procesados
Consultando https://api.fda.gov/food/enforcement.json?search=report_date:%5B20180101+TO+20181231%5D&limit=99&skip=297
396 resultados procesados
Consultando https://api.fda.gov/food/enforcement.json?search=report_date:%5B20180101+TO+20181231%5D&limit=99&skip=396
495 resultados procesados
Consultando https://api.fda.gov/food/enforcement.json?search=report_date:%5B20180101+TO+20181231%5D&limit=99&skip=495
594 resultados procesados
Consultando https://api.fda.gov/food/enforcement.json?search=report_date:%5B20180101+TO+20181231%5D&

## Ejercicio: Servicio web del Museo de Arte de Harvard

Revisa la documentación del servicio web del [Museo de Arte de Harvard](https://github.com/harvardartmuseums/api-docs).

En la primera página encontraras el enlace para solicitar una clave de acceso al servicio REST. Solicita una clave, la cuál te llegará a tu correo electrónico. 

A continuación, escribe el código necesario para obtener los nombres y lugares de nacimiento de todas las personas británicas brindadas por el servicio web.

In [11]:
url = 'https://api.harvardartmuseums.org/RESOURCE_TYPE?apikey=74245464-18e0-4863-8699-7d4dcc3b32ec'


In [13]:
# función para procesado de datos
def process_data_museo(raw_records):
  return [{
      'name':record['displayname'],
      'birthplace': record['birthplace'],
  } for record in raw_records]

# variable url
url = 'https://api.harvardartmuseums.org/person?apikey=74245464-18e0-4863-8699-7d4dcc3b32ec'
#variable query
query = {'q':'culture:British','size': 100}
response = requests.get(url, query)

if(response.ok):
    # obtenemos todos los datos de la respuesta
    data = response.json()
    raw_records = data['records']
    records = process_data_museo(raw_records)

    data_info = data['info']

# En este bucle, comprobamos si existe el campo 'next'. 
# - Si existe, usamos su valor para avanzar a la siguiente página
# - Si no existe, sabemos que estamos en la última página y no enviaremos más queries

while "next" in data_info:
  url = data_info['next']
  response = requests.get(url)
  if (response.ok):      
    data = response.json()
    raw_records = data['records']
    records = records + process_data_museo(raw_records)
    data_info = data['info']

# Se muestra el número de resultados, y los resultados
print('{} resultados'.format(len(records))) 
print(records)

1902 resultados
[{'name': 'William Britton and Sons', 'birthplace': None}, {'name': 'A & E Seeley', 'birthplace': None}, {'name': 'Nesbitt & Co.', 'birthplace': None}, {'name': 'Arthur Dawe', 'birthplace': None}, {'name': 'Bentley', 'birthplace': None}, {'name': 'W. Leuchars', 'birthplace': None}, {'name': 'Edwards', 'birthplace': None}, {'name': 'Brown, Barnes & Bell', 'birthplace': None}, {'name': 'John Swift', 'birthplace': None}, {'name': 'George Milner Gibson Jerrard', 'birthplace': None}, {'name': 'Lacy Theatrical Bookseller', 'birthplace': None}, {'name': 'Henry Hering', 'birthplace': None}, {'name': 'Messrs. Lucas', 'birthplace': None}, {'name': 'William Gill', 'birthplace': None}, {'name': 'W. E. Taylor', 'birthplace': None}, {'name': 'Sarony, Hill & Thrupp', 'birthplace': None}, {'name': 'Rotary Photographic Company', 'birthplace': None}, {'name': 'William Luks', 'birthplace': None}, {'name': 'Window & Grove', 'birthplace': None}, {'name': 'S.E. Poulton', 'birthplace': None},