# Introducción a las APIs

Cuando queremos extraer datos de internet la forma más complicada es mediante el scraping y éste debe ser el último recurso.

Antes de eso lo ideal es comprobar si la web o servicio del que queremos extraer datos dispone de una API. API significa "interfaz de programación de aplicaciones" y son protocolos y mecanismos que permiten a los softwares intercambiar información.

Las APIs pueden ser públicas o de pago. Algunas además necesitan registro y autenticación.

La información además puede venir en diferentes formatos. El formato mas común actualmente es [JSON](https://developer.mozilla.org/es/docs/Learn/JavaScript/Objects/JSON), aunque antes se usaba más [XML](https://es.wikipedia.org/wiki/Extensible_Markup_Language).

En github podemos encontrar el repositorio [public-apis](https://github.com/public-apis/public-apis) donde podremos consultar cientos de APIs donde obtener datos.

Existen diferentes tipos de APIs: Soap, WPC, Websocket, REST... Vamos a entrar sólo en las REST que son las más populares.


## REST

REST significa transferencia de estado representacional y es la forma más popular de comunicación de APIs hoy en día. Esta forma de comunicación consiste en que un cliente realiza una una solicitud a un servidor como datos, el servidor realiza un conjunto de funciones definidas y devuelve unos datos de salida.

REST define un conjunto de funciones. Las más importantes son GET, PUT, PATCH, POST y DELETE.

Vamos a centrarnos en las peticiones GET.

## Peticiones GET

Las peticiones GET sirven para pedir información. Si la petición ha ido bien el servidor devuelve un [código 200](https://developer.mozilla.org/es/docs/Web/HTTP/Status) y la información que hemos pedido.

Tomemos ahora el ejemplo de un navegador web. Cuando en un navegador le indicamos una dirección web lo que está pasando es que nuestro navegador está haciendo una petición GET a esa página. Si todo va bien, el servidor al que le hacemos la petición devolverá el código HTML que usará el navegador para construir la web.

Veamos como hacer esto con Python usando la [librería requests](https://requests.readthedocs.io):

Si hacemos un print de la petición que hemos hecho nos devolverá el código de nuestra petición.

Y si imprimiemos la propiedad text nos devolverá en formato texto lo que nos ha devuelto el servidor.

Vamos ahora a ver como trabajar con una API de internet para extraer datos. Tras examinar el repositorio de [public-apis](https://github.com/public-apis/public-apis) vamos a usar por ejemplo la API de [arbeitnow](http://www.arbeitnow.com), un buscador de empleo alemán. 

La documentación de la API la podemos encontrar en la dirección https://documenter.getpostman.com/view/18545278/UVJbJdKh

Vamos ahora a hacer la petición utilizando la librería requests.

Para ver el JSON con los datos que recibimos tendremos que utilizar el método json.

El método json nos devuelve un diccionario

Así que podremos usar los métodos de los diccionarios para manipular los datos:

La clave "data" contiene una lista con los datos de cada uno de los empleos. Hagamos un mini análisis con los datos, veamos en que ciudad surgen más empleos y si el número de habitantes tiene algo que ver.

Vamos a iterar por cada uno de los elementos de data, veamos la localización y contemos cuantas veces se repite cada una de ellas.

Ahora tenemos que ver los habitantes de cada una de las ciudades. Vamos a extraer los datos de población de un [artículo](https://es.wikipedia.org/wiki/Anexo:Ciudades_de_Alemania_por_poblaci%C3%B3n) de la wikipedia, utilizando para ello la librería pandas.

Podemos ver como son extraídas cada una de las tablas. La que nos interesa es la segunda, que es la que contiene los datos de población.

Y veamos el nombre de sus columnas

Vamos a quedarnos con la tabla con los datos que queremos y vamos a renombrar las columnas con unos nombres con los que sea más fácil de trabajar.

Para poder unir las tablas necesitamos que los nombres de las ciudades de la tabla de wikipedia y los de la API coincidan. Vamos a intentar estandarizar los valores eliminando los caracteres extraños. Para ello utilizaremos la librería unidecode.

Creemos ahora un dataframe con los datos que hemos obtenido de la API.

Eliminemos los caracteres raros de los datos de la API.

Y ahora unamos los dos DFs usando los nombres sin carateres raros

## Comando para instalar librerías

In [1]:
%%capture
import sys

if 'lxml' not in sys.modules:
    !{sys.executable} -m pip install lxml
    
if 'html5lib' not in sys.modules:
    !{sys.executable} -m pip install html5lib

# Ejercicios

1) Extraer las ciudades de las 1200 primeras ofertas de arbeitnow

2) Buscar una API en public-apis y hacer un pequeño script que extraiga los datos. Si quieres un reto puedes intentar utilizar una API con contraseña