# Apuntes rápidos sobre APIs

Cuando queremos extraer datos de internet la forma más complicada es mediante el scraping y éste debe ser el último recurso.

Antes de eso lo ideal es comprobar si la web o servicio del que queremos extraer datos dispone de una API. API significa "interfaz de programación de aplicaciones" y son protocolos y mecanismos que permiten a los softwares intercambiar información.

Las APIs pueden ser públicas o de pago. Algunas además necesitan registro y autenticación.

La información además puede venir en diferentes formatos. El formato mas común actualmente es [JSON](https://developer.mozilla.org/es/docs/Learn/JavaScript/Objects/JSON), aunque antes se usaba más [XML](https://es.wikipedia.org/wiki/Extensible_Markup_Language).

En github podemos encontrar el repositorio [public-apis](https://github.com/public-apis/public-apis) donde podremos consultar cientos de APIs donde obtener datos.

# Ejemplo API que devuelve JSON

Vamos a utilizar la API de [Rick y Morty](https://rickandmortyapi.com). En su [documentación](https://rickandmortyapi.com/documentation#rest) podemos ver un apartado con la información necesaria para hacer peticiones REST, que es el protocolo que utiliza la biblioteca requests de Python.

Después aparecen varios ejemplos de implementación. Las peticiones web podemos recrearlas con requests de la siguiente forma:

In [1]:
import requests

x = requests.get("https://rickandmortyapi.com/api/character")
x.status_code

200

Podemos ver la información en formato JSON con el método json de request de la siguiente forma:

In [2]:
data = x.json()

In [3]:
data

{'info': {'count': 826,
  'pages': 42,
  'next': 'https://rickandmortyapi.com/api/character?page=2',
  'prev': None},
 'results': [{'id': 1,
   'name': 'Rick Sanchez',
   'status': 'Alive',
   'species': 'Human',
   'type': '',
   'gender': 'Male',
   'origin': {'name': 'Earth (C-137)',
    'url': 'https://rickandmortyapi.com/api/location/1'},
   'location': {'name': 'Citadel of Ricks',
    'url': 'https://rickandmortyapi.com/api/location/3'},
   'image': 'https://rickandmortyapi.com/api/character/avatar/1.jpeg',
   'episode': ['https://rickandmortyapi.com/api/episode/1',
    'https://rickandmortyapi.com/api/episode/2',
    'https://rickandmortyapi.com/api/episode/3',
    'https://rickandmortyapi.com/api/episode/4',
    'https://rickandmortyapi.com/api/episode/5',
    'https://rickandmortyapi.com/api/episode/6',
    'https://rickandmortyapi.com/api/episode/7',
    'https://rickandmortyapi.com/api/episode/8',
    'https://rickandmortyapi.com/api/episode/9',
    'https://rickandmortyapi.

En este caso la librería requests nos permite mediante el método JSON obtener un diccionario python parseado con el que podremos trabajar, por ejemplo veamos los datos del personaje con id 1, Rick Sanchez:

In [4]:
data["results"][0]

{'id': 1,
 'name': 'Rick Sanchez',
 'status': 'Alive',
 'species': 'Human',
 'type': '',
 'gender': 'Male',
 'origin': {'name': 'Earth (C-137)',
  'url': 'https://rickandmortyapi.com/api/location/1'},
 'location': {'name': 'Citadel of Ricks',
  'url': 'https://rickandmortyapi.com/api/location/3'},
 'image': 'https://rickandmortyapi.com/api/character/avatar/1.jpeg',
 'episode': ['https://rickandmortyapi.com/api/episode/1',
  'https://rickandmortyapi.com/api/episode/2',
  'https://rickandmortyapi.com/api/episode/3',
  'https://rickandmortyapi.com/api/episode/4',
  'https://rickandmortyapi.com/api/episode/5',
  'https://rickandmortyapi.com/api/episode/6',
  'https://rickandmortyapi.com/api/episode/7',
  'https://rickandmortyapi.com/api/episode/8',
  'https://rickandmortyapi.com/api/episode/9',
  'https://rickandmortyapi.com/api/episode/10',
  'https://rickandmortyapi.com/api/episode/11',
  'https://rickandmortyapi.com/api/episode/12',
  'https://rickandmortyapi.com/api/episode/13',
  'htt

O podemos sacar el género de los personajes, agruparlo y contarlo con el método Counter de la biblioteca [collections](https://docs.python.org/3/library/collections.html)

In [5]:
gender = [data["results"][i]["gender"] for i in range(len(data["results"]))]

for i in range(len(data["results"])):
    print(data["results"][i]["gender"])

Male
Male
Female
Female
Male
Female
Male
Male
Male
Male
Male
Male
unknown
Male
Male
Male
Female
Male
Male
Male


In [6]:
from collections import Counter
Counter(gender)

Counter({'Male': 15, 'Female': 4, 'unknown': 1})

Python tiene incorporada una biblioteca que se llama [json](https://docs.python.org/3/library/json.html) que sirve para trabajar con ellos.

Si en algún momento obtenemos un JSON en texto plano y queremos parsearlo, podemos hacerlo mediante el método loads 

In [7]:
import json

plain_text_json = '{"Name":"Foo","Id":1234,"Rank":7,"winner":"true","historic":[2,1,12,null]}'
json.loads(plain_text_json)

{'Name': 'Foo',
 'Id': 1234,
 'Rank': 7,
 'winner': 'true',
 'historic': [2, 1, 12, None]}

Podemos hacer también el proceso contrario, convertir una lista o diccionario de python en JSON en texto plano mediante el método dumps

In [8]:
json.dumps(gender)

'["Male", "Male", "Female", "Female", "Male", "Female", "Male", "Male", "Male", "Male", "Male", "Male", "unknown", "Male", "Male", "Male", "Female", "Male", "Male", "Male"]'

Aquí tenéis algún ejemplo más de llamadas a la API. El formato por el que se le pasa información a una web se llama [query string](https://borjaarandavaquero.com/que-es/query-string/). En este caso le estamos indicando a la API que nos devuelva todos los personajes cuyo name sea rick y cuyo status sea alive

In [9]:
x = requests.get("https://rickandmortyapi.com/api/character?name=rick&status=alive")
x.json()

{'info': {'count': 29,
  'pages': 2,
  'next': 'https://rickandmortyapi.com/api/character?page=2&name=rick&status=alive',
  'prev': None},
 'results': [{'id': 1,
   'name': 'Rick Sanchez',
   'status': 'Alive',
   'species': 'Human',
   'type': '',
   'gender': 'Male',
   'origin': {'name': 'Earth (C-137)',
    'url': 'https://rickandmortyapi.com/api/location/1'},
   'location': {'name': 'Citadel of Ricks',
    'url': 'https://rickandmortyapi.com/api/location/3'},
   'image': 'https://rickandmortyapi.com/api/character/avatar/1.jpeg',
   'episode': ['https://rickandmortyapi.com/api/episode/1',
    'https://rickandmortyapi.com/api/episode/2',
    'https://rickandmortyapi.com/api/episode/3',
    'https://rickandmortyapi.com/api/episode/4',
    'https://rickandmortyapi.com/api/episode/5',
    'https://rickandmortyapi.com/api/episode/6',
    'https://rickandmortyapi.com/api/episode/7',
    'https://rickandmortyapi.com/api/episode/8',
    'https://rickandmortyapi.com/api/episode/9',
    'htt

In [10]:
requests.get("https://xkcd.com/1012/info.0.json").json()

{'month': '2',
 'num': 1012,
 'link': '',
 'year': '2012',
 'news': '',
 'safe_title': 'Wrong Superhero',
 'transcript': '[[A giant praying mantis and its legion of regular-sized praying mantises attacks a team of scientists. Two of them fight back, with a gun and a baseball bat respectively, while a third is in the mantis\' clutches, held aloft by his foot, his goggles falling off his face. Bullets whiz by the giant mantis\' head, and a fourth scientist hides behind a desk, on which rests a microscope and an Erlenmeyer flask. A man in a cape approaches the hiding scientist.]]\nCaped man: Ah, no -- you wanted \nENTO\nmology-Man, spelled with an "N." See, it\'s from the Greek \nentomon\n, meaning "insect," which is itself the neuter form of \nentomos\n, meaning "segmented" or...\n<<BLAM BLAM BLAM>>\n{{Title text: Hi! Someone call for me? I\'m a superhero who specializes in the study of God\'s creation of Man in the Book of Genesi-- HOLY SHIT A GIANT BUG!}}',
 'alt': "Hi! Someone call fo

# Ejemplo API que devuelve XML

Para este ejemplo vamos a usar la API del [BOE](https://es.wikipedia.org/wiki/Bolet%C3%ADn_Oficial_del_Estado). En el [portal de datos abiertos](https://www.boe.es/datosabiertos) del BOE tenemos la [documentación](https://www.boe.es/datosabiertos/documentos/SumariosBOE_v_1_0.pdf) de esta API y un ejemplo de la información que devuelve un [sumario](https://www.boe.es/datosabiertos/documentos/ejemplo_SumarioBORME.xml).

Vamos a extraer el sumario de un día del BOE, para ello necesitaremos request para obtener la información.

In [11]:
WEB_SUMARIO = "https://boe.es/diario_boe/xml.php?id=BOE-S-"
DIA = "20240115" #Formato yyyymmdd

x = requests.get(WEB_SUMARIO + DIA)
x.url

'https://boe.es/diario_boe/xml.php?id=BOE-S-20240115'

Ahora usaremos beautiful soup con un parseador de XML para poder extraer la información. Por defecto Beautiful Soup no incorpora un parseador de XML, por lo que deberemos instalar uno. En este caso usaremos lxml. Tendremos que instalar también la biblioteca html5lib.

In [12]:
%%capture
import sys

if 'lxml' not in sys.modules:
    !{sys.executable} -m pip install lxml
    
if 'html5lib' not in sys.modules:
    !{sys.executable} -m pip install html5lib

In [13]:
from bs4 import BeautifulSoup

boe_summary = BeautifulSoup(x.text, "xml")

In [14]:
col_names = ["fecha", "sc_num", "sc_nombre", "dp_nombre", "dp_etq", "ep_nombre", "it_id", "it_control", "it_titulo", "it_url_pdf", "it_url_htm", "it_url_xml"]
data = []

if boe_summary.find('error'):
    data = ["error"]

fecha = boe_summary.find('meta').findChild('fecha').text
secciones = boe_summary.find_all('seccion')

for seccion in secciones:
    sc_num = seccion.attrs.get('num')
    sc_nombre = seccion.attrs.get('nombre')
    departamentos = seccion.find_all('departamento')

    for departamento in departamentos:
        dp_nombre = departamento.attrs.get('nombre')
        dp_etq = departamento.attrs.get('etq')
        epigrafes = departamento.find_all('epigrafe')

        for epigrafe in epigrafes:
            ep_nombre = epigrafe.attrs.get('nombre')
            items = epigrafe.find_all('item')

            for item in items:
                it_id = item.attrs.get('id')
                it_control = item.attrs.get('control')
                it_titulo = item.findChild('titulo').text
                it_url_pdf = item.findChild('urlPdf').text
                it_url_htm = item.findChild('urlHtm').text
                it_url_xml = item.findChild('urlXml').text

            data.append([fecha, sc_num, sc_nombre, dp_nombre, dp_etq, ep_nombre, it_id, it_control, it_titulo, it_url_pdf, it_url_htm, it_url_xml])


In [15]:
data

[['15/01/2024',
  '1',
  'I. Disposiciones generales',
  'MINISTERIO PARA LA TRANSICIÓN ECOLÓGICA Y EL RETO DEMOGRÁFICO',
  '9575',
  'Productos petrolíferos. Precios',
  'BOE-A-2024-715',
  '2024/571',
  'Resolución de 11 de enero de 2024, de la Dirección General de Política Energética y Minas, por la que se publican los nuevos precios máximos de venta, antes de impuestos, de los gases licuados del petróleo envasados, en envases de carga igual o superior a 8 kg, e inferior a 20 kg, excluidos los envases de mezcla para usos de los gases licuados del petróleo como carburante.',
  '/boe/dias/2024/01/15/pdfs/BOE-A-2024-715.pdf',
  '/diario_boe/txt.php?id=BOE-A-2024-715',
  '/diario_boe/xml.php?id=BOE-A-2024-715'],
 ['15/01/2024',
  '2A',
  'II. Autoridades y personal. - A. Nombramientos, situaciones e incidencias',
  'MINISTERIO DE HACIENDA Y FUNCIÓN PÚBLICA',
  '9279',
  'Nombramientos',
  'BOE-A-2024-716',
  '2023/27010',
  'Resolución de 26 de diciembre de 2023, de la Secretaría de Est

In [16]:
import pandas as pd

pd.DataFrame(data=data, columns=col_names)

Unnamed: 0,fecha,sc_num,sc_nombre,dp_nombre,dp_etq,ep_nombre,it_id,it_control,it_titulo,it_url_pdf,it_url_htm,it_url_xml
0,15/01/2024,1,I. Disposiciones generales,MINISTERIO PARA LA TRANSICIÓN ECOLÓGICA Y EL R...,9575,Productos petrolíferos. Precios,BOE-A-2024-715,2024/571,"Resolución de 11 de enero de 2024, de la Direc...",/boe/dias/2024/01/15/pdfs/BOE-A-2024-715.pdf,/diario_boe/txt.php?id=BOE-A-2024-715,/diario_boe/xml.php?id=BOE-A-2024-715
1,15/01/2024,2A,II. Autoridades y personal. - A. Nombramientos...,MINISTERIO DE HACIENDA Y FUNCIÓN PÚBLICA,9279,Nombramientos,BOE-A-2024-716,2023/27010,"Resolución de 26 de diciembre de 2023, de la S...",/boe/dias/2024/01/15/pdfs/BOE-A-2024-716.pdf,/diario_boe/txt.php?id=BOE-A-2024-716,/diario_boe/xml.php?id=BOE-A-2024-716
2,15/01/2024,2A,II. Autoridades y personal. - A. Nombramientos...,MINISTERIO DE HACIENDA Y FUNCIÓN PÚBLICA,9279,Destinos,BOE-A-2024-717,2024/489,"Resolución de 27 de diciembre de 2023, de la P...",/boe/dias/2024/01/15/pdfs/BOE-A-2024-717.pdf,/diario_boe/txt.php?id=BOE-A-2024-717,/diario_boe/xml.php?id=BOE-A-2024-717
3,15/01/2024,2A,II. Autoridades y personal. - A. Nombramientos...,MINISTERIO DEL INTERIOR,7320,Nombramientos,BOE-A-2024-719,2024/643,"Orden INT/10/2024, de 9 de enero, por la que s...",/boe/dias/2024/01/15/pdfs/BOE-A-2024-719.pdf,/diario_boe/txt.php?id=BOE-A-2024-719,/diario_boe/xml.php?id=BOE-A-2024-719
4,15/01/2024,2A,II. Autoridades y personal. - A. Nombramientos...,MINISTERIO PARA LA TRANSICIÓN ECOLÓGICA Y EL R...,9575,Destinos,BOE-A-2024-720,2024/492,"Resolución de 10 de enero de 2024, de la Subse...",/boe/dias/2024/01/15/pdfs/BOE-A-2024-720.pdf,/diario_boe/txt.php?id=BOE-A-2024-720,/diario_boe/xml.php?id=BOE-A-2024-720
5,15/01/2024,2A,II. Autoridades y personal. - A. Nombramientos...,MINISTERIO DE SANIDAD,4335,Nombramientos,BOE-A-2024-721,2024/443,"Orden SND/1460/2023, de 6 de noviembre, por la...",/boe/dias/2024/01/15/pdfs/BOE-A-2024-721.pdf,/diario_boe/txt.php?id=BOE-A-2024-721,/diario_boe/xml.php?id=BOE-A-2024-721
6,15/01/2024,2B,II. Autoridades y personal. - B. Oposiciones y...,"MINISTERIO DE ASUNTOS EXTERIORES, UNIÓN EUROPE...",9562,Funcionarios de la Administración del Estado,BOE-A-2024-723,2024/645,"Resolución de 11 de enero de 2024, de la Subse...",/boe/dias/2024/01/15/pdfs/BOE-A-2024-723.pdf,/diario_boe/txt.php?id=BOE-A-2024-723,/diario_boe/xml.php?id=BOE-A-2024-723
7,15/01/2024,2B,II. Autoridades y personal. - B. Oposiciones y...,"MINISTERIO DE LA PRESIDENCIA, JUSTICIA Y RELAC...",9585,Carreras Judicial y Fiscal,BOE-A-2024-724,2024/595,"Orden PJC/11/2024, de 10 de enero, por la que ...",/boe/dias/2024/01/15/pdfs/BOE-A-2024-724.pdf,/diario_boe/txt.php?id=BOE-A-2024-724,/diario_boe/xml.php?id=BOE-A-2024-724
8,15/01/2024,2B,II. Autoridades y personal. - B. Oposiciones y...,"MINISTERIO DE LA PRESIDENCIA, JUSTICIA Y RELAC...",9585,Funcionarios de la Administración del Estado,BOE-A-2024-725,2024/646,"Resolución de 8 de enero de 2024, de la Subsec...",/boe/dias/2024/01/15/pdfs/BOE-A-2024-725.pdf,/diario_boe/txt.php?id=BOE-A-2024-725,/diario_boe/xml.php?id=BOE-A-2024-725
9,15/01/2024,2B,II. Autoridades y personal. - B. Oposiciones y...,"MINISTERIO DE LA PRESIDENCIA, JUSTICIA Y RELAC...",9585,Funcionarios de las Administraciones Públicas,BOE-A-2024-726,2024/647,"Resolución de 11 de enero de 2024, de la Subse...",/boe/dias/2024/01/15/pdfs/BOE-A-2024-726.pdf,/diario_boe/txt.php?id=BOE-A-2024-726,/diario_boe/xml.php?id=BOE-A-2024-726
