# BOE (Boletín Oficial del Estado) API

### Elena Fernandez Fernandez

# ENGLISH VERSION

### This notebook provides code to extract the text contained in the BOE (Boletín Oficial del Estado). 

Here you will find the Open Data policies of the Spanish Goverment regarding BOE: 

* https://www.boe.es/datosabiertos/


### Sources: 

* https://boeapi.docs.apiary.io/#reference/documentos-borme/documentolimitoffsetformat/get
* https://github.com/effernan/New-York-Times-Archive-API-code
* https://sdbrett.com/BrettsITBlog/2017/03/python-parsing-api-xml-response-data/
* https://docs.python.org/2/library/xml.etree.elementtree.html
* https://www.pythonforbeginners.com/files/reading-and-writing-files-in-python
* https://realpython.com/beautiful-soup-web-scraper-python/
* https://www.guru99.com/python-csv.html
* https://docs.python.org/3/library/csv.html
* https://stackoverflow.com/questions/43156873/python-for-loop-how-to-save-every-iteration-under-different-variables?rq=1

First the libraries are imported

In [1]:
import urllib.request
from urllib.request import urlopen
import requests
import xml.etree.ElementTree as ET
from bs4 import BeautifulSoup
import csv
from lxml import html
from urllib.parse import urljoin

Then the desired date for queries in the required format should be introduced. 

In [93]:
year = "2014"
r = requests.get("http://boe.es/diario_boe/xml.php?id=BOE-S-" + year + "1006") 
r.content

b'<?xml version="1.0" encoding="UTF-8"?>\n<sumario>\n  <meta>\n    <pub>BOE</pub>\n    <anno>2014</anno>\n    <fecha>06/10/2014</fecha>\n    <fechaInv>2014/10/06</fechaInv>\n    <fechaAnt>04/10/2014</fechaAnt>\n    <fechaAntAnt>03/10/2014</fechaAntAnt>\n    <fechaSig>07/10/2014</fechaSig>\n    <fechaPub>lunes 6 de octubre de 2014</fechaPub>\n    <pubDate>Mon, 06 Oct 2014 00:00:00 +0200</pubDate>\n  </meta>\n  <diario nbo="242">\n    <sumario_nbo id="BOE-S-2014-242">\n      <urlPdf szBytes="313838" szKBytes="306">/boe/dias/2014/10/06/pdfs/BOE-S-2014-242.pdf</urlPdf>\n    </sumario_nbo>\n    <seccion num="1" nombre="I. Disposiciones generales">\n      <departamento nombre="MINISTERIO DE ASUNTOS EXTERIORES Y DE COOPERACI\xc3\x93N" etq="7120">\n        <epigrafe nombre="Organizaci\xc3\xb3n">\n          <item id="BOE-A-2014-10113">\n            <titulo>Orden AEC/1806/2014, de 15 de septiembre, por la que se crea una Oficina Consular Honoraria de Espa\xc3\xb1a en el Estado de Nevada (Estados

Then we transform the string into an XML file so then it is possible to parse it

In [94]:
root = ET.fromstring(r.content) 

If we want to check what kind of variable it is now...

In [95]:
type(root) 

xml.etree.ElementTree.Element

Now we explore the metadata. 

In [96]:
for child in root.iter('*'): 
    print(child.tag)

sumario
meta
pub
anno
fecha
fechaInv
fechaAnt
fechaAntAnt
fechaSig
fechaPub
pubDate
diario
sumario_nbo
urlPdf
seccion
departamento
epigrafe
item
titulo
urlPdf
urlHtm
urlXml
seccion
departamento
epigrafe
item
titulo
urlPdf
urlHtm
urlXml
epigrafe
item
titulo
urlPdf
urlHtm
urlXml
item
titulo
urlPdf
urlHtm
urlXml
departamento
epigrafe
item
titulo
urlPdf
urlHtm
urlXml
departamento
epigrafe
item
titulo
urlPdf
urlHtm
urlXml
seccion
departamento
epigrafe
item
titulo
urlPdf
urlHtm
urlXml
item
titulo
urlPdf
urlHtm
urlXml
seccion
departamento
epigrafe
item
titulo
urlPdf
urlHtm
urlXml
item
titulo
urlPdf
urlHtm
urlXml
item
titulo
urlPdf
urlHtm
urlXml
item
titulo
urlPdf
urlHtm
urlXml
item
titulo
urlPdf
urlHtm
urlXml
item
titulo
urlPdf
urlHtm
urlXml
item
titulo
urlPdf
urlHtm
urlXml
item
titulo
urlPdf
urlHtm
urlXml
item
titulo
urlPdf
urlHtm
urlXml
item
titulo
urlPdf
urlHtm
urlXml
item
titulo
urlPdf
urlHtm
urlXml
item
titulo
urlPdf
urlHtm
urlXml
item
titulo
urlPdf
urlHtm
urlXml
item
titulo
urlPdf
urlHt

In order to extrat the text, we need to select all the "urlHtm"

In [97]:
for child in root.iter('urlHtm'): 
    print(child.tag, child.attrib, child.text)
    url = "http://boe.es/" + child.text
    print(url)

urlHtm {} /diario_boe/txt.php?id=BOE-A-2014-10113
http://boe.es//diario_boe/txt.php?id=BOE-A-2014-10113
urlHtm {} /diario_boe/txt.php?id=BOE-A-2014-10114
http://boe.es//diario_boe/txt.php?id=BOE-A-2014-10114
urlHtm {} /diario_boe/txt.php?id=BOE-A-2014-10115
http://boe.es//diario_boe/txt.php?id=BOE-A-2014-10115
urlHtm {} /diario_boe/txt.php?id=BOE-A-2014-10116
http://boe.es//diario_boe/txt.php?id=BOE-A-2014-10116
urlHtm {} /diario_boe/txt.php?id=BOE-A-2014-10117
http://boe.es//diario_boe/txt.php?id=BOE-A-2014-10117
urlHtm {} /diario_boe/txt.php?id=BOE-A-2014-10118
http://boe.es//diario_boe/txt.php?id=BOE-A-2014-10118
urlHtm {} /diario_boe/txt.php?id=BOE-A-2014-10119
http://boe.es//diario_boe/txt.php?id=BOE-A-2014-10119
urlHtm {} /diario_boe/txt.php?id=BOE-A-2014-10120
http://boe.es//diario_boe/txt.php?id=BOE-A-2014-10120
urlHtm {} /diario_boe/txt.php?id=BOE-A-2014-10121
http://boe.es//diario_boe/txt.php?id=BOE-A-2014-10121
urlHtm {} /diario_boe/txt.php?id=BOE-A-2014-10122
http://boe.es/

http://boe.es//diario_boe/txt.php?id=BOE-B-2014-34784
urlHtm {} /diario_boe/txt.php?id=BOE-B-2014-34785
http://boe.es//diario_boe/txt.php?id=BOE-B-2014-34785
urlHtm {} /diario_boe/txt.php?id=BOE-B-2014-34786
http://boe.es//diario_boe/txt.php?id=BOE-B-2014-34786
urlHtm {} /diario_boe/txt.php?id=BOE-B-2014-34787
http://boe.es//diario_boe/txt.php?id=BOE-B-2014-34787
urlHtm {} /diario_boe/txt.php?id=BOE-B-2014-34788
http://boe.es//diario_boe/txt.php?id=BOE-B-2014-34788
urlHtm {} /diario_boe/txt.php?id=BOE-B-2014-34789
http://boe.es//diario_boe/txt.php?id=BOE-B-2014-34789
urlHtm {} /diario_boe/txt.php?id=BOE-B-2014-34790
http://boe.es//diario_boe/txt.php?id=BOE-B-2014-34790
urlHtm {} /diario_boe/txt.php?id=BOE-B-2014-34791
http://boe.es//diario_boe/txt.php?id=BOE-B-2014-34791
urlHtm {} /diario_boe/txt.php?id=BOE-B-2014-34792
http://boe.es//diario_boe/txt.php?id=BOE-B-2014-34792
urlHtm {} /diario_boe/txt.php?id=BOE-B-2014-34793
http://boe.es//diario_boe/txt.php?id=BOE-B-2014-34793
urlHtm {} 

Now we need to create a list that contains all the urls that contain the text that we need to access. 

In [98]:
list_results = []
for child in root.iter('urlHtm'): #so we can locate the urls that contain the PDFs that we want to access
    url = "http://boe.es/" + child.text
    list_results.append(url)

print(list_results)

['http://boe.es//diario_boe/txt.php?id=BOE-A-2014-10113', 'http://boe.es//diario_boe/txt.php?id=BOE-A-2014-10114', 'http://boe.es//diario_boe/txt.php?id=BOE-A-2014-10115', 'http://boe.es//diario_boe/txt.php?id=BOE-A-2014-10116', 'http://boe.es//diario_boe/txt.php?id=BOE-A-2014-10117', 'http://boe.es//diario_boe/txt.php?id=BOE-A-2014-10118', 'http://boe.es//diario_boe/txt.php?id=BOE-A-2014-10119', 'http://boe.es//diario_boe/txt.php?id=BOE-A-2014-10120', 'http://boe.es//diario_boe/txt.php?id=BOE-A-2014-10121', 'http://boe.es//diario_boe/txt.php?id=BOE-A-2014-10122', 'http://boe.es//diario_boe/txt.php?id=BOE-A-2014-10123', 'http://boe.es//diario_boe/txt.php?id=BOE-A-2014-10124', 'http://boe.es//diario_boe/txt.php?id=BOE-A-2014-10125', 'http://boe.es//diario_boe/txt.php?id=BOE-A-2014-10126', 'http://boe.es//diario_boe/txt.php?id=BOE-A-2014-10127', 'http://boe.es//diario_boe/txt.php?id=BOE-A-2014-10128', 'http://boe.es//diario_boe/txt.php?id=BOE-A-2014-10129', 'http://boe.es//diario_boe/txt

And now several files will be created so we can save them into our computer. 

In [99]:
for i in list_results:
    parts = i.split("=")
    fname = year + "\\" + parts[1] + ".txt"
    print(fname)

2014\BOE-A-2014-10113.txt
2014\BOE-A-2014-10114.txt
2014\BOE-A-2014-10115.txt
2014\BOE-A-2014-10116.txt
2014\BOE-A-2014-10117.txt
2014\BOE-A-2014-10118.txt
2014\BOE-A-2014-10119.txt
2014\BOE-A-2014-10120.txt
2014\BOE-A-2014-10121.txt
2014\BOE-A-2014-10122.txt
2014\BOE-A-2014-10123.txt
2014\BOE-A-2014-10124.txt
2014\BOE-A-2014-10125.txt
2014\BOE-A-2014-10126.txt
2014\BOE-A-2014-10127.txt
2014\BOE-A-2014-10128.txt
2014\BOE-A-2014-10129.txt
2014\BOE-A-2014-10130.txt
2014\BOE-A-2014-10131.txt
2014\BOE-A-2014-10132.txt
2014\BOE-A-2014-10133.txt
2014\BOE-A-2014-10134.txt
2014\BOE-A-2014-10135.txt
2014\BOE-A-2014-10136.txt
2014\BOE-A-2014-10137.txt
2014\BOE-A-2014-10138.txt
2014\BOE-A-2014-10139.txt
2014\BOE-A-2014-10140.txt
2014\BOE-A-2014-10141.txt
2014\BOE-A-2014-10142.txt
2014\BOE-A-2014-10143.txt
2014\BOE-A-2014-10144.txt
2014\BOE-A-2014-10145.txt
2014\BOE-A-2014-10146.txt
2014\BOE-A-2014-10147.txt
2014\BOE-A-2014-10148.txt
2014\BOE-A-2014-10149.txt
2014\BOE-A-2014-10150.txt
2014\BOE-A-2

And now we use the library BeautifulSoup (https://pypi.org/project/beautifulsoup4/) to access all the text that is contained in the urls. Afterwards, several text files with all the text that we just obtained wil be created in Jupyter Notebooks, in the same folder that contains this notebook. If you wish to re-use this code for extracting more text on different days, just change the desired date query at the beginning of the notebook.

In [None]:
for i in list_results:
    page = requests.get(i)
    soup = BeautifulSoup(page.content, 'html.parser')
    results = soup.find(id = "textoxslt")
    results_text = results.text # so we just see the text that we need to find
    parts = i.split("=")
    fname =  parts[1] + ".txt"
    with open(fname, mode='w', encoding = "utf-8") as file:
        print(results_text, file=file)

# FUNDING ACKNOWLEDGEMENTS:

Elena Fernandez, the Principal Investigator of PRESSTECH (research project in which this publication is embedded), is sponsored by Horizon 2020, under the umbrella of the Eurotech Post-Doctoral Programme. The EuroTech Postdoc Programme is co-funded by the European Commission under its framework programme Horizon 2020. Grant Agreement number 754462.

## Acknowledgements: 

Thanks very much to **Dr. Mirco Schoenfled** for his help in the process of writing this script. 

Dr. Schoenfeld's contact information: http://mircoschoenfeld.de/

# EN ESPAÑOL

### Este cuaderno contiene código para extraer el texto contenido en el BOE.

Para familiarizarse con la regulación sobre Datos Abiertos (open Data) del BOE, por favor, lea en detalle la información que encontrará en el siguiente enlace: https://www.boe.es/datosabiertos/

## Agradecimientos

Muchas gracias al **Dr. Mirco Schoenfeld** por su ayuda en la escritura del código de este script. 

Información de contacto del Dr. Schoenfeld: http://mircoschoenfeld.de/

### Fuentes
 
* https://boeapi.docs.apiary.io/#reference/documentos-borme/documentolimitoffsetformat/get
* https://github.com/effernan/New-York-Times-Archive-API-code
* https://sdbrett.com/BrettsITBlog/2017/03/python-parsing-api-xml-response-data/
* https://docs.python.org/2/library/xml.etree.elementtree.html
* https://www.pythonforbeginners.com/files/reading-and-writing-files-in-python
* https://realpython.com/beautiful-soup-web-scraper-python/
* https://www.guru99.com/python-csv.html
* https://docs.python.org/3/library/csv.html
* https://stackoverflow.com/questions/43156873/python-for-loop-how-to-save-every-iteration-under-different-variables?rq=1

Primer descargamos las bibliotecas

In [None]:
import urllib.request
from urllib.request import urlopen
import requests
import xml.etree.ElementTree as ET
from bs4 import BeautifulSoup
import csv
from lxml import html
from urllib.parse import urljoin

Después especificamos la fecha de la búsqueda que deseamos realizar.

In [None]:
year = "2014"
r = requests.get("http://boe.es/diario_boe/xml.php?id=BOE-S-" + year + "1006") 
r.content

Después transformamos r.content (que tiene el formato "string") en un archivo XML, para así poder manipularlo.

In [None]:
root = ET.fromstring(r.content) 

Por si acaso quisiéramos comprobar el tipo de variable que tenemos ahora...

In [None]:
type(root) 

Ahora, exploremos los metadatos que tenemos

In [None]:
for child in root.iter('*'): 
    print(child.tag)

Para poder extraer el texto de los artículos del BOE, tenemos que seleccionar todos los "urlHTM"

In [None]:
for child in root.iter('urlHtm'): 
    print(child.tag, child.attrib, child.text)
    url = "http://boe.es/" + child.text
    print(url)

Y ahora necesitamos crear una lista con todos estos enlaces

In [None]:
list_results = []
for child in root.iter('urlHtm'): #so we can locate the urls that contain the PDFs that we want to access
    url = "http://boe.es/" + child.text
    list_results.append(url)

print(list_results)

Ahora necesitamos crear varios archivos para guardar nuestro texto. 

In [None]:
for i in list_results:
    parts = i.split("=")
    fname = year + "\\" + parts[1] + ".txt"
    print(fname)

Y ahora tenemos que usar la biblioteca BeautifulSoup (https://pypi.org/project/beautifulsoup4/) para tener acceso a todo el texto que se encuentra en las urls. Posteriormente, veremos como se crearán varios archivos de texto en Jupyter Notebooks, en la misma carpeta que contiene este script, con toda la información que acabamos de obtener. 

Si desearas reutilizar este script para obtener más texto de días diferentes, simplemente realiza una nueva búsqueda cambiando la fecha al comienzo de este mismo notebook.

In [None]:
for i in list_results:
    page = requests.get(i)
    soup = BeautifulSoup(page.content, 'html.parser')
    results = soup.find(id = "textoxslt")
    results_text = results.text # so we just see the text that we need to find
    parts = i.split("=")
    fname =  parts[1] + ".txt"
    with open(fname, mode='w', encoding = "utf-8") as file:
        print(results_text, file=file)

# FUNDING ACKNOWLEDGEMENTS:
Elena Fernandez, the Principal Investigator of PRESSTECH (research project in which this publication is embedded), is sponsored by Horizon 2020, under the umbrella of the Eurotech Post-Doctoral Programme. The EuroTech Postdoc Programme is co-funded by the European Commission under its framework programme Horizon 2020. Grant Agreement number 754462.

### Acknowledgements:
Thanks very much to Dr. Mirco Schoenfled for his help in the process of writing this script.

Dr. Schoenfeld's contact information: http://mircoschoenfeld.de/