# Gestión de fuentes de información: JSON y XML

#### Alberto Torres Barrán

### JSON

Es un formato ligero para intercambiar datos. Su principal ventaja es que se puede editar a mano, pero también es sencillo de parsear por un ordenador. La librería estándar de Python contiene un módulo para importar y exportar ficheros en formato JSON: 

Tiene dos estructuras básicas:

   * Colecciones de pares clave-valor (diccionarios en Python)
   
   * Listas ordenadas de valores (listas en Python)

Vamos a crear un fichero JSON de ejemplo

In [4]:
import json

datos = { "nombre": "Juan", "edad": 30, "coche": None , "hijos": ["Laura", "Pedro"] }

with open("datos.json", "w") as fp:
    json.dump(datos, fp, indent=2)

Podemos importar en Python ese mismo fichero JSON

In [5]:
with open("datos.json", "r") as fp:
    fichero = json.load(fp)
    
print(fichero)

{'nombre': 'Juan', 'edad': 30, 'coche': None, 'hijos': ['Laura', 'Pedro']}


En la documentación podemos ver la correspondencia entre objetos JSON y objetos de Python: https://docs.python.org/3/library/json.html#encoders-and-decoders

Vamos a probar ahora con un conjunto de datos real: [BiciMAD. Datos de la situación de estaciones bicimad por día y hora](https://datos.madrid.es/portal/site/egob/menuitem.c05c1f754a33a9fbe4b2e4b284f1a5a0/?vgnextoid=f4b07e0543815610VgnVCM1000001d4a900aRCRD&vgnextchannel=374512b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextfmt=default)

In [6]:
with open("../data/Bicimad_Stations_201906.json", encoding='latin-1') as fp:
    bicimad = json.load(fp)

In [7]:
bicimad

{'_id': '2019-06-01T00:27:15.455361',
 'stations': [{'activate': 1,
   'name': 'Puerta del Sol A',
   'reservations_count': 0,
   'light': 1,
   'total_bases': 24,
   'free_bases': 4,
   'number': '1a',
   'longitude': '-3.7024255',
   'no_available': 0,
   'address': 'Puerta del Sol nº 1',
   'latitude': '40.4168961',
   'dock_bikes': 15,
   'id': 1},
  {'activate': 1,
   'name': 'Puerta del Sol B',
   'reservations_count': 0,
   'light': 1,
   'total_bases': 24,
   'free_bases': 3,
   'number': '1b',
   'longitude': '-3.7024207',
   'no_available': 0,
   'address': 'Puerta del Sol nº 1',
   'latitude': '40.4170009',
   'dock_bikes': 17,
   'id': 2},
  {'activate': 1,
   'name': 'Miguel Moya',
   'reservations_count': 1,
   'light': 0,
   'total_bases': 24,
   'free_bases': 19,
   'number': '2',
   'longitude': '-3.7058415',
   'no_available': 0,
   'address': 'Calle Miguel Moya nº 1',
   'latitude': '40.4205886',
   'dock_bikes': 2,
   'id': 3},
  {'activate': 1,
   'name': 'Plaza Co

A menudo es posible convertir dats en formato JSON a otros datos más estructurados, como por ejemplo CSV. Sin embargo, no siempre es el caso.

## XML


XML (*Extensible Markup Language*) es otro formato habitual para transferir datos en Internet. De maner similar a JSON, XML fue dieseñado para ser entendido por personas y programas de ordenador.

XML se usa para representar tanto textos como estructuras de datos arbitrarias. Es importante destacar que **no** existe una correspondencia 1 a 1 entre XML y JSON, aunque a menudo unos mismos datos se pueden representar usando ambos.

Python no soporta XML por defecto, por lo que hay que instalar alguna de las múltiples librerías. Una de las más conocidas para parsear documentos XML es [lxml](https://lxml.de/).

Además del parser, es recomendable alguna librería que facilite el trabajo de extraer datos de un fichero XML. La más conocida es [Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

In [8]:
# Ejemplo adaptado de http://www2.hawaii.edu/~takebaya/cent110/xml_parse/xml_parse.html

from bs4 import BeautifulSoup

with open("../data/books.xml", "r") as fp:
    soup = BeautifulSoup(fp, 'xml')
    
print(soup.prettify())

<?xml version="1.0" encoding="utf-8"?>
<books>
 <book>
  <title>
   The Cat in the Hat
  </title>
  <author>
   Dr. Seuss
  </author>
  <price>
   6.99
  </price>
 </book>
 <book>
  <title>
   Ender's Game
  </title>
  <author>
   Orson Scott Card
  </author>
  <price>
   8.99
  </price>
 </book>
 <book>
  <title>
   Prey
  </title>
  <author>
   Michael Crichton
  </author>
  <price>
   9.35
  </price>
 </book>
</books>


Podemos usar nombres de etiquetas para acceder al elemento:

In [9]:
soup.title

<title>The Cat in the Hat</title>

In [10]:
# etiqueta
soup.title.name

'title'

In [11]:
# contenido
soup.title.string

'The Cat in the Hat'

Las etiquetas también pueden tener atributos, por ejemplo: ```<book id="1234">```. En este caso la etiqueta `book` tiene un atributo `id`. Para acceder a dichos atributos usamos la sintáxis: ```etiqueta['id']```

La tarea más habitual es buscar todas las etiquetas con un nombre determinado de un documento:

In [12]:
for titulo in soup.find_all('title'):
    print(titulo.string)

The Cat in the Hat
Ender's Game
Prey


Para ficheros sencillos lo anterior suele ser más que suficiente. Sin embargo, la librería Beautiful Soup es muy compleja y permite extraer datos de cualquier fichero XML, sin importar su estructura.

Tutorial: https://www.dataquest.io/blog/web-scraping-tutorial-python/

#### Ejercicio

Dado el siguiente conjunto de datos: [Alojamientos de la ciudad de Madrid (www.esmadrid.com)](https://datos.madrid.es/portal/site/egob/menuitem.c05c1f754a33a9fbe4b2e4b284f1a5a0/?vgnextoid=df42a73970504510VgnVCM2000001f4a900aRCRD&vgnextchannel=374512b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextfmt=default)
    1. Leer el fichero XML en Python
    2. Parsear el XML para obtener una lista de diccionarios con todos los alojamientos y la siguiente información:
    
        { 'name': nombre, 'cp': codigo_postal }

In [13]:
from bs4 import BeautifulSoup

with open("../data/alojamientos_v1_es.xml", "r") as fp:
    soup = BeautifulSoup(fp, 'xml')

In [14]:
aloj = []
for service in soup.find_all("service"):
    d = {"id": service["id"],
         "nombre": service.title.string,
         "cp": service.geoData.zipcode.string} 
    aloj.append(d)    

In [15]:
with open("../data/alojamientos.json", "w") as fp:
    json.dump(aloj, fp)

### Ejemplo requests y JSON

In [16]:
import requests
import time
from datetime import timedelta, date

url_evo  = "https://api.evobanco.com:8443/evobanco/foreign/exchange/v1/rates"

def daterange(start_date, end_date):
    for n in range(int((end_date - start_date).days)):
        yield start_date + timedelta(n)
        
start_date = date(2020, 1, 1)
end_date = date(2020, 1, 2)

res = []
fecha = []
for date in daterange(start_date, end_date):

    date_str = date.strftime("%Y-%m-%d")
    print(date_str)

    payload = {"cardType": "MC",
               "amount": 1,
               "sourceCurrencyCode": 'USD',
               "fxDate": date_str}

    r_evo = requests.post(url_evo, json=payload)

    if r_evo.status_code == requests.codes.ok:
        d = r_evo.json()
        res.append(d['rate'])
        fecha.append(d['date'])
    
    
    time.sleep(5)

2020-01-01
