## Acceso a los datos de la web
### Tratamiento de datos en formato XML

* El protocolo HTTP es un conjunto de reglas que permite el intercambio de información entre aplicaiones. 

* En la actualidad las aplicaciones que comparten información usan algunos estándares creados para la representación de datos; los más extendidos son __XML__ y __JSON__. 


* __XML__ es un lenguaje de marcas que se utiliza para almacenar datos de  forma legible.

* Se propone como un estándar para el intercambio de información estructurada entre diferentes plataformas. Se puede usar en bases de datos, editores de texto, hojas de cálculo y casi cualquier cosa imaginable.

* XML permite la compatibilidad entre sistemas para compartir la información de una manera segura, fiable y fácil.


[datos.madrid.es](http://datos.madrid.es/portal/site/egob/menuitem.9e1e2f6404558187cf35cf3584f1a5a0/?vgnextoid=374512b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextchannel=374512b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextfmt=default)

### Terminología

Por ejemplo, la información básica de un libro se podría representar con una estructura jerárquica y flexible usando XML:

```
<?xml version=1.0?>                            
<food>                                         
     <item type="fruit">                       
          <name>watermelon</name>              
          <price>32</price>                    
     </item>                                   
     <item type="fruit">                       
         <name>oranges</name>                  
         <variety>navel</variety>              
         <price>75</price>                     
     </item>                                                                   
</food>                                        
```

* La primera línea es la declaración del documento. Contiene información acerca de la versión ...   
* La segunda línea describe la raíz del documento: __root element__  definido bajo la etiqueta __food__. Las etiquetas son uno de los elementos de un documento XML y tenemos dos tipos: __start_tag__ y __end_tag__  :

```
   <price>23</price>
```

* Las siguientes  líneas describen 2 elementos hijos del elemento raíz: __child elements__. Cada uno de los hijo se representa con la etiqueta __item__.             
*  La última  línea describe el final del documento.      

* Los elementos XML pueden tener __atributos__, estos son pares (nombre, valor)
* El valor de los atributos se escribe entre comillas dobles   

```
   <item type="fruit">
```

* Un documento XML se puede representar en un __estructura de árbol__:



![ARBOL](./images/tree.png)

* El elemento raíz de un documento XML se dice que es __padre__ de todos los elementos del documento
* Cada elemento del documento puede tener __hijos__    
* Elementos del mismo nivel pueden tener __hermanos__                    

## Acceso a los elementos de un documento

El acceso a los elementos del árbol se reliza mediante __expresiones de ruta__.

![ARBOL](./images/caminos.png)


__Ejemplos de expresiones de ruta__:

`a/b`

`a/c/d`

`a/b/text`

---------------




## Parser de XML en Python

Los módulos [__lxml__](http://infohost.nmt.edu/~shipman/soft/pylxml/web/index.html) y [xml.etree.ElementTree](https://docs.python.org/2/library/xml.etree.elementtree.html#) permiten procesar en Python este tipo de documentos.

In [1]:
import urllib.request
import xml.etree.ElementTree as ET

A continuación vamos a ver un ejemplo de cómo se hace una petición HTTP a la página web [http://www.esmadrid.com/opendata/alojamientos_v1_es.xml](http://www.esmadrid.com/opendata/alojamientos_v1_es.xml)  para obtener información. Para ello utilizaremos la libreria __request__. En este caso tendremos un documento XML y su "Status Code". 

In [2]:
html = "http://www.esmadrid.com/opendata/alojamientos_v1_es.xml"
response = urllib.request.urlopen(html)
if response.status == 200:
    print ('Petición con éxito')
else:
    print ('Petición con error')


Petición con éxito


Una vez comprobado que la petición ha tenido éxito, lo que hacemos es obtener los datos mediante __response.read__ y posteriormente parsearlos para que Python los entienda. Esto último se hace con el método __fromstring__.

In [3]:
data = response.read()
tree = ET.fromstring(data)
tree

<Element 'serviceList' at 0x000001C0BD4C33B8>

Lo que nos devuelve __fromstring__ es un documento XML, nos devuelve el árbol raíz, que es un nodo de tipo elemento. 

Los nodos de tipo elemento (objetos de tipo elemento) tienen una serie de atributos que podemos consultar:
* tag      - Nombre del nodo elemento
* text     - Texto
* attrib   - Diccionario de atributos

In [4]:
tree.tag, tree.text, tree.attrib

('serviceList', None, {})

In [5]:
len(tree)    # Número de hijos de un elemento (650 hoteles en el XML)

640

### Recorrido en el árbol XML para recuperar información

__1. Obtener un listado de las fechas de actualización de cada uno de los hoteles__

In [6]:
if response.status == 200 and bool(tree):
    alojamientos = tree.findall('./service')
    print('Número de alojamientos: ', len(alojamientos))
    for aloj in alojamientos:     
        print(aloj.attrib["fechaActualizacion"] )

Número de alojamientos:  640
2016-11-16
2016-07-27
2016-07-13
2016-05-24
2015-12-22
2015-12-10
2015-10-08
2016-09-02
2015-07-12
2015-07-12
2016-02-24
2015-07-12
2016-06-29
2016-06-24
2015-07-12
2016-06-29
2016-07-07
2016-06-27
2016-07-11
2016-07-28
2016-06-24
2016-06-29
2016-06-27
2015-07-12
2016-06-22
2015-07-12
2016-06-27
2015-07-12
2016-06-24
2015-07-12
2016-06-27
2016-06-27
2015-07-12
2016-06-27
2016-06-17
2016-06-17
2016-06-24
2015-07-12
2016-12-22
2015-07-12
2015-07-12
2016-07-06
2015-07-12
2015-07-12
2015-07-12
2016-06-21
2016-06-15
2015-07-12
2016-06-24
2015-07-12
2015-12-01
2015-07-12
2015-07-12
2016-07-07
2016-09-14
2016-06-16
2016-06-29
2015-07-12
2016-06-27
2016-06-28
2015-07-12
2015-07-12
2015-07-12
2015-07-12
2015-07-12
2016-12-22
2015-07-12
2015-09-24
2016-07-06
2016-06-29
2015-07-12
2016-06-29
2015-07-12
2016-07-05
2016-06-24
2016-06-24
2016-06-28
2016-06-29
2016-06-28
2015-07-12
2015-07-12
2015-07-12
2015-08-26
2015-07-12
2015-07-12
2015-07-28
2015-07-12
2016-06-23
201

La función __findall__ recupera todos los hijos de tipo elemento llamados __service__ en una lista.

In [7]:
type(alojamientos)

list

In [8]:
primer_alojamiento = alojamientos[0]
primer_alojamiento

<Element 'service' at 0x000001C0BD451E08>

In [9]:
primer_alojamiento.attrib

{'fechaActualizacion': '2016-11-16', 'id': '80541'}

Para obtener la fecha de actualización, no es necesario navegar más en el árbol XML ya que dicha fecha es un atributo del elemento __service__

__2. Obtener el nombre y el email de todos los hoteles__

In [10]:
if response.status == 200 and bool(tree):
    alojamientos = tree.findall('./service')
    print('Número de alojamientos: ', len(alojamientos))
    for aloj in alojamientos:
        tag_name = aloj.find('./basicData/name')
        tag_email = aloj.find('./basicData/email')             
        print(tag_name.text, ' - ', tag_email.text )

Número de alojamientos:  640
DoubleTree by Hilton  -  Madrid_Prado_Info@hilton.com
T&oacute;tem Madrid  -  info@totem-madrid.com
Vincci The Mint  -  None
Only You Hotel Atocha  -  None
Exe Central  -  reservas@execentral.com
Novotel Madrid Center  -  nfo@novotelmadridcenter.com
Dear Hotel  -  info@dearhotel.com
Castilla II  -  info@hostalcastilla.com
DormirDcine  -  reservas@dormirdcine.com
NH Madrid Alonso Mart&iacute;nez  -  nhalonsomartinez@nh-hotels.com
The Hat  -  info@thehatmadrid.com
URSO Hotel &amp; Spa Madrid  -  info@hotelurso.com
One Shot 04  -  recoletos04@oneshothotels.com
Hotel Indigo  -  info@indigomadrid.com
Hotel Innside Madrid Luchana  -  reservas.innside.madrid@melia.com
One Shot 23  -  prado23@oneshothotels.com
U Hostels  -  info@uhostels.com
La posada de El Chafl&aacute;n  -  posada@laposadadeelchaflan.com
Be Live City Airport Madrid Diana  -  recepcion.madriddiana@belivehotels.com
Hotel NH Madrid Suecia  -  nhsuecia@nh-hotels.com
Exe Moncloa  -  reservas@hotelexem

Los datos que nos piden se corresponden con las etiquetas __name__ e __email__ que son elementos hijos de la etiqueta __basicData__.
El valor del nombre es el hijo texto del elemento __name__.

__3. Obtener los datos de longitude y latitude de los hoteles actualizados en el año 2016__

In [11]:
from datetime import datetime, date, time
d = datetime.strptime('2015-07-24', '%Y-%m-%d')   # from string to date
d.year, d.month, d.day
type(d.year)

int

In [12]:
if response.status == 200 and bool(tree):
    alojamientos = tree.findall('./service')
    print('Número de alojamientos: ', len(alojamientos))
    for aloj in alojamientos:
        fecha = aloj.attrib["fechaActualizacion"] 
        fecha = datetime.strptime(fecha, '%Y-%m-%d')
        if fecha.year == 2016:
            tag_long = aloj.find('./geoData/longitude')
            tag_long = aloj.find('./geoData/latitude')
            print(fecha.date(), ' - ', tag_long.text, tag_long.text )
        else:
            print(fecha.date(),  ' - ', "no escribo datos")

Número de alojamientos:  640
2016-11-16  -  40.415170200000 40.415170200000
2016-07-27  -  40.426520500000 40.426520500000
2016-07-13  -  40.419578500000 40.419578500000
2016-05-24  -  40.407290000000 40.407290000000
2015-12-22  -  no escribo datos
2015-12-10  -  no escribo datos
2015-10-08  -  no escribo datos
2016-09-02  -  40.415788500000 40.415788500000
2015-07-12  -  no escribo datos
2015-07-12  -  no escribo datos
2016-02-24  -  40.414290900000 40.414290900000
2015-07-12  -  no escribo datos
2016-06-29  -  40.420928300000 40.420928300000
2016-06-24  -  40.420692300000 40.420692300000
2015-07-12  -  no escribo datos
2016-06-29  -  40.415108000000 40.415108000000
2016-07-07  -  40.428088400000 40.428088400000
2016-06-27  -  40.466872400000 40.466872400000
2016-07-11  -  40.458751600000 40.458751600000
2016-07-28  -  40.417828300000 40.417828300000
2016-06-24  -  40.433731700000 40.433731700000
2016-06-29  -  40.422220900000 40.422220900000
2016-06-27  -  40.437075200000 40.43707520

##### Ejercicios

__* Obtener un listado de alojamientos de tipo `Hoteles` junto con su subcatagoría.__

In [13]:
# Solucion


__* Crear un DataFrame con los datos anteriores:__

In [14]:
import pandas as pd

In [15]:
# Solucion
tabla = pd.DataFrame([])


#### Recorrer el documento para localizar información

* El módulo permite el uso de expresiones de camino (XPath) muy sencillas para localizar la información. Para los que conozcan el lenguaje de consulta __XPath__ es bastante sencilllo.
* Para los que no conozcan XPath, también es muy sencillo!

__Expresiones XPAth__

Las expresiones XPath o expresiones camino se invocan mediante la función __find__.
La sintaxis soportada para expresiones XPath es la siguiente:

| Expresión |   | 
|------|-----|
| tag |  Selecciona todos los hijos llamados tag  |
| * |   Selecciona todos los hijos  |
| . |   Nodo actual    |
| // |   Selecciona todos los nodos descendientes   |
| .. |   Selecciona el nodo padre  |
| [@atrib] |  Selecciona todos los descendientes que tienen el atributo atrib  |
| [@atrib = 'valor'] |  Selecciona todos los descendientes que tienen el atributo __atrib__ con valor __valor__ |
| [tag]          | Selecciona todos los elementos con un hijo de tipo elemento llamado __tag__   |
| [tag = 'name'] |  Selecciona todos los elementos con un hijo de tipo elemento llamado __tag__ con texto __name__     |




In [16]:
len(tree.findall("*"))     # La raiz solo tiene un hijo

640

In [17]:
e = tree.findall("./service/*")
print(len(e))
e[0].tag , e[1].tag

2560


('basicData', 'geoData')

### References



* [Python for Data Analysis](http://shop.oreilly.com/product/0636920023784.do)