<p style="text-align: center">
    <img src="../../assets/images/untref-logo-negro.svg" />
</p>

<h3 style="text-align: center">Estructuras de Datos</h3>

<h2 style="text-align: center">Clase 8: Recuperación de la información semi-estructurada ~ XML y XPath</h2>


## XML (_Extensible Markup Language_)

* Es un lenguaje de etiquetas y también un formato de archivo.
* Se usa para guardar, transferir y reconstruir información arbitraria.
* Es una especificación definida por la W3C.
* Define una serie de reglas para codificar documentos en un formato legible tanto por computadoras como por humanos.

Un documento XML es un árbol ordenado, donde cada nodo se rotula con dos etiquetas, una de apertura y otra de cierre.

Por ejemplo el siguiente fragmento XML estructura un poema:

``` xml
<poema fecha="Abril de 1915" lugar="Granada">
	<titulo>Alba</titulo>
	<verso>Mi corazón oprimido</verso>
	<verso>siente junto a la alborada</verso>
	<verso>el dolor de sus amores</verso>
	<verso>y el sueño de las distancias. </verso>
</poema>
```

Existen varios sitios en internet que permiten visualizar el árbol asociado. Por ejemplo [https://codebeautify.org/xmlviewer](https://codebeautify.org/xmlviewer?input=%3Cpoema%20fecha=%22Abril%20de%201915%22%20lugar=%22Granada%22%3E%3Ctitulo%3EAlba%3C/titulo%3E%3Cverso%3EMi%20coraz%C3%B3n%20oprimido%3C/verso%3E%3Cverso%3Esiente%20junto%20a%20la%20alborada%3C/verso%3E%3Cverso%3Eel%20dolor%20de%20sus%20amores%3C/verso%3E%3Cverso%3Ey%20el%20sue%C3%B1o%20de%20las%20distancias.%20%3C/verso%3E%3C/poema%3E)

### Elementos clave

#### Marcado vs. Contenido

* El texto en un archivo XML se separan entre _marcado_ y _contenido_.
* Generalmente, todo lo que es _marcado_ está encerrado entre `<` y `>`, o comienzan con `&` y terminan con `;`
* Todo lo que no es _marcado_ es _contenido_.
* A excepción de la sección `CDATA`, donde se encierra _contenido_ entre `<![CDATA[` y `]]>`.
* El espacio en blanco entre _marcado_ es ignorado.

#### Etiqueta

Una _etiqueta_ es una estructura de marcado que comienza con `<` y termina con `>`.

Hay 3 tipos:

* Etiqueta de inicio: `<etiqueta>`
* Etiqueta de cierre: `</etiqueta>`
* Etiqueta sin elementos: `<etiqueta />`

#### Elemento

Un _elemento_ es un componente lógico de un documento que comienza con una etiqueta de inicio y termina con una etiqueta de cierre correspondiente o que consta únicamente de una etiqueta sin elementos.

Lo que esté entre las etiquetas de inicio y cierre, son el contenido del _elemento_ y puede estar compuesto de otros elementos.

Los elementos dentro de elementos, se denominan los _hijos_ del elemento _padre_.

Un ejemplo es:

```xml
<greeting>Hello, world!</greeting>
```

Otro es:

```xml
<line-break />
```

#### Atributo

Un _atributo_ es una estructura de marcado que consiste en un par nombre-valor que existe dentro de una etiqueta de inicio o una etiqueta de elemento vacío.

Un ejemplo es:

```xml
<img src="messi.jpg" alt="Messi" />
```

donde los nombres de los atributos son `src` y `alt`, y sus valores son `messi.jpg` y `Messi` respectivamente.

Otro ejemplo es:

```xml
<step number="3">Connect A to B.</step>
```

donde el nombre del atributo es `number` y su valor es `3`.

* Un atributo solo puede tener un único valor.
* Cada atributo puede aparecer como máximo una vez en cada elemento.
* Si se necesita que un atributo almacene una lista, esos valores se tienen que serializar.

#### Caracteres especiales

* XML soporta todos los caracteres Unicode (`UTF-8`), excepto el caracter nulo (`0x0`).
* Los caracteres `<` y `&` son marcadores de sintaxis claves.
    * Esos caracteres no puede aparecer nunca como contenido, excepto en bloques `CDATA`.
    * Para escapar estos caracteres debemos utilizar las siguientes representaciones:
        * `&lt;` representa `<`
        * `&gt;` representa `>`
        * `&amp;` representa `&`
        * `&apos;` representa `'`
        * `&quot;` representa `"`

### Ejemplos de uso de documentos XML

* Catálogos de bibliotecas
* Información sobre patentes
* Procesadores de texto
* Noticias (RSS)

#### RSS

En general las agencias de noticias y los diarios acostumbran publicar resumenes de noticias en formato [RSS](https://es.wikipedia.org/wiki/RSS), un formato XML específico que se utiliza para difundir información actualizada frecuentemente a usuarios que se han suscrito a la fuente de contenidos.

Por ejemplo podemos consultar las últimas noticias del blog de Python:

https://blog.python.org/feeds/posts/default?alt=rss

In [None]:
from urllib.request import urlopen
from xml.etree import ElementTree

raw_xml = urlopen("https://blog.python.org/feeds/posts/default?alt=rss").read().decode()
xml = ElementTree.XML(raw_xml)
ElementTree.indent(xml)
print(ElementTree.tostring(xml, encoding="unicode"))

### XPath: XML Path Language
Estándar para navegar documentos XML que permite describir caminos en un árbol **XML**. Evaluar una expresión XPath es buscar si hay nodos en el documento que se ajustan al recorrido definido en la expresión.

El resultado de la evaluación son todos los nodos que se ajustan a la expresión.

Para poder evaluar una expresión XPath, el documento debe estar bien formado.

Tutorial oficial de XPath: https://www.w3schools.com/xml/xpath_intro.asp

Vamos a usar el siguiente fragmento para los ejemplos:

``` xml
<?xml version="1.0" encoding="UTF-8"?>
<biblioteca>
	<libro>
		<titulo>La vida está en otra parte</titulo>
		<autor>Milan Kundera</autor>
		<fechaPublicacion año="1973"/>
        <precio>305.50</precio>
	</libro>
	<libro>
		<titulo>Pantaleón y las visitadoras</titulo>
		<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
		<fechaPublicacion año="1973"/>
        <precio>214.48</precio>
	</libro>
	<libro>
		<titulo>Conversación en la catedral</titulo>
		<autor fechaNacimiento="28/03/1936">Mario Vargas Llosa</autor>
		<fechaPublicacion año="1969"/>
        <precio>541.78</precio>
	</libro>
</biblioteca>
```


#### Nodos XPath

Hay 7 clases de nodos: elemento, atributo, texto, espacio de nombre, instrucción, comentario y documentación.


- elemento: un elemento del árbol
``` xml
<titulo>La vida está en otra parte</titulo> 
```

- nodo raíz: 
``` xml
<biblioteca>
```


- atributo
``` xml
fechaNacimiento="28/03/1936"
```


- texto

Pantaleón y las visitadoras

### Expresiones XPath para seleccionar nodos

| Expresión | Descripción |
| :- | :- |
| nombre_nodo | Permite seleccionar un nodo a partir de su nombre
| / | Si está al principio de la expresión, indica el nodo raíz, si no, indica "hijo"|
| // | Camino. Permite seleccionar nodos en un camino descendiente a partir de la posición actual |
| . | Nodo actual |
| .. | Padre del nodo actual |
| @ | Atributo |


Existen herramientas online para probar, por ejemplo https://codebeautify.org/Xpath-Tester

### Predicados
Se usan para encontrar nodos específicos. Siempre van entre corchetes

| Expresión | Resultado |
| :- | :- |
| /biblioteca/libro[1] | Selecciona el primer nodo libro, hijo de biblioteca |
| /biblioteca/libro[last()] | Selecciona el último nodo libro, hijo de biblioteca |
| /biblioteca/libro[last() - 1] | Selecciona el ante último nodo libro, hijo de biblioteca | 
| /biblioteca/libro[position() < 3] | Selecciona los dos primeros nodos libro, hijo de biblioteca |
| //autor[@fechaNacimiento] | Selecciona todos los nodos autor, que tengan un atributo fechaNacimiento |
| //autor[@fechaNacimiento="28/03/1936"] | Selecciona todos los nodos autor, que tengan un atributo fechaNacimiento con un valor específico |
| //autor[@fechaNacimiento] | Selecciona todos los nodos autor, que tengan un atributo fechaNacimiento |
| /biblioteca//libro[precio < 350] | Selecciona todos los nodos libros, que tengan como hijo directo un elemento precio con valor menor a 350 |
| /biblioteca//libro[precio < 350]/titulo | Selecciona todos los nodos titulo, hijos de nodos libros que tengan como hijo directo un elemento precio con valor menor a 350 |

### Selectores y comodines

| Expresión | Resultado |
| :- | :- |
| /biblioteca/* | Selecciona todos los elementos hijos directos de biblioteca |
| /biblioteca//* | Selecciona todos los elementos descendientes de biblioteca |
| //autor[@\*] | Selecciona todos los elementos autor que tengan algún atributo |
| node() | Selecciona todos los elementos autor que tengan algún atributo |
| //titulo/text() | Selecciona el texto (no el nodo completo) de los títulos |


### Selección de varios caminos

| Expresión | Resultado |
| :- | :- |
| //libro/titulo \| //libro/precio | Selecciona todos los nodos titulo y todos los nodos precios hijos de libro |

### Operadores

| Operador | Descripción | Ejemplo
| :- | :- | :- |  
| \| | Union de dos conjuntos de nodos | //autor \| //precio |
| + | Suma | 6 + 4
| - | Sustracción | 6 - 4
| * | Multiplicación | 6 * 4
| div | División | 8 div 4
| = | Igualdad | precio = 541.78
| != | Distinto | precio != 541.78
| < | Menor estricto | precio < 500
| <= | Menor o igual | precio <= 541.78
| > | Mayor estricto | precio > 500
| <= | Mayor o igual | precio >= 541.78
| or | Disyunción | precio = 541.78 or precio = 214.48
| and | Conjunción | precio > 300 and precio <= 541.78
| mod | Módulo (resto de la división entera) | 5 mod 2



### XML y Python

Vamos a usar lxml
> pip install lxml


In [None]:
from lxml import etree

tree = etree.parse("archivo.xml")  # archivo.xml contiene el ejemplo de la biblioteca

root = tree.getroot()  # Devuelve la raíz del árbol XML

print(len(root))  # los elementos del árbol son listas

for child in root:
    print(child)

for child in root:
    print(child.tag)  # con `.tag` se accede a la etiqueta

In [None]:
print("Todos los autores")
b1 = tree.xpath("//autor")
for autor in b1:
    print(autor.text)

print()
print("Todos los libros que cuestan entre 300 y 541.78 inclusive")
b2 = tree.xpath("//libro[precio > 300 and precio <= 541.78]/titulo")
for libro in b2:
    print(libro.text)