## INTRODUCCIÓN A XML
_Antonio Sarasa, Enrique Martín_

__XML (Extensible Markup Language)__ es un metalenguaje que permite definir lenguajes de marcado. Los lenguajes de marcado permiten describir la estructura de los contenidos de un documento.

Un __lenguaje de marcado__ está formado por un conjunto de etiquetas que se encierran entre corchetes angulares,<>, y se usan en pares:

          <etiqueta> y </etiqueta>

No existen conjuntos prefijados de etiquetas, se definen en cada lenguaje de marcado. Cada par de etiquetas delimita el comienzo y el final de una porción de documento a la que se refiere la etiqueta. Por ejemplo:

```
<asignatura>Bases de datos</asignatura>
```
Un __documento XML__ es aquel que se crea utilizando un lenguaje de marcado. Por ejemplo:

```
<banco>
    <cuenta>
        <numero_cuenta>C-101</numero_cuenta>
        <nombre_sucursal>Centro</nombre_sucursal>
        <saldo>500</saldo>
    </cuenta>
    <cliente>
        <nombre_cliente>González</nombre_cliente>
        <calle_cliente>Arenal</calle_cliente>
        <ciudad_cliente>La Granja</ciudad_cliente>
    </cliente>
    <impositor>
        <numero_cuenta> C-101</numero_cuenta>
        <nombre_cliente>González</nombre_cliente>
    </impositor>
</banco>
```

## Estructura básica de un documento XML

Todo documento XML está formado por:
* __Prologo__. Consta de dos declaraciones: 
   * La declaración XML que indica la versión de XML utilizada y el tipo de codificación de caracteres.
               <?xml version=“1.0” encoding=“UTF-8”?>
   *  La declaración de tipo de documento que asocia el documento a una DTD o XSD respecto a la cual el documento es conforme. 
   
* __Elementos__. Es un par de etiquetas de comienzo y final coincidentes que delimita una porción de información.
                  <título>introducción</título>

   * Existen elementos vacíos que no contienen contenido.Se representan indistintamente como:

            <Nombre etiqueta/> o <Nombre etiqueta> </Nombre etiqueta>

   * Los elementos se pueden anidar. Un texto aparece en el contexto de un elemento si aparece entre la etiqueta de inicio y final de dicho elemento. Las etiquetas se anidan correctamente si toda etiqueta de inicio tiene un única etiqueta de finalización coincidente que está en el contexto del mismo elemento padre.

   * Un elemento puede aparecer varias veces en un documento XML.
   * El texto en un documento XML puede estar mezclado con los subelementos de otro elemento.

          <cuenta>Esta cuenta se usa muy rara vez, por no decir nunca
              <numero_cuenta> C-102 </numero_cuenta>
              <nombre_sucursal>Navacerrada</nombre_sucursal>
              <saldo>400</saldo>
          </cuenta>
   
  * Todo documento XML tiene un único elemento raíz que engloba al resto de elementos del documento. En el primer ejemplo el elemento ```<banco>``` era la raíz.

   
* __Atributos__. Las etiquetas de los elementos pueden incluir 1 o más atributos que representan propiedades de los elementos de la forma Nombre atributo=“Valor atributo” 
          <cuenta tipo_cuenta=“corriente”>

   * Los atributos pueden aparecer solamente una vez en una etiqueta dada.

* __Comentarios__. Es un texto que se escribe entre <!–- y -->. 
   * La cadena “--” no puede aparecer dentro de un comentario. 
   * Los comentarios pueden aparecer en cualquier sitio salvo dentro de declaraciones, etiquetas y dentro de otros comentarios.

* __Espacio de nombres__. Es un mecanismo que permite especificar nombre únicos globalmente para que se usen como marcas de elementos en los documentos XML. 
   * Para ello se antepone a la etiqueta o atributo un identificador de recursos universal. 
   * En el ejemplo del banco podría ser http:///www.BancoPrincipal.com .
   * Para abreviarlo se declaran abreviaturas del espacio de nombres mediante el atributo __xmlns__
       
         <banco xmlns:BP="http://www.BancoPrincipal.com">
              ...
              <BP:sucursal>
                  <BP:nombre_sucursal>Centro</BP:nombre_sucursal>
                  <BP:ciudad_sucursal>Centro</BP:ciudad_sucursal>   
              </BP:sucursal>
              ...
         </banco>
         
   * Un documento puede tener más de un espacio de nombres declarado como parte del elemento raíz, de manera que se puede asociar elementos diferentes con espacios de nombres distintos.
   
   * Se puede definir un espacio de nombres predeterminado mediante el uso del atributo __xmlns__ en el elemento raíz. Los elementos sin un prefijo de espacio de nombres explícito pertenecen entonces al espacio de nombres predeterminado.

Observar que a veces es necesario almacenar valores que contienen los caracteres de inicio (`<`)  final (`>`) de etiqueta  sin que se interpreten como etiquetas XML, es decir como texto normal. Para ello se usa la construcción `CDATA`:
              
    <![CDATA[Aquí podemos incluir etiquetas <XML> sin problema]]>

 ## EJEMPLO

Considerar que se quiere representar mediante un documento XML la siguiente información:

__Persona 1:__

Nombre: Roberto Casas

Email: ro.casas@direccion.com

Amigos: Leire, Pepe

__Persona 2:__

Nombre: Leire García

Email: le.gracia@direccion.com,le.garcia@hotmail.com 

Amigos: Ricky


__Persona 3:__

Nombre: José Manzaneda

Email: j.manzaneda@direccion.com , jman@hotmail.com 

Amigos: Ricky

Enemigos: Leire

Esta información se podría representar mediante un documento de la forma:

     <?xml version="1.0" encoding="UTF-8" ?>
      <listin>
        <persona sexo="hombre" id="ricky">
          <nombre> Roberto Casas </nombre>
          <email> ro.casas@direccion.com </email>
          <relacion amigo_de="leire pepe"/>
        </persona>
        <persona sexo="mujer" id="leire">
          <nombre> Leire Garcia </nombre>
          <email> le.garcia@direccion.com </email>
          <email> le.garcia@hotmail.com </email>
          <relacion amigo_de="ricky"/>
        </persona>
        <persona sexo="hombre" id="pepe">
          <nombre> José Manzaneda </nombre>
          <email> j.manzaneda@direccion.com </email>
          <email> jman@hotmail.com </email>
          <relacion enemigo_de="leire" amigo_de="ricky"/>
        </persona>
     </listin>


## PROCESAMIENTO DE DOCUMENTOS XML USANDO PYTHON

* Un procesador XML permite a una aplicación acceder a los contenidos de un documento XML así como detectar posibles errores.
* Hay dos enfoques para acceder a los contenidos:
   * __Dirigido por eventos__. El documento se procesa secuencialmente, de manera que cada elemento reconocido activa un evento que puede dar lugar a una acción por parte de la aplicación. SAX es un estándar para este enfoque

   * __Manipulación del árbol__. El documento se estructura como árbol de nodos a los que se puede acceder en cualquier orden. DOM es un estándar para este enfoque


### SAX (Simple API for XML)

Es una interfaz dirigida por eventos que permite leer el contenido como una secuencia de datos e interpretar las etiquetas según se van encontrando.
Se caracteriza por:
 * Las partes del documento siempre se leen en orden desde el inicio al final.
 * No se crea ninguna estructura de datos para representar el documento, sino que sólo se analiza secuencialmente y se generan eventos denominados _eventos de análisis_ que corresponden con el reconocimiento de partes de un documento. 
 * Por ejemplo cuando se encuentra el inicio de un elemento se genera un evento o cuando finaliza un elemento se genera otro evento.
 * Para gestionar los eventos se crean funciones controladoras para cada evento que se va a considerar  denominadas manejadores de eventos. De esta forma cuando ocurre un evento se llama al manejador correspondiente para que realice la acción definida en el manejador.
 * No es posible manipular información ya procesada, de manera que si fuera necesario entonces habría que guardarla en una estructura de datos o bien volver a llamar al procesador.
 

Por ejemplo  considerar el siguiente documento XML:

    <?xml version=“1.0”?>
    <doc> 
        <par> 
            Hola Mundo 
        </par> 
        <par>
            Adiós
        </par>
    </doc>

El procesamiento con SAX produciría la siguiente secuencia de eventos:
    
1. inicio de documento
2. inicio de elemento __doc__
3. inicio de elemento __par__
4. caracteres "Hola mundo" -- ___OJO: podrían haber sido varios eventos___ --
5. fin de elemento __par__
6. inicio de elemento __par__
7. caracteres "Adiós"
7. fin de elemento __par__
6. fin de elemento __doc__
7. fin documento






### Procesamiento SAX en Python

Para procesar usando SAX es necesario crearse un manejador propio `ContentHandler` como subclase de __xml.sax.ContentHandler__. El manejador gestionara las etiquetas y atributos que se deseen del documento XML que va a ser procesado.

El manejador proporciona un conjunto de métodos para gestionar determinados eventos que se producen en el procesamiento. Podéis encontrar más detalles en la documentación de Python (https://docs.python.org/3/library/xml.sax.handler.html#contenthandler-objects):
* Los métodos __startDocument__ y __endDocument__ son llamadas al comienzo y al final del archivo XML.
* Los métodos __startElement__(etiqueta,atributos) y __endElement__(etiqueta) son llamados al comienzo y al final de cada elemento. En caso de utilizar espacios de nombres se utilizarían los métodos __startElementNS__ y __endElementNS.__
* El método __characters(texto)__ es llamado cuando es una cadena de texto. 
__<font color='red'>IMPORTANTE: las cadenas de texto se pueden leer por bloques en distintos eventos consecutivos, y esto es algo totalmente dependiente de la implementación y del estado del sistema. No podéis suponer que un texto completo será devuelto por un único evento.</font>__
* __xml.sax.make_parser([Lista de parsers])__: Crea un nuevo objeto parser. Tiene como argumento optativo una lista de parsers.
* __xml.sax.parse(archivo XML, Manejador,[ManejadorErrores])__: Crea un parser SAX  y lo usa para procesar el documento XML. Tiene como argumento el documento XML que va a ser procesado, el manejador de eventos, y optativamente un manejador de errores.
* __xml.sax.parseString(NombreCadenaXML, Manejador,[ManejadorErrores])__: Crea un parser SAX y lo usa para procesar la cadena XML dada. Tiene como argumento la cadena XML que va a ser procesada, el manejador de eventos, y optativamente un manejador de errores.

In [1]:
import xml.sax

class ManejadorSimple(xml.sax.ContentHandler):
    
    def __init__(self):
        self.tabulador = ""
        self.num_evento = 1

    def startDocument(self):
        print(f'{self.tabulador}{self.num_evento}) **Inicio de documento**')
        self.num_evento += 1

    def endDocument(self):
        print(f'{self.tabulador}{self.num_evento}) **Fin de documento**')
        self.num_evento += 1
        
    def startElement(self, etiqueta, atributos):
        print(f'{self.tabulador}{self.num_evento}) Inicio de etiqueta <{etiqueta}> con atributos {atributos.items()}')
        self.tabulador += "    "  # Aumenta la sangría
        self.num_evento += 1

    def characters(self, contenido):
        print(f'{self.tabulador}{self.num_evento}) Leyendo cadena de caracteres: "{contenido}"')
        self.num_evento += 1
            
    def endElement(self, etiqueta):
        self.tabulador = self.tabulador[:-4]  # Reduce la sangría
        print(f'{self.tabulador}{self.num_evento}) Final de etiqueta <{etiqueta}>')
        self.num_evento += 1

parser = xml.sax.make_parser()
parser.setContentHandler(ManejadorSimple())
parser.parse("simple_flat.xml")

1) **Inicio de documento**
2) Inicio de etiqueta <doc> con atributos []
    3) Inicio de etiqueta <par> con atributos [('tipo', 'saludo')]
        4) Leyendo cadena de caracteres: "Hola Mundo"
    5) Final de etiqueta <par>
    6) Inicio de etiqueta <par> con atributos [('tipo', 'despedida')]
        7) Leyendo cadena de caracteres: "Adiós"
    8) Final de etiqueta <par>
9) Final de etiqueta <doc>
10) **Fin de documento**


In [2]:
parser = xml.sax.make_parser()
parser.setContentHandler(ManejadorSimple())
parser.parse("simple.xml")  # ¡¡Genera muchos más eventos debido a múltiples lecturas de texto!!

1) **Inicio de documento**
2) Inicio de etiqueta <doc> con atributos []
    3) Leyendo cadena de caracteres: " "
    4) Leyendo cadena de caracteres: "
"
    5) Leyendo cadena de caracteres: "    "
    6) Inicio de etiqueta <par> con atributos [('tipo', 'saludo')]
        7) Leyendo cadena de caracteres: " "
        8) Leyendo cadena de caracteres: "
"
        9) Leyendo cadena de caracteres: "        Hola Mundo "
        10) Leyendo cadena de caracteres: "
"
        11) Leyendo cadena de caracteres: "    "
    12) Final de etiqueta <par>
    13) Leyendo cadena de caracteres: " "
    14) Leyendo cadena de caracteres: "
"
    15) Leyendo cadena de caracteres: "    "
    16) Inicio de etiqueta <par> con atributos [('tipo', 'despedida')]
        17) Leyendo cadena de caracteres: "
"
        18) Leyendo cadena de caracteres: "        Adiós"
        19) Leyendo cadena de caracteres: "
"
        20) Leyendo cadena de caracteres: "    "
    21) Final de etiqueta <par>
    22) Leyendo cadena d

Vamos a crear un manejador y luego se va a usar para procesar un documento de ejemplo que almacena un catálogo:

In [3]:
import xml.sax

class ManejadorCatalogo (xml.sax.ContentHandler):
    
    def __init__(self):
        # curr_path es una lista de etiquetas representando el camino actual dentro del árbol,
        # desde la raíz
        self.curr_path = []
        # 'texto' almacena el texto leído por invocaciones consecutivas a characters()
        self.texto = ""
        
    def startElement(self, etiqueta, atributos):
        # Cuando encontramos el inicio de elemento lo añadimos al camino actual, y si
        # es un libro lo mostramos por pantalla junto con su ISBN
        self.curr_path.append(etiqueta)
        self.texto = ""  # Borro cualquier texto leído previamente
        if etiqueta == "Libro":
            print("****Libro****")
            print(f'isbn: {atributos["isbn"]}')

    def characters(self, contenido):
        # Como se puede invocar varias veces a characters, concatenamos todos 
        # los bloques leídos
        self.texto += contenido
            
    def endElement(self, etiqueta):
        # Dependiendo de la etiqueta que se está cerrando (self.curr_path[-1]), 
        # mostramos por pantalla el texto leído en self.texto
        if self.curr_path[-1] == "titulo":
            print(f"Titulo: {self.texto}")
        elif self.curr_path[-1] == "fecha":
            print(f"Fecha: {self.texto}")
        elif self.curr_path[-1] == "autor":
            print(f"Autor: {self.texto}")

        # Al cerrar un elemento eliminamos el elemento del camino actual
        # y si es un libro añadimos un salto de línea adicional
        self.curr_path = self.curr_path[:-1]
        if etiqueta == "Libro":
            print() # Salto de línea

Una vez que se tiene definida la clase, se puede llevar a cabo el procesamiento:
* Se crea un objeto parser XML.
* Se fija el manejador de eventos.
* Se procesa el documento.


In [4]:
parser = xml.sax.make_parser()
parser.setContentHandler(ManejadorCatalogo())
parser.parse("Catalogo.xml")

****Libro****
isbn: 0-596-00128-2
Titulo: Python y XML
Fecha: Diciembre 2001
Autor: Pepito Perez

****Libro****
isbn: 0-596-15810-6
Titulo: Programacion avanzada de XML
Fecha: Octoubre 2010
Autor: Juan Garcia

****Libro****
isbn: 0-596-15806-8
Titulo: Aprendiendo Java
Fecha: Septiembre 2009
Autor: Juan Garcia

****Libro****
isbn: 0-596-15808-4
Titulo: Python para moviles
Fecha: Octubre 2009
Autor: Pepito Perez

****Libro****
isbn: 0-596-00797-3
Titulo: R para estadistica
Fecha: Marzo 2005
Autor: Juan, Pepe, Isabel

****Libro****
isbn: 0-596-10046-9
Titulo: Python en 100 paginas
Fecha: Julio 2006
Autor: Julia



### DOM (Document Object Model)

Es una especificación que proporciona una API que representa los documentos como un árbol de objetos nodo en las que hay nodos con hijos y otros nodos sin hijos denominados nodos hoja. Toda la jerarquía de nodos se carga en memoria de forma que se pueda recorrer y acceder a los nodos comenzando desde la raíz.

Por ejemplo considerar el siguiente documento XML:

    <?xml version=“1.0” encoding=“UTF-8”?>
        <doc>
            <saludo> Hola <enfatico>estimados</enfatico> oyentes</saludo>
            <aplausos tipo=“sostenido”/>
        </doc>

Su procesamiento daría lugar a la siguiente jerarquía de nodos:

    documento
    |-- Ins. Procesamiento
    |-- comentario
    |-- elemento doc
        |-- elemento saludo
        |   |-- texto
        |   |-- elemento enfatico
        |   |   |-- texto
        |   |-- texto
        |-- elemento aplausos

### Procesamiento DOM en Python

Para procesar un documento XML usando DOM se debe utilizar la librería __xml.dom.__  Esta librería permite crear un objeto minidom que dispone de un método que procesa un documento XML dado y genera un árbol __DOM__.

En primer lugar se abre el documento XML con el método __parse__ o __parseString__ del objeto __minidom__  que proporciona un árbol __DOM__ del documento. A continuación, se puede empezar a recorrer el árbol. En primer lugar se accede a la raíz del árbol a través del atributo __documentElement.__

Se puede navegar por el DOM usando los siguientes métodos:
* __childNodes__: devuelve una lista con todos los nodos anidados del elemento actual
* __firstChild__: devuelve el primer nodo anidado del elemento actual
* __getAttribute(Atributo)__: Devuelve el valor del atributo proporcionado como parámetro.
* __hasAttribute(Atributo)__: Indica si un elemento tiene el atributo proporcionado como parámetro.
* __data__: devuelve el texto de un elemento, si se trata de un nodo de texto

In [5]:
from xml.dom.minidom import parse
import xml.dom.minidom

raiz = xml.dom.minidom.parse("simple.xml").documentElement
raiz.tagName

'doc'

In [6]:
raiz.childNodes

[<DOM Text node "' \n    '">,
 <DOM Element: par at 0x78d5b0786df0>,
 <DOM Text node "' \n    '">,
 <DOM Element: par at 0x78d5b0786f30>,
 <DOM Text node "'\n'">]

In [7]:
nodo1 = raiz.childNodes[1]
nodo2 = raiz.childNodes[3]
nodo1, nodo2

(<DOM Element: par at 0x78d5b0786df0>, <DOM Element: par at 0x78d5b0786f30>)

In [8]:
nodo1.childNodes

[<DOM Text node "' \n        '...">]

In [9]:
nodo1.childNodes[0].data

' \n        Hola Mundo \n    '

In [10]:
nodo1.childNodes[0].data.strip()

'Hola Mundo'

In [11]:
nodo1.hasAttribute('tipo')

True

In [12]:
nodo2.getAttribute('tipo')

'despedida'

También se puede invocar a `getElementsByTagName(nombre)`, que devuelve una lista de todos los elementos que tienen la etiqueta proporcionada.

In [13]:
from xml.dom.minidom import parse
import xml.dom.minidom

ArbolDOM = xml.dom.minidom.parse("Catalogo.xml")
catalogo = ArbolDOM.documentElement
libros = catalogo.getElementsByTagName("Libro")

for libro in libros:
    print ("***Libro***")
    if libro.hasAttribute("isbn"):
        print ("isbn:", libro.getAttribute("isbn"))
    Titulo = libro.getElementsByTagName("titulo")[0]
    print("Titulo:", Titulo.childNodes[0].data)
    Fecha = libro.getElementsByTagName("fecha")[0]
    print("Fecha:", Fecha.childNodes[0].data)
    Autor = libro.getElementsByTagName("autor")[0]
    print("Titulo:", Autor.childNodes[0].data)
    print()

***Libro***
isbn: 0-596-00128-2
Titulo: Python y XML
Fecha: Diciembre 2001
Titulo: Pepito Perez

***Libro***
isbn: 0-596-15810-6
Titulo: Programacion avanzada de XML
Fecha: Octoubre 2010
Titulo: Juan Garcia

***Libro***
isbn: 0-596-15806-8
Titulo: Aprendiendo Java
Fecha: Septiembre 2009
Titulo: Juan Garcia

***Libro***
isbn: 0-596-15808-4
Titulo: Python para moviles
Fecha: Octubre 2009
Titulo: Pepito Perez

***Libro***
isbn: 0-596-00797-3
Titulo: R para estadistica
Fecha: Marzo 2005
Titulo: Juan, Pepe, Isabel

***Libro***
isbn: 0-596-10046-9
Titulo: Python en 100 paginas
Fecha: Julio 2006
Titulo: Julia



### SAX VS DOM

* SAX es un procesador bastante eficiente que permite manejar documentos muy extensos en tiempo lineal y con una cantidad de memoria constante. Sin embargo requiere de un esfuerzo mayor por parte de los desarrolladores.
* DOM es más fácil de usar para los desarrolladores pero aumenta el coste de memoria y tiempo.
* Será mejor usar SAX cuando el documento a procesar no quepa en memoria o cuando las tareas son irrelevantes con respecto a la estructura del documento (contar el número de elementos, extraer contenido de un elemento determinado)



### Procesamiento XML con ElementTree

* Es una biblioteca estándar para procesar y crear documentos XML con características similares a DOM dado que crea un árbol de objetos representado por la clase ElementTree. Sin embargo la **navegación es más sencilla porque usa un estilo más específico de Python**.

* El árbol generado esta formado por  objetos “elemento” de tipo Element  donde cada uno de ellos dispone de un conjunto de atributos: nombre, diccionario de atributos, valor textual y secuencia de elementos hijo.

* Para procesar un documento basta abrir el documento con el método open() como si se tratara de un fichero y usar el método parse de ElementTree

In [14]:
from xml.etree import ElementTree

arbol = ElementTree.parse("Catalogo.xml")
print(arbol)

<xml.etree.ElementTree.ElementTree object at 0x78d5b072ad90>


Si se quiere visitar todo el árbol se usa el método iter() que crea un generador que itera sobre todos los nodos del árbol.


In [15]:
arbol = ElementTree.parse("Catalogo.xml")
for nodo in arbol.iter():
  print(nodo.tag, nodo.attrib)

catalogo {}
Libro {'isbn': '0-596-00128-2'}
titulo {}
fecha {}
autor {}
Libro {'isbn': '0-596-15810-6'}
titulo {}
fecha {}
autor {}
Libro {'isbn': '0-596-15806-8'}
titulo {}
fecha {}
autor {}
Libro {'isbn': '0-596-15808-4'}
titulo {}
fecha {}
autor {}
Libro {'isbn': '0-596-00797-3'}
titulo {}
fecha {}
autor {}
Libro {'isbn': '0-596-10046-9'}
titulo {}
fecha {}
autor {}


Puede que se esté interesado sólo en determinados elementos del árbol, y no en todos. Para ello se pasa como parámetro del método iter() el nombre del elemento de interés.

In [16]:
arbol = ElementTree.parse("Catalogo.xml")
for i, nodo in enumerate(arbol.iter("Libro")):
    isbn = nodo.attrib.get("isbn")
    print(nodo.tag, i, "con isbn ", isbn)

Libro 0 con isbn  0-596-00128-2
Libro 1 con isbn  0-596-15810-6
Libro 2 con isbn  0-596-15806-8
Libro 3 con isbn  0-596-15808-4
Libro 4 con isbn  0-596-00797-3
Libro 5 con isbn  0-596-10046-9


Otra posibilidad de iterar sobre los elementos del árbol es acceder a la raíz del árbol y desde ella iterar sobre los hijos.

In [17]:
arbol = ElementTree.parse("Catalogo.xml")
raiz = arbol.getroot()

print(raiz.tag, " ", raiz.attrib)
for hijo in raiz:
    print(hijo.tag, " ", hijo.attrib)

catalogo   {}
Libro   {'isbn': '0-596-00128-2'}
Libro   {'isbn': '0-596-15810-6'}
Libro   {'isbn': '0-596-15806-8'}
Libro   {'isbn': '0-596-15808-4'}
Libro   {'isbn': '0-596-00797-3'}
Libro   {'isbn': '0-596-10046-9'}


También es posible acceder a los hijos de un elemento de forma indexada usando los corchetes:

In [18]:
arbol = ElementTree.parse("Catalogo.xml")
raiz = arbol.getroot()
print(raiz)

print(raiz[0].attrib['isbn'], '---', raiz[0][0].text)
print(raiz[1].attrib['isbn'], '---', raiz[1][1].text)

<Element 'catalogo' at 0x78d5b07dc4f0>
0-596-00128-2 --- Python y XML
0-596-15810-6 --- Octoubre 2010


Existe otro conjunto de métodos que permiten recorrer el árbol tomando como argumento una expresión XPath que caracteriza al elemento que se está buscando:
  * find(): recupera el primer subelemento del elemento actual encajando con la descripción dada
  * findall(): recupera todos los subelementos del elemento actual encajando con la descripción dada
  * iterfind(): recupera todos los elementos encajando con la descripción dada.
  * text:  accede al contenido textual de un elemento
  * get(atributo): accede al atributo dado del elemento.

Se van a encontrar todos los títulos de los libros usando findall()

In [19]:
arbol = ElementTree.parse("Catalogo.xml")
for i, nodo in enumerate(arbol.findall("./Libro/titulo")):
    print(f"Libro {i} --> {nodo.text}")

Libro 0 --> Python y XML
Libro 1 --> Programacion avanzada de XML
Libro 2 --> Aprendiendo Java
Libro 3 --> Python para moviles
Libro 4 --> R para estadistica
Libro 5 --> Python en 100 paginas


Esta API también permite realizar un procesamiento basado en eventos al estilo de SAX usando el método `iterparse()` (https://docs.python.org/3/library/xml.etree.elementtree.html#xml.etree.ElementTree.iterparse).

Genera eventos “start” en las aperturas de elemento y eventos “end” en los cierres de elemento. Además los datos pueden ser extraídos del documento durante la fase de parseo.

Se va a realizar un procesamiento similar al que se hizo con SAX:

In [20]:
from xml.etree.ElementTree import iterparse

for (event,element) in iterparse("Catalogo.xml",("start","end")):
    if event == "start":
        if element.tag == "Libro":
            print ("****Libro****")
            print ("isbn", element.attrib["isbn"])
        if element.tag == "titulo":
            print("Titulo :", element.text)
        if element.tag == "fecha":
            print("Fecha :", element.text)
        if element.tag == "autor":
            print("Autor :", element.text) 

    elif event == 'end' and element.tag == "Libro":
        print()

****Libro****
isbn 0-596-00128-2
Titulo : Python y XML
Fecha : Diciembre 2001
Autor : Pepito Perez

****Libro****
isbn 0-596-15810-6
Titulo : Programacion avanzada de XML
Fecha : Octoubre 2010
Autor : Juan Garcia

****Libro****
isbn 0-596-15806-8
Titulo : Aprendiendo Java
Fecha : Septiembre 2009
Autor : Juan Garcia

****Libro****
isbn 0-596-15808-4
Titulo : Python para moviles
Fecha : Octubre 2009
Autor : Pepito Perez

****Libro****
isbn 0-596-00797-3
Titulo : R para estadistica
Fecha : Marzo 2005
Autor : Juan, Pepe, Isabel

****Libro****
isbn 0-596-10046-9
Titulo : Python en 100 paginas
Fecha : Julio 2006
Autor : Julia



También es posible procesar cadenas que representan un documento XML usando el método fromstring que toma como argumento la cadena que representa el documento XML.

In [21]:
cadena='''
<catalogo>
  <Libro isbn="0-123-85423-42">
     <titulo>El libro del mar</titulo>
     <fecha>2000</fecha>
     <autor>Sirenito López</autor>
  </Libro>
</catalogo>
'''
doc = ElementTree.fromstring(cadena)

lista = doc.findall("Libro")
for l in lista:
    print ("****Libro****")
    print ("isbn :", l.get("isbn"))
    print ("Titulo :", l.find("titulo").text)
    print ("Fecha :", l.find("fecha").text)
    print ("Autor :", l.find("autor").text)

****Libro****
isbn : 0-123-85423-42
Titulo : El libro del mar
Fecha : 2000
Autor : Sirenito López
