## INTRODUCCIÓN A XML

__XML(Extensible Markup Language)__ es un metalenguaje que permite definir lenguajes de marcado. Los lenguajes de marcado permiten describir la estructura de los contenidos de un documento.

Un __lenguaje de marcado__ está formado por un conjunto de etiquetas que se encierran entre corchetes angulares,<>, y se usan en pares:

          <etiqueta> y </etiqueta>

No existen conjuntos prefijados de etiquetas, se definen en cada lenguaje de marcado. Cada par de etiquetas delimita el comienzo y el final de una porción de documento a la que se refiere la etiqueta. Por ejemplo:

```
<asignatura>Bases de datos</asignatura>
```
Un __documento XML__ es aquel que se crea utilizando un lenguaje de marcado.Por ejemplo:

```
<cuenta>
<numero_cuenta>C-101</numero_cuenta>
<nombre_sucursal>Centro</nombre_sucursal>
<saldo>500</saldo>
</cuenta>
<cliente>
<nombre_cliente>González</nombre_cliente>
<calle_cliente>Arenal</calle_cliente>
<ciudad_cliente>La Granja</ciudad_cliente>
</cliente>
<impositor>
<numero_cuenta> C-101</numero_cuenta>
<nombre_cliente>González</nombre_cliente>
</impositor>
</banco>
```

## Estructura básica de un documento XML

Todo documento XML está formado por:
* __Prologo__. Consta de dos declaraciones: 
   * La declaración XML que indica la versión de XML utilizada y el tipo de codificación de caracteres.
               <?xml version=“1.0” encoding=“UTF-8”?>
   *  La declaración de tipo de documento que asocia el documento a una DTD o XSD respecto a la cual el documento es conforme. 
   
* __Elementos__. Es un par de etiquetas de comienzo y final coincidentes que delimita una porción de información.
                  <título>introducción</título>

   * Existen elementos vacíos que no contienen contenido.Se representan indistintamente como:

            <Nombre etiqueta/> o <Nombre etiqueta> </Nombre etiqueta>

   * Los elementos se pueden anidar. Un texto aparece en el contexto de un elemento si aparece entre la etiqueta de inicio y final de dicho elemento. Las etiquetas se anidan correctamente si toda etiqueta de inicio tiene un única etiqueta de finalización coincidente que está en el contexto del mismo elemento padre.

   * Un elemento puede aparecer varias veces en un documento XML.
   * El texto en un documento XML puede estar mezclado con los subelementos de otro elemento.

          <cuenta>Esta cuenta se usa muy rara vez, por no decir nunca
          <numero_cuenta> C-102 </numero_cuenta>
          <nombre_sucursal>Navacerrada</nombre_sucursal>
          <saldo>400</saldo>
          </cuenta>
   
  * Todo documento XML tiene un único elemento raíz que engloba al resto de elementos del documento. En el primer ejemplo el elemento ```<banco>``` era la raíz.

   
* __Atributos__. Las etiquetas de los elementos pueden incluir 1 o más atributos que representan propiedades de los elementos de la forma Nombre atributo=“Valor atributo” 
          <cuenta tipo_cuenta=“corriente”>

   * Los atributos pueden aparecer solamente una vez en una etiqueta dada.

* __Comentarios__. Es un texto que se escribe entre <!–- y -->. 
   * La cadena “--” no puede aparecer dentro de un comentario. 
   * Los comentarios pueden aparecer en cualquier sitio salvo dentro de declaraciones, etiquetas y dentro de otros comentarios.

* __Espacio de nombres__. Es un mecanismo que permite especificar nombre únicos globalmente para que se usen como marcas de elementos en los documentos XML. 
   * Para ello se antepone a la etiqueta o atributo un identificador de recursos universal. 
   * En el ejemplo del banco podría ser http:///www.BancoPrincipal.com .
   * Para abreviarlo se declaran abreviaturas del espacio de nombres mediante el atributo __xmlns__
       
         <banco xmlns:BP="http://www.BancoPrincipal.com">
          ...
          <BP:sucursal>
           <BP:nombre_sucursal>Centro</BP:nombre_sucursal>
           <BP:ciudad_sucursal>Centro</BP:ciudad_sucursal>   
          <BP:sucursal>
          ...
         </banco>
         
   * Un documento puede tener más de un espacio de nombres declarado como parte del elemento raíz, de manera que se puede asociar elementos diferentes con espacios de nombres distintos.
   
   * Se puede definir un espacio de nombres predeterminado mediante el uso del atributo __xmlns__ en el elemento raíz. Los elementos sin un prefijo de espacio de nombres explícito pertenecen entonces al espacio de nombres predeterminado.

Observar que a veces es necesario almacenar valores que contienen etiquetas sin que se  interpreten como etiquetas XML, es decir como texto normal. Para ello se usa la construcción:
              
              <![CDATA]<cuenta>…</cuenta>]]>



 ## EJEMPLO

Considerar que se quiere representar mediante un documento XML la siguiente información:

__Persona 1:__

Nombre: Roberto Casas

Email: ro.casas@direccion.com

Amigos: Leire, Pepe

__Persona 2:__

Nombre: Leire García

Email: le.gracia@direccion.com,le.garcia@hotmail.com 

Amigos: Ricky

__Persona 3:__

Nombre: José Manzaneda

Email: j.manzaneda@direccion.com , jman@hotmail.com 

Amigos: Ricky

Enemigos: Leire

Esta información se podría representar mediante un documento de la forma:

     <?xml version="1.0" encoding="UTF-8" ?>
      <listin>
        <persona sexo="hombre" id="ricky">
          <nombre> Roberto Casas </nombre>
          <email> ro.casas@direccion.com </email>
          <relacion amigo_de="leire pepe"/>
        </persona>
        <persona sexo="mujer" id="leire">
          <nombre> Leire Garcia </nombre>
          <email> le.garcia@direccion.com </email>
          <email> le.garcia@hotmail.com </email>
          <relacion amigo_de="ricky"/>
        </persona>
        <persona sexo="hombre" id="pepe">
          <nombre> José Manzaneda </nombre>
          <email> j.manzaneda@direccion.com </email>
          <email> jman@hotmail.com </email>
          <relacion enemigo_de="leire" amigo_de="ricky"/>
        </persona>
     </listin>


## PROCESAMIENTO DE DOCUMENTOS XML USANDO PYTHON

* Un procesador XML permite a una aplicación acceder a los contenidos de un documento XML así como detectar posibles errores.
* Hay dos enfoques para acceder a los contenidos:
   * __Dirigido por eventos__. El documento se procesa secuencialmente, de manera que cada elemento reconocido activa un evento que puede dar lugar a una acción por parte de la aplicación. SAX es un estándar para este enfoque

   * __Manipulación del árbol__. El documento se estructura como árbol de nodos a los que se puede acceder en cualquier orden. DOM es un estándar para este enfoque


### SAX(Simple API for XML)

Es una interfaz dirigida por eventos que permite leer el contenido como una secuencia de datos e interpretar las etiquetas según se van encontrando.
Se caracteriza por:
 * Las partes del documento siempre se leen en orden desde el inicio al final.
 * No se crea ninguna estructura de datos para representar el documento, sino que sólo se analiza secuencialmente y se generan eventos denominados eventos de análisis que corresponden con el reconocimiento de partes de un documento. 
 * Por ejemplo cuando se encuentra el inicio de un elemento se genera un evento o cuando finaliza un elemento se genera otro evento.
 * Para gestionar los eventos se crean funciones controladoras para cada evento que se va a considerar  denominadas manejadores de eventos. De esta forma cuando ocurre un evento se llama al manejador correspondiente para que realice la acción definida en el manejador.
 * No es posible manipular información ya procesada, de manera que si fuera necesario entonces habría que guardarla en una estructura de datos o bien volver a llamar al procesador.
 

Por ejemplo  considerar el siguiente documento XML:

         <?xml version=“1.0”?>
         <doc> 
             <par> 
             Hola Mundo 
             </par> 
         </doc>

El procesamiento con SAX produciría la siguiente secuencia de eventos:
    
    1. inicio de documento
    2. inicio de elemento doc
    3. inicio de elemento par
    4. caracteres Hola mundo
    5. fin de elemento par
    6. fin de elemento doc
    7. fin documento






### Procesamiento SAX en Python

Para procesar usando SAX es necesario crearse un manejador propio ContentHandler como subclase de __xml.sax.ContentHandler__. El manejador gestionara las etiquetas y atributos que se deseen del documento XML que va a ser procesado.

El manejador proporciona un conjunto de métodos para gestionar determinados eventos que se producen en el procesamiento:
* Los métodos __startDocument__ y __endDocument__ son llamadas al comienzo y al final del archivo XML.
* Los métodos __startElement__(etiqueta,atributos) y __endElement__(etiqueta) son llamados al comienzo y al final de cada elemento. En caso de utilizar espacios de nombres se utilizarían los métodos __startElementNS__ y __endElementNS.__
* El método __character(texto)__ es llamado cuando es una cadena de texto.
* __xml.sax.make_parser([Lista de parsers])__: Crea un nuevo objeto parser. Tiene como argumento optativo una lista de parsers.
* __xml.sax.parse(archivo XML, Manejador,[ManejadorErrores])__: Crea un parser SAX  y lo usa para procesar el documento XML. Tiene como argumento el documento XML que va a ser procesado, el manejador de eventos, y optativamente un manejador de errores.
* __xml.sax.parseString(NombreCadenaXML, Manejador,[ManejadorErrores])__: Crea un parser SAX y lo usa para procesar la cadena XML dada. Tiene como argumento la cadena XML que va a ser procesada, el manejador de eventos, y optativamente un manejador de errores.

Vamos a crear un manejador y luego se va a usar para procesar el documento de ejemplo:
* Hay que importar el paquete SAX: __import xml.sax__
* Se crea un clase que es subclase de la clase __xml.sax.ContentHandler__.
* Se definen dentro de la clase 4 métodos:
   * El método __init__. Se define como atributos de la clase las etiquetas y atributos del documento XML que se quieren gestionar.

    ``` def __init__(self):
          self.Datos=""
          self.titulo=""
          self.fecha=""
          self.autor=""```
        
   * El método __startElement__. Se indica que acciones se quieren llevar a cabo cuando se encuentre el comienzo de un elemento. En el ejemplo se quiere capturar el isbn del libro.

         def startElement(self,etiqueta,atributos):
             self.Datos=etiqueta
             if etiqueta=="Libro":
                print "****Libro****"
                isbn=atributos["isbn"]
                print "isbn:", isbn```
            
   * El método __endElement__.Se indica que acciones se quieren llevar a cabo cuando se encuentre el final de un elemento. En el ejemplo se quiere imprimir el nombre del elemento, y el valor que contenía.

         def endElement(self,etiqueta):
            if self.Datos=="titulo":
               print "Titulo:", self.titulo
            elif self.Datos=="fecha":
               print "Fecha:",self.fecha
            elif self.Datos=="autor":
               print "Autor:", self.autor
            self.Datos=""
          
   * El método __characters__. Se indica que acciones se quieren llevar cuando se encuentre contenido textual que forma parte de un elemento.En el ejemplo se quiere almacenar dicho contenido en un atributo de la clase que luego será imprimido por pantalla.

          def characters(self,contenido):
             if self.Datos=="titulo":
              self.titulo=contenido
             elif self.Datos=="fecha":
              self.fecha=contenido
             elif self.Datos=="autor":
              self.autor=contenido

La clase completa sería:

In [None]:
import xml.sax
class ManejadorCatalogo (xml.sax.ContentHandler):
    def __init__(self):
        self.Datos=""
        self.titulo=""
        self.fecha=""
        self.autor=""
        
    def startElement(self,etiqueta,atributos):
        self.Datos=etiqueta
        if etiqueta=="Libro":
            print ("****Libro****")
            isbn=atributos["isbn"]
            print ("isbn:", isbn)
            
    def endElement(self,etiqueta):
        if self.Datos=="titulo":
            print ("Titulo:", self.titulo)
        elif self.Datos=="fecha":
            print ("Fecha:",self.fecha)
        elif self.Datos=="autor":
            print ("Autor:", self.autor)
        self.Datos=""

    def characters(self,contenido):
        if self.Datos=="titulo":
            self.titulo=contenido
        elif self.Datos=="fecha":
            self.fecha=contenido
        elif self.Datos=="autor":
            self.autor=contenido

Una vez que se tiene definida la clase, se puede llevar a cabo el procesamiento:
* Se crea un objeto parser XML.
* Se configura el parser.
* Se fija el manejador de eventos.
* Se procesa el documento.


In [None]:
parser=xml.sax.make_parser()
parser.setFeature(xml.sax.handler.feature_namespaces,0)
Handler=ManejadorCatalogo()
parser.setContentHandler(Handler)
parser.parse("Catalogo.xml")

### DOM(Document Object Model)

Es una especificación que proporciona una API que representa los documentos como un árbol de objetos nodo en las que hay nodos con hijos y otros nodos sin hijos denominados nodos hoja. Toda la jerarquía de nodos se carga en memoria de forma que se pueda recorrer y acceder a los nodos comenzando desde la raíz.

Por ejemplo considerar el siguiente documento XML:

     <?xml version=“1.0” encoding=“UTF-16”?>
       <doc>
         <saludo> Hola <enfatico> estimados </enfatico> oyentes</saludo>
         <aplausos tipo=“sostenido”/>
       </doc>

Su procesamiento daría lugar a la siguiente jerarquía de nodos:

                                documento
                   |             |            |         
              Ins.Procesa   comentario     elemento
                                        |           |
                                    elemento    elemento
                                   |      |         |
                                 texto   texto   atributo
                                       |
                                    elemento
                                        |
                                    atributo

### Procesamiento DOM en Python

Para procesar un documento XML usando DOM se debe utilizar la librería __xml.dom.__  Esta librería permite crear un objeto minidom que dispone de un método que procesa un documento XML dado y genera un árbol __DOM__.

En primer lugar se abre el documento XML con el método __parse__ del objeto __minidom__  que proporciona un árbol __DOM__ del documento.A continuación, se puede empezar a recorrer el árbol. En primer lugar se accede a la raíz del árbol a través del atributo __documentElement.__

Desde la raíz del árbol se puede visitar utilizando un conjunto de métodos:
* __getElementsByTagName(Elemento)__: Devuelve una lista de todos los elementos que tienen el  nombre proporcionado.
* __getAttribute(Atributo)__: Devuelve el valor del atributo proporcionado como parámetro.
* __hasAttribute(Atributo)__: Indica si un elemento tiene el atributo proporcionado como parámetro.

Para acceder al contenido de cada elemento se utiliza el atributo data del objeto __childNodes__

Se va a realizar el procesamiento del documento XML de ejemplo usando DOM.

In [None]:
from xml.dom.minidom import parse
import xml.dom.minidom

ArbolDOM=xml.dom.minidom.parse("Catalogo.xml")
catalogo=ArbolDOM.documentElement
libros=catalogo.getElementsByTagName("Libro")
for libro in libros:
    print ("***Libro***")
    if libro.hasAttribute("isbn"):
        print ("isbn:",libro.getAttribute("isbn"))
    Titulo=libro.getElementsByTagName("titulo")[0]
    print ("Titulo:",Titulo.childNodes[0].data)
    Fecha=libro.getElementsByTagName("fecha")[0]
    print ("Fecha:",Fecha.childNodes[0].data)
    Autor=libro.getElementsByTagName("autor")[0]
    print ("Titulo:",Autor.childNodes[0].data)


### SAX VS DOM

* SAX es un procesador bastante eficiente que permite manejar documentos muy extensos en tiempo lineal y con una cantidad de memoria constante. Sin embargo requiere de un esfuerzo mayor por parte de los desarrolladores.
* DOM es más fácil de usar para los desarrolladores pero aumenta el coste de memoria y tiempo.
* Será mejor usar SAX cuando el documento a procesar no quepa en memoria o cuando las tareas son irrelevantes con respecto a la estructura del documento (contar el número de elementos, extraer contenido de un elemento determinado)



### Procesamiento XML con ElementTree

* Es una librería estándar para procesar y crear documentos XML con características similares a DOM dado que crea un árbol de objetos representado por la clase ElementTree. Sin embargo la navegación es más ligera con un estilo específico de Python.

* El árbol generado esta formado por  objetos “elemento” de tipo Element  donde cada uno de ellos dispone de un conjunto de atributos: nombre, diccionario de atributos, valor textual y secuencia de elementos hijo.

* Para procesar un documento basta abrir el documento con el método open() como si se tratara de un fichero y usar el método parse de ElementTree

In [1]:
from xml.etree import ElementTree
f=open("Catalogo.xml","rt")
arbol=ElementTree.parse(f)
print(arbol)

<xml.etree.ElementTree.ElementTree object at 0x000001B5115D4EB8>


Si se quiere visitar todo el árbol se usa el método iter() que crea un generador que itera sobre todos los nodos del árbol.


In [2]:
from xml.etree import ElementTree
f=open("Catalogo.xml","rt")
arbol=ElementTree.parse(f)
for nodo in arbol.iter():
    print(nodo.tag, nodo.attrib)

catalogo {}
Libro {'isbn': '0-596-00128-2'}
titulo {}
fecha {}
autor {}
Libro {'isbn': '0-596-15810-6'}
titulo {}
fecha {}
autor {}
Libro {'isbn': '0-596-15806-8'}
titulo {}
fecha {}
autor {}
Libro {'isbn': '0-596-15808-4'}
titulo {}
fecha {}
autor {}
Libro {'isbn': '0-596-00797-3'}
titulo {}
fecha {}
autor {}
Libro {'isbn': '0-596-10046-9'}
titulo {}
fecha {}
autor {}


Puede que se esté interesado sólo en determinados elementos del árbol, y no en todos. Para ello se pasa como parámetro del método iter() el nombre del elemento de interés.

In [4]:
from xml.etree import ElementTree
f=open("Catalogo.xml","rt")
arbol=ElementTree.parse(f)
i=1
for nodo in arbol.iter("Libro"):
    isbn=nodo.attrib.get("isbn")
    print(nodo.tag, i, " con isbn ", isbn)
    i=i+1

Libro 1  con isbn  0-596-00128-2
Libro 2  con isbn  0-596-15810-6
Libro 3  con isbn  0-596-15806-8
Libro 4  con isbn  0-596-15808-4
Libro 5  con isbn  0-596-00797-3
Libro 6  con isbn  0-596-10046-9


Otra posibilidad de iterar sobre los elementos del árbol es acceder a la raíz del árbol y desde ella iterar sobre los hijos.

In [5]:
import xml.etree.ElementTree as ET
arbol=ET.parse("Catalogo.xml")
raiz=arbol.getroot()
print(raiz.tag, " ", raiz.attrib)
for hijo in raiz:
    print(hijo.tag, " ", hijo.attrib)

catalogo   {}
Libro   {'isbn': '0-596-00128-2'}
Libro   {'isbn': '0-596-15810-6'}
Libro   {'isbn': '0-596-15806-8'}
Libro   {'isbn': '0-596-15808-4'}
Libro   {'isbn': '0-596-00797-3'}
Libro   {'isbn': '0-596-10046-9'}


También es posible acceder a los elementos de forma indexada.

In [6]:
import xml.etree.ElementTree as ET
arbol=ET.parse("Catalogo.xml")
raiz=arbol.getroot()
print("Titulo :",raiz[0][0].text)

Titulo : Python y XML


Existe otro conjunto de métodos que permiten recorrer el árbol tomando como argumento una expresión XPath que caracteriza al elemento que se está buscando:
  * find(): recupera el primer subelemento del elemento actual encajando con la descripción dada
  * findall(): recupera todos los subelementos del elemento actual encajando con la descripción dada
  * iterfind(): recupera todos los elementos encajando con la descripción dada.
  * text:  accede al contenido textual de un elemento
  * get(atributo): accede al atributo dado del elemento.

Se van a encontrar todos los títulos de los libros usando findall()

In [10]:
from xml.etree import ElementTree
f=open("Catalogo.xml","rt")
arbol=ElementTree.parse(f)
i=1
for nodo in arbol.findall("./Libro/titulo"):
    print("Titulo :",i, " ",nodo.text)
    i=i+1

Titulo : 1   Python y XML
Titulo : 2   Programacion avanzada de XML
Titulo : 3   Aprendiendo Java
Titulo : 4   Python para moviles
Titulo : 5   R para estadistica
Titulo : 6   Python en 100 paginas


Esta API permite realizar un procesamiento basado en eventos al estilo de SAX usando el método iterparse().

Genera eventos “start” en las aperturas de elemento y eventos “end” en los cierres de elemento. Además los datos pueden ser extraídos del documento durante la fase de parseo.

Se va a realizar un procesamiento similar al que se hizo con SAX:

In [14]:
from xml.etree.ElementTree import iterparse
for (event,element) in iterparse("Catalogo.xml",("start","end")):
    if event=="start":
        if element.tag=="Libro":
            print ("****Libro****")
            print ("isbn",element.attrib["isbn"])
    if event=="end":
        if element.tag=="titulo":
            print("Titulo :", element.text)
        if element.tag=="fecha":
            print("Fecha :", element.text)
        if element.tag=="autor":
            print("Autor :",element.text)

****Libro****
isbn 0-596-00128-2
Titulo : Python y XML
Fecha : Diciembre 2001
Autor : Pepito Perez
****Libro****
isbn 0-596-15810-6
Titulo : Programacion avanzada de XML
Fecha : Octoubre 2010
Autor : Juan Garcia
****Libro****
isbn 0-596-15806-8
Titulo : Aprendiendo Java
Fecha : Septiembre 2009
Autor : Juan Garcia
****Libro****
isbn 0-596-15808-4
Titulo : Python para moviles
Fecha : Octubre 2009
Autor : Pepito Perez
****Libro****
isbn 0-596-00797-3
Titulo : R para estadistica
Fecha : Marzo 2005
Autor : Juan, Pepe, Isabel
****Libro****
isbn 0-596-10046-9
Titulo : Python en 100 paginas
Fecha : Julio 2006
Autor : Julia


También es posible crear procesar cadenas que representan un documento XML usando el método fromstring que toma como argumento la cadena que representa el documento XML.

In [19]:
import xml.etree.ElementTree as ET
cadena='''
<catalogo>
  <Libro isbn="0-596-00128-2">
     <titulo>Python y XML</titulo>
     <fecha>Diciembre 2001</fecha>
     <autor>Pepito Perez</autor>
  </Libro>
</catalogo>
'''
doc=ET.fromstring(cadena)
lista=doc.findall("Libro")
for l in lista:
    print ("****Libro****")
    print ("isbn :", l.get("isbn"))
    print ("Titulo :", l.find("titulo").text)
    print ("Fecha :", l.find("fecha").text)
    print ("Autor :", l.find("autor").text)

****Libro****
isbn : 0-596-00128-2
Titulo : Python y XML
Fecha : Diciembre 2001
Autor : Pepito Perez


Otra posibilidad que ofrece la API es la modificación de un documento XML que ha sido leído:
* A nivel de elemento se puede cambiar el contenido cambiando el valor de Element.text, añadir o modificar atributos con el método Element.set(),  y añadir nuevos hijos con el método Element.append().
  
* A nivel de documento, se escribe el nuevo documento con el método ElementTree.write()

Se va a modificar el documento XML de ejemplo:

  * Se va añadir un nuevo atributo que indica el orden.
  
  * Se va añadir un nuevo elemento que indica la editorial.
  
  * Se va añadir un nuevo atributo que indica si hay ejemplares.

In [22]:
import xml.etree.ElementTree as ET
arbol=ET.parse("Catalogo.xml")
i=1
for libro in arbol.iter("Libro"):
    cadena=str(i)
    libro.set("orden", cadena)
    libro.set("ejemplares", "si")
    editorial=ET.Element("editorial")
    editorial.text="Anaya"
    libro.append(editorial)
    i=i+1

arbol.write("Catalogo2.xml")

In [25]:
from xml.etree.ElementTree import iterparse
for (event,element) in iterparse("Catalogo2.xml",("start","end")):
    if event=="start":
        if element.tag=="Libro":
            print ("****Libro****")
            print ("isbn :",element.attrib["isbn"])
            print ("orden :",element.attrib["orden"])
    if event=="end":
        if element.tag=="titulo":
            print("Titulo :", element.text)
        if element.tag=="fecha":
            print("Fecha :", element.text)
        if element.tag=="autor":
            print("Autor :",element.text)
        if element.tag=="editorial":
            print("Editorial :",element.text)

****Libro****
isbn : 0-596-00128-2
orden : 1
Titulo : Python y XML
Fecha : Diciembre 2001
Autor : Pepito Perez
Editorial : Anaya
****Libro****
isbn : 0-596-15810-6
orden : 2
Titulo : Programacion avanzada de XML
Fecha : Octoubre 2010
Autor : Juan Garcia
Editorial : Anaya
****Libro****
isbn : 0-596-15806-8
orden : 3
Titulo : Aprendiendo Java
Fecha : Septiembre 2009
Autor : Juan Garcia
Editorial : Anaya
****Libro****
isbn : 0-596-15808-4
orden : 4
Titulo : Python para moviles
Fecha : Octubre 2009
Autor : Pepito Perez
Editorial : Anaya
****Libro****
isbn : 0-596-00797-3
orden : 5
Titulo : R para estadistica
Fecha : Marzo 2005
Autor : Juan, Pepe, Isabel
Editorial : Anaya
****Libro****
isbn : 0-596-10046-9
orden : 6
Titulo : Python en 100 paginas
Fecha : Julio 2006
Autor : Julia
Editorial : Anaya


También es posible eliminar elementos con el método Element.remove(). Tomando como entrada la salida del ejemplo anterior se van a eliminar todos los elementos de tipo “Libro” que tengan un número de orden mayor que 3.


In [24]:
import xml.etree.ElementTree as ET
arbol=ET.parse("Catalogo2.xml")
raiz=arbol.getroot()
for libro in raiz.iter("Libro"):
    orden=int(libro.get("orden"))
    if orden==3:
        raiz.remove(libro)
arbol.write("Catalogo3.xml")

In [27]:
from xml.etree.ElementTree import iterparse
for (event,element) in iterparse("Catalogo3.xml",("start","end")):
    if event=="start":
        if element.tag=="Libro":
            print ("****Libro****")
            print ("isbn :",element.attrib["isbn"])
            print ("orden :",element.attrib["orden"])
    if event=="end":
        if element.tag=="titulo":
            print("Titulo :", element.text)
        if element.tag=="fecha":
            print("Fecha :", element.text)
        if element.tag=="autor":
            print("Autor :",element.text)
        if element.tag=="editorial":
            print("Editorial :",element.text)

****Libro****
isbn : 0-596-00128-2
orden : 1
Titulo : Python y XML
Fecha : Diciembre 2001
Autor : Pepito Perez
Editorial : Anaya
****Libro****
isbn : 0-596-15810-6
orden : 2
Titulo : Programacion avanzada de XML
Fecha : Octoubre 2010
Autor : Juan Garcia
Editorial : Anaya
****Libro****
isbn : 0-596-15808-4
orden : 4
Titulo : Python para moviles
Fecha : Octubre 2009
Autor : Pepito Perez
Editorial : Anaya
****Libro****
isbn : 0-596-00797-3
orden : 5
Titulo : R para estadistica
Fecha : Marzo 2005
Autor : Juan, Pepe, Isabel
Editorial : Anaya
****Libro****
isbn : 0-596-10046-9
orden : 6
Titulo : Python en 100 paginas
Fecha : Julio 2006
Autor : Julia
Editorial : Anaya


También es posible la creación de documentos XML desde cero. Para ello se disponen de los siguientes métodos en la clase Element:

  * Element(): Crea un elemento nuevo.
  
  * subElement(): Añade un nuevo elemento al padre.
  
  * comment(): Crea un nodo que serializa el contenido usando la sintaxis de XML.

En el siguiente ejemplo se va a crear un documento XML con información de un libro semejante a los ejemplos anteriores.

In [28]:
from xml.etree.ElementTree import Element, SubElement, Comment
from xml.etree import ElementTree
from xml.dom import minidom

def prettify(elem):
    """Return a pretty-printed XML string for the Element."""
    rough_string=ElementTree.tostring(elem,"utf-8")
    reparsed=minidom.parseString(rough_string)
    return reparsed.toprettyxml(indent="  ")

raiz=Element("Catalogo")
Libro=SubElement(raiz, "Libro")
Titulo=SubElement(Libro,"titulo")
Titulo.text="Python y XML"
Fecha=SubElement(Libro,"fecha")
Fecha.text="Diciembre 2001"
Autor=SubElement(Libro,"autor")
Autor.text="Pepito Perez"
print (prettify(raiz))
    

<?xml version="1.0" ?>
<Catalogo>
  <Libro>
    <titulo>Python y XML</titulo>
    <fecha>Diciembre 2001</fecha>
    <autor>Pepito Perez</autor>
  </Libro>
</Catalogo>



Observar que con a función definida prettify se consigue que las etiquetas del documento XML estén indentadas. Si no se usa se puede generar una cadena sin indentar.

In [29]:
from xml.etree.ElementTree import Element, SubElement, Comment, tostring
raiz=Element("Catalogo")
Libro=SubElement(raiz, "Libro")
Titulo=SubElement(Libro,"titulo")
Titulo.text="Python y XML"
Fecha=SubElement(Libro,"fecha")
Fecha.text="Diciembre 2001"
Autor=SubElement(Libro,"autor")
Autor.text="Pepito Perez"
print (tostring(raiz))
    

b'<Catalogo><Libro><titulo>Python y XML</titulo><fecha>Diciembre 2001</fecha><autor>Pepito Perez</autor></Libro></Catalogo>'


En el ejemplo anterior se han creado elementos con contenido pero en ningún caso se han añadido atributos. Para añadir atributos a un elemento que se está creando basta pasar como argumento del elemento o subelemento un diccionario con los atributos expresados en forma de parejas clave-valor.

Se va a modificar el código anterior para añadir atributos al elemento Libro. En concreto se va añadir el atributo isbn, orden y ejemplares.

In [46]:
from xml.etree.ElementTree import Element, SubElement, Comment, tostring
from xml.etree import ElementTree
from xml.dom import minidom

def prettify(elem):
    """Return a pretty-printed XML string for the Element."""
    rough_string=ElementTree.tostring(elem,"utf-8")
    reparsed=minidom.parseString(rough_string)
    return reparsed.toprettyxml(indent="  ")

raiz=Element("Catalogo")
raiz.set("version","1.0")
Libro=SubElement(raiz, "Libro",{"orden":"1","ejemplares":"si","isbn":"0-596-00128-2"})
Titulo=SubElement(Libro,"titulo")
Titulo.text="Python y XML"
Fecha=SubElement(Libro,"fecha")
Fecha.text="Diciembre 2001"
Autor=SubElement(Libro,"autor")
Autor.text="Pepito Perez"
print (prettify(raiz))

<?xml version="1.0" ?>
<Catalogo version="1.0">
  <Libro ejemplares="si" isbn="0-596-00128-2" orden="1">
    <titulo>Python y XML</titulo>
    <fecha>Diciembre 2001</fecha>
    <autor>Pepito Perez</autor>
  </Libro>
</Catalogo>



Se pueden añadir múltiples hijos a un elemento mediante el método extend() que recibe como argumento algo que sea iterable tal como una lista o bien otra instancia de Element. 

En el caso de una instancia de Element, los hijos del elemento dado se añaden como hijos del nuevo padre. Sin embargo el padre actual no es añadido.

Se va a reconstruir el ejemplo anterior pero usando extend sobre una cadena dada.


In [48]:
from xml.etree.ElementTree import Element, SubElement, XML
from xml.etree import ElementTree
from xml.dom import minidom

def prettify(elem):
    """Return a pretty-printed XML string for the Element."""
    rough_string=ElementTree.tostring(elem,"utf-8")
    reparsed=minidom.parseString(rough_string)
    return reparsed.toprettyxml(indent="  ")

raiz=Element("Catalogo")
raiz.set("version","1.0")
Libro=SubElement(raiz, "Libro",{"orden":"1","ejemplares":"si","isbn":"0-596-00128-2"})
hijos=XML("""<hijos><titulo>Python y XML</titulo><fecha>Diciembre 2001</fecha><autor>Pepito Pérez</autor></hijos>""")
Libro.extend(hijos)
print (prettify(raiz))

<?xml version="1.0" ?>
<Catalogo version="1.0">
  <Libro ejemplares="si" isbn="0-596-00128-2" orden="1">
    <titulo>Python y XML</titulo>
    <fecha>Diciembre 2001</fecha>
    <autor>Pepito Pérez</autor>
  </Libro>
</Catalogo>



También se podría haber construido pasando una lista

In [2]:
from xml.etree.ElementTree import Element, SubElement, Comment, tostring
from xml.etree import ElementTree
from xml.dom import minidom

def prettify(elem):
    """Return a pretty-printed XML string for the Element."""
    rough_string=ElementTree.tostring(elem,"utf-8")
    reparsed=minidom.parseString(rough_string)
    return reparsed.toprettyxml(indent="  ")

raiz=Element("Catalogo")
raiz.set("version","1.0")
Libro=SubElement(raiz, "Libro",{"orden":"1","ejemplares":"si","isbn":"0-596-00128-2"})
Titulo=Element("titulo")
Titulo.text="Python y XML"
Fecha=Element("fecha")
Fecha.text="Diciembre 2001"
Autor=Element("autor")
Autor.text="Pepito Perez"
Hijos=[Titulo, Fecha, Autor]
Libro.extend(Hijos)
print (prettify(raiz))

<?xml version="1.0" ?>
<Catalogo version="1.0">
  <Libro ejemplares="si" isbn="0-596-00128-2" orden="1">
    <titulo>Python y XML</titulo>
    <fecha>Diciembre 2001</fecha>
    <autor>Pepito Perez</autor>
  </Libro>
</Catalogo>



En el ejemplo anterior se ha visto que el documento XML resultante se ha mostrado como una cadena. Sin embargo en otros contextos en los que se maneja documentos XML muy grandes, interesa guardarlo en un archivo. En estos casos se usará el método write de ElementTree.

Se va a realizar el mismo ejemplo de antes pero ahora el resultado se almacenará en un archivo.

In [3]:
from xml.etree.ElementTree import Element, SubElement, ElementTree

raiz=Element("Catalogo")
raiz.set("version","1.0")
Libro=SubElement(raiz, "Libro",{"orden":"1","ejemplares":"si","isbn":"0-596-00128-2"})
Titulo=Element("titulo")
Titulo.text="Python y XML"
Fecha=Element("fecha")
Fecha.text="Diciembre 2001"
Autor=Element("autor")
Autor.text="Pepito Perez"
Hijos=[Titulo, Fecha, Autor]
Libro.extend(Hijos)
ElementTree(raiz).write("Ejemplo.xml")

El método write() de ElementTree tiene un segundo argumento que sirve para controlar que se hace con elementos que son vacíos. Existen tres posibilidades según el valor de dicho argumento:

* xml: Genera un elemento vacío con una sola etiqueta

* html: Genera un elemento vacío con dos etiquetas.

* text: Imprime solo elementos con contenido, el resto se los salta.


Siguiendo con el ejemplo anterior se va añadir un elemento vacío y se van a probar los tres argumentos.

In [4]:
from xml.etree.ElementTree import Element, SubElement, Comment, tostring
from xml.etree import ElementTree
from xml.dom import minidom

def prettify(elem):
    """Return a pretty-printed XML string for the Element."""
    rough_string=ElementTree.tostring(elem,"utf-8")
    reparsed=minidom.parseString(rough_string)
    return reparsed.toprettyxml(indent="  ")

raiz=Element("Catalogo")
raiz.set("version","1.0")
Libro=SubElement(raiz, "Libro",{"orden":"1","ejemplares":"si","isbn":"0-596-00128-2"})
Titulo=Element("titulo")
Titulo.text="Python y XML"
Fecha=Element("fecha")
Fecha.text="Diciembre 2001"
Autor=Element("autor")
Autor.text="Pepito Perez"
Hijos=[Titulo, Fecha, Autor]
Libro.extend(Hijos)
ElementVacio=SubElement(Libro,"vacio")
print (prettify(raiz))

<?xml version="1.0" ?>
<Catalogo version="1.0">
  <Libro ejemplares="si" isbn="0-596-00128-2" orden="1">
    <titulo>Python y XML</titulo>
    <fecha>Diciembre 2001</fecha>
    <autor>Pepito Perez</autor>
    <vacio/>
  </Libro>
</Catalogo>



In [6]:
import sys
from xml.etree.ElementTree import Element, SubElement, ElementTree

raiz=Element("Catalogo")
raiz.set("version","1.0")
Libro=SubElement(raiz, "Libro",{"orden":"1","ejemplares":"si","isbn":"0-596-00128-2"})
Titulo=Element("titulo")
Titulo.text="Python y XML"
Fecha=Element("fecha")
Fecha.text="Diciembre 2001"
Autor=Element("autor")
Autor.text="Pepito Perez"
Hijos=[Titulo, Fecha, Autor]
Libro.extend(Hijos)
ElementVacio=SubElement(Libro,"vacio")
for metodo in ["xml","html","text"]:
    print(metodo)
    ElementTree(raiz).write(sys.stdout,method=metodo)
    print ("\n")

xml
<Catalogo version="1.0"><Libro ejemplares="si" isbn="0-596-00128-2" orden="1"><titulo>Python y XML</titulo><fecha>Diciembre 2001</fecha><autor>Pepito Perez</autor><vacio /></Libro></Catalogo>

html
<Catalogo version="1.0"><Libro ejemplares="si" isbn="0-596-00128-2" orden="1"><titulo>Python y XML</titulo><fecha>Diciembre 2001</fecha><autor>Pepito Perez</autor><vacio></vacio></Libro></Catalogo>

text
Python y XMLDiciembre 2001Pepito Perez

