[![imagenes/pythonista.png](imagenes/pythonista.png)](https://pythonista.io)

## El estándar XML.

XML es el acrónimo de "Extensible Markup Language" que se puede traducir como Lenguaje Extensible de Marcadores y corresponde a un estándar general para serializar datos de diversas índoles de forma estructurada.
El estándar de XML fue publicado en 1996 por el W3C y se utiliza de forma intensiva para definir estructuras de datos.

A un documento XML se le conoce como *Elemento* y contiene estructuras de datos basada en contenidos delimitados por marcadores (markups). Dichos marcadores corresponden a etiquetas (tags) que indican el principio y el fin de la estructura que delimitan.

## El paquete *xml.etree.ElementTree*

El paquete *xml* forma parte de la Biblioteca Estándar de Python y contiene a su vez  una serie de paquetes y módulos especializados en la gestión y manipulación de documentos estrcuturados.

El paquete *xml.etree.ElementTree*, se especializa en documentos XML y contiene diversas clases y funciones que se pueden utilizar para tal propósito.

https://docs.python.org/3/library/xml.html

In [None]:
import xml.etree.ElementTree as ET

In [None]:
dir(ET)

### La clase * Element*.
El módulo *xml.etree.elementree* contiene a la clase *Element*, la cual permite inspeccionar un documento XML mediante el el acceso a sus métodos y atributos, así como el indexado de sus elementos.

## Documento de ejemplo.

El documento localizado en [data/cursos.xml](data/cursos.xml) contiene el siguiente código:

``` xml
<?xml version="1.0"?>
<data>
    <curso clave="py101" nombre="Introducción a la Programación con Python 3">
        <requiere />
        <categoria>Introductorio</categoria>
        <version>2018</version>
        <url>https://pythonista.mx/cursos/py101</url>
        <tema orden="1" nombre="Introducción al lenguaje Python" />
        <tema orden="2" nombre="Palabras reservadas y espacio de nombres" />
        <tema orden="3" nombre="Expresiones y declaraciones" />
        <tema orden="4" nombre="Números, cadenas de caracteres, tipos y operadores" />
        <tema orden="5"  nombre="Orientación a objetos e introspección" />
        <tema orden="6" nombre="Entrada y salida estándar" />
        <tema orden="7" nombre="Bloques, comentarios y condicionales" />
        <tema orden="8" nombre="Ciclos, iteraciones e interrupciones de ejecución" />
        <tema orden="9" nombre="Objetos tipo list y tipo tuple" />
        <tema orden="10" nombre="Objetos tipo dict" />
        <tema orden="11" nombre="Objetos tipo str" />
        <tema orden="12" nombre="Objetos tipo set y frozenset" />
        <tema orden="13" nombre="Funciones" />
        <tema orden="14" nombre="Gestión de excepiones" />
        <tema orden="15" nombre="Iteradores y generadores" />
        <tema orden="16" nombre="Completado de elementos" />
        <tema orden="17" nombre="Entrada y salida de archivos" />
        <tema orden="18" nombre="Módulos y paquetes" />
        <tema orden="19" nombre="Gestión de módulos y paquetes con pip" />
        <tema orden="20" nombre="Creación de paquetes con setuptools" />
        <tema orden="21" nombre="Entornos virtuales" />
    </curso>
    <curso clave="py111" nombre="Introducción a la programación orientada a objetos con Python 3">
        <requiere clave="py101"/>
        <categoria>Introductorio</categoria>
        <version>2018</version>
        <url>"https://pythonista.mx/cursos/py111"</url>
        <tema orden="1" nombre="Clases e instancias" />
        <tema orden="2" nombre="Atributos y métodos" />
        <tema orden="3" nombre="Atributos y métodos especiales" />
        <tema orden="4" nombre="Interfaces, implementaciones y encapsulamientos" />
        <tema orden="5" nombre="Propiedades" />
        <tema orden="6" nombre="Métodos estáticos y de clase" />
        <tema orden="7" nombre="Herencias" />
        <tema orden="8" nombre="Mixins" />
        <tema orden="9" nombre="Clases abstractas" />
        <tema orden="10" nombre="Creación de excepciones personalizadas" />
        <tema orden="11" nombre="Persistencia de objetos" />      
    </curso>
    <curso clave="py121" nombre="Introducción a manejo de datos con Python">
        <requiere clave="py101"/>
        <requiere clave="py111"/>
        <categoria>Introductorio</categoria>
        <version>2018</version>
        <url>"https://pythonista.mx/cursos/py121"</url>
        <tema orden="1" nombre="Documentos separados por comas (CSV)" />
        <tema orden="2" nombre="Gestión de estructura basadas en JSON" />
        <tema orden="3" nombre="Análisis de redes sociales con la API de Twitter" />
        <tema orden="4" nombre="Análisis de transacciones HTTP con Requests"/>
        <tema orden="5" nombre="Análisis de HTML con Beautifulsoup" />
        <tema orden="6" nombre="Expresiones regulares" />
        <tema orden="7" nombre="XML y texto estructurado" />
        <tema orden="8" nombre="Adquisición de contenido web con Scrapy" />
        <tema orden="9" nombre="Escritura y lectura de hojas de cáculo en Excel" />
        <tema orden="10" nombre="Escritura y lectura de documentos PDF" />
        <tema orden="11" nombre="Introducción a gestión de datos en MongoDB" />
        <tema orden="12" nombre="Introducción a gestión de bases de datos SQL" />
        <tema orden="13" nombre="Introducción al ORM SQLAlchemy" />  
    </curso>
</data>
```

## Adqusición de XML a partir de una cadena de caracteres.

``` python
Elementtree.fromstring()
```

## Adquisición de XML a partir de un archivo.

### Lectura de un archivo XML.

``` python
Elementtree.parse('<ruta>')
```

### Creación de un objeto *Element* a partir del archivo.

```
<objeto resultante de Elementtree.parse>.getroot()
```

**Ejemplo:**

In [None]:
%pwd

In [None]:
cursos = ET.parse("/opt/pythonista/py121/data/cursos.xml")

In [None]:
raiz = cursos.getroot()

In [None]:
help(raiz)

In [None]:
dir(raiz)

In [None]:
raiz.tag

#### Acceso a atributos.

In [None]:
for hijo in raiz:
    print(hijo.tag, hijo.attrib)

#### Acceso al contenido de los atributos.

In [None]:
for hijo in raiz:
    print(hijo.tag, hijo.attrib['clave'])

Los elementos dentro del objeto "Element" son indexables.

In [None]:
raiz[0][4]

In [None]:
raiz[0][4].attrib

In [None]:
print(raiz[0][1].text)

In [None]:
raiz[0][1]

### Búsqueda mediante XPath.
XPath permite realizar búsquedas dentro de un elemento XML de forma similar a como se busca en la ruta de un sistema de archivos mediante expresiones.

Puede conocer más sobre la especificaciónde XPath en https://www.w3.org/TR/xpath/.

El módulo *Elementtree* cuenta con soporte limitado para las expresiones de XPath. Puede consultar dichasd expresiones en https://docs.python.org/3/library/xml.etree.elementtree.html#xpath-support

**Ejemplo:**

In [None]:
raiz.findall('./curso')

In [None]:
raiz.findall('./curso/url')

In [None]:
raiz.findall('./curso/url')[1].text

In [None]:
for dato in raiz.findall('curso[@clave]'):
    print(dato.attrib['clave'])

In [None]:
raiz.findall('curso[@clave="py121"]')

In [None]:
raiz.findall('curso[@clave="py121"]')[0].attrib

In [None]:
raiz.find('curso/tema[@nombre="Persistencia de objetos"]')

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2019.</p>