# Ejemplo de manejo de archivos XML

### Módulo ElementTree.

Python nos proporciona el módulo ElementTree para tratar información en formato XML. Este módulo nos ayuda a dar formato a los datos XML en una estructura de árbol. El tipo element permite el almacenamiento de estructuras de datos jerárquicos en la memoria. Dispone de las propiedades:

El primer paso para trabajar con ficheros XML pasa por importar el módulo ElementTree.

In [2]:
import xml.etree.ElementTree as ET

> ET es un alias comúnmente utilizado para ElementTree

Los ficheros XML suelen llevar la extensión .xml, pero podremos tratar ficheros con otras extensiones siempre que tengan el formato XML. Un fichero con estructura XML puede ser el que hemos llamado paises.xml y que emplearemos en los ejemplos siguientes. A continuación por razones de claridad mostramos el contenido de un archivo llamado paises.csv

![image.png](attachment:09e24e35-8963-4c40-b62c-54506c17b0ab.png)

Mientras que un archivo con el mismo contenido pero en formato XML se ve así:

![image.png](attachment:c6b9ee0b-aa25-40fd-a736-3eb1717d0829.png)

### Procesar un XML

Vamos a procesar el fichero indicado recorriéndolo de diferentes formas y recuperando elementos y atributos. Primero recorreremos todos los nodos del árbol.

In [3]:
import xml.etree.ElementTree as ET
arbol = ET.parse('/work/paises.xml')
raiz = arbol.getroot()
for nodos in raiz:
    for nodo in nodos:
        print(nodo.tag, nodo.text, nodo.attrib)

nombre España {'prefijo': '34'}
capital Madrid {}
nombre Finlandia {'prefijo': '358'}
capital Helsinki {}
nombre Francia {'prefijo': '33'}
capital París {}
nombre Grecia {'prefijo': '30'}
capital Atenas {}
nombre Portugal {'prefijo': '351'}
capital Lisboa {}


Obtenemos un objeto raiz del tipo ElementTree correspondiente al fichero y con él la raíz del árbol. Empleando la raíz como iterador recorremos los nodos del árbol. Como nuestro fichero dispone de dos niveles desde la raíz empleamos un bucle anidado para recorrer todos los nodos. Visualizamos todas las marcas, texto y atributos si los hubiera.

Crearemos ahora una lista de diccionarios por cada nivel con las etiquetas y su contenido.

In [4]:
# trabajamos con el árbol cargado previamente
paises = []
for nodos in raiz.iter('pais'):
    pais = {}
    for nodo in nodos:
        pais[nodo.tag] = nodo.text
        paises.append(pais)

In [5]:
paises

[{'nombre': 'España', 'capital': 'Madrid'},
 {'nombre': 'España', 'capital': 'Madrid'},
 {'nombre': 'Finlandia', 'capital': 'Helsinki'},
 {'nombre': 'Finlandia', 'capital': 'Helsinki'},
 {'nombre': 'Francia', 'capital': 'París'},
 {'nombre': 'Francia', 'capital': 'París'},
 {'nombre': 'Grecia', 'capital': 'Atenas'},
 {'nombre': 'Grecia', 'capital': 'Atenas'},
 {'nombre': 'Portugal', 'capital': 'Lisboa'},
 {'nombre': 'Portugal', 'capital': 'Lisboa'}]

Recorrer todo un árbol para buscar una determinada información puede ser un trabajo excesivo, sobre todo cuando podemos realizar una búsqueda centrándonos en todos los nodos que correspondan a una etiqueta. Vamos a buscar en las etiquetas <pais>, y para cada etiqueta <nombre> visualizaremos su contenido y el atributo.

In [6]:
# trabajamos con el árbol cargado previamente
for nodos in raiz.findall('pais'):
    nodo = nodos.find('nombre')
    print(f"{nodo.text} : {nodo.attrib.get('prefijo')}")


España : 34
Finlandia : 358
Francia : 33
Grecia : 30
Portugal : 351


Realizamos ahora un proceso similar al anterior, ajustando la ruta (XPath) en la búsqueda para obtener con un bucle todos los atributos (solo hay uno en nuestro fichero de ejemplo) de la etiqueta <nombre>.

In [7]:
# trabajamos con el árbol cargado previamente
nodos = arbol.findall('./pais/nombre')
for nodo in nodos:
    for nombre, valor in nodo.attrib.items():
        print(f'{nombre} = {valor}')

prefijo = 34
prefijo = 358
prefijo = 33
prefijo = 30
prefijo = 351


Afinamos más aún la búsqueda para obtener el nodo que contiene el prefijo 34.

In [8]:
# trabajamos con el árbol cargado previamente
for nodo in raiz.findall("./pais/nombre/[@prefijo='34']"):
    print(nodo.text, nodo.attrib)

España {'prefijo': '34'}


Además de obtener datos de los nodos, tanto del contenido como de los atributos, podemos modificar la información almacenada en el árbol. El árbol modificado lo guardaremos en un fichero .xml con el método write().

In [9]:
# trabajamos con el árbol cargado previamente

# modificar el contenido
for nodo in raiz.iter('nombre'):
    nodo.attrib['prefijo'] = '+' + nodo.attrib['prefijo']
    if nodo.text == 'Finlandia':
        nodo.text = 'Suomi-Finland'

arbol.write('/work/paises2.xml', encoding='UTF-8')

El contenido el fichero paises2.xml resultante es:

### Crear un XML

Vamos a crear un árbol XML con la información de país, capital y prefijo siguiente:

Austria,Viena,43
Bélgica,Bruselas,32

Crearemos un nodo raíz a partir del cual colgaremos los distintos niveles con la información correspondiente.

In [10]:
import xml.etree.ElementTree as ET
# creamos el nodo raíz
raiz = ET.Element('paises')
# creamos el siguiente nivel asociado al nodo 'raiz'
nodo = ET.SubElement(raiz, 'pais')
# creamos cada nodo descediente asociado a 'nodo'
ET.SubElement(nodo, 'nombre', prefijo='43').text = 'Austria'
ET.SubElement(nodo, 'capital').text = 'Viena'
# referenciamos el árbol completo
arbol = ET.ElementTree(raiz)
# grabamos el árbol en el fichero XML
arbol.write('/work/paises3.xml', encoding='UTF-8')

Creamos el nodo raíz con la función Element().

Después creamos un elemento nuevo dentro de la raiz con la función SubElement().

Para agregar nodos nuevos usamos nuevamente SubElement(). Podemos obtenener una referencia para asignar una cadena de texto al nodo, o bien podemos hacerlo directamente empleando la propiedad text.

Una vez que terminamos de agregar nodos al documento XML obtenemos una referencia al documento completo con ElementTree(). Y con la función write() grabamos el fichero XML.

In [13]:
p = open('/work/paises3.xml')
p.read()

'<paises><País><nombre prefijo="49">Alemania</nombre><capital>Berlín</capital></País><País><nombre prefijo="43">Austria</nombre><capital>Viena</capital></País><País><nombre prefijo="32">Bélgica</nombre><capital>Bruselas</capital></País><País><nombre prefijo="45">Dinamarca</nombre><capital>Copenhague</capital></País><País><nombre prefijo="34">España</nombre><capital>Madrid</capital></País><País><nombre prefijo="358">Finlandia</nombre><capital>Helsinki</capital></País><País><nombre prefijo="33">Francia</nombre><capital>París</capital></País><País><nombre prefijo="30">Grecia</nombre><capital>Atenas</capital></País><País><nombre prefijo="351">Portugal</nombre><capital>Lisboa</capital></País><País><nombre prefijo="46">Suecia</nombre><capital>Estocolmo</capital></País></paises>'

In [14]:
p.close()

Como lo normal no es crear arboles tan reducidos y, además, la información nos puede llegar por diversas vías vamos a ver cómo crear un fichero XML a partir de la información contenida en un fichero CSV. Para crear un fichero XML a partir de otra fuente, como es un fichero CSV, se hace lo siguiente:

In [12]:
import xml.etree.ElementTree as ET
import csv
with open('/work/paises.csv', 'r') as csv_file:
    csv_reader = csv.DictReader(csv_file, delimiter=',')
    raiz = ET.Element('paises')
    for fila in csv_reader:
        nodo = ET.SubElement(raiz, 'País')
        ET.SubElement(nodo, 'nombre', prefijo=fila["Prefijo"]).text = fila["País"]
        ET.SubElement(nodo, 'capital').text = fila["Capital"]
    arbol = ET.ElementTree(raiz)
    arbol.write('/work/paises3.xml', encoding='UTF-8')

Abrimos el fichero CSV y cargamos el iterable para recorrer sus elementos.

Preparamos el nodo raíz del árbol y con un bucle recorremos las filas del fichero CSV y vamos creando cada nodo del árbol e incluyendo sus marcas con la información del fichero CSV.

Cuando terminamos de agregar todos los nodos, obtenemos una referencia al documento completo con ElementTree(). Y con la función write() grabamos el fichero XML.

El fichero que obtenemos contiene la secuencia XML que hemos creado:

In [15]:
p3 = open('/work/paises3.xml')
p3.read()

'<paises><País><nombre prefijo="49">Alemania</nombre><capital>Berlín</capital></País><País><nombre prefijo="43">Austria</nombre><capital>Viena</capital></País><País><nombre prefijo="32">Bélgica</nombre><capital>Bruselas</capital></País><País><nombre prefijo="45">Dinamarca</nombre><capital>Copenhague</capital></País><País><nombre prefijo="34">España</nombre><capital>Madrid</capital></País><País><nombre prefijo="358">Finlandia</nombre><capital>Helsinki</capital></País><País><nombre prefijo="33">Francia</nombre><capital>París</capital></País><País><nombre prefijo="30">Grecia</nombre><capital>Atenas</capital></País><País><nombre prefijo="351">Portugal</nombre><capital>Lisboa</capital></País><País><nombre prefijo="46">Suecia</nombre><capital>Estocolmo</capital></País></paises>'

In [16]:
p3.close()

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=a3bc9df5-e57b-40cb-ad67-f08cef3ec87f' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>