# Archivo XML
Un XML está compuesto de tags y atributos. Es posible leer desde un archivo local o a través de una URL mediante librerías como `urllib`.

<class 'xml.etree.ElementTree.ElementTree'>


<Element 'data' at 0x000002310DB55AE8>

Dentro de root, hay n elementos, considerados como los *children* de root. Cada elemento del XML tiene un *tag* y varios atributos en formato clave-valor.

country
{'name': 'Liechtenstein'}
Liechtenstein

country
{'name': 'Singapore'}
Singapore

country
{'name': 'Panama'}
Panama



Para obtener los children de cada línea:

data
country
rank
year
gdppc
neighbor
neighbor
country
rank
year
gdppc
neighbor
country
rank
year
gdppc
neighbor
neighbor


Los elementos van ordenados, por lo que podremos acceder a los mismos mediante su orden.

Si queremos acceder a lo que hay dentro de los tags: `.text`. Devuelve un String, aunque estemos hablando de un número.

<Element 'year' at 0x000002310DB873B8>
2008


Para iterar sobre unos elementos concretos. Podría haber atributos que se llamen igual en diferentes puntos del XML, y quizá ese no es el comportamiento que deseamos. Podemos filtrar los que nos interesan usando expresiones XPath.

<class 'xml.etree.ElementTree.Element'>
{'name': 'Austria', 'direction': 'E'}
Austria
<class 'xml.etree.ElementTree.Element'>
{'name': 'Switzerland', 'direction': 'W'}
Switzerland
<class 'xml.etree.ElementTree.Element'>
{'name': 'Malaysia', 'direction': 'N'}
Malaysia
<class 'xml.etree.ElementTree.Element'>
{'name': 'Costa Rica', 'direction': 'W'}
Costa Rica
<class 'xml.etree.ElementTree.Element'>
{'name': 'Colombia', 'direction': 'E'}
Colombia


1. `find` para buscar un tag dentro del árbol inmediato, y no de sus hijos.
2. `iter` para buscar un tag dentro de todo un árbol, incluidos sus hijos.
3. `get` para conseguir el valor de un atributo.

Liechtenstein None 1
Singapore None 4
Panama None 68


También podríamos modificarlo

Liechtenstein 2
Singapore 5
Panama 69


O eliminar elementos

Para escribir los datos en un nuevo XML

In [11]:
tree.write('output.xml')

Cada elemento que encuentra `findall()` o `iter()` es un `Element`, sobre el que podemos acceder a sus datos gracias a atributos como como `tag` o `attrib`.

Acceso mediante XPath. Ya que la estructura de los XML es un árbol de tags, podremos acceder a los elementos mediante la ruta relativa de los tags.

In [12]:
print(root.findall('./country/neighbor'))

[<Element 'neighbor' at 0x000002310DB8C908>, <Element 'neighbor' at 0x000002310DB8C958>, <Element 'neighbor' at 0x000002310DB8CAE8>]


# XML con RSS
RSS es una manera que tienen las páginas web de publicar su contenido. En este caso no es un HTML, ni un CSS como se hace habitualmente, sino que será un XML, con un árbol de tags y distinta información. Páginas que utilizan esto son periódicos, foros o blogs. Permite acceder a los titulares de noticias, tanto de las generales, como de las secciones del periódico, de tal manera que puedas monitorizarlos en una aplicación. Los datos son abiertos y el formato de publicación es XML.

En nuestro caso vamos a desarrollar un programa mediante el que recogeremos el RSS del periódico *El Pais* y montaremos una tabla con las principales noticias.

In [13]:
from urllib.request import urlopen
from xml.etree.ElementTree import parse

var_url = urlopen('http://ep00.epimg.net/rss/tags/ultimas_noticias.xml')
xmldoc = parse(var_url)

for item in xmldoc.findall('./channel/item'):
    title = item.findtext('title')
    date = item.findtext('pubDate')
    link = item.findtext('link')
    
    print(title, date, link)

24 horas en Baños de la Encina, la seducción de uno de los pueblos más bonitos de Jaén Tue, 24 May 2022 12:40:22 +0200 https://elpais.com/elviajero/2022/05/23/actualidad/1653303200_918181.html#?ref=rss&format=simple&link=link
Los peces de los acuarios europeos nacen en el Amazonas Mon, 23 May 2022 08:45:35 +0200 https://elpais.com/elpais/2022/05/17/album/1652804355_327310.html#?ref=rss&format=simple&link=link


Enlaces documentación

https://docs.python.org/3/library/xml.etree.elementtree.html

https://rico-schmidt.name/pymotw-3/xml.etree.ElementTree/parse.html