# Archivo XML
Un XML está compuesto de tags y atributos. Es posible leer desde un archivo local o a través de una URL mediante librerías como `urllib`.

Dentro de root, hay n elementos, considerados como los *children* de root. Cada elemento del XML tiene un *tag* y varios atributos en formato clave-valor.

Para obtener los children de cada línea:

Los elementos van ordenados, por lo que podremos acceder a los mismos mediante su orden.

Si queremos acceder a lo que hay dentro de los tags: `.text`. Devuelve un String, aunque estemos hablando de un número.

Para iterar sobre unos elementos concretos. Podría haber atributos que se llamen igual en diferentes puntos del XML, y quizá ese no es el comportamiento que deseamos. Podemos filtrar los que nos interesan usando expresiones XPath.

1. `find` para buscar un tag dentro del árbol inmediato, y no de sus hijos.
2. `iter` para buscar un tag dentro de todo un árbol, incluidos sus hijos.
3. `get` para conseguir el valor de un atributo.

También podríamos modificarlo

In [None]:
for rank in root.iter('rank'):
    new_rank = int(rank.text) + 1
    rank.text = str(new_rank)
    rank.set('updated', 'yes')

In [None]:
for country in root.findall('country'):
    rank = country.find('rank').text 
    name = country.get('name') 
    print(name, rank)

O eliminar elementos

In [None]:
for country in root.findall('country'):
    rank = int(country.find('rank').text)
    if rank > 50:
        root.remove(country)

Para escribir los datos en un nuevo XML

Cada elemento que encuentra `findall()` o `iter()` es un `Element`, sobre el que podemos acceder a sus datos gracias a atributos como como `tag` o `attrib`.

Acceso mediante XPath. Ya que la estructura de los XML es un árbol de tags, podremos acceder a los elementos mediante la ruta relativa de los tags.

# XML con RSS
RSS es una manera que tienen las páginas web de publicar su contenido. En este caso no es un HTML, ni un CSS como se hace habitualmente, sino que será un XML, con un árbol de tags y distinta información. Páginas que utilizan esto son periódicos, foros o blogs. Permite acceder a los titulares de noticias, tanto de las generales, como de las secciones del periódico, de tal manera que puedas monitorizarlos en una aplicación. Los datos son abiertos y el formato de publicación es XML.

En nuestro caso vamos a desarrollar un programa mediante el que recogeremos el RSS del periódico *El Pais* y montaremos una tabla con las principales noticias.

In [None]:
from urllib.request import urlopen
from xml.etree.ElementTree import parse

var_url = urlopen('http://ep00.epimg.net/rss/tags/ultimas_noticias.xml')
xmldoc = parse(var_url)


Enlaces documentación

https://docs.python.org/3/library/xml.etree.elementtree.html

https://rico-schmidt.name/pymotw-3/xml.etree.ElementTree/parse.html