# Archivo XML
Un XML está compuesto de tags y atributos. Es posible leer desde un archivo local o a través de una URL mediante librerías como `urllib`.

In [1]:
import xml.etree.ElementTree as ET
tree = ET.parse('ejemplo.xml')
root = tree.getroot()
root

<Element 'data' at 0x000001CB87173BD0>

Dentro de root, hay n elementos, considerados como los *children* de root. Cada elemento del XML tiene un *tag* y varios atributos en formato clave-valor.

In [5]:
for child in root:
    print(child)
    print(child.tag)
    print(child.attrib)
    print(child.attrib.get('name'))
    print()

<Element 'country' at 0x000001CB871ABF90>
country
{'name': 'Liechtenstein'}
Liechtenstein

<Element 'country' at 0x000001CB871ED450>
country
{'name': 'Singapore'}
Singapore

<Element 'country' at 0x000001CB871FDDB0>
country
{'name': 'Panama'}
Panama



Para obtener los children de cada línea:

In [6]:
for node in root.iter():
    print(node.tag)

data
country
rank
year
gdppc
neighbor
neighbor
country
rank
year
gdppc
neighbor
country
rank
year
gdppc
neighbor
neighbor


Los elementos van ordenados, por lo que podremos acceder a los mismos mediante su orden.

Si queremos acceder a lo que hay dentro de los tags: `.text`. Devuelve un String, aunque estemos hablando de un número.

In [10]:
print(root[0][1])
print(root[0][1].text)
print(type(root[0][1].text))

<Element 'year' at 0x000001CB871CBDB0>
2008
<class 'str'>


Para iterar sobre unos elementos concretos. Podría haber atributos que se llamen igual en diferentes puntos del XML, y quizá ese no es el comportamiento que deseamos. Para filtrar los que nos interesan, usaremos expresiones XPath.

In [11]:
for neighbor in root.iter('neighbor'):
    print(neighbor.attrib)

{'name': 'Austria', 'direction': 'E'}
{'name': 'Switzerland', 'direction': 'W'}
{'name': 'Malaysia', 'direction': 'N'}
{'name': 'Costa Rica', 'direction': 'W'}
{'name': 'Colombia', 'direction': 'E'}


1. `find` para buscar un tag dentro de todo el árbol, incluidos sus hijos.
2. `iter` para buscar un tag en un árbol concreto, no en sus hijos.
3. `get` para conseguir el valor de un atributo.

In [12]:
for country in root.findall('country'):
    rank = country.find('rank').text
    neighbor = country.find('neighbor').text
    print(rank, neighbor)

1 None
4 None
68 None


También podríamos modificarlo

In [13]:
for rank in root.iter('rank'):
    new_rank = int(rank.text) + 1
    rank.text = str(new_rank)
    rank.set('updated', 'yes')

In [16]:
for country in root.findall('country'):
    rank = country.find('rank').text 
    name = country.find('rank').get('updated') 
    print(name, rank)

yes 2
yes 5
yes 69


O eliminar elementos

In [None]:
for country in root.findall('country'):
    rank = int(country.find('rank').text)
    if rank > 50:
        root.remove(country)

Cada elemento que encuentra `findall()` o `iter()` es un `Element`, sobre el que podemos acceder a sus datos gracias a atributos como como `tag` o `attrib`.

Acceso mediante XPath. Ya que la estructura de los XML es un árbol de tags, podremos acceder a los elementos mediante la ruta relativa de los tags.

In [17]:
root.findall("./country/neighbor")

[<Element 'neighbor' at 0x000001CB871E7180>,
 <Element 'neighbor' at 0x000001CB871ED3B0>,
 <Element 'neighbor' at 0x000001CB871FDD60>,
 <Element 'neighbor' at 0x000001CB871FDEF0>,
 <Element 'neighbor' at 0x000001CB871FDF40>]

# XML con RSS
RSS es una manera que tienen las páginas web de publicar su contenido. En este caso no es un HTML, ni un CSS como se hace habitualmente, sino que será un XML, con un árbol de tags y distinta información. Páginas que utilizan esto son periódicos, foros o blogs. Permite acceder a los titulares de noticias, tanto de las generales, como de las secciones del periódico, de tal manera que puedas monitorizarlos en una aplicación. Los datos son abiertos y el formato de publicación es XML.

En nuestro caso vamos a desarrollar un programa mediante el que recogeremos el RSS del periódico *El Pais* y montaremos una tabla con las principales noticias.

In [19]:
from urllib.request import urlopen
from xml.etree.ElementTree import parse

var_url = urlopen('http://ep00.epimg.net/rss/tags/ultimas_noticias.xml')
xmldoc = parse(var_url)
xmldoc

<xml.etree.ElementTree.ElementTree at 0x1cb87178d90>

Enlaces documentación

https://docs.python.org/3/library/xml.etree.elementtree.html

https://rico-schmidt.name/pymotw-3/xml.etree.ElementTree/parse.html