# Archivo XML
Un XML está compuesto de tags y atributos. Es posible leer desde un archivo local o a través de una URL mediante librerías como `urllib`.

In [6]:
import xml.etree.ElementTree as ET
tree = ET.parse('../data/ejemplo.xml')
root = tree.getroot()
root

<Element 'data' at 0x0000016253542728>

Dentro de root, hay n elementos, considerados como los *children* de root. Cada elemento del XML tiene un *tag* y varios atributos en formato clave-valor.

In [7]:
for child in root:
    print(child)
    print(child.tag) # Acceder a la clave
    print(child.attrib) # Es ek atributo
    print(child.attrib.keys())
    print(child.attrib.get('name'))
    print(child.getchildren())
    print("\n-------\n")

<Element 'country' at 0x0000016253542B38>
country
{'name': 'Liechtenstein'}
dict_keys(['name'])
Liechtenstein
[<Element 'rank' at 0x0000016253608C28>, <Element 'year' at 0x0000016253608638>, <Element 'gdppc' at 0x0000016253608D18>, <Element 'neighbor' at 0x000001625360B688>, <Element 'neighbor' at 0x000001625360BA48>]

-------

<Element 'country' at 0x000001625360B5E8>
country
{'name': 'Singapore'}
dict_keys(['name'])
Singapore
[<Element 'rank' at 0x0000016253706188>, <Element 'year' at 0x0000016253706098>, <Element 'gdppc' at 0x00000162537062C8>, <Element 'neighbor' at 0x00000162537061D8>]

-------

<Element 'country' at 0x0000016253706778>
country
{'name': 'Panama'}
dict_keys(['name'])
Panama
[<Element 'rank' at 0x0000016253706458>, <Element 'year' at 0x00000162537069A8>, <Element 'gdppc' at 0x00000162537068B8>, <Element 'neighbor' at 0x0000016253706C28>, <Element 'neighbor' at 0x0000016253706A98>]

-------



Para obtener los children de cada línea:

In [53]:
for node in root.iter():
    print(node.tag)

data
country
rank
year
gdppc
neighbor
neighbor
country
rank
year
gdppc
neighbor
country
rank
year
gdppc
neighbor
neighbor


Para iterar sobre unos elementos concretos. Podría haber atributos que se llamen igual en diferentes puntos del XML, y quizá ese no es el comportamiento que deseamos. Para filtrar los que nos interesan, usaremos expresiones XPath.

In [54]:
for neighbor in root.iter('neighbor'):
    print(neighbor.attrib)

{'name': 'Austria', 'direction': 'E'}
{'name': 'Switzerland', 'direction': 'W'}
{'name': 'Malaysia', 'direction': 'N'}
{'name': 'Costa Rica', 'direction': 'W'}
{'name': 'Colombia', 'direction': 'E'}


1. `find` para buscar un tag dentro de todo el árbol, incluidos sus hijos.
2. `iter` para buscar un tag en un árbol concreto, no en sus hijos.
3. `get` para conseguir el valor de un atributo.

In [4]:
for country in root.findall('country'):
    rank = country.find('rank').text
    neighbor = country.find('neighbor')
    print("rank:", rank)
    print("neighbor:", neighbor)
    print("neighbor.text:", neighbor.text) # no hay texto, es el valor que hay entre dos tag
    print("neighbor.attrib:", neighbor.attrib)
    print("\n#######\n")

rank: 1
neighbor: <Element 'neighbor' at 0x00000162521CEC78>
neighbor.text: None
neighbor.attrib: {'name': 'Austria', 'direction': 'E'}

#######

rank: 4
neighbor: <Element 'neighbor' at 0x00000162521CEE58>
neighbor.text: None
neighbor.attrib: {'name': 'Malaysia', 'direction': 'N'}

#######

rank: 68
neighbor: <Element 'neighbor' at 0x00000162521D1048>
neighbor.text: None
neighbor.attrib: {'name': 'Costa Rica', 'direction': 'W'}

#######



También podríamos modificarlo

In [5]:
for rank in root.iter('rank'):
    new_rank = 999
    rank.text = str(new_rank)  # Valor
    rank.set('updated', 'yes')  # Atributo

In [57]:
for country in root.findall('country'):
    rank = country.find('rank').text 
    name = country.find('rank').get('updated') 
    print(name, rank)

yes 999
yes 999
yes 999


O eliminar elementos

In [8]:
for country in root.findall('country'):
    rank = int(country.find('rank').text)
    if rank > 50:
        root.remove(country)

# XML con RSS
RSS es una manera que tienen las páginas web de publicar su contenido. En este caso no es un HTML, ni un CSS como se hace habitualmente, sino que será un XML, con un árbol de tags y distinta información. Páginas que utilizan esto son periódicos, foros o blogs. Permite acceder a los titulares de noticias, tanto de las generales, como de las secciones del periódico, de tal manera que puedas monitorizarlos en una aplicación. Los datos son abiertos y el formato de publicación es XML.

En nuestro caso vamos a desarrollar un programa mediante el que recogeremos el RSS del periódico *El Pais* y montaremos una tabla con las principales noticias.

In [9]:
from urllib.request import urlopen
from xml.etree.ElementTree import parse

var_url = urlopen('http://ep00.epimg.net/rss/tags/ultimas_noticias.xml')
xmldoc = parse(var_url)
xmldoc

<xml.etree.ElementTree.ElementTree at 0x162536a8988>

Enlaces documentación

https://docs.python.org/3/library/xml.etree.elementtree.html

https://rico-schmidt.name/pymotw-3/xml.etree.ElementTree/parse.html