# XML

## Read

In [1]:
import xml.dom.minidom

In [2]:
#Parseamos el archivo xml
raw_xml = xml.dom.minidom.parse('books.xml')
raw_xml

<xml.dom.minidom.Document at 0x7f8bf8008100>

In [3]:
#Generalmente en XML hay un elemento principal que abre y cierra el XML (en el ej. Catalog)
#Para poder procesarlo se usa la función __documentElement__

libros_object = raw_xml.documentElement
libros_object

<DOM Element: Catalog at 0x7f8c183e2790>

In [4]:
#El objeto DOM ha encontrado el elemento Catalog
#Ahora podremos iterar y procesar todos sus elementos o nodos
#En este caso, el elemento Book está bajo el elemento general Catalog
#Utilizaremos la función __getElementsByTagName(Nombre_Nodo)__

books = libros_object.getElementsByTagName('Book') # En lugar de utilizar “documentElement”, sw identifica a los diferentes elementos por el nombre de su etiqueta 
books

[<DOM Element: Book at 0x7f8c183e2af0>, <DOM Element: Book at 0x7f8bf80169d0>]

In [5]:
#Si atendemos a la lista capturada, tenemos dos objetos DOM en los que el elemento es Book
#Ahora, iteramos sobre el resto de elementos de cada libro
#Estamos realizando la misma operación de Catalog a Book que de Book a Autor
#Por lo tanto de nuevo utilizaremos __getElementsByTagName(Nombre_Nodo)__
#en este caso, para ir accediendo a cada campo, de forma iterativa con un bucle for

for item in books:
    Author = item.getElementsByTagName('Author')
    print(Author)

[<DOM Element: Author at 0x7f8bf8016670>]
[<DOM Element: Author at 0x7f8bf8016a60>]


In [6]:
#Como no hay más elementos sobre los que iterar
#si no que queremos acceder directamente al contenido,
#tenemos que acceder a los elementos de las listas DOM Element.
#Comprobamos que cada lista son de longitud 1

for item in books:
    print(len(item.getElementsByTagName('Author')))
    #Author = item.getElementsByTagName('Author')
    #print(Author)

1
1


In [7]:
#Las listas son indexables por [0]
#Si hubiera más elementos sobre Author, se crearía un nuevo bucle for para recorrer estos subelementos
#Sobre lista del elemento Author, para acceder al contenido, se usa la función __childNodes__ que devuelve una nueva lista

for item in books:
    Author = item.getElementsByTagName('Author')[0].childNodes
    print(Author)

[<DOM Text node "'Garghentin'...">]
[<DOM Text node "'Garcia, De'...">]


In [8]:
#De nuevo hemos obtenido una lista por cada autor de cada libro
#Comprobamos la longitud de estas listas

for item in books:
    print(len(item.getElementsByTagName('Author')[0].childNodes))

1
1


In [9]:
#De nuevo, hay solamente un autor, por lo tanto son indexables por [0]

for item in books:
    Author = item.getElementsByTagName('Author')[0].childNodes[0]
    print(Author)

<DOM Text node "'Garghentin'...">
<DOM Text node "'Garcia, De'...">


In [10]:
#Finalmente, estamos en un nodo conel atributo Text
#Para recuperar este texto, hacemos uso de la función __.data__

for item in books:
    Author = item.getElementsByTagName('Author')[0].childNodes[0].data
    print(Author)

Garghentini, Davide
Garcia, Debra


In [11]:
#Para comprender este código de una forma más sencilla, en lugar de obtener un ítem por línea
#se realizan nuevos bucles por si la longitud de las lista es diferente
#Para ello se reescribe el anterior código a lo siguiente:

for item in books:
    target = 'Autor'
    for tag in item.getElementsByTagName('Author'):
        for nodo in tag.childNodes:
            autor = nodo.data
            print(autor)

Garghentini, Davide
Garcia, Debra


In [12]:
#Finalmente, podemos mostrar toda la información del XML iterando sobre los nodos hijos
#del mismo modo que hemos realizado con el autor

for item in books:
    print('Procesando libro ...')
    
    Author = item.getElementsByTagName('Author')[0].childNodes[0].data
    Title = item.getElementsByTagName('Title')[0].childNodes[0].data
    Genre = item.getElementsByTagName('Genre')[0].childNodes[0].data
    Price = item.getElementsByTagName('Price')[0].childNodes[0].data
    PublishDate = item.getElementsByTagName('PublishDate')[0].childNodes[0].data
    Description = item.getElementsByTagName('Description')[0].childNodes[0].data
    
    print('\t * Autor: {} '.format(Author))
    print('\t * Título: {} '.format(Title))
    print('\t * Género: {} '.format(Genre))
    print('\t * Precio: {} '.format(Price))
    print('\t * Fecha publicación: {} '.format(PublishDate))
    print('\t * Descripción: {} '.format(Description))
    print('-'*25)

Procesando libro ...
	 * Autor: Garghentini, Davide 
	 * Título: XML Developer's Guide 
	 * Género: Computer 
	 * Precio: 44.95 
	 * Fecha publicación: 2000-10-01 
	 * Descripción: An in-depth look at creating applications
      with XML. 
-------------------------
Procesando libro ...
	 * Autor: Garcia, Debra 
	 * Título: Midnight Rain 
	 * Género: Fantasy 
	 * Precio: 5.95 
	 * Fecha publicación: 2000-12-16 
	 * Descripción: A former architect battles corporate zombies,
      an evil sorceress, and her own childhood to become queen
      of the world. 
-------------------------


In [13]:
#Análogamente utilizando más bucles para los índices 

for item in books:
    print('Procesando libro ...')
    
    target = ['Autor', 'Title', 'Genre', 'Price', 'PublishDate', 'Description']
    
    for elemento in target:
        # Iteramos por cada elemento
        for tag in item.getElementsByTagName(elemento):
            # Iteramos por cada tag name
            for nodo in tag.childNodes:
                # Iteramos por cada nodo
                final_data = nodo.data
                print('\t * {}: {} '.format(elemento, final_data))
    print('-'*25)

Procesando libro ...
	 * Title: XML Developer's Guide 
	 * Genre: Computer 
	 * Price: 44.95 
	 * PublishDate: 2000-10-01 
	 * Description: An in-depth look at creating applications
      with XML. 
-------------------------
Procesando libro ...
	 * Title: Midnight Rain 
	 * Genre: Fantasy 
	 * Price: 5.95 
	 * PublishDate: 2000-12-16 
	 * Description: A former architect battles corporate zombies,
      an evil sorceress, and her own childhood to become queen
      of the world. 
-------------------------
