Fundamentos de XML para Python utilizando ElementTree
Aprende cómo puedes analizar, explorar, modificar y poblar archivos XML con el paquete ElementTree de Python, utilizando bucles for y expresiones XPath.

Como científico de datos, descubrirás que entender XML es poderoso tanto para el web scraping como para prácticas generales en el análisis de documentos estructurados.

En este tutorial, cubrirás los siguientes temas:

Aprenderás más sobre XML y te introducirás al paquete ElementTree.
Luego, descubrirás cómo puedes explorar árboles XML para entender mejor los datos con los que estás trabajando, utilizando funciones de ElementTree, bucles for y expresiones XPath.
Después, aprenderás cómo modificar un archivo XML; Y
Utilizarás expresiones XPath para poblar archivos XML.

¿Qué es XML?
XML significa "Lenguaje de Marcado Extensible". Se utiliza principalmente en páginas web, donde los datos tienen una estructura específica y son interpretados dinámicamente por el framework XML.

XML crea una estructura en forma de árbol que es fácil de interpretar y soporta una jerarquía. Cuando una página sigue el formato XML, se la puede llamar documento XML.

Los documentos XML tienen secciones llamadas elementos, definidas por una etiqueta de inicio y una etiqueta de fin. Una etiqueta es una construcción de marcado que comienza con < y termina con >. Los caracteres entre la etiqueta de inicio y la etiqueta de fin, si los hay, son el contenido del elemento. Los elementos pueden contener marcado, incluidos otros elementos, que se llaman "elementos hijos".
El elemento más grande y de nivel superior se llama la raíz, que contiene todos los demás elementos.
Los atributos son pares de nombre y valor que existen dentro de una etiqueta de inicio o de una etiqueta de elemento vacío. Un atributo XML solo puede tener un único valor y cada atributo puede aparecer como máximo una vez en cada elemento.
Para entender esto mejor, echa un vistazo al siguiente archivo XML (abreviado):

```
<?xml version="1.0"?>
<collection>
	<genre category="Action">
		<decade years="1980s">
			<movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
				<format multiple="No">DVD</format>
				<year>1981</year>
				<rating>PG</rating>
				<description>
				'Archaeologist and adventurer Indiana Jones 
				is hired by the U.S. government to find the Ark of the 
				Covenant before the Nazis.'
				</description>
			</movie>
		   	<movie favorite="True" title="THE KARATE KID">
			   <format multiple="Yes">DVD,Online</format>
			   <year>1984</year>
			   <rating>PG</rating>
			   <description>None provided.</description>
			</movie>
			<movie favorite="False" title="Back 2 the Future">
			   <format multiple="False">Blu-ray</format>
			   <year>1985</year>
			   <rating>PG</rating>
			   <description>Marty McFly</description>
			</movie>
		</decade>
		<decade years="1990s">
			<movie favorite="False" title="X-Men">
			   <format multiple="Yes">dvd, digital</format>
			   <year>2000</year>
			   <rating>PG-13</rating>
			   <description>Two mutants come to a private academy for their kind whose resident superhero team must 
			   oppose a terrorist organization with similar powers.</description>
			</movie>
			<movie favorite="True" title="Batman Returns">
			   <format multiple="No">VHS</format>
			   <year>1992</year>
			   <rating>PG13</rating>
			   <description>NA.</description>
			</movie>
		   	<movie favorite="False" title="Reservoir Dogs">
			   <format multiple="No">Online</format>
			   <year>1992</year>
			   <rating>R</rating>
			   <description>WhAtEvER I Want!!!?!</description>
			</movie>
		</decade>	
	</genre>
	
	<genre category="Thriller">
		<decade years="1970s">
			<movie favorite="False" title="ALIEN">
				<format multiple="Yes">DVD</format>
				<year>1979</year>
				<rating>R</rating>
				<description>"""""""""</description>
			</movie>
		</decade>
		<decade years="1980s">
			<movie favorite="True" title="Ferris Bueller's Day Off">
				<format multiple="No">DVD</format>
				<year>1986</year>
				<rating>PG13</rating>
				<description>Funny movie about a funny guy</description>
			</movie>
			<movie favorite="FALSE" title="American Psycho">
				<format multiple="No">blue-ray</format>
				<year>2000</year>
				<rating>Unrated</rating>
				<description>psychopathic Bateman</description>
			</movie>
		</decade>
	</genre>
```

Desde lo que has leído anteriormente, puedes observar que:

<collection> es el único elemento raíz: contiene todos los otros elementos, como <genre> o <movie>, que son los elementos hijos o subelementos. Como puedes ver, estos elementos están anidados.
Nota que estos elementos hijos también pueden actuar como padres y contener sus propios elementos hijos, que entonces se llaman "subelementos".

Verás que, por ejemplo, el elemento <movie> contiene un par de "atributos", como favorite y title, ¡que proporcionan aún más información!
Con esta breve introducción a los archivos XML en mente, ¡estás listo para aprender más sobre ElementTree!

## Introducción a ElementTree
La estructura de árbol XML hace que la navegación, modificación y eliminación sean relativamente simples desde el punto de vista programático. Python tiene una biblioteca incorporada, ElementTree, que tiene funciones para leer y manipular XML (y otros archivos estructurados de manera similar).

Primero, importa ElementTree. Es una práctica común utilizar el alias ET:








In [30]:
import xml.etree.ElementTree as ET

## Análisis de Datos XML
En el archivo XML proporcionado, hay una colección básica de películas descritas. ¡El único problema es que los datos están desorganizados! Ha habido muchos curadores diferentes de esta colección y cada uno tiene su propia manera de ingresar datos en el archivo. El objetivo principal de este tutorial será leer y entender el archivo con Python, y luego solucionar los problemas.

Primero, necesitas leer el archivo con ElementTree.

In [None]:
tree = ET.parse('data/movies.xml')
root = tree.getroot()

FileNotFoundError: [Errno 2] No such file or directory: 'data/movies.xml'

Ahora que has inicializado el árbol, deberías examinar el XML e imprimir los valores para entender cómo está estructurado el árbol.

Cada parte de un árbol (incluida la raíz) tiene una etiqueta que describe el elemento. Además, como has visto en la introducción, los elementos pueden tener atributos, que son descriptores adicionales utilizados especialmente para el uso repetido de etiquetas. Los atributos también ayudan a validar los valores ingresados para esa etiqueta, contribuyendo una vez más al formato estructurado de un XML.

Verás más adelante en este tutorial que los atributos pueden ser bastante poderosos cuando se incluyen en un XML.

In [None]:
root.tag

En el nivel superior, puedes ver que este XML tiene como raíz la etiqueta collection.

In [None]:
root.attrib

Entonces, la raíz no tiene atributos.








## Bucles For
Puedes iterar fácilmente sobre los subelementos (comúnmente llamados "hijos") en la raíz utilizando un simple bucle "for".

In [None]:
for child in root:
    print(child.tag, child.attrib)

NameError: name 'root' is not defined

Ahora sabes que los hijos de la raíz collection son todos elementos genre. Para designar el género, el XML utiliza el atributo category. Hay películas de Acción, Thriller y Comedia según el elemento genre.

Normalmente es útil conocer todos los elementos en todo el árbol. Una función útil para hacer eso es root.iter(). Puedes colocar esta función dentro de un bucle "for" y recorrerá todo el árbol.

In [None]:
[elem.tag for elem in root.iter()]

NameError: name 'root' is not defined

Esto proporciona una noción general de cuántos elementos tienes, pero no muestra los atributos ni los niveles en el árbol.

Hay una manera útil de ver todo el documento. Cualquier elemento tiene un método .tostring(). Si pasas la raíz al método .tostring(), puedes obtener todo el documento. Dentro de ElementTree (recordando que está aliado como ET), .tostring() toma una forma ligeramente peculiar.

Dado que ElementTree es una biblioteca poderosa que puede interpretar más que solo XML, debes especificar tanto la codificación como la decodificación del documento que estás mostrando como cadena. Para XMLs, utiliza 'utf8', que es el tipo de formato típico de documento para un XML.








In [None]:
print(ET.tostring(root, encoding='utf8').decode('utf8'))

<?xml version='1.0' encoding='utf8'?>
<collection>
	<genre category="Action">
		<decade years="1980s">
			<movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
				<format multiple="No">DVD</format>
				<year>1981</year>
				<rating>PG</rating>
				<description>
				'Archaeologist and adventurer Indiana Jones 
				is hired by the U.S. government to find the Ark of the 
				Covenant before the Nazis.'
				</description>
			</movie>
		   	<movie favorite="True" title="THE KARATE KID">
			   <format multiple="Yes">DVD,Online</format>
			   <year>1984</year>
			   <rating>PG</rating>
			   <description>None provided.</description>
			</movie>
			<movie favorite="False" title="Back 2 the Future">
			   <format multiple="False">Blu-ray</format>
			   <year>1985</year>
			   <rating>PG</rating>
			   <description>Marty McFly</description>
...
			</movie>
		</decade>
	</genre>
</collection>
Output is truncated. View as a scrollable element or open in a text editor. Adjust cell output settings...


Puedes ampliar el uso de la función iter() para ayudar a encontrar elementos particulares de interés. root.iter() listará todos los subelementos bajo la raíz que coincidan con el elemento especificado. Aquí listarás todos los atributos del elemento movie en el árbol:

In [None]:
for movie in root.iter('movie'):
    print(movie.attrib)

Ya puedes ver cómo las películas han sido ingresadas de diferentes maneras. No te preocupes por eso por ahora, tendrás la oportunidad de corregir uno de los errores más adelante en este tutorial.

Expresiones XPath
Muchas veces los elementos no tendrán atributos, solo tendrán contenido de texto. Usando el atributo .text, puedes imprimir este contenido.

Ahora, imprime todas las descripciones de las películas.

In [None]:
for description in root.iter('description'):
    print(description.text)

Imprimir el XML es útil, pero XPath es un lenguaje de consulta utilizado para buscar rápidamente y de manera fácil a través de un XML. XPath significa Lenguaje de Ruta XML y utiliza, como sugiere su nombre, una sintaxis "tipo ruta" para identificar y navegar nodos en un documento XML.

Entender XPath es crucial para escanear y poblar XMLs. ElementTree tiene una función .findall() que recorrerá los hijos inmediatos del elemento referenciado. Puedes usar expresiones XPath para especificar búsquedas más útiles.

Aquí, buscarás en el árbol las películas que salieron en 1992:

In [None]:
for movie in root.findall("./genre/decade/movie/[year='1992']"):
    print(movie.attrib)

La función .findall() siempre comienza en el elemento especificado. Este tipo de función es extremadamente poderosa para "buscar y reemplazar". ¡Incluso puedes buscar en atributos!

Ahora, imprime solo las películas que están disponibles en múltiples formatos (un atributo).

In [None]:
for movie in root.findall("./genre/decade/movie/format/[@multiple='Yes']"):
    print(movie.attrib)

Reflexiona sobre por qué, en este caso, la instrucción de impresión devuelve los valores "Yes" de multiple. Piensa en cómo está definido el bucle "for". ¿Podrías reescribir este bucle para imprimir los títulos de las películas en su lugar? Inténtalo a continuación:

Consejo: utiliza '...' dentro de XPath para devolver el elemento padre del elemento actual.

In [None]:
for movie in root.findall("./genre/decade/movie/format[@multiple='Yes']..."):
    print(movie.attrib)

Corrige el '2' en Back 2 the Future. Eso debería ser un problema de búsqueda y reemplazo. Escribe código para encontrar el título 'Back 2 the Future' y guardarlo en una variable:








In [None]:
b2tf = root.find("./genre/decade/movie[@title='Back 2 the Future']")
print(b2tf)

Observa que usar el método .find() devuelve un elemento del árbol. La mayor parte del tiempo, es más útil editar el contenido dentro de un elemento.

Modifica el atributo title de la variable del elemento Back 2 the Future para que diga "Back to the Future". Luego, imprime los atributos de tu variable para ver el cambio. Puedes hacer esto fácilmente accediendo al atributo de un elemento y luego asignándole un nuevo valor:

In [None]:
b2tf.attrib["title"] = "Back to the Future"
print(b2tf.attrib)

Escribe tus cambios de vuelta al XML para que se corrijan permanentemente en el documento. Imprime nuevamente los atributos de las películas para asegurarte de que los cambios hayan funcionado. Utiliza el método .write() para hacer esto:

In [None]:
tree.write("movies.xml")

tree = ET.parse('movies.xml')
root = tree.getroot()

for movie in root.iter('movie'):
    print(movie.attrib)

## Corrigiendo Atributos
El atributo multiple es incorrecto en algunos lugares. Usa ElementTree para corregir el indicador basado en cuántos formatos tiene la película. Primero, imprime el atributo format y el texto para ver qué partes necesitan ser corregidas.

In [None]:
for form in root.findall("./genre/decade/movie/format"):
    print(form.attrib, form.text)

Hay trabajo que hacer en esta etiqueta.

Puedes usar expresiones regulares para encontrar comas, lo que te dirá si el atributo multiple debe ser "Yes" o "No". Añadir y modificar atributos se puede hacer fácilmente con el método .set().

Nota: re es el intérprete estándar de expresiones regulares para Python. Si quieres saber más sobre expresiones regulares, considera este tutorial.[this tutorial](https://www.datacamp.com/community/tutorials/python-regular-expression-tutorial).

In [None]:
import re

for form in root.findall("./genre/decade/movie/format"):
    # Search for the commas in the format text
    match = re.search(',',form.text)
    if match:
        form.set('multiple','Yes')
    else:
        form.set('multiple','No')

# Write out the tree to the file again
tree.write("movies.xml")

tree = ET.parse('movies.xml')
root = tree.getroot()

for form in root.findall("./genre/decade/movie/format"):
    print(form.attrib, form.text)

## Moviendo Elementos
Algunos datos se han colocado en la década incorrecta. Usa lo que has aprendido sobre XML y ElementTree para encontrar y corregir los errores en los datos de la década.

Será útil imprimir tanto las etiquetas decade como las etiquetas year en todo el documento.

In [None]:
for decade in root.findall("./genre/decade"):
    print(decade.attrib)
    for year in decade.findall("./movie/year"):
        print(year.text, '\n')

Los dos años que están en la década incorrecta son las películas de los años 2000. Descubre cuáles son esas películas utilizando una expresión XPath.

In [None]:
for movie in root.findall("./genre/decade/movie/[year='2000']"):
    print(movie.attrib)

Debes añadir una nueva etiqueta de década, los años 2000, al género de Acción para mover los datos de X-Men. El método .SubElement() se puede utilizar para añadir esta etiqueta al final del XML.

In [None]:
action = root.find("./genre[@category='Action']")
new_dec = ET.SubElement(action, 'decade')
new_dec.attrib["years"] = '2000s'

print(ET.tostring(action, encoding='utf8').decode('utf8'))

<?xml version='1.0' encoding='utf8'?>
<genre category="Action">
		<decade years="1980s">
			<movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
				<format multiple="No">DVD</format>
				<year>1981</year>
				<rating>PG</rating>
				<description>
				'Archaeologist and adventurer Indiana Jones 
				is hired by the U.S. government to find the Ark of the 
				Covenant before the Nazis.'
				</description>
			</movie>
		   	<movie favorite="True" title="THE KARATE KID">
			   <format multiple="Yes">DVD,Online</format>
			   <year>1984</year>
			   <rating>PG</rating>
			   <description>None provided.</description>
			</movie>
			<movie favorite="False" title="Back to the Future">
			   <format multiple="No">Blu-ray</format>
			   <year>1985</year>
			   <rating>PG</rating>
			   <description>Marty McFly</description>
			</movie>
...
		</decade>	
	<decade years="2000s" /></genre>
	
	
Output is truncated. View as a scrollable element or open in a text editor. Adjust cell output settings...

Ahora agrega la película X-Men a los años 2000 y elimínala de los años 1990, utilizando .append() y .remove() respectivamente

In [None]:
xmen = root.find("./genre/decade/movie[@title='X-Men']")
dec2000s = root.find("./genre[@category='Action']/decade[@years='2000s']")
dec2000s.append(xmen)
dec1990s = root.find("./genre[@category='Action']/decade[@years='1990s']")
dec1990s.remove(xmen)

print(ET.tostring(action, encoding='utf8').decode('utf8'))

<?xml version='1.0' encoding='utf8'?>
<genre category="Action">
		<decade years="1980s">
			<movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
				<format multiple="No">DVD</format>
				<year>1981</year>
				<rating>PG</rating>
				<description>
				'Archaeologist and adventurer Indiana Jones 
				is hired by the U.S. government to find the Ark of the 
				Covenant before the Nazis.'
				</description>
			</movie>
		   	<movie favorite="True" title="THE KARATE KID">
			   <format multiple="Yes">DVD,Online</format>
			   <year>1984</year>
			   <rating>PG</rating>
			   <description>None provided.</description>
			</movie>
			<movie favorite="False" title="Back to the Future">
			   <format multiple="No">Blu-ray</format>
			   <year>1985</year>
			   <rating>PG</rating>
			   <description>Marty McFly</description>
			</movie>
...
			</movie>
			</decade></genre>
	
	
Output is truncated. View as a scrollable element or open in a text editor. Adjust cell output settings...

Construir Documentos XML
Genial, así que pudiste mover básicamente toda una película a una nueva década. Guarda tus cambios de nuevo en el XML.

In [None]:
tree.write("movies.xml")

tree = ET.parse('movies.xml')
root = tree.getroot()

print(ET.tostring(root, encoding='utf8').decode('utf8'

<?xml version='1.0' encoding='utf8'?>
<collection>
	<genre category="Action">
		<decade years="1980s">
			<movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
				<format multiple="No">DVD</format>
				<year>1981</year>
				<rating>PG</rating>
				<description>
				'Archaeologist and adventurer Indiana Jones 
				is hired by the U.S. government to find the Ark of the 
				Covenant before the Nazis.'
				</description>
			</movie>
		   	<movie favorite="True" title="THE KARATE KID">
			   <format multiple="Yes">DVD,Online</format>
			   <year>1984</year>
			   <rating>PG</rating>
			   <description>None provided.</description>
			</movie>
			<movie favorite="False" title="Back to the Future">
			   <format multiple="No">Blu-ray</format>
			   <year>1985</year>
			   <rating>PG</rating>
			   <description>Marty McFly</description>
...
			</movie>
		</decade>
	</genre>
</collection>
Output is truncated. View as a scrollable element or open in a text editor. Adjust cell output settings...

## Conclusion

Hay algunas cosas clave que recordar sobre XML y el uso de ElementTree.

Las etiquetas construyen la estructura del árbol y designan qué valores deben delimitarse allí. Usar una estructura inteligente puede hacer que sea fácil leer y escribir en un XML. Las etiquetas siempre necesitan paréntesis de apertura y cierre para mostrar las relaciones entre padres e hijos.

Los atributos describen aún más cómo validar una etiqueta o permitir designaciones booleanas. Los atributos suelen tomar valores muy específicos para que el analizador XML (y el usuario) puedan utilizar los atributos para verificar los valores de las etiquetas.

ElementTree es una biblioteca importante de Python que te permite analizar y navegar un documento XML. ElementTree descompone el documento XML en una estructura de árbol que es fácil de manejar. Cuando tengas dudas, imprímelo (print(ET.tostring(root, encoding='utf8').decode('utf8'))) - usa esta declaración de impresión útil para ver todo el documento XML de una vez. Esto ayuda a verificar al editar, agregar o eliminar elementos de un XML.

¡Ahora estás preparado para entender XML y comenzar a analizarlo!

*References:*

https://docs.python.org/3/library/xml.etree.elementtree.html
