# Fundamentos de XML para Python usando ElementTree
**Aprende cómo puedes analizar, explorar, modificar y poblar archivos XML con el paquete ElementTree de Python, bucles for y expresiones XPath.**

Como científico de datos, descubrirás que entender XML es poderoso tanto para la extracción de datos web como para la práctica general de análisis de documentos estructurados.

En este tutorial, cubrirás los siguientes temas:
- Aprenderás más sobre XML y serás introducido al paquete `ElementTree`.
- Luego, descubrirás cómo puedes explorar árboles XML para entender mejor los datos con los que estás trabajando con la ayuda de funciones de `ElementTree`, bucles for y expresiones XPath.
- A continuación, aprenderás cómo puedes modificar un archivo XML; y
- Utilizarás expresiones XPath para poblar archivos XML.

## ¿Qué es XML?

XML significa "Lenguaje de Marcado Extensible". Se utiliza principalmente en páginas web, donde los datos tienen una estructura específica y son comprendidos dinámicamente por el marco de trabajo XML.

XML crea una estructura en forma de árbol que es fácil de interpretar y soporta una jerarquía. Siempre que una página siga XML, se puede llamar un documento XML.
- Los documentos XML tienen secciones, llamadas *elementos*, definidas por una *etiqueta* de inicio y una de cierre. Una etiqueta es una construcción de marcado que comienza con `<` y termina con `>`. Los caracteres entre la etiqueta de inicio y la de cierre, si los hay, son el contenido del elemento. Los elementos pueden contener marcados, incluidos otros elementos, que se llaman "elementos hijos".
- El elemento más grande y de nivel superior se llama la *raíz*, que contiene todos los demás elementos.
- Los atributos son pares de nombre-valor que existen dentro de una etiqueta de inicio o una etiqueta de elemento vacío. Un atributo XML solo puede tener un valor y cada atributo puede aparecer como máximo una vez en cada elemento.

Para entender esto un poco mejor, echa un vistazo al siguiente archivo XML (abreviado):

```
<?xml version="1.0"?>
<collection>
	<genre category="Action">
		<decade years="1980s">
			<movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
				<format multiple="No">DVD</format>
				<year>1981</year>
				<rating>PG</rating>
				<description>
				'Archaeologist and adventurer Indiana Jones 
				is hired by the U.S. government to find the Ark of the 
				Covenant before the Nazis.'
				</description>
			</movie>
		   	<movie favorite="True" title="THE KARATE KID">
			   <format multiple="Yes">DVD,Online</format>
			   <year>1984</year>
			   <rating>PG</rating>
			   <description>None provided.</description>
			</movie>
			<movie favorite="False" title="Back 2 the Future">
			   <format multiple="False">Blu-ray</format>
			   <year>1985</year>
			   <rating>PG</rating>
			   <description>Marty McFly</description>
			</movie>
		</decade>
		<decade years="1990s">
			<movie favorite="False" title="X-Men">
			   <format multiple="Yes">dvd, digital</format>
			   <year>2000</year>
			   <rating>PG-13</rating>
			   <description>Two mutants come to a private academy for their kind whose resident superhero team must 
			   oppose a terrorist organization with similar powers.</description>
			</movie>
			<movie favorite="True" title="Batman Returns">
			   <format multiple="No">VHS</format>
			   <year>1992</year>
			   <rating>PG13</rating>
			   <description>NA.</description>
			</movie>
		   	<movie favorite="False" title="Reservoir Dogs">
			   <format multiple="No">Online</format>
			   <year>1992</year>
			   <rating>R</rating>
			   <description>WhAtEvER I Want!!!?!</description>
			</movie>
		</decade>	
	</genre>
	
	<genre category="Thriller">
		<decade years="1970s">
			<movie favorite="False" title="ALIEN">
				<format multiple="Yes">DVD</format>
				<year>1979</year>
				<rating>R</rating>
				<description>"""""""""</description>
			</movie>
		</decade>
		<decade years="1980s">
			<movie favorite="True" title="Ferris Bueller's Day Off">
				<format multiple="No">DVD</format>
				<year>1986</year>
				<rating>PG13</rating>
				<description>Funny movie about a funny guy</description>
			</movie>
			<movie favorite="FALSE" title="American Psycho">
				<format multiple="No">blue-ray</format>
				<year>2000</year>
				<rating>Unrated</rating>
				<description>psychopathic Bateman</description>
			</movie>
		</decade>
	</genre>
```

De lo que has leído arriba, puedes ver que
- `<collection>` es el único elemento raíz: contiene todos los demás elementos, como `<genre>` o `<movie>`, que son los elementos hijos o subelementos. Como puedes ver, estos elementos están anidados.

**Nota** que estos elementos hijos también pueden actuar como padres y contener sus propios elementos hijos, que luego se llaman "subelementos hijos".

- Verás que, por ejemplo, el elemento `<movie>` contiene un par de "atributos", como `favorite` y `title`, ¡que dan aún más información!

Con esta breve introducción a los archivos XML en mente, ¡estás listo para aprender más sobre `ElementTree`!

## Introducción a ElementTree

La estructura en árbol de XML hace que la navegación, modificación y eliminación sean relativamente simples programáticamente. Python tiene una biblioteca integrada, `ElementTree`, que tiene funciones para leer y manipular XML (y otros archivos con estructura similar).

Primero, importa `ElementTree`. Es una práctica común usar el alias `ET`:

In [2]:
import xml.etree.ElementTree as ET

## Analizando datos XML

En el archivo XML proporcionado, hay una colección básica de películas descritas. ¡El único problema es que los datos están desordenados! Ha habido muchos curadores diferentes de esta colección y cada uno tiene su propia manera de ingresar datos en el archivo. El objetivo principal de este tutorial será leer y comprender el archivo con Python, y luego solucionar los problemas.

Primero, necesitas leer el archivo con `ElementTree`.

In [5]:
import xml.etree.ElementTree as ET

tree = ET.parse('data/movies.xml')
root = tree.getroot()

Ahora que has inicializado el árbol, deberías mirar el XML e imprimir valores para entender cómo está estructurado el árbol.

Cada parte de un árbol (incluida la raíz) tiene una etiqueta que describe el elemento. Además, como has visto en la introducción, los elementos pueden tener atributos, que son descriptores adicionales, utilizados especialmente para el uso repetido de etiquetas. Los atributos también ayudan a validar los valores ingresados para esa etiqueta, contribuyendo nuevamente al formato estructurado de un XML.

Verás más adelante en este tutorial que los atributos pueden ser bastante poderosos cuando se incluyen en un XML.

In [4]:
root.tag

'collection'

A nivel superior, ves que este XML está enraizado en la etiqueta `collection`.

In [5]:
root.attrib

{}

Entonces, la raíz no tiene atributos.

### Bucles For

Puedes iterar fácilmente sobre los subelementos (comúnmente llamados "hijos") en la raíz utilizando un simple bucle "for".

In [6]:
for child in root:
    print(child.tag, child.attrib)

genre {'category': 'Action'}
genre {'category': 'Thriller'}
genre {'category': 'Comedy'}


Ahora sabes que los hijos de la raíz `collection` son todos `genre`. Para designar el género, el XML utiliza el atributo `category`. Hay películas de Acción, Thriller y Comedia según el elemento `genre`.

Normalmente es útil conocer todos los elementos en todo el árbol. Una función útil para hacer esto es `root.iter()`. Puedes colocar esta función dentro de un bucle "for" y iterará sobre todo el árbol.

In [6]:
[elem.tag for elem in root.iter()]

['collection',
 'genre',
 'decade',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'decade',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'genre',
 'decade',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'decade',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'genre',
 'decade',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'decade',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'decade',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'decade',
 'movie',
 'format',
 'year',
 'rating',
 'description']

Esto proporciona una noción general de cuántos elementos tienes, pero no muestra los atributos ni los niveles en el árbol.

Hay una manera útil de ver todo el documento. Cualquier elemento tiene un método `.tostring()`. Si pasas la raíz al método `.tostring()`, puedes obtener todo el documento. En `ElementTree` (recuerda que se utiliza el alias `ET`), `.tostring()` tiene una forma ligeramente peculiar.

Dado que `ElementTree` es una biblioteca poderosa que puede interpretar más que solo XML, debes especificar tanto la codificación como la decodificación del documento que estás mostrando como cadena. Para XMLs, usa `'utf8'` - este es el tipo de formato de documento típico para un XML.

In [8]:
print(ET.tostring(root, encoding='utf8').decode('utf8'))

<?xml version='1.0' encoding='utf8'?>
<collection>
	<genre category="Action">
		<decade years="1980s">
			<movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
				<format multiple="No">DVD</format>
				<year>1981</year>
				<rating>PG</rating>
				<description>
				'Archaeologist and adventurer Indiana Jones 
				is hired by the U.S. government to find the Ark of the 
				Covenant before the Nazis.'
				</description>
			</movie>
		   	<movie favorite="True" title="THE KARATE KID">
			   <format multiple="Yes">DVD,Online</format>
			   <year>1984</year>
			   <rating>PG</rating>
			   <description>None provided.</description>
			</movie>
			<movie favorite="False" title="Back 2 the Future">
			   <format multiple="False">Blu-ray</format>
			   <year>1985</year>
			   <rating>PG</rating>
			   <description>Marty McFly</description>
			</movie>
		</decade>
		<decade years="1990s">
			<movie favorite="False" title="X-Men">
			   <format multiple="Yes">dvd, digital</f

Puedes ampliar el uso de la función `iter()` para ayudar a encontrar elementos particulares de interés. `root.iter()` enumerará todos los subelementos bajo la raíz que coincidan con el elemento especificado. Aquí, listarás todos los atributos del elemento `movie` en el árbol:

In [9]:
for movie in root.iter('movie'):
    print(movie.attrib)

{'favorite': 'True', 'title': 'Indiana Jones: The raiders of the lost Ark'}
{'favorite': 'True', 'title': 'THE KARATE KID'}
{'favorite': 'False', 'title': 'Back 2 the Future'}
{'favorite': 'False', 'title': 'X-Men'}
{'favorite': 'True', 'title': 'Batman Returns'}
{'favorite': 'False', 'title': 'Reservoir Dogs'}
{'favorite': 'False', 'title': 'ALIEN'}
{'favorite': 'True', 'title': "Ferris Bueller's Day Off"}
{'favorite': 'FALSE', 'title': 'American Psycho'}
{'favorite': 'False', 'title': 'Batman: The Movie'}
{'favorite': 'True', 'title': 'Easy A'}
{'favorite': 'True', 'title': 'Dinner for SCHMUCKS'}
{'favorite': 'False', 'title': 'Ghostbusters'}
{'favorite': 'True', 'title': 'Robin Hood: Prince of Thieves'}


Ya puedes ver cómo se han introducido las películas de diferentes maneras. No te preocupes por eso por ahora, tendrás la oportunidad de corregir uno de los errores más adelante en este tutorial.

### Expresiones XPath

Muchas veces, los elementos no tendrán atributos, solo tendrán contenido de texto. Usando el atributo `.text`, puedes imprimir este contenido.

Ahora, imprime todas las descripciones de las películas.

In [10]:
for description in root.iter('description'):
    print(description.text)


				'Archaeologist and adventurer Indiana Jones 
				is hired by the U.S. government to find the Ark of the 
				Covenant before the Nazis.'
				
None provided.
Marty McFly
Two mutants come to a private academy for their kind whose resident superhero team must 
			   oppose a terrorist organization with similar powers.
NA.
WhAtEvER I Want!!!?!
"""""""""
Funny movie about a funny guy
psychopathic Bateman
What a joke!
Emma Stone = Hester Prynne
Tim (Rudd) is a rising executive
				 who “succeeds” in finding the perfect guest, 
				 IRS employee Barry (Carell), for his boss’ monthly event, 
				 a so-called “dinner for idiots,” which offers certain 
				 advantages to the exec who shows up with the biggest buffoon.
				 
Who ya gonna call?
Robin Hood slaying


Imprimir el XML es útil, pero XPath es un lenguaje de consulta utilizado para buscar rápidamente y fácilmente a través de un XML. XPath significa Lenguaje de Ruta XML y utiliza, como sugiere su nombre, una sintaxis "similar a una ruta" para identificar y navegar nodos en un documento XML.

Comprender XPath es crucial para escanear y poblar XMLs. `ElementTree` tiene una función `.findall()` que recorrerá los hijos inmediatos del elemento referenciado. Puedes usar expresiones XPath para especificar búsquedas más útiles.

Aquí, buscarás en el árbol las películas que salieron en 1992:

In [11]:
for movie in root.findall("./genre/decade/movie/[year='1992']"):
    print(movie.attrib)

{'favorite': 'True', 'title': 'Batman Returns'}
{'favorite': 'False', 'title': 'Reservoir Dogs'}


La función `.findall()` siempre comienza en el elemento especificado. Este tipo de función es extremadamente poderoso para realizar "buscar y reemplazar". ¡Incluso puedes buscar en atributos!

Ahora, imprime solo las películas que están disponibles en múltiples formatos (un atributo).

In [12]:
for movie in root.findall("./genre/decade/movie/format/[@multiple='Yes']"):
    print(movie.attrib)

{'multiple': 'Yes'}
{'multiple': 'Yes'}
{'multiple': 'Yes'}
{'multiple': 'Yes'}
{'multiple': 'Yes'}


Reflexiona sobre por qué, en este caso, la declaración de impresión devuelve los valores "Yes" de `multiple`. Piensa en cómo está definido el bucle "for". ¿Podrías reescribir este bucle para imprimir los títulos de las películas en su lugar? Inténtalo a continuación:

**Consejo**: utiliza `'...'` dentro de XPath para devolver el elemento padre del elemento actual.

In [13]:
for movie in root.findall("./genre/decade/movie/format[@multiple='Yes']..."):
    print(movie.attrib)

{'favorite': 'True', 'title': 'THE KARATE KID'}
{'favorite': 'False', 'title': 'X-Men'}
{'favorite': 'False', 'title': 'ALIEN'}
{'favorite': 'False', 'title': 'Batman: The Movie'}
{'favorite': 'True', 'title': 'Dinner for SCHMUCKS'}


## Modifying an XML

Anteriormente, los títulos de las películas eran un completo desastre. Ahora, imprímelos de nuevo:

In [14]:
for movie in root.iter('movie'):
    print(movie.attrib)

{'favorite': 'True', 'title': 'Indiana Jones: The raiders of the lost Ark'}
{'favorite': 'True', 'title': 'THE KARATE KID'}
{'favorite': 'False', 'title': 'Back 2 the Future'}
{'favorite': 'False', 'title': 'X-Men'}
{'favorite': 'True', 'title': 'Batman Returns'}
{'favorite': 'False', 'title': 'Reservoir Dogs'}
{'favorite': 'False', 'title': 'ALIEN'}
{'favorite': 'True', 'title': "Ferris Bueller's Day Off"}
{'favorite': 'FALSE', 'title': 'American Psycho'}
{'favorite': 'False', 'title': 'Batman: The Movie'}
{'favorite': 'True', 'title': 'Easy A'}
{'favorite': 'True', 'title': 'Dinner for SCHMUCKS'}
{'favorite': 'False', 'title': 'Ghostbusters'}
{'favorite': 'True', 'title': 'Robin Hood: Prince of Thieves'}


Fix the '2' in Back 2 the Future. That should be a find and replace problem. Write code to find the title 'Back 2 the Future' and save it as a variable:

In [15]:
b2tf = root.find("./genre/decade/movie[@title='Back 2 the Future']")
print(b2tf)

<Element 'movie' at 0x0000024C3DBF2AC0>


Observa que al usar el método `.find()` se devuelve un elemento del árbol. Muchas veces, es más útil editar el contenido dentro de un elemento.

Modifica el atributo `title` de la variable del elemento "Back 2 the Future" para que diga "Back to the Future". Luego, imprime los atributos de tu variable para ver el cambio. Puedes hacer esto fácilmente accediendo al atributo de un elemento y luego asignándole un nuevo valor:

In [16]:
b2tf.attrib["title"] = "Back to the Future"
print(b2tf.attrib)

{'favorite': 'False', 'title': 'Back to the Future'}


Escribe tus cambios de vuelta al XML para que se fijen permanentemente en el documento. Imprime nuevamente los atributos de las películas para asegurarte de que tus cambios hayan funcionado. Utiliza el método `.write()` para hacer esto:

In [16]:
tree.write("movies.xml")

tree = ET.parse('movies.xml')
root = tree.getroot()

for movie in root.iter('movie'):
    print(movie.attrib)

{'favorite': 'True', 'title': 'Indiana Jones: The raiders of the lost Ark'}
{'favorite': 'True', 'title': 'THE KARATE KID'}
{'favorite': 'False', 'title': 'Back 2 the Future'}
{'favorite': 'False', 'title': 'X-Men'}
{'favorite': 'True', 'title': 'Batman Returns'}
{'favorite': 'False', 'title': 'Reservoir Dogs'}
{'favorite': 'False', 'title': 'ALIEN'}
{'favorite': 'True', 'title': "Ferris Bueller's Day Off"}
{'favorite': 'FALSE', 'title': 'American Psycho'}
{'favorite': 'False', 'title': 'Batman: The Movie'}
{'favorite': 'True', 'title': 'Easy A'}
{'favorite': 'True', 'title': 'Dinner for SCHMUCKS'}
{'favorite': 'False', 'title': 'Ghostbusters'}
{'favorite': 'True', 'title': 'Robin Hood: Prince of Thieves'}


## Corrigiendo Atributos

El atributo `multiple` es incorrecto en algunos lugares. Usa `ElementTree` para corregir el indicador según la cantidad de formatos en los que viene la película. Primero, imprime el atributo `format` y el texto para ver qué partes necesitan ser corregidas.

In [17]:
for form in root.findall("./genre/decade/movie/format"):
    print(form.attrib, form.text)

{'multiple': 'No'} DVD
{'multiple': 'Yes'} DVD,Online
{'multiple': 'False'} Blu-ray
{'multiple': 'Yes'} dvd, digital
{'multiple': 'No'} VHS
{'multiple': 'No'} Online
{'multiple': 'Yes'} DVD
{'multiple': 'No'} DVD
{'multiple': 'No'} blue-ray
{'multiple': 'Yes'} DVD,VHS
{'multiple': 'No'} DVD
{'multiple': 'Yes'} DVD,digital,Netflix
{'multiple': 'No'} Online,VHS
{'multiple': 'No'} Blu_Ray


Hay algo de trabajo que necesita ser hecho en esta etiqueta.

Puedes usar expresiones regulares (regex) para encontrar comas; esto te indicará si el atributo `multiple` debería ser "Yes" o "No". Agregar y modificar atributos se puede hacer fácilmente con el método `.set()`.

**Nota**: `re` es el intérprete estándar de expresiones regulares para Python. Si deseas aprender más sobre expresiones regulares, considera [este tutorial](https://www.datacamp.com/community/tutorials/python-regular-expression-tutorial).

In [18]:
import re

for form in root.findall("./genre/decade/movie/format"):
    # Search for the commas in the format text
    match = re.search(',',form.text)
    if match:
        form.set('multiple','Yes')
    else:
        form.set('multiple','No')

# Write out the tree to the file again
tree.write("movies.xml")

tree = ET.parse('movies.xml')
root = tree.getroot()

for form in root.findall("./genre/decade/movie/format"):
    print(form.attrib, form.text)

{'multiple': 'No'} DVD
{'multiple': 'Yes'} DVD,Online
{'multiple': 'No'} Blu-ray
{'multiple': 'Yes'} dvd, digital
{'multiple': 'No'} VHS
{'multiple': 'No'} Online
{'multiple': 'No'} DVD
{'multiple': 'No'} DVD
{'multiple': 'No'} blue-ray
{'multiple': 'Yes'} DVD,VHS
{'multiple': 'No'} DVD
{'multiple': 'Yes'} DVD,digital,Netflix
{'multiple': 'Yes'} Online,VHS
{'multiple': 'No'} Blu_Ray


## Moviendo Elementos

Algunos de los datos se han colocado en la década incorrecta. Usa lo que has aprendido sobre XML y `ElementTree` para encontrar y corregir los errores de datos de década.

Será útil imprimir tanto las etiquetas `<decade>` como las etiquetas `<year>` en todo el documento.

In [19]:
for decade in root.findall("./genre/decade"):
    print(decade.attrib)
    for year in decade.findall("./movie/year"):
        print(year.text, '\n')

{'years': '1980s'}
1981 

1984 

1985 

{'years': '1990s'}
2000 

1992 

1992 

{'years': '1970s'}
1979 

{'years': '1980s'}
1986 

2000 

{'years': '1960s'}
1966 

{'years': '2010s'}
2010 

2011 

{'years': '1980s'}
1984 

{'years': '1990s'}
1991 



The two years that are in the wrong decade are the movies from the 2000s. Figure out what those movies are, using an XPath expression.

In [20]:
for movie in root.findall("./genre/decade/movie/[year='2000']"):
    print(movie.attrib)

{'favorite': 'False', 'title': 'X-Men'}
{'favorite': 'FALSE', 'title': 'American Psycho'}


Los dos años que están en la década incorrecta son las películas de los años 2000. Descubre cuáles son esas películas usando una expresión XPath.

In [21]:
action = root.find("./genre[@category='Action']")
new_dec = ET.SubElement(action, 'decade')
new_dec.attrib["years"] = '2000s'

print(ET.tostring(action, encoding='utf8').decode('utf8'))

<?xml version='1.0' encoding='utf8'?>
<genre category="Action">
		<decade years="1980s">
			<movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
				<format multiple="No">DVD</format>
				<year>1981</year>
				<rating>PG</rating>
				<description>
				'Archaeologist and adventurer Indiana Jones 
				is hired by the U.S. government to find the Ark of the 
				Covenant before the Nazis.'
				</description>
			</movie>
		   	<movie favorite="True" title="THE KARATE KID">
			   <format multiple="Yes">DVD,Online</format>
			   <year>1984</year>
			   <rating>PG</rating>
			   <description>None provided.</description>
			</movie>
			<movie favorite="False" title="Back 2 the Future">
			   <format multiple="No">Blu-ray</format>
			   <year>1985</year>
			   <rating>PG</rating>
			   <description>Marty McFly</description>
			</movie>
		</decade>
		<decade years="1990s">
			<movie favorite="False" title="X-Men">
			   <format multiple="Yes">dvd, digital</format>
			   <yea

Ahora agrega la película X-Men a la década de los 2000 y elimínala de la década de los 1990 utilizando los métodos `.append()` y `.remove()`, respectivamente.

In [22]:
xmen = root.find("./genre/decade/movie[@title='X-Men']")
dec2000s = root.find("./genre[@category='Action']/decade[@years='2000s']")
dec2000s.append(xmen)
dec1990s = root.find("./genre[@category='Action']/decade[@years='1990s']")
dec1990s.remove(xmen)

print(ET.tostring(action, encoding='utf8').decode('utf8'))

<?xml version='1.0' encoding='utf8'?>
<genre category="Action">
		<decade years="1980s">
			<movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
				<format multiple="No">DVD</format>
				<year>1981</year>
				<rating>PG</rating>
				<description>
				'Archaeologist and adventurer Indiana Jones 
				is hired by the U.S. government to find the Ark of the 
				Covenant before the Nazis.'
				</description>
			</movie>
		   	<movie favorite="True" title="THE KARATE KID">
			   <format multiple="Yes">DVD,Online</format>
			   <year>1984</year>
			   <rating>PG</rating>
			   <description>None provided.</description>
			</movie>
			<movie favorite="False" title="Back 2 the Future">
			   <format multiple="No">Blu-ray</format>
			   <year>1985</year>
			   <rating>PG</rating>
			   <description>Marty McFly</description>
			</movie>
		</decade>
		<decade years="1990s">
			<movie favorite="True" title="Batman Returns">
			   <format multiple="No">VHS</format>
			   <year>

## Construir Documentos XML

Genial, pudiste mover efectivamente toda una película a una nueva década. Guarda tus cambios de vuelta en el XML.

In [24]:
tree.write("movies.xml")

tree = ET.parse('movies.xml')
root = tree.getroot()

print(ET.tostring(root, encoding='utf8').decode('utf8'))

<?xml version='1.0' encoding='utf8'?>
<collection>
	<genre category="Action">
		<decade years="1980s">
			<movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
				<format multiple="No">DVD</format>
				<year>1981</year>
				<rating>PG</rating>
				<description>
				'Archaeologist and adventurer Indiana Jones 
				is hired by the U.S. government to find the Ark of the 
				Covenant before the Nazis.'
				</description>
			</movie>
		   	<movie favorite="True" title="THE KARATE KID">
			   <format multiple="Yes">DVD,Online</format>
			   <year>1984</year>
			   <rating>PG</rating>
			   <description>None provided.</description>
			</movie>
			<movie favorite="False" title="Back to the Future">
			   <format multiple="No">Blu-ray</format>
			   <year>1985</year>
			   <rating>PG</rating>
			   <description>Marty McFly</description>
			</movie>
		</decade>
		<decade years="1990s">
			<movie favorite="True" title="Batman Returns">
			   <format multiple="No">VHS</forma

## Conclusión

Hay algunas cosas clave que recordar sobre los XML y el uso de `ElementTree`.

Las etiquetas construyen la estructura del árbol y designan qué valores deben ser delineados allí. Usar una estructuración inteligente puede hacer que sea fácil leer y escribir en un XML. Las etiquetas siempre necesitan corchetes de apertura y cierre para mostrar las relaciones padre e hijos.

Los atributos describen aún más cómo validar una etiqueta o permitir designaciones booleanas. Los atributos típicamente toman valores muy específicos para que el analizador XML (y el usuario) pueda usar los atributos para verificar los valores de las etiquetas.

`ElementTree` es una biblioteca importante de Python que te permite analizar y navegar un documento XML. Usando `ElementTree`, descompones el documento XML en una estructura de árbol fácil de trabajar. Cuando tengas dudas, imprímelo (`print(ET.tostring(root, encoding='utf8').decode('utf8'))`) - utiliza esta útil declaración de impresión para ver todo el documento XML de una vez. Esto ayuda a verificar al editar, agregar o eliminar de un XML.

¡Ahora estás equipado para entender XML y comenzar a analizarlo!

*References:*

https://docs.python.org/3/library/xml.etree.elementtree.html

https://en.wikipedia.org/wiki/XML