Tutorial de Python XML con ElementTree: Guía para principiantes

Aprende cómo puedes analizar, explorar, modificar y poblar archivos XML con el paquete ElementTree de Python, utilizando bucles `for` y expresiones XPath.

Como científico de datos, descubrirás que entender XML es poderoso tanto para el web scraping como para la práctica general en el análisis de documentos estructurados.

En este tutorial, cubrirás los siguientes temas:
- Aprenderás más sobre XML y te introducirás al paquete ElementTree de Python.
- Luego, descubrirás cómo puedes explorar árboles XML para entender mejor los datos con los que estás trabajando, utilizando funciones de ElementTree, bucles `for` y expresiones XPath.
- Después, aprenderás cómo puedes modificar un archivo XML; Y
- Utilizarás expresiones XPath para poblar archivos XML.

¿Qué es XML?

XML significa "lenguaje de marcado extensible". Se utiliza principalmente en páginas web, donde los datos tienen una estructura específica y el marco XML los entiende dinámicamente.

XML crea una estructura en forma de árbol que es fácil de interpretar y admite una jerarquía. Siempre que una página sigue XML, se la puede llamar documento XML.
Ejemplo de manejo de archivos XML

- Los documentos XML tienen secciones, llamadas elementos , definidas por una etiqueta de inicio y de final . Una etiqueta es una construcción de marcado que comienza <y termina con >. Los caracteres entre la etiqueta inicial y la etiqueta final, si los hay, son el contenido del elemento. Los elementos pueden contener marcas, incluidos otros elementos, que se denominan "elementos secundarios".

- El elemento más grande de nivel superior se llama raíz y contiene todos los demás elementos.

-Los atributos son pares de nombre y valor que existen dentro de una etiqueta de inicio o una etiqueta de elemento vacío. Un atributo XML solo puede tener un valor único y cada atributo puede aparecer como máximo una vez en cada elemento.


Para entender esto un poco mejor, eche un vistazo al siguiente archivo XML (abreviado):

<?xml version="1.0"?>
<collection>
    <genre category="Action">
        <decade years="1980s">
            <movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
                <format multiple="No">DVD</format>
                <year>1981</year>
                <rating>PG</rating>
                <description>
                'Archaeologist and adventurer Indiana Jones 
                is hired by the U.S. government to find the Ark of the 
                Covenant before the Nazis.'
                </description>
            </movie>
               <movie favorite="True" title="THE KARATE KID">
               <format multiple="Yes">DVD,Online</format>
               <year>1984</year>
               <rating>PG</rating>
               <description>None provided.</description>
            </movie>
            <movie favorite="False" title="Back 2 the Future">
               <format multiple="False">Blu-ray</format>
               <year>1985</year>
               <rating>PG</rating>
               <description>Marty McFly</description>
            </movie>
        </decade>
        <decade years="1990s">
            <movie favorite="False" title="X-Men">
               <format multiple="Yes">dvd, digital</format>
               <year>2000</year>
               <rating>PG-13</rating>
               <description>Two mutants come to a private academy for their kind whose resident superhero team must 
               oppose a terrorist organization with similar powers.</description>
            </movie>
            <movie favorite="True" title="Batman Returns">
               <format multiple="No">VHS</format>
               <year>1992</year>
               <rating>PG13</rating>
               <description>NA.</description>
            </movie>
               <movie favorite="False" title="Reservoir Dogs">
               <format multiple="No">Online</format>
               <year>1992</year>
               <rating>R</rating>
               <description>WhAtEvER I Want!!!?!</description>
            </movie>
        </decade>    
    </genre>

    <genre category="Thriller">
        <decade years="1970s">
            <movie favorite="False" title="ALIEN">
                <format multiple="Yes">DVD</format>
                <year>1979</year>
                <rating>R</rating>
                <description>"""""""""</description>
            </movie>
        </decade>
        <decade years="1980s">
            <movie favorite="True" title="Ferris Bueller's Day Off">
                <format multiple="No">DVD</format>
                <year>1986</year>
                <rating>PG13</rating>
                <description>Funny movie about a funny guy</description>
            </movie>
            <movie favorite="FALSE" title="American Psycho">
                <format multiple="No">blue-ray</format>
                <year>2000</year>
                <rating>Unrated</rating>
                <description>psychopathic Bateman</description>
            </movie>
        </decade>
    </genre>


• Este código está escrito en XML, que significa lenguaje de marcado extensible.
• Es un lenguaje de marcado que se utiliza para almacenar y transportar datos.
• En este código hay una colección de películas organizadas por género y década.
• Cada película tiene atributos como título, formato, año, calificación y descripción.
• Los atributos están encerrados en etiquetas como <película>, <formato>, <año>, <calificación> y <descripción>.
• Las etiquetas están anidadas entre sí para crear una estructura jerárquica.
• El género y la década también son atributos de la película.
• El código utiliza corchetes angulares para encerrar las etiquetas y atributos.
• La versión XML se especifica al principio del código..   

Por lo que has leído arriba, ves que

• <collection>es el elemento raíz único: contiene todos los demás elementos, como <genre>, o <movie>, que son los elementos secundarios o subelementos. Como puede ver, estos elementos están anidados.
Tenga en cuenta que estos elementos secundarios también pueden actuar como padres y contener sus propios elementos secundarios, que luego se denominan "elementos secundarios".

• Verás que, por ejemplo, el <movie>elemento contiene un par de "atributos", ¡ favorite titleque dan aún más información!

Con esta breve introducción a los archivos XML en mente, ¡está listo para aprender más sobre ElementTree!

Introducción a ElementTree

La estructura de árbol XML hace que la navegación, modificación y eliminación sean relativamente simples mediante programación. Python tiene una biblioteca incorporada, ElementTreeque tiene funciones para leer y manipular archivos XML (y otros archivos estructurados de manera similar).

Primero, importar ElementTree. Es una práctica común utilizar el alias de ET:

import xml.etree.ElementTree as ET

• Este código importa el módulo ElementTree del paquete xml.etree y le asigna un alias ET .
• Este módulo proporciona una forma de trabajar con datos XML (lenguaje de marcado extensible) en Python.
• La declaración de importación hace que el módulo ElementTree esté disponible para su uso en el script Python actual.

Análisis de datos XML

En el archivo XML proporcionado, se describe una colección básica de películas. ¡El único problema es que los datos son un desastre! Ha habido muchos curadores diferentes de esta colección y cada uno tiene su propia manera de ingresar datos en el archivo. El objetivo principal de este tutorial será leer y comprender el archivo con Python y luego solucionar los problemas.

Primero necesitas leer el archivo con ElementTree.

tree = ET.parse('movies.xml')
root = tree.getroot()

• Este código utiliza el módulo ElementTree en Python para analizar un archivo XML llamado 'movies.xml'.
• La función ET.parse() toma el nombre del archivo como argumento y devuelve un objeto ElementTree.
• Luego se llama al método getroot() en el objeto ElementTree para obtener el elemento raíz del archivo XML, que se asigna a la variable root .
• Este elemento raíz se puede utilizar para acceder y manipular los datos en el archivo XML.

Ahora que ha inicializado el árbol, debe mirar el XML e imprimir los valores para comprender cómo está estructurado el árbol.

Cada parte de un árbol (incluida la raíz) tiene una etiqueta que describe el elemento. Además, como ha visto en la introducción, los elementos pueden tener atributos, que son descriptores adicionales, utilizados especialmente para el uso repetido de etiquetas. Los atributos también ayudan a validar los valores ingresados ​​para esa etiqueta, contribuyendo una vez más al formato estructurado de un XML.

Verás más adelante en este tutorial que los atributos pueden ser bastante poderosos cuando se incluyen en un XML.

root.tag

• Este fragmento de código está escrito en Python.
• La variable raíz probablemente sea una instancia de un objeto de elemento XML, que tiene un atributo de etiqueta que devuelve el nombre de etiqueta del elemento.
• Entonces, root.tag devolverá el nombre de etiqueta del elemento XML representado por la variable raíz .

'collection'

• Este código es simplemente una cadena literal que contiene el texto "colección".
• En Python, las cadenas están entre comillas simples ('...') o dobles ("...").
• Esta cadena en particular no realiza ninguna operación ni tiene ninguna funcionalidad más allá de simplemente representar el texto "colección".

En el nivel superior, verá que este XML tiene su raíz en la collectionetiqueta.

root.attrib

• Este fragmento de código está escrito en Python.
• root.attrib se utiliza para acceder a los atributos de un elemento XML representado por la variable raíz .
• En XML, los elementos pueden tener atributos que proporcionan información adicional sobre el elemento.
• Por ejemplo, considere el siguiente elemento XML:`` xml 1 2 3` Aquí, el elemento libro tiene dos atributos: título y autor .• Para acceder a estos atributos utilizando el módulo xml.etree.ElementTree
de Python , primero podemos analizar la cadena XML en un objeto Elemento y asignarla a la variable raíz .
• Luego, podemos usar root.attrib para acceder a un diccionario de los atributos del elemento: ` pythonimport xml.etree.ElementTree as ETxml_string = '123'root = ET.fromstring(xml_string)print(root.attrib)# Salida: {'title': 'El gran Gatsby', 'author': 'F.
• Scott Fitzgerald'} ` En este ejemplo, root.attrib devuelve un diccionario con las claves 'título' y 'autor' , y sus respectivos valores 'El gran Gatsby' y 'F.
• Scott Fitzgerald''.

{}

• Este fragmento de código está vacío y no realiza ninguna operación.
• Es simplemente un marcador de posición para código potencial que podría insertarse entre llaves.

Entonces la raíz no tiene atributos.

Para bucles

Puedes iterar fácilmente sobre subelementos (comúnmente llamados "hijos") en la raíz usando un simple bucle "for".

for child in root:
    print(child.tag, child.attrib)

• Este código utiliza un bucle for para iterar sobre los elementos secundarios de un elemento XML representado por la variable raíz .
• La variable secundaria representa cada elemento secundario por turno, y la declaración de impresión genera el nombre de la etiqueta y los atributos de cada elemento secundario.
• El atributo tag devuelve el nombre del elemento, mientras que el atributo attrib devuelve un diccionario de los atributos del elemento.
• Este código está escrito en Python.   

genre {'category': 'Action'}
genre {'category': 'Thriller'}
genre {'category': 'Comedy'}

• Este código define tres diccionarios con un único par clave-valor cada uno.
• La clave en cada diccionario es "categoría" y el valor es una cadena que representa un género de película.
• El primer diccionario representa el género "Acción", el segundo representa el género "Thriller" y el tercero representa el género "Comedia".
• Sin embargo, este código está incompleto ya que no asigna estos diccionarios a ninguna variable ni los utiliza de ninguna manera.

Ahora ya sabes que los hijos de la raíz collectionson todos genre. Para designar el género, el XML utiliza el atributo category. Hay películas de Acción, Suspense y Comedia según el genreelemento.

Normalmente resulta útil conocer todos los elementos del árbol completo. Una función útil para hacer eso es root.iter(). Puede poner esta función en un bucle "for" y recorrerá todo el árbol.


[elem.tag for elem in root.iter()]

• Este código utiliza una lista por comprensión para iterar sobre todos los elementos en un árbol XML representado por la variable raíz .
• Para cada elemento, extrae el nombre de la etiqueta utilizando el atributo de etiqueta y lo agrega a una nueva lista.
• La lista resultante contiene todos los nombres de etiquetas en el árbol XML.
• El método iter() se utiliza para iterar sobre todos los elementos del árbol, incluidos los elementos anidados.
• El atributo de etiqueta devuelve el nombre de la etiqueta del elemento como una cadena.
• En general, este código es útil para extraer rápidamente todos los nombres de etiquetas en un árbol XML.

['collection',
 'genre',
 'decade',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'decade',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'genre',
 'decade',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'decade',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'genre',
 'decade',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'decade',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'decade',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'decade',
 'movie',
 'format',
 'year',
 'rating',
 'description']

• Este fragmento de código es simplemente una lista de cadenas.
• Contiene varias categorías relacionadas con películas, como 'colección', 'género', 'década', 'película', 'formato', 'año', 'calificación' y 'descripción'.
• Estas categorías se repiten varias veces, lo que indica que probablemente se utilicen como encabezados de columna en un conjunto de datos o base de datos.
• El orden de las categorías sugiere que pueden estar relacionadas entre sí, siendo 'película' la categoría central y las demás proporcionando información adicional sobre cada película.
• Sin embargo, sin más contexto o código, es difícil determinar el propósito exacto de esta lista.

Esto da una idea general de cuántos elementos tiene, pero no muestra los atributos o niveles en el árbol.

Existe una forma útil de ver el documento completo. Cualquier elemento tiene un .tostring()método. Si pasa la raíz al .tostring()método, puede devolver el documento completo. Dentro ElementTree(recuerde con el alias ET), .tostring()toma una forma ligeramente extraña.

Dado que ElementTreees una biblioteca poderosa que puede interpretar más que solo XML, debe especificar tanto la codificación como la decodificación del documento que está mostrando como la cadena. Para XML, utilice 'utf8': este es el tipo de formato de documento típico para un XML.


print(ET.tostring(root, encoding='utf8').decode('utf8'))

• Este fragmento de código está escrito en Python.
• El código utiliza la función print() para generar el resultado del método ET.tostring() .
• ET significa ElementTree, que es una biblioteca de Python para analizar y crear documentos XML.
• El método tostring() se utiliza para convertir un elemento XML en una representación de cadena.
• En este caso, el elemento raíz se está convirtiendo en una cadena.
• El parámetro de codificación está establecido en 'utf8' para garantizar que la salida esté codificada en formato UTF-8.
• Finalmente, el método decode() se utiliza para decodificar la cadena codificada en UTF-8 en una cadena Unicode, que luego se imprime en la consola.
• En general, este código se utiliza para imprimir la representación XML del elemento raíz en la consola en un formato legible por humanos.

<?xml version='1.0' encoding='utf8'?>
<collection>
    <genre category="Action">
        <decade years="1980s">
            <movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
                <format multiple="No">DVD</format>
                <year>1981</year>
                <rating>PG</rating>
                <description>
                'Archaeologist and adventurer Indiana Jones 
                is hired by the U.S. government to find the Ark of the 
                Covenant before the Nazis.'
                </description>
            </movie>
               <movie favorite="True" title="THE KARATE KID">
               <format multiple="Yes">DVD,Online</format>
               <year>1984</year>
               <rating>PG</rating>
               <description>None provided.</description>
            </movie>
            <movie favorite="False" title="Back 2 the Future">
               <format multiple="False">Blu-ray</format>
               <year>1985</year>
               <rating>PG</rating>
               <description>Marty McFly</description>
            </movie>
        </decade>
        <decade years="1990s">
            <movie favorite="False" title="X-Men">
               <format multiple="Yes">dvd, digital</format>
               <year>2000</year>
               <rating>PG-13</rating>
               <description>Two mutants come to a private academy for their kind whose resident superhero team must 
               oppose a terrorist organization with similar powers.</description>
            </movie>
            <movie favorite="True" title="Batman Returns">
               <format multiple="No">VHS</format>
               <year>1992</year>
               <rating>PG13</rating>
               <description>NA.</description>
            </movie>
               <movie favorite="False" title="Reservoir Dogs">
               <format multiple="No">Online</format>
               <year>1992</year>
               <rating>R</rating>
               <description>WhAtEvER I Want!!!?!</description>
            </movie>
        </decade>    
    </genre>

    <genre category="Thriller">
        <decade years="1970s">
            <movie favorite="False" title="ALIEN">
                <format multiple="Yes">DVD</format>
                <year>1979</year>
                <rating>R</rating>
                <description>"""""""""</description>
            </movie>
        </decade>
        <decade years="1980s">
            <movie favorite="True" title="Ferris Bueller's Day Off">
                <format multiple="No">DVD</format>
                <year>1986</year>
                <rating>PG13</rating>
                <description>Funny movie about a funny guy</description>
            </movie>
            <movie favorite="FALSE" title="American Psycho">
                <format multiple="No">blue-ray</format>
                <year>2000</year>
                <rating>Unrated</rating>
                <description>psychopathic Bateman</description>
            </movie>
        </decade>
    </genre>

    <genre category="Comedy">
        <decade years="1960s">
            <movie favorite="False" title="Batman: The Movie">
                <format multiple="Yes">DVD,VHS</format>
                <year>1966</year>
                <rating>PG</rating>
                <description>What a joke!</description>
            </movie>
        </decade>
        <decade years="2010s">
            <movie favorite="True" title="Easy A">
                <format multiple="No">DVD</format>
                <year>2010</year>
                <rating>PG--13</rating>
                <description>Emma Stone = Hester Prynne</description>
            </movie>
            <movie favorite="True" title="Dinner for SCHMUCKS">
                <format multiple="Yes">DVD,digital,Netflix</format>
                <year>2011</year>
                <rating>Unrated</rating>
                <description>Tim (Rudd) is a rising executive
                 who “succeeds” in finding the perfect guest, 
                 IRS employee Barry (Carell), for his boss’ monthly event, 
                 a so-called “dinner for idiots,” which offers certain 
                 advantages to the exec who shows up with the biggest buffoon.
                 </description>
            </movie>
        </decade>
        <decade years="1980s">
            <movie favorite="False" title="Ghostbusters">
                <format multiple="No">Online,VHS</format>
                <year>1984</year>
                <rating>PG</rating>
                <description>Who ya gonna call?</description>
            </movie>
        </decade>
        <decade years="1990s">
            <movie favorite="True" title="Robin Hood: Prince of Thieves">
                <format multiple="No">Blu_Ray</format>
                <year>1991</year>
                <rating>Unknown</rating>
                <description>Robin Hood slaying</description>
            </movie>
        </decade>
    </genre>
</collection>

Puede ampliar el uso de la iter()función para ayudar a encontrar elementos particulares de interés. root.iter()enumerará todos los subelementos debajo de la raíz que coincidan con el elemento especificado. Aquí enumerará todos los atributos del movieelemento en el árbol:

for movie in root.iter('movie'):
    print(movie.attrib)

• Este código utiliza Python para recorrer todos los elementos de un archivo XML etiquetados como "película" e imprime sus atributos.
• La llamada a la función root.iter('movie') devuelve un iterador que genera todos los elementos del archivo XML que tienen la etiqueta "movie".
• El bucle for luego itera a través de cada uno de estos elementos e imprime sus atributos usando la instrucción print(movie.attrib) .
• La expresión movie.attrib devuelve un diccionario de todos los atributos del elemento "movie" actual, que luego se imprimen mediante la función print() .

{'favorite': 'True', 'title': 'Indiana Jones: The raiders of the lost Ark'}
{'favorite': 'True', 'title': 'THE KARATE KID'}
{'favorite': 'False', 'title': 'Back 2 the Future'}
{'favorite': 'False', 'title': 'X-Men'}
{'favorite': 'True', 'title': 'Batman Returns'}
{'favorite': 'False', 'title': 'Reservoir Dogs'}
{'favorite': 'False', 'title': 'ALIEN'}
{'favorite': 'True', 'title': "Ferris Bueller's Day Off"}
{'favorite': 'FALSE', 'title': 'American Psycho'}
{'favorite': 'False', 'title': 'Batman: The Movie'}
{'favorite': 'True', 'title': 'Easy A'}
{'favorite': 'True', 'title': 'Dinner for SCHMUCKS'}
{'favorite': 'False', 'title': 'Ghostbusters'}
{'favorite': 'True', 'title': 'Robin Hood: Prince of Thieves'}

• Este fragmento de código no es en realidad código, sino una serie de diccionarios que contienen información sobre películas.
• Cada diccionario tiene dos pares clave-valor: 'favorito' y 'título'.
• La tecla 'favorita' indica si la película es favorita o no (con un valor de 'Verdadero' o 'Falso'), mientras que la tecla 'título' proporciona el título de la película.
• Este código no requiere ningún lenguaje de programación específico para comprenderlo, ya que es simplemente una serie de estructuras de datos.

Ya podéis ver cómo se movieshan introducido de diferentes formas. No te preocupes por eso por ahora, tendrás la oportunidad de corregir uno de los errores más adelante en este tutorial.

Expresiones XPath
Muchas veces los elementos no tendrán atributos, solo tendrán contenido de texto. Usando el atributo .text, puede imprimir este contenido.

Ahora, imprima todas las descripciones de las películas.

for description in root.iter('description'):
    print(description.text)

• Este código utiliza el lenguaje de programación Python para iterar sobre todos los elementos de un documento XML con el nombre de etiqueta "descripción" e imprimir el contenido de texto de cada elemento.
• El método root.iter('descripción') devuelve un iterador que genera todos los elementos del documento XML con el nombre de etiqueta "descripción".
• Luego , el bucle for itera sobre cada uno de estos elementos y los asigna a la descripción de la variable .
• El atributo descripción.text se utiliza para extraer el contenido de texto de cada elemento, que luego se imprime en la consola utilizando la función print() .
• En general, este código es útil para extraer información específica de un documento XML e imprimirla para su posterior análisis o procesamiento.

"El arqueólogo y aventurero Indiana Jones es contratado por el gobierno de EE. UU. para encontrar el Arca de la Alianza antes que los nazis."

No proporcionado.
Marty McFly.
Dos mutantes llegan a una academia privada para su especie, cuyo equipo de superhéroes residente debe oponerse a una organización terrorista con poderes similares.
N/A.
¡Lo que yo quiera!!!
"""""""""
Película divertida sobre un tipo divertido.
Bateman psicópata.
¡Qué chiste!
Emma Stone = Hester Prynne.
Tim (Rudd) es un ejecutivo en ascenso que "triunfa" al encontrar al invitado perfecto, el empleado del IRS Barry (Carell), para el evento mensual de su jefe, una llamada "cena de los idiotas", que ofrece ciertas ventajas al ejecutivo que se presenta con el mayor bufón.

¿A quién vas a llamar?
Robin Hood matando.


Imprimir el XML es útil, pero XPath es un lenguaje de consulta que se utiliza para buscar en un XML de forma rápida y sencilla. XPath significa XML Path Language y utiliza, como su nombre indica, una sintaxis similar a una ruta para identificar y navegar por nodos en un documento XML.

Comprender XPath es de vital importancia para escanear y completar archivos XML. ElementTreetiene una .findall()función que atravesará los hijos inmediatos del elemento referenciado. Puede utilizar expresiones XPath para especificar búsquedas más útiles.

Aquí buscará en el árbol películas que salieron en 1992:

for movie in root.findall("./genre/decade/movie/[year='1992']"):
    print(movie.attrib)

• Este código utiliza el lenguaje de programación Python y está diseñado para analizar un archivo XML.
• Se supone que la variable raíz es una instancia de un objeto ElementTree , que representa el documento XML completo.
• El método findall() se llama en el objeto raíz con la expresión XPath ./genre/decade/movie/[year='1992'] .
• Esta expresión selecciona todos los elementos de la película que tienen un atributo de año igual a '1992' y son descendientes de un elemento de década que es hijo de un elemento de género .
• El bucle for itera sobre cada elemento de la película que coincide con la expresión XPath y se llama a la función print() con el atributo attrib del elemento de la película .
• Esto imprime un diccionario de todos los atributos del elemento de la película .
• En resumen, este código busca todas las películas del año 1992 en un archivo XML e imprime sus atributos.

{'favorite': 'True', 'title': 'Batman Returns'}
{'favorite': 'False', 'title': 'Reservoir Dogs'}

• Este fragmento de código es una representación de dos diccionarios en Python.
• Cada diccionario tiene dos pares clave-valor.
• La primera clave es 'favorita' y el valor asociado a ella es 'Verdadero' o 'Falso'.
• La segunda clave es 'título' y el valor asociado a ella es una cadena que representa el título de una película.
• Los diccionarios están encerrados entre llaves y cada par clave-valor está separado por una coma.
• Las claves son cadenas y van seguidas de dos puntos, y los valores pueden ser de cualquier tipo de datos.
• En este caso, la tecla 'favorito' se usa para indicar si la película es favorita o no, y la tecla 'título' se usa para almacenar el título de la película.
• En general, este fragmento de código es un ejemplo sencillo de cómo se pueden utilizar los diccionarios para almacenar y recuperar datos en Python.

La función .findall()siempre comienza en el elemento especificado. Este tipo de función es extremadamente poderosa para "buscar y reemplazar". ¡Incluso puedes buscar por atributos!

Ahora, imprima sólo las películas que estén disponibles en múltiples formatos (un atributo).

for movie in root.findall("./genre/decade/movie/format/[@multiple='Yes']"):
    print(movie.attrib)

• Este código utiliza el lenguaje de programación Python y está diseñado para analizar un archivo XML.
• Se supone que la variable raíz es una instancia de un objeto ElementTree , que representa el archivo XML.
• El método findall() se llama en el objeto raíz con la expresión XPath ./genre/decade/movie/format/[@multiple='Yes'] .
• Esta expresión selecciona todos los elementos de formato que tienen un atributo múltiple con un valor de 'Sí' , que están anidados dentro de elementos de película que están anidados dentro de elementos de década que están anidados dentro de elementos de género .
• El bucle for itera sobre cada elemento de la película que coincide con la expresión XPath y se llama a la función print() con el atributo attrib del elemento de la película .
• Esto imprimirá un diccionario de todos los atributos del elemento de película que se seleccionó.

{'multiple': 'Yes'}
{'multiple': 'Yes'}
{'multiple': 'Yes'}
{'multiple': 'Yes'}
{'multiple': 'Yes'}

• Este fragmento de código es una serie de diccionarios con un único par clave-valor.
• La clave es 'múltiple' y el valor es 'Sí'.
• Cada diccionario se imprime en una línea separada.
• No se especifica ningún lenguaje de programación específico en este fragmento de código, por lo que podría usarse en cualquier lenguaje que admita diccionarios o pares clave-valor.

Piense en por qué, en este caso, la declaración impresa devuelve los valores "Sí" de multiple. Piense en cómo se define el bucle "for". ¿Podrías reescribir este bucle para imprimir los títulos de las películas? Pruébelo a continuación:

Consejo : utilícelo '...'dentro de XPath para devolver el elemento principal del elemento actual.

for movie in root.findall("./genre/decade/movie/format[@multiple='Yes']..."):
    print(movie.attrib)

• Este código utiliza el lenguaje de programación Python y está diseñado para analizar un archivo XML.
• Se supone que la variable raíz es una instancia de un objeto ElementTree , que representa el archivo XML.
• El método findall() se llama en el objeto raíz con la expresión XPath ./genre/decade/movie/format[@multiple='Yes']... como argumento.
• Esta expresión selecciona todos los elementos de formato que tienen un atributo múltiple con un valor de 'Sí' , que son descendientes de elementos de película que son descendientes de elementos de década que son descendientes de elementos de género .
• El ... al final de la expresión indica que se puede incluir cualquier número de niveles adicionales de descendientes.
• El bucle for itera sobre cada elemento de la película que coincide con la expresión XPath y se llama a la función print() con el atributo attrib del elemento de la película como argumento.
• Esto imprime un diccionario de los atributos del elemento de película que fue seleccionado por la expresión XPath.

{'favorite': 'True', 'title': 'THE KARATE KID'}
{'favorite': 'False', 'title': 'X-Men'}
{'favorite': 'False', 'title': 'ALIEN'}
{'favorite': 'False', 'title': 'Batman: The Movie'}
{'favorite': 'True', 'title': 'Dinner for SCHMUCKS'}

• Este fragmento de código es una colección de diccionarios, cada uno de los cuales representa una película con su título y si es favorita o no.
• Las claves en cada diccionario son 'favorito' y 'título', y los valores son 'Verdadero' o 'Falso' para la clave 'favorito' y una cadena que representa el título de la película para la clave 'título'.
• Este código no utiliza ningún lenguaje de programación específico, pero podría usarse en Python u otros lenguajes que admitan diccionarios.
¿Fue esto útil?

Modificar un XML
Antes, los títulos de las películas eran un completo desastre. Ahora, imprímelos nuevamente:

for movie in root.iter('movie'):
    print(movie.attrib)

• This code uses Python to iterate through all the elements in an XML file that are tagged as "movie" and prints out their attributes.
• The root.iter('movie') function call returns an iterator that yields all the elements in the XML file that have the tag "movie".
• The for loop then iterates through each of these elements and prints out their attributes using the print(movie.attrib) statement.
• The movie.attrib expression returns a dictionary of all the attributes of the current "movie" element, which are then printed out by the print() function.

{'favorite': 'True', 'title': 'Indiana Jones: The raiders of the lost Ark'}
{'favorite': 'True', 'title': 'THE KARATE KID'}
{'favorite': 'False', 'title': 'Back 2 the Future'}
{'favorite': 'False', 'title': 'X-Men'}
{'favorite': 'True', 'title': 'Batman Returns'}
{'favorite': 'False', 'title': 'Reservoir Dogs'}
{'favorite': 'False', 'title': 'ALIEN'}
{'favorite': 'True', 'title': "Ferris Bueller's Day Off"}
{'favorite': 'FALSE', 'title': 'American Psycho'}
{'favorite': 'False', 'title': 'Batman: The Movie'}
{'favorite': 'True', 'title': 'Easy A'}
{'favorite': 'True', 'title': 'Dinner for SCHMUCKS'}
{'favorite': 'False', 'title': 'Ghostbusters'}
{'favorite': 'True', 'title': 'Robin Hood: Prince of Thieves'}

• Este fragmento de código no es en realidad código, sino una serie de diccionarios que contienen información sobre películas.
• Cada diccionario tiene dos pares clave-valor: 'favorito' y 'título'.
• La tecla 'favorita' indica si la película es favorita o no (con un valor de 'Verdadero' o 'Falso'), mientras que la tecla 'título' proporciona el título de la película.
• Este código no requiere ningún lenguaje de programación específico para comprenderlo, ya que es simplemente una serie de estructuras de datos.

Arregla el '2' en Back 2 the Future. Eso debería ser un problema de buscar y reemplazar. Escribe código para encontrar el título 'Back 2 the Future' y guárdalo como una variable:

b2tf = root.find("./genre/decade/movie[@title='Back 2 the Future']")
print(b2tf)

• Este código utiliza la biblioteca ElementTree en Python para buscar un elemento de película específico en un archivo XML.
• Se supone que la variable raíz es el elemento raíz del archivo XML.
• El método find() se llama en la raíz con una expresión XPath como argumento.
• La expresión XPath busca un elemento de película con un atributo de título igual a "Back 2 the Future", que es hijo de un elemento década , que es hijo de un elemento de género .
• El método find() devuelve el primer elemento coincidente que encuentra, o Ninguno si no se encuentra ningún elemento coincidente.
• El elemento resultante se asigna a la variable b2tf .
• Finalmente, la función print() se utiliza para mostrar el elemento b2tf , que generará la representación XML del elemento en la consola.

<Element 'movie' at 0x10ce00ef8>

• Este código parece estar escrito en HTML o XML.
• El código crea un elemento llamado "película" y le asigna una dirección de memoria de 0x10ce00ef8.
• Sin embargo, sin ver el contexto completo del código, es difícil proporcionar una explicación más detallada de lo que representa este elemento o cómo se utiliza.

Observe que el uso del .find()método devuelve un elemento del árbol. Muchas veces resulta más útil editar el contenido dentro de un elemento.

Modifique el titleatributo de la variable del elemento Back 2 the Future para que diga "Regreso al futuro". Luego, imprima los atributos de su variable para ver su cambio. Puedes hacer esto fácilmente accediendo al atributo de un elemento y luego asignándole un nuevo valor:

b2tf.attrib["title"] = "Back to the Future"
print(b2tf.attrib)

• Este fragmento de código está escrito en Python.
• La primera línea de código establece el valor del atributo "título" del elemento "b2tf" en "Regreso al futuro".
• La propiedad "attrib" se utiliza para acceder a los atributos de un elemento en un documento XML o HTML.
• La segunda línea de código imprime los atributos actualizados del elemento "b2tf", que ahora debería incluir el atributo "title" con el valor "Regreso al futuro".


{'favorite': 'False', 'title': 'Back to the Future'}

• Este código es un diccionario de Python que contiene dos pares clave-valor.
• La primera clave es 'favorita' y su valor es el valor booleano 'Falso'.
• La segunda clave es 'título' y su valor es la cadena 'Regreso al futuro'.
• Los diccionarios en Python son una colección de pares clave-valor, donde cada clave es única y se asigna a un valor correspondiente.
• En este caso, el diccionario se crea usando llaves {} y los pares clave-valor están separados por comas.

Escriba sus cambios en el XML para que queden fijos permanentemente en el documento. Imprima los atributos de su película nuevamente para asegurarse de que los cambios funcionen. Utilice el .write()método para hacer esto:

tree.write("movies.xml")

tree = ET.parse('movies.xml')
root = tree.getroot()

for movie in root.iter('movie'):
    print(movie.attrib)

• Este código utiliza el módulo Python xml.etree.ElementTree para escribir y leer un archivo XML.
• Primero, el método write() se utiliza para escribir un archivo XML llamado "movies.xml" basado en el objeto de árbol .
• Luego, el método parse() se utiliza para leer el archivo "movies.xml" y crear un nuevo objeto de árbol .
• El método getroot() se utiliza para obtener el elemento raíz del archivo XML, que se asigna a la variable raíz .
• Finalmente, se usa un bucle for para iterar sobre todos los elementos de la película en el elemento raíz usando el método iter() .
• El atributo attrib se utiliza para imprimir los atributos de cada elemento de la película .

{'favorite': 'True', 'title': 'Indiana Jones: The raiders of the lost Ark'}
{'favorite': 'True', 'title': 'THE KARATE KID'}
{'favorite': 'False', 'title': 'Back to the Future'}
{'favorite': 'False', 'title': 'X-Men'}
{'favorite': 'True', 'title': 'Batman Returns'}
{'favorite': 'False', 'title': 'Reservoir Dogs'}
{'favorite': 'False', 'title': 'ALIEN'}
{'favorite': 'True', 'title': "Ferris Bueller's Day Off"}
{'favorite': 'FALSE', 'title': 'American Psycho'}
{'favorite': 'False', 'title': 'Batman: The Movie'}
{'favorite': 'True', 'title': 'Easy A'}
{'favorite': 'True', 'title': 'Dinner for SCHMUCKS'}
{'favorite': 'False', 'title': 'Ghostbusters'}
{'favorite': 'True', 'title': 'Robin Hood: Prince of Thieves'}

• Este fragmento de código no es en realidad código, sino una serie de diccionarios que contienen información sobre películas.
• Cada diccionario tiene dos pares clave-valor: 'favorito' y 'título'.
• La tecla 'favorita' indica si la película es favorita o no (con un valor de 'Verdadero' o 'Falso'), mientras que la tecla 'título' proporciona el título de la película.
• Este código no requiere ningún lenguaje de programación específico para comprenderlo, ya que es simplemente una serie de diccionarios con pares clave-valor.

Arreglando atributos
El multipleatributo es incorrecto en algunos lugares. Úselo ElementTreepara corregir el designador según el número de formatos en los que viene la película. Primero, imprima el formatatributo y el texto para ver qué partes deben corregirse.

for form in root.findall("./genre/decade/movie/format"):
    print(form.attrib, form.text)

• Este código utiliza el lenguaje de programación Python para iterar a través de un conjunto específico de elementos XML e imprimir sus atributos y valores de texto.
• La variable raíz probablemente hace referencia a un documento XML que se ha analizado utilizando una biblioteca de análisis XML como ElementTree.
• El método findall se utiliza para buscar todos los elementos que coincidan con la expresión XPath especificada, que en este caso es ./genre/decade/movie/format .
• Esta expresión selecciona todos los elementos de formato que son descendientes de elementos de película que son descendientes de elementos de década que son descendientes de elementos de género .
• El bucle for luego itera a través de cada uno de estos elementos de formato , asignando cada uno a la variable de formulario .
• El atributo attrib del elemento de formulario es un diccionario que contiene los atributos del elemento y el atributo text contiene el contenido de texto del elemento.
• Estos valores se imprimen utilizando la función de impresión .

{'multiple': 'No'} DVD
{'multiple': 'Yes'} DVD,Online
{'multiple': 'False'} Blu-ray
{'multiple': 'Yes'} dvd, digital
{'multiple': 'No'} VHS
{'multiple': 'No'} Online
{'multiple': 'Yes'} DVD
{'multiple': 'No'} DVD
{'multiple': 'No'} blue-ray
{'multiple': 'Yes'} DVD,VHS
{'multiple': 'No'} DVD
{'multiple': 'Yes'} DVD,digital,Netflix
{'multiple': 'No'} Online,VHS
{'multiple': 'No'} Blu_Ray

• Este fragmento de código no es en realidad código, sino más bien un conjunto de datos en forma de diccionario.
• Cada línea representa un diccionario independiente con un par clave-valor.
• La clave es 'múltiple' y el valor es una cadena que indica si un formato particular de una película está disponible en múltiples formatos.
• Los formatos disponibles son DVD, Online, Blu-ray, VHS, digital y Netflix.
• Los valores para 'múltiple' son 'Sí', 'No' o 'Falso'.
• Es probable que los datos se estén utilizando para algún tipo de análisis o visualización.

Hay trabajo por hacer en esta etiqueta.

Puede utilizar expresiones regulares para buscar comas, lo que le indicará si el multipleatributo debe ser "Sí" o "No". Agregar y modificar atributos se puede hacer fácilmente con el .set()método.

Nota : rees el intérprete de expresiones regulares estándar para Python. Si desea saber más sobre las expresiones regulares, considere este tutorial .

import re

for form in root.findall("./genre/decade/movie/format"):
    # Search for the commas in the format text
    match = re.search(',',form.text)
    if match:
        form.set('multiple','Yes')
    else:
        form.set('multiple','No')

# Write out the tree to the file again
tree.write("movies.xml")

tree = ET.parse('movies.xml')
root = tree.getroot()

for form in root.findall("./genre/decade/movie/format"):
    print(form.attrib, form.text)

• Este código utiliza el módulo re de Python para buscar comas en el texto de ciertos elementos en un archivo XML.
• Primero, el código importa el módulo re .
• Luego, recorre todos los elementos de formato que son hijos de elementos de película que son a su vez hijos de elementos de década que son hijos de elementos de género en el archivo XML.
• Para cada elemento de formato , el código utiliza re.search() para buscar una coma en el texto del elemento.
• Si se encuentra una coma, el código establece el atributo múltiple del elemento en 'Sí' .
• De lo contrario, establece el atributo múltiple en 'No' .
• Después de modificar el archivo XML, el código escribe nuevamente el árbol modificado en el archivo.
• Luego, vuelve a leer el archivo XML modificado y recorre los elementos del formato nuevamente, imprimiendo sus atributos y texto.

{'multiple': 'No'} DVD
{'multiple': 'Yes'} DVD,Online
{'multiple': 'No'} Blu-ray
{'multiple': 'Yes'} dvd, digital
{'multiple': 'No'} VHS
{'multiple': 'No'} Online
{'multiple': 'No'} DVD
{'multiple': 'No'} DVD
{'multiple': 'No'} blue-ray
{'multiple': 'Yes'} DVD,VHS
{'multiple': 'No'} DVD
{'multiple': 'Yes'} DVD,digital,Netflix
{'multiple': 'Yes'} Online,VHS
{'multiple': 'No'} Blu_Ray

• Este fragmento de código no es en realidad código, sino una serie de entradas de datos en un formato específico.
• Cada entrada representa un tipo de medio (DVD, Blu-ray, VHS, en línea) y si está disponible o no en múltiples formatos.
• La clave 'múltiple' indica si el medio está disponible o no en múltiples formatos, y el valor indica en qué formatos está disponible.
• Por ejemplo, la primera entrada indica que el soporte DVD no está disponible en varios formatos.

Elementos móviles
Algunos de los datos se han colocado en la década equivocada. Utilice lo que ha aprendido sobre XML ElementTreepara encontrar y corregir los errores de datos de la década.

Será útil imprimir tanto las decadeetiquetas como las yearetiquetas en todo el documento.

for decade in root.findall("./genre/decade"):
    print(decade.attrib)
    for year in decade.findall("./movie/year"):
        print(year.text, '\n')

- Este código utiliza la biblioteca ElementTree en Python para analizar un archivo XML.
- Se asume que la variable `root` es el elemento raíz del archivo XML.
- El bucle `for` itera sobre cada elemento `decade` que es un hijo del elemento `genre`.
- Para cada elemento `decade`, se llama al método `attrib` para imprimir los atributos del elemento `decade`.
- Luego, se utiliza otro bucle `for` para iterar sobre cada elemento `year` que es un hijo del elemento `decade` actual.
- Para cada elemento `year`, se llama al método `text` para imprimir el contenido de texto del elemento `year`.
- En general, este código se utiliza para extraer información de un archivo XML que contiene datos sobre películas organizadas por década y año.

{'years': '1980s'}
1981 

1984 

1985 

{'years': '1990s'}
2000 

1992 

1992 

{'years': '1970s'}
1979 

{'years': '1980s'}
1986 

2000 

{'years': '1960s'}
1966 

{'years': '2010s'}
2010 

2011 

{'years': '1980s'}
1984 

{'years': '1990s'}
1991 

- Este fragmento de código es una serie de sentencias `print` que muestran los años agrupados por década.
- Los años se almacenan en diccionarios con la clave 'years' y el valor como la década.
- Luego, los años se imprimen uno por uno, con cada década separada por una nueva línea.
- No se especifica un lenguaje de programación en particular en este fragmento de código, pero podría ser Python u otro lenguaje que utilice diccionarios y sentencias `print`.

Los dos años que están en la década incorrecta son las películas de los años 2000. Averigua cuáles son esas películas utilizando una expresión XPath.

for movie in root.findall("./genre/decade/movie/[year='2000']"):
    print(movie.attrib)

- Este código utiliza el lenguaje de programación Python y está diseñado para analizar un archivo XML.
- Se asume que la variable `root` es una instancia de un objeto ElementTree, que representa todo el documento XML.
- Se llama al método `findall()` en el objeto `root` con la expresión XPath `./genre/decade/movie/[year='2000']`.
- Esta expresión selecciona todos los elementos `movie` que tienen un elemento hijo llamado `year` con un valor de '2000', y que son descendientes de un elemento `decade` que es hijo de un elemento `genre`.
- El bucle `for` itera sobre cada uno de los elementos `movie` que coinciden con la expresión XPath, y se llama a la función `print()` con el atributo `attrib` de cada elemento `movie`.
- Este atributo contiene un diccionario de los atributos del elemento y sus valores.
- En resumen, este fragmento de código encuentra todas las películas del año 2000 en un archivo XML e imprime sus atributos.    


{'favorite': 'False', 'title': 'X-Men'}
{'favorite': 'FALSE', 'title': 'American Psycho'}

- Este fragmento de código está escrito en Python y define dos diccionarios.
- Cada diccionario tiene dos pares clave-valor.
- La primera clave es 'favorite' y el valor es una cadena 'False' o 'FALSE'.
- La segunda clave es 'title' y el valor es una cadena 'X-Men' o 'American Psycho'.
- Los diccionarios son un tipo de estructura de datos en Python que almacenan pares clave-valor.
- En este caso, las claves son 'favorite' y 'title' y los valores son 'False' o 'FALSE' y 'X-Men' o 'American Psycho'.
- Vale la pena señalar que 'False' y 'FALSE' no son lo mismo en Python.
- 'False' con 'f' minúscula es un valor booleano que representa falso, mientras que 'FALSE' con 'F' mayúscula es solo una cadena.

Tienes que añadir una nueva etiqueta de década, los 2000, al género de Acción para mover los datos de X-Men. El método `.SubElement()` se puede usar para añadir esta etiqueta al final del XML.

action = root.find("./genre[@category='Action']")
new_dec = ET.SubElement(action, 'decade')
new_dec.attrib["years"] = '2000s'

print(ET.tostring(action, encoding='utf8').decode('utf8'))

- Este código utiliza el módulo ElementTree en Python para manipular un archivo XML.
- Primero, encuentra el elemento en el archivo XML con la etiqueta "genre" y el atributo "category" establecido en "Action".
- Asigna este elemento a la variable "action".
- Luego, crea un nuevo elemento con la etiqueta "decade" utilizando el método ET.SubElement().
- Este nuevo elemento se añade como hijo al elemento "action" utilizando el método append().
- Finalmente, establece el atributo "years" del nuevo elemento "decade" en "2000s" utilizando la propiedad attrib.
- La última línea de código imprime el elemento modificado "action" como una cadena utilizando el método ET.tostring(), con la codificación establecida en 'utf8' y luego decodificándola como una cadena usando 'utf8'.

<?xml version='1.0' encoding='utf8'?>
<genre category="Action">
        <decade years="1980s">
            <movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
                <format multiple="No">DVD</format>
                <year>1981</year>
                <rating>PG</rating>
                <description>
                'Archaeologist and adventurer Indiana Jones 
                is hired by the U.S. government to find the Ark of the 
                Covenant before the Nazis.'
                </description>
            </movie>
               <movie favorite="True" title="THE KARATE KID">
               <format multiple="Yes">DVD,Online</format>
               <year>1984</year>
               <rating>PG</rating>
               <description>None provided.</description>
            </movie>
            <movie favorite="False" title="Back to the Future">
               <format multiple="No">Blu-ray</format>
               <year>1985</year>
               <rating>PG</rating>
               <description>Marty McFly</description>
            </movie>
        </decade>
        <decade years="1990s">
            <movie favorite="False" title="X-Men">
               <format multiple="Yes">dvd, digital</format>
               <year>2000</year>
               <rating>PG-13</rating>
               <description>Two mutants come to a private academy for their kind whose resident superhero team must 
               oppose a terrorist organization with similar powers.</description>
            </movie>
            <movie favorite="True" title="Batman Returns">
               <format multiple="No">VHS</format>
               <year>1992</year>
               <rating>PG13</rating>
               <description>NA.</description>
            </movie>
               <movie favorite="False" title="Reservoir Dogs">
               <format multiple="No">Online</format>
               <year>1992</year>
               <rating>R</rating>
               <description>WhAtEvER I Want!!!?!</description>
            </movie>
        </decade>    
    <decade years="2000s" /></genre>

- Este código está escrito en XML, que significa Lenguaje de Marcado Extensible.
- Es un lenguaje de marcado que se utiliza para almacenar y transportar datos.
- En este código, hay un elemento genre con un atributo category establecido en "Action".
- Dentro del elemento genre, hay tres elementos decade con atributos years establecidos en "1980s", "1990s" y "2000s".
- Dentro de cada elemento decade, hay múltiples elementos movie con varios atributos como favorite, title, format, year, rating y description.
- Estos elementos y atributos se utilizan para almacenar información sobre películas categorizadas bajo el género "Action" y lanzadas en las respectivas décadas.
- Los datos pueden ser fácilmente analizados y procesados utilizando analizadores XML.

Ahora añade la película X-Men a los años 2000 y elimínala de los años 1990, utilizando .append() y .remove(), respectivamente.

xmen = root.find("./genre/decade/movie[@title='X-Men']")
dec2000s = root.find("./genre[@category='Action']/decade[@years='2000s']")
dec2000s.append(xmen)
dec1990s = root.find("./genre[@category='Action']/decade[@years='1990s']")
dec1990s.remove(xmen)

print(ET.tostring(action, encoding='utf8').decode('utf8'))

- Este código utiliza el módulo ElementTree en Python para manipular un archivo XML.
- Primero, el código encuentra el elemento de película con el título "X-Men" que es hijo del elemento decade que es hijo del elemento genre.
- Esto se hace utilizando el método find() con una expresión XPath como argumento.
- Luego, el código encuentra el elemento decade con el atributo "years" igual a "2000s" que es hijo del elemento genre con el atributo "category" igual a "Action".
- Esto también se hace utilizando el método find() con una expresión XPath.
- Después, el código añade el elemento de película X-Men previamente encontrado al elemento decade de los años 2000s.
- Luego, el código encuentra el elemento decade con el atributo "years" igual a "1990s" que es hijo del elemento genre con el atributo "category" igual a "Action".
- Esto también se hace utilizando el método find() con una expresión XPath.
- Finalmente, el código elimina el elemento de película X-Men del elemento decade de los años 1990s utilizando el método remove().
- Por último, el código imprime el árbol XML para el elemento genre con el atributo "category" igual a "Action" utilizando el método tostring() con la codificación establecida en 'utf8' y luego decodificándolo a una cadena utilizando el método decode().

<?xml version='1.0' encoding='utf8'?>
<genre category="Action">
        <decade years="1980s">
            <movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
                <format multiple="No">DVD</format>
                <year>1981</year>
                <rating>PG</rating>
                <description>
                'Archaeologist and adventurer Indiana Jones 
                is hired by the U.S. government to find the Ark of the 
                Covenant before the Nazis.'
                </description>
            </movie>
               <movie favorite="True" title="THE KARATE KID">
               <format multiple="Yes">DVD,Online</format>
               <year>1984</year>
               <rating>PG</rating>
               <description>None provided.</description>
            </movie>
            <movie favorite="False" title="Back to the Future">
               <format multiple="No">Blu-ray</format>
               <year>1985</year>
               <rating>PG</rating>
               <description>Marty McFly</description>
            </movie>
        </decade>
        <decade years="1990s">
            <movie favorite="True" title="Batman Returns">
               <format multiple="No">VHS</format>
               <year>1992</year>
               <rating>PG13</rating>
               <description>NA.</description>
            </movie>
               <movie favorite="False" title="Reservoir Dogs">
               <format multiple="No">Online</format>
               <year>1992</year>
               <rating>R</rating>
               <description>WhAtEvER I Want!!!?!</description>
            </movie>
        </decade>    
    <decade years="2000s"><movie favorite="False" title="X-Men">
               <format multiple="Yes">dvd, digital</format>
               <year>2000</year>
               <rating>PG-13</rating>
               <description>Two mutants come to a private academy for their kind whose resident superhero team must 
               oppose a terrorist organization with similar powers.</description>
            </movie>
            </decade></genre>

- Este código está escrito en XML, que significa Lenguaje de Marcado Extensible.
- Es un lenguaje de marcado que se utiliza para almacenar y transportar datos.
- En este código, hay un elemento genre con un atributo category establecido en "Action".
- Dentro del elemento genre, hay tres elementos decade con atributos years establecidos en "1980s", "1990s" y "2000s".
- Dentro de cada elemento decade, hay uno o más elementos movie con sub-elementos favorite, title, format, year, rating y description.
- El atributo favorite se establece en "True" o "False" para indicar si la película es favorita o no.
- El atributo title se establece con el título de la película.
- El sub-elemento format se utiliza para indicar el o los formatos en los que está disponible la película.
- El sub-elemento year se utiliza para indicar el año en que se estrenó la película.
- El sub-elemento rating se utiliza para indicar la calificación de la película.
- El sub-elemento description se utiliza para proporcionar una breve descripción de la película.-

Construye Documentos XML

Genial, así que pudiste básicamente mover toda una película a una nueva década. Guarda tus cambios de vuelta en el XML.

tree.write("movies.xml")

tree = ET.parse('movies.xml')
root = tree.getroot()

print(ET.tostring(root, encoding='utf8').decode('utf8'))

- Este código utiliza el módulo ElementTree en Python para escribir un archivo XML llamado "movies.xml" utilizando el método write() en el objeto tree.
- Luego, lee el archivo XML utilizando el método parse() en el objeto ET y asigna el elemento raíz a la variable root utilizando el método getroot().
- Finalmente, imprime el contenido XML del elemento raíz utilizando el método tostring() en el objeto ET con el parámetro encoding configurado en 'utf8', y luego lo decodifica a una cadena utilizando el método decode() con la misma codificación.
- En resumen, este código escribe un archivo XML, luego lee e imprime su contenido.

<?xml version='1.0' encoding='utf8'?>
<collection>
    <genre category="Action">
        <decade years="1980s">
            <movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
                <format multiple="No">DVD</format>
                <year>1981</year>
                <rating>PG</rating>
                <description>
                'Archaeologist and adventurer Indiana Jones 
                is hired by the U.S. government to find the Ark of the 
                Covenant before the Nazis.'
                </description>
            </movie>
               <movie favorite="True" title="THE KARATE KID">
               <format multiple="Yes">DVD,Online</format>
               <year>1984</year>
               <rating>PG</rating>
               <description>None provided.</description>
            </movie>
            <movie favorite="False" title="Back to the Future">
               <format multiple="No">Blu-ray</format>
               <year>1985</year>
               <rating>PG</rating>
               <description>Marty McFly</description>
            </movie>
        </decade>
        <decade years="1990s">
            <movie favorite="True" title="Batman Returns">
               <format multiple="No">VHS</format>
               <year>1992</year>
               <rating>PG13</rating>
               <description>NA.</description>
            </movie>
               <movie favorite="False" title="Reservoir Dogs">
               <format multiple="No">Online</format>
               <year>1992</year>
               <rating>R</rating>
               <description>WhAtEvER I Want!!!?!</description>
            </movie>
        </decade>    
    <decade years="2000s"><movie favorite="False" title="X-Men">
               <format multiple="Yes">dvd, digital</format>
               <year>2000</year>
               <rating>PG-13</rating>
               <description>Two mutants come to a private academy for their kind whose resident superhero team must 
               oppose a terrorist organization with similar powers.</description>
            </movie>
            </decade></genre>

    <genre category="Thriller">
        <decade years="1970s">
            <movie favorite="False" title="ALIEN">
                <format multiple="No">DVD</format>
                <year>1979</year>
                <rating>R</rating>
                <description>"""""""""</description>
            </movie>
        </decade>
        <decade years="1980s">
            <movie favorite="True" title="Ferris Bueller's Day Off">
                <format multiple="No">DVD</format>
                <year>1986</year>
                <rating>PG13</rating>
                <description>Funny movie about a funny guy</description>
            </movie>
            <movie favorite="FALSE" title="American Psycho">
                <format multiple="No">blue-ray</format>
                <year>2000</year>
                <rating>Unrated</rating>
                <description>psychopathic Bateman</description>
            </movie>
        </decade>
    </genre>

    <genre category="Comedy">
        <decade years="1960s">
            <movie favorite="False" title="Batman: The Movie">
                <format multiple="Yes">DVD,VHS</format>
                <year>1966</year>
                <rating>PG</rating>
                <description>What a joke!</description>
            </movie>
        </decade>
        <decade years="2010s">
            <movie favorite="True" title="Easy A">
                <format multiple="No">DVD</format>
                <year>2010</year>
                <rating>PG--13</rating>
                <description>Emma Stone = Hester Prynne</description>
            </movie>
            <movie favorite="True" title="Dinner for SCHMUCKS">
                <format multiple="Yes">DVD,digital,Netflix</format>
                <year>2011</year>
                <rating>Unrated</rating>
                <description>Tim (Rudd) is a rising executive
                 who “succeeds” in finding the perfect guest, 
                 IRS employee Barry (Carell), for his boss’ monthly event, 
                 a so-called “dinner for idiots,” which offers certain 
                 advantages to the exec who shows up with the biggest buffoon.
                 </description>
            </movie>
        </decade>
        <decade years="1980s">
            <movie favorite="False" title="Ghostbusters">
                <format multiple="Yes">Online,VHS</format>
                <year>1984</year>
                <rating>PG</rating>
                <description>Who ya gonna call?</description>
            </movie>
        </decade>
        <decade years="1990s">
            <movie favorite="True" title="Robin Hood: Prince of Thieves">
                <format multiple="No">Blu_Ray</format>
                <year>1991</year>
                <rating>Unknown</rating>
                <description>Robin Hood slaying</description>
            </movie>
        </decade>
    </genre>
</collection>


Conclusion:

Hay algunas cosas clave que recordar sobre los XML y el uso de ElementTree.

Las etiquetas construyen la estructura del árbol y designan qué valores deben delimitarse allí. Usar una estructuración inteligente puede facilitar la lectura y escritura en un XML. Las etiquetas siempre necesitan corchetes de apertura y cierre para mostrar las relaciones padre e hijo.

Los atributos describen aún más cómo validar una etiqueta o permitir designaciones booleanas. Los atributos generalmente toman valores muy específicos para que el analizador XML (y el usuario) pueda usar los atributos para verificar los valores de las etiquetas.

ElementTree es una biblioteca importante de Python que te permite analizar y navegar por un documento XML. Usar ElementTree descompone el documento XML en una estructura de árbol con la que es fácil trabajar. Cuando tengas dudas, imprímelo (print(ET.tostring(root, encoding='utf8').decode('utf8'))) - usa esta declaración de impresión útil para ver todo el documento XML de una vez. Ayuda a verificar al editar, añadir o eliminar contenido de un XML.

¡Ahora estás preparado para entender los XML y comenzar a analizarlos!

CODIGOS:

In [10]:
import xml.etree.ElementTree as ET

tree = ET.parse('movies.xml')
root = tree.getroot()

root.tag

'collection'

In [7]:
root.attrib


{}

In [8]:
for child in root:
    print(child.tag, child.attrib)


genre {'category': 'Action'}
genre {'category': 'Thriller'}
genre {'category': 'Comedy'}


In [9]:
[elem.tag for elem in root.iter()]


['collection',
 'genre',
 'decade',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'decade',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'genre',
 'decade',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'decade',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'genre',
 'decade',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'decade',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'decade',
 'movie',
 'format',
 'year',
 'rating',
 'description',
 'decade',
 'movie',
 'format',
 'year',
 'rating',
 'description']

In [11]:
print(ET.tostring(root, encoding='utf8').decode('utf8'))


<?xml version='1.0' encoding='utf8'?>
<collection>
	<genre category="Action">
		<decade years="1980s">
			<movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
				<format multiple="No">DVD</format>
				<year>1981</year>
				<rating>PG</rating>
				<description>
				'Archaeologist and adventurer Indiana Jones 
				is hired by the U.S. government to find the Ark of the 
				Covenant before the Nazis.'
				</description>
			</movie>
		   	<movie favorite="True" title="THE KARATE KID">
			   <format multiple="Yes">DVD,Online</format>
			   <year>1984</year>
			   <rating>PG</rating>
			   <description>None provided.</description>
			</movie>
			<movie favorite="False" title="Back 2 the Future">
			   <format multiple="No">Blu-ray</format>
			   <year>1985</year>
			   <rating>PG</rating>
			   <description>Marty McFly</description>
			</movie>
		</decade>
		<decade years="1990s">
			<movie favorite="False" title="X-Men">
			   <format multiple="Yes">dvd, digital</form

In [12]:
for movie in root.iter('movie'):
    print(movie.attrib)


{'favorite': 'True', 'title': 'Indiana Jones: The raiders of the lost Ark'}
{'favorite': 'True', 'title': 'THE KARATE KID'}
{'favorite': 'False', 'title': 'Back 2 the Future'}
{'favorite': 'False', 'title': 'X-Men'}
{'favorite': 'True', 'title': 'Batman Returns'}
{'favorite': 'False', 'title': 'Reservoir Dogs'}
{'favorite': 'False', 'title': 'ALIEN'}
{'favorite': 'True', 'title': "Ferris Bueller's Day Off"}
{'favorite': 'FALSE', 'title': 'American Psycho'}
{'favorite': 'False', 'title': 'Batman: The Movie'}
{'favorite': 'True', 'title': 'Easy A'}
{'favorite': 'True', 'title': 'Dinner for SCHMUCKS'}
{'favorite': 'False', 'title': 'Ghostbusters'}
{'favorite': 'True', 'title': 'Robin Hood: Prince of Thieves'}


In [13]:
for description in root.iter('description'):
    print(description.text)



				'Archaeologist and adventurer Indiana Jones 
				is hired by the U.S. government to find the Ark of the 
				Covenant before the Nazis.'
				
None provided.
Marty McFly
Two mutants come to a private academy for their kind whose resident superhero team must 
			   oppose a terrorist organization with similar powers.
NA.
WhAtEvER I Want!!!?!
"""""""""
Funny movie about a funny guy
psychopathic Bateman
What a joke!
Emma Stone = Hester Prynne
Tim (Rudd) is a rising executive
				 who “succeeds” in finding the perfect guest, 
				 IRS employee Barry (Carell), for his boss’ monthly event, 
				 a so-called “dinner for idiots,” which offers certain 
				 advantages to the exec who shows up with the biggest buffoon.
				 
Who ya gonna call?
Robin Hood slaying


In [14]:
for movie in root.findall("./genre/decade/movie/[year='1992']"):
    print(movie.attrib)


{'favorite': 'True', 'title': 'Batman Returns'}
{'favorite': 'False', 'title': 'Reservoir Dogs'}


In [15]:
for movie in root.findall("./genre/decade/movie/format/[@multiple='Yes']"):
    print(movie.attrib)


{'multiple': 'Yes'}
{'multiple': 'Yes'}
{'multiple': 'Yes'}
{'multiple': 'Yes'}
{'multiple': 'Yes'}


In [16]:
for movie in root.findall("./genre/decade/movie/format[@multiple='Yes']..."):
    print(movie.attrib)


{'favorite': 'True', 'title': 'THE KARATE KID'}
{'favorite': 'False', 'title': 'X-Men'}
{'favorite': 'False', 'title': 'Batman: The Movie'}
{'favorite': 'True', 'title': 'Dinner for SCHMUCKS'}
{'favorite': 'False', 'title': 'Ghostbusters'}


In [17]:
for movie in root.iter('movie'):
    print(movie.attrib)


{'favorite': 'True', 'title': 'Indiana Jones: The raiders of the lost Ark'}
{'favorite': 'True', 'title': 'THE KARATE KID'}
{'favorite': 'False', 'title': 'Back 2 the Future'}
{'favorite': 'False', 'title': 'X-Men'}
{'favorite': 'True', 'title': 'Batman Returns'}
{'favorite': 'False', 'title': 'Reservoir Dogs'}
{'favorite': 'False', 'title': 'ALIEN'}
{'favorite': 'True', 'title': "Ferris Bueller's Day Off"}
{'favorite': 'FALSE', 'title': 'American Psycho'}
{'favorite': 'False', 'title': 'Batman: The Movie'}
{'favorite': 'True', 'title': 'Easy A'}
{'favorite': 'True', 'title': 'Dinner for SCHMUCKS'}
{'favorite': 'False', 'title': 'Ghostbusters'}
{'favorite': 'True', 'title': 'Robin Hood: Prince of Thieves'}


In [18]:
b2tf = root.find("./genre/decade/movie[@title='Back 2 the Future']")
print(b2tf)


<Element 'movie' at 0x000002C53C484A40>


In [19]:
b2tf.attrib["title"] = "Back to the Future"
print(b2tf.attrib)


{'favorite': 'False', 'title': 'Back to the Future'}


In [20]:
tree.write("movies.xml")

tree = ET.parse('movies.xml')
root = tree.getroot()

for movie in root.iter('movie'):
    print(movie.attrib)


{'favorite': 'True', 'title': 'Indiana Jones: The raiders of the lost Ark'}
{'favorite': 'True', 'title': 'THE KARATE KID'}
{'favorite': 'False', 'title': 'Back to the Future'}
{'favorite': 'False', 'title': 'X-Men'}
{'favorite': 'True', 'title': 'Batman Returns'}
{'favorite': 'False', 'title': 'Reservoir Dogs'}
{'favorite': 'False', 'title': 'ALIEN'}
{'favorite': 'True', 'title': "Ferris Bueller's Day Off"}
{'favorite': 'FALSE', 'title': 'American Psycho'}
{'favorite': 'False', 'title': 'Batman: The Movie'}
{'favorite': 'True', 'title': 'Easy A'}
{'favorite': 'True', 'title': 'Dinner for SCHMUCKS'}
{'favorite': 'False', 'title': 'Ghostbusters'}
{'favorite': 'True', 'title': 'Robin Hood: Prince of Thieves'}


In [21]:
for form in root.findall("./genre/decade/movie/format"):
    print(form.attrib, form.text)


{'multiple': 'No'} DVD
{'multiple': 'Yes'} DVD,Online
{'multiple': 'No'} Blu-ray
{'multiple': 'Yes'} dvd, digital
{'multiple': 'No'} VHS
{'multiple': 'No'} Online
{'multiple': 'No'} DVD
{'multiple': 'No'} DVD
{'multiple': 'No'} blue-ray
{'multiple': 'Yes'} DVD,VHS
{'multiple': 'No'} DVD
{'multiple': 'Yes'} DVD,digital,Netflix
{'multiple': 'Yes'} Online,VHS
{'multiple': 'No'} Blu_Ray


In [22]:
import re

for form in root.findall("./genre/decade/movie/format"):
    # Search for the commas in the format text
    match = re.search(',',form.text)
    if match:
        form.set('multiple','Yes')
    else:
        form.set('multiple','No')

# Write out the tree to the file again
tree.write("movies.xml")

tree = ET.parse('movies.xml')
root = tree.getroot()

for form in root.findall("./genre/decade/movie/format"):
    print(form.attrib, form.text)


{'multiple': 'No'} DVD
{'multiple': 'Yes'} DVD,Online
{'multiple': 'No'} Blu-ray
{'multiple': 'Yes'} dvd, digital
{'multiple': 'No'} VHS
{'multiple': 'No'} Online
{'multiple': 'No'} DVD
{'multiple': 'No'} DVD
{'multiple': 'No'} blue-ray
{'multiple': 'Yes'} DVD,VHS
{'multiple': 'No'} DVD
{'multiple': 'Yes'} DVD,digital,Netflix
{'multiple': 'Yes'} Online,VHS
{'multiple': 'No'} Blu_Ray


In [23]:
for decade in root.findall("./genre/decade"):
    print(decade.attrib)
    for year in decade.findall("./movie/year"):
        print(year.text, '\n')


{'years': '1980s'}
1981 

1984 

1985 

{'years': '1990s'}
2000 

1992 

1992 

{'years': '1970s'}
1979 

{'years': '1980s'}
1986 

2000 

{'years': '1960s'}
1966 

{'years': '2010s'}
2010 

2011 

{'years': '1980s'}
1984 

{'years': '1990s'}
1991 



In [24]:
for movie in root.findall("./genre/decade/movie/[year='2000']"):
    print(movie.attrib)


{'favorite': 'False', 'title': 'X-Men'}
{'favorite': 'FALSE', 'title': 'American Psycho'}


In [25]:
action = root.find("./genre[@category='Action']")
new_dec = ET.SubElement(action, 'decade')
new_dec.attrib["years"] = '2000s'

print(ET.tostring(action, encoding='utf8').decode('utf8'))


<?xml version='1.0' encoding='utf8'?>
<genre category="Action">
		<decade years="1980s">
			<movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
				<format multiple="No">DVD</format>
				<year>1981</year>
				<rating>PG</rating>
				<description>
				'Archaeologist and adventurer Indiana Jones 
				is hired by the U.S. government to find the Ark of the 
				Covenant before the Nazis.'
				</description>
			</movie>
		   	<movie favorite="True" title="THE KARATE KID">
			   <format multiple="Yes">DVD,Online</format>
			   <year>1984</year>
			   <rating>PG</rating>
			   <description>None provided.</description>
			</movie>
			<movie favorite="False" title="Back to the Future">
			   <format multiple="No">Blu-ray</format>
			   <year>1985</year>
			   <rating>PG</rating>
			   <description>Marty McFly</description>
			</movie>
		</decade>
		<decade years="1990s">
			<movie favorite="False" title="X-Men">
			   <format multiple="Yes">dvd, digital</format>
			   <ye

In [26]:
xmen = root.find("./genre/decade/movie[@title='X-Men']")
dec2000s = root.find("./genre[@category='Action']/decade[@years='2000s']")
dec2000s.append(xmen)
dec1990s = root.find("./genre[@category='Action']/decade[@years='1990s']")
dec1990s.remove(xmen)

print(ET.tostring(action, encoding='utf8').decode('utf8'))


<?xml version='1.0' encoding='utf8'?>
<genre category="Action">
		<decade years="1980s">
			<movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
				<format multiple="No">DVD</format>
				<year>1981</year>
				<rating>PG</rating>
				<description>
				'Archaeologist and adventurer Indiana Jones 
				is hired by the U.S. government to find the Ark of the 
				Covenant before the Nazis.'
				</description>
			</movie>
		   	<movie favorite="True" title="THE KARATE KID">
			   <format multiple="Yes">DVD,Online</format>
			   <year>1984</year>
			   <rating>PG</rating>
			   <description>None provided.</description>
			</movie>
			<movie favorite="False" title="Back to the Future">
			   <format multiple="No">Blu-ray</format>
			   <year>1985</year>
			   <rating>PG</rating>
			   <description>Marty McFly</description>
			</movie>
		</decade>
		<decade years="1990s">
			<movie favorite="True" title="Batman Returns">
			   <format multiple="No">VHS</format>
			   <year

In [27]:
tree.write("movies.xml")

tree = ET.parse('movies.xml')
root = tree.getroot()

print(ET.tostring(root, encoding='utf8').decode('utf8'))


<?xml version='1.0' encoding='utf8'?>
<collection>
	<genre category="Action">
		<decade years="1980s">
			<movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
				<format multiple="No">DVD</format>
				<year>1981</year>
				<rating>PG</rating>
				<description>
				'Archaeologist and adventurer Indiana Jones 
				is hired by the U.S. government to find the Ark of the 
				Covenant before the Nazis.'
				</description>
			</movie>
		   	<movie favorite="True" title="THE KARATE KID">
			   <format multiple="Yes">DVD,Online</format>
			   <year>1984</year>
			   <rating>PG</rating>
			   <description>None provided.</description>
			</movie>
			<movie favorite="False" title="Back to the Future">
			   <format multiple="No">Blu-ray</format>
			   <year>1985</year>
			   <rating>PG</rating>
			   <description>Marty McFly</description>
			</movie>
		</decade>
		<decade years="1990s">
			<movie favorite="True" title="Batman Returns">
			   <format multiple="No">VHS</forma