# Manipulación de un archivo XML con Python

El extenso lenguaje de marcado admite la representación jerárquica de los datos. Comprender el análisis y la modificación de un archivo XML es esencial para hacer web scraping. Este artículo explica la búsqueda, modificación y procesamiento del documento XML. Para una mejor comprensión, consideremos el siguiente ejemplo:

![Picture title](image-20230713-183118.png)

### Análisis del archivo XML:

Para analizar un archivo XML, primero importe el paquete ElementTree para analizar un archivo XML. ET es un alias de uso común para ElementTree. El análisis es un proceso en el que la interfaz lee los documentos XML. Después de leer el archivo XML, la interfaz puede realizar ciertas funciones como búsqueda, construcción, modificaciones.

In [None]:
import xml.etree.ElementTree as ET
tree = ET.parse('xml_1.xml')
root = tree.getroot()

### Accediendo al texto de cada nodo en el archivo XML:

Mientras se analizan los archivos XML, los elementos de texto se almacenan en forma de tabla. Se puede acceder a esta tabla utilizando un nodo matriz. Pasando valores de nodo, se puede acceder al texto del elemento.

In [None]:
import xml.etree.ElementTree as ET
tree = ET.parse('xml_1.xml')
root = tree.getroot()
print(root[0][0].text)
print(root[1][0].text)
print(root[1][1].text)

100
109
4


> Nota: El atributo .text se utiliza para acceder al texto de cualquier elemento que haga esto.

### Impresión de etiquetas y atributos de un elemento :

Se puede acceder a los elementos con atributos mediante iter( ). Cualquier elemento con atributos puede pasarse como parámetro al método iter( ). Se puede acceder a la etiqueta que describe el elemento utilizando .tag y a los atributos utilizando .attrib

In [None]:
import xml.etree.ElementTree as ET
tree = ET.parse('xml_1.xml')
root = tree.getroot()
for i in root.iter('student'):
     print(i.tag,i.attrib)

student {'name': 'John'}
student {'name': 'Sinha'}
student {'name': 'Gemmy'}
student {'name': 'Nick'}


> Nota: Si no hay ningún atributo en el elemento pasado, la salida será none.

### Cómo acceder al texto de todos los elementos con el mismo nombre en el archivo XML:

Es posible encontrar todo el texto en los elementos utilizando el método find( ) y el atributo .text. El método find( ) devuelve el primer hijo de la etiqueta pasada.

In [None]:
import xml.etree.ElementTree as ET
tree = ET.parse('xml_1.xml')
root = tree.getroot()
for student in root.findall('student'):
    id= student.find('id').text
    print(id)

100
109
122
102


> Nota: En este programa, puede utilizar el método findall( ) o iter( ), ambos darán como resultado la misma salida.

### Comprueba una condición y elimina el elemento de los documentos XML:

Se puede comprobar cualquier condición y eliminar varios elementos. En este caso, vamos a eliminar aquellos elementos con un año superior a 2018. Usando el bucle for con findall() encontrará los hijos del elemento actual

In [None]:
import xml.etree.ElementTree as ET
tree = ET.parse('xml_1.xml')
root = tree.getroot()
for student in root.findall('student'):
    year_data=int(student.find('year').text)
    if year_data >2018:
        root.remove(student)
tree.write('removed.xml')

> Nota: Se utiliza if para comprobar la condición y el método .remove para eliminar el elemento alumno

### Cómo modificar un elemento del documento XML:

Puede actualizar todos los elementos con un nombre o modificar un solo elemento aplicando condiciones. Para modificar un elemento utilice el método .set('clave','valor'). En este programa, vamos a cambiar un rango si el rango es superior a 4.

In [None]:
import xml.etree.ElementTree as ET
tree = ET.parse('xml_1.xml')
root = tree.getroot()
for rank in root.iter('rank'):
    new_rank = int(rank.text) + 1
    rank.text = str(new_rank)
    rank.set('changed', 'yes')               

tree.write('change.xml')

> Nota: Si utiliza findall( ) en este programa, no funcionará. Porque sólo encuentra elementos que son hijos directos del elemento actual.

### Encontrar todas las etiquetas del documento XML:

Todos los elementos tienen una etiqueta (tag), y algunos elementos tienen atributos. Con este programa imprimirás todas las etiquetas y atributos del documento XML.

In [None]:
import xml.etree.ElementTree as ET
tree = ET.parse('xml_1.xml')
root = tree.getroot()
for elem in root.iter():
    print(elem.tag,elem.attrib)

data {}
student {'name': 'John'}
id {}
rank {}
year {}
student {'name': 'Sinha'}
id {}
rank {}
year {}
student {'name': 'Gemmy'}
id {}
rank {}
year {}
student {'name': 'Nick'}
id {}
rank {}
year {}


> Nota: Los elementos sin atributos se devolverán vacíos

### Diferencia entre find( ), findall( ) e iter( ):

Element.find( ) sólo devuelve el valor del primer hijo de la etiqueta en cuestión. Element.findall( ) sólo itera sobre los elementos que son hijos directos del elemento actual. Element.iter( ) itera sobre todos los elementos y el subelemento de la etiqueta.

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=a3bc9df5-e57b-40cb-ad67-f08cef3ec87f' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>