# Introducción a la validación XML en Python

Para validar archivos XML con un XML Schema con Python podemos usar la librería [xmlschema](https://pypi.org/project/xmlschema/).

# Instalación de xmlschema

Como la mayoría de los paquetes externos de Python, podemos instalar la librería usando `pip`.



In [1]:
pip install xmlschema

Collecting xmlschema
  Downloading xmlschema-1.10.0-py3-none-any.whl (273 kB)
[K     |████████████████████████████████| 273 kB 7.6 MB/s 
[?25hCollecting elementpath<3.0.0,>=2.5.0
  Downloading elementpath-2.5.0-py3-none-any.whl (181 kB)
[K     |████████████████████████████████| 181 kB 61.0 MB/s 
[?25hInstalling collected packages: elementpath, xmlschema
Successfully installed elementpath-2.5.0 xmlschema-1.10.0


# Uso básico de xmlschema

## Importar la librería

Para poder utilizar xmlschema en cualquier script, debemos importarla primero.

In [2]:
import xmlschema

## Validación de XML usando strings



En el siguiente fragmento de código, almacenamos un Schema XML en la variable `schema` usando el constructor `XMLSchema` de la librería.

El Schema XML se suministra al constructor directamente como un string. En Python, el uso de las triples comillas `"""` permite definir un string largo en varias líneas, de forma que la lectura del código sea más sencilla.

In [None]:
 schema = xmlschema.XMLSchema("""
 <xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema">
  <xs:element name="BIBLIOTECA">
    <xs:complexType>
      <xs:sequence>
        <xs:element name="LIBRO" minOccurs="1" maxOccurs="unbounded">
          <xs:complexType>
            <xs:sequence>
              <xs:element name="TITULO" type="xs:string"/>
              <xs:element name="AUTOR" type="xs:string" minOccurs="0" maxOccurs="unbounded"/>
              <xs:element name="ANYO" type="xs:string" minOccurs="0" />
              <xs:element name="EDITORIAL" type="xs:string" minOccurs="0" />
            </xs:sequence>
            <xs:attribute name="COD" type="xs:string" />
          </xs:complexType>
        </xs:element>
      </xs:sequence>
    </xs:complexType>
  </xs:element>
</xs:schema>
""")

Usando el método `is_valid` del Schema XML definido en la variable `schema`, podemos pasarle un XML y nos devolverá si se valida correctamente o no.

In [None]:
schema.is_valid("""
<BIBLIOTECA xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
 xsi:noNamespaceSchemaLocation="biblioteca-m_rusas.xsd">
	<LIBRO COD="1">
		<TITULO>XML práctico</TITULO>
		<AUTOR>Thierry Boulanger</AUTOR>
		<ANYO>2015</ANYO>
		<EDITORIAL>Ediciones ENI</EDITORIAL>
	</LIBRO>
	<LIBRO COD="11">
		<TITULO>Learning XML</TITULO>
		<AUTOR>Erik T. Ray</AUTOR>
		<ANYO>2003</ANYO>
		<EDITORIAL>O'Reilly</EDITORIAL>
	</LIBRO>
</BIBLIOTECA>
""")

True

## Validación de XML usando archivos

Por supuesto, es más cómodo realizar la validación directamente sobre los archivos en lugar de poner su contenido como cadenas de texto (strings).

Si quieres ejecutar el código a continuación, debes **subir los archivos** necesarios que podrás descargar [aquí](https://github.com/IES-Rafael-Alberti/LMSGI-21-22-codes/raw/main/xml/validacion/ejemplos-validacion-xml.zip) a este entorno de ejecución. Para ello, **pulsa en el icono de la carpeta en la barra lateral izquierda y arrastra al explorador de archivos que aparecerá esos ficheros descomprimidos**.

El código es exactamente el mismo que el que hemos utilizado en el ejemplo anterior, pero pasando como argumento la ruta del archivo en lugar del string.

In [3]:
schema = xmlschema.XMLSchema('biblioteca-m_rusas.xsd')

In [4]:
schema.is_valid('biblioteca.xml')

True

In [6]:
schema.is_valid('biblioteca-error.xml')

False

## Descripción de errores

El método `is_valid` es muy útil para comprobar si un fichero XML se valida con el Schema o no. Pero en el caso de que no lo valide devuelve `False` sin indicar el motivo. Si queremos conocerlo, podemos utilizar `validate`. Este método no devuelve nada si la validación se realiza correctamente y devuelve un error descriptivo en caso contrario.

Por ejemplo, cuando la validación se realiza correctamente no devuelve nada:

In [7]:
schema.validate('biblioteca.xml')

Pero en caso contrario, devuelve un error. En el archivo `biblioteca-error.xml` se ha quitado la etiqueta TITULO a uno de los libros:

In [None]:
schema.validate('biblioteca-error.xml')

XMLSchemaChildrenValidationError: ignored

Fíjate que el error se describe en la línea:

`Reason: Unexpected child with tag 'AUTOR' at position 1. Tag 'TITULO' expected.`