# XML: Creación, Validación y Utilización
## Entidades en los DTD
Una entidad en un DTD es equivalente a una constante en programación. Al definir una entidad, se le asigna un nombre y un valor que sustituirá a las referencias a dicho nombre. Las entidades pueden ser internas o externas.

### Definición de una entidad interna
La sintaxis para declarar una entidad interna es la siguiente:

In [None]:
<!ENTITY nombre-entidad "texto de reemplazo">

Ejemplo de uso en un documento XML:

In [None]:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE fichas [
  <!ENTITY poblacion "Tejeda de Tiétar, Cáceres">
]>
<fichas>
  <ficha>
    <empresa nombre="Tractores Toledo"></empresa>
    <direccion>&poblacion;</direccion>
  </ficha>
  <ficha>
    <empresa nombre="Congelados Kurylenko"></empresa>
    <direccion>&poblacion;</direccion>
  </ficha>
</fichas>

## Entidades Externas
Las entidades externas pueden ser públicas o privadas. Se definen fuera del DTD.

In [None]:
<!ENTITY nombre-entidad SYSTEM "URI/URL">

Ejemplo de aplicación de entidades internas y externas:

In [None]:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE fichas [
  <!ENTITY poblacion "Tejeda de Tiétar">
  <!ENTITY provincia SYSTEM "provincia.txt">
  <!ENTITY detalle SYSTEM "ficha.xml">
]>
<fichas>
    <poblacion>&poblacion;</poblacion>
    <provincia>&provincia;</provincia>
    <detalle>&detalle;</detalle>
</fichas>

O esta otra:

In [None]:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE fichas [
<!ENTITY poblacion "Tejeda de Tiétar">
<!ENTITY provincia SYSTEM "https://127.0.0.1:80/mis xml/provincia.txt">
<!ENTITY detalle SYSTEM "https://127.0.0.1:80/mis xml/ficha.xml">
]>
<fichas>
    <poblacion>&poblacion;</poblacion>
    <provincia>&provincia;</provincia>
    <detalle>&detalle;</detalle>
</fichas>

El contenido de provincia.txt sería:

Cáceres

El contenido de ficha.xml es:

In [None]:
<distribuidores>
    <codigo>10834</codigo>
    <description>Distribuidores oficiales</description>
</distribuidores>

La salida será:

In [None]:
<?xml version="1.0" encoding="UTF-8"?>
<fichas>
    <poblacion>Tejeda de Tiétar</poblacion>
    <provincia>Cáceres</provincia>
    <detalle>
        <distribuidores>
            <codigo>10834</codigo>
            <description>Distribuidores oficiales</description>
        </distribuidores>
    </detalle>
</fichas>

Debido a la seguridad aplicada a los navegadores de internent los DTD, no son ejecutados, para proteger al equipo de un ataque XXE (XML External Entity).

In [None]:
from lxml import etree

# Habilitar la resolución de entidades externas
varParser = etree.XMLParser(resolve_entities=True, load_dtd=True, no_network=False)

# Cargar el archivo XML
xml_path = "ejercicio2.xml"  # Ruta a tu archivo XML
elParser = etree.parse(xml_path, varParser)

# Mostrar el XML procesado
print(etree.tostring(elParser, pretty_print=True).decode())

## Notaciones en XML
Las notaciones se utilizan para identificar el formato de entidades que no serán procesadas o para definir valores válidos en atributos.

In [None]:
<!NOTATION nombre SYSTEM "URI">

## Ejemplo de DTD interno
Un DTD interno define la estructura esperada de un documento XML dentro del propio documento.

In [None]:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE cv [
  <!ELEMENT cv (nombre, direccion, telefono, fax?, email+, idiomas)>
  <!ELEMENT nombre (#PCDATA)>
  <!ELEMENT direccion (#PCDATA)>
  <!ELEMENT telefono (#PCDATA)>
  <!ELEMENT fax (#PCDATA)>
  <!ELEMENT email (#PCDATA)>
  <!ELEMENT idiomas (idioma*)>
  <!ELEMENT idioma (#PCDATA)>
]>
<cv>
  <nombre>Desmond Miles</nombre>
  <direccion>Black Hills, Dakota del Sur, EE.UU.</direccion>
  <telefono>+1-555-73-66-58</telefono>
  <email>desmond.miles@servidordeprueba.org</email>
  <email>desmond.miles@otroservidor.fr</email>
  <idiomas>
    <idioma>Francés</idioma>
    <idioma>Inglés</idioma>
    <idioma>Italiano</idioma>
  </idiomas>
</cv>

### 1. `<!ELEMENT cv (nombre, direccion, telefono, fax?, email+, idiomas)>`

Esta declaración define la estructura del elemento `<cv>`. Indica que el elemento `<cv>` debe contener los siguientes elementos en el orden especificado:

- **`nombre`**: Un elemento obligatorio que debe aparecer exactamente una vez.
- **`direccion`**: Un elemento obligatorio que debe aparecer exactamente una vez.
- **`telefono`**: Un elemento obligatorio que debe aparecer exactamente una vez.
- **`fax?`**: Un elemento opcional (indicado por el signo `?`), que puede aparecer una vez o no aparecer.
- **`email+`**: Uno o más elementos `email` (indicado por el signo `+`). Debe haber al menos un elemento `email`, pero puede haber varios.
- **`idiomas`**: Un elemento obligatorio que debe aparecer exactamente una vez.

En resumen, el elemento `<cv>` debe tener exactamente un `<nombre>`, una `<direccion>`, un `<telefono>`, opcionalmente un `<fax>`, uno o más `<email>`, y exactamente un `<idiomas>`.

---

### 2. `<!ELEMENT idiomas (idioma*)>`

Esta declaración define la estructura del elemento `<idiomas>`. Indica que el elemento `<idiomas>` puede contener cero o más elementos `<idioma>` (indicado por el signo `*`).

- **`idioma*`**: Puede haber cero o más elementos `<idioma>` dentro de `<idiomas>`.

En resumen, el elemento `<idiomas>` puede estar vacío o contener cualquier número de elementos `<idioma>`.

---

### Ejemplo en el XML proporcionado:

In [None]:
<?xml version="1.0" encoding="UTF-8"?>
<cv>
  <nombre>Desmond Miles</nombre>
  <direccion>Black Hills, Dakota del Sur, EE.UU.</direccion>
  <telefono>+1-555-73-66-58</telefono>
  <email>desmond.miles@servidordeprueba.org</email>
  <email>desmond.miles@otroservidor.fr</email>
  <idiomas>
    <idioma>Francés</idioma>
    <idioma>Inglés</idioma>
    <idioma>Italiano</idioma>
  </idiomas>
</cv>

<h3><code>&lt;EMPTY&gt;</code></h3>

Elementos vacíos: Si un elemento no tiene contenido, se declara como EMPTY.

Ejemplo:`<!ELEMENT br EMPTY>` (para un salto de línea en HTML).

<body>
  <h3><code>&lt;!ATTLIST&gt;</code></h3>
  <p>Esta declaración define los atributos de un elemento. Los atributos permiten añadir información adicional a los elementos en un documento XML.</p>

  <h4>Estructura:</h4>
  <pre><code>&lt;!ATTLIST nombre_elemento
  nombre_atributo valores_admitidos valor_por_defecto&gt;
</code></pre>

  <h4>Ejemplo:</h4>
  <pre><code>&lt;!ATTLIST idioma
  nivel (basico | intermedio | avanzado) "basico"
  codigo CDATA #REQUIRED&gt;
</code></pre>

  <ul>
    <li><strong><code>nivel</code></strong>: Un atributo con valores predefinidos (<code>basico</code>, <code>intermedio</code>, <code>avanzado</code>) y un valor por defecto (<code>"basico"</code>).</li>
    <li><strong><code>codigo</code></strong>: Un atributo obligatorio (<code>#REQUIRED</code>) que acepta cualquier texto (<code>CDATA</code>).</li>
  </ul>

  <h4>Tipos de atributos:</h4>
  <ul>
    <li><strong><code>CDATA</code></strong>: Texto sin formato.</li>
    <li><strong>Diferencia clave:</strong></li>
    <p>PCDATA es analizado por el analizador XML, lo que significa que las etiquetas y entidades se interpretan.</p>
    <p>CDATA no es analizado, por lo que el contenido se trata como texto plano, incluso si contiene caracteres especiales o etiquetas.</p>
    <li><strong>Valores predefinidos</strong>: Lista de valores posibles, como <code>(basico | intermedio | avanzado)</code>.</li>
    <li><strong><code>#REQUIRED</code></strong>: El atributo es obligatorio.</li>
    <li><strong><code>#IMPLIED</code></strong>: El atributo es opcional.</li>
    <li><strong><code>#FIXED</code></strong>: El atributo tiene un valor fijo que no puede cambiarse.</li>
  </ul>

  <p>En resumen, los atributos permiten añadir detalles adicionales a los elementos, como valores predefinidos, texto libre, o indicar si son obligatorios u opcionales.</p>

  <hr>

  <h3><code>Elementos opcionales y alternativos</code></h3>

  <h4>Elementos opcionales:</h4>
  <ul>
    <li><strong><code>?</code></strong>: El elemento puede aparecer <strong>0 o 1 vez</strong>.</li>
    <li><strong><code>*</code></strong>: El elemento puede aparecer <strong>0 o más veces</strong>.</li>
  </ul>

  <h4>Elementos alternativos:</h4>
  <p>Usando el operador <code>|</code> para indicar que solo uno de los elementos puede aparecer.</p>

  <h4>Ejemplo:</h4>
  <pre><code>&lt;!ELEMENT contacto (email | telefono)&gt;
</code></pre>
  <p>Aquí, el elemento <code>&lt;contacto&gt;</code> puede contener <strong>o bien</strong> un <code>&lt;email&gt;</code> <strong>o bien</strong> un <code>&lt;telefono&gt;</code>, pero no ambos.</p>

  <h4>Combinación de opciones:</h4>
  <p>Puedes combinar cardinalidad y alternativas.</p>
  <h5>Ejemplo:</h5>
  <pre><code>&lt;!ELEMENT contacto (email | telefono)*&gt;
</code></pre>
  <p>Esto permite que el elemento <code>&lt;contacto&gt;</code> contenga <strong>cero o más</strong> elementos, que pueden ser <code>&lt;email&gt;</code> o <code>&lt;telefono&gt;</code> en cualquier orden.</p>

  <p>En resumen, los elementos opcionales y alternativos permiten flexibilidad en la estructura del XML, pudiendo elegir entre diferentes opciones o permitir que algunos elementos no estén presentes.</p>

  <hr>

  <h3>Ejemplo en XML:</h3>
  </body>
</html>


In [None]:
<?xml version="1.0" encoding="UTF-8"?>
<cv>
  <nombre>Desmond Miles</nombre>
  <direccion>Black Hills, Dakota del Sur, EE.UU.</direccion>
  <telefono>+1-555-73-66-58</telefono>
  <email>desmond.miles@servidordeprueba.org</email>
  <email>desmond.miles@otroservidor.fr</email>
  <idiomas>
    <idioma nivel="avanzado" codigo="FR">Francés</idioma>
    <idioma nivel="intermedio" codigo="EN">Inglés</idioma>
    <idioma nivel="basico" codigo="IT">Italiano</idioma>
  </idiomas>
  <contacto>
    <email>desmond.miles@contacto.com</email>
  </contacto>
</cv>


  <ul>
    <li>El atributo <code>nivel</code> en <code>&lt;idioma&gt;</code> tiene valores predefinidos y un valor por defecto.</li>
    <li>El atributo <code>codigo</code> es obligatorio y acepta cualquier texto.</li>
    <li>El elemento <code>&lt;contacto&gt;</code> contiene un <code>&lt;email&gt;</code>, pero también podría contener un <code>&lt;telefono&gt;</code>.</li>
  </ul>


  <h3>Orden de los elementos</h3>
  <p>
    Los elementos deben aparecer en el <strong>orden exacto</strong> en que se declaran en la DTD.
  </p>

  <h4>Ejemplo:</h4>
  <p>
    En la declaración:
  </p>
  <pre><code>&lt;!ELEMENT cv (nombre, direccion, telefono, fax?, email+, idiomas)&gt;</code></pre>
  <p>
    El orden de los elementos debe ser:
  </p>
  <ol>
    <li><code>&lt;nombre&gt;</code></li>
    <li><code>&lt;direccion&gt;</code></li>
    <li><code>&lt;telefono&gt;</code></li>
    <li><code>&lt;fax&gt;</code> (opcional, puede aparecer una vez o no aparecer)</li>
    <li><code>&lt;email&gt;</code> (uno o más)</li>
    <li><code>&lt;idiomas&gt;</code></li>
  </ol>

  <h4>¿Qué pasa si no se respeta el orden?</h4>
  <p>
    Si los elementos no aparecen en el orden especificado en la DTD, el documento XML se considerará <strong>inválido</strong>.
  </p>