# Gestión y uso de Metadatos

## Librerías Necesarias

xml.etree.ElementTree

requests

In [None]:
import xml.etree.ElementTree as ET
import requests

## Metadata attachment

En este Notebook descubriremos cómo pueden explotarse metadatos publicados en formatos basados en etiquetas, como XML.

<img src="https://www.republica.com/wp-content/uploads/2017/04/grito.jpg " width="250">

Vamos a empezar por describir un par de objetos, empezando por un cuadro, "El grito", de  Edvard Munch.

* Title: 
* Creator: 
* Subject:  
* Description: 
* Publisher: 
* Contributor:
* Date: 
* Type: 
* Format: 
* Identifier: 
* Source: 
* Language:
* Relation:
* Coverage:  
* Rights:

Con Dublin Core también podemos describir datasets científicos. Vamos a probar con:

https://zenodo.org/record/3372754#.XcFkhE9Kg5k

<div class="alert alert-warning" role="alert" style="margin: 10px">
<p>**Consejo**</p>

<p>En el propio repositorio puedes encontrar metadatos</p>
</div>

* Title: 
* Creator: 
* Subject:  
* Description: 
* Publisher: 
* Contributor:
* Date: 
* Type: 
* Format: 
* Identifier: 
* Source: 
* Language:
* Relation:
* Coverage:  
* Rights:

A partir de las descripciones, podemos crear documentos XML que sean interpretables por máquinas (entendiendo máquinas como scripts, software, etc). 

El grito:
  
  ```XML
 <dc:contributor></dc:contributor>
  <dc:coverage></dc:coverage>
  <dc:creator></dc:creator>
  <dc:date></dc:date>
  <dc:description></dc:description>
  <dc:format></dc:format>
  <dc:identifier></dc:identifier>
  <dc:language></dc:language>
  <dc:publisher></dc:publisher>
  <dc:relation></dc:relation>
  <dc:rights></dc:rights>
  <dc:source></dc:source>
  <dc:title></dc:title>
  <dc:type></dc:type>
```

Dataset:
  ```XML
 <dc:contributor> </dc:contributor>
  <dc:coverage> </dc:coverage>
  <dc:creator></dc:creator>
  <dc:date></dc:date>
  <dc:subject></dc:subject>
  <dc:description></dc:description>
  <dc:format>  </dc:format>
  <dc:identifier></dc:identifier>
  <dc:language> </dc:language>
  <dc:publisher></dc:publisher>
  <dc:relation> </dc:relation>
  <dc:rights> </dc:rights>
  <dc:source> </dc:source>
  <dc:title></dc:title>
  <dc:type></dc:type>
```

Ahora vamos a ver cómo podemos manejar estos datos en Python. Para ello, utilizaremos la librería xml.

Para crear un documento XML bien formado, es necesario definir dónde está descrito el prefijo Dublin Core o "dc:". Para ello, añadimos antes de los datos la siguiente cabecera:

```XML
<?xml version="1.0" encoding="UTF-8" standalone="no"?><?xml-stylesheet type="text/xsl" href="/webservices/catalog/xsl/searchRetrieveResponse.xsl"?>
<searchRetrieveResponse xmlns:oclcterms="http://purl.org/oclc/terms/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:diag="http://www.loc.gov/zing/srw/diagnostic/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
```

Sin olvidar añadir al final:

```XML
</searchRetrieveResponse>
```

In [None]:
import xml.etree.ElementTree as ET
dc_xml = '''<?xml version="1.0" encoding="UTF-8" standalone="no"?><?xml-stylesheet type="text/xsl" href="/webservices/catalog/xsl/searchRetrieveResponse.xsl"?>
<searchRetrieveResponse xmlns:oclcterms="http://purl.org/oclc/terms/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:diag="http://www.loc.gov/zing/srw/diagnostic/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">


     <dc:contributor>Edvard Munch </dc:contributor>
  <dc:coverage>Lugar indeterminado</dc:coverage>
  <dc:creator>Edvard Munch </dc:creator>
  <dc:date>1910</dc:date>
  <dc:description>Cuadro...</dc:description>
  <dc:format>Oleo sobre carton</dc:format>
  <dc:identifier>id_museo_grito</dc:identifier>
  <dc:language></dc:language>
  <dc:publisher>Galeria nacional de Oslo</dc:publisher>
  <dc:relation>cuadro1, cuadro2, cuadro3</dc:relation>
  <dc:rights>Acceso al museo</dc:rights>
  <dc:source></dc:source>
  <dc:title>El grito</dc:title>
  <dc:type>Cuadro</dc:type>



</searchRetrieveResponse>'''

tree = ET.fromstring(dc_xml)
tree

Si queremos recorrer los elementos del XML que hemos formado, podemos utilizar un bucle, teniendo en cuenta que la información que nos interesa la tenemos en el elemento raíz 'searchRetrieveResponse':

In [None]:
for table in tree.iter('searchRetrieveResponse'):
    for child in table:
        print(child.tag, child.text)

Observa que, al utilizar el prefijo 'dc:' e indicarle que está descrito en la URL 'http://purl.org/dc/elements/1.1/', la eqtiqueta o "tag" aparece como, por ejemplo {URL}contributor.

Prueba a mostrar los metadatos que has creado a partir del cuadro y del dataset:

In [None]:
for table in tree.iter('searchRetrieveResponse'):
    for child in table:
        print(child.text)

Utilizando findall() sobre el arbol (tree), podemos encontrar todos los elementos con una etiqueta determinada.

In [None]:
relation = tree.findall('{http://purl.org/dc/elements/1.1/}relation')
print(relation)

Ten en cuenta que lo que encontramos es, en realidad, una parte del documento XML, por lo que hay que iterarlo como antes:

In [None]:
for child in relation:
    print(child.tag, child.text)

XML utiliza prefijos para no necesitar referenciar a la URL de un tipo cada vez, lo podemos ver en la cabecera:

```XML
<?xml version="1.0" encoding="UTF-8" standalone="no"?><?xml-stylesheet type="text/xsl" href="/webservices/catalog/xsl/searchRetrieveResponse.xsl"?>
<searchRetrieveResponse xmlns:oclcterms="http://purl.org/oclc/terms/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:diag="http://www.loc.gov/zing/srw/diagnostic/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">'''
```

Por ejemplo, cada vez que queremos utilizar un tipo de Dublin Core, utilizamos el prefijo dc: que equivale a llamar a la definición:

xmlns:dc="http://purl.org/dc/elements/1.1/"

Sin embargo, para utilizar ElementTree en Python, tenemos que utilizar la URL completa. Esto puede resultar un poco engorroso, así que podemos definir el namespace para utilizar también el prefijo:

In [None]:
namespaces = {'dc': 'http://purl.org/dc/elements/1.1/'} # add more as needed

tree.find('dc:rights',namespaces).text

Los documentos XML, aparte de las etiquetas y los valores, pueden contener atributos. Dado el siguiente ejemplo, vamos a ver cómo obtener la lista y los valores de los atributos

In [None]:
dc_xml = '''<?xml version="1.0" encoding="UTF-8" standalone="no"?><?xml-stylesheet type="text/xsl" href="/webservices/catalog/xsl/searchRetrieveResponse.xsl"?>
<searchRetrieveResponse xmlns:oclcterms="http://purl.org/oclc/terms/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:diag="http://www.loc.gov/zing/srw/diagnostic/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<dc:contributor>asdsadsad</dc:contributor>
<dc:coverage>dfsd</dc:coverage>
<dc:creator>sadsa</dc:creator>
<dc:date>sadas</dc:date>
<dc:description atributo1="valor1" atributo2="valor2">sadsa</dc:description>
<dc:format>sadasd</dc:format>
<dc:identifier>sadsad</dc:identifier>
<dc:language>asdasd</dc:language>
<dc:publisher>wqewq</dc:publisher>
<dc:relation >wqeqw</dc:relation>
<dc:rights>ffefe</dc:rights>
<dc:source>vfvf</dc:source>
<dc:title>wqewqe</dc:title>
<dc:type>ewfrb</dc:type>
</searchRetrieveResponse>'''

tree2 = ET.fromstring(dc_xml)

In [None]:
tree2.find('dc:description',namespaces).attrib

Conociendo los nombres de estos atributos, puedes extraer su valor. Esto serviría para dar una información adicional al contenido de la etiqueta. Por ejemplo, se podría añadir el idioma como atributo en la descripción.

In [None]:
print(tree2.find('dc:description',namespaces).attrib['atributo1'])
print(tree2.find('dc:description',namespaces).attrib['atributo2'])


Vamos a analizar un documento XML más complejo, empezando por descargarlo:

In [None]:
import requests

response = requests.get('https://gist.githubusercontent.com/vivien/580729/raw/651d1b216357c0d7d9fc47075071fb482e11fb36/dublincore-example.xml')
if response.status_code == 200:
    with open("./dublincore-example.xml", 'wb') as f:
        f.write(response.content)

<div class="alert alert-warning" role="alert" style="margin: 10px">
<p>**Recuerda!**</p>

<p>Jupyter permite ejecutar ciertos comandos bash</p>
</div>

In [None]:
ls

Y lo cargamos en python:

In [None]:
tree = ET.parse('dublincore-example.xml')
namespaces = {'dc': 'http://purl.org/dc/elements/1.1/'} # add more as needed
for table in tree.iter('{http://www.loc.gov/zing/srw/}searchRetrieveResponse'):
    for child in table:
        print(child.tag, child.text)

In [None]:
all_records = tree.findall('{http://www.loc.gov/zing/srw/}records')
print(all_records)

In [None]:
for table in tree.iter('{http://www.loc.gov/zing/srw/}record'):
    for child in table:
        print(child.tag, child.text)

In [None]:
for table in tree.iter('{http://www.loc.gov/zing/srw/}recordData'):
    for child in table:
        print(child.tag, child.text)

In [None]:
for table in tree.iter('{http://www.loc.gov/zing/srw/}oclcdcs'):
    for child in table:
        print(child.tag, child.text)

In [None]:
table = tree.findall('//{http://purl.org/dc/elements/1.1/}identifier')
for child in table:
    print(child.tag, child.text)

In [None]:
relation = tree.findall('//{http://purl.org/dc/elements/1.1/}identifier')
for elem in relation:
    print(elem.tag, elem.text)

## XPATH

XPath es un lenguaje que permite construir expresiones que recorren y procesan un documento XML. La idea es parecida a las expresiones regulares para seleccionar partes de un texto sin atributos. XPath permite buscar y seleccionar teniendo en cuenta la estructura jerárquica del XML

<table border="1" class="docutils">
<colgroup>
<col width="30%">
<col width="70%">
</colgroup>
<thead valign="bottom">
<tr class="row-odd"><th class="head">Syntax</th>
<th class="head">Meaning</th>
</tr>
</thead>
<tbody valign="top">
<tr class="row-even"><td><code class="docutils literal notranslate"><span class="pre">tag</span></code></td>
<td>Selects all child elements with the given tag.
For example, <code class="docutils literal notranslate"><span class="pre">spam</span></code> selects all child elements
named <code class="docutils literal notranslate"><span class="pre">spam</span></code>, and <code class="docutils literal notranslate"><span class="pre">spam/egg</span></code> selects all
grandchildren named <code class="docutils literal notranslate"><span class="pre">egg</span></code> in all children named
<code class="docutils literal notranslate"><span class="pre">spam</span></code>.</td>
</tr>
<tr class="row-odd"><td><code class="docutils literal notranslate"><span class="pre">*</span></code></td>
<td>Selects all child elements.  For example, <code class="docutils literal notranslate"><span class="pre">*/egg</span></code>
selects all grandchildren named <code class="docutils literal notranslate"><span class="pre">egg</span></code>.</td>
</tr>
<tr class="row-even"><td><code class="docutils literal notranslate"><span class="pre">.</span></code></td>
<td>Selects the current node.  This is mostly useful
at the beginning of the path, to indicate that it’s
a relative path.</td>
</tr>
<tr class="row-odd"><td><code class="docutils literal notranslate"><span class="pre">//</span></code></td>
<td>Selects all subelements, on all levels beneath the
current  element.  For example, <code class="docutils literal notranslate"><span class="pre">.//egg</span></code> selects
all <code class="docutils literal notranslate"><span class="pre">egg</span></code> elements in the entire tree.</td>
</tr>
<tr class="row-even"><td><code class="docutils literal notranslate"><span class="pre">..</span></code></td>
<td>Selects the parent element.</td>
</tr>
<tr class="row-odd"><td><code class="docutils literal notranslate"><span class="pre">[@attrib]</span></code></td>
<td>Selects all elements that have the given attribute.</td>
</tr>
<tr class="row-even"><td><code class="docutils literal notranslate"><span class="pre">[@attrib='value']</span></code></td>
<td>Selects all elements for which the given attribute
has the given value.  The value cannot contain
quotes.</td>
</tr>
<tr class="row-odd"><td><code class="docutils literal notranslate"><span class="pre">[tag]</span></code></td>
<td>Selects all elements that have a child named
<code class="docutils literal notranslate"><span class="pre">tag</span></code>.  Only immediate children are supported.</td>
</tr>
<tr class="row-even"><td><code class="docutils literal notranslate"><span class="pre">[tag='text']</span></code></td>
<td>Selects all elements that have a child named
<code class="docutils literal notranslate"><span class="pre">tag</span></code> whose complete text content, including
descendants, equals the given <code class="docutils literal notranslate"><span class="pre">text</span></code>.</td>
</tr>
<tr class="row-odd"><td><code class="docutils literal notranslate"><span class="pre">[position]</span></code></td>
<td>Selects all elements that are located at the given
position.  The position can be either an integer
(1 is the first position), the expression <code class="docutils literal notranslate"><span class="pre">last()</span></code>
(for the last position), or a position relative to
the last position (e.g. <code class="docutils literal notranslate"><span class="pre">last()-1</span></code>).</td>
</tr>
</tbody>
</table>

Como ves, hay que ir entendiendo la jerarquía del XML para poder obtener la información. 

¿Puedes obtener los títulos de los recursos descritos en el XML?

<div class="alert alert-warning" role="alert" style="margin: 10px">
<p>**Ayuda**</p>

<p>'//' para indicar que empiece a buscar desde el elemento actual desde el que parte el arbol + tipo+nombre del elemento a buscar ({http://purl.org/dc/elements/1.1/} title)</p>
</div>

In [None]:
relation = tree.findall('.//{http://purl.org/dc/elements/1.1/}title')
for elem in relation:
    print(elem.tag, elem.text)

Haz lo mismo utilizando namespace

In [None]:
namespaces = {'dc': 'http://purl.org/dc/elements/1.1/'} # add more as needed
relation = tree.findall('.//dc:title',namespaces)
for elem in relation:
    print(elem.tag, elem.text)

## Ejemplo con EML

In [None]:
import requests

response = requests.get('https://zenodo.org/record/841691/files/amt_prototype.xml')
if response.status_code == 200:
    with open("./amt_prototype.xml", 'wb') as f:
        f.write(response.content)
        


In [None]:
ls

En estándares más complejos, el xml de base puede tener una jerarquía anidada, como es el caso de EML. Entonces, cada elemento puede tener de 0 a N "hijos", formando nuevos árboles.

In [None]:
tree = ET.parse('amt_prototype.xml')
root = tree.getroot()

for table in root.iter():
    for child in table:
        if len(child)==0:
            print(child.tag, child.text)

Explora un poco: Nombre del proyecto, autores, lista de atributos...

In [None]:
#elementos = tree.findall('/dataset[1]/creator/individualName/salutation')
elementos = tree.findall('.//attributeList/attribute[@id="1465311292527"]/attributeName')
for e in elementos:
    print(e.tag + ":", e.text)

In [None]:
elementos = tree.findall('.//dataset')
for e in elementos:
    print(e.tag + ":", e.text)
    for i in e.iter():
        print(i.tag + ":", i.text)

In [None]:
dataset = ET.SubElement(root,'dataset')
for table in dataset.iter():
    print(child.tag, child.text)

# Ejercicio personal

## Ejercicio 1

A partir del ejemplo completo del esquema de metadatos de DataCite, muestra por pantalla los elementos que sean equivalentes a los propuestos por Dublin Core (cada uno en una línea). Es posible que tengas que combinar en uno varios campos del archivo de metadatos (Por ejemplo, en coverage las coordenadas + el nombre).

* Title: 
* Creator: 
* Subject:  
* Description: 
* Publisher: 
* Contributor:
* Date: 
* Type: 
* Format: 
* Identifier: 
* Source: 
* Language:
* Relation:
* Coverage:  
* Rights:

Recurso: https://schema.datacite.org/meta/kernel-3.1/example/datacite-example-full-v3.1.xml

## Ejercicio 2

Haz un listado de todas las etiquetas del documento XML con sus atributos (si lo tienen)

## Ejercicio 3

Muestra los distintos identificadores que tiene ese documento de este modo: Identificador [tipo] = [identificador]

Ejemplo: Identificador DOI = 10.3122/121321

## Ejercicio 4

Modifica el documento XML "amt_prototype.xml" para que todos los atributos incluyan su unidad (completa si es necesario).

Una vez editado, muestra la lista de atributos con su unidad. 

Ejemplo:

"Atribute: Salinity | Unit: psu"