# Gestión y uso de Metadatos

En este Notebook descubriremos cómo pueden explotarse metadatos publicados en formatos basados en etiquetas, como XML.

<img src="https://www.republica.com/wp-content/uploads/2017/04/grito.jpg " width="250">

Vamos a empezar por describir un par de objetos, empezando por un cuadro, "El grito", de  Edvard Munch.

* Title: 
* Creator: 
* Subject:  
* Description: 
* Publisher: 
* Contributor:
* Date: 
* Type: 
* Format: 
* Identifier: 
* Source: 
* Language:
* Relation:
* Coverage:  
* Rights:

Con Dublin Core también podemos describir datasets científicos. Vamos a probar con:

https://zenodo.org/record/583733#.WfL3V3V96-o

<div class="alert alert-warning" role="alert" style="margin: 10px">
<p>**Consejo**</p>

<p>En el propio repositorio puedes encontrar metadatos</p>
</div>

* Title: 
* Creator: 
* Subject:  
* Description: 
* Publisher: 
* Contributor:
* Date: 
* Type: 
* Format: 
* Identifier: 
* Source: 
* Language:
* Relation:
* Coverage:  
* Rights:

A partir de las descripciones, podemos crear documentos XML que sean interpretables por máquinas (entendiendo máquinas como scripts, software, etc). 

El grito:
  
  ```XML
 <dc:contributor> </dc:contributor>
  <dc:coverage> </dc:coverage>
  <dc:creator> </dc:creator>
  <dc:date> </dc:date>
  <dc:description> </dc:description>
  <dc:format>  </dc:format>
  <dc:identifier> </dc:identifier>
  <dc:language> </dc:language>
  <dc:publisher> </dc:publisher>
  <dc:relation> </dc:relation>
  <dc:rights> </dc:rights>
  <dc:source> </dc:source>
  <dc:title> </dc:title>
  <dc:type> </dc:type>
```

Dataset:
  ```XML
 <dc:contributor> </dc:contributor>
  <dc:coverage> </dc:coverage>
  <dc:creator> </dc:creator>
  <dc:date> </dc:date>
  <dc:description> </dc:description>
  <dc:format>  </dc:format>
  <dc:identifier> </dc:identifier>
  <dc:language> </dc:language>
  <dc:publisher> </dc:publisher>
  <dc:relation> </dc:relation>
  <dc:rights> </dc:rights>
  <dc:source> </dc:source>
  <dc:title> </dc:title>
  <dc:type> </dc:type>
```

Ahora vamos a ver cómo podemos manejar estos datos en Python. Para ello, utilizaremos la librería xml.

PAra crear un documento XML bien formado, es necesario definir dónde está descrito el prefijo Dublin Core o "dc:". Para ello, añadimos antes de los datos la siguiente cabecera:

```XML
<?xml version="1.0" encoding="UTF-8" standalone="no"?><?xml-stylesheet type="text/xsl" href="/webservices/catalog/xsl/searchRetrieveResponse.xsl"?>
<searchRetrieveResponse xmlns:oclcterms="http://purl.org/oclc/terms/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:diag="http://www.loc.gov/zing/srw/diagnostic/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
```

Sin olvidar añadir al final:

```XML
</searchRetrieveResponse>
```

In [72]:
import xml.etree.ElementTree as ET
dc_xml = '''<?xml version="1.0" encoding="UTF-8" standalone="no"?><?xml-stylesheet type="text/xsl" href="/webservices/catalog/xsl/searchRetrieveResponse.xsl"?>
<searchRetrieveResponse xmlns:oclcterms="http://purl.org/oclc/terms/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:diag="http://www.loc.gov/zing/srw/diagnostic/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<dc:contributor>asdsadsad</dc:contributor>
<dc:coverage>dfsd</dc:coverage>
<dc:creator>sadsa</dc:creator>
<dc:date>sadas</dc:date>
<dc:description>sadsa</dc:description>
<dc:format>sadasd</dc:format>
<dc:identifier>sadsad</dc:identifier>
<dc:language>asdasd</dc:language>
<dc:publisher>wqewq</dc:publisher>
<dc:relation >wqeqw</dc:relation>
<dc:rights>ffefe</dc:rights>
<dc:source>vfvf</dc:source>
<dc:title>wqewqe</dc:title>
<dc:type>ewfrb</dc:type>
</searchRetrieveResponse>'''

tree = ET.fromstring(dc_xml)
tree

<Element 'searchRetrieveResponse' at 0x7f19d4e19b88>

Si queremos recorrer los elementos del XML que hemos formado, podemos utilizar un bucle, teniendo en cuenta que la información que nos interesa la tenemos en 'searchRetrieveResponse':

In [54]:
for table in tree.getiterator('searchRetrieveResponse'):
    for child in table:
        print(child.tag, child.text)

{http://purl.org/dc/elements/1.1/}contributor asdsadsad
{http://purl.org/dc/elements/1.1/}coverage dfsd
{http://purl.org/dc/elements/1.1/}creator sadsa
{http://purl.org/dc/elements/1.1/}date sadas
{http://purl.org/dc/elements/1.1/}description sadsa
{http://purl.org/dc/elements/1.1/}format sadasd
{http://purl.org/dc/elements/1.1/}identifier sadsad
{http://purl.org/dc/elements/1.1/}language asdasd
{http://purl.org/dc/elements/1.1/}publisher wqewq
{http://purl.org/dc/elements/1.1/}relation wqeqw
{http://purl.org/dc/elements/1.1/}rights ffefe
{http://purl.org/dc/elements/1.1/}source vfvf
{http://purl.org/dc/elements/1.1/}title wqewqe
{http://purl.org/dc/elements/1.1/}type ewfrb


Observa que, al utilizar el prefijo 'dc:' e indicarle que está descrito en la URL 'http://purl.org/dc/elements/1.1/', la eqtiqueta o "tag" aparece como, por ejemplo {URL}contributor.

Prueba a mostrar los metadatos que has creado a partir del cuadro y del dataset:

Utilizando findall() sobre el albor (tree), podemos encontrar todos los elementos con una etiqueta determinada.

In [59]:
relation = tree.findall('{http://purl.org/dc/elements/1.1/}relation')
print(relation)

[<Element '{http://purl.org/dc/elements/1.1/}relation' at 0x7f19d4e0ea98>]


Ten en cuenta que lo que encontramos es, en realidad, una parte del XML, por lo que hay que iterarlo como antes:

In [64]:
for child in relation:
    print(child.tag, child.text)

{http://purl.org/dc/elements/1.1/}relation wqeqw


Los documentos XML, aparte de las etiquetas y los valores, pueden contener atributos. Dado el siguiente ejemplo, vamos a ver cómo obtener la lista y los valores de los atributos

In [78]:
dc_xml = '''<?xml version="1.0" encoding="UTF-8" standalone="no"?><?xml-stylesheet type="text/xsl" href="/webservices/catalog/xsl/searchRetrieveResponse.xsl"?>
<searchRetrieveResponse xmlns:oclcterms="http://purl.org/oclc/terms/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:diag="http://www.loc.gov/zing/srw/diagnostic/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<dc:contributor>asdsadsad</dc:contributor>
<dc:coverage>dfsd</dc:coverage>
<dc:creator>sadsa</dc:creator>
<dc:date>sadas</dc:date>
<dc:description atributo1="valor1" atributo2="valor2">sadsa</dc:description>
<dc:format>sadasd</dc:format>
<dc:identifier>sadsad</dc:identifier>
<dc:language>asdasd</dc:language>
<dc:publisher>wqewq</dc:publisher>
<dc:relation >wqeqw</dc:relation>
<dc:rights>ffefe</dc:rights>
<dc:source>vfvf</dc:source>
<dc:title>wqewqe</dc:title>
<dc:type>ewfrb</dc:type>
</searchRetrieveResponse>'''

tree2 = ET.fromstring(dc_xml)

In [79]:
tree2.find('{http://purl.org/dc/elements/1.1/}description').attrib

{'atributo1': 'valor1', 'atributo2': 'valor2'}

In [80]:
print(tree2.find('{http://purl.org/dc/elements/1.1/}description').attrib['atributo1'])
print(tree2.find('{http://purl.org/dc/elements/1.1/}description').attrib['atributo2'])


valor1
valor2


Vamos a analizar un documento XML más complejo, empezando por descargarlo:

In [83]:
import requests

response = requests.get('https://gist.githubusercontent.com/vivien/580729/raw/651d1b216357c0d7d9fc47075071fb482e11fb36/dublincore-example.xml')
if response.status_code == 200:
    with open("./dublincore-example.xml", 'wb') as f:
        f.write(response.content)

Y lo cargamos en python:

In [87]:
tree = ET.parse('dublincore-example.xml')
for table in tree.getiterator('{http://www.loc.gov/zing/srw/}searchRetrieveResponse'):
    for child in table:
        print(child.tag, child.text)

{http://www.loc.gov/zing/srw/}version 1.1
{http://www.loc.gov/zing/srw/}numberOfRecords 33587
{http://www.loc.gov/zing/srw/}records 

{http://www.loc.gov/zing/srw/}nextRecordPosition 11
{http://www.loc.gov/zing/srw/}resultSetIdleTime None
{http://www.loc.gov/zing/srw/}echoedSearchRetrieveRequest 



In [102]:
all_records = tree.findall('{http://www.loc.gov/zing/srw/}records')
print(all_records)

[<Element '{http://www.loc.gov/zing/srw/}records' at 0x7f19d41aeb88>]


In [103]:
for table in tree.getiterator('{http://www.loc.gov/zing/srw/}record'):
    for child in table:
        print(child.tag, child.text)

{http://www.loc.gov/zing/srw/}recordSchema info:srw/schema/1/dc
{http://www.loc.gov/zing/srw/}recordPacking xml
{http://www.loc.gov/zing/srw/}recordData 

{http://www.loc.gov/zing/srw/}recordSchema info:srw/schema/1/dc
{http://www.loc.gov/zing/srw/}recordPacking xml
{http://www.loc.gov/zing/srw/}recordData 

{http://www.loc.gov/zing/srw/}recordSchema info:srw/schema/1/dc
{http://www.loc.gov/zing/srw/}recordPacking xml
{http://www.loc.gov/zing/srw/}recordData 

{http://www.loc.gov/zing/srw/}recordSchema info:srw/schema/1/dc
{http://www.loc.gov/zing/srw/}recordPacking xml
{http://www.loc.gov/zing/srw/}recordData 

{http://www.loc.gov/zing/srw/}recordSchema info:srw/schema/1/dc
{http://www.loc.gov/zing/srw/}recordPacking xml
{http://www.loc.gov/zing/srw/}recordData 

{http://www.loc.gov/zing/srw/}recordSchema info:srw/schema/1/dc
{http://www.loc.gov/zing/srw/}recordPacking xml
{http://www.loc.gov/zing/srw/}recordData 

{http://www.loc.gov/zing/srw/}recordSchema info:srw/schema/1/dc
{http:

Como ves, hay que ir entendiendo la jerarquía del XML para poder obtener la información. 

¿Puedes obtener los títulos de los recursos descritos en el XML?