## Introducción

Proyecto para la extracción y transformación de la colección digital Relaciones Geográficas a un modelo semántico basado en el vocabulario [Schema.org](https://schema.org).

En este prototipo se han seleccionado [10 obras](input/manifests.txt) a través de sus manifests en formato JSON de la colección [Relaciones Geográficas of Mexico and Guatemala](https://collections.lib.utexas.edu/?f%5Bmods_relatedItem_titleInfo_title_source_t%5D%5B%5D=Relaciones+Geogr%C3%A1ficas+of+Mexico+and+Guatemala). 
El [dataset](output/UNED_metadatos_csv.ttl) se ha transformado al formato RDF siguiendo el vocabulario Schema.org.

### Importamos la librería rdflib y cargamos el fichero RDF 

In [1]:
from rdflib import Graph

# Create a Graph
g = Graph().parse("../output/UNED_metadatos_csv.ttl")

### Consultar número de clases

In [2]:
print('##### numero de clases')

# Query the data in g using SPARQL
q = """
    SELECT (count(distinct ?class) as ?classes)
    WHERE {
        ?s a ?class .
    }
"""

# Apply the query to the graph and iterate through results
for r in g.query(q):
    print(r["classes"])


##### numero de clases
2


### Consultar número de propiedades

In [3]:
print('##### numero de propiedades')

# Query the data in g using SPARQL
q = """
    SELECT (count(distinct ?prop) as ?properties)
    WHERE {
        ?s ?prop ?o .
    }
"""

# Apply the query to the graph and iterate through results
for r in g.query(q):
    print(r["properties"])


##### numero de propiedades
8


### Consultar enlaces a repositorios externos

In [4]:
print('##### owl:sameAs')
    
# Query the data in g using SPARQL
q = """
    SELECT (count(distinct ?sameAs) as ?total)
    WHERE {
        ?p owl:sameAs ?sameAs .
    }
"""

# Apply the query to the graph and iterate through results
for r in g.query(q):
    print(r["total"])

##### owl:sameAs
0


### Número de tripletas

In [5]:
print('##### numero de tripletas')
    
# Query the data in g using SPARQL
q = """
    SELECT (COUNT(*) as ?triples) 
    WHERE { ?s ?p ?o } 
"""

# Apply the query to the graph and iterate through results
for r in g.query(q):
    print(r["triples"])

##### numero de tripletas
100
