# Definición Ontología - Entrega 2 Proyecto Semantic Web


En este archivo se define la ontología usada para el proyecto. A partir de los datos obtenidos en la entrega 1 se definen:
- Tipos de datos
- Clases y subclases
- Propiedades y subpropiedades
- Restricciones y características de las entidades

## Instalación dependencias 

In [1]:
!pip install rdflib

Collecting rdflib
  Downloading rdflib-7.0.0-py3-none-any.whl.metadata (11 kB)
Collecting isodate<0.7.0,>=0.6.0 (from rdflib)
  Downloading isodate-0.6.1-py2.py3-none-any.whl.metadata (9.6 kB)
Downloading rdflib-7.0.0-py3-none-any.whl (531 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m531.9/531.9 kB[0m [31m9.1 MB/s[0m eta [36m0:00:00[0m:00:01[0m
[?25hDownloading isodate-0.6.1-py2.py3-none-any.whl (41 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m41.7/41.7 kB[0m [31m1.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: isodate, rdflib
Successfully installed isodate-0.6.1 rdflib-7.0.0


In [5]:
from rdflib import Graph, Literal, RDF, URIRef, Namespace, BNode, XSD, Bag, Seq
from rdflib.namespace import RDF, RDFS, OWL

## Definición de espacio de nombres

In [6]:
g = Graph()

# Definición de los prefijos de los espacios de nombres
g.bind('rdf', RDF)
g.bind('rdfs', RDFS)
g.bind('owl', OWL)
g.bind("xsd", XSD)

# Definición de los prefijos de ontologías y recursos
UEX = Namespace("http://www.uniandes.web.semantica.example.org/")
UEV = Namespace("http://www.uniandes.web.semantica.ejemplo.org/voca#")
g.bind('uex', UEX)
g.bind('uev', UEV)

## Definición de clases

De la primera entrega se identificaron diferentes clases que hacen parte de la ontología de papers. En esta sección se definen estas clases usando la definición de tipo rdfs: Class. Las clases definidas son las siguientes:
- Paper
- Author
- Referencia (Subclase Paper)

Así mismo, se revisaron que atributos son comunmente definidos como clases en DBPedia, de lo cual definimos los siguientes atributos como Clases en preparación a la entrega 3:
- Concept Annotation
- Country
- City
- Meeting


In [7]:
# Clases principales
g.add((UEV.Paper, RDF.type, RDFS.Class))
g.add((UEV.Author, RDF.type, RDFS.Class))
g.add((UEV.Reference, RDF.type, RDFS.Class))

# Clases para el futuro
g.add((UEV.ConceptAnnotation, RDF.type, RDFS.Class))
g.add((UEV.Country, RDF.type, RDFS.Class))
g.add((UEV.City, RDF.type, RDFS.Class))
g.add((UEV.Meeting, RDF.type, RDFS.Class))

<Graph identifier=N9b9eb9b8992a4511a76406d277abec36 (<class 'rdflib.graph.Graph'>)>

### Definición de Subclases

Se identifica que una referencia sigue siendo un paper pero es una subclase de paper, por lo que se define acorde.

In [8]:
g.add((UEV.Reference, RDFS.subClassOf, UEV.Paper))

<Graph identifier=N9b9eb9b8992a4511a76406d277abec36 (<class 'rdflib.graph.Graph'>)>

## Definición de Propiedades

De la primera entrega se identificaron diferentes propiedades que hacen parte de la ontología de papers. En esta sección se definen estas propiedades usando la definición de tipo rdfs: Property. Las propiedades definidas de atributos son las siguientes:
- Paper
  - Text
    - Title (Sub)
    - Abstract (Sub)
    - Concept_Anotation (Sub)
  - Publication_Date
- Author
  - Forename
  - Surname
  - Email
  - Afilliation
  - Adress_Line
  - Post_code
  - Settlement
  - Country
- Referencia (Subclase Paper)
  - Title
  - Publication_Date
  - Meeting
  - City
  - Country
  - Note

Así mismo, se identificaron las siguientes relaciones entre clases :
- Un paper tiene autores
- Un autor tiene papers
- Un paper tiene referencias
- Una referencia esta asociada a papers

In [None]:
# Valores de Paper
g.add((UEV.Text, RDF.type, RDF.Property))
g.add((UEV.Title, RDF.type, RDF.Property))
g.add((UEV.Abstract, RDF.type, RDF.Property))
g.add((UEV.Introduction, RDF.type, RDF.Property))
g.add((UEV.Conclusion, RDF.type, RDF.Property))

g.add((UEV.hasConcept_Annotation, RDF.type, RDF.Property)) # Clase futura
g.add((UEV.Publication_Date, RDF.type, RDF.Property))

# Valores de Author
g.add((UEV.Forename, RDF.type, RDF.Property))
g.add((UEV.Surname, RDF.type, RDF.Property))
g.add((UEV.Email, RDF.type, RDF.Property))
g.add((UEV.Affiliation, RDF.type, RDF.Property))
g.add((UEV.Address_Line, RDF.type, RDF.Property))
g.add((UEV.Post_code, RDF.type, RDF.Property))
g.add((UEV.Settlement, RDF.type, RDF.Property))
g.add((UEV.hasCountry, RDF.type, RDF.Property)) # Clase futura

# Valores especificos de referencias
g.add((UEV.hasMeeting, RDF.type, RDF.Property)) # Clase futura
g.add((UEV.hasCity, RDF.type, RDF.Property)) # Clase futura
g.add((UEV.Note, RDF.type, RDF.Property))

# Relaciones
g.add((UEV.hasAuthor, RDF.type, RDF.Property))
g.add((UEV.hasReference, RDF.type, RDF.Property))
g.add((UEV.isAuthorOf, RDF.type, RDF.Property))
g.add((UEV.isReferencedBy, RDF.type, RDF.Property))

### Definición de Subpropiedades

Se identifica que existen propiedades que hace referencia a texto de los papers, por lo que Title, Abstract y Concept_Anotation se pueden considerar subpropiedades de Text

In [None]:
g.add((UEV.Title, RDFS.subPropertyOf, UEV.Text))
g.add((UEV.Abstract, RDFS.subPropertyOf, UEV.Text))
g.add((UEV.Concept_Annotation, RDFS.subPropertyOf, UEV.Text))
g.add((UEV.Introduction, RDFS.subPropertyOf, UEV.Text))
g.add((UEV.Conclusion, RDFS.subPropertyOf, UEV.Text))

### Definición de Dominio y Rango

En esta sección se definieron los dominios y rangos para las propiedades definidas anteriormente

In [None]:
# Texto 
g.add((UEV.Text, RDFS.domain, UEV.Paper))
g.add((UEV.Text, RDFS.range, XSD.string))
# Title
g.add((UEV.Title, RDFS.domain, UEV.Paper))
g.add((UEV.Title, RDFS.range, XSD.string))
# Abstract
g.add((UEV.Abstract, RDFS.domain, UEV.Paper))
g.add((UEV.Abstract, RDFS.range, XSD.string))
# Introduction
g.add((UEV.Introduction, RDFS.domain, UEV.Paper))
g.add((UEV.Introduction, RDFS.range, XSD.string))
# Conclusion
g.add((UEV.Conclusion, RDFS.domain, UEV.Paper))
g.add((UEV.Conclusion, RDFS.range, XSD.string))
# Concept_Anotation
g.add((UEV.hasConcept_Annotation, RDFS.domain, UEV.Paper))
g.add((UEV.hasConcept_Annotation, RDFS.range, UEV.ConceptAnnotation))
# Publication_Date (Puede tener año, año-mes o año-mes-día) -- Revisar si es posible estandarizar formato y pasar a date
g.add((UEV.Publication_Date, RDFS.domain, UEV.Paper))
g.add((UEV.Publication_Date, RDFS.range, XSD.string))

# Forename
g.add((UEV.Forename, RDFS.domain, UEV.Author))
g.add((UEV.Forename, RDFS.range, XSD.string))
# Surname
g.add((UEV.Surname, RDFS.domain, UEV.Author))
g.add((UEV.Surname, RDFS.range, XSD.string))
# Email
g.add((UEV.Email, RDFS.domain, UEV.Author))
g.add((UEV.Email, RDFS.range, XSD.string))
# Affiliation
g.add((UEV.Affiliation, RDFS.domain, UEV.Author))
g.add((UEV.Affiliation, RDFS.range, XSD.string))
# Address_Line
g.add((UEV.Address_Line, RDFS.domain, UEV.Author))
g.add((UEV.Address_Line, RDFS.range, XSD.string))
# Post_code -- Puede ser numero
g.add((UEV.Post_code, RDFS.domain, UEV.Author))
g.add((UEV.Post_code, RDFS.range, XSD.string))
# Settlement
g.add((UEV.Settlement, RDFS.domain, UEV.Author))
g.add((UEV.Settlement, RDFS.range, XSD.string))
# Country -- Pensar modelarlo como clase
g.add((UEV.hasCountry, RDFS.domain, UEV.Author))
g.add((UEV.hasCountry, RDFS.range, UEV.Country))
# Meeting
g.add((UEV.hasMeeting, RDFS.domain, UEV.Reference))
g.add((UEV.hasMeeting, RDFS.range, UEV.Meeting))
# City -- Pensar modelarlo como clase
g.add((UEV.hasCity, RDFS.domain, UEV.Reference))
g.add((UEV.hasCity, RDFS.range, UEV.City))
# Note
g.add((UEV.Note, RDFS.domain, UEV.Reference))
g.add((UEV.Note, RDFS.range, XSD.string))

# Relaciones
g.add((UEV.hasAuthor, RDFS.domain, UEV.Paper))
g.add((UEV.hasAuthor, RDFS.range, UEV.Author))

g.add((UEV.hasReference, RDFS.domain, UEV.Paper))
g.add((UEV.hasReference, RDFS.range, UEV.Reference))

g.add((UEV.isAuthorOf, RDFS.domain, UEV.Author))
g.add((UEV.isAuthorOf, RDFS.range, UEV.Paper))

g.add((UEV.isReferencedBy, RDFS.domain, UEV.Reference))
g.add((UEV.isReferencedBy, RDFS.range, UEV.Paper))

## Definición Restricciones y Caracteristicas Ontología

En esta sección se definen las restricciones y caracteristicas para las clases y propiedades, por lo que se dividira en estas dos secciones

In [None]:
#  Clases Disjuntas
g.add((UEV.Paper, OWL.disjointWith, UEV.Author))

# Restricciones Texto Functional Property


# Definición Instancias

Las instancias en este caso se definen a partir del desarrollo en la entrega 1, por lo que se pasan los datos desde un JSON a la ontología

In [19]:
import json

archivo_json = 'D:/Universidad/Carrera/2024-10/Semantic Web/semantic-web/second-task/metadata_keywords.json'

# Abrimos el archivo JSON para leer los datos
with open(archivo_json, 'r', encoding='utf-8') as archivo:
    datos = json.load(archivo)

# Función para verificar si una instancia ya existe en la ontología
def instance_exists(graph, instance_uri):
    return (instance_uri, None, None) in graph

# Iteramos sobre cada paper usando su ID único
for paper_id, paper_content in datos.items():
        
    # El titulo es lo que se carga como clase en la ontología
    paper_class = paper_content.get('title', '')  # Crear un URI para el paper usando el ID del paper
    if paper_class != '' or paper_class is not None:
        paper_uri = UEV[paper_class]
        paper_exists = instance_exists(g, paper_uri)

        # Si el paper no existe, lo agregamos a la ontología
        if not paper_exists:
            g.add((paper_uri, RDF.type, UEV.Paper))

        # Agrega los valores de las propiedades del paper a la ontología
        # Con tal de que no sean vacíos o '' (en cuyo caso no se agregan)
        if paper_content.get('title', '') != '':
            g.add((paper_uri, UEV.Title, Literal(paper_content.get('title', ''))))
        if paper_content.get('abstract', '') != '':
            g.add((paper_uri, UEV.Abstract, Literal(paper_content.get('abstract', ''))))
        if paper_content.get('introduction', '') != '':
            g.add((paper_uri, UEV.Introduction, Literal(paper_content.get('introduction', ''))))
        if paper_content.get('conclusion', '') != '':
            g.add((paper_uri, UEV.Conclusion, Literal(paper_content.get('conclusion', ''))))
        if paper_content.get('publication_year', '') != '':
            g.add((paper_uri, UEV.Publication_Date, Literal(paper_content.get('publication_year', ''), datatype=XSD.string)))

        # Iteramos sobre cada autor del paper
        for author in paper_content.get('paper_authors', []):
            author_class = author.get('paper_authors_forename', '') + author.get('paper_authors_surname', '')
            if author_class != '' or author_class is not None:
                author_uri = UEV[author_class]
                author_exists = instance_exists(g, author_uri)

                # Si el autor no existe, lo agregamos a la ontología
                if not author_exists:
                    g.add((author_uri, RDF.type, UEV.Author))

                # Agrega los valores de las propiedades del autor a la ontología
                # Con tal de que no sean vacíos o '' (en cuyo caso no se agregan)
                if author.get('paper_authors_forename', '') != '':
                    g.add((author_uri, UEV.Forename, Literal(author.get('paper_authors_forename', ''))))
                if author.get('paper_authors_surname', '') != '':
                    g.add((author_uri, UEV.Surname, Literal(author.get('paper_authors_surname', ''))))
                if author.get('paper_authors_email', '') != '':
                    g.add((author_uri, UEV.Email, Literal(author.get('paper_authors_email', ''))))
                if author.get('paper_authors_affiliation', '') != '':
                    g.add((author_uri, UEV.Affiliation, Literal(author.get('paper_authors_affiliation', ''))))
                if author.get('paper_authors_address_line', '') != '':
                    g.add((author_uri, UEV.Address_Line, Literal(author.get('paper_authors_address_line', ''))))
                if author.get('paper_authors_post_code', '') != '':
                    g.add((author_uri, UEV.Post_code, Literal(author.get('paper_authors_post_code', ''))))
                if author.get('paper_authors_settlement', '') != '':
                    g.add((author_uri, UEV.Settlement, Literal(author.get('paper_authors_settlement', ''))))
                if author.get('paper_authors_country', '') != '' or author.get('paper_authors_country', '') is not None:
                    # Se crea un URI para el país del autor
                    country_uri = UEV[author.get('paper_authors_country', '')]

                    # Si el país no existe, lo agregamos a la ontología
                    if not instance_exists(g, country_uri):
                        g.add((country_uri, RDF.type, UEV.Country))
                    
                    g.add((author_uri, UEV.hasCountry, country_uri))

                # Relacionamos el autor con el paper
                g.add((author_uri, UEV.isAuthorOf, paper_uri))

        # Iteramos sobre cada referencia del paper
        for reference in paper_content.get('paper_references', []):
            reference_class = reference.get('reference_paper_title', '')
            if reference_class != '' or reference_class is not None:
                reference_uri = UEV[reference_class]
                reference_exists = instance_exists(g, reference_uri)

                # Si la referencia no existe, la agregamos a la ontología
                if not reference_exists:
                    g.add((reference_uri, RDF.type, UEV.Reference))

                # Agrega los valores de las propiedades de la referencia a la ontología
                # Con tal de que no sean vacíos o '' (en cuyo caso no se agregan)
                if reference.get('reference_paper_title', '') != '':
                    g.add((reference_uri, UEV.Title, Literal(reference.get('reference_paper_title', ''))))
                if reference.get('reference_paper_publication_date', '') != '':
                    g.add((reference_uri, UEV.Publication_Date, Literal(reference.get('reference_paper_publication_date', ''), datatype=XSD.string)))
                if reference.get('reference_paper_meeting', '') != '' or reference.get('reference_paper_meeting', '') is not None:
                    # Se crea un URI para la conferencia de la referencia   
                    meeting_uri = UEV[reference.get('reference_paper_meeting', '')]

                    # Si la conferencia no existe, la agregamos a la ontología
                    if not instance_exists(g, meeting_uri):
                        g.add((meeting_uri, RDF.type, UEV.Meeting))

                    g.add((reference_uri, UEV.hasMeeting, meeting_uri))

                if reference.get('reference_paper_city', '') != '':
                    # Se crea un URI para la ciudad de la referencia
                    city_uri = UEV[reference.get('reference_paper_city', '')]

                    # Si la ciudad no existe, la agregamos a la ontología
                    if not instance_exists(g, city_uri):
                        g.add((city_uri, RDF.type, UEV.City))

                    g.add((reference_uri, UEV.hasCity, city_uri))

                if reference.get('reference_paper_country', '') != '':
                    # Se crea un URI para el país de la referencia
                    country_uri = UEV[reference.get('reference_paper_country', '')]

                    # Si el país no existe, lo agregamos a la ontología
                    if not instance_exists(g, country_uri):
                        g.add((country_uri, RDF.type, UEV.Country))

                    g.add((reference_uri, UEV.hasCountry, country_uri))

                if reference.get('reference_paper_note', '') != '':
                    g.add((reference_uri, UEV.Note, Literal(reference.get('reference_paper_note', ''))))

                # Relacionamos el paper con la referencia
                g.add((paper_uri, UEV.hasReference, reference_uri))


                # Iteramos sobre los autores de las referencias
                for ref_author in reference.get('reference_paper_authors', []):
                    ref_author_class = ref_author.get('reference_paper_author_forename', '') + ref_author.get('reference_paper_author_surname', '')
                    if ref_author_class != '' or ref_author_class is not None:
                        ref_author_uri = UEV[ref_author_class]
                        ref_author_exists = instance_exists(g, ref_author_uri)

                        # Si el autor de la referencia no existe, lo agregamos a la ontología
                        if not ref_author_exists:
                            g.add((ref_author_uri, RDF.type, UEV.Author))

                        # Agrega los valores de las propiedades del autor de la referencia a la ontología
                        # Con tal de que no sean vacíos o '' (en cuyo caso no se agregan)
                        if ref_author.get('reference_paper_author_forename', '') != '':
                            g.add((ref_author_uri, UEV.Forename, Literal(ref_author.get('reference_paper_author_forename', ''))))
                        if ref_author.get('reference_paper_author_surname', '') != '':
                            g.add((ref_author_uri, UEV.Surname, Literal(ref_author.get('reference_paper_author_surname', ''))))

                        # Relacionamos la referencia con el autor hasAuthor
                        g.add((ref_author_uri, UEV.isAuthorOf, reference_uri))





KeyboardInterrupt: 