# **Tarea 1/Opcinonal 1**: Transformar a RDF



## **Primer Conjunto de Datos (JSON):** "Cantidad de pasajeros embarcados por bloque horario en el Aeropuerto de Punta Arenas Presidente Carlos Ib√°√±ez del Campo"

## Script, Generaci√≥n en formato RDF, archivo ttl

In [None]:
!pip install rdflib



In [None]:
import json
import rdflib
from rdflib import Graph, Namespace, URIRef, Literal
from rdflib.namespace import RDF, XSD
from google.colab import files

# Ruta del archivo JSON en Google Colab
json_filepath = "/content/sample_data/PasajerosembarcadosporhoraenelAeropuertoSCCI_2818101738163526694.json"

# Leer el archivo JSON
with open(json_filepath, "r", encoding="utf-8") as file:
    data = json.load(file)

# Extraer encabezados y datos
headers = data[0]  # Primera fila contiene los nombres de las columnas
rows = data[1:]    # Filas de datos

# Crear un grafo RDF
g = Graph()

# Definir un namespace personalizado
EX = Namespace("http://example.org/airport#")
g.bind("ex", EX)

# Funci√≥n para convertir fecha de 'DD-MM-YYYY' a 'YYYY-MM-DD'
def convertir_fecha(fecha_str):
    partes = fecha_str.split("-")  # Separar por guion
    return f"{partes[2]}-{partes[1]}-{partes[0]}"  # Reordenar como YYYY-MM-DD

# Iterar sobre los datos y agregarlos al grafo
for i, row in enumerate(rows):
    registro_uri = URIRef(EX[f"registro_{i}"])

    # Agregar tipo de entidad
    g.add((registro_uri, RDF.type, EX.RegistroEmbarque))

    # Convertir fecha al formato correcto
    fecha_iso = convertir_fecha(row[0])

    # Agregar propiedades con tipos de datos adecuados
    g.add((registro_uri, EX.fecha, Literal(fecha_iso, datatype=XSD.date)))  # Fecha corregida
    g.add((registro_uri, EX.a√±o, Literal(int(row[1]), datatype=XSD.integer)))
    g.add((registro_uri, EX.mes, Literal(int(row[2]), datatype=XSD.integer)))
    g.add((registro_uri, EX.dia, Literal(int(row[3]), datatype=XSD.integer)))
    g.add((registro_uri, EX.bloqueHorario, Literal(int(row[4]), datatype=XSD.integer)))
    g.add((registro_uri, EX.ruta, Literal(row[5], datatype=XSD.string)))
    g.add((registro_uri, EX.cantidadPasajeros, Literal(int(row[6]), datatype=XSD.integer)))

# Guardar el grafo en formato Turtle
rdf_filename = "embarques_aeropuerto.ttl"
g.serialize(destination=rdf_filename, format="turtle")

# Descargar el archivo generado
files.download(rdf_filename)

print(f"Archivo RDF '{rdf_filename}' generado y listo para descargar.")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Archivo RDF 'embarques_aeropuerto.ttl' generado y listo para descargar.


## **Segundo Conjunto de Datos (XLSX):**"Veh√≠culos registrados en el Registro Civil por medio del Registro de Veh√≠culos Motorizados."

## Script, Generaci√≥n en formato RDF, archivo ttl

In [None]:
# üìç Instalar dependencias necesarias
!pip install rdflib pandas openpyxl

In [None]:
import pandas as pd
import rdflib
from rdflib import Graph, Namespace, URIRef, Literal
from rdflib.namespace import RDF, XSD
from google.colab import files

# üìå Ruta del archivo XLSX en Google Colab
xlsx_filepath = "/content/sample_data/C026Inscripciondevehiculos_2927501738358921050.xlsx"

# üìå Cargar el archivo Excel en un DataFrame de Pandas
df = pd.read_excel(xlsx_filepath)

# üìå Crear un grafo RDF
g = Graph()

# üìå Definir un namespace personalizado
EX = Namespace("http://example.org/vehicles#")
g.bind("ex", EX)

# üìå Convertir el DataFrame a RDF
for i, row in df.iterrows():
    registro_uri = URIRef(EX[f"registro_{i}"])

    # Agregar tipo de entidad
    g.add((registro_uri, RDF.type, EX.InscripcionVehiculo))

    # Iterar sobre las columnas y agregar propiedades al grafo
    for col in df.columns:
        valor = row[col]
        if pd.notna(valor):  # Verifica que no sea NaN
            prop_uri = URIRef(EX[col.replace(" ", "_")])  # Convertir espacios en _

            # Definir tipo de datos RDF
            if isinstance(valor, int):
                g.add((registro_uri, prop_uri, Literal(valor, datatype=XSD.integer)))
            elif isinstance(valor, float):
                g.add((registro_uri, prop_uri, Literal(valor, datatype=XSD.decimal)))
            else:
                g.add((registro_uri, prop_uri, Literal(str(valor), datatype=XSD.string)))

# üìå Guardar el grafo en formato Turtle
rdf_filename = "inscripcion_vehiculos.ttl"
g.serialize(destination=rdf_filename, format="turtle")

# üìå Descargar el archivo generado
files.download(rdf_filename)

print(f"‚úÖ Archivo RDF '{rdf_filename}' generado y listo para descargar.")

# **Tarea 2/Opcional 2**: Consultas SPARQL. Datos en Memoria

## **Primer Conjunto de Datos (JSON):** "Cantidad de pasajeros embarcados por bloque horario en el Aeropuerto de Punta Arenas Presidente Carlos Ib√°√±ez del Campo"

* Consulta 1: Registros de embarque del 20 de abril de 2019
* Consulta 2: Cantidad total de pasajeros embarcados en abril
* Consulta 3: Registros con m√°s de 200 pasajeros embarcados
* Consulta 4: Cantidad de vuelos nacionales vs. internacionales

In [None]:
import rdflib
from rdflib import Graph, Namespace
from rdflib.plugins.sparql import prepareQuery
import pandas as pd

# üìç Ruta del archivo RDF almacenado en Google Colab
rdf_filepath = "/content/embarques_aeropuerto.ttl"

# üìç Crear un grafo RDF y cargar los datos desde el archivo Turtle
g = Graph()
g.parse(rdf_filepath, format="turtle")

# üìç Definir el namespace
EX = Namespace("http://example.org/airport#")

# üîç **Consulta 1: Registros de embarque del 20 de abril de 2019**
query_1 = prepareQuery("""
    SELECT ?registro ?fecha ?cantidadPasajeros WHERE {
        ?registro a ex:RegistroEmbarque ;
                  ex:fecha "2019-04-20"^^xsd:date ;
                  ex:cantidadPasajeros ?cantidadPasajeros .
    }
""", initNs={"ex": EX})

# üîç **Consulta 2: Cantidad total de pasajeros embarcados en abril**
query_2 = prepareQuery("""
    SELECT ?mes (SUM(?cantidadPasajeros) AS ?totalPasajeros) WHERE {
        ?registro a ex:RegistroEmbarque ;
                  ex:mes ?mes ;
                  ex:cantidadPasajeros ?cantidadPasajeros .
        FILTER(?mes = 4)
    }
    GROUP BY ?mes
""", initNs={"ex": EX})

# üîç **Consulta 3: Registros con m√°s de 200 pasajeros embarcados**
query_3 = prepareQuery("""
    SELECT ?registro ?fecha ?cantidadPasajeros WHERE {
        ?registro a ex:RegistroEmbarque ;
                  ex:fecha ?fecha ;
                  ex:cantidadPasajeros ?cantidadPasajeros .
        FILTER(?cantidadPasajeros > 200)
    }
    ORDER BY DESC(?cantidadPasajeros)
""", initNs={"ex": EX})

# üîç **Consulta 4: Cantidad de vuelos nacionales vs. internacionales**
query_4 = prepareQuery("""
    SELECT ?ruta (COUNT(?registro) AS ?totalVuelos) WHERE {
        ?registro a ex:RegistroEmbarque ;
                  ex:ruta ?ruta .
    }
    GROUP BY ?ruta
""", initNs={"ex": EX})

# üìç **Ejecutar consultas**
results_1 = list(g.query(query_1))
results_2 = list(g.query(query_2))
results_3 = list(g.query(query_3))
results_4 = list(g.query(query_4))

# üìç **Crear DataFrames para visualizar los resultados**
df_1 = pd.DataFrame(results_1, columns=["Registro", "Fecha", "Cantidad Pasajeros"])
df_2 = pd.DataFrame(results_2, columns=["Mes", "Total Pasajeros"])
df_3 = pd.DataFrame(results_3, columns=["Registro", "Fecha", "Cantidad Pasajeros"])
df_4 = pd.DataFrame(results_4, columns=["Ruta", "Total Vuelos"])

# üìç **Mostrar resultados**
print("\nüìå Registros de embarque del 20 de abril de 2019:")
print(df_1.head())

print("\nüìå Cantidad total de pasajeros embarcados en abril:")
print(df_2.head())

print("\nüìå Registros de embarque con m√°s de 200 pasajeros:")
print(df_3.head())

print("\nüìå Cantidad de vuelos nacionales e internacionales:")
print(df_4.head())



üìå Registros de embarque del 20 de abril de 2019:
                                 Registro Fecha Cantidad Pasajeros
0  http://example.org/airport#registro_10  None                151
1  http://example.org/airport#registro_11  None                118
2  http://example.org/airport#registro_12  None                153
3  http://example.org/airport#registro_13  None                194
4   http://example.org/airport#registro_2  None                189

üìå Cantidad total de pasajeros embarcados en abril:
  Mes Total Pasajeros
0   4          100206

üìå Registros de embarque con m√°s de 200 pasajeros:
                                   Registro       Fecha Cantidad Pasajeros
0  http://example.org/airport#registro_7635  2022-02-15                716
1  http://example.org/airport#registro_7498  2022-02-04                629
2  http://example.org/airport#registro_3025  2020-01-07                621
3  http://example.org/airport#registro_9127  2022-08-15                619
4  http://exampl

## **Segundo Conjunto de Datos (XML):**"Veh√≠culos registrados en el Registro Civil por medio del Registro de Veh√≠culos Motorizados, esta informaci√≥n es consolidad y disponibilizada por ANAC A.G"




* ¬øCu√°les son los tipos de veh√≠culos que m√°s se venden en enero?
* ¬øCu√°l es el tipo de veh√≠culo que m√°s se vende en general?
* ¬øCu√°l es el tipo de veh√≠culo que m√°s se vendi√≥ en 2020?
* ¬øCu√°ntos tipos diferentes de veh√≠culos hay?




In [None]:
# üìç Instalar rdflib y pandas si no est√°n instalados
!pip install rdflib pandas

import rdflib
import pandas as pd
from rdflib import Graph

# üìå Ruta del archivo RDF en formato Turtle
rdf_filepath = "/content/inscripcion_vehiculos.ttl"

# üìå Cargar el archivo RDF en un grafo
g = Graph()
g.parse(rdf_filepath, format="turtle")

# üìå Funci√≥n para ejecutar consultas SPARQL y mostrar resultados
def ejecutar_consulta(sparql_query, descripcion):
    print(f"\nüîπ {descripcion}\n")
    qres = g.query(sparql_query)

    # Convertir resultados en DataFrame para mejor visualizaci√≥n
    resultados = []
    for row in qres:
        resultados.append([str(valor) for valor in row])

    if resultados:
        df = pd.DataFrame(resultados, columns=[str(var) for var in qres.vars])
        from google.colab import data_table
        display(df)  # üìå Muestra la tabla en Colab
    else:
        print("‚ö†Ô∏è No se encontraron resultados.")

# üìå Consultas SPARQL corregidas:

# 1Ô∏è‚É£ ¬øCu√°les son los tipos de veh√≠culos que m√°s se venden en enero?
consulta1 = """
PREFIX ex: <http://example.org/vehicles#>
PREFIX xsd: <http://www.w3.org/2001/XMLSchema#>

SELECT ?tipo (SUM(?total_cantidad) AS ?total_vendidos)
WHERE {
  ?vehiculo ex:mes "Enero"^^xsd:string ;
            ex:tipo ?tipo ;
            ex:total_cantidad ?total_cantidad .
}
GROUP BY ?tipo
ORDER BY DESC(?total_vendidos)
"""
ejecutar_consulta(consulta1, "üìå Tipos de veh√≠culos m√°s vendidos en Enero")

# 2Ô∏è‚É£ ¬øCu√°l es el tipo de veh√≠culo que m√°s se vende en general?
consulta2 = """
PREFIX ex: <http://example.org/vehicles#>

SELECT ?tipo (SUM(?total_cantidad) AS ?total_vendidos)
WHERE {
  ?vehiculo ex:tipo ?tipo ;
            ex:total_cantidad ?total_cantidad .
}
GROUP BY ?tipo
ORDER BY DESC(?total_vendidos)
LIMIT 1
"""
ejecutar_consulta(consulta2, "üìå Tipo de veh√≠culo m√°s vendido")

# 3Ô∏è‚É£ ¬øCu√°l es el tipo de veh√≠culo que m√°s se vendi√≥ en 2020?
consulta3 = """
PREFIX ex: <http://example.org/vehicles#>
PREFIX xsd: <http://www.w3.org/2001/XMLSchema#>

SELECT ?tipo (SUM(?total_cantidad) AS ?total_vendidos)
WHERE {
  ?vehiculo ex:anio 2020 ;
            ex:tipo ?tipo ;
            ex:total_cantidad ?total_cantidad .
}
GROUP BY ?tipo
ORDER BY DESC(?total_vendidos)
LIMIT 1
"""
ejecutar_consulta(consulta3, "üìå Tipo de veh√≠culo m√°s vendido en 2020")

# 4Ô∏è‚É£ ¬øCu√°ntos tipos diferentes de veh√≠culos hay?
consulta4 = """
PREFIX ex: <http://example.org/vehicles#>

SELECT (COUNT(DISTINCT ?tipo) AS ?total_tipos)
WHERE {
  ?vehiculo ex:tipo ?tipo .
}
"""
ejecutar_consulta(consulta4, "üìå Cantidad de tipos diferentes de veh√≠culos")



üîπ üìå Tipos de veh√≠culos m√°s vendidos en Enero



Unnamed: 0,tipo,total_vendidos
0,Otros,243861
1,Veh√≠culo Comercial,27885
2,Cami√≥n,6677
3,Tractocami√≥n,3335
4,Chasis Cabina,545
5,Carro Bomba,161



üîπ üìå Tipo de veh√≠culo m√°s vendido



Unnamed: 0,tipo,total_vendidos
0,Otros,2858937



üîπ üìå Tipo de veh√≠culo m√°s vendido en 2020



Unnamed: 0,tipo,total_vendidos
0,Otros,232368



üîπ üìå Cantidad de tipos diferentes de veh√≠culos



Unnamed: 0,total_tipos
0,7


# **Tarea 3/Opcional 3:**  Crear un modelo de datos en Shape Expressions (ShEx) y  SHACL que permita validar los datos. Compararlos

## **Primer Conjunto de Datos (JSON):** "Cantidad de pasajeros embarcados por bloque horario en el Aeropuerto de Punta Arenas Presidente Carlos Ib√°√±ez del Campo"

### SHACL

In [None]:
# üìç Instalar pyshacl si no est√° instalado
!pip install pyshacl rdflib

import rdflib
from pyshacl import validate
import logging

# üìç Desactivar todos los mensajes excepto errores
logging.getLogger("pyshacl").setLevel(logging.ERROR)
logging.getLogger("rdflib").setLevel(logging.ERROR)

# üìç Cargar datos RDF
rdf_filepath = "/content/embarques_aeropuerto.ttl"
rdf_graph = rdflib.Graph()
rdf_graph.parse(rdf_filepath, format="turtle")

# üìç Definir el modelo SHACL
shacl_ttl = """
@prefix sh: <http://www.w3.org/ns/shacl#> .
@prefix ex: <http://example.org/airport#> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .

ex:RegistroEmbarqueShape
    a sh:NodeShape ;
    sh:targetClass ex:RegistroEmbarque ;

    # üìç Restricci√≥n para "fecha"
    sh:property [
        sh:path ex:fecha ;
        sh:datatype xsd:date ;
        sh:minCount 1 ;
        sh:maxCount 1 ;
        sh:description "La fecha del embarque debe estar en formato YYYY-MM-DD."@es ;
    ] ;

    # üìç Restricci√≥n para "a√±o"
    sh:property [
        sh:path ex:a√±o ;
        sh:datatype xsd:integer ;
        sh:minCount 1 ;
        sh:maxCount 1 ;
        sh:minInclusive 1900 ;
        sh:maxInclusive 2100 ;
        sh:description "El a√±o debe ser un n√∫mero entero entre 1900 y 2100."@es ;
    ] ;

    # üìç Restricci√≥n para "mes"
    sh:property [
        sh:path ex:mes ;
        sh:datatype xsd:integer ;
        sh:minCount 1 ;
        sh:maxCount 1 ;
        sh:minInclusive 1 ;
        sh:maxInclusive 12 ;
        sh:description "El mes debe ser un n√∫mero entero entre 1 y 12."@es ;
    ] ;

    # üìç Restricci√≥n para "d√≠a"
    sh:property [
        sh:path ex:dia ;
        sh:datatype xsd:integer ;
        sh:minCount 1 ;
        sh:maxCount 1 ;
        sh:minInclusive 1 ;
        sh:maxInclusive 31 ;
        sh:description "El d√≠a debe ser un n√∫mero entero entre 1 y 31."@es ;
    ] ;

    # üìç Restricci√≥n para "bloqueHorario"
    sh:property [
        sh:path ex:bloqueHorario ;
        sh:datatype xsd:integer ;
        sh:minCount 1 ;
        sh:maxCount 1 ;
        sh:minInclusive 0 ;
        sh:maxInclusive 23 ;
        sh:description "El bloque horario debe ser un n√∫mero entero entre 0 y 23."@es ;
    ] ;

    # üìç Restricci√≥n para "ruta"
    sh:property [
        sh:path ex:ruta ;
        sh:datatype xsd:string ;
        sh:minCount 1 ;
        sh:maxCount 1 ;
        sh:in ( "NACIONAL"^^xsd:string "INTERNACIONAL"^^xsd:string ) ;
        sh:description "La ruta del embarque debe ser 'NACIONAL' o 'INTERNACIONAL'."@es ;
    ] ;

    # üìç Restricci√≥n para "cantidadPasajeros"
    sh:property [
        sh:path ex:cantidadPasajeros ;
        sh:datatype xsd:integer ;
        sh:minCount 1 ;
        sh:maxCount 1 ;
        sh:minInclusive 0 ;
        sh:description "La cantidad de pasajeros debe ser un n√∫mero entero 0 o mayor."@es ;
    ] .
"""

# üìç Cargar el modelo SHACL en un grafo
shacl_graph = rdflib.Graph()
shacl_graph.parse(data=shacl_ttl, format="turtle")

# üìç Validar solo los primeros 10 registros
print("\nüìå Iniciando validaci√≥n de los primeros 10 registros...\n")

count_valid = 0
count_invalid = 0

for i, registro in enumerate(rdf_graph.subjects(rdflib.RDF.type, rdflib.URIRef("http://example.org/airport#RegistroEmbarque"))):

    # Crear un subgrafo RDF con solo este registro
    registro_graph = rdflib.Graph()

    # Agregar las triples de este registro al subgrafo
    for triple in rdf_graph.triples((registro, None, None)):
        registro_graph.add(triple)

    # Ejecutar la validaci√≥n SHACL solo para este registro
    conforms, results_graph, results_text = validate(registro_graph, shacl_graph=shacl_graph, inference="rdfs")

    # üìç Mostrar resultado de la validaci√≥n para cada registro
    if conforms:
        print(f"‚úÖ Registro {i+1}: V√ÅLIDO ‚Üí {registro}")
        count_valid += 1
    else:
        print(f"‚ùå Registro {i+1}: INV√ÅLIDO ‚Üí {registro}")
        print("   üîπ Detalles del error:")
        print(results_text)
        count_invalid += 1

    # üìç Limitar la validaci√≥n a 10 registros para evitar demoras
    if i >= 9:
        print("\n‚ö†Ô∏è Se han validado 10 registros como muestra. Deteniendo validaci√≥n para optimizar tiempo.\n")
        break

# üìç Resumen final de la validaci√≥n
print("\nüìå Resumen de la validaci√≥n:")
print(f"‚úÖ Registros v√°lidos: {count_valid}")
print(f"‚ùå Registros inv√°lidos: {count_invalid}")



Collecting pyshacl
  Using cached pyshacl-0.30.0-py3-none-any.whl.metadata (35 kB)
Collecting owlrl<8,>=7.1.2 (from pyshacl)
  Using cached owlrl-7.1.3-py3-none-any.whl.metadata (3.6 kB)
Collecting html5rdf<2,>=1.2 (from rdflib[html]<8.0,>=7.1.1->pyshacl)
  Using cached html5rdf-1.2.1-py2.py3-none-any.whl.metadata (7.5 kB)
Using cached pyshacl-0.30.0-py3-none-any.whl (1.3 MB)
Using cached owlrl-7.1.3-py3-none-any.whl (51 kB)
Using cached html5rdf-1.2.1-py2.py3-none-any.whl (109 kB)
Installing collected packages: html5rdf, owlrl, pyshacl
Successfully installed html5rdf-1.2.1 owlrl-7.1.3 pyshacl-0.30.0

üìå Iniciando validaci√≥n de los primeros 10 registros...

‚úÖ Registro 1: V√ÅLIDO ‚Üí http://example.org/airport#registro_0
‚úÖ Registro 2: V√ÅLIDO ‚Üí http://example.org/airport#registro_1
‚úÖ Registro 3: V√ÅLIDO ‚Üí http://example.org/airport#registro_10
‚úÖ Registro 4: V√ÅLIDO ‚Üí http://example.org/airport#registro_100
‚úÖ Registro 5: V√ÅLIDO ‚Üí http://example.org/airport#registro_

### ShEx

In [None]:
# üìç Instalar pyshex si no est√° instalado
!pip install pyshex rdflib

import rdflib
from pyshex import ShExEvaluator
import logging

# üìç Desactivar mensajes de debug y warnings
logging.getLogger("rdflib").setLevel(logging.ERROR)
logging.getLogger("pyshex").setLevel(logging.ERROR)

# üìç Definir el modelo ShEx corregido (PERMITIENDO cantidadPasajeros = 0)
shex_schema = """
PREFIX ex: <http://example.org/airport#>
PREFIX xsd: <http://www.w3.org/2001/XMLSchema#>

start = @ex:RegistroEmbarqueShape  # üîπ Asegura que inicie con esta forma

ex:RegistroEmbarqueShape {
    ex:fecha xsd:date ;   # Fecha en formato YYYY-MM-DD
    ex:a√±o xsd:integer MinInclusive 1900 MaxInclusive 2100 ;  # A√±o entre 1900 y 2100
    ex:mes xsd:integer MinInclusive 1 MaxInclusive 12 ;  # Mes entre 1 y 12
    ex:dia xsd:integer MinInclusive 1 MaxInclusive 31 ;  # D√≠a entre 1 y 31
    ex:bloqueHorario xsd:integer MinInclusive 0 MaxInclusive 23 ;  # Horas entre 0 y 23
    ex:cantidadPasajeros xsd:integer MinInclusive 0  # ‚ö†Ô∏è Ahora acepta 0 pasajeros
}
"""

# üìç Cargar los datos RDF
rdf_filepath = "/content/embarques_aeropuerto.ttl"
rdf_graph = rdflib.Graph()
rdf_graph.parse(rdf_filepath, format="turtle")

# üìç Mostrar el contenido del primer registro RDF para diagn√≥stico
print("\nüìå Primer registro RDF detectado:\n")
for s in rdf_graph.subjects(rdflib.RDF.type, rdflib.URIRef("http://example.org/airport#RegistroEmbarque")):
    print(f"Registro: {s}")

    # Imprimir todas las propiedades de este registro
    for p, o in rdf_graph.predicate_objects(subject=s):
        print(f"   üîπ {p} ‚Üí {o}")

    break  # Solo mostramos el primer registro

# üìç Inicializar el validador ShEx con el esquema corregido
evaluator = ShExEvaluator(rdf_graph, shex_schema)

# üìç Validar solo los primeros 10 registros
print("\nüìå Iniciando validaci√≥n con ShEx de los primeros 10 registros...\n")

count_valid = 0
count_invalid = 0

for i, registro in enumerate(rdf_graph.subjects(rdflib.RDF.type, rdflib.URIRef("http://example.org/airport#RegistroEmbarque"))):

    # üìç Evaluar este registro con ShEx
    results = evaluator.evaluate(focus=str(registro))

    # üìç Mostrar resultado de la validaci√≥n para cada registro
    if results[0].result:
        print(f"‚úÖ Registro {i+1}: V√ÅLIDO ‚Üí {registro}")
        count_valid += 1
    else:
        print(f"\n‚ùå Registro {i+1}: INV√ÅLIDO ‚Üí {registro}")
        for r in results:
            print(f"üîπ Nodo evaluado: {r.focus}")
            print(f"üîπ Mensaje de error: {r.reason}")
        count_invalid += 1

    # üìç Limitar la validaci√≥n a 10 registros
    if i >= 9:
        print("\n‚ö†Ô∏è Se han validado 10 registros como muestra. Deteniendo validaci√≥n para optimizar tiempo.\n")
        break

# üìç Resumen final de la validaci√≥n
print("\nüìå Resumen de la validaci√≥n:")
print(f"‚úÖ Registros v√°lidos: {count_valid}")
print(f"‚ùå Registros inv√°lidos: {count_invalid}")


Traceback (most recent call last):
  File "/usr/local/lib/python3.11/dist-packages/pip/_internal/cli/base_command.py", line 179, in exc_logging_wrapper
    status = run_func(*args)
             ^^^^^^^^^^^^^^^
  File "/usr/local/lib/python3.11/dist-packages/pip/_internal/cli/req_command.py", line 67, in wrapper
    return func(self, options, args)
           ^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/local/lib/python3.11/dist-packages/pip/_internal/commands/install.py", line 447, in run
    conflicts = self._determine_conflicts(to_install)
                ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/local/lib/python3.11/dist-packages/pip/_internal/commands/install.py", line 578, in _determine_conflicts
    return check_install_conflicts(to_install)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/local/lib/python3.11/dist-packages/pip/_internal/operations/check.py", line 101, in check_install_conflicts
    package_set, _ = create_package_set_from_installed()
              

## **Segundo Conjunto de Datos (XML):**"Veh√≠culos registrados en el Registro Civil por medio del Registro de Veh√≠culos Motorizados, esta informaci√≥n es consolidad y disponibilizada por ANAC A.G"

### SHACL

In [None]:
# üìç Instalar dependencias necesarias
!pip install pyshacl rdflib

import rdflib
from pyshacl import validate
import logging

# üìç Desactivar logs innecesarios
logging.getLogger("pyshacl").setLevel(logging.ERROR)
logging.getLogger("rdflib").setLevel(logging.ERROR)

# üìç Cargar los datos RDF
rdf_filepath = "/content/inscripcion_vehiculos.ttl"
rdf_graph = rdflib.Graph()
rdf_graph.parse(rdf_filepath, format="turtle")

# üìç Definir el modelo SHACL
shacl_ttl = """
@prefix sh: <http://www.w3.org/ns/shacl#> .
@prefix ex: <http://example.org/vehicles#> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .

ex:InscripcionVehiculoShape
    a sh:NodeShape ;
    sh:targetClass ex:InscripcionVehiculo ;

    sh:property [
        sh:path ex:anio ;
        sh:datatype xsd:integer ;
        sh:minInclusive 1900 ;
        sh:maxInclusive 2100 ;
    ] ;

    sh:property [
        sh:path ex:mes ;
        sh:datatype xsd:string ;
    ] ;

    sh:property [
        sh:path ex:tipo ;
        sh:datatype xsd:string ;
    ] ;

    sh:property [
        sh:path ex:total_cantidad ;
        sh:datatype xsd:integer ;
        sh:minInclusive 0 ;
    ] .
"""

# üìç Cargar el modelo SHACL
shacl_graph = rdflib.Graph()
shacl_graph.parse(data=shacl_ttl, format="turtle")

# üìç Validar solo los primeros 10 registros
print("\nüìå Iniciando validaci√≥n SHACL de los primeros 10 registros...\n")

count_valid = 0
count_invalid = 0

for i, registro in enumerate(rdf_graph.subjects(rdflib.RDF.type, rdflib.URIRef("http://example.org/vehicles#InscripcionVehiculo"))):

    if i >= 10:  # üìå Limita la validaci√≥n a 10 registros
        break

    # Crear un subgrafo RDF con solo este registro
    registro_graph = rdflib.Graph()
    for triple in rdf_graph.triples((registro, None, None)):
        registro_graph.add(triple)

    # Ejecutar la validaci√≥n SHACL solo para este registro
    conforms, results_graph, results_text = validate(registro_graph, shacl_graph=shacl_graph, inference="rdfs")

    # üìç Mostrar resultado de la validaci√≥n para cada registro
    print(f"\nüîπ Validando registro {i+1}: {registro}")
    if conforms:
        print(f"‚úÖ Registro {i+1}: V√ÅLIDO")
        count_valid += 1
    else:
        print(f"‚ùå Registro {i+1}: INV√ÅLIDO")
        print("   üîπ Detalles del error:\n", results_text)
        count_invalid += 1

# üìç Resumen final de la validaci√≥n
print("\nüìå Resumen de la validaci√≥n SHACL:")
print(f"‚úÖ Registros v√°lidos: {count_valid}")
print(f"‚ùå Registros inv√°lidos: {count_invalid}")


üìå Iniciando validaci√≥n SHACL de los primeros 10 registros...


üîπ Validando registro 1: http://example.org/vehicles#registro_0
‚úÖ Registro 1: V√ÅLIDO

üîπ Validando registro 2: http://example.org/vehicles#registro_1
‚úÖ Registro 2: V√ÅLIDO

üîπ Validando registro 3: http://example.org/vehicles#registro_10
‚úÖ Registro 3: V√ÅLIDO

üîπ Validando registro 4: http://example.org/vehicles#registro_100
‚úÖ Registro 4: V√ÅLIDO

üîπ Validando registro 5: http://example.org/vehicles#registro_101
‚úÖ Registro 5: V√ÅLIDO

üîπ Validando registro 6: http://example.org/vehicles#registro_102
‚úÖ Registro 6: V√ÅLIDO

üîπ Validando registro 7: http://example.org/vehicles#registro_103
‚úÖ Registro 7: V√ÅLIDO

üîπ Validando registro 8: http://example.org/vehicles#registro_104
‚úÖ Registro 8: V√ÅLIDO

üîπ Validando registro 9: http://example.org/vehicles#registro_105
‚úÖ Registro 9: V√ÅLIDO

üîπ Validando registro 10: http://example.org/vehicles#registro_106
‚úÖ Registro 10: V√ÅLIDO

üìå 

### ShEX

In [None]:
# üìç Instalar dependencias necesarias
!pip install pyshex rdflib

import rdflib
from pyshex import ShExEvaluator
import logging

# üìç Desactivar logs innecesarios
logging.getLogger("rdflib").setLevel(logging.ERROR)
logging.getLogger("pyshex").setLevel(logging.ERROR)

# üìç Definir el modelo ShEx
shex_schema = """
PREFIX ex: <http://example.org/vehicles#>
PREFIX xsd: <http://www.w3.org/2001/XMLSchema#>

start = @ex:InscripcionVehiculoShape

ex:InscripcionVehiculoShape {
    ex:anio xsd:integer MinInclusive 1900 MaxInclusive 2100 ;
    ex:mes xsd:string ;
    ex:tipo xsd:string ;
    ex:total_cantidad xsd:integer MinInclusive 0 ;
}
"""

# üìç Cargar los datos RDF
rdf_filepath = "/content/inscripcion_vehiculos.ttl"
rdf_graph = rdflib.Graph()
rdf_graph.parse(rdf_filepath, format="turtle")

# üìç Inicializar el validador ShEx con el esquema
evaluator = ShExEvaluator(rdf_graph, shex_schema)

# üìç Validar solo los primeros 10 registros
print("\nüìå Iniciando validaci√≥n con ShEx de los primeros 10 registros...\n")

count_valid = 0
count_invalid = 0

for i, registro in enumerate(rdf_graph.subjects(rdflib.RDF.type, rdflib.URIRef("http://example.org/vehicles#InscripcionVehiculo"))):

    if i >= 10:  # üìå Limita la validaci√≥n a 10 registros
        break

    # üìç Evaluar este registro con ShEx
    results = evaluator.evaluate(focus=str(registro))

    # üìç Mostrar resultado de la validaci√≥n para cada registro
    print(f"\nüîπ Validando registro {i+1}: {registro}")
    if results[0].result:
        print(f"‚úÖ Registro {i+1}: V√ÅLIDO")
        count_valid += 1
    else:
        print(f"‚ùå Registro {i+1}: INV√ÅLIDO")
        for r in results:
            print(f"   üîπ Nodo evaluado: {r.focus}")
            print(f"   üîπ Mensaje de error: {r.reason}")
        count_invalid += 1

# üìç Resumen final de la validaci√≥n
print("\nüìå Resumen de la validaci√≥n ShEx:")
print(f"‚úÖ Registros v√°lidos: {count_valid}")
print(f"‚ùå Registros inv√°lidos: {count_invalid}")



üìå Iniciando validaci√≥n con ShEx de los primeros 10 registros...


üîπ Validando registro 1: http://example.org/vehicles#registro_0
‚úÖ Registro 1: V√ÅLIDO

üîπ Validando registro 2: http://example.org/vehicles#registro_1
‚úÖ Registro 2: V√ÅLIDO

üîπ Validando registro 3: http://example.org/vehicles#registro_10
‚úÖ Registro 3: V√ÅLIDO

üîπ Validando registro 4: http://example.org/vehicles#registro_100
‚úÖ Registro 4: V√ÅLIDO

üîπ Validando registro 5: http://example.org/vehicles#registro_101
‚úÖ Registro 5: V√ÅLIDO

üîπ Validando registro 6: http://example.org/vehicles#registro_102
‚úÖ Registro 6: V√ÅLIDO

üîπ Validando registro 7: http://example.org/vehicles#registro_103
‚úÖ Registro 7: V√ÅLIDO

üîπ Validando registro 8: http://example.org/vehicles#registro_104
‚úÖ Registro 8: V√ÅLIDO

üîπ Validando registro 9: http://example.org/vehicles#registro_105
‚úÖ Registro 9: V√ÅLIDO

üîπ Validando registro 10: http://example.org/vehicles#registro_106
‚úÖ Registro 10: V√ÅLIDO

ü

## **Comparaci√≥n entre SHACL y ShEx en la validaci√≥n de datos RDF**

1. Prop√≥sito y Enfoque
SHACL es m√°s flexible y poderoso, pero m√°s verboso.
ShEx es m√°s sencillo y directo, ideal para validaciones r√°pidas.

2. Sintaxis y Facilidad de Uso
ShEx es m√°s f√°cil de leer y escribir, pero menos flexible.
SHACL es m√°s detallado y robusto, ideal para reglas avanzadas.

3. Expresividad y Validaci√≥n
SHACL es m√°s poderoso para definir reglas complejas.
ShEx es m√°s simple y f√°cil de aplicar, pero menos expresivo.

4. Rendimiento y Escalabilidad
SHACL es mejor para bases de datos grandes.
ShEx es m√°s r√°pido en validaciones sencillas.

5. Aplicaciones y Casos de Uso
SHACL es ideal para entornos empresariales y validaciones complejas.
ShEx es m√°s √∫til en validaciones r√°pidas y validaciones estructurales simples.

# **Tarea 4/Opcional 4:** Comparativa entre RDF con SPARQL, Wikidata y LLMs.

Compararemos las respuestas obtenidas de diferentes fuentes de datos sobre inscripci√≥n de veh√≠culos. Se evaluar√° la calidad de las respuestas obtenidas desde:

* RDF + SPARQL (Datos estructurados en un grafo RDF con
 consultas SPARQL)
* Wikidata (Base de conocimiento colaborativa con consultas SPARQL)
* Large Language Models (LLMs) como GPT-4 (Generaci√≥n de respuestas basadas en aprendizaje profundo)

# **1. Comparaci√≥n de respuestas entre RDF + SPARQL, Wikidata y LLMs**

Elegimos las siguientes preguntas para la comparaci√≥n:

* Pregunta 1: ¬øCu√°l fue el tipo de veh√≠culo m√°s vendido en 2020?
* Pregunta 2: ¬øCu√°ntos tipos diferentes de veh√≠culos se registraron en el dataset?

# **Respuesta mediante RDF + SPARQL (sobre nuestros datos)**

In [None]:
# üìç Instalar rdflib y pandas si no est√°n instalados
!pip install rdflib pandas

import rdflib
import pandas as pd

# üìå Cargar el archivo RDF
rdf_filepath = "/content/inscripcion_vehiculos.ttl"  # üìå Ruta del archivo RDF
g = rdflib.Graph()
g.parse(rdf_filepath, format="turtle")

# üìå Funci√≥n para ejecutar consultas SPARQL y mostrar resultados
def ejecutar_consulta(sparql_query, titulo):
    print(f"\nüîπ {titulo}\n")
    qres = g.query(sparql_query)

    # Convertir resultados en DataFrame
    resultados = []
    for row in qres:
        resultados.append([str(valor) for valor in row])

    if resultados:
        df = pd.DataFrame(resultados, columns=[str(var) for var in qres.vars])
        display(df)  # üìå Muestra la tabla en Colab
    else:
        print("‚ö†Ô∏è No se encontraron resultados.")

# üìå Pregunta 1: ¬øCu√°l fue el tipo de veh√≠culo m√°s vendido en 2020?
consulta1 = """
PREFIX ex: <http://example.org/vehicles#>

SELECT ?tipo (SUM(xsd:integer(?total_cantidad)) AS ?total_vendidos)
WHERE {
  ?vehiculo ex:anio 2020 ;
            ex:tipo ?tipo ;
            ex:total_cantidad ?total_cantidad .
}
GROUP BY ?tipo
ORDER BY DESC(?total_vendidos)
LIMIT 1
"""
ejecutar_consulta(consulta1, "üìå Tipo de veh√≠culo m√°s vendido en 2020")

# üìå Pregunta 2: ¬øCu√°ntos tipos diferentes de veh√≠culos se registraron en el dataset?
consulta2 = """
PREFIX ex: <http://example.org/vehicles#>

SELECT (COUNT(DISTINCT ?tipo) AS ?total_tipos)
WHERE {
  ?vehiculo ex:tipo ?tipo .
}
"""
ejecutar_consulta(consulta2, "üìå Cantidad de tipos diferentes de veh√≠culos registrados")



üîπ üìå Tipo de veh√≠culo m√°s vendido en 2020



Unnamed: 0,tipo,total_vendidos
0,Otros,232368



üîπ üìå Cantidad de tipos diferentes de veh√≠culos registrados



Unnamed: 0,total_tipos
0,7


# **Fortalezas de RDF + SPARQL:**
* Consultas exactas y estructuradas
* Alta precisi√≥n en los resultados
* Datos completamente verificables y auditable

# **Desventajas de RDF + SPARQL:**
* Requiere conocimiento t√©cnico en SPARQL
* No es accesible para usuarios sin experiencia en bases de datos

# **Respuesta mediante Wikidata**

In [None]:
# üìç Instalar librer√≠as necesarias
!pip install SPARQLWrapper pandas

from SPARQLWrapper import SPARQLWrapper, JSON
import pandas as pd

# üìå Configurar el endpoint de Wikidata
endpoint_url = "https://query.wikidata.org/sparql"

# üìå Funci√≥n para ejecutar consultas SPARQL en Wikidata
def ejecutar_consulta_wikidata(sparql_query, titulo):
    print(f"\nüîπ {titulo}\n")
    sparql = SPARQLWrapper(endpoint_url)
    sparql.setQuery(sparql_query)
    sparql.setReturnFormat(JSON)
    results = sparql.query().convert()

    # Convertir los resultados a un DataFrame
    datos = []
    for result in results["results"]["bindings"]:
        fila = {var: result[var]["value"] for var in result}
        datos.append(fila)

    if datos:
        df = pd.DataFrame(datos)
        display(df)  # üìå Muestra la tabla en Colab
    else:
        print("‚ö†Ô∏è No se encontraron resultados.")

# üìå Pregunta 1: ¬øCu√°l fue el tipo de veh√≠culo m√°s vendido en 2020?
consulta1_wikidata = """
SELECT ?vehicleTypeLabel (SUM(?quantity) AS ?totalSold) WHERE {
  ?registration wdt:P31 wd:Q80730726 ;  # Instancia de inscripci√≥n de veh√≠culos
               wdt:P571 ?date ;          # Fecha de inscripci√≥n
               wdt:P4003 ?vehicleType ;  # Tipo de veh√≠culo
               wdt:P1114 ?quantity .     # Cantidad inscrita
  FILTER(YEAR(?date) = 2020)  # Filtrar solo a√±o 2020
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
}
GROUP BY ?vehicleTypeLabel
ORDER BY DESC(?totalSold)
LIMIT 1
"""
ejecutar_consulta_wikidata(consulta1_wikidata, "üìå Tipo de veh√≠culo m√°s vendido en 2020 (Wikidata)")

# üìå Pregunta 2: ¬øCu√°ntos tipos diferentes de veh√≠culos se registraron en el dataset?
consulta2_wikidata = """
SELECT (COUNT(DISTINCT ?vehicleType) AS ?totalTypes) WHERE {
  ?registration wdt:P31 wd:Q80730726 ;  # Instancia de inscripci√≥n de veh√≠culos
               wdt:P4003 ?vehicleType . # Tipo de veh√≠culo
}
"""
ejecutar_consulta_wikidata(consulta2_wikidata, "üìå Cantidad de tipos diferentes de veh√≠culos registrados (Wikidata)")



üîπ üìå Tipo de veh√≠culo m√°s vendido en 2020 (Wikidata)

‚ö†Ô∏è No se encontraron resultados.

üîπ üìå Cantidad de tipos diferentes de veh√≠culos registrados (Wikidata)



Unnamed: 0,totalTypes
0,0


# **Fortalezas de Wikidata:**
* Disponible p√∫blicamente y colaborativo
* Informaci√≥n m√°s generalizada y accesible

# **Desventajas de Wikidata:**
* Puede haber datos incompletos o desactualizados
* No refleja datos espec√≠ficos de nuestro dataset

# **Respuesta mediante LLMs (ChatGPT, GPT-4, etc.)**

* **Pregunta:** ¬øCu√°l fue el tipo de veh√≠culo m√°s vendido en 2020?

* **Respuesta:** En 2020, el tipo de veh√≠culo m√°s vendido a nivel mundial fue el autom√≥vil compacto, con el Toyota Corolla liderando las ventas con 1,134,262 unidades.

# **Fortalezas de los LLMs:**
* Accesibles para cualquier usuario
* Pueden generar explicaciones comprensibles y contexto adicional

# **Problemas en las respuestas de los LLMs:**
* No acceden a datos estructurados en tiempo real
* Respuestas basadas en estimaciones y patrones de entrenamiento
* Imprecisiones y falta de verificabilidad