In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from rdflib import URIRef, Literal, RDF, Graph, Namespace, XSD

In [2]:
# Load the data
Sag = pd.read_pickle('../data/raw/Sag.pkl')
Subset = Sag[0:500]
Dokument = pd.read_pickle('../data/raw/Dokument.pkl')
SagDokument = pd.read_pickle('../data/raw/SagDokument.pkl')
SagDokumentRolle = pd.read_pickle('../data/raw/SagDokumentRolle.pkl')
Aktør = pd.read_pickle('../data/raw/Aktør.pkl')
Aktørtype = pd.read_pickle('../data/raw/Aktørtype.pkl')
SagAktør = pd.read_pickle('../data/raw/SagAktør.pkl')
SagAktørRolle = pd.read_pickle('../data/raw/SagAktørRolle.pkl')
DokumentAktør = pd.read_pickle('../data/raw/DokumentAktør.pkl')
DokumentAktørRolle = pd.read_pickle('../data/raw/DokumentAktørRolle.pkl')
Emneord = pd.read_pickle('../data/raw/Emneord.pkl')


In [3]:
# Define the namespaces for your graph
EX = Namespace("http://XAINLP.com/")
SAG = Namespace("http://XAINLP.com/sag/")
DOKUMENT = Namespace("http://XAINLP.com/dokument/")
AKTØR = Namespace("http://XAINLP.com/aktør/")
SAGAKTØRROLLE = Namespace("http://XAINLP.com/sagaktørrolle/")
DOKUMENTAKTØRROLLE = Namespace("http://XAINLP.com/dokumentaktørrolle/")
SAGDOKUMENTROLLE = Namespace("http://XAINLP.com/sagdokumentrolle/")

# Create a new graph
g = Graph()
g.bind("ex", EX)
g.bind("sag", SAG)
g.bind("dokument", DOKUMENT)
g.bind("aktør", AKTØR)
g.bind("sagaktørrolle", SAGAKTØRROLLE)
g.bind("dokumentaktørrolle", DOKUMENTAKTØRROLLE)
g.bind("sagdokumentrolle", SAGDOKUMENTROLLE)


In [4]:
# Iterate over each row of the Sag dataframe
from tqdm import tqdm
for _, row in tqdm(Sag.iterrows(), total=len(Sag)):

    # Define the URI for the Sag node
    sag_uri = SAG[str(row["id"])]
    #print(sag_uri)

    # Add the node type
    g.add((sag_uri, RDF.type, EX["Sag"]))

    # Add the attributes as properties of the Sag node
    g.add((sag_uri, SAG["typeid"], Literal(row["typeid"], datatype=XSD.integer)))
    g.add((sag_uri, SAG["kategoriid"], Literal(row["kategoriid"], datatype=XSD.integer)))
    g.add((sag_uri, SAG["statusid"], Literal(row["statusid"], datatype=XSD.integer)))
    g.add((sag_uri, SAG["titel"], Literal(row["titel"])))
    g.add((sag_uri, SAG["titelkort"], Literal(row["titelkort"])))
    g.add((sag_uri, SAG["offentlighedskode"], Literal(row["offentlighedskode"])))
    g.add((sag_uri, SAG["nummer"], Literal(row["nummer"])))
    g.add((sag_uri, SAG["nummerprefix"], Literal(row["nummerprefix"])))
    g.add((sag_uri, SAG["nummernumerisk"], Literal(row["nummernumerisk"])))
    g.add((sag_uri, SAG["nummerpostfix"], Literal(row["nummerpostfix"])))
    g.add((sag_uri, SAG["resume"], Literal(row["resume"])))
    g.add((sag_uri, SAG["afstemningskonklusion"], Literal(row["afstemningskonklusion"])))
    g.add((sag_uri, SAG["periodeid"], Literal(row["periodeid"], datatype=XSD.integer)))
    g.add((sag_uri, SAG["afgørelsesresultatkode"], Literal(row["afgørelsesresultatkode"])))
    g.add((sag_uri, SAG["baggrundsmateriale"], Literal(row["baggrundsmateriale"])))
    g.add((sag_uri, SAG["opdateringsdato"], Literal(row["opdateringsdato"], datatype=XSD.dateTime)))
    g.add((sag_uri, SAG["statsbudgetsag"], Literal(row["statsbudgetsag"], datatype=XSD.boolean)))
    g.add((sag_uri, SAG["begrundelse"], Literal(row["begrundelse"])))
    g.add((sag_uri, SAG["paragrafnummer"], Literal(row["paragrafnummer"])))
    g.add((sag_uri, SAG["paragraf"], Literal(row["paragraf"])))
    g.add((sag_uri, SAG["afgørelsesdato"], Literal(row["afgørelsesdato"], datatype=XSD.dateTime)))
    g.add((sag_uri, SAG["afgørelse"], Literal(row["afgørelse"])))
    g.add((sag_uri, SAG["rådsmødedato"], Literal(row["rådsmødedato"], datatype=XSD.dateTime)))
    g.add((sag_uri, SAG["lovnummer"], Literal(row["lovnummer"])))
    g.add((sag_uri, SAG["lovnummerdato"], Literal(row["lovnummerdato"], datatype=XSD.dateTime)))
    g.add((sag_uri, SAG["retsinformationsurl"], Literal(row["retsinformationsurl"])))
    g.add((sag_uri, SAG["fremsatundersagid"], Literal(row["fremsatundersagid"])))
    g.add((sag_uri, SAG["deltundersagid"], Literal(row["deltundersagid"])))

100%|██████████| 88851/88851 [01:20<00:00, 1097.83it/s]


In [5]:
#Adding dokument nodes
for _, row in tqdm(Dokument.iterrows(), total=len(Dokument)):
    dokument_uri = DOKUMENT[str(row["id"])]
    g.add((dokument_uri, RDF.type, EX["Dokument"]))
    g.add((dokument_uri, DOKUMENT["typeid"], Literal(row["typeid"], datatype=XSD.integer)))
    g.add((dokument_uri, DOKUMENT["kategoriid"], Literal(row["kategoriid"], datatype=XSD.integer)))
    g.add((dokument_uri, DOKUMENT["statusid"], Literal(row["statusid"], datatype=XSD.integer)))
    g.add((dokument_uri, DOKUMENT["titel"], Literal(row["titel"])))
    g.add((dokument_uri, DOKUMENT["dato"], Literal(row["dato"], datatype=XSD.dateTime)))
    g.add((dokument_uri, DOKUMENT["spørgsmålsid"], Literal(row["spørgsmålsid"], datatype=XSD.integer)))
    g.add((dokument_uri, DOKUMENT["spørgsmålstitel"], Literal(row["spørgsmålstitel"])))
    g.add((dokument_uri, DOKUMENT["paragraf"], Literal(row["paragraf"])))
    

100%|██████████| 871023/871023 [04:31<00:00, 3204.41it/s]


In [6]:
#Adding aktør nodes
for _, row in tqdm(Aktør.iterrows(), total=len(Aktør)):
  aktør_uri = AKTØR[str(row["id"])]
  g.add((aktør_uri, RDF.type, EX["Aktør"]))
  g.add((aktør_uri, AKTØR["typeid"], Literal(row["typeid"], datatype=XSD.integer)))
  g.add((aktør_uri, AKTØR["navn"], Literal(row["navn"])))
  g.add((aktør_uri, AKTØR["gruppenavnkort"], Literal(row["gruppenavnkort"])))

100%|██████████| 17659/17659 [00:02<00:00, 7062.21it/s]


In [7]:
SagDokumentRolle_dict = {i: rolle for i, rolle in enumerate(SagDokumentRolle["rolle"].unique(), 1)}
SagDokumentRolle_dict = {i: rolle.replace(" ", "_") for i, rolle in SagDokumentRolle_dict.items()}
SagDokumentRolle_dict


{1: 'Tidl._jour._på',
 2: 'Parallelomdelt_på',
 3: 'På_sagstrin',
 4: 'Hovedtilknytning',
 5: 'Se_også',
 6: 'Relation',
 7: 'Child'}

In [8]:
SagDokument.iloc[0]

id                                         21
sagid                                    4496
dokumentid                               7913
bilagsnummer                                 
frigivelsesdato           2013-10-16 14:54:51
opdateringsdato    2014-09-16 06:16:53.990000
rolleid                                     4
Name: 0, dtype: object

In [9]:
### Adding edges between sag and dokument,

# Iterate over each row of the Sag dataframe
for _, row in tqdm(SagDokument.iterrows(), total=len(SagDokument)):
    # Define the URI for the Sag node
    sag_uri = SAG[str(row["sagid"])]
    dokument_uri = DOKUMENT[str(row["dokumentid"])]
    
    # Add the edge type
    g.add((sag_uri, EX["hasDokument"], dokument_uri))
    g.add((sag_uri, EX["isAktørOf"], aktør_uri))
    rolle = SagDokumentRolle_dict[int(row["rolleid"])]
    g.add((sag_uri, SAGDOKUMENTROLLE[rolle], dokument_uri))


100%|██████████| 593091/593091 [01:02<00:00, 9527.30it/s] 


In [10]:
#create a dict that maps the rolle to intgers starting at 1

SagAktørRolle_dict = {i: rolle for i, rolle in enumerate(SagAktørRolle['rolle'].unique(), 1)}


In [11]:
SagAktør["rolleid"].value_counts()

9     74452
6     65801
14    64126
17    53104
10    52164
11    27209
16    21455
12    11166
19     4642
4      3746
15     3722
5       881
18      352
2        75
3        37
8        32
13       11
7         2
1         1
Name: rolleid, dtype: int64

In [12]:
#replace space with underscore
SagAktørRolle_dict = {i: rolle.replace(" ", "_") for i, rolle in SagAktørRolle_dict.items()}
SagAktørRolle_dict

{1: 'Taler',
 2: 'Ordfører_for_forslagsstillerne',
 3: 'Tidligere_henvist_til',
 4: 'Af',
 5: 'Medspørger',
 6: 'Ministerområde',
 7: 'Privatist',
 8: 'Kopi_sendt_til',
 9: 'Relevant_for',
 10: 'Spørger',
 11: 'Henvist_til',
 12: 'Udsteder',
 13: 'Optaget_af',
 14: 'Minister',
 15: 'Forespørger',
 16: 'Forslagsstiller_(priv.)',
 17: 'Til',
 18: 'Afgivet_af',
 19: 'Forslagsstiller_(reg.)',
 20: 'Orlovssøgende',
 21: 'Stedfortræder',
 22: 'Statsrevisor_inhabil',
 23: 'Besvaret_af'}

In [13]:
# Doing the same for Sag and Aktør
for _, row in tqdm(SagAktør.iterrows(), total=len(SagAktør)):
    sag_uri = SAG[str(row["sagid"])]
    aktør_uri = AKTØR[str(row["aktørid"])]
    g.add((sag_uri, EX["hasAktør"], aktør_uri))
    g.add((aktør_uri, EX["isAktørOf"], sag_uri))
    rolle = SagAktørRolle_dict[int(row["rolleid"])]
    g.add((sag_uri, SAGAKTØRROLLE[rolle], aktør_uri))
    

100%|██████████| 382978/382978 [00:33<00:00, 11332.75it/s]


In [14]:

#First creating a dict that maps the rolle to intgers starting at 1
DokumentAktørRolle_dict = {i: rolle for i, rolle in enumerate(DokumentAktørRolle['rolle'].unique(), 1)}
DokumentAktørRolle_dict = {i: rolle.replace(" ", "_") for i, rolle in DokumentAktørRolle_dict.items()}
DokumentAktørRolle_dict

{1: 'Afsender',
 2: 'Kopi_til',
 3: 'Stiller/MFU',
 4: 'Besvaret_af',
 5: 'Minister',
 6: 'Spørger',
 7: 'Medspørger',
 8: 'Til',
 9: 'Ministerområde',
 10: 'Adressat',
 11: 'Modtager',
 12: 'Stiller',
 13: 'Relevant_for',
 14: 'Afgivet_af',
 15: 'BCC',
 16: 'Kontakt',
 17: 'Deltager',
 18: 'Behandles_i',
 19: 'Forslagsstiller',
 20: 'Ordfører_for_forslagsstillerne',
 21: 'Ordfører_for_forespørgerne',
 22: 'Ordfører',
 23: 'Taler'}

In [15]:
#Doing the same for Dokument and Aktør

for _, row in tqdm(DokumentAktør.iterrows(), total=len(DokumentAktør)):
    dokument_uri = DOKUMENT[str(row["dokumentid"])]
    aktør_uri = AKTØR[str(row["aktørid"])]
    g.add((dokument_uri, EX["hasAktør"], aktør_uri))
    g.add((aktør_uri, EX["isAktørOf"], dokument_uri))
    rolle = DokumentAktørRolle_dict[int(row["rolleid"])]
    g.add((dokument_uri, DOKUMENTAKTØRROLLE[rolle], aktør_uri))

100%|██████████| 933647/933647 [01:41<00:00, 9205.25it/s] 


In [16]:
sag_nodes = sorted([sag for sag in g.subjects(RDF.type, EX["Sag"])])
if len(sag_nodes) >= 2:
    sag_node = sag_nodes[1]

    # Print the attributes of the second Sag node
    for s, p, o in g.triples((sag_node, None, None)):
        if isinstance(o, Literal):
            print(f"{p}: {o.value}")
        else:
            print(f"{p}: {o}")
else:
    print("There are not enough Sag nodes in the graph.")

http://www.w3.org/1999/02/22-rdf-syntax-ns#type: http://XAINLP.com/Sag
http://XAINLP.com/sag/typeid: 7
http://XAINLP.com/sag/kategoriid: <NA>
http://XAINLP.com/sag/statusid: 54
http://XAINLP.com/sag/titel: Forslag til Europa-Parlamentets og Rådets direktiv om foreløbig retshjælp til mistænkte eller tiltalte, der frihedsberøves, og retshjælp i sager angående europæiske arrestordrer
http://XAINLP.com/sag/titelkort: Forslag til Europa-Parlamentets og Rådets direktiv om foreløbig retshjælp til mistænkte eller tiltalte, der frihedsberøves, og retshjælp i sager angående europæiske arrestordrer
http://XAINLP.com/sag/offentlighedskode: O
http://XAINLP.com/sag/nummer: KOM (2013) 0824
http://XAINLP.com/sag/nummerprefix: KOM
http://XAINLP.com/sag/nummernumerisk: 824
http://XAINLP.com/sag/nummerpostfix: 
http://XAINLP.com/sag/resume: <div>


<p>
<strong>Forslaget er modtaget</strong> af Folketinget i dansk sprogudgave 
 den&nbsp;18. december&nbsp;2013, jf. <a href="http://www.euo.dk/upload/applica

### The SPARQL below works

In [40]:
#Save the graph
#g.serialize(destination='../data/graph.ttl', format='turtle')

<Graph identifier=Ne5fd941128014243bc6ddef7c1d9fd9e (<class 'rdflib.graph.Graph'>)>

In [43]:
from rdflib import Graph, Literal
from rdflib.namespace import RDF, RDFS, FOAF, XSD
from rdflib.plugins.sparql import prepareQuery


def get_linked_dokument_ids(g, sagid):
    # Define the URI for the Sag node
    sag_uri = SAG[str(sagid)]

    # Prepare the SPARQL query
    query_str = """
        PREFIX ex: <http://XAINLP.com/>
        SELECT ?dokument WHERE {{
            <{sag_uri}> ex:hasDokument ?dokument .
            ?dokument a ex:Dokument .
        }}
    """.format(sag_uri=sag_uri)
    print(query_str)
    query = prepareQuery(query_str, initNs={"ex": EX})

    # Execute the query and retrieve the results
    result = g.query(query)

    # Extract the dokument IDs from the results
    dokument_ids = [str(row["dokument"].split("/")[-1]) for row in result]

    return dokument_ids


In [44]:
test = get_linked_dokument_ids(g, 2)
print(test)


        PREFIX ex: <http://XAINLP.com/>
        SELECT ?dokument WHERE {
            <http://XAINLP.com/sag/2> ex:hasDokument ?dokument .
            ?dokument a ex:Dokument .
        }
    
['2', '3']


In [19]:
from SPARQLBurger.SPARQLQueryBuilder import *

# Create a graph pattern
pattern = SPARQLGraphPattern()

# Add a couple of triples to the pattern
pattern.add_triples(
        triples=[
            Triple(subject="?person", predicate="rdf:type", object="ex:Person"),
            Triple(subject="?person", predicate="ex:hasName", object="?name")
        ]
    )

# Let's print this graph pattern
print(pattern.get_text())

{
   ?person rdf:type ex:Person . 
   ?person ex:hasName ?name . 
}



In [40]:
from SPARQLBurger.SPARQLQueryBuilder import *



#sag_uri = SAG[str(2)]

# Create an object of class SPARQLSelectQuery and set the limit for the results to 100
select_query = SPARQLSelectQuery(distinct=False, limit=100)

# Add a prefix
select_query.add_prefix(
    prefix=Prefix(prefix="ex", namespace="http://XAINLP.com/")
)
#EX = Namespace("http://XAINLP.com/")

# Add the variables we want to select
select_query.add_variables(variables=["?dokument"])

# Create a graph pattern to use for the WHERE part and add some triples
where_pattern = SPARQLGraphPattern()
where_pattern.add_triples(
        triples=[
            Triple(subject="INSERT", predicate="ex:hasDokument", object="?dokument"),
            Triple(subject="?dokument", predicate="a", object="ex:Dokument")
            #Triple(subject="?aktør", predicate="ex:isAktørOf", object="?sag"),
            #Triple(subject="?person", predicate="ex:address", object="?address"),
        ]
    )

# Set this graph pattern to the WHERE part
select_query.set_where_pattern(graph_pattern=where_pattern)



# Print the query we have defined
print(select_query.get_text())
burger = select_query.get_text()

PREFIX ex: <http://XAINLP.com/>

SELECT ?dokument
WHERE {
   INSERT ex:hasDokument ?dokument . 
   ?dokument a ex:Dokument . 
}
LIMIT 100


In [46]:
from rdflib import Graph, Literal
from rdflib.namespace import RDF, RDFS, FOAF, XSD
from rdflib.plugins.sparql import prepareQuery


def get_linked_dokument_ids(g, sagid, burger):
    # Define the URI for the Sag node
    sag_uri = SAG[str(sagid)]

    # Prepare the SPARQL query. Replace INSERT with sag_uri
    query_str = burger.replace("INSERT", "<"+sag_uri+">")
    print(query_str)
    query = prepareQuery(query_str, initNs={"ex": EX})

    # Execute the query and retrieve the results
    result = g.query(query)

    # Extract the dokument IDs from the results
    dokument_ids = [str(row["dokument"].split("/")[-1]) for row in result]

    return dokument_ids

test = get_linked_dokument_ids(g, 2, burger)
print(test)

<http://XAINLP.com/sag/2 does not look like a valid URI, trying to serialize this will break.
<http://XAINLP.com/sag/2> does not look like a valid URI, trying to serialize this will break.


PREFIX ex: <http://XAINLP.com/>

SELECT ?dokument
WHERE {
   <http://XAINLP.com/sag/2> ex:hasDokument ?dokument . 
   ?dokument a ex:Dokument . 
}
LIMIT 100
['2', '3']


In [35]:
test = get_linked_dokument_ids(g, 2, burger)
print(test)

ParseException: Expected {SelectQuery | ConstructQuery | DescribeQuery | AskQuery}, found 'http'  (at char 61), (line:5, col:4)

In [None]:
from rdflib import Graph, Literal
from rdflib.namespace import RDF, RDFS, FOAF, XSD
from rdflib.plugins.sparql import prepareQuery


def get_linked_dokument_ids(g, sagid):
    # Define the URI for the Sag node
    sag_uri = SAG[str(sagid)]

    # Prepare the SPARQL query
    query_str = """
        PREFIX ex: <http://XAINLP.com/>
        SELECT DISTINCT ?aktør ?sag ?dokument WHERE {
            ?aktør rdf:type ex:Aktør . 
            ?sag rdf:type ex:Sag . 
            ?aktør ex:isAktørOf ?sag . 
            }
    """.format(sag_uri=sag_uri)
    query = prepareQuery(query_str, initNs={"ex": EX})

    # Execute the query and retrieve the results
    result = g.query(query)

    # Extract the dokument IDs from the results
    dokument_ids = [str(row["dokument"].split("/")[-1]) for row in result]

    return dokument_ids


In [64]:
def get_linked_aktor_ids_by_rolle(g, sagid, rolle):
    # Define the URI for the Sag node
    sag_uri = SAG[str(sagid)]

    # Prepare the SPARQL query
    query_str = """
        PREFIX ex: <http://XAINLP.com/>
        SELECT ?aktørid WHERE {{
            <{sag_uri}> ex:hasAktør ?aktør .
            ?aktør a ex:Aktør .
            ?aktør ex:aktørid ?aktørid .
            <{sag_uri}> ex:{rolle} ?aktør .
        }}
    """.format(sag_uri=sag_uri, rolle=rolle)
    query = prepareQuery(query_str, initNs={"ex": EX})

    # Execute the query and retrieve the results
    result = g.query(query)

    # Extract the aktør IDs from the results
    aktor_ids = [str(row["aktørid"]) for row in result]

    return aktor_ids


sagid = 1
rolle = "Relevant_for"
linked_aktor_ids = get_linked_aktor_ids_by_rolle(g, sagid, rolle)
print(linked_aktor_ids)


[]


In [59]:
def get_linked_aktor_ids(g, sagid):
    # Define the URI for the Sag node
    sag_uri = SAG[str(sagid)]

    # Prepare the SPARQL query
    query_str = """
        PREFIX ex: <http://XAINLP.com/>
        SELECT ?aktørid WHERE {{
            <{sag_uri}> ex:hasAktør ?aktør .
            ?aktør a ex:Aktør .
            ?aktør ex:aktørid ?aktørid .
        }}
    """.format(sag_uri=sag_uri)
    query = prepareQuery(query_str, initNs={"ex": EX})

    # Execute the query and retrieve the results
    result = g.query(query)

    # Extract the aktør IDs from the results
    aktor_ids = [str(row["aktørid"]) for row in result]

    return aktor_ids

test2 = get_linked_aktor_ids(g, 2)
print(test2)


[]


In [42]:
def get_predicate_values_for_node(g, node_uri):
    # Prepare the SPARQL query
    query_str = """
        SELECT DISTINCT ?predicate ?object WHERE {{
            <{node_uri}> ?predicate ?object .
        }}
    """.format(node_uri=node_uri)
    query = prepareQuery(query_str, initNs={"ex": EX, "rdf": RDF})

    # Execute the query and retrieve the results
    result = g.query(query)

    # Convert the result to a list of dictionaries
    rows = [dict(zip(result.vars, row)) for row in result]

    # Return the list of predicate values
    return rows

    return predicates



node_uri = "http://XAINLP.com/dokument/21"
predicates = get_predicate_values_for_node(g, node_uri)
print(predicates)






[{rdflib.term.Variable('predicate'): rdflib.term.URIRef('http://www.w3.org/1999/02/22-rdf-syntax-ns#type'), rdflib.term.Variable('object'): rdflib.term.URIRef('http://XAINLP.com/Dokument')}, {rdflib.term.Variable('predicate'): rdflib.term.URIRef('http://XAINLP.com/dokument/typeid'), rdflib.term.Variable('object'): rdflib.term.Literal('18', datatype=rdflib.term.URIRef('http://www.w3.org/2001/XMLSchema#integer'))}, {rdflib.term.Variable('predicate'): rdflib.term.URIRef('http://XAINLP.com/dokument/kategoriid'), rdflib.term.Variable('object'): rdflib.term.Literal('57', datatype=rdflib.term.URIRef('http://www.w3.org/2001/XMLSchema#integer'))}, {rdflib.term.Variable('predicate'): rdflib.term.URIRef('http://XAINLP.com/dokument/statusid'), rdflib.term.Variable('object'): rdflib.term.Literal('1', datatype=rdflib.term.URIRef('http://www.w3.org/2001/XMLSchema#integer'))}, {rdflib.term.Variable('predicate'): rdflib.term.URIRef('http://XAINLP.com/dokument/titel'), rdflib.term.Variable('object'): rd

In [49]:
# # Create a dictionary that maps id values to URIRef objects for the Sag nodes
# sag_dict = {}
# for _, row in Subset.iterrows():
#     sag_dict[str(row["id"])] = SAG[str(row["id"])]

# # Convert the keys in sag_dict to integers
# sag_ids = [int(k) for k in sag_dict.keys()]

# # Create a set of unique dokumentid values that are linked to Sag nodes
# dokumentids_linked_to_sag = set(SagDokument[SagDokument["sagid"].isin(sag_ids)]["dokumentid"])

# aktørids_linked_to_sag = set(SagAktør[SagAktør["sagid"].isin(sag_ids)]["aktørid"])


In [52]:
# n_dokument_before = len(list(g.subjects(RDF.type, EX["Dokument"])))
# print(f"Number of Dokument nodes before: {n_dokument_before}")

# n_aktør_before = len(list(g.subjects(RDF.type, EX["Aktør"])))
# print(f"Number of Aktør nodes before: {n_aktør_before}")



# # Iterate over each row of the Sag dataframe
# from tqdm import tqdm
# for _, row in tqdm(Subset.iterrows(), total=len(Subset)):

#     # Define the URI for the Sag node
#     sag_uri = SAG[str(row["id"])]
#     #print(sag_uri)

#     # Add the node type
#     g.add((sag_uri, RDF.type, EX["Sag"]))

#     # Add the attributes as properties of the Sag node
#     g.add((sag_uri, SAG["typeid"], Literal(row["typeid"], datatype=XSD.integer)))
#     g.add((sag_uri, SAG["kategoriid"], Literal(row["kategoriid"], datatype=XSD.integer)))
#     g.add((sag_uri, SAG["statusid"], Literal(row["statusid"], datatype=XSD.integer)))
#     g.add((sag_uri, SAG["titel"], Literal(row["titel"])))
#     g.add((sag_uri, SAG["titelkort"], Literal(row["titelkort"])))
#     g.add((sag_uri, SAG["offentlighedskode"], Literal(row["offentlighedskode"])))
#     g.add((sag_uri, SAG["nummer"], Literal(row["nummer"])))
#     g.add((sag_uri, SAG["nummerprefix"], Literal(row["nummerprefix"])))
#     g.add((sag_uri, SAG["nummernumerisk"], Literal(row["nummernumerisk"])))
#     g.add((sag_uri, SAG["nummerpostfix"], Literal(row["nummerpostfix"])))
#     g.add((sag_uri, SAG["resume"], Literal(row["resume"])))
#     g.add((sag_uri, SAG["afstemningskonklusion"], Literal(row["afstemningskonklusion"])))
#     g.add((sag_uri, SAG["periodeid"], Literal(row["periodeid"], datatype=XSD.integer)))
#     g.add((sag_uri, SAG["afgørelsesresultatkode"], Literal(row["afgørelsesresultatkode"])))
#     g.add((sag_uri, SAG["baggrundsmateriale"], Literal(row["baggrundsmateriale"])))
#     g.add((sag_uri, SAG["opdateringsdato"], Literal(row["opdateringsdato"], datatype=XSD.dateTime)))
#     g.add((sag_uri, SAG["statsbudgetsag"], Literal(row["statsbudgetsag"], datatype=XSD.boolean)))
#     g.add((sag_uri, SAG["begrundelse"], Literal(row["begrundelse"])))
#     g.add((sag_uri, SAG["paragrafnummer"], Literal(row["paragrafnummer"])))
#     g.add((sag_uri, SAG["paragraf"], Literal(row["paragraf"])))
#     g.add((sag_uri, SAG["afgørelsesdato"], Literal(row["afgørelsesdato"], datatype=XSD.dateTime)))
#     g.add((sag_uri, SAG["afgørelse"], Literal(row["afgørelse"])))
#     g.add((sag_uri, SAG["rådsmødedato"], Literal(row["rådsmødedato"], datatype=XSD.dateTime)))
#     g.add((sag_uri, SAG["lovnummer"], Literal(row["lovnummer"])))
#     g.add((sag_uri, SAG["lovnummerdato"], Literal(row["lovnummerdato"], datatype=XSD.dateTime)))
#     g.add((sag_uri, SAG["retsinformationsurl"], Literal(row["retsinformationsurl"])))
#     g.add((sag_uri, SAG["fremsatundersagid"], Literal(row["fremsatundersagid"])))
#     g.add((sag_uri, SAG["deltundersagid"], Literal(row["deltundersagid"])))

#        # Iterate over each row of the SagDokument dataframe with the current sagid value
#     for _, sd_row in SagDokument[SagDokument["sagid"] == row["id"]].iterrows():

#         # Only add Dokument nodes that are linked to Sag nodes
#         if sd_row["dokumentid"] in dokumentids_linked_to_sag:

#             # Retrieve the URI for the Dokument node
#             dokument_uri = DOKUMENT[str(sd_row["dokumentid"])]
#             g.add((dokument_uri, RDF.type, EX["Dokument"]))
#             dokument_row = Dokument[Dokument["id"] == sd_row["dokumentid"]]
#             g.add((dokument_uri, RDF.type, EX["Dokument"]))
#             g.add((dokument_uri, DOKUMENT["typeid"], Literal(dokument_row["typeid"].values[0], datatype=XSD.integer)))
#             g.add((dokument_uri, DOKUMENT["kategoriid"], Literal(dokument_row["kategoriid"].values[0], datatype=XSD.integer)))
#             g.add((dokument_uri, DOKUMENT["statusid"], Literal(dokument_row["statusid"].values[0], datatype=XSD.integer)))
#             g.add((dokument_uri, DOKUMENT["titel"], Literal(dokument_row["titel"].values[0])))
#             g.add((dokument_uri, DOKUMENT["dato"], Literal(dokument_row["dato"].values[0], datatype=XSD.dateTime)))
#             g.add((dokument_uri, DOKUMENT["spørgsmålsid"], Literal(dokument_row["spørgsmålsid"].values[0])))

#             # Add isPartOfSag property to Dokument nodes
#             g.add((dokument_uri, EX.isPartOfSag, sag_uri))

#             # Add hasDocument property to Sag nodes
#             g.add((sag_uri, EX.hasDocument, dokument_uri))

#         #adding Aktør nodes
#     for _, sa_row in SagAktør[SagAktør["sagid"] == row["id"]].iterrows():

#         if sa_row["aktørid"] in aktørids_linked_to_sag:

#             aktør_uri = AKTØR[str(sa_row["aktørid"])]
#             g.add((aktør_uri, RDF.type, EX["Aktør"]))
#             aktør_row = Aktør[Aktør["id"] == sa_row["aktørid"]]
#             g.add((aktør_uri, AKTØR["typeid"], Literal(aktør_row["typeid"], datatype=XSD.integer)))
#             g.add((aktør_uri, AKTØR["navn"], Literal(aktør_row["navn"])))
#             g.add((aktør_uri, AKTØR["gruppenavnkort"], Literal(aktør_row["gruppenavnkort"])))

#             # Add isPartOfSag property to Aktør nodes
#             g.add((aktør_uri, EX.isPartOfSag, sag_uri))

#             # Add hasActor property to Sag nodes
#             g.add((sag_uri, EX.hasActor, aktør_uri))


# # Count the number of Dokument nodes in the graph after adding the nodes and edges
# n_dokument_after = len(list(g.subjects(RDF.type, EX["Dokument"])))
# print(f"Number of Dokument nodes after: {n_dokument_after}")

# # Count the number of Aktør nodes in the graph after adding the nodes and edges
# n_aktør_after = len(list(g.subjects(RDF.type, EX["Aktør"])))
# print(f"Number of Aktør nodes after: {n_aktør_after}")


Number of Dokument nodes before: 16734
Number of Aktør nodes before: 212


100%|██████████| 500/500 [00:24<00:00, 20.73it/s]

Number of Dokument nodes after: 16734
Number of Aktør nodes after: 212





In [64]:
from rdflib.plugins.sparql import prepareQuery

In [84]:
def find_aktor_nodes(g, aktor_navn):
    """
    Find Aktør nodes with a specific name

    :param g: RDF graph
    :param aktor_navn: name of Aktør node to search for
    :return: list of Aktør node URIs
    """
    # Define the query string
    query_string = """
        SELECT DISTINCT ?aktor_uri
        WHERE {{
            ?aktor_uri rdf:type ex:Aktør .
            ?aktor_uri aktør:navn ?aktør_navn .
            FILTER(str(?aktør_navn) = str("{aktør_navn}"))
        }}
    """.format(aktør_navn=aktor_navn)

    # Define the namespaces for the query
    ex = Namespace("http://XAINLP.com/")
    aktør = Namespace("http://XAINLP.com/aktør/")

    # Bind the namespaces to the graph
    g.bind("ex", ex)
    g.bind("aktør", aktør)

    # Run the query and return the results as a list
    results = []
    for row in g.query(query_string):
        aktor_uri = row["aktor_uri"]
        results.append(aktor_uri)

    return results


In [67]:
# Define the query
query_str = """
PREFIX ex: <http://XAINLP.com/>
PREFIX aktør: <http://XAINLP.com/aktør/>

SELECT DISTINCT ?aktør_name
WHERE {
  ?aktør aktør:navn ?aktør_name .
  FILTER (lang(?aktør_name) = "da")
}
"""
query = prepareQuery(query_str, initNs={"aktør": AKTØR, "ex": EX})

# Execute the query and retrieve the results
results = g.query(query)

# Print the aktør names
for row in results:
    print(row["aktør_name"])

In [59]:
def get_sag_titles_by_aktør(g: Graph, actor_name: str) -> list:
    results = []
    
    # SPARQL query to retrieve Sag nodes with aktør property matching the given name
    query = f"""
        PREFIX ex: <http://XAINLP.com/>
        PREFIX sag: <http://XAINLP.com/sag/>
        PREFIX aktør: <http://XAINLP.com/aktør/>
        SELECT ?sag ?title
        WHERE {{
            ?sag rdf:type ex:Sag .
            ?sag ex:involveredeAktører ?aktør .
            ?aktør ex:navn "{actor_name}" .
            ?sag sag:titel ?title .
        }}
    """
    
    # Execute the SPARQL query and iterate over the results to extract the Sag IDs and titles
    query_results = g.query(query)
    for result in query_results:
        sag_id = str(result[0]).split("/")[-1]
        title = str(result[1])
        results.append((sag_id, title))
    
    return results

In [63]:
results = get_sag_titles_by_aktør(g, "16 Christine Antorini")
print(results)

[]


In [54]:
from datetime import datetime

def find_sags_by_aktor_and_date_range(aktor_navn, start_date_str, end_date_str):
    # Convert input date strings to datetime objects
    start_date = datetime.strptime(start_date_str, '%d-%m-%Y')
    end_date = datetime.strptime(end_date_str, '%d-%m-%Y')

    # Build the SPARQL query
    query = """
    PREFIX ex: <http://XAINLP.com/>
    PREFIX sag: <http://XAINLP.com/sag/>
    PREFIX aktør: <http://XAINLP.com/aktør/>
    SELECT ?sag_id ?sag_titel
    WHERE {{
        ?sag_id ex:aktør ?aktør .
        ?aktør ex:navn "{}" .
        ?sag_id sag:opdateringsdato ?opdateringsdato .
        ?sag_id sag:titel ?sag_titel .
        FILTER(?opdateringsdato >= "{}"^^xsd:dateTime && ?opdateringsdato <= "{}"^^xsd:dateTime)
    }}
    """.format(aktor_navn, start_date.isoformat(), end_date.isoformat())

    # Execute the query and return the results
    results = g.query(query)
    return results


In [58]:
results = find_sags_by_aktor_and_date_range("Christine Antorini", "01-01-2012", "31-12-2015")
for row in results:
    print(row["sag_id"], row["sag_titel"])
    

In [36]:
for s, p, o in g.triples((None, RDF.type, EX["Dokument"])):
    for s2, p2, o2 in g.triples((s, DOKUMENT["titel"], None)):
        print(f"Dokument node {s} has titel {o2}")

Dokument node http://XAINLP.com/dokument/9398 has titel Spm. om, hvad det vil koste staten at oprette et Dyrevelfærdsministerium, til finansministeren
Dokument node http://XAINLP.com/dokument/9397 has titel FIU alm. del - svar på spm. 374 om, hvad det vil koste staten at oprette et Dyrevelfærdsministerium, fra finansministeren
Dokument node http://XAINLP.com/dokument/9488 has titel MFU spm. om hvor stort et vækst tab regeringen indregner i det kommende finanslovsudspil for 2015, til miljøministeren
Dokument node http://XAINLP.com/dokument/9559 has titel Orientering om Højesterets dom af 5. maj 2014 vedr. sager om fradrag for feriepenge i efterlønnen, fra beskæftigelsesministeren
Dokument node http://XAINLP.com/dokument/9800 has titel Spm. om den samlede årlige effekt på de offentlige finanser, hvis en industriarbejder bliver afskediget og i stedet modtager dagpenge, til finansministeren
Dokument node http://XAINLP.com/dokument/9801 has titel Spm. om en redegørelse for den faktiske udvi

In [72]:
names = []
for s, p, o in g.triples((None, RDF.type, EX["Aktør"])):
    for s2, p2, o2 in g.triples((s, AKTØR["navn"], None)):
        names.append(o2)
        print(f"Aktør node {s} has navn {o2}")

Aktør node http://XAINLP.com/aktør/1 has navn 0    Finansudvalget
Name: navn, dtype: object
Aktør node http://XAINLP.com/aktør/2 has navn 1    Finansministeriet
Name: navn, dtype: object
Aktør node http://XAINLP.com/aktør/8 has navn 7    forsvarsministeren
Name: navn, dtype: object
Aktør node http://XAINLP.com/aktør/9 has navn 8    Forsvarsudvalget
Name: navn, dtype: object
Aktør node http://XAINLP.com/aktør/10 has navn 9    Grønlandsudvalget
Name: navn, dtype: object
Aktør node http://XAINLP.com/aktør/11 has navn 10    Forsvarsministeriet
Name: navn, dtype: object
Aktør node http://XAINLP.com/aktør/12 has navn 11    Nicolai Wammen
Name: navn, dtype: object
Aktør node http://XAINLP.com/aktør/13 has navn 12    Sara Olsvig
Name: navn, dtype: object
Aktør node http://XAINLP.com/aktør/14 has navn 13    undervisningsministeren
Name: navn, dtype: object
Aktør node http://XAINLP.com/aktør/15 has navn 14    Børne- og Undervisningsudvalget
Name: navn, dtype: object
Aktør node http://XAINLP.com/

In [80]:
names[6]

rdflib.term.Literal('11    Nicolai Wammen\nName: navn, dtype: object')

In [71]:
aktør_name = "Christine Antorini"

for s, p, o in g.triples((None, RDF.type, EX["Aktør"])):
    for s2, p2, o2 in g.triples((s, AKTØR["navn"], None)):
        if str(o2).lower() == aktør_name.lower():
            print(f"Aktør node {s} has navn {o2}")

In [19]:
for prefix, uri in g.namespaces():
    print(f"Prefix: {prefix}, URI: {uri}")

Prefix: owl, URI: http://www.w3.org/2002/07/owl#
Prefix: rdf, URI: http://www.w3.org/1999/02/22-rdf-syntax-ns#
Prefix: rdfs, URI: http://www.w3.org/2000/01/rdf-schema#
Prefix: xsd, URI: http://www.w3.org/2001/XMLSchema#
Prefix: xml, URI: http://www.w3.org/XML/1998/namespace
Prefix: ex, URI: http://XAINLP.com/
Prefix: sag, URI: http://XAINLP.com/sag/
Prefix: dokument, URI: http://XAINLP.com/dokument/
Prefix: aktør, URI: http://XAINLP.com/aktør/


In [10]:
for s in g.subjects(RDF.type, EX["Dokument"]):

    # Print the URI of the Dokument node
    print(s)

In [8]:
#I go thr

id                                         21
sagid                                    4496
dokumentid                               7913
bilagsnummer                                 
frigivelsesdato           2013-10-16 14:54:51
opdateringsdato    2014-09-16 06:16:53.990000
rolleid                                     4
Name: 0, dtype: object

In [10]:
# Iterate over each row of the Sag dataframe
for _, row in tqdm(Dokument.iterrows(), total=len(Dokument)):
    dokument_uri = DOKUMENT[str(row["id"])]
    g.add((dokument_uri, RDF.type, EX["Dokument"]))
    g.add((dokument_uri, DOKUMENT["typeid"], Literal(row["typeid"], datatype=XSD.integer)))
    g.add((dokument_uri, DOKUMENT["kategoriid"], Literal(row["kategoriid"], datatype=XSD.integer)))
    g.add((dokument_uri, DOKUMENT["statusid"], Literal(row["statusid"], datatype=XSD.integer)))
    g.add((dokument_uri, DOKUMENT["offentlighedskode"], Literal(row["offentlighedskode"])))
    g.add((dokument_uri, DOKUMENT["titel"], Literal(row["titel"])))
    g.add((dokument_uri, DOKUMENT["dato"], Literal(row["dato"], datatype=XSD.dateTime)))
    g.add((dokument_uri, DOKUMENT["modtagelsesdato"], Literal(row["modtagelsesdato"], datatype=XSD.dateTime)))
    g.add((dokument_uri, DOKUMENT["frigivelsesdato"], Literal(row["frigivelsesdato"], datatype=XSD.dateTime)))
    g.add((dokument_uri, DOKUMENT["paragraf"], Literal(row["paragraf"])))
    g.add((dokument_uri, DOKUMENT["paragrafnummer"], Literal(row["paragrafnummer"])))
    g.add((dokument_uri, DOKUMENT["spørgsmålsordlyd"], Literal(row["spørgsmålsordlyd"])))
    g.add((dokument_uri, DOKUMENT["spørgsmålstitel"], Literal(row["spørgsmålstitel"])))
    g.add((dokument_uri, DOKUMENT["spørgsmålsid"], Literal(row["spørgsmålsid"])))
    g.add((dokument_uri, DOKUMENT["procedurenummer"], Literal(row["procedurenummer"])))
    g.add((dokument_uri, DOKUMENT["grundnotatstatus"], Literal(row["grundnotatstatus"])))
    g.add((dokument_uri, DOKUMENT["dagsordenudgavenummer"], Literal(row["dagsordenudgavenummer"])))
    g.add((dokument_uri, DOKUMENT["opdateringsdato"], Literal(row["opdateringsdato"], datatype=XSD.dateTime)))

    

100%|██████████| 871023/871023 [13:24<00:00, 1082.33it/s] 


In [None]:
# Add isPartOfSag property to Dokument nodes
g.add((dokument_uri, EX.isPartOfSag, sag_uri))

# Add hasDocument property to Sag nodes
g.add((sag_uri, EX.hasDocument, dokument_uri))

In [43]:
from rdflib.plugins.sparql import prepareQuery

# Define the URI of the node to inspect
sag_uri = SAG[str(Sag.iloc[0]["id"])]
print(sag_uri)

# Prepare the SPARQL query to get all properties of the node
query = prepareQuery(
    """
    SELECT ?property ?value
    WHERE {
        <%(sag_uri)s> ?property ?value .
    }
    """ % {'sag_uri': sag_uri},
    initNs={"sag": SAG}
)

# Execute the query and print the results
for row in g.query(query):
    print(row['property'], row['value'])


http://XAINLP.com/sag/1
http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://XAINLP.com/Sag
http://XAINLP.com/sag/typeid 4
http://XAINLP.com/sag/kategoriid 2
http://XAINLP.com/sag/statusid 8
http://XAINLP.com/sag/titel FIU alm. del
http://XAINLP.com/sag/titelkort FIU alm. del
http://XAINLP.com/sag/offentlighedskode O
http://XAINLP.com/sag/nummer None
http://XAINLP.com/sag/nummerprefix 
http://XAINLP.com/sag/nummernumerisk 
http://XAINLP.com/sag/nummerpostfix 
http://XAINLP.com/sag/resume 
http://XAINLP.com/sag/afstemningskonklusion 
http://XAINLP.com/sag/periodeid 32
http://XAINLP.com/sag/afgørelsesresultatkode 
http://XAINLP.com/sag/baggrundsmateriale None
http://XAINLP.com/sag/opdateringsdato 2014-09-30T14:56:24.673000
http://XAINLP.com/sag/statsbudgetsag true
http://XAINLP.com/sag/begrundelse 
http://XAINLP.com/sag/paragrafnummer <NA>
http://XAINLP.com/sag/paragraf 
http://XAINLP.com/sag/afgørelsesdato NaT
http://XAINLP.com/sag/afgørelse 
http://XAINLP.com/sag/rådsmødedato NaT
htt

In [44]:
SagDokument.iloc[0]

id                                         21
sagid                                    4496
dokumentid                               7913
bilagsnummer                                 
frigivelsesdato           2013-10-16 14:54:51
opdateringsdato    2014-09-16 06:16:53.990000
rolleid                                     4
Name: 0, dtype: object