In [1]:
from SPARQLWrapper import SPARQLWrapper, JSON
import os
import pandas as pd

%matplotlib inline



In [2]:
sparql = SPARQLWrapper("http://localhost:8080/blazegraph-2.1.4/namespace/Regellinks/sparql")

In [3]:
def sparql_result_to_df(result):
    cols = result['head']['vars']
    rows_dicts = result['results']['bindings']
    rows = [{c: r.get(c, {'value': None})['value'] for c in cols} for r in rows_dicts]
    return pd.DataFrame(rows)[cols]

In [5]:
# How many triples do we have?
queryString = """
    select (count(?s) as ?count)
    {
        ?s ?p ?o.
    }
"""

sparql.setQuery(queryString)
sparql.setReturnFormat(JSON)
ret = sparql.query()
result = ret.convert()
sparql_result_to_df(result)

Unnamed: 0,count
0,186333699


In [6]:
queryString = """
    prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> 
    select ?type (count(?s) as ?count)
    {
        ?s rdf:type ?type.
    }
    group by ?type
    order by desc(?count)
"""

sparql.setQuery(queryString)
sparql.setReturnFormat(JSON)
ret = sparql.query()
result = ret.convert()
sparql_result_to_df(result)

Unnamed: 0,type,count
0,http://linkeddata.overheid.nl/terms/LinkAct,4821086
1,http://linkeddata.overheid.nl/terms/Jurisprude...,2410559
2,http://linkeddata.overheid.nl/terms/OfficieleO...,1457297
3,http://linkeddata.overheid.nl/terms/Artikel,597946
4,http://linkeddata.overheid.nl/terms/EU-Regelge...,214766
5,http://linkeddata.overheid.nl/terms/Paragraaf,42849
6,http://linkeddata.overheid.nl/terms/Ministerie...,36232
7,http://linkeddata.overheid.nl/terms/Uitvoering...,32912
8,http://linkeddata.overheid.nl/terms/Hoofdstuk,26791
9,http://linkeddata.overheid.nl/terms/Bijlage,24271


In [4]:
queryString = """
    prefix dcterm: <http://purl.org/dc/terms/> 
    select ?type (count(?s) as ?count)
    {
        ?s dcterm:type ?type.
    }
    group by ?type
    order by desc(?count)
"""

sparql.setQuery(queryString)
sparql.setReturnFormat(JSON)
ret = sparql.query()
result = ret.convert()
sparql_result_to_df(result)

Unnamed: 0,type,count
0,Uitspraak,2339824
1,Gemeenteblad,624637
2,Artikel,597946
3,Staatscourant,417883
4,Kamerstuk,247492
5,EU-Afgeleide wetgeving,202931
6,EU-Verordeningen,147149
7,Conclusie,70437
8,Kamervragen (Aanhangsel),60364
9,Waterschapsblad,44611


In [8]:
# what attributes does jurispidentie have
queryString = """
    prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> 
    select ?p (count(?o) as ?count) 
    {
        ?s rdf:type <http://linkeddata.overheid.nl/terms/Jurisprudentie>.
        ?s ?p ?o.
    }
    group by ?p
    having(count(?o)>1)
    order by ?p
"""

sparql.setQuery(queryString)
sparql.setReturnFormat(JSON)
ret = sparql.query()
result = ret.convert()
sparql_result_to_df(result)

Unnamed: 0,p,count
0,http://linkeddata.overheid.nl/lx/creator,2386256
1,http://linkeddata.overheid.nl/lx/date,443563
2,http://linkeddata.overheid.nl/lx/hasVersion,616472
3,http://linkeddata.overheid.nl/lx/heeftZaaknummer,2429190
4,http://linkeddata.overheid.nl/terms/geimportee...,3948219
5,http://linkeddata.overheid.nl/terms/heeftBron,2459164
6,http://linkeddata.overheid.nl/terms/heeftProce...,513403
7,http://linkeddata.overheid.nl/terms/heeftRecht...,2150694
8,http://linkeddata.overheid.nl/terms/heeftUitsp...,2410548
9,http://linkeddata.overheid.nl/terms/heeftZaakn...,2456644


## Legislation

In [12]:
# Legislation titles
queryString = """
    prefix dcterm: <http://purl.org/dc/terms/> 
    prefix overheidrl: <http://linkeddata.overheid.nl/terms/>
    prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> 
    select ?article ?title 
    {
        ?article rdf:type <http://linkeddata.overheid.nl/terms/Wet>.
        ?article dcterm:title ?title
    }
    limit 100
"""

sparql.setQuery(queryString)
sparql.setReturnFormat(JSON)
ret = sparql.query()
result = ret.convert()
law_titles = sparql_result_to_df(result)
law_titles #.sort_values('cnt', ascending=False)

Unnamed: 0,article,title
0,http://linkeddata.overheid.nl/terms/bwb/id/BWB...,Marinescheepsongevallenwet
1,http://linkeddata.overheid.nl/terms/bwb/id/BWB...,Natuurschoonwet 1928
2,http://linkeddata.overheid.nl/terms/bwb/id/BWB...,Ziektewet
3,http://linkeddata.overheid.nl/terms/bwb/id/BWB...,Opiumwet
4,http://linkeddata.overheid.nl/terms/bwb/id/BWB...,Natuurschoonwet 1928
5,http://linkeddata.overheid.nl/terms/bwb/id/BWB...,Opiumwet
6,http://linkeddata.overheid.nl/terms/bwb/id/BWB...,Natuurschoonwet 1928
7,http://linkeddata.overheid.nl/terms/bwb/id/BWB...,Ziektewet
8,http://linkeddata.overheid.nl/terms/bwb/id/BWB...,Opiumwet
9,http://linkeddata.overheid.nl/terms/bwb/id/BWB...,Faillissementswet


## Links

In [18]:
# Link types
queryString = """
    prefix dcterm: <http://purl.org/dc/terms/> 
    prefix overheidrl: <http://linkeddata.overheid.nl/terms/>
    prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> 
    select ?link_type (count(*) as ?cnt)
    {
        ?link_id overheidrl:heeftLinktype ?link_type.
    }
    group by ?link_type
    order by desc(?cnt)
"""

sparql.setQuery(queryString)
sparql.setReturnFormat(JSON)
ret = sparql.query()
result = ret.convert()
link_titles = sparql_result_to_df(result)
link_titles.head(30)

Unnamed: 0,link_type,cnt
0,http://linkeddata.overheid.nl/terms/linktype/i...,2713718
1,http://linkeddata.overheid.nl/terms/linktype/i...,665719
2,http://linkeddata.overheid.nl/terms/linktype/i...,623253
3,http://linkeddata.overheid.nl/terms/linktype/i...,621937
4,http://linkeddata.overheid.nl/terms/linktype/i...,272176
5,http://linkeddata.overheid.nl/terms/linktype/i...,119771
6,http://linkeddata.overheid.nl/terms/linktype/i...,66514
7,http://linkeddata.overheid.nl/terms/linktype/i...,51647
8,http://linkeddata.overheid.nl/terms/linktype/i...,51566
9,http://linkeddata.overheid.nl/terms/linktype/i...,24006


In [21]:
for l in link_titles.head(20)['link_type']:
    print(l)

http://linkeddata.overheid.nl/terms/linktype/id/lx-referentie
http://linkeddata.overheid.nl/terms/linktype/id/bwb-externe-referentie
http://linkeddata.overheid.nl/terms/linktype/id/bwb-inwerkingtredingsbron
http://linkeddata.overheid.nl/terms/linktype/id/bwb-ontstaansbron
http://linkeddata.overheid.nl/terms/linktype/id/rvr-referentie
http://linkeddata.overheid.nl/terms/linktype/id/hudoc-referentie
http://linkeddata.overheid.nl/terms/linktype/id/puc-opendata-referentie
http://linkeddata.overheid.nl/terms/linktype/id/rvr-conclusie-latereaanleg
http://linkeddata.overheid.nl/terms/linktype/id/rvr-conclusie-eerdereaanleg
http://linkeddata.overheid.nl/terms/linktype/id/rvr-hogerberoep-eerdereaanleg
http://linkeddata.overheid.nl/terms/linktype/id/rvr-hogerberoep-latereaanleg
http://linkeddata.overheid.nl/terms/linktype/id/rvr-cassatie-eerdereaanleg
http://linkeddata.overheid.nl/terms/linktype/id/rvr-cassatie-latereaanleg
http://linkeddata.overheid.nl/terms/linktype/id/rvr-conclusievoorcassati

In [22]:
# Link types
queryString = """
    prefix dcterm: <http://purl.org/dc/terms/> 
    prefix overheidrl: <http://linkeddata.overheid.nl/terms/>
    prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> 
    select ?sourceType ?targetType (count(*) as ?cnt)
    {
        ?target rdf:type ?targetType.
        ?source rdf:type ?sourceType.
        ?link_id overheidrl:heeftLinktype <http://linkeddata.overheid.nl/terms/linktype/id/lx-referentie>.
        ?link_id overheidrl:linktNaar  ?target.
        ?link_id overheidrl:linktVan ?source
    }
    group by ?sourceType ?targetType
    order by desc(?cnt)
"""

sparql.setQuery(queryString)
sparql.setReturnFormat(JSON)
ret = sparql.query()
result = ret.convert()
link_types = sparql_result_to_df(result)
link_types

Unnamed: 0,sourceType,targetType,cnt
0,http://linkeddata.overheid.nl/terms/Jurisprude...,http://linkeddata.overheid.nl/terms/Artikel,1539556
1,http://linkeddata.overheid.nl/terms/Jurisprude...,http://linkeddata.overheid.nl/terms/Jurisprude...,537083
2,http://linkeddata.overheid.nl/terms/Jurisprude...,http://linkeddata.overheid.nl/terms/Wet,391935
3,http://linkeddata.overheid.nl/terms/Jurisprude...,http://linkeddata.overheid.nl/terms/Amvb,66794
4,http://linkeddata.overheid.nl/terms/Jurisprude...,http://linkeddata.overheid.nl/terms/OfficieleO...,56360
5,http://linkeddata.overheid.nl/terms/Jurisprude...,http://linkeddata.overheid.nl/terms/EU-Regelge...,36309
6,http://linkeddata.overheid.nl/terms/Jurisprude...,http://linkeddata.overheid.nl/terms/Verdrag,30001
7,http://linkeddata.overheid.nl/terms/Jurisprude...,http://linkeddata.overheid.nl/terms/Ministerie...,17952
8,http://linkeddata.overheid.nl/terms/Jurisprude...,http://linkeddata.overheid.nl/terms/Afdeling,9742
9,http://linkeddata.overheid.nl/terms/Jurisprude...,http://linkeddata.overheid.nl/terms/Hoofdstuk,5429


In [23]:
link_types.to_csv('link_types.csv')

In [8]:
# Links from cases to cases
queryString = """
    prefix dcterm: <http://purl.org/dc/terms/> 
    prefix overheidrl: <http://linkeddata.overheid.nl/terms/>
    prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> 
    select ?link_id ?source ?target ?linktype
    {
        ?target rdf:type overheidrl:Jurisprudentie.
        ?source rdf:type overheidrl:Jurisprudentie.
        ?link_id overheidrl:heeftLinktype ?linktype.
        ?link_id overheidrl:linktNaar  ?target.
        ?link_id overheidrl:linktVan ?source
    }
"""

sparql.setQuery(queryString)
sparql.setReturnFormat(JSON)
ret = sparql.query()
result = ret.convert()
case_to_case_links = sparql_result_to_df(result)
print(case_to_case_links.shape)
case_to_case_links.head()

(718325, 4)


Unnamed: 0,link_id,source,target,linktype
0,http://localhost:8984/bigdata/namespace/Regell...,http://linkeddata.overheid.nl/terms/jurisprude...,http://linkeddata.overheid.nl/terms/jurisprude...,http://linkeddata.overheid.nl/terms/linktype/i...
1,http://localhost:8984/bigdata/namespace/Regell...,http://linkeddata.overheid.nl/terms/jurisprude...,http://linkeddata.overheid.nl/terms/jurisprude...,http://linkeddata.overheid.nl/terms/linktype/i...
2,http://localhost:8984/bigdata/namespace/Regell...,http://linkeddata.overheid.nl/terms/jurisprude...,http://linkeddata.overheid.nl/terms/jurisprude...,http://linkeddata.overheid.nl/terms/linktype/i...
3,http://localhost:8984/bigdata/namespace/Regell...,http://linkeddata.overheid.nl/terms/jurisprude...,http://linkeddata.overheid.nl/terms/jurisprude...,http://linkeddata.overheid.nl/terms/linktype/i...
4,http://localhost:8984/bigdata/namespace/Regell...,http://linkeddata.overheid.nl/terms/jurisprude...,http://linkeddata.overheid.nl/terms/jurisprude...,http://linkeddata.overheid.nl/terms/linktype/i...


In [10]:
case_to_case_links.to_csv('case_to_case_links.csv', index=False)

In [15]:
case_to_case_links_lx = case_to_case_links[
    case_to_case_links['linktype']=='http://linkeddata.overheid.nl/terms/linktype/id/lx-referentie']
case_to_case_links_lx = case_to_case_links_lx[['link_id', 'source', 'target']]
print(case_to_case_links_lx.shape, case_to_case_links_lx.drop_duplicates().shape)

(537083, 3) (537083, 3)


In [16]:
case_to_case_links_lx.to_csv('case_to_case_lx_links.csv', index=False)

In [13]:
case_to_case_links.groupby('linktype').count()['link_id'].sort_values(ascending=False)

linktype
http://linkeddata.overheid.nl/terms/linktype/id/lx-referentie                                               537083
http://linkeddata.overheid.nl/terms/linktype/id/rvr-conclusie-latereaanleg                                   51647
http://linkeddata.overheid.nl/terms/linktype/id/rvr-conclusie-eerdereaanleg                                  51566
http://linkeddata.overheid.nl/terms/linktype/id/rvr-hogerberoep-eerdereaanleg                                24006
http://linkeddata.overheid.nl/terms/linktype/id/rvr-hogerberoep-latereaanleg                                 23921
http://linkeddata.overheid.nl/terms/linktype/id/rvr-cassatie-eerdereaanleg                                    9268
http://linkeddata.overheid.nl/terms/linktype/id/rvr-cassatie-latereaanleg                                     9159
http://linkeddata.overheid.nl/terms/linktype/id/rvr-conclusievoorcassatie-eerdereaanleg                       2754
http://linkeddata.overheid.nl/terms/linktype/id/rvr-conclusievoorcassat

In [17]:
# Case - Legislation network
queryString = """
    prefix dcterm: <http://purl.org/dc/terms/> 
    prefix overheidrl: <http://linkeddata.overheid.nl/terms/>
    prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> 
    select ?link_id ?source ?target ?linktype
    {
        ?target rdf:type overheidrl:Artikel.
        ?source rdf:type overheidrl:Jurisprudentie.
        ?link_id overheidrl:heeftLinktype ?linktype.
        ?link_id overheidrl:linktNaar  ?target.
        ?link_id overheidrl:linktVan ?source
    }
"""
sparql.setQuery(queryString)
sparql.setReturnFormat(JSON)
ret = sparql.query()
result = ret.convert()
case_article_network = sparql_result_to_df(result)
case_article_network.shape

(1828757, 4)

In [18]:
case_article_network.to_csv('/media/sf_VBox_Shared/CaseLaw/2018-01-29-lido/derived/case-to-article-links.csv', index=False)

In [19]:
case_article_network.groupby('linktype').count()['link_id']

linktype
http://linkeddata.overheid.nl/terms/linktype/id/hudoc-referentie     119771
http://linkeddata.overheid.nl/terms/linktype/id/lx-referentie       1539556
http://linkeddata.overheid.nl/terms/linktype/id/rvr-referentie       169430
Name: link_id, dtype: int64

## Nodes

In [20]:
# Get all articles
queryString = """
    prefix dcterm: <http://purl.org/dc/terms/> 
    prefix overheidrl: <http://linkeddata.overheid.nl/terms/>
    prefix owms: <http://standaarden.overheid.nl/owms/terms/>
    prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> 
    prefix skos: <http://www.w3.org/2004/02/skos/core#>
    select ?id ?title ?label ?authority
    {
        ?id rdf:type overheidrl:Artikel.
        optional {?id dcterm:title ?title.}
        optional {?id owms:authority ?authority.}
        optional {?id skos:prefLabel ?label}
    }
"""
sparql.setQuery(queryString)
sparql.setReturnFormat(JSON)
ret = sparql.query()
result = ret.convert()
article_nodes = sparql_result_to_df(result)
article_nodes.shape

(626038, 4)

In [21]:
article_nodes.to_csv('/media/sf_VBox_Shared/CaseLaw/2018-01-29-lido/derived/article_nodes.csv', index=False)

In [22]:
article_nodes.head()

Unnamed: 0,article_id,title,label,authority
0,http://linkeddata.overheid.nl/terms/bwb/id/BWB...,"Wetboek van Burgerlijke Rechtsvordering, Artik...","Wetboek van Burgerlijke Rechtsvordering, Artik...",Veiligheid en Justitie
1,http://linkeddata.overheid.nl/terms/bwb/id/BWB...,Wetboek van Burgerlijke Rechtsvordering (geldt...,"Wetboek van Burgerlijke Rechtsvordering, Artik...",Veiligheid en Justitie
2,http://linkeddata.overheid.nl/terms/bwb/id/BWB...,"Wetboek van Burgerlijke Rechtsvordering, Artik...",Wetboek van Burgerlijke Rechtsvordering (geldt...,Veiligheid en Justitie
3,http://linkeddata.overheid.nl/terms/bwb/id/BWB...,Wetboek van Burgerlijke Rechtsvordering (geldt...,Wetboek van Burgerlijke Rechtsvordering (geldt...,Veiligheid en Justitie
4,http://linkeddata.overheid.nl/terms/bwb/id/BWB...,"Wetboek van Burgerlijke Rechtsvordering, Artik...","Wetboek van Burgerlijke Rechtsvordering, Artik...",Veiligheid en Justitie


Sometimes a law or article changes names, so there are multiple titles/labels. 
Unfortunately, we don't know what the latest version is.
Therefore, we just take the alphabetically first option.

In [46]:
article_nodes_dedup = article_nodes.sort_values(['title', 'label', 'authority']).groupby('id').first()
article_nodes_dedup.shape

(597946, 3)

In [53]:
article_nodes_dedup.to_csv('/media/sf_VBox_Shared/CaseLaw/2018-01-29-lido/derived/article_nodes_nodup.csv', 
                          encoding='utf-8')

In [52]:
article_nodes_dedup.isnull().sum()

title        0
label        0
authority    0
dtype: int64