In [1]:
import sys
from SPARQLWrapper import SPARQLWrapper, JSON
import pandas, numpy
import re

In [2]:
sparql_endpoint_url = "https://modelling.dissco.tech/proxy/wdqs/bigdata/namespace/wdq/sparql"

In [3]:
user_agent = f"WDQS-example Python/{sys.version_info[0]}.{sys.version_info[1]}"

In [4]:
user_agent

'WDQS-example Python/3.10'

In [5]:
sparql = SPARQLWrapper(sparql_endpoint_url, agent=user_agent)

In [6]:
query = """SELECT ?item ?object WHERE {
  ?item ?property ?object;
    wikibase:sitelinks [].
  ?object wikibase:sitelinks [].
}"""

In [7]:
sparql.setQuery(query)
sparql.setReturnFormat(JSON)

In [8]:
data = sparql.query().convert()

In [9]:
data

{'head': {'vars': ['item', 'object']},
 'results': {'bindings': [{'item': {'type': 'uri',
     'value': 'http://modelling.dissco.tech/entity/Q11'},
    'object': {'type': 'uri',
     'value': 'http://modelling.dissco.tech/entity/Q12'}},
   {'item': {'type': 'uri',
     'value': 'http://modelling.dissco.tech/entity/Q17'},
    'object': {'type': 'uri',
     'value': 'http://modelling.dissco.tech/entity/Q12'}},
   {'item': {'type': 'uri', 'value': 'http://modelling.dissco.tech/entity/Q9'},
    'object': {'type': 'uri',
     'value': 'http://modelling.dissco.tech/entity/Q13'}},
   {'item': {'type': 'uri',
     'value': 'http://modelling.dissco.tech/entity/Q10'},
    'object': {'type': 'uri',
     'value': 'http://modelling.dissco.tech/entity/Q13'}},
   {'item': {'type': 'uri',
     'value': 'http://modelling.dissco.tech/entity/Q11'},
    'object': {'type': 'uri',
     'value': 'http://modelling.dissco.tech/entity/Q13'}},
   {'item': {'type': 'uri',
     'value': 'http://modelling.dissco.te

In [10]:
def clean_value(val: str) -> str:
    return re.sub(r".*/(Q\d+)", r"\1", val)

In [11]:
def clean_point(point: dict) -> dict:
    return {'item': clean_value(point['item']['value']), 'object': clean_value(point['object']['value'])}

In [12]:
for point in data['results']['bindings'][0:10]:
    print(clean_point(point))

{'item': 'Q11', 'object': 'Q12'}
{'item': 'Q17', 'object': 'Q12'}
{'item': 'Q9', 'object': 'Q13'}
{'item': 'Q10', 'object': 'Q13'}
{'item': 'Q11', 'object': 'Q13'}
{'item': 'Q12', 'object': 'Q13'}
{'item': 'Q13', 'object': 'Q13'}
{'item': 'Q14', 'object': 'Q13'}
{'item': 'Q15', 'object': 'Q13'}
{'item': 'Q9', 'object': 'Q14'}


In [13]:
clean_data = [clean_point(p) for p in data['results']['bindings']]

In [14]:
clean_data

[{'item': 'Q11', 'object': 'Q12'},
 {'item': 'Q17', 'object': 'Q12'},
 {'item': 'Q9', 'object': 'Q13'},
 {'item': 'Q10', 'object': 'Q13'},
 {'item': 'Q11', 'object': 'Q13'},
 {'item': 'Q12', 'object': 'Q13'},
 {'item': 'Q13', 'object': 'Q13'},
 {'item': 'Q14', 'object': 'Q13'},
 {'item': 'Q15', 'object': 'Q13'},
 {'item': 'Q9', 'object': 'Q14'},
 {'item': 'Q16', 'object': 'Q16'},
 {'item': 'Q17', 'object': 'Q17'},
 {'item': 'Q4', 'object': 'Q3'},
 {'item': 'Q5', 'object': 'Q3'},
 {'item': 'Q2', 'object': 'Q13'},
 {'item': 'Q3', 'object': 'Q13'},
 {'item': 'Q4', 'object': 'Q13'},
 {'item': 'Q5', 'object': 'Q13'},
 {'item': 'Q6', 'object': 'Q13'},
 {'item': 'Q7', 'object': 'Q13'},
 {'item': 'Q8', 'object': 'Q13'},
 {'item': 'Q2', 'object': 'Q14'},
 {'item': 'Q3', 'object': 'Q14'},
 {'item': 'Q4', 'object': 'Q14'},
 {'item': 'Q5', 'object': 'Q14'},
 {'item': 'Q7', 'object': 'Q14'},
 {'item': 'Q8', 'object': 'Q14'},
 {'item': 'Q1', 'object': 'Q16'},
 {'item': 'Q29', 'object': 'Q2'},
 {'ite

In [15]:
all_nodes = sorted({p['item'] for p in clean_data} | {p['object'] for p in clean_data})

In [16]:
clean_data_dict = {}
for node in all_nodes:
    clean_data_dict[node] = {point['object'] for point in clean_data if point['item'] == node and point['object'] != node}

In [17]:
clean_data_dict

{'Q1': {'Q16'},
 'Q10': {'Q13'},
 'Q11': {'Q12', 'Q13'},
 'Q12': {'Q13'},
 'Q13': set(),
 'Q14': {'Q13'},
 'Q15': {'Q13'},
 'Q16': set(),
 'Q17': {'Q12'},
 'Q18': {'Q17'},
 'Q19': {'Q17', 'Q26'},
 'Q2': {'Q13', 'Q14'},
 'Q20': {'Q17'},
 'Q21': {'Q17'},
 'Q22': {'Q17', 'Q28'},
 'Q23': {'Q17', 'Q20'},
 'Q25': {'Q17'},
 'Q26': {'Q17'},
 'Q27': {'Q17', 'Q26'},
 'Q28': {'Q13'},
 'Q29': {'Q15',
  'Q17',
  'Q18',
  'Q19',
  'Q2',
  'Q26',
  'Q43',
  'Q50',
  'Q66',
  'Q68',
  'Q69',
  'Q70',
  'Q71',
  'Q72',
  'Q73',
  'Q87'},
 'Q3': {'Q13', 'Q14'},
 'Q30': {'Q17', 'Q28'},
 'Q31': {'Q17'},
 'Q32': {'Q17'},
 'Q33': {'Q17'},
 'Q34': {'Q17'},
 'Q35': {'Q17'},
 'Q36': {'Q17'},
 'Q37': {'Q17'},
 'Q38': {'Q17'},
 'Q39': {'Q17'},
 'Q4': {'Q13', 'Q14', 'Q3'},
 'Q40': {'Q17'},
 'Q41': {'Q17'},
 'Q42': {'Q17'},
 'Q43': {'Q17'},
 'Q44': {'Q17', 'Q2', 'Q42', 'Q49', 'Q64', 'Q81'},
 'Q45': {'Q15', 'Q17', 'Q2', 'Q31', 'Q32', 'Q40', 'Q44', 'Q47'},
 'Q47': {'Q17', 'Q40'},
 'Q48': {'Q17', 'Q26'},
 'Q49': {'Q1

In [18]:
def next_step(node_list: set[str]) -> set[str]:
    return {n for node in node_list for n in clean_data_dict[node]}

In [19]:
def nth_step(node_list: set[str], step: int) -> set[str]:
    if step < 0:
        raise ValueError("Step Cannot Be Negative")
    if step == 0:
        return node_list
    return nth_step(next_step(node_list), step-1)

In [20]:
distance_dict = {}

In [21]:
for node in all_nodes:
    distance_dict[node] = {}
    returning = True
    step = 0
    while returning:
        step_list = nth_step({node}, step) - set(distance_dict[node].keys())
        returning = len(step_list) > 0
        for n in step_list:
                distance_dict[node][n] = step
        step += 1

In [22]:
distance_dict

{'Q1': {'Q1': 0, 'Q16': 1},
 'Q10': {'Q10': 0, 'Q13': 1},
 'Q11': {'Q11': 0, 'Q13': 1, 'Q12': 1},
 'Q12': {'Q12': 0, 'Q13': 1},
 'Q13': {'Q13': 0},
 'Q14': {'Q14': 0, 'Q13': 1},
 'Q15': {'Q15': 0, 'Q13': 1},
 'Q16': {'Q16': 0},
 'Q17': {'Q17': 0, 'Q12': 1, 'Q13': 2},
 'Q18': {'Q18': 0, 'Q17': 1, 'Q12': 2, 'Q13': 3},
 'Q19': {'Q19': 0, 'Q26': 1, 'Q17': 1, 'Q12': 2, 'Q13': 3},
 'Q2': {'Q2': 0, 'Q13': 1, 'Q14': 1},
 'Q20': {'Q20': 0, 'Q17': 1, 'Q12': 2, 'Q13': 3},
 'Q21': {'Q21': 0, 'Q17': 1, 'Q12': 2, 'Q13': 3},
 'Q22': {'Q22': 0, 'Q28': 1, 'Q17': 1, 'Q13': 2, 'Q12': 2},
 'Q23': {'Q23': 0, 'Q20': 1, 'Q17': 1, 'Q12': 2, 'Q13': 3},
 'Q25': {'Q25': 0, 'Q17': 1, 'Q12': 2, 'Q13': 3},
 'Q26': {'Q26': 0, 'Q17': 1, 'Q12': 2, 'Q13': 3},
 'Q27': {'Q27': 0, 'Q26': 1, 'Q17': 1, 'Q12': 2, 'Q13': 3},
 'Q28': {'Q28': 0, 'Q13': 1},
 'Q29': {'Q29': 0,
  'Q18': 1,
  'Q50': 1,
  'Q70': 1,
  'Q71': 1,
  'Q43': 1,
  'Q87': 1,
  'Q66': 1,
  'Q26': 1,
  'Q2': 1,
  'Q72': 1,
  'Q69': 1,
  'Q17': 1,
  'Q19': 1,


In [23]:
# pandas.DataFrame(distance_dict, columns=all_nodes, index=all_nodes).transpose().to_csv("temp.csv")