Check Open Data portals for Swedish municipalities

In [1]:
from datetime import datetime
start_time  = datetime.now()
print("Last runa: ", start_time)

Last runa:  2021-06-29 08:39:55.654661


In [2]:
# pip install sparqlwrapper
# https://rdflib.github.io/sparqlwrapper/

import sys,json
import pandas as pd
from SPARQLWrapper import SPARQLWrapper, JSON

endpoint_url = "https://query.wikidata.org/sparql"

queryOpenData = """SELECT  (REPLACE(STR(?org), ".*Q", "Q") AS ?wikidata) ?org ?orgLabel ?portalLabel  ?www WHERE {
  ?org wdt:P8402 ?portal.
  ?org wdt:P31 wd:Q127448.
  ?org wdt:P361 ?lan.
  ?lan wdt:P31 wd:Q193556.
  OPTIONAL { ?portal wdt:P856 ?www }
  SERVICE wikibase:label { bd:serviceParam wikibase:language "sv". }
}
GROUP BY ?org ?orgLabel ?portal ?portalLabel ?www 
order by ?orgLabel """


def get_sparql_dataframe(endpoint_url, query):
    """
    Helper function to convert SPARQL results into a Pandas data frame.
    """
    user_agent = "salgo60/%s.%s" % (sys.version_info[0], sys.version_info[1])
 
    sparql = SPARQLWrapper(endpoint_url, agent=user_agent)
    sparql.setQuery(query)
    sparql.setReturnFormat(JSON)
    result = sparql.query()

    processed_results = json.load(result.response)
    cols = processed_results['head']['vars']

    out = []
    for row in processed_results['results']['bindings']:
        item = []
        for c in cols:
            item.append(row.get(c, {}).get('value'))
        out.append(item)

    return pd.DataFrame(out, columns=cols)

WDOpenData = get_sparql_dataframe(endpoint_url, queryOpenData)
WDOpenData.shape

(162, 5)

In [3]:
pd.set_option('max_colwidth', 400)
WDOpenData.head(10)

Unnamed: 0,wikidata,org,orgLabel,portalLabel,www
0,Q504601,http://www.wikidata.org/entity/Q504601,Sjöbo kommun,Sjöbo kommun för Öppna Data portal,https://www.sjobo.se/kommun-och-politik/oppna-data.html
1,Q487648,http://www.wikidata.org/entity/Q487648,Helsingborgs kommun,Öppna Helsingborg,http://www.helsingborg.se/psidata
2,Q514830,http://www.wikidata.org/entity/Q514830,Bromölla kommun,Bromölla kommun öppna data,https://www.bromolla.se/kommun-och-politik/kommunfakta/psi-data/
3,Q1130264,http://www.wikidata.org/entity/Q1130264,Eslövs kommun,Eslövs kommun öppna data,https://eslov.se/psidata
4,Q266401,http://www.wikidata.org/entity/Q266401,Höörs kommun,Höörs kommun öppna data,https://www.hoor.se/psidata
5,Q498857,http://www.wikidata.org/entity/Q498857,Kristianstads kommun,Öppna data från Kristianstads kommun,http://www.kristianstad.se/psidata
6,Q502298,http://www.wikidata.org/entity/Q502298,Landskrona kommun,Öppna data från Landskrona kommun,http://www.landskrona.se/psidata
7,Q505018,http://www.wikidata.org/entity/Q505018,Lunds kommun,Öppna data från Lunds kommun,http://www.lund.se/psidata
8,Q504609,http://www.wikidata.org/entity/Q504609,Staffanstorps kommun,Öppna data från Staffanstorps kommun,http://www.staffanstorp.se/psidata
9,Q504227,http://www.wikidata.org/entity/Q504227,Svalövs kommun,Öppna data från Svalövs kommun,http://www.svalov.se/psidata


In [4]:
import urllib3, json
from tqdm import tqdm
http = urllib3.PoolManager()

listOpenData = []
for WD, row in tqdm(WDOpenData.iterrows(), total=WDOpenData.shape[0]):
    url = row["www"] 
    
    new_item = dict()
    new_item['wikidata'] = row["wikidata"] 
    #print(url)
    try:
        r = http.request('GET', url) 
        new_item['status'] = r.status

    except:
        print ("Error ", r.status, url, row["wikidata"] )
        new_item['status'] = r.status
    if r.status != 200:
        print (row["wikidata"] , r.status, url)
    new_item['url'] = url 
#    new_item['country'] = row["country"] 
    
    listOpenData.append(new_item)
print (len(listOpenData))

  1%|          | 2/162 [00:03<04:41,  1.76s/it]

Error  200 http://www.helsingborg.se/psidata Q487648


 29%|██▉       | 47/162 [00:29<00:38,  2.96it/s]

Error  200 http://www.vara.se/psidata Q501428


 56%|█████▌    | 91/162 [00:42<00:19,  3.67it/s]

Error  200 http://www.robertsfors.se/psidata Q507670


 67%|██████▋   | 108/162 [00:52<00:16,  3.35it/s]

Error  200 https://www.hultsfred.se/psidata Q512002


 98%|█████████▊| 158/162 [01:07<00:01,  3.30it/s]

Q504692 404 https://www.halmstad.se/psidata


100%|██████████| 162/162 [01:09<00:00,  2.34it/s]

162





In [5]:
OpenDatatot = pd.DataFrame(listOpenData,
                  columns=['wikidata','status','url'])
OpenDatatot.shape


(162, 3)

In [8]:
OpenDatatot[OpenDatatot.status == 400]

Unnamed: 0,wikidata,status,url


In [10]:
OpenDatatot.status.value_counts()

200    161
404      1
Name: status, dtype: int64

In [12]:
OpenDatatot[OpenDatatot.status == 404]

Unnamed: 0,wikidata,status,url
157,Q504692,404,https://www.halmstad.se/psidata
