Get all Bathing Waters with P9618 in this project from Wikidata and checks if they exist on eionet as a WaterBody 

https://dd.eionet.europa.eu/vocabularyconcept/wise/WaterBody

* The project: [github salgo60/Svenskabadplatser](https://github.com/salgo60/Svenskabadplatser)
  * European bathwaters [GITHUB](https://github.com/salgo60/EuropeanBathingWater/blob/main/README.md) / [Wikidata](https://www.wikidata.org/wiki/Wikidata:WikiProject_European_Bath_Waters)
* this [Notebook](https://github.com/salgo60/EuropeanBathingWater/blob/main/Jupyter/Eionet%20Data%20Dictionary.ipynb)


Status:  



| Date | Total | Ok | Error 
| ------------- |:-------------:|:-------------:|:-------------:|
| 20210610 | 3176 | 936 | 2240 |


In [1]:
from datetime import datetime
start_time  = datetime.now()
print("Last run: ", start_time)

Last run:  2021-06-12 10:54:05.844110


In [2]:
import pandas as pd


In [3]:
#
# pip install sparqlwrapper
# https://rdflib.github.io/sparqlwrapper/

import sys,json
from SPARQLWrapper import SPARQLWrapper, JSON

endpoint_url = "https://query.wikidata.org/sparql"
 
# https://w.wiki/3Tk$    
queryBath = """SELECT  (REPLACE(STR(?nodebath), ".*Q", "Q") AS ?wikidata) ?nodebath (SUBSTR(lcase(?bath),1,2) AS ?country)
(URI(CONCAT("https://dd.eionet.europa.eu/vocabularyconcept/wise/WFDProtectedArea/euProtectedAreaCode.",
       str(?bath))) AS ?eionet)  (str(?bath) AS ?bathwateridentifier){
      ?nodebath wdt:P9616 ?bath} 
"""


def get_sparql_dataframe(endpoint_url, query):
    """
    Helper function to convert SPARQL results into a Pandas data frame.
    """
    user_agent = "salgo60/%s.%s" % (sys.version_info[0], sys.version_info[1])
 
    sparql = SPARQLWrapper(endpoint_url, agent=user_agent)
    sparql.setQuery(query)
    sparql.setReturnFormat(JSON)
    result = sparql.query()

    processed_results = json.load(result.response)
    cols = processed_results['head']['vars']

    out = []
    for row in processed_results['results']['bindings']:
        item = []
        for c in cols:
            item.append(row.get(c, {}).get('value'))
        out.append(item)

    return pd.DataFrame(out, columns=cols)

WDBath = get_sparql_dataframe(endpoint_url, queryBath)
WDBath.shape

(3170, 5)

In [4]:
WDBath.head()

Unnamed: 0,wikidata,nodebath,country,eionet,bathwateridentifier
0,Q106702261,http://www.wikidata.org/entity/Q106702261,se,https://dd.eionet.europa.eu/vocabularyconcept/...,SE0411080000000216
1,Q106703325,http://www.wikidata.org/entity/Q106703325,se,https://dd.eionet.europa.eu/vocabularyconcept/...,SE0210380000001180
2,Q106702259,http://www.wikidata.org/entity/Q106702259,se,https://dd.eionet.europa.eu/vocabularyconcept/...,SE0411080000000212
3,Q106702279,http://www.wikidata.org/entity/Q106702279,se,https://dd.eionet.europa.eu/vocabularyconcept/...,SE0210380000001177
4,Q106704485,http://www.wikidata.org/entity/Q106704485,se,https://dd.eionet.europa.eu/vocabularyconcept/...,SE0210380000005939


In [5]:
import urllib3, json
from tqdm import tqdm
http = urllib3.PoolManager()
urlHav = "https://badplatsen.havochvatten.se/badplatsen/api/detail/" 

listBath = []
for WD, row in tqdm(WDBath.iterrows(), total=WDBath.shape[0]):
    url = row["eionet"] 
    
    new_item = dict()
    new_item['wikidata'] = row["wikidata"] 
    #print(url)
    try:
        r = http.request('GET', url) 
        new_item['status'] = r.status
        if  r.status == 404 and row['country'] == "se":
            #Check if Sweden. and check API for reason
            try:
                urlHavBath = urlHav + row["bathwateridentifier"]
                rHav = http.request('GET',urlHavBath , 
                                    headers={'Content-Type': 'application/json'})
                rHavData = json.loads(rHav.data.decode('utf-8'))  
                #for key, value in rHavData.items() :
                #    print ("\t\t",key, value)
                new_item['euType'] = rHavData["euType"]
                new_item['euMotive'] = rHavData["euMotive"]
                new_item['NotEuMotive'] = rHavData["NotEuMotive"]
                
            except Exception as e:
                print ("Hav except ", e, urlHavBath, " WD:",row["wikidata"] )

    except:
        #print (r.status, url)
        new_item['status'] = r.status
    new_item['eionet'] = url 
    new_item['bathwateridentifier'] = row["bathwateridentifier"] 
    new_item['country'] = row["country"] 
    
    listBath.append(new_item)
print (len(listBath))

100%|██████████| 3170/3170 [03:04<00:00, 17.16it/s]

3170





In [6]:
#listBath

In [7]:
Eionettot = pd.DataFrame(listBath,
                  columns=['wikidata','country','bathwateridentifier','status','eionet','euType','euMotive','NotEuMotive'])
Eionettot.shape


(3170, 8)

In [8]:
Eionettot.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3170 entries, 0 to 3169
Data columns (total 8 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   wikidata             3170 non-null   object 
 1   country              3170 non-null   object 
 2   bathwateridentifier  3170 non-null   object 
 3   status               3170 non-null   int64  
 4   eionet               3170 non-null   object 
 5   euType               2202 non-null   object 
 6   euMotive             17 non-null     object 
 7   NotEuMotive          0 non-null      float64
dtypes: float64(1), int64(1), object(6)
memory usage: 198.2+ KB


In [9]:
pd.set_option('max_colwidth', 400)
Eionettot.head(10)

Unnamed: 0,wikidata,country,bathwateridentifier,status,eionet,euType,euMotive,NotEuMotive
0,Q106702261,se,SE0411080000000216,200,https://dd.eionet.europa.eu/vocabularyconcept/wise/WFDProtectedArea/euProtectedAreaCode.SE0411080000000216,,,
1,Q106703325,se,SE0210380000001180,200,https://dd.eionet.europa.eu/vocabularyconcept/wise/WFDProtectedArea/euProtectedAreaCode.SE0210380000001180,,,
2,Q106702259,se,SE0411080000000212,200,https://dd.eionet.europa.eu/vocabularyconcept/wise/WFDProtectedArea/euProtectedAreaCode.SE0411080000000212,,,
3,Q106702279,se,SE0210380000001177,404,https://dd.eionet.europa.eu/vocabularyconcept/wise/WFDProtectedArea/euProtectedAreaCode.SE0210380000001177,False,,
4,Q106704485,se,SE0210380000005939,404,https://dd.eionet.europa.eu/vocabularyconcept/wise/WFDProtectedArea/euProtectedAreaCode.SE0210380000005939,False,,
5,Q106702258,se,SE0411080000000213,200,https://dd.eionet.europa.eu/vocabularyconcept/wise/WFDProtectedArea/euProtectedAreaCode.SE0411080000000213,,,
6,Q106702255,se,SE0411080000000207,404,https://dd.eionet.europa.eu/vocabularyconcept/wise/WFDProtectedArea/euProtectedAreaCode.SE0411080000000207,True,Antalet besökare uppskattas till runt 500 personer fina sommardagar,
7,Q106702253,se,SE0411080000000204,200,https://dd.eionet.europa.eu/vocabularyconcept/wise/WFDProtectedArea/euProtectedAreaCode.SE0411080000000204,,,
8,Q106705861,se,SE0632180000002897,404,https://dd.eionet.europa.eu/vocabularyconcept/wise/WFDProtectedArea/euProtectedAreaCode.SE0632180000002897,False,,
9,Q106705867,se,SE0632180000002885,404,https://dd.eionet.europa.eu/vocabularyconcept/wise/WFDProtectedArea/euProtectedAreaCode.SE0632180000002885,False,,


In [10]:
#Eionettot["link"] = "<a href='https://dd.eionet.europa.eu/vocabularyconcept/wise/WFDProtectedArea/euProtectedAreaCode." + Eionettot["eionet"].astype(str) + "'">link eionet</a>"
Eionettot["link"] = "<a href='" + Eionettot["eionet"].astype(str) + "'>link eionet</a>"
Eionettot["WD"] = "<a href='https://www.wikidata.org/wiki/" + Eionettot["wikidata"].astype(str) + "'>link WD</a>"


In [11]:
from IPython.display import display, HTML  

#Eionettot.value_counts({"status","country"})
#Eionettot[['status', 'country']].apply(pd.Series.value_counts)
HTML(Eionettot[{'WD','country','bathwateridentifier','status','link','euType','euMotive','NotEuMotive'}].tail(50).to_html(escape=False))

Unnamed: 0,euMotive,euType,country,NotEuMotive,WD,status,link,bathwateridentifier
3120,,,se,,link WD,200,link eionet,SE0230563000001314
3121,,False,se,,link WD,404,link eionet,SE0920781000001317
3122,,False,se,,link WD,404,link eionet,SE0920781000001318
3123,,False,se,,link WD,404,link eionet,SE0920781000001319
3124,,False,se,,link WD,404,link eionet,SE0920781000001320
3125,,False,se,,link WD,404,link eionet,SE0920781000001303
3126,,False,se,,link WD,404,link eionet,SE0920781000001322
3127,,,se,,link WD,200,link eionet,SE0230563000001315
3128,,False,se,,link WD,404,link eionet,SE0920781000001321
3129,,False,se,,link WD,404,link eionet,SE0920781000001323


In [12]:
EionettotOk = Eionettot[(Eionettot['status']==200)] 
EionettotError = Eionettot[(Eionettot['status']==404)]

In [13]:
EionettotOk.shape

(936, 10)

In [14]:
EionettotError.shape

(2234, 10)

In [15]:
EionettotError.value_counts("country")

country
se    2202
es      13
gr      12
hr       4
de       1
ie       1
uk       1
dtype: int64

In [16]:
EionettotError.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2234 entries, 3 to 3169
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   wikidata             2234 non-null   object 
 1   country              2234 non-null   object 
 2   bathwateridentifier  2234 non-null   object 
 3   status               2234 non-null   int64  
 4   eionet               2234 non-null   object 
 5   euType               2202 non-null   object 
 6   euMotive             17 non-null     object 
 7   NotEuMotive          0 non-null      float64
 8   link                 2234 non-null   object 
 9   WD                   2234 non-null   object 
dtypes: float64(1), int64(1), object(8)
memory usage: 192.0+ KB


In [17]:

HTML(EionettotError[{'WD','country','bathwateridentifier','status','link','euType','euMotive','NotEuMotive'}].tail(10).to_html(escape=False))

Unnamed: 0,euMotive,euType,country,NotEuMotive,WD,status,link,bathwateridentifier
3160,,False,se,,link WD,404,link eionet,SE0A21446000001381
3161,,False,se,,link WD,404,link eionet,SE0920761000001395
3162,,False,se,,link WD,404,link eionet,SE0920761000001397
3163,,False,se,,link WD,404,link eionet,SE0920761000001398
3164,,False,se,,link WD,404,link eionet,SE0A21446000001380
3165,,False,se,,link WD,404,link eionet,SE0A21460000001403
3166,,False,se,,link WD,404,link eionet,SE0A21460000001405
3167,,False,se,,link WD,404,link eionet,SE0A21460000001407
3168,,False,se,,link WD,404,link eionet,SE0A21460000001408
3169,,False,se,,link WD,404,link eionet,SE0110127000001410


In [18]:
EionettotErrorEuType = EionettotError[EionettotError["euType"] == True] 
HTML(EionettotErrorEuType[{'WD','country','bathwateridentifier','status','link','euType','euMotive','NotEuMotive'}].tail(10).to_html(escape=False))

Unnamed: 0,euMotive,euType,country,NotEuMotive,WD,status,link,bathwateridentifier
440,Badplatsen har fler än 200 besökare i genomsnitt normal sommardag.,True,se,,link WD,404,link eionet,SE0441293000000427
1080,Uppskattningsvis badar fler än 200 personer här vid god väderlek under badsäsongen. Camping finns i anslutning till badplatsen.,True,se,,link WD,404,link eionet,SE0241860000003270
1500,"Många badande från Örebro p.g.a. närheten till E18, uppskattningsvis över 200 badande vid god väderlek.",True,se,,link WD,404,link eionet,SE0241814000004068
1531,Vi bedömer att Skräcklan-barnbadet uppfyller kriterierna för EU-bad med över 200 badande per dag. Det är också en stadsnära badplats som är iordningsställd för bad med toalett och handikappramp. Det är även många skolklasser och fritids som är där och badar.,True,se,,link WD,404,link eionet,SE0A21487000004208
2043,Stora investeringar senaste åren intill en camping med mycket turister. Mer än 200 badande per dag 2019.,True,se,,link WD,404,link eionet,SE0930880000000781
2049,Nyrenoverat hopptorn med flertalet badande över tid ca 250 personer per dag samt intilliggande aktivitetsområde. Här finns tillgång till basket och volleybollplaner samt utegym och flertalet grillplatser,True,se,,link WD,404,link eionet,SE0930880000000783
2051,Mer än 200 badande per dag. Central badplats i Kalmar med mycket turister.,True,se,,link WD,404,link eionet,SE0930880000000786
2052,Stora investeringar 2019 med en väl tilltagen brygga i ett populärt område i norra delarna av Kalmar. Fler än 200 badande per dag i snitt 2019.,True,se,,link WD,404,link eionet,SE0930880000000792
2785,Trädäcken vid badplatsen Sundspromenaden är en naturlig och mycket populär mötesplats för alla sol- och badsugna under sommarhalvåret i Malmö men används även för vinterbadare. Besöksstatistiken för Sundspromenadens badplats har registrerats under badsäsongen som ca 3000-10000personer per vecka beroende på väder.,True,se,,link WD,404,link eionet,SE0441280000004499
2868,"En insjö med klart vatten som är en vattentäkt. Badplatsen är välbesökt året runt. Föreningen har gjort flera grillplatser, byggt en egen vacker grillkåta och byggt till lekplatsen på badplatsen. Badplatsen har ett bryggomslutet barnbad och ytterligare en brygga med hopptorn samt två flottar. Toaletter och omklädningsbås finns. Antalet besökare uppskattas till drygt 200 personer fina sommardagar.",True,se,,link WD,404,link eionet,SE0411080000000220


In [19]:
EionettotError["euMotive"].value_counts()

<200 badande per dag. Ej längre EU bad.                                                                                                                                                                                                                                                                                                                                                                            3
Trädäcken vid badplatsen Sundspromenaden är en naturlig och mycket populär mötesplats för alla sol- och badsugna under sommarhalvåret i Malmö men används även för vinterbadare. Besöksstatistiken för Sundspromenadens badplats har registrerats under badsäsongen som ca 3000-10000personer per vecka beroende på väder.                                                                                         1
Nyrenoverat hopptorn med flertalet badande över tid ca 250 personer per dag samt intilliggande aktivitetsområde. Här finns tillgång till basket och volleybollplaner samt utegym och flertalet

In [20]:
EionettotOk.shape

(936, 10)

In [21]:
EionettotOk.value_counts("country")

country
se    487
dk     36
de     35
pt     33
fr     27
ie     24
it     23
lt     22
fi     21
uk     21
es     21
nl     20
pl     20
hu     17
ee     17
si     16
bg     14
ro     11
hr     10
at      9
lv      9
sk      8
al      8
lu      8
be      7
cz      6
mt      6
dtype: int64

In [22]:
EionettotOk.to_csv("BathIdentifier_Ok.csv")
EionettotError.to_csv("BathIdentifier_Error.csv")
Eionettot.to_csv("BathIdentifier_All.csv")


Generate Markdown table eg.
| 20210610 | 3176 | 2240 | 936 |


In [23]:
print("|",start_time.strftime("%Y%m%d"),"|", \
      Eionettot.shape[0],"|", \
      EionettotOk.shape[0],"|", \
      EionettotError.shape[0],"|",)


| 20210612 | 3170 | 936 | 2234 |


In [24]:
end = datetime.now()
print("Ended: ", end) 
print('Time elapsed (hh:mm:ss.ms) {}'.format(datetime.now() - start_time))

Ended:  2021-06-12 10:57:13.256192
Time elapsed (hh:mm:ss.ms) 0:03:07.412235
