In [34]:
import ujson
import pandas as pd
from Scripts.Helper_Functions import TOOI_organisaties

In [35]:
with open(f"Alle_Beschikkingen.json", "r") as file:
    beschikkingen = ujson.load(file)

organisaties = TOOI_organisaties()

In [36]:
year_counts = {}

for organization, items in beschikkingen.items():

    org_name = [key for key, val in organisaties.items() if val == items[0]["infobox"]['dc_publisher']][0]
    year_counts[org_name] = {}
    
    for item in items:
        year = item["infobox"]["dc_date_year"]
        year_counts[org_name][year] = year_counts[org_name].get(year, 0) + 1

df = pd.DataFrame(year_counts).fillna(0).astype(int)
df = df.T
df = df[sorted(df.columns, reverse = True)]

df['Total'] = df.sum(axis=1)

df.loc['Aantal per jaar'] = df.sum(axis=0)

display(df)

Unnamed: 0,2023,2022,2021,2020,2019,2018,2017,2016,2015,2014,2013,Total
Waterschap Aa en Maas,260,295,384,288,246,162,150,11,0,0,0,1796
"Waterschap Amstel, Gooi en Vecht",449,562,663,681,854,720,572,0,0,0,0,4501
Waterschap Brabantse Delta,652,914,1455,2291,1781,1684,909,614,485,869,843,12497
Waterschap De Dommel,343,230,227,254,219,147,140,3,0,0,0,1563
Waterschap Drents Overijsselse Delta,299,392,525,445,439,384,459,198,0,0,0,3141
Waterschap Hollandse Delta,607,740,684,708,588,498,569,673,556,657,404,6684
Hoogheemraadschap De Stichtse Rijnlanden,657,965,874,639,703,1094,958,778,789,747,73,8277
Hoogheemraadschap Hollands Noorderkwartier,1043,1443,1897,1970,2037,1586,1648,1293,1428,1253,0,15598
Hoogheemraadschap van Delfland,1110,968,1797,1210,967,843,736,798,587,0,0,9016
Hoogheemraadschap van Rijnland,570,806,745,797,630,725,783,705,805,1026,705,8297


Hier is dus de grote analyse van het aantal beschikkingen per huidige waterschap per jaar. Het valt op dat pas vanaf 2013 beschikkingen zijn gepubliceerd. En verder valt op dat de aantallen van sommige waterschappen redelijk constant zijn over de hele periode, maar dat de meeste pas in een jaar na 2013 zijn begonnen met publiceren wat dan eerst een hele reeks aan nullen oplevert. 

In [37]:
coordinate_count = {}

for organization, items in beschikkingen.items():
    org_name = [key for key, val in organisaties.items() if val == items[0]["infobox"]['dc_publisher']][0]
    coordinate_count[org_name] = 0
    for item in items:
        if item['infobox']['foi_coordinates'] != '':
            coordinate_count[org_name] += 1


df_counts = pd.DataFrame([coordinate_count], columns=coordinate_count.keys())
df_counts = df_counts.T

df_counts = df_counts.rename(columns={0: 'Coordinaten'})

df_counts['totaal'] = df['Total']

df_counts['fractie'] = round(df_counts['Coordinaten'] / df_counts['totaal'],2)


display(df_counts)

Unnamed: 0,Coordinaten,totaal,fractie
Waterschap Aa en Maas,672,1796,0.37
"Waterschap Amstel, Gooi en Vecht",1305,4501,0.29
Waterschap Brabantse Delta,1726,12497,0.14
Waterschap De Dommel,647,1563,0.41
Waterschap Drents Overijsselse Delta,811,3141,0.26
Waterschap Hollandse Delta,1201,6684,0.18
Hoogheemraadschap De Stichtse Rijnlanden,1827,8277,0.22
Hoogheemraadschap Hollands Noorderkwartier,3397,15598,0.22
Hoogheemraadschap van Delfland,2473,9016,0.27
Hoogheemraadschap van Rijnland,1336,8297,0.16


Het aantal keer dat coordinaten bekend zijn binnen een waterschap. En de fractie berekend door middel van het totaal. Het positieve hiervan is dat bij ieder waterschap coordinaten bestaan, maar het percentage is bij de ene wat hoger dan bij de ander. Hoe dit komt zal blijken uit het volgende figuur. 

In [43]:
year_counts = {}

for org, entries in beschikkingen.items():
    for entry in entries:
        year = entry['infobox']['dc_date_year']
        coordinates = entry['infobox']['foi_coordinates']

        if coordinates:
            if year in year_counts:
                year_counts[year] += 1
            else:
                year_counts[year] = 1

df2 = pd.DataFrame({'Year': list(year_counts.keys()), 'Count': list(year_counts.values())})

# Display the DataFrame
display(df2)

Unnamed: 0,Year,Count
0,2023,7634
1,2022,10057
2,2021,5750


Het blijkt namelijk dat coordinaten eigenlijk pas bestaan vanaf 2021. Dit betekent dus dat waterschappen die pas vanaf dat jaar bestaan of publiceren (bijvoorbeeld scheldestromen) een veel hogere fractie van coordinaten hebben.

In [42]:
coordinate_count = {}

for organization, items in beschikkingen.items():
    org_name = [key for key, val in organisaties.items() if val == items[0]["infobox"]['dc_publisher']][0]
    coordinate_count[org_name] = 0
    for item in items:
        if item['infobox']['dc_date_year'] in ['2021', '2022', '2023']:
            if item['infobox']['foi_coordinates'] != '':
                coordinate_count[org_name] += 1


df_counts2 = pd.DataFrame([coordinate_count], columns=coordinate_count.keys())
df_counts2 = df_counts2.T

df_counts2 = df_counts2.rename(columns={0: 'Coordinaten'})

df_counts2['totaal'] = df['2023'] + df['2022'] + df['2021']

df_counts2['fractie'] = round(df_counts2['Coordinaten'] / df_counts2['totaal'],2)


display(df_counts2)

Unnamed: 0,Coordinaten,totaal,fractie
Waterschap Aa en Maas,672,939,0.72
"Waterschap Amstel, Gooi en Vecht",1305,1674,0.78
Waterschap Brabantse Delta,1726,3021,0.57
Waterschap De Dommel,647,800,0.81
Waterschap Drents Overijsselse Delta,811,1216,0.67
Waterschap Hollandse Delta,1201,2031,0.59
Hoogheemraadschap De Stichtse Rijnlanden,1827,2496,0.73
Hoogheemraadschap Hollands Noorderkwartier,3397,4383,0.78
Hoogheemraadschap van Delfland,2473,3875,0.64
Hoogheemraadschap van Rijnland,1336,2121,0.63


Hierom is nogmaals een analyse gemaakt van de fracties van de waterschappen in alleen 2021, 2022 en 2023. Hier zie je dat alle waterschappen gelijk veel betere cijfers hebben. Een aantal waterschappen presteren wel minder goed dan anderen, maar dit kan goed komen doordat deze vaker een gebiedsmarkering of lijnmarkering hebben. Als deze analyse over enkel 2022 en 2023 wordt gedaan zijn de resultaten nog beter, wat doet vermoeden dat pas ergens halverwege 2021 dit is begonnen!

Wellicht moet ik nog een manier verzinnen om ook de gebieds/lijnmarkeringen te verzamelen wellicht een centraal punt. 

In [40]:
doc_counts = {}

for org, entries in beschikkingen.items():
    org_name = [key for key, val in organisaties.items() if val == entries[0]["infobox"]['dc_publisher']][0]
    for entry in entries:
        documents = entry['infobox']['foi_files']
        if org_name in doc_counts:
            doc_counts[org_name] += len(documents)
        else:
            doc_counts[org_name] = len(documents)

df3 = pd.DataFrame({'Count': list(doc_counts.values())}, index=list(doc_counts.keys()))

df3['totaal'] = df['Total']

df3['fractie'] = round(df3['Count'] / df3['totaal'],2)


display(df3)

Unnamed: 0,Count,totaal,fractie
Waterschap Aa en Maas,1797,1796,1.0
"Waterschap Amstel, Gooi en Vecht",16157,4501,3.59
Waterschap Brabantse Delta,27521,12497,2.2
Waterschap De Dommel,2227,1563,1.42
Waterschap Drents Overijsselse Delta,3399,3141,1.08
Waterschap Hollandse Delta,7817,6684,1.17
Hoogheemraadschap De Stichtse Rijnlanden,16319,8277,1.97
Hoogheemraadschap Hollands Noorderkwartier,15651,15598,1.0
Hoogheemraadschap van Delfland,18520,9016,2.05
Hoogheemraadschap van Rijnland,13959,8297,1.68


Hier het aantal documenten per beschikking. Alle beschikkingen hebben het hoofddocument, dus iedere fractie moet minstens 1 zijn. Een fractie van boven de 1 toont aan hoeveel bijlagen ze hebben. Hieruit blijkt dat de waterschappen AGV en Limburg veel meer bijlagen hebben dan de andere waterschappen. Ook valt op dat een aantal waterschappen 'vrijwel' nooit bijlagen hebben. Hier zijn dt er een stuk of 6. 