In [1]:
import json
import requests
from pprint import pprint
import numpy as np
import pandas as pd
import re

## Inladen data

In [2]:
d = {"gemeente": [], "type":[], "tekst": [], "id" :[]}
df = pd.DataFrame(data=d)
df

Unnamed: 0,gemeente,id,tekst,type


In [3]:
gemeentelijst = ['aalsmeer','bodegravenreeuwijk',  'alkmaar', 'almelo', 'almere', 'amersfoort', 'amstelveen', 'amsterdam', 'arnhem', 'baarn', 'barneveld', 'beemster', 'binnenmaas', 'borne', 'boxmeer', 'buren', 'castricum', 'culemborg', 'deventer', 'dewolden', 'diemen', 'doetinchem', 'dongen', 'drimmelen', 'edamvolendam', 'ede', 'emmen', 'enschede', 'epe', 'ettenleur', 'goirle', 'gouda', 'groningen', 'hardenberg', 'heemskerk', 'heerde', 'hendrikidoambacht', 'hilvarenbeek', 'hilversum', 'hollandskroon', 'hulst', 'katwijk', 'krimpenerwaard', 'landsmeer', 'leeuwarden', 'leiden', 'leiderdorp', 'leusden', 'lingewaard', 'loonopzand', 'losser', 'maassluis', 'maastricht', 'medemblik', 'meierijstad', 'meppel', 'moerdijk', 'molenwaard', 'nieuwegein', 'nieuwkoop', 'nijkerk', 'noordoostpolder', 'noordwijk', 'noordwijkerhout', 'oisterwijk', 'oldambt', 'ommen', 'oosterhout', 'oostgelre', 'oss', 'overbetuwe', 'raalte', 'rheden', 'rhenen', 'rijswijk', 'roermond', 'roosendaal', 'rucphen', 'schagen', 'schiedam', 'soest', 'staphorst', 'steenbergen', 'steenwijkerland', 'stichtsevecht', 'texel', 'teylingen', 'utrecht', 'veenendaal', 'velsen', 'vlaardingen', 'vlissingen', 'voorst', 'waalwijk', 'wageningen', 'zaanstad', 'zandvoort', 'zeist', 'zoetermeer', 'zwartewaterland', 'zwolle']


In [6]:
for gemeente in gemeentelijst:
    print(gemeente)
    df = pd.DataFrame(data=d)
    parameters = {"from": "0"}
    took = 0
    r = requests.get("http://api.openraadsinformatie.nl/v0/" + gemeente +"/events/search", params=parameters)
    data = r.json()
    
    total = data["meta"]["total"]
    if total >= 10000: #Can only load 10.000 documents from API with this function, which is enough as well
        total = 9999
        
    while total > took:
        r = requests.get("http://api.openraadsinformatie.nl/v0/" + gemeente +"/events/search", params=parameters)
        data = r.json()
        took += 10 
        parameters["from"] = str(took)

        for article in data["events"]:
            if "name" in article.keys() and ("description" in article.keys() or "sources" in article.keys()):
                text = article["name"] #Add the title of the document
                if "description" in article.keys(): #if present: Add the description of the document
                    text += " " + article["description"]
                if "sources" in article.keys(): #if present: Add the texts within the attached files 
                    for source in article["sources"]:
                        if "description" in source.keys():
                            if source["description"] is str:
                                text += " " + source["description"]
                if len(text) > 100: #Very short documents are not taken into account
                    df = df.append(pd.DataFrame([[gemeente, article["classification"], text, article["id"]]], columns=["gemeente", "type", "tekst", "id"]))
    df.to_csv(gemeente + ".csv") #Save all documents from the gemeente

alkmaar
almelo
almere
amersfoort
amstelveen
amsterdam
arnhem
baarn
barneveld
beemster
binnenmaas
borne
boxmeer
buren
castricum
culemborg
deventer
dewolden
diemen
doetinchem


## Automatische labeling

In [4]:
def preprocess(text):
    text = text.lower()
    text = re.sub("<\w*>", '', text)
    text = re.sub("<\w*\s\/>", '', text)
    text = re.sub("^https?:\/\/.*[\r\n]*", '', text)
    text = re.sub('\\\\x\S.', '', text)
    text = re.sub('[^a-z\s]', '', text)
    text = re.sub("\s+", " ", text)
    return text

In [5]:
d = {"gemeente": [], "type":[], "tekst": [], "id" :[]}
df = pd.DataFrame(data=d)
for gemeente in gemeentelijst:
    df = df.append(pd.read_csv(gemeente + ".csv"))
df.describe(include=[np.object])

Unnamed: 0,gemeente,id,tekst,type
count,56237,56237,56237,56237
unique,101,55485,52367,72
top,utrecht,b45b54b79f69c67e262ad6952d5c01136f976b50,zwolle Dit zijn de besluiten die het College v...,Agendapunt
freq,3528,4,80,43992


In [6]:
df["tekst"] = df["tekst"].apply(preprocess)
df = df.drop_duplicates(["id"]) #Verwijder dubbele berichten
df = df.drop_duplicates(["tekst"]).drop("Unnamed: 0", axis=1).reset_index() #Verwijder dubbele berichten

In [7]:
df.describe(include=[np.object])

Unnamed: 0,gemeente,id,tekst,type
count,44787,44787,44787,44787
unique,101,44787,44787,72
top,utrecht,72a1cad62f893bda09ba13435249a7f9c5c348c3,startnotitie bibliotheekbeleid de eerste stap...,Agendapunt
freq,3051,1,1,37020


In [8]:
woorden = """"""

woordenlijst = []
for woord in woorden.split("\n"):
    woordenlijst.append(woord.lower())

print(woordenlijst)

['']


In [9]:
beleidsWoorden = ['paspoorten', 'rijbewijzen', 'verkiezingen', 'documentaire informatievoorziening ', 'inkoop', 'ozb', 'onroerend zaakbelasting ', 'parkeerbelasting', 'hondenbelasting ', 'precariobeslasting ', 'reclamebelasting ', 'vennootschapsbelasting', 'algemene uitkering ', 'mutaties reserves', 'dividend nutsbedrijven']
veiligheidWoorden = ['crisisbeheersing', 'brandweer', 'brandbestrijding', 'rampenbestrijding', 'bureau halt', 'apv', 'boa', 'georganiseerde criminaliteit', 'wet wapen en munitie', 'antidiscriminatiebeleid', 'dierenbescherming ', 'politie', 'leges drank en horeca', 'veiligheid', 'openbare orde']
onderwijsWoorden = ['onderwijshuisvesting', 'onderwijs', 'school', 'scholen', 'basisschool', 'bewegingsonderwijs', 'leraren', 'vandalismebestrijding', 'schoolgebouwen', 'onderwijsbeleid', 'leerlingzaken', 'leerkrachten', 'volwasseneneducatie', 'peuterspeelzaal', 'peuterspeelzalen', 'leerlingbegeleiding', 'leerlingzorg', 'leerlingenvervoer', 'schooldeelname', 'leerplicht', 'schoolverlaten', 'basisonderwijs']
economieWoorden = ['toerisme', 'toeristen', 'beurzen', 'beurs', 'jaarmarkten', 'forensenbelasting', 'toeristenbelasting', 'vermakelijkhedenretributies', 'bedrijvenloket', 'ondernemersloket', 'startende ondernemers', 'straathandel', 'markten', 'biz-bijdrage', 'marktgelden', 'grondexploitatie bedrijventerreinen', 'winkelgebieden', 'bedrijfslocaties']
verkeerWoorden = ['verkeersbeleid', 'verkeer', 'verkeersmaatregelen', 'verkeersveiligheid', 'wegen', 'pleinen', 'fietspad', 'voetpad', 'straten', 'civieltechnische kunstwerken', 'straatverlichting', 'gladheidbestrijding', 'sneeuwruimen', 'strooien', 'straatreiniging', 'zwerfafval', 'parkeerbeleid', 'parkeermeters', 'parkeervoorzieningen ', 'jachthaven ', 'bruggelden', 'passantenhaven', 'liggelden', 'havengelden', 'baggerwerkzaamheden ', 'zeehavens', 'binnenhavens ', 'doorgaande waterwegen', 'waterkering ', 'afwatering', 'openbaar vervoer', 'bus', 'tram', 'metro', 'veerdiensten', 'taxivervoer', 'busstation', 'metrostation', 'multimodaal knooppunt']
cultuurWoorden = ['sportbeleid', 'topsport', 'sportbeoefening', 'recreatie', 'sport', 'cultuur', 'recreatieve', 'sportaccommodaties', 'sportvelden', 'zwembad', 'schaatshal', 'trapveldje', 'voetbalveld', 'muziek', 'dans', 'toneel', 'kunst', 'cultuurparticipatie', 'cultuurpresentatie', 'cultuurproductie', 'cultuuruitingen', 'kunstenaars', 'kunstwerken', 'cultuureducatie', 'herdenking', 'musea', 'museum', 'expositie', 'archeologie', 'heemkunde', 'historische archieven', 'bibliotheken', 'bibliotheek', 'lokale pers', 'lokale omroep', 'lokale informatievoorziening', 'natuurbescherming', 'onderhoud van bos', 'vijvers', 'vijver', 'openbaar groen', 'betuining', 'hobbyclub', 'volkstuinvereniging', 'speelvoorziening', 'recreatievoorziening']
gezondheidsWoorden = ['volksgezondheid', 'milieu', 'zorg', 'gezondheidssituatie', 'gezondheid', 'gezondheidsbevordering', 'infectieziekten', 'vaccinaties', 'prenatale voorlichting', 'psychosociale hulp', 'centrum jeugd en gezin', 'ziekenvervoer', 'ambulance', 'riolering', 'oppervlaktewater', 'rioolwaterzuivering', 'rioolheffing', 'grondwater', 'afvalwater', 'hemelwater', 'afval', 'vuilophaal', 'reinigingsrechten', 'vuilstort', 'afvalstoffenheffing', 'milieubeheer', 'geluidhinder', 'bodemsanering', 'rud', 'regionale uitvoeringsdiensten', 'ongediertebestrijding', 'recycling', 'begraafplaatsen', 'crematoria', 'grafrechten']
sociaalWoorden = ['sociaal domein', 'burgerparticipatie', 'lhbt-beleid', 'amw', 'algemeen maatschappelijk werk', 'burgerinitiatieven', 'eenzaamheidsbestrijding', 'collectief aanvullend vervoer', 'kinderopvang', 'noodopvang vluchtelingen', 'vreemdelingen', 'wijkteams', 'inkomensregelingen', 'ioaw', 'ioaz', 'wet inkomensvoorzieningen oudere en gedeeltelijk arbeidsongeschikte werkloze werknemers', 'wet inkomensvoorzieningen oudere en gedeeltelijk arbeidsongeschikte gewezen zelfstandigen', 'bijstandverlening', 'inkomensregeling', 'participatiewet', 'loonkostensubsidies', 'bijstandsverlening', 'bijstand', 'schuldhulpverlening', 'beschut werken', 'work first', 'proefplaatsen', 'participatieplaatsen', 'vrijwilligerswerk', 'detacheringsbanen', 'erkenning van verworven competenties', 'evc', 'loonkostensubsidie', 'jobcoach', 'werkplekaanpassingen', 'werkvoorzieningen', 'doventolk', 'inkomensvrijlating', 'stimuleringspremies', 'onkostenvergoedingen', 'no-riskpolis', 'inburgering', 'cursus nederlands', 'loonwaardebepaling', 'besluit bijstandsverlening zelfstandigen', 'bbz', 'maatwerkdienstverlening', 'maatwerkvoorzieningen', 'wmo', 'woningaanpassingen', 'gehandicaptenparkeerkaart ', 'eigen bijdrage', 'mantelzorg', 'pgb', 'jeugd-ggz', 'jeugdzorg', 'gescaleerde zorg', 'beschermdwonenvoorzieningen', 'opvangvoorzieningen', 'vrouwenopvang', 'veilig thuis', 'aanpak huiselijk geweld', 'beschermd wonen', 'kinderbeschermingsmaatregelen', 'jeugdreclassering ', 'ouderbijdragen']
wonenWoorden = ['ruimtelijke ordening', 'bgt', 'basisregistratie grootschalige topografie', 'bestemmingsplan', 'bestemmingsplannen', 'grondbeleid', 'cai', 'breedband', 'glasvezel', 'grondexploitatie', 'grondverwerving', 'bouwrijpe gronden', 'bouwgrondcomplexen', 'gebiedsontwikkeling', 'woningvoorraad', 'huisvestingsvoorziening', 'basisregistratie adressen en gebouwen', 'bouwtoezicht', 'bag', 'woningbouw', 'woningverbetering', 'woonruimteverdeling', 'woningsplitsingsvergunning', 'woonvergunning', 'stedelijke vernieuwing', 'woningvoorraad', 'woonomgeving']
lijsten = [beleidsWoorden,veiligheidWoorden,onderwijsWoorden,economieWoorden,verkeerWoorden,sociaalWoorden,wonenWoorden,gezondheidsWoorden,cultuurWoorden]

In [11]:
for lijst in lijsten:
    regex = r"\b(" 
    for word in lijst:
        regex += word + "|" 
    regex = regex[:-1]
    regex += r")\b"
    df[lijst[0]] = 0
    #df[df['tekst'].str.contains(regex)]
    df.loc[df['tekst'].str.contains(regex),lijst[0]] += 1
df

  if __name__ == '__main__':


Unnamed: 0,index,gemeente,id,tekst,type,paspoorten,crisisbeheersing,onderwijshuisvesting,toerisme,verkeersbeleid,sociaal domein,ruimtelijke ordening,volksgezondheid,sportbeleid
0,0,aalsmeer,350237384b83316ac4996f2b3993200f4f35379f,vaststelling bestemmingsplan partiele herzien...,Agendapunt,0,0,0,0,0,0,1,0,0
1,1,aalsmeer,ca845e75a528a605a13cd109de6b05b85664464b,raden in positie binnen amstellandmeerlanden ...,Agendapunt,0,0,0,0,0,0,0,0,0
2,2,aalsmeer,899efd67e76520c57f578efaf0868656b83d2368,hamerstuk verlening subsidie stichting vlucht...,Agendapunt,0,0,0,0,0,0,0,0,0
3,3,aalsmeer,431b7059219e3364230e3c3828a6930bbd8b93e0,vaststelling van het verslag van de besluitvo...,Agendapunt,0,0,0,0,0,0,0,0,0
4,4,aalsmeer,16494ad231b8d8d1dc2a50766827025970c31c1e,nota van uitgangspunten postkantoor portefeui...,Agendapunt,0,0,0,0,0,0,0,0,0
5,5,aalsmeer,9371fa56afa302d3696de99a4138e33174cc3652,uitwerking duurzaamheidsfonds aalsmeer portef...,Agendapunt,0,0,0,0,0,0,0,0,0
6,6,aalsmeer,2c2d95343ef5a9d885ef5be779b5614a354137d4,hamerstuk vaststellen erfgoedverordening en h...,Agendapunt,0,0,0,0,0,0,0,0,0
7,7,aalsmeer,88797de3fb0df4c6bbf7b23c0722c7f1227a26b0,hamerstuk asbestsanering buitenterrein woning...,Agendapunt,0,0,0,0,0,0,0,0,0
8,8,aalsmeer,7fa90360cd522711180b710d8e7010b7a79bc650,hamerstuk gewijzigde bijlage genormeerde bouw...,Agendapunt,0,0,0,0,0,0,0,0,0
9,9,aalsmeer,e9783262b35392e2591ea4eeeb83a934056ed46c,hamerstuk vaststellen gedragscode integriteit...,Agendapunt,0,0,0,0,0,0,0,0,0


In [13]:
#paspoorten	crisisbeheersing	onderwijshuisvesting	toerisme	verkeersbeleid	sociaal domein	ruimtelijke ordening	volksgezondheid	sportbeleid
usabledf = df[df['paspoorten'] | df['toerisme']|df['onderwijshuisvesting']| df['verkeersbeleid']| df['sociaal domein']| df['ruimtelijke ordening']| df['volksgezondheid']| df['sportbeleid'] == 1 ]

In [14]:
usabledf

Unnamed: 0,index,gemeente,id,tekst,type,paspoorten,crisisbeheersing,onderwijshuisvesting,toerisme,verkeersbeleid,sociaal domein,ruimtelijke ordening,volksgezondheid,sportbeleid
0,0,aalsmeer,350237384b83316ac4996f2b3993200f4f35379f,vaststelling bestemmingsplan partiele herzien...,Agendapunt,0,0,0,0,0,0,1,0,0
11,11,aalsmeer,b70b88d2bf24986c80a9cf979414836c07f032c9,vaststelling bestemmingsplan partiele herzien...,Agendapunt,0,0,0,0,0,0,1,0,0
14,14,aalsmeer,495deaf6198092a1e03844a144ccd2a2c6efb0ec,afvalplan dmv ordevoorstel van agenda gehaald...,Agendapunt,0,0,0,0,0,0,0,1,0
17,17,aalsmeer,5fe1e88c5a747c7f3f54b5c8fafa79829be9050b,hamerstuk verlenen omgevingsvergunning voor a...,Agendapunt,0,0,0,0,0,0,1,0,0
19,19,aalsmeer,64c0e3babd6a1448b2f53afbb2f8ec3c98319ed4,hamerstuk verlenen omgevingsvergunning voor a...,Agendapunt,0,0,0,0,0,0,1,0,0
25,25,aalsmeer,08d10b9112c3283a16758370ebcd144fcb643191,hamerstuk vaststelling bestemmingsplan nieuwc...,Agendapunt,0,0,0,0,0,0,1,0,0
26,26,aalsmeer,c9f1bdb7786ae8abc47b9d11006f8c205e3837f1,hamerstuk opschonen vva terrein en aanleg bou...,Agendapunt,0,0,0,0,0,0,1,1,0
27,27,aalsmeer,09020b953fd489c13a86e5c7128198ea94a3822b,hamerstuk vaststelling bestemmingsplan nieuwc...,Agendapunt,0,0,0,0,0,0,1,0,0
31,31,aalsmeer,dcc17df7a1785c2baf0b12a5b5f519984fdc2f58,project de tuinen van aalsmeer portefeuilleho...,Agendapunt,0,0,0,0,0,0,1,0,0
34,34,aalsmeer,c55e04412d5ff7b504b68e47eb818c044b5f3c1d,hamerstuk vaststellen bestemmingsplan e herzi...,Agendapunt,0,0,0,0,0,0,1,0,0


In [None]:
for row in usabledf.iterrows():
    print(row[1].tolist()[3])
    print(row[1].tolist()[5:])
    input()