## Maik Larooij

- Information Sciences
- Interested in big data, data engineering, data science, programming
- Working as a BI-developer on presenting and visualising data

> "Creating order in the chaos"

### Project: from chaos to order!

Chaos: 
- Wobs all contain different types of information, but there seems to be no general rule on what to provide
- Hard to extract: at least 13 possible ways of representing a "weigeringsgrond" (ground for refusal)
- Inventory tables provided in all possible colorways and layouts, varying in quality of information

![inventaris voorbeeld](inventaris_example.png)

In [1]:
grounds = ["weigeringsgrond", "artikelwob", "wob", "beslissingconform", "wobgrond", "uitzonderingsgrond", "artikel", "wobartikel", "weigeringsgrondwob", "weigeringsgronden",
"lakgrond", "relevantewobgronden", "grond"]

### Some progress

In [6]:
example = {
    "id": "UT-201",
    "titel": "2021-0790 Wob-besluit betreft demonstratie Waku Waku",
    "verantwoordelijk": "Gemeente Utrecht",
    "datum_ingediend": "07-10-2021",
    "datum_besluit": "01-02-2022",
    "beschrijving": "De burgemeester heeft op 2 februari 2022 beslist op een Wob-verzoek van een inwoner. In het Wob-verzoek wordt verzocht om alle documenten in het bezit van de gemeente die betrekking hebben op de demonstraties bij Waku Waku. Tevens wordt er verzocht om alle processtukken van de voorlopige voorziening, waaronder de dagvaarding, bezwaarschrift, verweerschriften, pleitnota's van beide partijen en het proces-verbaal van de politie waar in de zaak naar verwezen wordt.",
    "besluit": "Deels openbaar",
    "verdaagd": True,
    "thema": "Wob-verzoeken vrije tijd",
    "geografisch_gebied": "Utrecht",
    "documenten": [
        {
            "document_nr": 1,
            "bestandsnaam": "Wob-verzoek.pdf",
            "bestandstype": "PDF",
            "documenttype": "Verzoek",
            "url": "https://www.utrecht.nl/fileadmin/uploads/documenten/7.extern/wob/2021/2021-0790_Waku_Waku/Wob-verzoek.pdf",
            "paginas": 3,
            "download_datum": "03-03-2022",
            "scan": True
        },
        {
            "document_nr": 2,
            "bestandsnaam": "20211019170012_ Gespreksverslag advocate van restauranthouder1.pdf",
            "bestandstype": "PDF",
            "documenttype": "Gespreksverslag",
            "titel": "Gespreksverslag advocate restauranthouder",
            "url": "https://www.utrecht.nl/fileadmin/uploads/documenten/7.extern/wob/2021/2021-0790_Waku_Waku/Bijlagen.pdf",
            "paginas": 3,
            "download_datum": "03-03-2022",
            "type_vrijgegeven_document": "E-Mail",
            "beoordeling": "Deels openbaar",
            "weigeringsgrond": [
                "10.2.e"
            ],
            "datum": "29-09-2021"
        }
    ]
}

### Validation

In [7]:
schema = {
    "$schema": "http://json-schema.org/draft-07/schema#",
    "$id": "/schemas/wob",
    "title": "Wob-verzoek",
    "description": "Defines a schema to represent a Wob-verzoek",
    "type": "object",
    
    "properties": {
        "id": {"type": ["integer", "string"]},
        "titel": {"type": "string"},
        "verantwoordelijk": {"type": "string"},
        "datum_ingediend": {"type": "string", "format": "date", "pattern": "[0-9]{2}-[0-9]{2}-[0-9]{4}"},
        "datum_besluit": {"type": "string", "format": "date", "pattern": "[0-9]{2}-[0-9]{2}-[0-9]{4}"},
        "beoordeling": {"type": "string", "enum": ["Openbaar", "Deels openbaar", "Reeds openbaar", "Niet openbaar"]},
        "verdaagd": {"type": "boolean"},
        "beschrijving": {"type": "string"},
        "intern_id": {"type": ["integer", "string"]},
        "verzoeker": {"type": "string"},
        "geografisch_gebied": {"type": "string"},
        "bag_id": {"type": "integer"},
        "bgt_id": {"type": "integer"},
        "longitude": {"type": "number", "minimum": -180, "maximum": 180},
        "latitude": {"type": "number", "minimum": -90, "maximum": 90},
        "postcodegebied": {"type": "integer", "minimum": 1000, "maximum": 9999},
        "aantal_vrijgegeven_documenten": {"type": "integer"},
        "documenten": {"type": "array", "items": {"$ref": "#/$defs/document"}}
    },

    "required": ["id", "titel", "verantwoordelijk", "datum_ingediend", "datum_besluit", "beoordeling", "verdaagd"]
}