In [1]:
from sqlalchemy import create_engine, text
import pandas as pd
import geopandas as gpd
import os
import json
from dotenv import load_dotenv
from tqdm import tqdm
from typing import List, Optional
import matplotlib.pyplot as plt
import numpy as np

import warnings; warnings.filterwarnings('ignore')
load_dotenv()

PATH = os.environ.get('PATH_RAW')

### Get Woz-data

The WOZ data is a very large JSON file. So we need to iterate through this file and get WOZ values for 2016 and 2022.

In [None]:
# Create dataframe from JSON
with open(PATH + 'woz.json', 'r') as file:
    wozlist = []
    for line in tqdm(file):
        wozdict = {}
        woz = json.loads(line)
        wozwaarden = woz.get('wozWaarden')
        wozobjecten = woz.get('wozObject')
        if wozobjecten is not None:
            nummeraanduiding_id = wozobjecten.get('nummeraanduidingid')
            if nummeraanduiding_id is not None:
                wozdict.update({'nummeraanduiding_id': int(nummeraanduiding_id),
                                'postcode': wozobjecten.get('postcode'),
                                'woonplaats': wozobjecten.get('woonplaatsnaam')})
            else:
                continue
        else:
            continue

        for waarde in wozwaarden:
            if waarde.get('peildatum') == '2016-01-01':
                wozdict.update({'woz_2016': waarde.get('vastgesteldeWaarde')})
            elif waarde.get('peildatum') == '2022-01-01':
                wozdict.update({'woz_2022': waarde.get('vastgesteldeWaarde')})
        
        if wozdict.get('woz_2022') and wozdict.get('woz_2016') is not None:
            wozlist.append(wozdict)

df = pd.DataFrame(wozlist)
del wozlist
df.to_csv(PATH + 'wozobjecten_2016_2022.csv', index=False)

### Get BAG data

The WOZ data doesn't contain geometries, so we need to get those from the BAG.


In [None]:
# Define some functions

def connect(db):
    '''
    Connect to PostgreSQL instance
    '''
    connection_string = f'postgresql+psycopg2://postgres:postgres@localhost/{db}'
    engine = create_engine(connection_string, pool_pre_ping=True, connect_args={
            "keepalives": 1,
            "keepalives_idle": 30,
            "keepalives_interval": 10,
            "keepalives_count": 5
        } )
    connection = engine.connect()
    #print(f'Connected to {db}')
    
    return connection

def gdf_from_postgis(db, sql):
    '''
    Create geodataframe from PostGIS
    '''
    conn = connect(db)
    gdf = gpd.GeoDataFrame.from_postgis(text(sql), conn, geom_col='geometry')

    if not gdf.crs:
        gdf = gdf.set_crs(28992)
    else:
        gdf = gdf.to_crs(28992)

    return gdf

In [None]:
# Import wozobjecten
df = pd.read_csv(PATH + 'wozobjecten_2016_2022.csv')

# Get all unique nummeraanduiding ids
ids = list(set(df.nummeraanduiding_id))

# Create query
sql = f'SELECT DISTINCT \
                v.nummeraanduiding_id\
                , v.pand_id\
                , v.oppervlakte\
                , v.geom AS geometry\
        FROM vbo v\
        WHERE v.nummeraanduiding_id::numeric IN {tuple(ids)}\
        AND v.einddatum  = 0'

# Get data
gdf = gdf_from_postgis('bagv2', sql).drop_duplicates()
len(gdf)

In [None]:
# Write to parquet
gdf.to_parquet(PATH + 'woz_bag.parquet')

### Merge WOZ and BAG

In [None]:
# Clean nummeraanduiding for merging
gdf.nummeraanduiding_id = gdf.nummeraanduiding_id.astype('str')
df.nummeraanduiding_id = df.nummeraanduiding_id.apply(lambda x: str(x).zfill(16))

# Merge
woz = pd.merge(gdf,
               df,
               on='nummeraanduiding_id',
               how='left')


# Write to file
woz.to_parquet(PATH + 'bag_wozwaarden.parquet')

In [2]:
woz = gpd.read_parquet(PATH + 'bag_wozwaarden.parquet')

## Enrich with buurt info

We now have a dataset of all houses with their locations and WOZ values in 2016 and 2022. We can easily select values using different regions, for instance municipalities. It might be useful to create a function for selecting these geometries with adjecent ones, so you can get a more regional dataset. For instance, someone cannot buy a house in Utrecht, but might be able to buy something in Houten, Maarssen or Nieuwegein. 

This research focusses on WHERE you can buy a house so we need to quantify the differences between neighborhoods in a concise way, preferably using a few indexes. There are a few options available:

1. [SES-WOA data](https://www.cbs.nl/nl-nl/maatwerk/2021/45/berekenwijze-ses-score-per-wijk-buurt) from CBS. That data is used to give a sense of the socio-economic status (labor market, educational level, wealth and income) of a gemeente, wijk or buurt with a few indicators. The latest available dataset is from 2022 (covering the year before). The downside is that this score has an economic focus. 
2. We can use the [Leefbaarometer](https://www.leefbaarometer.nl/page/Opendata#scores). Every buurt, wijk and gemeente gets a relative score compared to other buurten, wijken en gemeenten in areas like crime, housing, physical environment, social cohesion and (public) services. There is data available of 2020 and every two years prior to that, but not after.
3. Finegrained regional CBS data on demographics, income, distance to amenities, etc. Although this could be useful, there are (probably too) many variables to consider.

### Get CBS geometries

In [6]:
cbs_2016 = gpd.read_file(PATH + 'cbs/wijkbuurt2016/buurt_2016.shp')
cbs_2016['jaar'] = 2016
cbs_2016 = cbs_2016[cbs_2016.WATER=='NEE'].copy()

cbs_2017 = gpd.read_file(PATH + 'cbs/wijkbuurt2017/buurt_2017_v3.shp')
cbs_2017['jaar'] = 2017
cbs_2017 = cbs_2017[cbs_2017.WATER=='NEE'].copy()

cbs_2018 = gpd.read_file(PATH + 'cbs/wijkbuurt2018/buurt_2018_v3.shp')
cbs_2018['jaar'] = 2018
cbs_2018 = cbs_2018[cbs_2018.H2O=='NEE'].copy()

cbs_2019 = gpd.read_file(PATH + 'cbs/wijkbuurt2019/buurt_2019_v3.shp')
cbs_2019['jaar'] = 2019
cbs_2019= cbs_2019[cbs_2019.H2O=='NEE'].copy()

cbs_2020 = gpd.read_file(PATH + 'cbs/wijkbuurt2020/buurt_2020_v3.shp')
cbs_2020['jaar'] = 2020
cbs_2020 = cbs_2020[cbs_2020.H2O=='NEE'].copy()

cbs_2021 = gpd.read_file(PATH + 'cbs/wijkbuurt2021/buurt_2021_v2.shp')
cbs_2021['jaar'] = 2021
cbs_2021 = cbs_2021[cbs_2021.H2O=='NEE'].copy()

cbs_2022 = gpd.read_file(PATH + 'cbs/wijkbuurt2022/buurt_2022_v1.shp')
cbs_2022['jaar'] = 2022
cbs_2022 = cbs_2022[cbs_2022.H2O=='NEE'].copy()

cbs_2023 = gpd.read_file(PATH + 'cbs/wijkbuurt2023/buurt_2023_v0.shp')
cbs_2023['jaar'] = 2023
cbs_2023 = cbs_2023[cbs_2023.WATER=='NEE'].copy()

In [7]:
buurten = [cbs_2016, cbs_2017, cbs_2018, cbs_2019, cbs_2020,cbs_2021, cbs_2022, cbs_2023]

cbs = pd.concat(buurten)
cbs = cbs[['BU_CODE', 'BU_NAAM', 'jaar', 'geometry']].copy()
cbs = cbs.rename(columns={'BU_CODE': 'buurtcode',
                          'BU_NAAM': 'buurtnaam'})
cbs = cbs.sort_values(by='jaar', ascending=False)
cbs = cbs.drop_duplicates(subset=['buurtcode']).reset_index(drop=True)
cbs.drop('jaar', axis=1, inplace=True)
len(cbs)

17918

### SES-WOA

In order to use the SES-WOA score we need to map the WOZ objects on buurten 2019 geometries. We can use CBS geometries for that. 

In [None]:
# Import SES-WOA

ignorecols = ['Gestandaardiseerd inkomen/Gemiddelde percentielgroep (Getal)',
            'Spreiding/Spreiding totaal/Waarde (Getal)',
            'Spreiding/Spreiding welvaart/Waarde (Getal)',
            'Spreiding/Spreiding opleidingsniveau/Waarde (Getal)',
            'Spreiding/Spreiding arbeidsverleden/Waarde (Getal)']

ses = pd.read_csv(PATH + 'cbs/ses.csv', sep=';')
ses.drop(ignorecols, axis=1, inplace=True)

In [None]:
# Clean
for col in ses.columns[3:]:
    ses[col] = ses[col].str.replace(',', '.').astype('float')

# Clean columns
cols = {'Perioden': 'jaar',
        'Wijken en buurten': 'naam',
        'Regiocode (gemeente, wijk, buurt) (code)': 'regiocode',
        'Financiële Welvaart/Gemiddelde percentielgroep (Getal)': 'financiele_welvaart_percentielgroep',
        'Vermogen/Gemiddelde percentielgroep (Getal)': 'vermogen_percentielgroep',
        'SES-WOA/Totaalscore/Gemiddelde score (Getal)': 'ses_woa_score',
        'SES-WOA/Deelscore financiële welvaart/Gemiddelde score (Getal)': 'ses_woa_financiele_welvaart',
        'SES-WOA/Deelscore opleidingsniveau/Gemiddelde score (Getal)': 'ses_woa_opleidingsniveau',
        'SES-WOA/Deelscore arbeidsverleden/Gemiddelde score (Getal)': 'ses_woa_arbeidsverleden'}

ses = ses.rename(columns=cols)

# Select buurten from 2019
ses_2016 = ses[(ses['regiocode'].str.contains('BU')) & (ses.jaar==2016)].copy()
ses_2021 = ses[(ses['regiocode'].str.contains('BU')) & (ses.jaar==2021)].copy()

# Create geodataframes

ses_2016 = gpd.GeoDataFrame(pd.merge(ses_2016,
                                     cbs,
                                     left_on='regiocode',
                                     right_on='buurtcode',
                                     how='left'), geometry='geometry', crs=28992)

ses_2021 = gpd.GeoDataFrame(pd.merge(ses_2021,
                                     cbs,
                                     left_on='regiocode',
                                     right_on='buurtcode',
                                     how='left'), geometry='geometry', crs=28992)

### Add leefbaarometer

In [None]:
lb_geo = gpd.read_file(PATH + 'leefbarometer/geometrie-leefbaarometer-3-0/buurt 2020.shp', crs=28992)
lb = pd.read_csv(PATH + 'leefbarometer/Leefbaarometer 3.0 - meting 2020 - scores buurt.csv')

In [None]:
# Merge Leefbaarometer with geometries

lb = pd.merge(lb[lb.jaar == 2020].copy(),
              lb_geo[['bu_code', 'geometry']],
              on='bu_code',
              how='right'
              )

lb_2020 = gpd.GeoDataFrame(lb, geometry='geometry', crs=28992)
lb_2020.drop(['versie', 'jaar'], axis=1, inplace=True)
lb_2020 = lb_2020.rename(columns={'bu_code': 'regiocode'})

## Select regions

In [None]:
# Add polygons of woonplaats

woonplaats = gpd.read_file(PATH + 'woonplaatsen.geojson')

In [None]:
def get_plaatsen(df: gpd.GeoDataFrame, plaats: List) -> List:

    df['neighbor'] = None
    df = df[['naam', 'geometry', 'neighbor']].copy()

    plaatsen = []
    for p in plaats:
        i = woonplaats[woonplaats.naam == p].index[0]
        geom = woonplaats.iloc[i].geometry
        plaatsen.extend(df[df.intersects(geom)].naam.tolist())

    return plaatsen            


In [None]:
def filter_wozobjects(df: gpd.GeoDataFrame, 
                      minimum: int, 
                      maximum: int,
                      oppervlakte: Optional[int],
                      plaats: List[str],
                      region: bool = True,
                      inflation: bool = True) -> gpd.GeoDataFrame:
    
    if oppervlakte == None:
        oppervlakte = 0
    
    if plaats == 'all':
        plaats = list(set(df.woonplaats))
    else:
        if not isinstance(plaats, list):
            raise ValueError('Plaats parameter should be "all" or a list of woonplaatsen')     
    
    if region:
        plaatsen = get_plaatsen(woonplaats, plaats)
        reg = 'yes'
    else:
        plaatsen = plaats
        reg = 'no'

    dfs = []
    for year in [2016, 2022]:
        if inflation and year == 2016:
            minimum *= 0.826
            maximum *= 0.826
        else:
            minimum *= 1
            maximum *= 1
    
        df_ = df[(df[f'woz_{year}'] >= minimum) & (df[f'woz_{year}'] <= maximum) & (df.woonplaats.isin(plaatsen)) & (df.oppervlakte > oppervlakte)].copy()
        #filename = f'geojsons/woz_{plaats[0]}_region:{reg}_{year}_{minimum}_{maximum}_{oppervlakte}m2.geojson'
        #df_.to_file(PATH + filename, driver='GeoJSON', mode='w')
        dfs.append(df_)
    
    df = tuple(x for x in dfs)
    return df

In [None]:
df_2016, df_2022 = filter_wozobjects(df=woz, 
                        minimum=250000, 
                        maximum=500000, 
                        oppervlakte=70, 
                        plaats=['Utrecht'], 
                        region=False,
                        inflation=True)

In [4]:
def map_stats_histograms(df_2016: gpd.GeoDataFrame,
                         df_2022: gpd.GeoDataFrame,
                         plaats: str,
                         metric: str):
    
    if metric in ['lbm', 'afw', 'fys', 'onv', 'soc', 'vrz', 'won']:
        df_2016 = df_2016.sjoin(lb_2020[['geometry', metric]], predicate='intersects').dropna(subset=metric)
        df_2022 = df_2022.sjoin(lb_2020[['geometry', metric]], predicate='intersects').dropna(subset=metric)

    elif metric in ['financiele_welvaart_percentielgroep',
                    'vermogen_percentielgroep', 'ses_woa_score',
                    'ses_woa_financiele_welvaart', 'ses_woa_opleidingsniveau',
                    'ses_woa_arbeidsverleden']:
        df_2016 = df_2016.sjoin(ses_2016[['geometry', metric]], predicate='intersects').dropna(subset=metric)
        df_2022 = df_2022.sjoin(ses_2021[['geometry', metric]], predicate='intersects').dropna(subset=metric)

    else:
        raise ValueError(f'Metric {metric} unknown')


    # Create histogram
    plt.hist(df_2016[metric], alpha=0.5, bins=20, label='2016', edgecolor='black', linewidth=1)
    plt.hist(df_2022[metric], alpha=0.5, bins=20, label='2022', edgecolor='black', linewidth=1)
    plt.legend(loc='upper right')
    plt.title(f'{metric} 2016 vs 2022 in {plaats}')
    
    return plt.show()

In [5]:
map_stats_histograms(df_2016, df_2022, plaats='Utrecht', metric='soc')

NameError: name 'df_2016' is not defined

In [None]:
def map_stats_scatterplots(df: gpd.GeoDataFrame,
                           minimum: int, 
                           maximum: int,
                           oppervlakte: int,
                           plaats: List[str],
                           region: bool = True):
    if oppervlakte == None:
        oppervlakte = 0
    
    if plaats == 'all':
        plaats = list(set(df.woonplaats))
    else:
        if not isinstance(plaats, list):
            raise ValueError('Plaats parameter should be "all" or a list of woonplaatsen')     
    
    if region:
        plaatsen = get_plaatsen(woonplaats, plaats)
    else:
        plaatsen = plaats
    
    df = df[(df.woonplaats.isin(plaatsen)) & (df.woz_2016 > minimum) & (df.woz_2016 < maximum)].copy()
    
    plt.scatter(x=df.woz_2016,
                y=df.woz_2022,
                )    
    
    plt.title(f'Scatterplot of wozwaarden between 2016 and 2022 in region {plaats[0]}')
    plt.xlabel(f'wozwaarde in 2016')
    plt.ylabel(f'wozwaarde in 2022')
    plt.xlim(minimum, maximum)
    plt.ylim(minimum, 1000000)

    return plt.show()

                    



In [None]:
map_stats_scatterplots(woz, minimum=250000, maximum=350000, oppervlakte=70, plaats=['Utrecht'])

### CBS Neighbourhood Statistics

In [None]:
# Import statistics / 2022 is not complete so for now I'm importing 2021 as if it is 2022

kern_2016 = pd.read_csv(PATH + 'cbs/kerncijfers_2016.csv', sep=';')
kern_2022 = pd.read_csv(PATH + 'cbs/kerncijfers_2021.csv', sep=';')

In [None]:
# Clean column names

cols = {'Wijken en buurten': 'naam',
        'Regioaanduiding/Soort regio (omschrijving)': 'soort_regio',
        'Regioaanduiding/Codering (code)': 'regiocode',
        'Bevolking/Aantal inwoners (aantal)': 'bev_totaal',
        'Bevolking/Personen met een migratieachtergrond/Westers totaal (aantal)': 'bev_westers_totaal',
        'Bevolking/Personen met een migratieachtergrond/Niet-westers/Niet-westers totaal (aantal)': 'bev_nietwesters_totaal',
        'Bevolking/Bevolkingsdichtheid (aantal inwoners per km²)': 'bev_dichtheid',
        'Wonen/Woningen naar eigendom/Koopwoningen (%)': 'perc_koopwoningen',
        'Wonen/Woningen naar eigendom/Huurwoningen/Huurwoningen totaal (%)': 'perc_huurwoningen',
        'Inkomen/Inkomen van personen/Gemiddeld inkomen per inkomensontvanger (x 1 000 euro)': 'gem_ink_inkomensontvanger_x1000',
        'Inkomen/Inkomen van personen/Gemiddeld inkomen per inwoner\xa0 (x 1 000 euro)': 'gem_ink_inwoner_x1000',
        'Inkomen/Inkomen van personen/Gemiddeld inkomen per inkomensontvanger\xa0 (x 1 000 euro)': 'gem_ink_inkomensontvanger_x1000',
        'Inkomen/Inkomen van personen/Aantal inkomensontvangers\xa0 (aantal)': 'gem_ink_inkomensontvanger_x1000',
        'Inkomen/Inkomen van personen/Aantal inkomensontvangers\xa0\xa0 (aantal)': 'ink_ontvangers_aantal',
        'Inkomen/Inkomen van huishoudens/Mediaan vermogen van particuliere huish. (x 1 000 euro)': 'mediaan_vermogen_huishouden_x1000',
        'Inkomen/Inkomen van personen/Actieven 15-75 jaar (%)': 'ink_actieven_15-75_perc',
        'Nabijheid voorzieningen/Afstand tot huisartsenpraktijk (km)': 'afst_ha_parktijken_km',
        'Inkomen/Inkomen van huishoudens/Huishoudens met een laag inkomen (%)': 'ink_hh_laag_inkomen_perc',
        'Inkomen/Inkomen van huishoudens/Huish. onder of rond sociaal minimum (%)': 'ink_hh_onder_rond_soc_min_perc',
        'Inkomen/Inkomen van huishoudens/Mediaan vermogen van particuliere huish. (x 1 000 euro)'
        'Nabijheid voorzieningen/Afstand tot huisartsenpraktijk (km)': 'afst_ha_praktijken_km',
        'Nabijheid voorzieningen/Afstand tot grote supermarkt (km)': 'afst_supermarkt_km',
        'Nabijheid voorzieningen/Afstand tot kinderdagverblijf (km)': 'afst_kdv_km',
        'Nabijheid voorzieningen/Basisonderwijs/Afstand tot school (km)': 'afst_bo_km',
        'Stedelijkheid/Mate van stedelijkheid (code)': 'stedelijkheid',
        'Criminaliteit/Totaal diefstal uit woning/schuur/e.d. (per 1 000 inwoners)': 'diefstal_woning_schuur_1000_inw',
        'Criminaliteit/Vernieling, misdrijf tegen openbare orde (per 1 000 inwoners)': 'misdrijf_openbare_orde_1000_inw',
        'Criminaliteit/Gewelds- en seksuele misdrijven (per 1 000 inwoners)': 'misdrijf_geweld_1000_inw'}

kern_2016 = kern_2016.rename(columns=cols)
kern_2022 = kern_2022.rename(columns=cols)

In [None]:
kern_2022.gem_ink_inwoner_x1000.isna().sum()

In [None]:
# clean values
cols = ['gem_ink_inkomensontvanger_x1000', 'gem_ink_inwoner_x1000',
        'ink_actieven_15-75_perc', 'ink_hh_laag_inkomen_perc', 'ink_hh_onder_rond_soc_min_perc',
        'afst_ha_parktijken_km',  'afst_supermarkt_km',  'afst_kdv_km', 'afst_bo_km', 'stedelijkheid', 'mediaan_vermogen_huishoudens_x1000']

for col in cols:
    if col in kern_2016.columns:
        kern_2016[col] = kern_2016[col].astype('str').str.replace(',', '.').astype('float')
    if col in kern_2022.columns:
        kern_2022[col] = kern_2022[col].astype('str').str.replace(',', '.').astype('float')

In [None]:
# Filter on buurt

kern_2016 = kern_2016[kern_2016.soort_regio.str.strip()=='Buurt'].copy()
kern_2022 = kern_2022[kern_2022.soort_regio.str.strip()=='Buurt'].copy()

In [None]:
def get_stats(stats):
    
    #inkomen_inkomensontvanger = round((stats.bev_totaal * stats.gem_ink_inkomensontvanger_x1000).sum() / stats.bev_totaal.sum() * 1000, 2)
    perc_nw = round(stats.bev_nietwesters_totaal.sum()/ stats.bev_totaal.sum() * 100, 2)
    socmin = round(stats.ink_hh_onder_rond_soc_min_perc.median(), 2)
    perc_koop = round(stats.perc_koopwoningen.median(), 2)
    perc_huur = round(stats.perc_huurwoningen.median(), 2)
    ha = round(stats.afst_ha_parktijken_km.median(), 2)
    sup = round(stats.afst_supermarkt_km.median(), 2)
    kdv = round(stats.afst_kdv_km.median(), 2)

    data = {'socmin': socmin,
            'perc_nw': perc_nw,
            'perc_koop': perc_koop,
            'perc_huur': perc_huur,
            'afst_ha': ha,
            'afst_sup': sup,
            'afst_kdv': kdv}
    return print(data)

In [None]:
for stats in [stats_2016, stats_2022]:      
    get_stats(stats)