# Imports

In [1]:
# Python packages
import sys
sys.path.append('../../')
from datetime import datetime
import numpy as np
import pandas as pd
import pickle

from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split, cross_val_score, RepeatedKFold, GridSearchCV, cross_validate, KFold, cross_val_score
from sklearn.linear_model import LogisticRegression, LinearRegression, Ridge, Lasso, LassoCV
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer, make_column_transformer
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.svm import SVR
from sklearn.impute import SimpleImputer
from sklearn.neighbors import KNeighborsRegressor
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestRegressor

from xgboost import XGBRegressor, XGBClassifier

# Custom functions
import src.settings as settings
import src.mapper_cols as mapper_cols
from src.run_all.main_get_data import get_data
from src.run_all.main_preprocess import preprocess_data
from src.utilities.utilities import get_latest_file, list_filenames

# instellingen voor panda weergave aanpassen
pd.set_option('display.max_rows', 500) # alle rijen tonen
pd.set_option('display.max_columns', 500) # alle kolommen tonen
pd.set_option('display.width', 1000) # kolombreedte
pd.set_option("display.precision", 2)     # precisie van de kolommen aanpassen
pd.set_option('display.float_format', lambda x: '{:.15f}'.format(x)) # floats output tot 15 decimalen

### Settings

In [2]:
# Location all data
datapath = '../../data/'
# Drop target values in X set
X_DROP_VALUES = settings.Y_TARGET_COLS
# de kolom die wordt gebruikt als y value
Y_VALUE = ['wmoclientenper1000inwoners']
# test size voor de train/test split
TEST_SIZE = 0.3
# random state voor de train/test split. Bijvoorbeeld random_state = 42 als vaste seed voor reproduceerbaarheid
RANDOM_STATE = 42

## Model parameters
# manier van cross validate in de modellen. Bijvoorbeeld 10 of RepeatedKFold(n_splits=30, n_repeats=5, random_state=1)
CROSS_VALIDATE = 5
# manier van scoren in de modellen
MODEL_SCORING = 'neg_mean_squared_error'
## Grid Search parameters

# parameters die gebruikt worden in de grid search
ALPHA = [0.001, 0.01, 0.1, 1, 10, 100, 1000]
NEIGHBORS = [3, 5, 11, 19]
NORMALIZE = [True, False]
KERNEL = ['linear', 'poly', 'rbf', 'sigmoid', 'precomputed']
GAMMA = [0.5, 1, 1.5, 2, 5]
N_ESTIMATORS = [50,100,200]
C_REGULARIZATION = [0.001, 0.01, 0,1, 1]

### Functions

In [3]:
def drop_nan_from_specific_columns (df,columns_to_check):
    """
    Drops all rows with nan values in specific columns in a dataframe
    """
    df.dropna(
        axis=0,
        how='any',
        thresh=None,
        subset=columns_to_check,
        inplace=True
    )
    
def split_clf_and_params(best_estimator_clf):
    """
    Takes best estimator[clf] and outputs a list with clf and parameters
    """
    clf_and_params = str(best_estimator_clf)
    clf_and_params = clf_and_params.replace(")", "")
    clf_and_params_split = clf_and_params.split("(")
    return clf_and_params_split

def rmse_from_neg_mean_squared_error(neg_mean_squared_error):
    """
    Calculates RMSE from the neq mean squared error
    """
    rmse = np.sqrt(-(neg_mean_squared_error))
    return (rmse)

# functie maken om op basis van de grid search best estimator, het beste RMSE model te selecteren 
def rmse_from_gridsearch_best_estimator(grid_search):
    """
    Calculates RMSE from the grid search best estimator
    """
    rmse = np.sqrt(mean_squared_error(y_test, grid_search.best_estimator_.predict(X_test)))
    return (rmse)

# Get data
This step will load and combine several tables from CBS statline. 

Note: This step takes a number of minutes and without changes to the settings will give the same result. Therefor this code is commented out and the original dataset is loaded. 

In [4]:
%%time 
# ## CREATE NEW DATASET
# df_get_data_WMO= get_data(save_all=True)

# ## HARDCODED
datapath = '../../data/'
filename = 'df_get_data_WMO_WIJK_HUISHOUDENS_BEVOLKING_HEFFING_202104042111.parquet.gzip'
df_get_data_WMO = pd.read_parquet(datapath + filename)

# ## SELECT LAST FILE
# datapath = '../../data/'
# df = get_latest_file(filename_str_contains='df_WMO_', datapath=datapath, filetype='parquet')

print(f"The shape of the dataframe from step 'Get Data': {df_get_data_WMO.shape}")
df_get_data_WMO.sample(5)

The shape of the dataframe from step 'Get Data': (936, 470)
CPU times: user 153 ms, sys: 61.6 ms, total: 214 ms
Wall time: 226 ms


Unnamed: 0_level_0,Unnamed: 1_level_0,perioden,typemaatwerkarrangement,wmoclienten,wmoclientenper1000inwoners,aantalinkomensontvangers,aantalinwoners,actieven1575jaar,afstandtotgrotesupermarkt,afstandtothuisartsenpraktijk,afstandtotkinderdagverblijf,afstandtotschool,alandbouwbosbouwenvisserij,bedrijfsmotorvoertuigen,bedrijfsvestigingentotaal,bevolkingsdichtheid,bfnijverheidenenergie,bouwjaarvanaf2000,bouwjaarvoor2000,dekkingspercentage,eenpersoonshuishoudens,eigendomonbekend,geboorterelatief,geboortetotaal,gehuwd,gemeentenaam,gemelectriciteitsverbruikappartement,gemelectriciteitsverbruikeigenwoning,gemelectriciteitsverbruikhoekwoning,gemelectriciteitsverbruikhuurwoning,gemelectriciteitsverbruiktussenwoning,gemelectriciteitsverbruiktweeondereenkapwoning,gemelectriciteitsverbruikvrijstaandewoning,gemgasverbruikappartement,gemgasverbruikeigenwoning,gemgasverbruikhoekwoning,gemgasverbruikhuurwoning,gemgasverbruiktussenwoning,gemgasverbruiktweeondereenkapwoning,gemgasverbruikvrijstaandewoning,gemgestandaardiseerdinkomenvanhuish,gemiddeldaardgasverbruiktotaal,gemiddeldehuishoudensgrootte,gemiddeldelektriciteitsverbruiktotaal,gemiddeldewoningwaarde,gemiddeldinkomenperinkomensontvanger,gemiddeldinkomenperinwoner,gescheiden,geweldsenseksuelemisdrijven,gihandelenhoreca,hjvervoerinformatieencommunicatie,huishonderofrondsociaalminimum,huishoudensmeteenlaaginkomen,huishoudensmetkinderen,huishoudenstot110vansociaalminimum,huishoudenstot120vansociaalminimum,huishoudenstotaal,huishoudenszonderkinderen,huurwoningentotaal,inbezitoverigeverhuurders,inbezitwoningcorporatie,jongerenmetjeugdzorginnatura,k0tot15jaar,k15tot25jaar,k20huishoudensmethoogsteinkomen,k20personenmethoogsteinkomen,k25tot45jaar,k40huishoudensmetlaagsteinkomen,k40personenmetlaagsteinkomen,k45tot65jaar,k65jaarofouder,klfinancieledienstenonroerendgoed,koopwoningen,mannen,marokko,matevanstedelijkheid,mediaanvermogenvanparticulierehuish,meestvoorkomendepostcode,mnzakelijkedienstverlening,motorfietsen,nederlandseantillenenaruba,nettoarbeidsparticipatie,nietwesterstotaal,omgevingsadressendichtheid,ongehuwd,opleidingsniveauhoog,opleidingsniveaulaag,opleidingsniveaumiddelbaar,oppervlakteland,oppervlaktetotaal,oppervlaktewater,overignietwesters,percentagebewoond,percentageeengezinswoning,percentagejongerenmetjeugdzorg,percentagemeergezinswoning,percentageonbewoond,percentagewerknemers,percentagewoningenmetstadsverwarming,percentagezelfstandigen,personenautos6jaarenouder,personenautosbrandstofbenzine,personenautosjongerdan6jaar,personenautosnaaroppervlakte,personenautosoverigebrandstof,personenautosperhuishouden,personenautostotaal,personenpersoortuitkeringao,personenpersoortuitkeringaow,personenpersoortuitkeringbijstand,personenpersoortuitkeringww,rucultuurrecreatieoverigediensten,scholenbinnen3km,sterfterelatief,sterftetotaal,suriname,totaaldiefstaluitwoningschuured,turkije,vernielingmisdrijftegenopenbareorde,verweduwd,vrouwen,westerstotaal,woningvoorraad,alleenstaande_mannen,alleenstaande_totaal_mannen_en_vrouwen,alleenstaande_vrouwen,ouder_in_eenouderhuishouden_mannen,ouder_in_eenouderhuishouden_totaal_mannen_en_vrouwen,ouder_in_eenouderhuishouden_vrouwen,overig_lid_huishouden_mannen,overig_lid_huishouden_totaal_mannen_en_vrouwen,overig_lid_huishouden_vrouwen,"partner_in_paar,_geen_kind(eren)_mannen","partner_in_paar,_geen_kind(eren)_totaal_mannen_en_vrouwen","partner_in_paar,_geen_kind(eren)_vrouwen",partner_in_paar_met_kind(eren)_mannen,partner_in_paar_met_kind(eren)_totaal_mannen_en_vrouwen,partner_in_paar_met_kind(eren)_vrouwen,persoon_in_institutioneel_huishouden_mannen,persoon_in_institutioneel_huishouden_totaal_mannen_en_vrouwen,persoon_in_institutioneel_huishouden_vrouwen,persoon_in_particulier_huishouden_mannen,persoon_in_particulier_huishouden_totaal_mannen_en_vrouwen,persoon_in_particulier_huishouden_vrouwen,thuiswonend_kind_mannen,thuiswonend_kind_totaal_mannen_en_vrouwen,thuiswonend_kind_vrouwen,totaal_personen_mannen,totaal_personen_totaal_mannen_en_vrouwen,totaal_personen_vrouwen,popaantalbasisonderwijsscholenbinnen3km,popaantalbioscopenbinnen10km,popaantalgrotesupermarktenbinnen3km,popaantalhuisartsenpraktijkenbinnen3km,popaantalkinderdagverblijvenbinnen3km,popaantalrestaurantsbinnen3km,popaantalscholenhavovwobinnen5km,popaantalscholenvmbobinnen5km,popaantalziekenhuizenbinnen20km,popafstandtotbibliotheek,popafstandtotbioscoop,popafstandtotgrotesupermarkt,popafstandtothuisartsenpost,popafstandtothuisartsenpraktijk,popafstandtotkinderdagverblijf,popafstandtotopenbaargroen,popafstandtotoprithoofdverkeersweg,popafstandtotrestaurant,popafstandtotschoolbasisonderwijs,popafstandtotschoolhavovwo,popafstandtotschoolvmbo,popafstandtotsportterrein,popafstandtottreinstation,popafstandtotziekenhuis,popafstandtotzwembad,popagrarischterreinopp,popagrarischterreinperc,popagrarischterreinperinwoner,popakkerbouw,popalandbouwbosbouwenvisserij,popalandbouwbosbouwenvisserijbanen,popalandbouwbosbouwenvisserijbanenrelatief,popaow,poparbeidsongeschiktheidtotaal,popbasisonderwijs,popbebouwdterreinopp,popbebouwdterreinperc,popbebouwdterreinperinwoner,popbedrijfsmotorvoertuigen,popbedrijfsvestigingentotaal,popberoepsbegeleidendeleerweg,popberoepsopleidendeleerweg,popbevolkingsdichtheid,popbevolkingsgroei,popbevolkingsgroeirelatief,popbfnijverheidenenergie,popbfnijverheidenenergiebanen,popbfnijverheidenenergiebanenrelatief,popbijstandgerelateerdtotaowleeftijd,popbijstandgerelateerdvanafaowleeftijd,popbijstandtotdeaowleeftijd,popbinnenlandsmigratiesaldo,popbinnenlandsmigratiesaldorelatief,popbinnenwater,popblijvendgrasland,popbosenopennatuurlijkterreinopp,popbosenopennatuurlijkterreinperc,popbosenopennatuurlijkterreinperinwoner,popbroninkomenalswerknemergembestinkomen,popbroninkomenalswerknemergemgestandaardinkomen,popbroninkomenalswerknemermediaaninkomen,popbroninkomenalszelfstandigegembestinkomen,popbroninkomenalszelfstandigegemgestandaardinkomen,popbroninkomenalszelfstandigemediaaninkomen,popbronoverdrachtsinkomengembestinkomen,popbronoverdrachtsinkomengemgestandaardinkomen,popbronoverdrachtsinkomenmediaaninkomen,popbuitenwater,popbuurten,popcodea,popcodeb,popcodec,popcoded,popcodee,popcodef,popcodeg,popcodeh,popcodei,popcodej,popcodek,popcodel,popcodem,popcoden,popcodeo,popcodep,popcodeq,popcoder,popdunnemest,popedelpelsdieren,popeenpersoonshuishoudens,popeenpersoonshuishoudensrelatief,popeigendomonbekend,popemigratie,popfosfaatuitscheiding,popgeboorte,popgeboorteoverschot,popgeboorteoverschotrelatief,popgeboorterelatief,popgehuwdouderdan,popgehuwdtot,popgeiten,popgemeentelijkeenwaterschapswegen,popgemeenten,popgemiddeldaantalinwoners,popgemiddeldehuishoudensgrootte,popgemiddeldewoningwaarde,popgescheidenouderdan,popgescheidentot,popgftafval,popgihandelenhoreca,popgncommercieledienstverleningbanen,popgncommercieledienstverleningbanenrelatief,popgrijzedruk,popgroenedruk,popgroenvoedergewassen,popgrofhuishoudelijkrestafval,pophjvervoerinformatieencommunicatie,pophogerberoepsonderwijs,pophogerberoepsonderwijsbachelor,pophuishoudelijkrestafval,pophuishoudensmetkinderen,pophuishoudensmetkinderenrelatief,pophuishoudenszonderkinderen,pophuishoudenszonderkinderenrelatief,pophuurwoningen,popid,popimmigratie,popinwoners15jaarofouder,popinwonersop31december,popjongerdan5jaarleeftijdsgroep,popjongerdan5jaarrelatieveleeftijdsgroep,popk10tot15jaarleeftijdsgroep,popk10tot15jaarrelatieveleeftijdsgroep,popk15tot20jaarleeftijdsgroep,popk15tot20jaarrelatieveleeftijdsgroep,popk20tot25jaarleeftijdsgroep,popk20tot25jaarrelatieveleeftijdsgroep,popk25tot45jaarleeftijdsgroep,popk25tot45jaarrelatieveleeftijdsgroep,popk45tot65jaarleeftijdsgroep,popk45tot65jaarrelatieveleeftijdsgroep,popk5tot10jaarleeftijdsgroep,popk5tot10jaarrelatieveleeftijdsgroep,popk65tot80jaarleeftijdsgroep,popk65tot80jaarrelatieveleeftijdsgroep,popk80jaarofouderleeftijdsgroep,popk80jaarofouderrelatieveleeftijdsgroep,popkaliuitscheiding,popkalkoenen,popkippen,popkleinchemischafval,popklfinancieledienstenonroerendgoed,popkonijnen,popkoopwoningen,popkoppelvariabeleregiocode,popland,popmannen,popmarokko,popmarokkorelatief,popmatigstedelijk,popmiddelbaarberoepsonderwijs,popmigratiesaldo,popmigratiesaldorelatief,popmnzakelijkedienstverlening,popmotorfietsen,popmotorfietsenrelatief,popnaama,popnaamb,popnaamc,popnaamd,popnaame,popnaamf,popnaamg,popnaamh,popnaami,popnaamj,popnaamk,popnaaml,popnaamm,popnaamn,popnaamo,popnaamp,popnaamq,popnaamr,popnatuurlijkgrasland,popnederlandseachtergrond,popnederlandseachtergrondrelatief,popnietstedelijk,popnietwoningen,popnieuwbouwwoningen,popnieuwvormingen,popomgevingsadressendichtheid,popongehuwdouderdan,popongehuwdtot,popoudpapierenkarton,popounietcommercieledienstverleningbanen,popounietcommercieledienstverleningbanenrelatief,popoverigedoodsoorzaken,popoverighuishoudelijkafval,popoverignietwestersemigratieachtergrond,popoverignietwestersemigratieachtergrondrelatief,popoverigpluimvee,poppaardenenponys,popparticulierehuishoudensexclstudenten,popparticulierehuishoudensexclstudentengembestinkomen,popparticulierehuishoudensexclstudentengemgestandaardinkomen,popparticulierehuishoudensexclstudentenmediaaninkomen,poppercvoertuigenmetbromfietskenteken,poppersonenautos,poppersonenautosparticulieren,poppersonenautosparticulierenrelatief,poppersonenautosrelatief,popprovincialewegen,poprecreatieterreinopp,poprecreatieterreinperc,poprecreatieterreinperinwoner,poprijkswegen,poprucultuurrecreatieoverigediensten,poprundvee,popsaldovermeerderingwoningenrelatief,popschapen,popsemibebouwdterreinopp,popsemibebouwdterreinperc,popsemibebouwdterreinperinwoner,popslachteenden,popspeciaalbasisonderwijs,popspecialescholen,popsterfte,popsterfterelatief,popsterkstedelijk,popstikstofuitscheiding,popsuriname,popsurinamerelatief,poptextiel,poptijdelijkgrasland,poptotaalaantalbanen,poptotaalaantalparticulierehuishoudens,poptotaalhuishoudelijkafval,poptotaalmetmigratieachtergrond,poptotaalmetmigratieachtergrondrelatief,poptotaalnietwestersemigratieachtergrond,poptotaalnietwestersemigratieachtergrondrelatief,poptotalebevolking,poptotaledruk,poptotaleoppervlakte,poptotaleoppervlaktecultuurgrond,poptotaleweglengte,poptotdeaowleeftijd,poptuinbouwonderglas,poptuinbouwopengrond,popturkije,popturkijerelatief,poptypeeenoudergezingembestinkomen,poptypeeenoudergezingemgestandaardinkomen,poptypeeenoudergezinmediaaninkomen,poptypeeenpersoonshuishoudengembestinkomen,poptypeeenpersoonshuishoudengemgestandaardinkomen,poptypeeenpersoonshuishoudenmediaaninkomen,poptypepaarmetkinderengembestinkomen,poptypepaarmetkinderengemgestandaardinkomen,poptypepaarmetkinderenmediaaninkomen,poptypepaarzonderkindgembestinkomen,poptypepaarzonderkindgemgestandaardinkomen,poptypepaarzonderkindmediaaninkomen,popuitkeringsontvangerstotaalmediaaninkomen,popuitwendigedoodsoorzaken,popvanafdeaowleeftijd,popvarkens,popvastemest,popverhuismobiliteitrelatief,popverkeersterreinopp,popverkeersterreinperc,popverkeersterreinperinwoner,popverpakkingsglas,popvertreknaaranderegemeente,popverweduwdouderdan,popverweduwdtot,popvestiginguitanderegemeente,popvoertuigenmetbromfietskenteken,popvoormaligenederlandseantillenaruba,popvoormaligenederlandseantillenarubarelatief,popvoorraadop1januari,popvoortgezetonderwijs,popvoortgezetonderwijsdiploma,popvrouwen,popwajonguitkering,popwaouitkering,popwatertotaal,popweinigstedelijk,popwerkloosheid,popwestersemigratieachtergrond,popwestersemigratieachtergrondrelatief,popwetenschappelijkonderwijs,popwiauitkeringwgaregeling,popwijken,popwomasterdoctoraal,popwoningbeziteigenwoninggembestinkomen,popwoningbeziteigenwoninggemgestandaardinkomen,popwoningbeziteigenwoningmediaaninkomen,popwoningbezithuurwoninggembestinkomen,popwoningbezithuurwoninggemgestandaardinkomen,popwoningbezithuurwoningmediaaninkomen,popwoningdichtheid,popwoningen,popzeersterkstedelijk,popziektenvanademhalingsstelsel,popziektenvanhartenvaatstelsel,begraafplaatsrechten_gemeenteheffingeuroinwoner,precariobelasting_gemeenteheffingeuroinwoner,reinigingsrechten_en_afvalstoffenheffing_gemeenteheffingeuroinwoner,rioolheffing_gemeenteheffingeuroinwoner,secretarieleges_burgerzaken_gemeenteheffingeuroinwoner,toeristenbelasting_gemeenteheffingeuroinwoner,totaal_onroerendezaakbelasting_gemeenteheffingeuroinwoner,begraafplaatsrechten_gemeenteheffing1000euro,precariobelasting_gemeenteheffing1000euro,reinigingsrechten_en_afvalstoffenheffing_gemeenteheffing1000euro,rioolheffing_gemeenteheffing1000euro,secretarieleges_burgerzaken_gemeenteheffing1000euro,toeristenbelasting_gemeenteheffing1000euro,totaal_onroerendezaakbelasting_gemeenteheffing1000euro
codering_regio,interval,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1,Unnamed: 47_level_1,Unnamed: 48_level_1,Unnamed: 49_level_1,Unnamed: 50_level_1,Unnamed: 51_level_1,Unnamed: 52_level_1,Unnamed: 53_level_1,Unnamed: 54_level_1,Unnamed: 55_level_1,Unnamed: 56_level_1,Unnamed: 57_level_1,Unnamed: 58_level_1,Unnamed: 59_level_1,Unnamed: 60_level_1,Unnamed: 61_level_1,Unnamed: 62_level_1,Unnamed: 63_level_1,Unnamed: 64_level_1,Unnamed: 65_level_1,Unnamed: 66_level_1,Unnamed: 67_level_1,Unnamed: 68_level_1,Unnamed: 69_level_1,Unnamed: 70_level_1,Unnamed: 71_level_1,Unnamed: 72_level_1,Unnamed: 73_level_1,Unnamed: 74_level_1,Unnamed: 75_level_1,Unnamed: 76_level_1,Unnamed: 77_level_1,Unnamed: 78_level_1,Unnamed: 79_level_1,Unnamed: 80_level_1,Unnamed: 81_level_1,Unnamed: 82_level_1,Unnamed: 83_level_1,Unnamed: 84_level_1,Unnamed: 85_level_1,Unnamed: 86_level_1,Unnamed: 87_level_1,Unnamed: 88_level_1,Unnamed: 89_level_1,Unnamed: 90_level_1,Unnamed: 91_level_1,Unnamed: 92_level_1,Unnamed: 93_level_1,Unnamed: 94_level_1,Unnamed: 95_level_1,Unnamed: 96_level_1,Unnamed: 97_level_1,Unnamed: 98_level_1,Unnamed: 99_level_1,Unnamed: 100_level_1,Unnamed: 101_level_1,Unnamed: 102_level_1,Unnamed: 103_level_1,Unnamed: 104_level_1,Unnamed: 105_level_1,Unnamed: 106_level_1,Unnamed: 107_level_1,Unnamed: 108_level_1,Unnamed: 109_level_1,Unnamed: 110_level_1,Unnamed: 111_level_1,Unnamed: 112_level_1,Unnamed: 113_level_1,Unnamed: 114_level_1,Unnamed: 115_level_1,Unnamed: 116_level_1,Unnamed: 117_level_1,Unnamed: 118_level_1,Unnamed: 119_level_1,Unnamed: 120_level_1,Unnamed: 121_level_1,Unnamed: 122_level_1,Unnamed: 123_level_1,Unnamed: 124_level_1,Unnamed: 125_level_1,Unnamed: 126_level_1,Unnamed: 127_level_1,Unnamed: 128_level_1,Unnamed: 129_level_1,Unnamed: 130_level_1,Unnamed: 131_level_1,Unnamed: 132_level_1,Unnamed: 133_level_1,Unnamed: 134_level_1,Unnamed: 135_level_1,Unnamed: 136_level_1,Unnamed: 137_level_1,Unnamed: 138_level_1,Unnamed: 139_level_1,Unnamed: 140_level_1,Unnamed: 141_level_1,Unnamed: 142_level_1,Unnamed: 143_level_1,Unnamed: 144_level_1,Unnamed: 145_level_1,Unnamed: 146_level_1,Unnamed: 147_level_1,Unnamed: 148_level_1,Unnamed: 149_level_1,Unnamed: 150_level_1,Unnamed: 151_level_1,Unnamed: 152_level_1,Unnamed: 153_level_1,Unnamed: 154_level_1,Unnamed: 155_level_1,Unnamed: 156_level_1,Unnamed: 157_level_1,Unnamed: 158_level_1,Unnamed: 159_level_1,Unnamed: 160_level_1,Unnamed: 161_level_1,Unnamed: 162_level_1,Unnamed: 163_level_1,Unnamed: 164_level_1,Unnamed: 165_level_1,Unnamed: 166_level_1,Unnamed: 167_level_1,Unnamed: 168_level_1,Unnamed: 169_level_1,Unnamed: 170_level_1,Unnamed: 171_level_1,Unnamed: 172_level_1,Unnamed: 173_level_1,Unnamed: 174_level_1,Unnamed: 175_level_1,Unnamed: 176_level_1,Unnamed: 177_level_1,Unnamed: 178_level_1,Unnamed: 179_level_1,Unnamed: 180_level_1,Unnamed: 181_level_1,Unnamed: 182_level_1,Unnamed: 183_level_1,Unnamed: 184_level_1,Unnamed: 185_level_1,Unnamed: 186_level_1,Unnamed: 187_level_1,Unnamed: 188_level_1,Unnamed: 189_level_1,Unnamed: 190_level_1,Unnamed: 191_level_1,Unnamed: 192_level_1,Unnamed: 193_level_1,Unnamed: 194_level_1,Unnamed: 195_level_1,Unnamed: 196_level_1,Unnamed: 197_level_1,Unnamed: 198_level_1,Unnamed: 199_level_1,Unnamed: 200_level_1,Unnamed: 201_level_1,Unnamed: 202_level_1,Unnamed: 203_level_1,Unnamed: 204_level_1,Unnamed: 205_level_1,Unnamed: 206_level_1,Unnamed: 207_level_1,Unnamed: 208_level_1,Unnamed: 209_level_1,Unnamed: 210_level_1,Unnamed: 211_level_1,Unnamed: 212_level_1,Unnamed: 213_level_1,Unnamed: 214_level_1,Unnamed: 215_level_1,Unnamed: 216_level_1,Unnamed: 217_level_1,Unnamed: 218_level_1,Unnamed: 219_level_1,Unnamed: 220_level_1,Unnamed: 221_level_1,Unnamed: 222_level_1,Unnamed: 223_level_1,Unnamed: 224_level_1,Unnamed: 225_level_1,Unnamed: 226_level_1,Unnamed: 227_level_1,Unnamed: 228_level_1,Unnamed: 229_level_1,Unnamed: 230_level_1,Unnamed: 231_level_1,Unnamed: 232_level_1,Unnamed: 233_level_1,Unnamed: 234_level_1,Unnamed: 235_level_1,Unnamed: 236_level_1,Unnamed: 237_level_1,Unnamed: 238_level_1,Unnamed: 239_level_1,Unnamed: 240_level_1,Unnamed: 241_level_1,Unnamed: 242_level_1,Unnamed: 243_level_1,Unnamed: 244_level_1,Unnamed: 245_level_1,Unnamed: 246_level_1,Unnamed: 247_level_1,Unnamed: 248_level_1,Unnamed: 249_level_1,Unnamed: 250_level_1,Unnamed: 251_level_1,Unnamed: 252_level_1,Unnamed: 253_level_1,Unnamed: 254_level_1,Unnamed: 255_level_1,Unnamed: 256_level_1,Unnamed: 257_level_1,Unnamed: 258_level_1,Unnamed: 259_level_1,Unnamed: 260_level_1,Unnamed: 261_level_1,Unnamed: 262_level_1,Unnamed: 263_level_1,Unnamed: 264_level_1,Unnamed: 265_level_1,Unnamed: 266_level_1,Unnamed: 267_level_1,Unnamed: 268_level_1,Unnamed: 269_level_1,Unnamed: 270_level_1,Unnamed: 271_level_1,Unnamed: 272_level_1,Unnamed: 273_level_1,Unnamed: 274_level_1,Unnamed: 275_level_1,Unnamed: 276_level_1,Unnamed: 277_level_1,Unnamed: 278_level_1,Unnamed: 279_level_1,Unnamed: 280_level_1,Unnamed: 281_level_1,Unnamed: 282_level_1,Unnamed: 283_level_1,Unnamed: 284_level_1,Unnamed: 285_level_1,Unnamed: 286_level_1,Unnamed: 287_level_1,Unnamed: 288_level_1,Unnamed: 289_level_1,Unnamed: 290_level_1,Unnamed: 291_level_1,Unnamed: 292_level_1,Unnamed: 293_level_1,Unnamed: 294_level_1,Unnamed: 295_level_1,Unnamed: 296_level_1,Unnamed: 297_level_1,Unnamed: 298_level_1,Unnamed: 299_level_1,Unnamed: 300_level_1,Unnamed: 301_level_1,Unnamed: 302_level_1,Unnamed: 303_level_1,Unnamed: 304_level_1,Unnamed: 305_level_1,Unnamed: 306_level_1,Unnamed: 307_level_1,Unnamed: 308_level_1,Unnamed: 309_level_1,Unnamed: 310_level_1,Unnamed: 311_level_1,Unnamed: 312_level_1,Unnamed: 313_level_1,Unnamed: 314_level_1,Unnamed: 315_level_1,Unnamed: 316_level_1,Unnamed: 317_level_1,Unnamed: 318_level_1,Unnamed: 319_level_1,Unnamed: 320_level_1,Unnamed: 321_level_1,Unnamed: 322_level_1,Unnamed: 323_level_1,Unnamed: 324_level_1,Unnamed: 325_level_1,Unnamed: 326_level_1,Unnamed: 327_level_1,Unnamed: 328_level_1,Unnamed: 329_level_1,Unnamed: 330_level_1,Unnamed: 331_level_1,Unnamed: 332_level_1,Unnamed: 333_level_1,Unnamed: 334_level_1,Unnamed: 335_level_1,Unnamed: 336_level_1,Unnamed: 337_level_1,Unnamed: 338_level_1,Unnamed: 339_level_1,Unnamed: 340_level_1,Unnamed: 341_level_1,Unnamed: 342_level_1,Unnamed: 343_level_1,Unnamed: 344_level_1,Unnamed: 345_level_1,Unnamed: 346_level_1,Unnamed: 347_level_1,Unnamed: 348_level_1,Unnamed: 349_level_1,Unnamed: 350_level_1,Unnamed: 351_level_1,Unnamed: 352_level_1,Unnamed: 353_level_1,Unnamed: 354_level_1,Unnamed: 355_level_1,Unnamed: 356_level_1,Unnamed: 357_level_1,Unnamed: 358_level_1,Unnamed: 359_level_1,Unnamed: 360_level_1,Unnamed: 361_level_1,Unnamed: 362_level_1,Unnamed: 363_level_1,Unnamed: 364_level_1,Unnamed: 365_level_1,Unnamed: 366_level_1,Unnamed: 367_level_1,Unnamed: 368_level_1,Unnamed: 369_level_1,Unnamed: 370_level_1,Unnamed: 371_level_1,Unnamed: 372_level_1,Unnamed: 373_level_1,Unnamed: 374_level_1,Unnamed: 375_level_1,Unnamed: 376_level_1,Unnamed: 377_level_1,Unnamed: 378_level_1,Unnamed: 379_level_1,Unnamed: 380_level_1,Unnamed: 381_level_1,Unnamed: 382_level_1,Unnamed: 383_level_1,Unnamed: 384_level_1,Unnamed: 385_level_1,Unnamed: 386_level_1,Unnamed: 387_level_1,Unnamed: 388_level_1,Unnamed: 389_level_1,Unnamed: 390_level_1,Unnamed: 391_level_1,Unnamed: 392_level_1,Unnamed: 393_level_1,Unnamed: 394_level_1,Unnamed: 395_level_1,Unnamed: 396_level_1,Unnamed: 397_level_1,Unnamed: 398_level_1,Unnamed: 399_level_1,Unnamed: 400_level_1,Unnamed: 401_level_1,Unnamed: 402_level_1,Unnamed: 403_level_1,Unnamed: 404_level_1,Unnamed: 405_level_1,Unnamed: 406_level_1,Unnamed: 407_level_1,Unnamed: 408_level_1,Unnamed: 409_level_1,Unnamed: 410_level_1,Unnamed: 411_level_1,Unnamed: 412_level_1,Unnamed: 413_level_1,Unnamed: 414_level_1,Unnamed: 415_level_1,Unnamed: 416_level_1,Unnamed: 417_level_1,Unnamed: 418_level_1,Unnamed: 419_level_1,Unnamed: 420_level_1,Unnamed: 421_level_1,Unnamed: 422_level_1,Unnamed: 423_level_1,Unnamed: 424_level_1,Unnamed: 425_level_1,Unnamed: 426_level_1,Unnamed: 427_level_1,Unnamed: 428_level_1,Unnamed: 429_level_1,Unnamed: 430_level_1,Unnamed: 431_level_1,Unnamed: 432_level_1,Unnamed: 433_level_1,Unnamed: 434_level_1,Unnamed: 435_level_1,Unnamed: 436_level_1,Unnamed: 437_level_1,Unnamed: 438_level_1,Unnamed: 439_level_1,Unnamed: 440_level_1,Unnamed: 441_level_1,Unnamed: 442_level_1,Unnamed: 443_level_1,Unnamed: 444_level_1,Unnamed: 445_level_1,Unnamed: 446_level_1,Unnamed: 447_level_1,Unnamed: 448_level_1,Unnamed: 449_level_1,Unnamed: 450_level_1,Unnamed: 451_level_1,Unnamed: 452_level_1,Unnamed: 453_level_1,Unnamed: 454_level_1,Unnamed: 455_level_1,Unnamed: 456_level_1,Unnamed: 457_level_1,Unnamed: 458_level_1,Unnamed: 459_level_1,Unnamed: 460_level_1,Unnamed: 461_level_1,Unnamed: 462_level_1,Unnamed: 463_level_1,Unnamed: 464_level_1,Unnamed: 465_level_1,Unnamed: 466_level_1,Unnamed: 467_level_1,Unnamed: 468_level_1,Unnamed: 469_level_1,Unnamed: 470_level_1,Unnamed: 471_level_1
GM0893,2019,2019,Hulp bij het huishouden,455.0,35.0,,13140,,1.7,2.2,1.0,1.0,160.0,,1060.0,127.0,200.0,12.0,88.0,,1560,0.0,7,95,5957,Bergen (L.),1940.0,3810.0,2990.0,2560.0,2890.0,3180.0,4240.0,830.0,1660.0,1210.0,1120.0,1120.0,1400.0,1990.0,,1520.0,2.3,3440.0,218.0,,,898,,235.0,65.0,,,1998,,,5621,2063,29.0,5.0,24.0,250.0,1753,1462,,,2515,,,4345,3065,90.0,71.0,6575,33,5.0,,.,175.0,725,20,71.0,358,315.0,5421,1790.0,3190.0,5130.0,10324,10850,525,286,97.0,93.0,8.4,7.0,3.0,84.0,,16.0,,6255,,76.0,1545,1.4,7805,630.0,2790.0,180.0,180.0,140.0,1.4,12,152,17,,2,,864,6565,1685,5723,3475.0,6940.0,3490.0,360.0,1435.0,1080.0,505.0,1000.0,465.0,8805.0,17525.0,8710.0,6795.0,13615.0,6825.0,350.0,705.0,345.0,27350.0,54770.0,27390.0,7410.0,14255.0,6820.0,27700.0,55475.0,27735.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,1.0,0.0,64.0,105.0,18.0,33.0,172.0,15.0,0.0,840.0,1373.0,241.0,433.0,2257.0
GM1773,2017,2017,Hulp bij het huishouden,405.0,23.0,14200.0,17957,61.8,1.9,1.6,1.6,1.0,280.0,,1465.0,158.0,200.0,14.0,86.0,,1998,2.0,7,138,8102,Olst-Wijhe,1900.0,3520.0,2850.0,2240.0,2720.0,3390.0,3880.0,780.0,1730.0,1410.0,1160.0,1270.0,1590.0,2120.0,,1550.0,2.4,3140.0,223.0,29.9,24.2,1034,2.0,305.0,90.0,4.8,5.0,2785,,,7367,2584,32.0,9.0,23.0,,2914,2106,22.5,17.7,3613,31.5,39.5,5682,3642,125.0,67.0,9071,16,5.0,,.,285.0,985,39,,576,455.0,7818,,,,11399,11837,438,341,96.0,85.0,,15.0,4.0,,,,7170.0,7310,2090.0,81.0,1950,1.3,9260,810.0,3480.0,220.0,340.0,180.0,4.3,10,186,32,2.0,148,3.0,1003,8886,797,7529,8505.0,17770.0,9295.0,975.0,3845.0,2840.0,955.0,1925.0,860.0,22465.0,44695.0,22240.0,20305.0,40710.0,20410.0,1720.0,3700.0,2020.0,76975.0,152925.0,75815.0,23770.0,43980.0,20170.0,78695.0,156625.0,77835.0,4.3,0.3,1.5,1.2,1.3,6.8,0.5,0.5,1.4,2.1,10.5,1.9,,1.6,1.6,,1.1,1.0,1.0,4.7,4.8,,2.3,14.0,9.1,,,,4.4,280.0,0.1,1.0,3580.0,800.0,1281.0,,,,1080.0,1465.0,166.0,460.0,158.0,66.0,3.7,200.0,1.3,26.0,250.0,10.0,220.0,113.0,6.3,4.38,62.6,,,,49.3,31.3,51.1,68.7,41.4,267.4,30.8,24.4,116.5,0.0,23.0,AM06,AR06,CR11,CP1100,CS110,GG1009,JZ07,KK43,LB2304,LG04,LD02,PV23,RE02,,RT12,TR11,VR04,ZK14,458.0,0.0,1998.0,27.1,1.5,62.0,110.0,138.0,-48.0,-2.7,7.7,53.9,8102.0,2969.0,323.0,,17990.0,2.39,220.0,6.9,1034.0,3092.0,305.0,1.9,40.0,35.6,40.1,16.2,73.0,90.0,432.0,59.0,970.0,2785.0,37.8,2584.0,35.1,31.8,13927.0,64.0,15043.0,18023.0,825.0,4.6,1146.0,6.4,1183.0,6.6,923.0,5.1,3613.0,20.1,5682.0,31.6,943.0,5.3,2758.0,15.4,884.0,4.9,371.0,0.0,255900.0,22.0,125.0,0.0,66.7,GM1773,113.99,9071.0,16.0,0.1,0.0,209.0,2.0,0.1,285.0,986.0,55.0,Stedendriehoek en Noordwest Veluwe ...,Overijssel ...,Zuidwest-Overijssel ...,Zuidwest-Overijssel ...,Zuidwest-Overijssel ...,GGD IJsselland ...,IJsselland ...,Oost ...,Salland ...,Oostelijk Veehouderijgebied ...,Oost-Nederland ...,Overijssel ...,Oost-Nederland ...,...,Gerechtshof Arnhem-Leeuwarden ...,"Twente, Salland en Vechtstreek ...",IJsselland ...,Midden-IJssel ...,4.0,16584.0,92.4,8920.0,298.0,74.0,52.0,455.0,32.6,7818.0,1078.0,1.6,33.0,47.0,3082.0,341.0,1.9,0.0,298.0,7.3,44.2,29.7,82.79999999999998,86.0,9261.0,8933.0,497.0,516.0,29.0,,,,0.0,180.0,21866.0,11.2,1252.0,,,,0.0,0.0,0.0,186.0,10.3,0.0,349.0,32.0,0.2,103.0,11.8,4.8,7367.0,8831.0,1373.0,7.6,576.0,3.2,17957.0,75.7,118.37,772902.0,351.0,1330.0,0.0,1.0,148.0,0.8,36.3,24.6,17.0,23.4,23.4,23.0,62.0,32.9,92.3,43.7,32.0,148.3,4910.0,12.0,3580.0,72504.0,8.0,98.3,,,,411.0,795.0,6.7,1003.0,908.0,1550.0,39.0,0.2,7529.0,1126.0,258.0,8886.0,350.0,230.0,4.38,9030.0,300.0,797.0,4.4,70.0,140.0,12.0,6.0,52.1,33.8,167.1,27.2,20.9,6.8,66.0,1592.0,0.0,20.0,55.0,3.0,0.0,63.0,94.0,17.0,4.0,229.0,58.0,0.0,1138.0,1684.0,306.0,71.0,4109.0
GM0638,2017,2017,Hulp bij het huishouden,110.0,13.0,6500.0,8367,64.5,0.8,0.7,0.7,0.7,60.0,,840.0,394.0,165.0,13.0,87.0,,927,2.0,7,65,3650,Zoeterwoude,2280.0,3190.0,3150.0,2430.0,3050.0,3350.0,3770.0,760.0,1390.0,1460.0,1000.0,1190.0,1760.0,2110.0,,1260.0,2.4,3090.0,271.0,34.6,28.0,486,2.0,185.0,70.0,2.9,3.3,1308,,,3370,1135,26.0,8.0,18.0,,1302,1005,30.2,23.2,1724,25.1,35.4,2671,1665,100.0,72.0,4146,36,4.0,,.,185.0,440,32,,454,738.0,3813,,,,2126,2196,70,248,95.0,76.0,,24.0,5.0,,,,2735.0,3375,1200.0,185.0,560,1.2,3935,440.0,1590.0,70.0,140.0,80.0,4.0,9,78,85,2.0,53,3.0,418,4221,535,3527,4020.0,9195.0,5170.0,530.0,2085.0,1500.0,355.0,660.0,300.0,11345.0,22650.0,11250.0,10765.0,21580.0,10820.0,2445.0,4230.0,1840.0,38715.0,78905.0,40130.0,11700.0,22735.0,11090.0,41160.0,83135.0,41970.0,4.0,4.7,2.2,2.4,6.3,7.0,2.9,3.1,9.7,1.5,4.9,0.8,,0.7,0.7,,1.0,0.6,0.7,3.7,3.5,,4.1,5.6,3.9,,,,4.4,60.0,0.1,1.0,1620.0,430.0,616.0,,,,843.0,840.0,70.0,184.0,394.0,63.0,7.5,165.0,1.8,26.0,80.0,0.0,70.0,79.0,9.4,0.7,84.79999999999998,,,,54.8,35.0,91.8,70.2,43.5,204.3,36.7,29.3,234.8,0.0,20.0,AM19,AR07,CR25,CP2500,CS250,GG4506,JZ18,KK45,LB2804,LG07,LD03,PV28,RE06,,RT13,TR17,VR16,ZK28,83.0,0.0,927.0,27.5,2.2,30.0,81.0,65.0,-13.0,-1.5,7.7,51.7,3650.0,216.0,58.0,,8398.5,2.37,271.0,6.9,486.0,783.0,185.0,3.6,52.0,34.3,38.0,2.7,226.0,70.0,194.0,41.0,654.0,1308.0,38.8,1135.0,33.7,25.7,20758.0,27.0,7065.0,8430.0,359.0,4.3,510.0,6.1,543.0,6.5,462.0,5.5,1724.0,20.6,2671.0,31.9,433.0,5.2,1288.0,15.4,377.0,4.5,366.0,0.0,0.0,8.0,100.0,0.0,72.09999999999998,GM0638,21.26,4146.0,36.0,0.4,90.0,72.0,-3.0,-0.4,185.0,440.0,53.0,Holland Rijnland ...,Den Haag ...,Agglomeratie Leiden en Bollenstreek ...,Agglomeratie Leiden en Bollenstreek ...,Agglomeratie Leiden en Bollenstreek ...,GGD Hollands-Midden ...,Holland Rijnland ...,Zuidwest ...,Westelijk Rijnland ...,Westelijk Holland ...,West-Nederland ...,Zuid-Holland ...,Den Haag ...,...,Gerechtshof Den Haag ...,Overig Nederland ...,Hollands-Midden ...,Zuid-Holland Noord ...,4.2,7378.0,88.2,1430.0,464.0,46.0,32.0,738.0,35.5,3813.0,464.0,1.5,21.0,24.0,,248.0,3.0,0.0,21.0,3.3,50.1,33.9,146.1,118.0,3937.0,3652.0,436.0,471.0,5.0,,,,3.0,80.0,3865.0,-9.6,2634.0,,,,0.0,0.0,0.0,78.0,9.3,900.0,282.0,85.0,1.0,71.0,2.6,6.9,3370.0,3421.0,989.0,11.8,454.0,5.4,8367.0,72.29999999999998,21.96,166297.0,66.0,630.0,0.1,1.3,53.0,0.6,39.2,26.6,50.2,28.0,28.1,90.2,69.7,37.2,115.0,50.0,36.6,232.5,2250.0,5.0,1630.0,316.0,1.0,98.8,,,,236.0,405.0,5.9,418.0,484.0,991.0,32.0,0.4,3527.0,502.0,108.0,4221.0,290.0,70.0,0.7,5950.0,120.0,535.0,6.4,75.0,60.0,7.0,14.0,57.0,37.9,216.7,29.4,22.1,8.2,166.0,924.0,0.0,5.0,12.0,1.0,82.0,71.0,121.0,17.0,0.0,431.0,5.0,685.0,591.0,1011.0,144.0,0.0,3609.0
GM0613,2018,2018,Hulp bij het huishouden,250.0,10.0,19000.0,25218,,0.9,0.8,0.7,0.8,35.0,,2005.0,1163.0,245.0,36.0,64.0,,2604,1.0,8,209,10992,Albrandswaard,2000.0,3490.0,3180.0,2210.0,3030.0,3770.0,4620.0,710.0,1360.0,1380.0,990.0,1130.0,1640.0,2210.0,,1260.0,2.4,3110.0,266.0,40.0,31.0,1798,6.0,335.0,270.0,3.9,3.9,4422,,,10123,3097,31.0,6.0,26.0,455.0,4655,2749,34.3,31.5,5794,25.8,32.4,7807,4213,295.0,68.0,12499,266,3.0,,.,600.0,960,290,72.0,3165,1022.0,11370,,,,2169,2376,207,1083,96.0,81.0,6.5,19.0,4.0,86.0,,14.0,,10615,,572.0,1780,1.2,12400,750.0,3940.0,330.0,380.0,230.0,7.1,8,191,1070,4.0,456,4.0,1058,12719,1930,10333,7965.0,18780.0,10865.0,990.0,5250.0,4235.0,620.0,1415.0,815.0,20725.0,41165.0,20465.0,22365.0,44845.0,22430.0,820.0,1780.0,940.0,77370.0,158615.0,81265.0,24705.0,47160.0,22455.0,78190.0,160395.0,82205.0,7.1,4.1,4.9,6.0,12.7,9.5,1.8,4.7,11.5,3.9,7.1,0.9,7.3,0.8,0.7,,1.6,0.9,0.8,3.9,3.7,,8.9,6.3,2.7,,,,68.5,35.0,0.0,0.0,4040.0,740.0,2503.0,,,,1075.0,2005.0,126.0,573.0,1163.0,53.0,2.1,245.0,0.4,5.0,390.0,30.0,300.0,12.0,0.5,2.07,20.3,,,,59.3,37.8,62.1,,,246.1,33.5,26.8,78.0,0.0,26.0,AM22,AR08,CR29,CP2910,CS291,GG4607,JZ29,KK45,LB2802,LG07,LD03,PV28,RE07,RA0919,RT13,TR04,VR17,ZK29,4.0,0.0,2604.0,25.7,0.9,80.0,11.0,209.0,18.0,0.7,8.3,53.5,10992.0,1.0,147.0,,25244.5,2.43,266.0,8.7,1798.0,2182.0,335.0,6.3,66.0,28.6,42.4,2.9,534.0,270.0,592.0,65.0,4956.0,4422.0,43.7,3097.0,30.6,31.2,1832.0,104.0,20563.0,25271.0,1342.0,5.3,1694.0,6.7,1603.0,6.4,1146.0,4.5,5794.0,23.0,7807.0,31.0,1619.0,6.4,3259.0,12.9,954.0,3.8,,0.0,0.0,11.0,295.0,0.0,68.0,GM0613,21.69,12499.0,266.0,1.1,13650.0,220.0,24.0,1.0,600.0,961.0,38.0,Rijnmond ...,Rotterdam ...,Groot-Rijnmond ...,Rijnmond ...,Rijnmond ...,GGD Rotterdam-Rijnmond ...,Rijnmond ...,Zuidwest ...,Rotterdam en omgeving ...,Westelijk Holland ...,West-Nederland ...,Zuid-Holland ...,Rotterdam ...,Rijnmond ...,Gerechtshof Den Haag ...,Deltagebied ...,Rotterdam-Rijnmond ...,Zuid-Hollandse Eilanden ...,0.0,20123.0,79.79999999999998,860.0,440.0,22.0,65.0,1022.0,32.7,11370.0,1221.0,2.7,29.0,58.0,,1082.0,4.3,0.0,104.0,10.1,52.9,35.3,75.4,68.0,12398.0,11501.0,456.0,492.0,4.0,,,,5.0,230.0,189.0,1.4,258.0,,,,0.0,0.0,0.0,191.0,7.6,270.0,37.0,1070.0,4.2,35.0,1.7,9.4,10123.0,12369.0,5095.0,20.2,3165.0,12.6,25218.0,71.0,23.76,76444.0,157.0,1450.0,0.3,6.3,456.0,1.8,,,14.9,27.9,27.9,28.5,73.79999999999998,39.8,92.7,52.6,38.5,136.5,5490.0,14.0,4050.0,17.0,0.0,73.4,,,,471.0,1268.0,5.1,1058.0,1280.0,1718.0,291.0,1.2,10333.0,1666.0,303.0,12719.0,250.0,200.0,2.07,10430.0,320.0,1930.0,7.7,211.0,190.0,7.0,19.0,63.0,40.7,153.9,29.7,22.8,5.8,476.0,2717.0,0.0,15.0,39.0,10.0,0.0,91.0,115.0,21.0,0.0,247.0,257.0,0.0,2286.0,2894.0,539.0,0.0,6221.0
GM0352,2018,2018,Hulp bij het huishouden,465.0,20.0,19000.0,23678,,0.8,0.6,0.8,0.7,135.0,,2260.0,497.0,410.0,13.0,87.0,,2663,1.0,9,221,10641,Wijk bij Duurstede,2350.0,3480.0,3260.0,2510.0,3120.0,3560.0,4500.0,840.0,1480.0,1430.0,1100.0,1230.0,1770.0,2470.0,,1370.0,2.4,3190.0,260.0,34.4,27.9,1784,3.0,385.0,155.0,3.5,4.1,3855,,,9909,3391,32.0,8.0,24.0,600.0,3919,2746,27.3,22.9,4921,26.9,34.7,7706,4386,235.0,68.0,11671,234,3.0,,.,670.0,1130,114,72.0,1229,1124.0,10197,,,,4762,5040,278,696,97.0,83.0,9.6,17.0,3.0,83.0,,17.0,,10105,,253.0,1940,1.2,12045,850.0,4070.0,290.0,370.0,270.0,6.3,8,193,147,1.0,38,2.0,1056,12007,1513,9979,6985.0,16455.0,9470.0,1080.0,4430.0,3420.0,880.0,1895.0,1015.0,19720.0,39650.0,19915.0,18005.0,36220.0,18160.0,370.0,1285.0,900.0,67460.0,137730.0,70260.0,20790.0,39080.0,18280.0,67830.0,139015.0,71160.0,6.3,0.0,4.3,4.3,5.3,13.4,1.0,1.1,4.5,1.1,14.5,0.8,13.6,0.6,0.8,,1.6,0.8,0.7,1.8,1.7,,10.6,14.7,8.3,,,,3.1,135.0,0.2,3.0,4230.0,820.0,1990.0,,,,1304.0,2260.0,200.0,573.0,497.0,84.0,3.5,410.0,0.5,9.0,340.0,30.0,300.0,46.0,1.9,2.78,56.4,,,,54.1,34.8,65.0,,,241.6,33.7,27.0,129.6,0.0,18.0,AM13,AR04,CR17,CP1704,CS170,GG2514,JZ23,KK41,LB2601,LG10,LD03,PV26,RE03,RA0512,RT12,TR17,VR09,ZK23,129.0,0.0,2663.0,26.9,0.6,59.0,88.0,221.0,28.0,1.2,9.3,53.9,10641.0,1768.0,181.0,,23720.0,2.37,260.0,9.0,1784.0,2773.0,385.0,3.8,63.0,31.9,40.1,11.2,956.0,155.0,484.0,54.0,3312.0,3855.0,38.9,3391.0,34.2,31.5,19922.0,69.0,19759.0,23762.0,1234.0,5.2,1418.0,6.0,1603.0,6.8,1143.0,4.8,4921.0,20.8,7706.0,32.5,1267.0,5.4,3583.0,15.1,803.0,3.4,,0.0,49865.0,24.0,235.0,0.0,67.9,GM0352,47.62,11671.0,234.0,1.0,10180.0,246.0,10.0,0.4,670.0,1129.0,48.0,Midden-Utrecht ...,Midden-Nederland ...,Utrecht ...,Zuidoost-Utrecht ...,Utrecht ...,GGD Regio Utrecht ...,Zuidoost Utrecht ...,Noordwest ...,Kromme Rijn-streek en Heuvelrug ...,Rivierengebied ...,West-Nederland ...,Utrecht ...,Midden-Nederland ...,Utrecht en omgeving ...,Gerechtshof Arnhem-Leeuwarden ...,Overig Nederland ...,Utrecht ...,Utrecht ...,8.0,20936.0,88.4,5900.0,309.0,23.0,72.0,1124.0,31.8,10197.0,1360.0,1.5,25.0,59.0,3613.0,695.0,2.9,0.0,66.0,9.9,48.9,33.1,95.1,52.0,12047.0,11708.0,494.0,509.0,14.0,,,,0.0,270.0,6267.0,-1.1,1139.0,,,,0.0,86.0,0.0,193.0,8.1,5440.0,287.0,147.0,0.6,143.0,7.7,6.0,9909.0,12767.0,2742.0,11.6,1229.0,5.2,23678.0,72.0,50.4,298796.0,195.0,1450.0,0.0,13.5,38.0,0.2,,,23.9,26.6,26.7,28.8,67.4,36.1,95.5,49.8,36.4,179.0,5680.0,4.0,4230.0,4067.0,5.0,80.59999999999998,,,,586.0,839.0,5.3,1056.0,885.0,1229.0,115.0,0.5,9979.0,1393.0,303.0,12007.0,180.0,310.0,2.78,2170.0,320.0,1513.0,6.4,162.0,200.0,4.0,12.0,57.4,37.8,182.3,28.6,22.0,5.3,210.0,2520.0,0.0,16.0,42.0,6.0,46.0,80.0,100.0,21.0,1.0,212.0,141.0,1100.0,1895.0,2379.0,505.0,32.0,5019.0


# Preprocess --> Create test sets
This step will transform (select columns, impute, scale) the dataframe to be used in train/predict. 

In [5]:
# %%time 
# df_preprocessed = preprocess_data(df=df_get_data_WMO, save_all=True)

# print(f"The shape of the dataframe from step 'Preprocess': {df_preprocessed.shape}")
# df_preprocessed.sample(5)

In [6]:
# # For testing train
datapath = '../../data/'
# filename = 'df_preprocessed_202104042151_All.parquet.gzip'
filename = 'df_preprocessed_202104042151_Boerenverstand_Maikel.parquet.gzip'
# filename = 'df_preprocessed_202104042151_Minimum_Maikel.parquet.gzip'
# filename = 'df_preprocessed_202104042151_No_Relative.parquet.gzip'
df_preprocessed = pd.read_parquet(datapath + filename)
input_filename = filename

In [19]:
df_preprocessed.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,wmoclienten,wmoclientenper1000inwoners,aantalinwoners,gemiddeldehuishoudensgrootte,gescheiden,verweduwd,alleenstaande_mannen,alleenstaande_vrouwen,ouder_in_eenouderhuishouden_mannen,ouder_in_eenouderhuishouden_vrouwen,popaantalrestaurantsbinnen3km,popafstandtothuisartsenpraktijk,poparbeidsongeschiktheidtotaal,popbevolkingsdichtheid,popeenpersoonshuishoudensrelatief,popk65tot80jaarrelatieveleeftijdsgroep,popk80jaarofouderrelatieveleeftijdsgroep,popomgevingsadressendichtheid,poppersonenautosrelatief,popwerkloosheid,relative_mannen,relative_vrouwen,relative_alleenstaande_mannen,relative_alleenstaande_vrouwen,relative_gescheiden,relative_ongehuwd,relative_ouder_in_eenouderhuishouden_vrouwen,relative_ouder_in_eenouderhuishouden_mannen,relative_eenpersoonshuishoudens,relative_huishoudenszonderkinderen,relative_huishoudensmetkinderen,relative_popaantalrestaurantsbinnen3km,relative_popafstandtothuisartsenpraktijk,relative_poparbeidsongeschiktheidtotaal,relative_popbevolkingsdichtheid,relative_popk65tot80jaarrelatieveleeftijdsgroep,relative_popk80jaarofouderrelatieveleeftijdsgroep,relative_popomgevingsadressendichtheid,relative_popsterkstedelijk,relative_popmatigstedelijk,relative_popweinigstedelijk,relative_popnietstedelijk,relative_poptotaleoppervlakte
codering_regio,interval,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1
GM1680,2019,280.0,11.0,0.028367823505597,0.352941176470588,0.023919649339823,0.056821469907407,0.002698602712018,0.00347658652689,0.007500604887491,0.003295025315438,0.010270149586961,0.833333333333333,0.031405928969768,0.012152166255724,0.238663484486873,0.908450704225352,0.602941176470588,0.025307912940779,0.296404275996113,0.01895135818067,0.498660679114473,0.501339320885527,0.107736547703459,0.13511384227527,0.072638462144489,0.397699519420153,0.033483022138186,0.01221145513275,0.291786226685796,0.388809182209469,0.319404591104735,0.000200898132829,9.4540297802e-05,0.04293705191838,0.003624044749074,0.000791774994091,0.00023241156543,0.011029701410226,0.0,0.0,0.163082013708343,0.83707555345466,0.010985188686678
GM0197,2019,1080.0,40.0,0.030252902151078,0.411764705882353,0.01933471374405,0.05931712962963,0.011408433262471,0.01349450431899,0.026010162109848,0.012979185083983,0.014958696137531,0.375,0.032873495744056,0.045262416343783,0.248210023866348,0.669014084507042,0.529411764705882,0.110005061582588,0.245869776482021,0.013897662665824,0.501980674540002,0.498019325459998,0.413720336159343,0.47369590166969,0.055643996890156,0.444004294546666,0.12069157010107,0.039798600570138,0.295639968418282,0.345556627774366,0.358803403807352,0.000266558068935,4.8128540224e-05,0.042205027581356,0.010366147125245,0.000618266632113,0.000199918551701,0.028951168042649,0.033689978157047,0.316167487319981,0.358742734441524,0.292103217207804,0.003592980637518
GM0059,2019,900.0,32.0,0.031228502853139,0.470588235294118,0.023449054777207,0.054904513888889,0.00351901921529,0.003546118257428,0.009920154851198,0.004862171502049,0.006251395400759,0.5,0.033754035808629,0.043853469531525,0.260143198090692,0.570422535211268,0.367647058823529,0.050109667622743,0.254616132167153,0.027795325331649,0.50865287950596,0.49134712049404,0.126741347120494,0.125484704868591,0.064950452391211,0.45264253913543,0.044521039781703,0.014720666379434,0.301442348724076,0.314585644789622,0.383972006486302,0.000118483412322,5.7446502944e-05,0.042007755277897,0.009765905500503,0.000549332184403,0.000154387476662,0.015331035473216,0.0,0.0,0.438388625592417,0.561539566278903,0.003733304610082
GM0482,2019,590.0,29.0,0.022199846177583,0.470588235294118,0.016027106246807,0.038628472222222,0.009024581535985,0.012793838418955,0.021292039680619,0.015912561279434,0.021656619781201,0.166666666666667,0.020252421485178,0.398555829517436,0.255369928400955,0.514084507042254,0.514705882352941,0.233170237894382,0.177842565597668,0.011370814908402,0.490956201106184,0.509043798893816,0.441726045144252,0.604913049977577,0.062633913000149,0.435098908764762,0.198814091384723,0.043848721909413,0.299044819985305,0.306392358559882,0.394562821454813,0.000508246549405,3.9862474463e-05,0.035377946086003,0.113907020778315,0.000722507349644,0.000264088893318,0.075340076735263,0.56704369923763,0.244157656086502,0.178882854153172,0.010463899546564,0.000501270616374
GM0613,2019,480.0,19.0,0.028234417939916,0.470588235294118,0.023838975986232,0.038158275462963,0.008064849022724,0.011750862460888,0.022743769658843,0.017077875110504,0.019870506809556,0.208333333333333,0.021132961549751,0.201127157449806,0.164677804295943,0.422535211267606,0.308823529411765,0.150497722287835,0.21865889212828,0.018319646241314,0.495350401646156,0.504649598353844,0.313996280321317,0.441810771239761,0.072731589569071,0.45103082584781,0.169364093229393,0.037196786830755,0.26139489194499,0.304223968565815,0.434381139489194,0.000371967868308,3.5613944838e-05,0.029282576866764,0.046100273040244,0.000522337857623,0.000154327094298,0.040441612915991,0.010684183451387,0.540540540540541,0.415496023109493,0.033635392346959,0.000940208143722


In [7]:
df = df_preprocessed.copy()

# Train

## Train model

#### Stappen hieronder mogelijk verplaatsten naar prepare stap, later beoordelen

In [8]:
# checken of er rijen in het dataframe zitten waarbij de Y_value leeg is. Die rijen worden eruit gehaald.
drop_nan_from_specific_columns(df,Y_VALUE)

In [9]:
# X en y aanmaken
X = df.drop(X_DROP_VALUES, axis=1)
y = df[Y_VALUE]
# splitsen van X en y in train/test. 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = TEST_SIZE, random_state = RANDOM_STATE)

## Gridsearch

In [10]:
# pipeline maken om in de grid search te kunnen gebruiken
pl_gs_total = Pipeline([('clf', LinearRegression())]) # Placeholder Estimator
    
# param grid waarin alle classifiers + hyper parameters kunnen worden opgenomen. 
# hier classifiers (modellen) + parameters toevoegen
param_grid_total = [{'clf': [LinearRegression()], 
                     'clf__normalize': NORMALIZE,},
                    
                    {'clf': [Ridge()],  
                     'clf__alpha': ALPHA},
                    
                    {'clf': [Lasso()], 
                     'clf__alpha': ALPHA},
                   
                    {'clf': [KNeighborsRegressor()],  
                     'clf__n_neighbors': NEIGHBORS},
                     
                  # {'clf': [SVR()], 
                  #  'clf__kernel': KERNEL,
                  #  'clf__C': C_REGULARIZATION},
                    
                   {'clf': [XGBRegressor()],  
                    'clf__gamma': GAMMA,
                    'clf__n_estimators': N_ESTIMATORS},                   
                   ]
    
# grid search aanmaken
grid_search_total = GridSearchCV(pl_gs_total, param_grid_total, cv=CROSS_VALIDATE,
                           scoring=MODEL_SCORING,
                           return_train_score=True)

In [11]:
%%time
#grid search uitvoeren
grid_search_total.fit(X_train, y_train)

  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(


CPU times: user 1min 53s, sys: 1.17 s, total: 1min 54s
Wall time: 14.8 s


GridSearchCV(cv=5, estimator=Pipeline(steps=[('clf', LinearRegression())]),
             param_grid=[{'clf': [LinearRegression()],
                          'clf__normalize': [True, False]},
                         {'clf': [Ridge()],
                          'clf__alpha': [0.001, 0.01, 0.1, 1, 10, 100, 1000]},
                         {'clf': [Lasso()],
                          'clf__alpha': [0.001, 0.01, 0.1, 1, 10, 100, 1000]},
                         {'clf': [KNeighborsRegressor()],
                          'clf__n_neighbors': [3, 5, 11, 19]},
                         {'clf': [XGBRegresso...
                                               missing=nan,
                                               monotone_constraints=None,
                                               n_estimators=50, n_jobs=None,
                                               num_parallel_tree=None,
                                               random_state=None,
                                             

### Evaluate

In [12]:
# de best estimator uit de grid search halen (beste train score)
print(f"Het model met de beste train score is:\n{grid_search_total.best_estimator_['clf']}")
# de RMSE berekenen voor de best estimator
print(f"Dit model heeft een train score RMSE van {rmse_from_neg_mean_squared_error(grid_search_total.best_score_)}") 
print(f"Dit model heeft een test score RMSE van  {rmse_from_gridsearch_best_estimator(grid_search_total)}")

Het model met de beste train score is:
XGBRegressor(base_score=0.5, booster='gbtree', colsample_bylevel=1,
             colsample_bynode=1, colsample_bytree=1, gamma=2, gpu_id=-1,
             importance_type='gain', interaction_constraints='',
             learning_rate=0.300000012, max_delta_step=0, max_depth=6,
             min_child_weight=1, missing=nan, monotone_constraints='()',
             n_estimators=50, n_jobs=8, num_parallel_tree=1, random_state=0,
             reg_alpha=0, reg_lambda=1, scale_pos_weight=1, subsample=1,
             tree_method='exact', validate_parameters=1, verbosity=None)
Dit model heeft een train score RMSE van 5.4440744371876235
Dit model heeft een test score RMSE van  5.2714100899898275


### Save best model and best model properties

In [13]:
# opslaan van beste estimator vanuit de gridsearch naar een Pickle file
suffix_datetime = datetime.strftime(datetime.now(), format='%Y%m%d%H%M')
output_filename = f'../../data/best_model_{suffix_datetime}.pickle'
pickle.dump(grid_search_total.best_estimator_, open(output_filename, 'wb'))

In [14]:
# extra regel om tijdelijk een dummy bij input_filename te krijgen
# input_filename = 'Hier komt uiteindelijk de input_filename_locatie'
# dictionary maken van alle properties die van het beste model moeten worden opgeslagen
best_model_properties_dict = {"Model": [split_clf_and_params(grid_search_total.best_estimator_['clf'])[0]],
                        "Gridsearch_Params": [split_clf_and_params(grid_search_total.best_estimator_['clf'])[1]],
                        "Train_RMSE": [rmse_from_neg_mean_squared_error(grid_search_total.best_score_)],
                        "Test_RMSE": [rmse_from_gridsearch_best_estimator(grid_search_total)],
                        "Number_of_features": [len(X.columns)],
                        "Y_value": Y_VALUE,
                        "Input_filename": [input_filename],
                        "Output_filename": [output_filename],
                                     }
best_model_properties = pd.DataFrame(best_model_properties_dict)

In [15]:
best_model_properties

Unnamed: 0,Model,Gridsearch_Params,Train_RMSE,Test_RMSE,Number_of_features,Y_value,Input_filename,Output_filename
0,XGBRegressor,"base_score=0.5, booster='gbtree', colsample_by...",5.444074437187624,5.271410089989828,41,wmoclientenper1000inwoners,df_preprocessed_202104042151_Boerenverstand_Ma...,../../data/best_model_202104192018.pickle


In [16]:
# opslaan van beste model properties naar csv
best_model_properties.to_csv(f'../../data/log_train/best_model_properties_{suffix_datetime}.csv', index = False, header=True)

# Feature importance

In [17]:
feature_importances = grid_search_total.best_estimator_.named_steps["clf"].feature_importances_
important_attributes = sorted(zip(feature_importances, X_train.columns), reverse=True)
important_attributes[:40]

[(0.1931905, 'relative_huishoudensmetkinderen'),
 (0.103897125, 'relative_poparbeidsongeschiktheidtotaal'),
 (0.061789, 'relative_eenpersoonshuishoudens'),
 (0.04981223, 'popk80jaarofouderrelatieveleeftijdsgroep'),
 (0.029199164, 'relative_alleenstaande_vrouwen'),
 (0.027832935, 'ouder_in_eenouderhuishouden_vrouwen'),
 (0.027375886, 'relative_popnietstedelijk'),
 (0.026788916, 'relative_huishoudenszonderkinderen'),
 (0.025175598, 'relative_mannen'),
 (0.02457151, 'relative_popmatigstedelijk'),
 (0.024438309, 'relative_poptotaleoppervlakte'),
 (0.024085274, 'popafstandtothuisartsenpraktijk'),
 (0.022022355, 'relative_ouder_in_eenouderhuishouden_mannen'),
 (0.021079514, 'ouder_in_eenouderhuishouden_mannen'),
 (0.021029627, 'relative_popbevolkingsdichtheid'),
 (0.020642133, 'popbevolkingsdichtheid'),
 (0.020444486, 'popk65tot80jaarrelatieveleeftijdsgroep'),
 (0.019716877, 'relative_popomgevingsadressendichtheid'),
 (0.019303676, 'verweduwd'),
 (0.01772483, 'relative_gescheiden'),
 (0.0174

## Code voor combineren output CSV's voor visualisatie en vergelijking

In [59]:
# ## combineren van de verschillende best model properties csv's naar één dataframe
# all_filenames = list_filenames(settings.train['LOG_PATH'], filename_str_contains='.csv')
# combined_logging = pd.concat([pd.read_csv(f"{settings.train['LOG_PATH']}{f}") for f in all_filenames ])
# combined_logging

## Code voor testen pickle file & predict

In [34]:
# # pickle file inladen voor predict
# loaded_model = get_latest_file(output_filename_str_contains='best_model_', datapath=datapath, filetype='pickle')
# # hoe moet ik deze score interpreteren?
# result = loaded_model.score(X_test, y_test)
# print(result)
# loaded_model.predict(X_test)

In [35]:
# regel om te testen of opgeslagen pickle file overeen komt met model
#grid_search_total.best_estimator_.predict(X_test)

In [None]:
# dit is het beste model uit de grid search
#grid_search_total.best_estimator_