### 1. Import modules

In [1]:
import warnings
warnings.filterwarnings('ignore')

import pandas as pd

### 2. Import schoolgaanden to Pandas dataframe

In [2]:
# Import pickles
df_schoolgaanden = pd.read_pickle('4_Data\Pickles\schoolgaanden_observaties.pkl')

# Save only columns PersonNr and Postcode
df_schoolgaanden_buurt = df_schoolgaanden[['Clientnummer', 'CBS_Buurtcode_BRP']]

In [3]:
# Print missingness percentages in the data
print(df_schoolgaanden_buurt.isnull().mean())

Clientnummer         0.0
CBS_Buurtcode_BRP    0.0
dtype: float64


### 3. Import CBS .csv with socio-demographic variables

In [4]:
# Reading csv to pandas dataframe
input_file = '4_Data\Kerncijfers_wijken_en_buurten_2022_25062024_152855.csv'
cbs_buurten = pd.read_csv(input_file, delimiter=';')

In [5]:
cbs_buurten

Unnamed: 0,Wijken en buurten,Regioaanduiding/Codering (code),Bevolking/Aantal inwoners (aantal),Bevolking/Burgerlijke staat/Gehuwd (aantal),Bevolking/Burgerlijke staat/Gescheiden (aantal),Bevolking/Personen met een migratieachtergrond/Niet-westers/Marokko (aantal),Bevolking/Personen met een migratieachtergrond/Niet-westers/Nederlandse Antillen en Aruba (aantal),Bevolking/Personen met een migratieachtergrond/Niet-westers/Suriname (aantal),Bevolking/Personen met een migratieachtergrond/Niet-westers/Turkije (aantal),Bevolking/Personen met een migratieachtergrond/Niet-westers/Overig niet-westers (aantal),...,Inkomen/Inkomen van huishoudens/Huishoudens tot 110% van sociaal minimum (%),Inkomen/Inkomen van huishoudens/Huishoudens tot 120% van sociaal minimum (%),Inkomen/Inkomen van huishoudens/Mediaan vermogen van particuliere huish. (x 1 000 euro),Sociale zekerheid/Personen per soort uitkering; Bijstand (aantal),Sociale zekerheid/Personen per soort uitkering; AO (aantal),Sociale zekerheid/Personen per soort uitkering; WW (aantal),Sociale zekerheid/Personen per soort uitkering; AOW (aantal),Zorg/Jongeren met jeugdzorg in natura (aantal),Zorg/Percentage jongeren met jeugdzorg (%),Motorvoertuigen/Personenauto's/Personenauto's per huishouden (per huishouden)
0,Alphen-Chaam,GM1723,10425,4828,606,17,11,12,13,261,...,54,68,3834,70.0,280.0,50.0,2300.0,245.0,10,15
1,Alphen,WK172301,4315,2020,210,5,0,10,0,130,...,54,68,359,30.0,120.0,20.0,900.0,110.0,104,15
2,Noordwest Alphen,BU17230101,245,110,15,0,0,0,0,0,...,58,107,3454,0.0,10.0,0.0,50.0,,,2
3,Zuidoost Alphen,BU17230102,1175,595,60,5,0,5,0,55,...,82,101,3153,20.0,30.0,10.0,290.0,25.0,99,13
4,Zuidwest Alphen,BU17230103,785,355,45,5,0,0,0,45,...,73,88,2007,10.0,20.0,10.0,220.0,30.0,153,12
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
634,Verspreide huizen Achtmaal,BU08790309,995,515,35,0,0,0,0,5,...,43,46,5761,0.0,30.0,0.0,200.0,20.0,87,16
635,Wijk 04 Rijsbergen,WK087904,6760,2955,405,20,15,20,10,180,...,53,72,3772,70.0,330.0,50.0,1500.0,100.0,68,14
636,Rijsbergen,BU08790400,4320,1805,250,15,15,10,10,150,...,54,76,341,60.0,250.0,30.0,1020.0,65.0,68,13
637,Verspreide huizen in het Oosten,BU08790408,1255,560,105,0,5,5,0,20,...,71,95,3733,10.0,50.0,10.0,250.0,10.0,48,14


In [6]:
# Rename Regioaanduiding/Codering (code) to CBS_Buurtcode_BRP
cbs_buurten.rename(columns={'Regioaanduiding/Codering (code)': 'CBS_Buurtcode_BRP'}, inplace=True)

# From CBS_Buurtcode_BRP remove first two characters if they are 'BU'
cbs_buurten['CBS_Buurtcode_BRP'] = cbs_buurten['CBS_Buurtcode_BRP'].apply(lambda x: x[2:] if x[:2] == 'BU' else x)

# Merge
schoolgaanden_buurt = pd.merge(df_schoolgaanden_buurt, cbs_buurten, on='CBS_Buurtcode_BRP', how='left')

# Drop columns postcode and geometry
schoolgaanden_buurt = schoolgaanden_buurt.drop(columns=['CBS_Buurtcode_BRP', 'Wijken en buurten'])

# Set Clietnummer dtype to object
schoolgaanden_buurt['Clientnummer'] = schoolgaanden_buurt['Clientnummer'].astype('str')

# Print the amount of NaN values per column as percentages
print(schoolgaanden_buurt.isna().mean())

Clientnummer                                                                                          0.000000
Bevolking/Aantal inwoners (aantal)                                                                    0.000214
Bevolking/Burgerlijke staat/Gehuwd (aantal)                                                           0.000214
Bevolking/Burgerlijke staat/Gescheiden (aantal)                                                       0.000214
Bevolking/Personen met een migratieachtergrond/Niet-westers/Marokko (aantal)                          0.000214
Bevolking/Personen met een migratieachtergrond/Niet-westers/Nederlandse Antillen en Aruba (aantal)    0.000214
Bevolking/Personen met een migratieachtergrond/Niet-westers/Suriname (aantal)                         0.000214
Bevolking/Personen met een migratieachtergrond/Niet-westers/Turkije (aantal)                          0.000214
Bevolking/Personen met een migratieachtergrond/Niet-westers/Overig niet-westers (aantal)              0.000214
O

### 4. Save .pkl's

In [7]:
# Save as a pickle
schoolgaanden_buurt.to_pickle('4_Data\Pickles\schoolgaanden_buurt.pkl')