# Installing and importing Libraries

Loading and installing the CBS Open dataset

In [2]:
!pip install CBSOdata 


Collecting CBSOdata
  Downloading cbsodata-1.3.4-py3-none-any.whl (12 kB)
Installing collected packages: CBSOdata
Successfully installed CBSOdata-1.3.4


Imported Libraries

In [151]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import pickle
import cbsodata

# Downloading, merging and Cleaning the datasets

In [4]:
# Downloading table list
toc = pd.DataFrame(cbsodata.get_table_list())

# Downloading entire dataset region data(can take up to 30s)
data = pd.DataFrame(cbsodata.get_data('70072ned'))

# Downloading entire dataset  housing type data
data_woningen = pd.DataFrame(cbsodata.get_data('82900ned'))

# Downloading metadata
metadata = pd.DataFrame(cbsodata.get_meta('70072ned', 'DataProperties'))

In [7]:
data['KoppelvariabeleRegioCode_306'].isnull().sum()

8031

In [8]:
#dropping NaN data
data_gemeente = data.dropna(subset=['KoppelvariabeleRegioCode_306'])
data_gemeente = data_gemeente.dropna(subset=['Koopwoningen_94'])


0

In [11]:
#Containing only the important features
data_gemeente = data_gemeente.loc[:, ['ID',
 'RegioS',
 'Perioden',
 'TotaleBevolking_1',
 'Mannen_2',
 'Vrouwen_3',
 'JongerDan5Jaar_13',
 'k_5Tot10Jaar_14',
 'k_10Tot15Jaar_15',
 'k_15Tot20Jaar_16',
 'k_20Tot25Jaar_17',
 'k_25Tot45Jaar_18',
 'k_45Tot65Jaar_19',
 'k_65Tot80Jaar_20',
 'k_80JaarOfOuder_21',
 'TotaleDruk_22',
 'GroeneDruk_23',
 'GrijzeDruk_24',
 'Ongehuwd_25',
 'Gehuwd_26',
 'Gescheiden_27',
 'Verweduwd_28',
 'NederlandseAchtergrond_43',
 'TotaalMetMigratieachtergrond_44',
 'ZeerSterkStedelijk_52',
 'SterkStedelijk_53',
 'MatigStedelijk_54',
 'WeinigStedelijk_55',
 'NietStedelijk_56',
 'Bevolkingsdichtheid_57',
 'Geboorteoverschot_62',
 'GeboorteoverschotRelatief_63',
 'BinnenlandsMigratiesaldo_71',
 'BinnenlandsMigratiesaldoRelatief_72',
 'VerhuismobiliteitRelatief_73',
 'Migratiesaldo_76',
 'MigratiesaldoRelatief_77',
 'Bevolkingsgroei_79',
 'BevolkingsgroeiRelatief_80',
 'TotaalAantalParticuliereHuishoudens_82',
 'Eenpersoonshuishoudens_86',
 'HuishoudensZonderKinderen_87',
 'HuishoudensMetKinderen_88',
 'GemiddeldeHuishoudensgrootte_89',
 'VoorraadOp1Januari_90',
 'Nieuwbouwwoningen_91',
 'SaldoVermeerderingWoningenRelatief_92',
 'Woningdichtheid_93',
 'Koopwoningen_94',
 'Huurwoningen_95',
 'EigendomOnbekend_96',
 'GemiddeldeWoningwaarde_99',
 'VoortgezetOnderwijs_108',
 'MiddelbaarBeroepsonderwijs_109',
 'HogerBeroepsonderwijsBachelor_110',
 'WoMasterDoctoraal_111',
 'TotaalAantalBanen_112',
 'ALandbouwBosbouwEnVisserij_117',
 'BFNijverheidEnEnergie_118',
 'GNCommercieleDienstverlening_119',
 'OUNietCommercieleDienstverlening_120',
 'ParticuliereHuishoudensExclStudenten_121',
 'ParticuliereHuishoudensExclStudenten_122',
 'UitkeringsontvangersTotaal_152',
 'Werkloosheid_155',
 'TotaleOppervlakte_243',
 'Land_244',
 'WaterTotaal_245',
 'Omgevingsadressendichtheid_248',
 'Gemeenten_303',
 'KoppelvariabeleRegioCode_306']]

In [23]:
#Dataset with only total combined data
data_woningen = data_woningen[(data_woningen['StatusVanBewoning'] == "Totaal")]

Unnamed: 0,ID,StatusVanBewoning,RegioS,Perioden,TotaleWoningvoorraad_1,Koopwoningen_2,TotaalHuurwoningen_3,EigendomWoningcorporatie_4,EigendomOverigeVerhuurders_5,EigendomOnbekend_6
0,0,Totaal,Nederland,2012,7386743.0,4182889.0,3121980.0,2269883.0,852097.0,81874.0
1,1,Totaal,Nederland,2013,7449298.0,4216760.0,3171057.0,2277246.0,893811.0,61481.0
2,2,Totaal,Nederland,2014,7535315.0,4238259.0,3217156.0,2275389.0,941767.0,79900.0
3,3,Totaal,Nederland,2015,7587964.0,4266966.0,3244238.0,2304505.0,939733.0,76760.0
4,4,Totaal,Nederland,2016,7641323.0,4300406.0,3256930.0,2281742.0,975188.0,83987.0
...,...,...,...,...,...,...,...,...,...,...
5462,5462,Totaal,Zwolle,2018,56595.0,29621.0,26693.0,18832.0,7861.0,281.0
5463,5463,Totaal,Zwolle,2019,57730.0,30761.0,26886.0,19179.0,7707.0,83.0
5464,5464,Totaal,Zwolle,2020,58492.0,31046.0,27236.0,19226.0,8010.0,210.0
5465,5465,Totaal,Zwolle,2021,59491.0,31402.0,28006.0,19553.0,8453.0,83.0


In [167]:
#Merge the two datasets, creating one with housing type data
df = pd.merge(data_gemeente, data_woningen, on=['RegioS', 'Perioden'], how='left')


<class 'pandas.core.frame.DataFrame'>
Int64Index: 7787 entries, 0 to 7786
Data columns (total 79 columns):
 #   Column                                    Non-Null Count  Dtype  
---  ------                                    --------------  -----  
 0   ID_x                                      7787 non-null   int64  
 1   RegioS                                    7787 non-null   object 
 2   Perioden                                  7787 non-null   object 
 3   TotaleBevolking_1                         7787 non-null   float64
 4   Mannen_2                                  7787 non-null   float64
 5   Vrouwen_3                                 7787 non-null   float64
 6   JongerDan5Jaar_13                         7787 non-null   float64
 7   k_5Tot10Jaar_14                           7787 non-null   float64
 8   k_10Tot15Jaar_15                          7787 non-null   float64
 9   k_15Tot20Jaar_16                          7787 non-null   float64
 10  k_20Tot25Jaar_17                    

In [168]:
#creating percentages of the housing type data
df['pct_koopwoningen'] = round(df['Koopwoningen_2'] / df['TotaleWoningvoorraad_1'] * 100, 1)
df['pct_Totaalhuurwoningen'] = round(df['TotaalHuurwoningen_3'] / df['TotaleWoningvoorraad_1'] * 100, 1)
df['pct_HuurCorporatie'] = round(df['EigendomWoningcorporatie_4'] / df['TotaleWoningvoorraad_1'] * 100, 1)
df['pct_HuurOverig'] = round(df['EigendomOverigeVerhuurders_5'] / df['TotaleWoningvoorraad_1'] * 100, 1)

In [169]:
#creating combined housing type data
cols = ['pct_koopwoningen','pct_HuurCorporatie','pct_HuurOverig']

df['housing_type'] = df[cols].values.tolist()

df[['housing_type', 'Perioden', 'pct_koopwoningen', 'pct_Totaalhuurwoningen', 'pct_HuurCorporatie', 'pct_HuurOverig', 'RegioS']].head(20)

Unnamed: 0,housing_type,Perioden,pct_koopwoningen,pct_Totaalhuurwoningen,pct_HuurCorporatie,pct_HuurOverig,RegioS
0,"[nan, nan, nan]",2006,,,,,Nederland
1,"[nan, nan, nan]",2007,,,,,Nederland
2,"[nan, nan, nan]",2008,,,,,Nederland
3,"[nan, nan, nan]",2009,,,,,Nederland
4,"[nan, nan, nan]",2010,,,,,Nederland
5,"[nan, nan, nan]",2011,,,,,Nederland
6,"[56.6, 30.7, 11.5]",2012,56.6,42.3,30.7,11.5,Nederland
7,"[56.6, 30.6, 12.0]",2013,56.6,42.6,30.6,12.0,Nederland
8,"[56.2, 30.2, 12.5]",2014,56.2,42.7,30.2,12.5,Nederland
9,"[56.2, 30.4, 12.4]",2015,56.2,42.8,30.4,12.4,Nederland


In [170]:
# drop all NaN in housing type data
df = df.dropna(subset=['pct_koopwoningen'])

In [192]:
# only municipality data
df['koppelletter'] = df['KoppelvariabeleRegioCode_306'].astype(str).str[0:2]
df = df[(df['koppelletter'] == "GM")]
df.drop('koppelletter', inplace = True, axis =1)
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4184 entries, 975 to 7786
Data columns (total 84 columns):
 #   Column                                    Non-Null Count  Dtype  
---  ------                                    --------------  -----  
 0   ID_x                                      4184 non-null   int64  
 1   RegioS                                    4184 non-null   object 
 2   Perioden                                  4184 non-null   object 
 3   TotaleBevolking_1                         4184 non-null   float64
 4   Mannen_2                                  4184 non-null   float64
 5   Vrouwen_3                                 4184 non-null   float64
 6   JongerDan5Jaar_13                         4184 non-null   float64
 7   k_5Tot10Jaar_14                           4184 non-null   float64
 8   k_10Tot15Jaar_15                          4184 non-null   float64
 9   k_15Tot20Jaar_16                          4184 non-null   float64
 10  k_20Tot25Jaar_17                  

In [195]:
#creating lag data (Still finding a way to not include data from other regions)
tw_val = df[['Perioden', 'housing_type']]

new_df = pd.concat([tw_val['Perioden'], tw_val['housing_type'].shift(+1), tw_val['housing_type'].shift(+3), tw_val['housing_type'].shift(+5)], axis=1) 
new_df.columns = ['perioden','housingtype+1', 'housingtype+3', 'housingtype+5']

new_df['RegioS'] = df['RegioS']
new_df.head(30)


Unnamed: 0,perioden,housingtype+1,housingtype+3,housingtype+5,RegioS
975,2012,,,,Aa en Hunze
976,2013,"[67.1, 15.9, 9.9]",,,Aa en Hunze
977,2014,"[71.0, 17.8, 9.2]",,,Aa en Hunze
978,2015,"[70.7, 17.4, 10.4]","[67.1, 15.9, 9.9]",,Aa en Hunze
979,2016,"[70.6, 18.8, 9.4]","[71.0, 17.8, 9.2]",,Aa en Hunze
980,2017,"[71.1, 17.7, 9.7]","[70.7, 17.4, 10.4]","[67.1, 15.9, 9.9]",Aa en Hunze
981,2018,"[70.7, 17.6, 10.1]","[70.6, 18.8, 9.4]","[71.0, 17.8, 9.2]",Aa en Hunze
982,2019,"[73.1, 17.6, 7.8]","[71.1, 17.7, 9.7]","[70.7, 17.4, 10.4]",Aa en Hunze
983,2020,"[74.1, 19.8, 6.0]","[70.7, 17.6, 10.1]","[70.6, 18.8, 9.4]",Aa en Hunze
984,2021,"[74.6, 19.8, 5.5]","[73.1, 17.6, 7.8]","[71.1, 17.7, 9.7]",Aa en Hunze
