# Dogs owners dataset construction

On this page I will show you where I got data, how I collected, investigated and clean it.

There is a website called [Gronometer](https://groningen.buurtmonitor.nl/) where you can find a lot of open data about Groningen. This data is also available to download as datasets. I choosed some data from 2018 year available for different neighbourhoods and downloaded it to `Groningen_population_data_2018.csv` file




To collect the data I need, first let's read the data about dog's owner that we have. 
Then rename some columns and unify column `buurtcode` to has the same value format as other datasets (which we'll be use below)

In [1]:
import pandas as pd 

data_dogs=pd.read_csv('honden_data.csv', sep = ";")
data_dogs = data_dogs.rename(columns={'buurtnr': 'buurtcode'})
data_dogs = data_dogs.rename(columns={'2018': 'dogs_amount'})
data_dogs['buurtcode'] = data_dogs['buurtcode'].astype(str).str.replace('14', '')
data_dogs['buurtcode'] = data_dogs.apply(lambda row: "BU00" + str(row['buurtcode']), axis=1)
data_dogs = data_dogs.drop('2016', axis=1)

print(data_dogs.shape)
data_dogs.head()

(96, 2)


Unnamed: 0,buurtcode,dogs_amount
0,BU000000,37
1,BU000001,51
2,BU000002,48
3,BU000003,21
4,BU000005,108


Now I would like to read explore data from [Wijk- en buurtkaart 2022 dataset](https://www.cbs.nl/nl-nl/dossier/nederland-regionaal/geografische-data/wijk-en-buurtkaart-2022). I saved this data (without geometry) to `.csv` file.
Let's take a look at what data (and columns) we have here:

In [2]:
data_buurtkaart=pd.read_csv('data_from_wijkbuurtkaart.csv')
data_buurtkaart['buurtcode'] = data_buurtkaart['buurtcode'].astype(str).str.replace('BU0014', 'BU00')

print(data_buurtkaart.shape)
print(data_buurtkaart.columns)
data_buurtkaart.head()

(150, 41)
Index(['buurtcode', 'buurtnaam', 'wijkcode', 'gemeentecode', 'gemeentenaam',
       'indelingswijziging_wijken_en_buurten', 'water',
       'meest_voorkomende_postcode', 'dekkingspercentage',
       'omgevingsadressendichtheid', 'stedelijkheid_adressen_per_km2',
       'bevolkingsdichtheid_inwoners_per_km2', 'aantal_inwoners', 'mannen',
       'vrouwen', 'percentage_personen_0_tot_15_jaar',
       'percentage_personen_15_tot_25_jaar',
       'percentage_personen_25_tot_45_jaar',
       'percentage_personen_45_tot_65_jaar',
       'percentage_personen_65_jaar_en_ouder', 'percentage_ongehuwd',
       'percentage_gehuwd', 'percentage_gescheid', 'percentage_verweduwd',
       'aantal_huishoudens', 'percentage_eenpersoonshuishoudens',
       'percentage_huishoudens_zonder_kinderen',
       'percentage_huishoudens_met_kinderen', 'gemiddelde_huishoudsgrootte',
       'percentage_westerse_migratieachtergrond',
       'percentage_niet_westerse_migratieachtergrond',
       'percentage_

Unnamed: 0,buurtcode,buurtnaam,wijkcode,gemeentecode,gemeentenaam,indelingswijziging_wijken_en_buurten,water,meest_voorkomende_postcode,dekkingspercentage,omgevingsadressendichtheid,...,percentage_uit_marokko,percentage_uit_nederlandse_antillen_en_aruba,percentage_uit_suriname,percentage_uit_turkije,percentage_overige_nietwestersemigratieachtergrond,oppervlakte_totaal_in_ha,oppervlakte_land_in_ha,oppervlakte_water_in_ha,jrstatcode,jaar
0,BU000000,Binnenstad-Noord,WK001400,GM0014,Groningen,1,NEE,9712,1,6712,...,0,1,1,1,8,39,37,2,2022BU00140000,2022
1,BU001406,De Wierden,WK001414,GM0014,Groningen,1,NEE,9613,1,170,...,-99999999,-99999999,-99999999,-99999999,-99999999,59,52,7,2022BU00141406,2022
2,BU000103,Rivierenbuurt,WK001401,GM0014,Groningen,1,NEE,9725,1,4220,...,0,1,1,0,7,56,55,1,2022BU00140103,2022
3,BU001003,Zernike Campus,WK001410,GM0014,Groningen,1,NEE,9747,1,972,...,-99999999,-99999999,-99999999,-99999999,-99999999,202,187,15,2022BU00141003,2022
4,BU001701,Haren-Zuidwest,WK001417,GM0014,Groningen,1,NEE,9752,1,951,...,0,1,0,0,4,141,140,1,2022BU00141701,2022


We don't need some of the columns here:

In [3]:
data_buurtkaart.drop('gemeentecode', axis=1, inplace = True)
data_buurtkaart.drop('gemeentenaam', axis=1, inplace = True)
data_buurtkaart.drop('indelingswijziging_wijken_en_buurten', axis=1, inplace = True)
data_buurtkaart.drop('water', axis=1, inplace = True)
data_buurtkaart.drop('meest_voorkomende_postcode', axis=1, inplace = True)
data_buurtkaart.drop('dekkingspercentage', axis=1, inplace = True)
data_buurtkaart.drop('omgevingsadressendichtheid', axis=1, inplace = True)
data_buurtkaart.drop('stedelijkheid_adressen_per_km2', axis=1, inplace = True)
data_buurtkaart.drop('oppervlakte_totaal_in_ha', axis=1, inplace = True)
data_buurtkaart.drop('oppervlakte_land_in_ha', axis=1, inplace = True)
data_buurtkaart.drop('oppervlakte_water_in_ha', axis=1, inplace = True)
data_buurtkaart.drop('jrstatcode', axis=1, inplace = True)
data_buurtkaart.drop('jaar', axis=1, inplace = True)

print(data_buurtkaart.columns)

Index(['buurtcode', 'buurtnaam', 'wijkcode',
       'bevolkingsdichtheid_inwoners_per_km2', 'aantal_inwoners', 'mannen',
       'vrouwen', 'percentage_personen_0_tot_15_jaar',
       'percentage_personen_15_tot_25_jaar',
       'percentage_personen_25_tot_45_jaar',
       'percentage_personen_45_tot_65_jaar',
       'percentage_personen_65_jaar_en_ouder', 'percentage_ongehuwd',
       'percentage_gehuwd', 'percentage_gescheid', 'percentage_verweduwd',
       'aantal_huishoudens', 'percentage_eenpersoonshuishoudens',
       'percentage_huishoudens_zonder_kinderen',
       'percentage_huishoudens_met_kinderen', 'gemiddelde_huishoudsgrootte',
       'percentage_westerse_migratieachtergrond',
       'percentage_niet_westerse_migratieachtergrond',
       'percentage_uit_marokko',
       'percentage_uit_nederlandse_antillen_en_aruba',
       'percentage_uit_suriname', 'percentage_uit_turkije',
       'percentage_overige_nietwestersemigratieachtergrond'],
      dtype='object')


And now let's read the data I choosed and downloaded from [Gronometer](https://groningen.buurtmonitor.nl/):

In [4]:
data_overig = pd.read_csv("Groningen_population_data_2018.csv", sep=';') 
data_overig[['buurt_number', 'buurt_name']] = data_overig['Buurten'].str.extract('(?P<buurt_number>[\d]+) (?P<buurt_name>[\s\S]+)', expand=True)
data_overig['buurtcode'] = data_overig.apply(lambda row: "BU00" + str(row['buurt_number']), axis=1)
data_overig.drop('buurt_number', axis=1, inplace = True)
data_overig.drop('buurt_name', axis=1, inplace = True)
data_overig.drop('Buurten', axis=1, inplace = True)
data_overig.rename(columns={'aantal mensen met een uitkering Participatiewet (Pw)|2018': 'aantal mensen met een uitkering Participatiewet'}, inplace = True)

print(data_overig.shape)
print(data_overig.columns)
data_overig.head()

(151, 15)
Index(['aantal mensen met een uitkering Participatiewet',
       'percentage mensen met een uitkering krachtens de Participatiewet|2018',
       'bevolking totaal|2018', 'percentage minimahuishoudens|2018',
       'aantal minimahuishoudens|2018',
       'gemiddeld inkomen per persoon met inkomen|2018',
       'gemiddeld huishoudensinkomen|2018',
       'aangiften diefstal af/uit woning|2018', 'aangiften diefstal auto|2018',
       'aangiften diefstal fiets|2018',
       'aangiften diefstal af/uit bedrijf|2018',
       'aangiften diefstal af/uit auto|2018', 'aangiften van vernieling|2018',
       'aangiften van mishandeling|2018', 'buurtcode'],
      dtype='object')


Unnamed: 0,aantal mensen met een uitkering Participatiewet,percentage mensen met een uitkering krachtens de Participatiewet|2018,bevolking totaal|2018,percentage minimahuishoudens|2018,aantal minimahuishoudens|2018,gemiddeld inkomen per persoon met inkomen|2018,gemiddeld huishoudensinkomen|2018,aangiften diefstal af/uit woning|2018,aangiften diefstal auto|2018,aangiften diefstal fiets|2018,aangiften diefstal af/uit bedrijf|2018,aangiften diefstal af/uit auto|2018,aangiften van vernieling|2018,aangiften van mishandeling|2018,buurtcode
0,141.0,35.0,4404.0,171.0,290.0,225.0,300.0,25.0,1.0,176.0,17.0,8.0,25.0,35.0,BU000000
1,224.0,37.0,6626.0,213.0,530.0,222.0,307.0,42.0,3.0,306.0,28.0,30.0,96.0,196.0,BU000001
2,215.0,60.0,4017.0,204.0,350.0,221.0,278.0,17.0,1.0,56.0,2.0,3.0,16.0,8.0,BU000002
3,54.0,36.0,1708.0,179.0,140.0,246.0,297.0,9.0,0.0,13.0,2.0,4.0,8.0,5.0,BU000003
4,,,11.0,,,,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,BU000004


Let's then merge `data_dogs`, `data_buurtkaart` and `data_overig` together to the main dataset based on `buurtcode` column

In [5]:
data = pd.merge(data_buurtkaart, data_overig, on="buurtcode")
data = pd.merge(data, data_dogs, on="buurtcode")

data.head()

Unnamed: 0,buurtcode,buurtnaam,wijkcode,bevolkingsdichtheid_inwoners_per_km2,aantal_inwoners,mannen,vrouwen,percentage_personen_0_tot_15_jaar,percentage_personen_15_tot_25_jaar,percentage_personen_25_tot_45_jaar,...,gemiddeld inkomen per persoon met inkomen|2018,gemiddeld huishoudensinkomen|2018,aangiften diefstal af/uit woning|2018,aangiften diefstal auto|2018,aangiften diefstal fiets|2018,aangiften diefstal af/uit bedrijf|2018,aangiften diefstal af/uit auto|2018,aangiften van vernieling|2018,aangiften van mishandeling|2018,dogs_amount
0,BU000000,Binnenstad-Noord,WK001400,12085,4480,2335,2145,2,49,33,...,225,300,25.0,1.0,176.0,17.0,8.0,25.0,35.0,37
1,BU000103,Rivierenbuurt,WK001401,8294,4590,2250,2335,5,30,37,...,263,310,8.0,0.0,41.0,0.0,12.0,13.0,4.0,76
2,BU000704,Piccardthof,WK001407,1332,1190,595,590,21,14,12,...,551,786,4.0,0.0,3.0,1.0,0.0,4.0,2.0,35
3,BU001301,Engelbert,WK001413,276,900,470,435,16,12,21,...,359,498,1.0,0.0,0.0,0.0,0.0,1.0,2.0,62
4,BU000812,De Kring,WK001408,3557,330,160,170,23,12,27,...,159,252,1.0,0.0,0.0,0.0,0.0,1.0,0.0,14


In [6]:
print(data.shape)
print(data.columns)

(92, 43)
Index(['buurtcode', 'buurtnaam', 'wijkcode',
       'bevolkingsdichtheid_inwoners_per_km2', 'aantal_inwoners', 'mannen',
       'vrouwen', 'percentage_personen_0_tot_15_jaar',
       'percentage_personen_15_tot_25_jaar',
       'percentage_personen_25_tot_45_jaar',
       'percentage_personen_45_tot_65_jaar',
       'percentage_personen_65_jaar_en_ouder', 'percentage_ongehuwd',
       'percentage_gehuwd', 'percentage_gescheid', 'percentage_verweduwd',
       'aantal_huishoudens', 'percentage_eenpersoonshuishoudens',
       'percentage_huishoudens_zonder_kinderen',
       'percentage_huishoudens_met_kinderen', 'gemiddelde_huishoudsgrootte',
       'percentage_westerse_migratieachtergrond',
       'percentage_niet_westerse_migratieachtergrond',
       'percentage_uit_marokko',
       'percentage_uit_nederlandse_antillen_en_aruba',
       'percentage_uit_suriname', 'percentage_uit_turkije',
       'percentage_overige_nietwestersemigratieachtergrond',
       'aantal mensen met een

We can see that a lot of columns contains "|2018" in the name, but all the data in this dataset is from 2018 year, so we can remove this part od the name. And add '_' instead of space

In [7]:
for name, _ in data.items():
    new_name = name.replace('|2018', '')
    new_name = new_name.replace('.', '')
    new_name = new_name.replace(',', '')
    new_name = new_name.replace(':', '')
    new_name = new_name.replace('% ', 'perc ')
    new_name = new_name.replace('(', '')
    new_name = new_name.replace(')', '')
    new_name = new_name.replace(' ', '_')
    new_name = new_name.replace('_t/m_', '_')
    new_name = new_name.replace('af/uit', 'af_uit')
    data = data.rename(columns={name: new_name})


print(data.columns)
data.head()

Index(['buurtcode', 'buurtnaam', 'wijkcode',
       'bevolkingsdichtheid_inwoners_per_km2', 'aantal_inwoners', 'mannen',
       'vrouwen', 'percentage_personen_0_tot_15_jaar',
       'percentage_personen_15_tot_25_jaar',
       'percentage_personen_25_tot_45_jaar',
       'percentage_personen_45_tot_65_jaar',
       'percentage_personen_65_jaar_en_ouder', 'percentage_ongehuwd',
       'percentage_gehuwd', 'percentage_gescheid', 'percentage_verweduwd',
       'aantal_huishoudens', 'percentage_eenpersoonshuishoudens',
       'percentage_huishoudens_zonder_kinderen',
       'percentage_huishoudens_met_kinderen', 'gemiddelde_huishoudsgrootte',
       'percentage_westerse_migratieachtergrond',
       'percentage_niet_westerse_migratieachtergrond',
       'percentage_uit_marokko',
       'percentage_uit_nederlandse_antillen_en_aruba',
       'percentage_uit_suriname', 'percentage_uit_turkije',
       'percentage_overige_nietwestersemigratieachtergrond',
       'aantal_mensen_met_een_uitkerin

Unnamed: 0,buurtcode,buurtnaam,wijkcode,bevolkingsdichtheid_inwoners_per_km2,aantal_inwoners,mannen,vrouwen,percentage_personen_0_tot_15_jaar,percentage_personen_15_tot_25_jaar,percentage_personen_25_tot_45_jaar,...,gemiddeld_inkomen_per_persoon_met_inkomen,gemiddeld_huishoudensinkomen,aangiften_diefstal_af_uit_woning,aangiften_diefstal_auto,aangiften_diefstal_fiets,aangiften_diefstal_af_uit_bedrijf,aangiften_diefstal_af_uit_auto,aangiften_van_vernieling,aangiften_van_mishandeling,dogs_amount
0,BU000000,Binnenstad-Noord,WK001400,12085,4480,2335,2145,2,49,33,...,225,300,25.0,1.0,176.0,17.0,8.0,25.0,35.0,37
1,BU000103,Rivierenbuurt,WK001401,8294,4590,2250,2335,5,30,37,...,263,310,8.0,0.0,41.0,0.0,12.0,13.0,4.0,76
2,BU000704,Piccardthof,WK001407,1332,1190,595,590,21,14,12,...,551,786,4.0,0.0,3.0,1.0,0.0,4.0,2.0,35
3,BU001301,Engelbert,WK001413,276,900,470,435,16,12,21,...,359,498,1.0,0.0,0.0,0.0,0.0,1.0,2.0,62
4,BU000812,De Kring,WK001408,3557,330,160,170,23,12,27,...,159,252,1.0,0.0,0.0,0.0,0.0,1.0,0.0,14


In [8]:
print(data.dtypes)

buurtcode                                                            object
buurtnaam                                                            object
wijkcode                                                             object
bevolkingsdichtheid_inwoners_per_km2                                  int64
aantal_inwoners                                                       int64
mannen                                                                int64
vrouwen                                                               int64
percentage_personen_0_tot_15_jaar                                     int64
percentage_personen_15_tot_25_jaar                                    int64
percentage_personen_25_tot_45_jaar                                    int64
percentage_personen_45_tot_65_jaar                                    int64
percentage_personen_65_jaar_en_ouder                                  int64
percentage_ongehuwd                                                   int64
percentage_g

We can see that there are a lot of columns which should be numiric one, but they has a type 'object', so it means something wrong with their values. Let's explore it and maybe clean of fill the missing values. 

We'll start with 'aantal_mensen_met_een_uitkering_Participatiewet' column

In [9]:
print(data['aantal_mensen_met_een_uitkering_Participatiewet'].value_counts())
print(data['gemiddeld_huishoudensinkomen'].value_counts())
print(data['percentage_personen_0_tot_15_jaar'].value_counts())

X      29
54      2
14      2
141     1
18      1
273     1
291     1
426     1
252     1
60      1
229     1
122     1
380     1
215     1
155     1
279     1
64      1
96      1
153     1
654     1
142     1
92      1
313     1
213     1
50      1
224     1
21      1
47      1
185     1
487     1
11      1
217     1
181     1
913     1
35      1
38      1
434     1
516     1
12      1
256     1
257     1
65      1
10      1
16      1
136     1
48      1
302     1
27      1
445     1
106     1
17      1
97      1
Name: aantal_mensen_met_een_uitkering_Participatiewet, dtype: int64
-       4
30,0    3
39,6    2
27,8    2
31,0    2
36,8    2
39,1    2
30,7    2
49,8    2
34,3    1
28,4    1
30,6    1
29,2    1
30,3    1
30,1    1
64,6    1
81,7    1
50,5    1
30,9    1
43,9    1
24,9    1
32,1    1
68,9    1
27,6    1
49,9    1
52,6    1
37,4    1
32,4    1
33,0    1
29,9    1
38,4    1
37,1    1
26,0    1
48,3    1
41,8    1
25,3    1
78,6    1
25,2    1
33,8    1
63,8    1
28,1    1
25

We can see that there are `X`, `-` and `-99999999` values which definately not a number! So let's replace this value with 0

In [10]:
data.replace(to_replace="X", value="0", inplace=True)
data.replace(to_replace="-", value="0", inplace=True)
data.replace(to_replace=-99999999, value=0, inplace=True)

for col_name in data.select_dtypes(include=[object]):
    data[col_name] = data[col_name].str.replace(',','.')
    
data.fillna(0, inplace=True)

In [11]:
print(data.isnull().sum())

buurtcode                                                           0
buurtnaam                                                           0
wijkcode                                                            0
bevolkingsdichtheid_inwoners_per_km2                                0
aantal_inwoners                                                     0
mannen                                                              0
vrouwen                                                             0
percentage_personen_0_tot_15_jaar                                   0
percentage_personen_15_tot_25_jaar                                  0
percentage_personen_25_tot_45_jaar                                  0
percentage_personen_45_tot_65_jaar                                  0
percentage_personen_65_jaar_en_ouder                                0
percentage_ongehuwd                                                 0
percentage_gehuwd                                                   0
percentage_gescheid 

In [12]:
cols=[i for i in data.columns if i not in ["wijkcode","buurtnaam","buurtcode"]]
for col in cols:
    data[col]=pd.to_numeric(data[col])

print(data.dtypes)

buurtcode                                                            object
buurtnaam                                                            object
wijkcode                                                             object
bevolkingsdichtheid_inwoners_per_km2                                  int64
aantal_inwoners                                                       int64
mannen                                                                int64
vrouwen                                                               int64
percentage_personen_0_tot_15_jaar                                     int64
percentage_personen_15_tot_25_jaar                                    int64
percentage_personen_25_tot_45_jaar                                    int64
percentage_personen_45_tot_65_jaar                                    int64
percentage_personen_65_jaar_en_ouder                                  int64
percentage_ongehuwd                                                   int64
percentage_g

In [13]:
print(data.columns)
data.head()

Index(['buurtcode', 'buurtnaam', 'wijkcode',
       'bevolkingsdichtheid_inwoners_per_km2', 'aantal_inwoners', 'mannen',
       'vrouwen', 'percentage_personen_0_tot_15_jaar',
       'percentage_personen_15_tot_25_jaar',
       'percentage_personen_25_tot_45_jaar',
       'percentage_personen_45_tot_65_jaar',
       'percentage_personen_65_jaar_en_ouder', 'percentage_ongehuwd',
       'percentage_gehuwd', 'percentage_gescheid', 'percentage_verweduwd',
       'aantal_huishoudens', 'percentage_eenpersoonshuishoudens',
       'percentage_huishoudens_zonder_kinderen',
       'percentage_huishoudens_met_kinderen', 'gemiddelde_huishoudsgrootte',
       'percentage_westerse_migratieachtergrond',
       'percentage_niet_westerse_migratieachtergrond',
       'percentage_uit_marokko',
       'percentage_uit_nederlandse_antillen_en_aruba',
       'percentage_uit_suriname', 'percentage_uit_turkije',
       'percentage_overige_nietwestersemigratieachtergrond',
       'aantal_mensen_met_een_uitkerin

Unnamed: 0,buurtcode,buurtnaam,wijkcode,bevolkingsdichtheid_inwoners_per_km2,aantal_inwoners,mannen,vrouwen,percentage_personen_0_tot_15_jaar,percentage_personen_15_tot_25_jaar,percentage_personen_25_tot_45_jaar,...,gemiddeld_inkomen_per_persoon_met_inkomen,gemiddeld_huishoudensinkomen,aangiften_diefstal_af_uit_woning,aangiften_diefstal_auto,aangiften_diefstal_fiets,aangiften_diefstal_af_uit_bedrijf,aangiften_diefstal_af_uit_auto,aangiften_van_vernieling,aangiften_van_mishandeling,dogs_amount
0,BU000000,Binnenstad-Noord,WK001400,12085,4480,2335,2145,2,49,33,...,22.5,30.0,25.0,1.0,176.0,17.0,8.0,25.0,35.0,37
1,BU000103,Rivierenbuurt,WK001401,8294,4590,2250,2335,5,30,37,...,26.3,31.0,8.0,0.0,41.0,0.0,12.0,13.0,4.0,76
2,BU000704,Piccardthof,WK001407,1332,1190,595,590,21,14,12,...,55.1,78.6,4.0,0.0,3.0,1.0,0.0,4.0,2.0,35
3,BU001301,Engelbert,WK001413,276,900,470,435,16,12,21,...,35.9,49.8,1.0,0.0,0.0,0.0,0.0,1.0,2.0,62
4,BU000812,De Kring,WK001408,3557,330,160,170,23,12,27,...,15.9,25.2,1.0,0.0,0.0,0.0,0.0,1.0,0.0,14


In [14]:
data['politie_report_aantal'] = data['aangiften_diefstal_af_uit_woning'] + data['aangiften_diefstal_auto'] + data['aangiften_diefstal_af_uit_bedrijf'] + data['aangiften_diefstal_fiets'] + data['aangiften_diefstal_af_uit_auto'] + data['aangiften_van_mishandeling'] + data['aangiften_van_vernieling']

In [15]:
data.to_csv(r'population_clean_data.csv', index = False)