## libaries

In [1]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import cbsodata 

## load data

In [2]:
# Downloading table list
toc = pd.DataFrame(cbsodata.get_table_list())

# Downloading entire dataset (can take up to 30s)
gezondhied_df = pd.DataFrame(cbsodata.get_data('85012NED'))
leerlingen_per_regio_df = pd.DataFrame(pd.read_csv('Data\opleidingsniveau_per_woonregio\Leerlingen_2012-komma.txt'))
pd.set_option('display.max_rows', gezondhied_df.shape[0]+1) #max aantal rows

In [3]:
gezondhied_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3582 entries, 0 to 3581
Data columns (total 24 columns):
 #   Column                                Non-Null Count  Dtype  
---  ------                                --------------  -----  
 0   ID                                    3582 non-null   int64  
 1   Leeftijd                              3582 non-null   object 
 2   Marges                                3582 non-null   object 
 3   RegioS                                3582 non-null   object 
 4   ErvarenGezondheidGoedZeerGoed_1       3564 non-null   float64
 5   EenOfMeerLangdurigeAandoeningen_2     3561 non-null   float64
 6   EenOfMeerLichamelijkeBeperkingen_3    3561 non-null   float64
 7   BeperkingInHoren_4                    3561 non-null   float64
 8   BeperkingInZien_5                     3561 non-null   float64
 9   BeperkingInBewegen_6                  3561 non-null   float64
 10  Ondergewicht_7                        3552 non-null   float64
 11  NormaalGewicht_8 

### null waardes filteren

In [4]:
print(f'Voordat we de null-waardes droppen hebben we: {len(gezondhied_df)}  in de dataset')
print(gezondhied_df.isnull().sum())
gezondhied_df.dropna(inplace=True)
print(f'Nadat we de null-waardes droppen hebben we: {len(gezondhied_df)} in de  dataset')

Voordat we de null-waardes droppen hebben we: 3582  in de dataset
ID                                         0
Leeftijd                                   0
Marges                                     0
RegioS                                     0
ErvarenGezondheidGoedZeerGoed_1           18
EenOfMeerLangdurigeAandoeningen_2         21
EenOfMeerLichamelijkeBeperkingen_3        21
BeperkingInHoren_4                        21
BeperkingInZien_5                         21
BeperkingInBewegen_6                      21
Ondergewicht_7                            30
NormaalGewicht_8                          21
Overgewicht_9                             21
MatigOvergewicht_10                       21
ErnstigOvergewichtObesitas_11             21
VoldoetAanBeweegrichtlijn_12             273
WekelijksSporter_13                      273
Mantelzorger_14                           21
ZwaarBelasteMantelzorgers_15            1437
UrenMantelzorgPerWeek_16                1491
Rokers_17                         

In [5]:
print(f'Voordat we de null-waardes droppen hebben we: {len(leerlingen_per_regio_df)}  in de dataset')
print(leerlingen_per_regio_df.isnull().sum())
leerlingen_per_regio_df.dropna(inplace=True)
print(f'Nadat we de null-waardes droppen hebben we: {len(leerlingen_per_regio_df)} in de  dataset')

Voordat we de null-waardes droppen hebben we: 607  in de dataset
Regio's                                     0
Totaal voortgezet onderwijs               185
Vo algemene leerjaren 1-3                 185
Vwo 3-6                                   185
Havo 3-5                                  185
Vmbo theoretische-gemengde leerweg 3-4    185
Vmbo basis-kaderberoeps 3-4               185
Praktijkonderwijs                         185
dtype: int64
Nadat we de null-waardes droppen hebben we: 422 in de  dataset


In [6]:
leerlingen_per_regio_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 422 entries, 0 to 606
Data columns (total 8 columns):
 #   Column                                  Non-Null Count  Dtype  
---  ------                                  --------------  -----  
 0   Regio's                                 422 non-null    object 
 1   Totaal voortgezet onderwijs             422 non-null    float64
 2   Vo algemene leerjaren 1-3               422 non-null    float64
 3   Vwo 3-6                                 422 non-null    float64
 4   Havo 3-5                                422 non-null    float64
 5   Vmbo theoretische-gemengde leerweg 3-4  422 non-null    float64
 6   Vmbo basis-kaderberoeps 3-4             422 non-null    float64
 7   Praktijkonderwijs                       422 non-null    float64
dtypes: float64(7), object(1)
memory usage: 29.7+ KB


## percentages uitrekenen per regio en gezondheids data pakken

In [12]:
#opleidingsniveau
Per_hoog_opgeleid = []
Per_laag_opgeleid = []

# gezondheids data
Ondergewicht = []
NormaalGewicht = []
MatigOvergewicht = []
ErnstigOvergewichtObesitas = []

# regio's
Regios = []

# get percentage hoog en laag opgeleid en percantages gewicht.
for ind_l, row_l in leerlingen_per_regio_df.iterrows():   
    for ind_g, row_g in gezondhied_df.iterrows():
        if row_g['RegioS'] == row_l["Regio's"]:
            # regio's
            Regios.append(row_l["Regio's"])
            # opleidingsniveau's
            Per_hoog_opgeleid.append((row_l['Vwo 3-6'] + row_l['Havo 3-5']) / (row_l['Totaal voortgezet onderwijs'] - row_l['Vo algemene leerjaren 1-3']) * 100)
            Per_laag_opgeleid.append((row_l['Vmbo theoretische-gemengde leerweg 3-4'] + row_l['Vmbo basis-kaderberoeps 3-4'] + row_l['Praktijkonderwijs']) / (row_l['Totaal voortgezet onderwijs'] - row_l['Vo algemene leerjaren 1-3']) * 100)
            # percentages gewicht
            Ondergewicht.append(row_g['Ondergewicht_7'])
            NormaalGewicht.append(row_g['NormaalGewicht_8'])
            MatigOvergewicht.append(row_g['MatigOvergewicht_10'])
            ErnstigOvergewichtObesitas.append(row_g['ErnstigOvergewichtObesitas_11'])

## maak dataframe met percentages

In [15]:
data = {"RegioS": Regios,
        'Per_hoog_opgeleid': Per_hoog_opgeleid,
        'Per_laag_opgeleid': Per_laag_opgeleid,
        'Ondergewicht': Ondergewicht,
        'Normaalgewicht': NormaalGewicht,
        'Matigovergewicht': MatigOvergewicht,
        'Ernstigovergewicht': ErnstigOvergewichtObesitas
        }

opleidingsniveau_gewicht_per_gemeente_df = pd.DataFrame(data)

In [16]:
opleidingsniveau_gewicht_per_gemeente_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1485 entries, 0 to 1484
Data columns (total 7 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   RegioS              1485 non-null   object 
 1   Per_hoog_opgeleid   1485 non-null   float64
 2   Per_laag_opgeleid   1485 non-null   float64
 3   Ondergewicht        1485 non-null   float64
 4   Normaalgewicht      1485 non-null   float64
 5   Matigovergewicht    1485 non-null   float64
 6   Ernstigovergewicht  1485 non-null   float64
dtypes: float64(6), object(1)
memory usage: 81.3+ KB


In [21]:
opleidingsniveau_gewicht_per_gemeente_df.corr()

Unnamed: 0,Per_hoog_opgeleid,Per_laag_opgeleid,Ondergewicht,Normaalgewicht,Matigovergewicht,Ernstigovergewicht
Per_hoog_opgeleid,1.0,-1.0,0.099286,0.351637,-0.190898,-0.383646
Per_laag_opgeleid,-1.0,1.0,-0.099286,-0.351637,0.190898,0.383646
Ondergewicht,0.099286,-0.099286,1.0,0.578409,0.238863,0.276219
Normaalgewicht,0.351637,-0.351637,0.578409,1.0,-0.299432,-0.32259
Matigovergewicht,-0.190898,0.190898,0.238863,-0.299432,1.0,0.669776
Ernstigovergewicht,-0.383646,0.383646,0.276219,-0.32259,0.669776,1.0
