# Employment.nl
## Mid bootcamp project | René Jansen

This notebook is based the data set that is made available as open data by UWV WERKbedrijf for use by anyone who is interested. This data contains (anonymised) professional information from CVs and vacancies of Werk.nl.
### Documentation
The data set is documentated <a href="data/doc/20210323_Specificatie_open_match_data_UWV_WERKbedrijf.pdf" target="_blank">here</a>.


In [52]:
# import base libraries 
import pandas as pd
import numpy as np

# set display options
pd.set_option('display.max_columns', None)          # view all columns in jupyter
pd.set_option('display.max_rows', 150)                 # view max rows in jupyter

In [53]:
# read UWV data
uwv = pd.DataFrame()
uwv_v = pd.DataFrame()
infile = 'data/UWVopenmatch 20211109/UWVopenmatchdata20211109.csv'

uwv  =  pd.read_csv(infile, 
                    sep=';',
                    parse_dates=['PEILDATUM']        # immediately accept as date
                    )

In [54]:
# base data set
print('Input EDA:', infile)
print('Number of rows:', uwv.shape[0])
print('Number of columns', uwv.shape[1])
uwv.head(3)
# headers look fine, uppercase is fine

Input EDA: data/UWVopenmatch 20211109/UWVopenmatchdata20211109.csv
Number of rows: 172972
Number of columns 39


Unnamed: 0,PEILDATUM,BEROEP_CD,REFERENTIEBEROEP,BEROEPENCLUSTER_CD,BEROEPENCLUSTER,POSTCODEGEBIED,PROVINCIE,GEMEENTE,REC_TYPE,AANTAL,GEM_LEEFTIJD,AANTAL_MAN,AANTAL_VROUW,OPLNIV_GEM,ZOEKSTRAAL_GEM,AANT_JR_ERV_GEM,AANT_LEEFT_TOT_27,AANT_LEEFT_28_39,AANT_LEEFT_40_49,AANT_LEEFT_50_PLUS,AANT_LEEFT_ONBEKEND,AANT_UPW_0_8,AANT_UPW_9_16,AANT_UPW_17_24,AANT_UPW_25_32,AANT_UPW_33_PLUS,AANT_UPW_ONBEKEND,AANT_OPLNIV_1,AANT_OPLNIV_2,AANT_OPLNIV_3,AANT_OPLNIV_4,AANT_OPLNIV_5,AANT_OPLNIV_6,AANT_OPLNIV_ONBEKEND,AANT_WE_0_1,AANT_WE_1_3,AANT_WE_3_6,AANT_WE_7,AANT_WE_ONBEKEND
0,2021-09-11,1000411471,Adviseur geotechniek,4000000000.0,Adviseurs weg- en waterbouw,2408.0,Zuid-Holland,Alphen aan den Rijn,Vacature,1,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1,2021-09-11,1000411471,Adviseur geotechniek,4000000000.0,Adviseurs weg- en waterbouw,2566.0,Zuid-Holland,s Gravenhage,Vacature,2,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
2,2021-09-11,1000411471,Adviseur geotechniek,4000000000.0,Adviseurs weg- en waterbouw,2600.0,Zuid-Holland,Delft,Vacature,1,,,,,,,,,,,,,,,,,,,,,,,,,,,,,


In [55]:
# uwv.dtypes

### Structure information

Three types of information are provided by profession and geographical area (<span style="color:red"> REC_TYPE</span>):
1. Information about **desired professions (W)**: Every job seeker in werk.nl has indicated 1 to 3 professions in which he or she is specifically interested. If there are several professions belonging to the same reference profession, they are counted as '1'.
2. Information about professions in which the job seeker has **gained experience (E)**: Every job seeker in werk.nl can submit his/her full CV.
3. **Vacancy information (V)**: There is no threshold for this and these are therefore only given per postcode area. Aggregations by municipal, provincial or national level can be created yourself.

In [56]:
# Seems to be a combined dataset, so before dealing with NaN's it's
# important to understand REC_TYPE very well
uwv['REC_TYPE'].value_counts()
# It's a combined data set with three record types, of which 
# at least one (V) has to be treated differently (e.g. NaN's)

Vacature           113276
ErvaringsBeroep     40887
WensBeroep          18809
Name: REC_TYPE, dtype: int64

In [57]:
# For further exploration splitting uwv data, using numeric for efficiency
# uwv_v = Vacature                   113276 --> 0
# uwv_e = ErvaringsBeroep             40887 --> 1
# uwv_w = WensBeroep                  18809 --> 2
uwv["REC_TYPE"].replace({"Vacature": "0", "ErvaringsBeroep": "1", "WensBeroep": "2"}, inplace=True)
uwv["REC_TYPE"] = pd.to_numeric(uwv["REC_TYPE"])

### Decision to split dataframe
The Vacancies record type (0) appears to be filled in differently (NaN) than the other two record types for job seekers. NaN cleaning will therefore be two seperate processes, where ErvaringsBeroep and WensBeroep (1 and 2) will be treated equally.

In [58]:
mask = uwv['REC_TYPE'] == 0
uwv_v = uwv[mask]             # all vacancy info
uwv = uwv[~mask]          # all job seekers info
# Check records:         113276 + 59696 = 172972

### Dealing with NaN and DQ - Vacancies

In [59]:
# All features in Vacancies (uwv_v) which contain NaN
for col in uwv_v.columns:            
    if uwv_v[col].isna().sum() != 0:
        print(col, uwv_v[col].isna().sum())                # comment in/out
print()       
print(uwv_v.shape)

BEROEPENCLUSTER_CD 1
BEROEPENCLUSTER 1
GEM_LEEFTIJD 113276
AANTAL_MAN 113276
AANTAL_VROUW 113276
OPLNIV_GEM 113276
ZOEKSTRAAL_GEM 113276
AANT_JR_ERV_GEM 113276
AANT_LEEFT_TOT_27 113276
AANT_LEEFT_28_39 113276
AANT_LEEFT_40_49 113276
AANT_LEEFT_50_PLUS 113276
AANT_LEEFT_ONBEKEND 113276
AANT_UPW_0_8 113276
AANT_UPW_9_16 113276
AANT_UPW_17_24 113276
AANT_UPW_25_32 113276
AANT_UPW_33_PLUS 113276
AANT_UPW_ONBEKEND 113276
AANT_OPLNIV_1 113276
AANT_OPLNIV_2 113276
AANT_OPLNIV_3 113276
AANT_OPLNIV_4 113276
AANT_OPLNIV_5 113276
AANT_OPLNIV_6 113276
AANT_OPLNIV_ONBEKEND 113276
AANT_WE_0_1 113276
AANT_WE_1_3 113276
AANT_WE_3_6 113276
AANT_WE_7 113276
AANT_WE_ONBEKEND 113276

(113276, 39)


In [60]:
# Drop last 29 columns - not used by Vacancies
# df.iloc[row_start:row_end , col_start, col_end]
uwv_v = uwv_v.iloc[: , :-29]   # select everything, except for the last 29 columns

In [61]:
# One NaN left
# BEROEPENCLUSTER_CD 1
# BEROEPENCLUSTER 1
# both on record 13360 - decision to delete row
# rows_NaN = ['Position']
uwv_v = uwv_v.dropna()
# Use this during cleaning for dealing with NaN: shows insights for NaN on record level
# if ANY NaN is still present, repeat untill is empty
uwv_v[uwv_v.isna().any(axis=1)]   

Unnamed: 0,PEILDATUM,BEROEP_CD,REFERENTIEBEROEP,BEROEPENCLUSTER_CD,BEROEPENCLUSTER,POSTCODEGEBIED,PROVINCIE,GEMEENTE,REC_TYPE,AANTAL


In [62]:
# Convert from float to int
uwv_v['BEROEPENCLUSTER_CD'] = uwv_v['BEROEPENCLUSTER_CD'].astype(int)
uwv_v['POSTCODEGEBIED'] = uwv_v['POSTCODEGEBIED'].astype(int)
uwv_v.dtypes

PEILDATUM             datetime64[ns]
BEROEP_CD                      int64
REFERENTIEBEROEP              object
BEROEPENCLUSTER_CD             int64
BEROEPENCLUSTER               object
POSTCODEGEBIED                 int64
PROVINCIE                     object
GEMEENTE                      object
REC_TYPE                       int64
AANTAL                         int64
dtype: object

In [63]:
uwv_v.head()

Unnamed: 0,PEILDATUM,BEROEP_CD,REFERENTIEBEROEP,BEROEPENCLUSTER_CD,BEROEPENCLUSTER,POSTCODEGEBIED,PROVINCIE,GEMEENTE,REC_TYPE,AANTAL
0,2021-09-11,1000411471,Adviseur geotechniek,4000000026,Adviseurs weg- en waterbouw,2408,Zuid-Holland,Alphen aan den Rijn,0,1
1,2021-09-11,1000411471,Adviseur geotechniek,4000000026,Adviseurs weg- en waterbouw,2566,Zuid-Holland,s Gravenhage,0,2
2,2021-09-11,1000411471,Adviseur geotechniek,4000000026,Adviseurs weg- en waterbouw,2600,Zuid-Holland,Delft,0,1
3,2021-09-11,1000411471,Adviseur geotechniek,4000000026,Adviseurs weg- en waterbouw,3013,Zuid-Holland,Rotterdam,0,2
4,2021-09-11,1000411471,Adviseur geotechniek,4000000026,Adviseurs weg- en waterbouw,3511,Utrecht,Utrecht,0,4


In [64]:
# uwv_v['REFERENTIEBEROEP'].value_counts()

### Dealing with NaN and DQ - Job Seekers

In [65]:
# All features which contain NaN
for col in uwv.columns:            
    if uwv[col].isna().sum() != 0:
        print(col, uwv[col].isna().sum())                # comment in/out
print()       
print(uwv.shape)

BEROEPENCLUSTER_CD 10
BEROEPENCLUSTER 10
POSTCODEGEBIED 47950
PROVINCIE 4121
GEMEENTE 20519
AANT_JR_ERV_GEM 18809
AANT_UPW_0_8 18809
AANT_UPW_9_16 18809
AANT_UPW_17_24 18809
AANT_UPW_25_32 18809
AANT_UPW_33_PLUS 18809
AANT_UPW_ONBEKEND 18809
AANT_WE_0_1 18809
AANT_WE_1_3 18809
AANT_WE_3_6 18809
AANT_WE_7 18809
AANT_WE_ONBEKEND 18809

(59696, 39)


In [66]:
# Series of columns with 18809 NaN
# In case of "wish/desired jobs": Columns UPW and WE are logically NaN, 
# for this data is all about experience: numbers of hours per week and 
# numbers of years experience.
# NaN decision: change to 0

def nan2zero(cols):
    for x in cols:
        uwv[x].fillna(0, inplace=True)

# Declaring the list
list_cols = [
            "AANT_JR_ERV_GEM","AANT_UPW_0_8","AANT_UPW_9_16","AANT_UPW_17_24","AANT_UPW_25_32","AANT_UPW_33_PLUS", 
            "AANT_UPW_ONBEKEND","AANT_WE_0_1","AANT_WE_1_3","AANT_WE_3_6","AANT_WE_7","AANT_WE_ONBEKEND"
            ]
# Calling the function
nan2zero(list_cols)


In [67]:
# BEROEPENCLUSTER_CD 10
# BEROEPENCLUSTER 10
# POSTCODEGEBIED 47950  (for privacy reasons UWV sets a threshold of 10 people per area)
# PROVINCIE 4121
# GEMEENTE 20519
#
# BEROEPENCLUSTER --> depreciated categories of jobs by UWV (probably old data) - DELETE 10 ROWS
rows_NaN = ['BEROEPENCLUSTER_CD']
uwv = uwv.dropna(subset = rows_NaN)
# Convert from float to int
uwv['BEROEPENCLUSTER_CD'] = uwv['BEROEPENCLUSTER_CD'].astype(int)

In [68]:
# Allowing postalcode to be 0, in order to use it later and not deleting
uwv['POSTCODEGEBIED'] = uwv['POSTCODEGEBIED'].fillna(0)
# Convert float to Int
uwv = uwv.astype({'POSTCODEGEBIED': 'int64',
                  'AANTAL_MAN': 'int64',
                  'AANTAL_VROUW': 'int64',
                  'AANT_LEEFT_TOT_27': 'int64', 
                  'AANT_LEEFT_28_39': 'int64', 
                  'AANT_LEEFT_40_49': 'int64', 
                  'AANT_LEEFT_50_PLUS': 'int64', 
                  'AANT_LEEFT_ONBEKEND': 'int64', 
                  'AANT_UPW_0_8': 'int64', 
                  'AANT_UPW_9_16': 'int64', 
                  'AANT_UPW_17_24': 'int64', 
                  'AANT_UPW_25_32': 'int64', 
                  'AANT_UPW_33_PLUS': 'int64', 
                  'AANT_UPW_ONBEKEND': 'int64', 
                  'AANT_OPLNIV_1': 'int64', 
                  'AANT_OPLNIV_2': 'int64', 
                  'AANT_OPLNIV_3': 'int64', 
                  'AANT_OPLNIV_4': 'int64', 
                  'AANT_OPLNIV_5': 'int64', 
                  'AANT_OPLNIV_6': 'int64', 
                  'AANT_OPLNIV_ONBEKEND': 'int64', 
                  'AANT_WE_0_1': 'int64', 
                  'AANT_WE_1_3': 'int64',                   
                  'AANT_WE_3_6': 'int64',                   
                  'AANT_WE_7': 'int64',                   
                  'AANT_WE_ONBEKEND': 'int64' })

In [69]:
# Convert strings to float
def make_float(x):
    if x==0:
        x='0'
    x = x.replace(",",".")
    return float(x)

cols = ['OPLNIV_GEM','ZOEKSTRAAL_GEM','AANT_JR_ERV_GEM']
for c in cols:
    uwv[c] = uwv[c].apply(make_float)
# uwv.dtypes

In [70]:
# Vacature           113276
# ErvaringsBeroep     40887
# WensBeroep          18809
# Name: REC_TYPE, dtype: int64

# PEILDATUM               datetime64[ns]
# BEROEP_CD                        int64
# REFERENTIEBEROEP                object
# BEROEPENCLUSTER_CD               int64
# BEROEPENCLUSTER                 object
# POSTCODEGEBIED                   int64
# PROVINCIE                       object
# GEMEENTE                        object
# REC_TYPE                         int64
# AANTAL                           int64 (vacancies) --> 113276

# AANTAL                           int64 (job seekers E + W) --> 59696
# GEM_LEEFTIJD                   float64
# AANTAL_MAN                       int64
# AANTAL_VROUW                     int64
# OPLNIV_GEM                     float64 
# ZOEKSTRAAL_GEM                 float64 
# AANT_JR_ERV_GEM                float64 

# AANT_LEEFT_TOT_27                int64 (E + W)
# AANT_LEEFT_28_39                 int64
# AANT_LEEFT_40_49                 int64
# AANT_LEEFT_50_PLUS               int64
# AANT_LEEFT_ONBEKEND              int64

# AANT_UPW_0_8                     int64 (E)
# AANT_UPW_9_16                    int64
# AANT_UPW_17_24                   int64
# AANT_UPW_25_32                   int64
# AANT_UPW_33_PLUS                 int64
# AANT_UPW_ONBEKEND                int64

# AANT_OPLNIV_1                    int64 (E + W)
# AANT_OPLNIV_2                    int64
# AANT_OPLNIV_3                    int64
# AANT_OPLNIV_4                    int64
# AANT_OPLNIV_5                    int64
# AANT_OPLNIV_6                    int64
# AANT_OPLNIV_ONBEKEND             int64

# AANT_WE_0_1                      int64 (E)
# AANT_WE_1_3                      int64
# AANT_WE_3_6                      int64
# AANT_WE_7                        int64
# AANT_WE_ONBEKEND                 int64

In [71]:
uwv.head()

Unnamed: 0,PEILDATUM,BEROEP_CD,REFERENTIEBEROEP,BEROEPENCLUSTER_CD,BEROEPENCLUSTER,POSTCODEGEBIED,PROVINCIE,GEMEENTE,REC_TYPE,AANTAL,GEM_LEEFTIJD,AANTAL_MAN,AANTAL_VROUW,OPLNIV_GEM,ZOEKSTRAAL_GEM,AANT_JR_ERV_GEM,AANT_LEEFT_TOT_27,AANT_LEEFT_28_39,AANT_LEEFT_40_49,AANT_LEEFT_50_PLUS,AANT_LEEFT_ONBEKEND,AANT_UPW_0_8,AANT_UPW_9_16,AANT_UPW_17_24,AANT_UPW_25_32,AANT_UPW_33_PLUS,AANT_UPW_ONBEKEND,AANT_OPLNIV_1,AANT_OPLNIV_2,AANT_OPLNIV_3,AANT_OPLNIV_4,AANT_OPLNIV_5,AANT_OPLNIV_6,AANT_OPLNIV_ONBEKEND,AANT_WE_0_1,AANT_WE_1_3,AANT_WE_3_6,AANT_WE_7,AANT_WE_ONBEKEND
19,2021-09-11,1000400819,Adviseur ict,4000000012,Adviseurs automatisering,0,,,1,2427,52.0,1996,429,4.76,55.17,5.87,26,314,515,1572,0,42,31,78,257,2006,13,24,108,314,275,956,750,0,437,705,609,663,13
20,2021-09-11,1000400819,Adviseur ict,4000000012,Adviseurs automatisering,0,,,2,1011,50.0,862,149,4.66,55.81,0.0,38,182,222,569,0,0,0,0,0,0,0,13,35,160,130,413,260,0,0,0,0,0,0
21,2021-09-11,1000400819,Adviseur ict,4000000012,Adviseurs automatisering,0,Drenthe,,1,47,56.0,42,5,4.66,65.43,5.22,0,2,6,39,0,1,1,2,7,36,0,0,5,2,6,25,9,0,10,13,15,9,0
22,2021-09-11,1000400819,Adviseur ict,4000000012,Adviseurs automatisering,0,Drenthe,,2,19,55.0,17,2,4.63,71.58,0.0,0,0,3,16,0,0,0,0,0,0,0,0,1,3,2,9,4,0,0,0,0,0,0
23,2021-09-11,1000400819,Adviseur ict,4000000012,Adviseurs automatisering,0,Flevoland,,1,70,52.0,62,8,4.61,59.64,6.29,0,9,12,49,0,2,1,1,6,59,1,0,4,10,11,29,16,0,12,19,16,22,1


In [72]:
print('SUMMARY LOCATION DATA')      
print('uwv_v - NaN:') 
for col in uwv_v.columns:            
    if uwv_v[col].isna().sum() != 0:
        print(col, uwv_v[col].isna().sum())                # comment in/out     
print(uwv_v.shape)
print('')  
print('uwv - NaN:') 
for col in uwv.columns:            
    if uwv[col].isna().sum() != 0:
        print(col, uwv[col].isna().sum())                # comment in/out      
print('')  
print('uwv - "put on 0":')
print('POSTCODEGEBIED 47940') 
print(uwv.shape)


SUMMARY LOCATION DATA
uwv_v - NaN:
(113275, 10)

uwv - NaN:
PROVINCIE 4111
GEMEENTE 20509

uwv - "put on 0":
POSTCODEGEBIED 47940
(59686, 39)


In [73]:
##### Prepare for joining in MySQL Workbench 
# FOUR aggregation levels possible on records at job seekers  
#
# PC    GEM    PROV 
# ------------------------------------------------------------
# 0     NaN    NaN    1. aggregated at national level
# 0     NaN    ".."   2. aggregated by province
# 0     ".."   ".."   3. aggregated by community/gemeente
# ".."  ".."   ".."   4. most detailed postal code level (P4)
#
# POSTCODEGEBIED                   int64
# PROVINCIE                       object
# GEMEENTE                        object
#
def nan2nl(cols):           # Replace NaN with generic NL
    for x in cols:
        uwv[x].fillna('NL', inplace=True)

# Declaring the list
list_cols = ['PROVINCIE', 'GEMEENTE']
# Calling the function
nan2nl(list_cols)

In [74]:
uwv.head(1)

Unnamed: 0,PEILDATUM,BEROEP_CD,REFERENTIEBEROEP,BEROEPENCLUSTER_CD,BEROEPENCLUSTER,POSTCODEGEBIED,PROVINCIE,GEMEENTE,REC_TYPE,AANTAL,GEM_LEEFTIJD,AANTAL_MAN,AANTAL_VROUW,OPLNIV_GEM,ZOEKSTRAAL_GEM,AANT_JR_ERV_GEM,AANT_LEEFT_TOT_27,AANT_LEEFT_28_39,AANT_LEEFT_40_49,AANT_LEEFT_50_PLUS,AANT_LEEFT_ONBEKEND,AANT_UPW_0_8,AANT_UPW_9_16,AANT_UPW_17_24,AANT_UPW_25_32,AANT_UPW_33_PLUS,AANT_UPW_ONBEKEND,AANT_OPLNIV_1,AANT_OPLNIV_2,AANT_OPLNIV_3,AANT_OPLNIV_4,AANT_OPLNIV_5,AANT_OPLNIV_6,AANT_OPLNIV_ONBEKEND,AANT_WE_0_1,AANT_WE_1_3,AANT_WE_3_6,AANT_WE_7,AANT_WE_ONBEKEND
19,2021-09-11,1000400819,Adviseur ict,4000000012,Adviseurs automatisering,0,NL,NL,1,2427,52.0,1996,429,4.76,55.17,5.87,26,314,515,1572,0,42,31,78,257,2006,13,24,108,314,275,956,750,0,437,705,609,663,13


In [75]:
# uwv.loc[:, ['POSTCODEGEBIED','PROVINCIE','GEMEENTE']]
uwv['PC'] = np.where(uwv['POSTCODEGEBIED']!= 0, True, False)
uwv['GEM'] = np.where(uwv['GEMEENTE']!= 'NL', True, False)
uwv['PROV'] = np.where(uwv['PROVINCIE']!= 'NL', True, False)
uwv.head(100)

Unnamed: 0,PEILDATUM,BEROEP_CD,REFERENTIEBEROEP,BEROEPENCLUSTER_CD,BEROEPENCLUSTER,POSTCODEGEBIED,PROVINCIE,GEMEENTE,REC_TYPE,AANTAL,GEM_LEEFTIJD,AANTAL_MAN,AANTAL_VROUW,OPLNIV_GEM,ZOEKSTRAAL_GEM,AANT_JR_ERV_GEM,AANT_LEEFT_TOT_27,AANT_LEEFT_28_39,AANT_LEEFT_40_49,AANT_LEEFT_50_PLUS,AANT_LEEFT_ONBEKEND,AANT_UPW_0_8,AANT_UPW_9_16,AANT_UPW_17_24,AANT_UPW_25_32,AANT_UPW_33_PLUS,AANT_UPW_ONBEKEND,AANT_OPLNIV_1,AANT_OPLNIV_2,AANT_OPLNIV_3,AANT_OPLNIV_4,AANT_OPLNIV_5,AANT_OPLNIV_6,AANT_OPLNIV_ONBEKEND,AANT_WE_0_1,AANT_WE_1_3,AANT_WE_3_6,AANT_WE_7,AANT_WE_ONBEKEND,PC,GEM,PROV
19,2021-09-11,1000400819,Adviseur ict,4000000012,Adviseurs automatisering,0,NL,NL,1,2427,52.0,1996,429,4.76,55.17,5.87,26,314,515,1572,0,42,31,78,257,2006,13,24,108,314,275,956,750,0,437,705,609,663,13,False,False,False
20,2021-09-11,1000400819,Adviseur ict,4000000012,Adviseurs automatisering,0,NL,NL,2,1011,50.0,862,149,4.66,55.81,0.0,38,182,222,569,0,0,0,0,0,0,0,13,35,160,130,413,260,0,0,0,0,0,0,False,False,False
21,2021-09-11,1000400819,Adviseur ict,4000000012,Adviseurs automatisering,0,Drenthe,NL,1,47,56.0,42,5,4.66,65.43,5.22,0,2,6,39,0,1,1,2,7,36,0,0,5,2,6,25,9,0,10,13,15,9,0,False,False,True
22,2021-09-11,1000400819,Adviseur ict,4000000012,Adviseurs automatisering,0,Drenthe,NL,2,19,55.0,17,2,4.63,71.58,0.0,0,0,3,16,0,0,0,0,0,0,0,0,1,3,2,9,4,0,0,0,0,0,0,False,False,True
23,2021-09-11,1000400819,Adviseur ict,4000000012,Adviseurs automatisering,0,Flevoland,NL,1,70,52.0,62,8,4.61,59.64,6.29,0,9,12,49,0,2,1,1,6,59,1,0,4,10,11,29,16,0,12,19,16,22,1,False,False,True
24,2021-09-11,1000400819,Adviseur ict,4000000012,Adviseurs automatisering,0,Flevoland,NL,2,34,47.0,29,5,4.85,47.06,0.0,1,8,9,16,0,0,0,0,0,0,0,0,0,7,2,14,11,0,0,0,0,0,0,False,False,True
25,2021-09-11,1000400819,Adviseur ict,4000000012,Adviseurs automatisering,0,Friesland,NL,1,69,54.0,60,9,4.78,87.1,6.31,0,6,10,53,0,3,1,1,6,58,0,0,2,10,4,38,15,0,11,20,16,22,0,False,False,True
26,2021-09-11,1000400819,Adviseur ict,4000000012,Adviseurs automatisering,0,Friesland,NL,2,26,48.0,23,3,4.62,69.23,0.0,3,6,2,15,0,0,0,0,0,0,0,0,2,3,4,11,6,0,0,0,0,0,0,False,False,True
27,2021-09-11,1000400819,Adviseur ict,4000000012,Adviseurs automatisering,0,Gelderland,NL,1,258,52.0,224,34,4.64,61.76,6.41,6,26,52,174,0,6,4,10,31,206,1,7,12,33,39,91,76,0,40,69,67,81,1,False,False,True
28,2021-09-11,1000400819,Adviseur ict,4000000012,Adviseurs automatisering,0,Gelderland,NL,2,115,50.0,103,12,4.6,64.83,0.0,5,22,25,63,0,0,0,0,0,0,0,1,4,17,19,51,23,0,0,0,0,0,0,False,False,True


### Eliminate redundancy by joining - MySQL Workbench

Since the original data set contains three types of records, cleaning is a proces of NaN's, improving columns and joining the data into meaningful records 

![data_structure.jpg](attachment:data_structure.jpg)

In [None]:
import pymysql
from sqlalchemy import create_engine
import getpass  
password = getpass.getpass()

In [None]:
connection_string = 'mysql+pymysql://root:' + password + '@localhost/uwv_openmatch'
sqlEngine = create_engine(connection_string)

# query = '''select t.type, t.operation, t.amount as t_amount, t.balance, t.k_symbol, l.amount as l_amount, l.duration, l.payments, l.status
# from trans t
# left join loan l
# on t.account_id = l.account_id;'''
# data = pd.read_sql_query(query, engine)
# data.head()

tableName   = "jobseeker"
dataFrame   = pd.DataFrame(data=uwv)           # load uwv data

# sqlEngine       = create_engine('mysql+pymysql://root:@127.0.0.1/test', pool_recycle=3600)

dbConnection    = sqlEngine.connect()

try:
    frame           = dataFrame.to_sql(tableName, dbConnection, if_exists='fail');
except ValueError as vx:
    print(vx)
except Exception as ex:   
    print(ex)
else:
    print("Table %s created successfully."%tableName);   
finally:
    dbConnection.close()

In [25]:
tableName   = "vacancy"
dataFrame   = pd.DataFrame(data=uwv_v)           # load uwv data

# sqlEngine       = create_engine('mysql+pymysql://root:@127.0.0.1/test', pool_recycle=3600)

dbConnection    = sqlEngine.connect()

try:
    frame           = dataFrame.to_sql(tableName, dbConnection, if_exists='fail');
except ValueError as vx:
    print(vx)
except Exception as ex:   
    print(ex)
else:
    print("Table %s created successfully."%tableName);   
finally:
    dbConnection.close()

Table 'vacancy' already exists.


In [26]:
# SMART SLICING / LOOK UPs for EDA
# dataframe.loc[specified rows: specified columns]
# uwv_v.loc[lambda df: uwv_v.BEROEP_CD == 1000409622, :]
# uwv_v.loc[lambda df: uwv_v.BEROEP_CD == 1000409622, :]

In [27]:
# # Slicing 
# uwv.loc[uwv['REC_TYPE'] == 0].head(60)
# # REC_TYPE = 0 (vacancies) show all NaN's on last columns --> not being used
# uwv.loc[uwv['REC_TYPE'] == 1].head(60)
# # REC_TYPE = 1 (experienced) show many NaN's on POSTCODEGEBIED and GEMEENTE
# uwv.loc[uwv['REC_TYPE'] == 2].head(60)


In [28]:
# OPLNIV
# 0 Niet bekend
# 1 Basisonderwijs
# 2 VMBO
# 3 Havo/VWO
# 4 MBO-algemeen
# 5 HBO/bachelor
# 6 WO/master
# Een gemiddeld opleidingsniveau van 4,32 duidt dus aan dat het tussen MBO en HBO ligt maar
# dichter bij MBO.

In [29]:
# Hoe is een postcode in Nederland opgebouwd?
# De eerste twee cijfers verwijzen naar de betreffende geografische regio
# De laatste twee cijfers duiden op een kleine woonplaats of wijk binnen een grote plaats
# De letters verwijzen naar een groep van ongeveer 25 woningen, bedrijfspanden of postbussen.

In [30]:
# Extension available
# beroepen.csv

In [31]:
# BO&C-register 
# Beroeps- en Opleidingsgegevens voor arbeidsmarkt professionals
# De Beroepen en Opleidingen database bevat een overzicht van de beroepen en opleidingen 
# die het UWV WERKbedrijf gebruikt bij het registreren van werkzoekenden en vacatures. Naast 
# actuele beroepen en opleidingen bevat de database historische beroeps- en opleidingsnamen, 
# korte schetsen en verschillende classificaties, zoals indelingen van beroepen en opleidingen 
# naar niveau, sector, BRC en ISCO. Al deze informatie wordt via deze downloadsite beschikbaar 
# gesteld voor professionele gebruikers.
# 

In [32]:
# Werkzoekenden met een sollicitatieplicht
# kunnen via werk.nl hun verplichtingen vervullen. Er is geen speciale aandacht voor belastbaarheid
# van werknemers en de belasting van functies. Werkgevers kunnen vacatures plaatsen en in cv’s
# zoeken. De werkgever of werknemer moet zelf zoeken met een uitgebreide zoekfunctie. De matching vindt dus handmatig plaats. Werknemers moeten inloggen met hun DigiD om gebruik te
# kunnen maken van werk.nl. Er zijn geen kosten aan verbonden voor gebruik.

In [33]:
# For main question: it's about demand (V) and supply (W+E)
# in which regions come demand and supply least together --> scarcity

In [34]:
# "Aggregations by municipal, provincial or national level can be created yourself."
# perhaps additional tabels needed to do proper aggregation later
# 
# http://www.sqlblog.nl/postcodetabel-nederland-sql-script/

In [35]:
# # 6. Check NaN values per column.
# customer_df[customer_df.isna().any(axis=1)]   #or
# customer_df.isnull().sum()/len(customer_df)