In [1]:
import os, sys
from sklearn.pipeline import Pipeline
from pathlib import Path

# Add local codebase to path
home = str(Path.home())
sys.path.insert(1, f'{home}/Documents/woonfraude/codebase')

# Import own modules
from datasets_oo import *
from clean_oo import *
from extract_features_oo import *

  """)


In [2]:
###################
## Load datasets ##
###################
# Download (or load cached versions of) the datasets.

# Initialize dataset objects
adresDataset = AdresDataset()
zakenDataset = ZakenDataset()
stadiaDataset = StadiaDataset()
personenDataset = PersonenDataset()
bagDataset = BagDataset()
hotlineDataset = HotlineDataset()

# # Download and perform dataset-specific processing.
# # Uncomment code and run once. Use load-from cache functionality below afterwards.
# adresDataset.download(force=True)
# adresDataset.extract_leegstand()
# adresDataset.enrich_with_woning_id()

# zakenDataset.download(force=True)
# zakenDataset.add_categories()
# zakenDataset.filter_categories()

# stadiaDataset.download(force=True)
# stadiaDataset.add_zaak_stadium_ids()
# stadiaDataset.add_labels()

# personenDataset.download(force=True)

# bagDataset.download(force=True)
# bagDataset.bag_fix()

# hotlineDataset.download(force=True)


# Load datasets from cache (if download and processing steps have already been done).
adresDataset.load('download_leegstand_woningId')
zakenDataset.load('download_categories_filterCategories')
stadiaDataset.load('download_ids_labels')
personenDataset.load('download')
bagDataset.load('download_columnFix')
hotlineDataset.load('download')

Version 'download_leegstand_woningId' of dataset 'adres' loaded!
Version 'download_categories_filterCategories' of dataset 'zaken' loaded!
Version 'download_ids_labels' of dataset 'stadia' loaded!
Version 'download' of dataset 'personen' loaded!
Version 'download_columnFix' of dataset 'bag' loaded!
Version 'download' of dataset 'hotline' loaded!


In [4]:
#########################
## Clean zaken dataset ##
#########################

zakenPipeline = Pipeline(steps=[
    ('clean', CleanTransformer(
        id_column=zakenDataset.id_column,
        drop_duplicates=True,
        fix_date_columns=['begindatum','einddatum', 'wzs_update_datumtijd'],
        clean_dates=True,
        lower_string_columns=True,
        impute_missing_values=True)
    ),
    ('extract', FeatureExtractionTransformer(
        categorical_cols_hot=['afg_code_beh', 'beh_code', 'eigenaar', 'categorie'])
    )
    ])

zaken = zakenPipeline.fit_transform(zakenDataset.data)

Dataframe "zaken": Dropped 0 duplicates!
Dataframe "zaken": Fixed dates!
Dataframe "zaken": Cleaned out 3 dates!
Lowered strings of cols ['beh_code', 'beh_oms', 'afg_code_beh', 'afs_code', 'afs_oms', 'afg_code_afs', 'eigenaar', 'zaak_id', 'mededelingen', 'categorie'] in df zaken!
Now extracting features from column: 'afg_code_beh'.
Done!
Now extracting features from column: 'beh_code'.
Done!
Now extracting features from column: 'eigenaar'.
Done!
Now extracting features from column: 'categorie'.
Done!


In [5]:
##########################
## Clean stadia dataset ##
##########################

stadiaPipeline = Pipeline(steps=[
    ('clean', CleanTransformer(
        id_column=stadiaDataset.id_column,
        drop_duplicates=True,
        fix_date_columns=['begindatum', 'peildatum', 'einddatum', 'date_created',
                          'date_modified', 'wzs_update_datumtijd'],
        clean_dates=True,
        lower_string_columns=True,
        impute_missing_values=True)
    )])

stadia = stadiaPipeline.fit_transform(stadiaDataset.data)

Dataframe "stadia": Dropped 0 duplicates!
Dataframe "stadia": Fixed dates!
Dataframe "stadia": Cleaned out 0 dates!
Lowered strings of cols ['afg_co', 'sta_code', 'sta_oms', 'afg_code_stad', 'afs_code', 'afs_oms', 'afg_code_afs', 'resultaat', 'mdr_code', 'user_created', 'user_modified', 'stadia_id', 'zaak_id', 'stadium_id', 'label'] in df stadia!


In [5]:
############################
## Clean personen dataset ##
############################

personenPipeline = Pipeline(steps=[
    ('clean', CleanTransformer(
        id_column=personenDataset.id_column,
        drop_duplicates=True,
        lower_string_columns=True)
    )])

personen = personenPipeline.fit_transform(personenDataset.data)

Dataframe "personen": Dropped 0 duplicates!
Lowered strings of cols ['pen_type', 'gezinsverhouding', 'geslacht', 'voorletters', 'geboortedatum', 'burgerlijke_staat', 'naam', 'geheim_adres', 'voorv_mnaam', 'voorv_naam', 'meisjesnaam', 'vertrekdatum_adam', 'ind_naamgebruik', 'nat_ned', 'ind_nat_ovlp', 'verblijfstatus', 'datum_einde_vblstat', 'landcode', 'user_created', 'user_modified', 'datum_begin_vblstat', 'ais_nr', 'crv_nr', 'geheim', 'in_onderzoek', 'datum_verkrijging_vreemd', 'voorletters_zdia', 'naam_zdia', 'voorv_mnaam_zdia', 'voorv_naam_zdia', 'meisjesnaam_zdia', 'nm_dia_255', 'mnm_dia_255'] in df personen!


In [3]:
#######################
## Clean BAG dataset ##
#######################

bagPipeline = Pipeline(steps=[
    ('clean', CleanTransformer(
        id_column=bagDataset.id_column,
        drop_duplicates=True,
        fix_date_columns=[],
        lower_string_columns=True,
        impute_missing_values=True,
        impute_missing_values_mode=['status_coordinaat_code@bag', 'indicatie_geconstateerd@bag',
                                    'indicatie_in_onderzoek@bag', 'woningvoorraad@bag'],
        fillna_columns={'_huisnummer@bag': 0,
                         '_huisletter@bag': 'None',
                         '_openbare_ruimte_naam@bag': 'None',
                         '_huisnummer_toevoeging@bag': 'None',
                         'type_woonobject_omschrijving@bag': 'None',
                         'eigendomsverhouding_id@bag': 'None',
                         'financieringswijze_id@bag': -1,
                         'gebruik_id@bag': -1,
                         'reden_opvoer_id@bag': -1,
                         'status_id@bag': -1,
                         'toegang_id@bag': 'None'})
    ),
    ('extract', FeatureExtractionTransformer(
        categorical_cols_hot=['status_coordinaat_code@bag', 'type_woonobject_omschrijving@bag',
                              'eigendomsverhouding_id@bag', 'financieringswijze_id@bag',
                              'gebruik_id@bag', 'ligging_id@bag', 'reden_opvoer_id@bag',
                              'status_id@bag', 'toegang_id@bag'])
    )
    ])

bag = bagPipeline.fit_transform(bagDataset.data)

Dataframe "bag": Dropped 0 duplicates!
Lowered strings of cols ['document_mutatie@bag', 'document_nummer@bag', 'begin_geldigheid@bag', 'einde_geldigheid@bag', 'id_nummeraanduiding@bag', 'landelijk_id_nummeraanduiding@bag', 'huisnummer_toevoeging@bag', 'postcode@bag', 'type@bag', 'adres_nummer@bag', 'vervallen@bag', 'hoofdadres@bag', '_openbare_ruimte_naam_nummeraanduiding@bag', 'bron_id@bag', 'ligplaats_id@bag', 'openbare_ruimte_id@bag', 'standplaats_id@bag', 'status_id_nummeraanduiding@bag', 'verblijfsobject_id@bag', '_geom@bag', 'id_ligplaats@bag', 'landelijk_id_ligplaats@bag', 'vervallen_1@bag', 'indicatie_geconstateerd@bag', 'indicatie_in_onderzoek@bag', '_huisletter@bag', '_gebiedsgerichtwerken_id@bag', '_grootstedelijkgebied_id@bag', 'bron_id_1@bag', 'buurt_id@bag', 'status_id_ligplaats@bag', 'id_standplaats@bag', 'landelijk_id_standplaats@bag', 'vervallen_2@bag', 'bron_id_2@bag', 'status_id_standplaats@bag', 'id_verblijfsobject@bag', 'landelijk_id_verblijfsobject@bag', 'status_c

IndexError: index out of bounds

In [4]:
bagDataset.data.columns

Index(['document_mutatie@bag', 'document_nummer@bag', 'begin_geldigheid@bag',
       'einde_geldigheid@bag', 'id_nummeraanduiding@bag',
       'landelijk_id_nummeraanduiding@bag', 'huisnummer_toevoeging@bag',
       'postcode@bag', 'type@bag', 'adres_nummer@bag', 'vervallen@bag',
       'date_modified@bag', 'hoofdadres@bag',
       '_openbare_ruimte_naam_nummeraanduiding@bag', 'bron_id@bag',
       'ligplaats_id@bag', 'openbare_ruimte_id@bag', 'standplaats_id@bag',
       'status_id_nummeraanduiding@bag', 'verblijfsobject_id@bag', '_geom@bag',
       'id_ligplaats@bag', 'landelijk_id_ligplaats@bag', 'vervallen_1@bag',
       'indicatie_geconstateerd@bag', 'indicatie_in_onderzoek@bag',
       '_huisnummer@bag', '_huisletter@bag', '_gebiedsgerichtwerken_id@bag',
       '_grootstedelijkgebied_id@bag', 'bron_id_1@bag', 'buurt_id@bag',
       'status_id_ligplaats@bag', 'id_standplaats@bag',
       'landelijk_id_standplaats@bag', 'vervallen_2@bag', 'bron_id_2@bag',
       'status_id_standpla

In [8]:
bagDataset.data.add_suffix('@bag')

Unnamed: 0,document_mutatie@bag,document_nummer@bag,begin_geldigheid@bag,einde_geldigheid@bag,id@bag,landelijk_id@bag,huisnummer_toevoeging@bag,postcode@bag,type@bag,adres_nummer@bag,...,bron_id_3@bag,eigendomsverhouding_id@bag,financieringswijze_id@bag,gebruik_id@bag,ligging_id@bag,locatie_ingang_id@bag,reden_afvoer_id@bag,reden_opvoer_id@bag,status_id_3@bag,toegang_id@bag
0,,gv00000402,,,03630000170034,0363200000170034,,1033bh,01,,...,,01,110,1800,03,,,,21,
1,,gv00000402,,,03630000007397,0363200000007397,4,1054cz,01,,...,,01,500,1800,03,,,11,21,01
2,,gv00000402,,,03630000174048,0363200000174048,,1095ka,01,,...,,01,110,1800,04,,,11,21,
3,,gv00000402,,,03630000009908,0363200000009908,h,1072ts,01,,...,,02,,3641,03,,,,21,
4,,gv00000402,,,03630000007675,0363200000007675,h,1054dp,01,,...,,02,500,1800,03,,,,21,
5,,gv00000402,,,03630000016545,0363200000016545,2,1016pe,01,,...,,01,500,1800,04,,,,21,
6,,gv00000402,,,03630000493153,0363200000493153,,1067ed,01,,...,,01,110,1800,03,,,,21,08
7,,gv00000403,,,03630001977085,0363200001977085,,1101bb,01,,...,,,,3175,04,,,31,21,
8,,gv00000403,,,03630000542995,0363200000542995,,1016ad,01,,...,,02,500,1800,03,,,36,21,01
9,,gv00000402,,,03630000170119,0363200000170119,,1033bm,01,,...,,01,500,1800,03,,,,21,


In [11]:
###########################
## Clean hotline dataset ##
###########################

hotlinePipeline = Pipeline(steps=[
    ('clean', CleanTransformer(
        id_column=hotlineDataset.id_column,
        drop_duplicates=True,
        lower_string_columns=True,
        impute_missing_values=True)
    )])

hotline = hotlinePipeline.fit_transform(hotlineDataset.data)

Dataframe "hotline": Dropped 0 duplicates!
Lowered strings of cols ['mdw_code', 'overtreding_code', 'melder_anoniem', 'melder_naam', 'melder_emailadres', 'melder_telnr', 'situatie_schets', 'user_created', 'user_modified'] in df hotline!


In [14]:
#########################
## Clean adres dataset ##
#########################

adres_remove = [# Remove because cols do not exists when melding is received
                    'wzs_update_datumtijd',
                    # Remove because cols do not add extra information.
                    'kmrs',
                    'straatcode',
                    'xref',
                    'yref',
                    'postcode',
                    'wzs_buurtcode_os_2015',
                    'wzs_buurtcombinatiecode_os_2015',
                    'wzs_stadsdeelcode_os_2015',
                    'sttnaam',
                    'hvv_dag_tek', # Empty column
                    'max_vestig_dtm', # Empty column
                    'wzs_22gebiedencode_os_2015', # Empty column
                    'wzs_22gebiedennaam_os_2015', # Empty column
                    'sdl_naam',
                    'pvh_cd',
                    'sbv_code',
                    'sbw_code',
                    'wzs_wijze_verrijking_geo',
                    'wzs_22gebiedencode_2015',
                    'brt_naam',
                    'wzs_buurtnaam_os_2015',
                    'wzs_buurtcombinatienaam_os_2015',
                    'wzs_rayonnaam_os_2015',
                    'wzs_rayoncode_os_2015',
                    'wzs_stadsdeelnaam_os_2015',
                    'wzs_alternatieve_buurtennaam_os_2015',
                    'wzs_alternatieve_buurtencode_os_2015',
                    'hsltr',
                    'wzs_geom',
                    'brt_code',
                    'brtcombi_code',
                    'brtcombi_naam',
                    'sdl_code',
                    'wzs_22gebiedennaam_2015',
                    'wzs_id',
                    'a_dam_bag',
                    'landelijk_bag']

bag_remove = ['einde_geldigheid@bag',               # Only 2 entries in column.
              'verhuurbare_eenheden@bag',           # Only ~2k entries in column.
              'geometrie@bag',                      # Needs a lot of processing before being useful.
              'bron_id@bag',                        # Only 2 entries in column.
              'locatie_ingang_id@bag',              # Only 2 entries in column.
              'reden_afvoer_id@bag',                # Only a few entries in column.
              '_gebiedsgerichtwerken_id@bag',       # Superfluous (gebied).
              '_grootstedelijkgebied_id@bag',       # Superfluous (grootstedelijkgebied).
              'buurt_id@bag',                       # Superfluous (buurt).
              # ONDERSTAANDE 4 KOLOMMEN KONDEN EERDER NIET WEG IVM MATCH MET ADRES DATAFRAME.
              # DEZE MOETEN NU WEL WEG, DAAROM WORDT NU HIER ALLES WEGGEHAALD.
              '_openbare_ruimte_naam@bag',          # Superfluous (straatnaam).
              '_huisnummer@bag',                    # Superfluous (huisnummer).
              '_huisletter@bag',                    # Superfluous (huisletter).
              '_huisnummer_toevoeging@bag',         # Superfluous (huisnummer toevoeging).
              'vervallen@bag',                      # Superfluous (all values in col are equal).
              'mutatie_gebruiker@bag',              # Superfluous (all values in col are equal).
              'document_mutatie@bag',               # Not available at time of signal.
              'date_modified@bag',                  # Not available at time of signal.
              'document_nummer@bag',                # Not needed? (Swaan?)
              'status_coordinaat_omschrijving@bag', # Not needed? (Swaan?)
              'type_woonobject_code@bag',           # Not needed? (Swaan?)
              'id@bag',                             # Not needed.
              'landelijk_id@bag'                    # Not needed.
              ]

# Hier de extract stap weghalen? Deze past waarschijnlijk beter na het combinen v/d datasets.
adresPipeline = Pipeline(steps=[
    ('clean', CleanTransformer(
        id_column=adresDataset.id_column,
        drop_duplicates=True,
        drop_columns=adres_remove + bag_remove,
        fix_date_columns=['hvv_dag_tek', 'max_vestig_dtm', 'wzs_update_datumtijd'],
        lower_string_columns=True,
        impute_missing_values=True,
        fillna_columns={'hsnr': 0, 'sttnaam': 'None', 'hsltr': 'None', 'toev': 'None'})
    ),
    ('extract', FeatureExtractionTransformer(
        categorical_cols_hot=['toev', 'pvh_omschr', 'sbw_omschr', 'sbv_omschr'],
        ))
    ])

adres = adresPipeline.fit_transform(adresDataset.data)

Dataframe "adres": Dropped 0 duplicates!


AttributeError: 'CleanTransformer' object has no attribute 'data'

In [None]:
######################
## Combine datasets ##
######################

adresDataset.enrich_with_bag(bagDataset.data)
adresDataset.enrich_with_personen_features(personenDataset.data)
adresDataset.add_hotline_features(hotlineDataset.data)

# Remove adres_id, since this is not a feature we want our algorihtm to try and learn from.
adresDataset.data.drop(columns='adres_id', inplace=True)