In [1]:
%matplotlib inline
# standard
import sys
import os

# pandas
import pandas as pd

# numpy, matplotlib, seaborn
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# needed for project imports
sys.path.append(os.path.join(os.getcwd(), "../.."))

# project imports
from housepredictor.extractor import extract_preliminary


# this styling is purely my preference
# less chartjunk
sns.set_context('notebook', font_scale=1.5, rc={'line.linewidth': 2.5})
sns.set(style='ticks', palette='Set2')



In [30]:
KEY_NAMES = [
'AantalBadkamers',
'AantalKamers',
'AantalWoonlagen',
'Aanvaarding',
'Adres',
'AfgekochtDatum',
'BalkonDakterras',
'BijdrageVVE',
'Bijzonderheden',
'Bouwjaar',
'Bouwvorm',
'BronCode',
'EigendomsSituatie',
'Energielabel.Definitief',
'Energielabel.Index',
'Energielabel.Label',
'Energielabel.NietBeschikbaar',
'Energielabel.NietVerplicht',
'ErfpachtBedrag',
'Garage',
'GarageIsolatie',
'GarageVoorzieningen',
'GelegenOp',
'GewijzigdDatum',
'GlobalId',
'HeeftVeiling',
'HoofdTuinType',
'Inhoud',
'Isolatie',
'Koopprijs',
'Ligging',
'ObjectType',
'ObjectTypeMetVoorvoegsel',
'PerceelOppervlakte',
'Perceeloppervlakte',
'PermanenteBewoning',
'Postcode',
'PromoLabel.HasPromotionLabel',
'PromoLabel.PromotionType',
'PromoLabel.RibbonColor',
'PublicatieDatum',
'SchuurBerging',
'SchuurBergingIsolatie',
'SchuurBergingVoorzieningen',
'ServiceKosten',
'Soort-aanbod',
'SoortDak',
'SoortParkeergelegenheid',
'SoortPlaatsing',
'SoortWoning',
'ToonBezichtigingMaken',
'ToonBrochureAanvraag',
'ToonMakelaarWoningaanbod',
'ToonReageren',
'TuinLigging',
'Verwarming',
'VolledigeOmschrijving',
'Voorzieningen',
'WGS84_X',
'WGS84_Y',
'WarmWater',
'WoonOppervlakte',
'Woonoppervlakte'
]


raw_data = pd.read_json('../data/raw/scrape-results.json')
data = extract_preliminary(raw_data['data'], KEY_NAMES)


def describe_data(data, unique_values=True):
    print("NULL VALUES: ", data.isnull().sum())
    print("HEAD")
    print("="*40)
    print(data.head())
    if unique_values:
        print("\nUNIQUE_VALUES")
        print("="*40)
        print(data.value_counts())

### Feature selection


In [31]:
for col_name in data.columns:
    print("FEATURE =============== {}".format(col_name))
    print("=" * 80)
    describe_data(data[col_name])
    print("=" * 80)
    print("\n\n")

NULL VALUES:  946
HEAD
0    2.0
1    1.0
2    2.0
3    1.0
4    1.0
Name: AantalBadkamers, dtype: float64

UNIQUE_VALUES
1.0    1757
2.0     279
3.0      46
4.0      12
5.0       3
6.0       1
7.0       1
Name: AantalBadkamers, dtype: int64



NULL VALUES:  154
HEAD
0    6.0
1    4.0
2    6.0
3    6.0
4    5.0
Name: AantalKamers, dtype: float64

UNIQUE_VALUES
3.0     960
4.0     611
2.0     505
5.0     371
6.0     172
1.0      87
7.0      75
8.0      36
9.0      36
11.0     11
10.0     11
12.0      4
13.0      4
15.0      2
16.0      2
14.0      2
20.0      1
18.0      1
Name: AantalKamers, dtype: int64



NULL VALUES:  240
HEAD
0                  3 woonlagen
1    2 woonlagen en een zolder
2                  3 woonlagen
3                   1 woonlaag
4                   1 woonlaag
Name: AantalWoonlagen, dtype: object

UNIQUE_VALUES
1 woonlaag                                 1413
2 woonlagen                                 586
3 woonlagen                                 383
4 woonlagen 


NULL VALUES:  0
HEAD
0    3842583
1    3849490
2    3850266
3    3742299
4    3773039
Name: GlobalId, dtype: int64

UNIQUE_VALUES
3819416    1
3668873    1
3785445    1
3824985    1
3831128    1
3849559    1
3827030    1
3677525    1
3745108    1
3755347    1
3775520    1
3798352    1
3735838    1
3824975    1
3843406    1
3808589    1
3644187    1
3831114    1
3743049    1
3770214    1
3106114    1
3219803    1
3786959    1
3725578    1
2987483    1
3820911    1
3784057    1
3798870    1
3804535    1
3729449    1
          ..
3836578    1
3788702    1
3816096    1
3814047    1
3250846    1
3832716    1
3783171    1
3840694    1
3844792    1
3853490    1
3836624    1
3818191    1
3633109    1
3832281    1
3683019    1
3848906    1
3834569    1
3783368    1
3834567    1
3664582    1
3838661    1
3838659    1
3836610    1
3842753    1
3838655    1
3832510    1
3811305    1
3781891    1
3795642    1
3745793    1
Name: GlobalId, Length: 3045, dtype: int64



NULL VALUES:  0
HEAD
0    Fals

In [55]:
FINAL_KEYS = [
    'AantalBadkamers',
'AantalKamers',
'AantalWoonlagen',
'Aanvaarding',
'Adres',
'AfgekochtDatum',
'BalkonDakterras',
'BijdrageVVE',
'Bijzonderheden',
'Bouwjaar',
'Bouwvorm',
'BronCode',
'EigendomsSituatie',
'Energielabel.Definitief',
'Energielabel.Index',
'Energielabel.Label',
'Energielabel.NietBeschikbaar',
'Energielabel.NietVerplicht',
'ErfpachtBedrag',
'Garage',
'GarageIsolatie',
'GarageVoorzieningen',
'GelegenOp',
'GlobalId',
'Inhoud',
'Isolatie',
'Koopprijs',
'Ligging',
'PerceelOppervlakte',
'Perceeloppervlakte',
'PermanenteBewoning',
'Postcode',
'PublicatieDatum',
'SchuurBerging',
'SchuurBergingIsolatie',
'SchuurBergingVoorzieningen',
'ServiceKosten',
'Soort-aanbod',
'SoortDak',
'SoortParkeergelegenheid',
'SoortPlaatsing',
'SoortWoning',
'TuinLigging',
'Verwarming',
'VolledigeOmschrijving',
'Voorzieningen',
'WGS84_X',
'WGS84_Y',
'WarmWater',
'WoonOppervlakte',
'Woonoppervlakte'
]