In [1]:
%matplotlib inline
# standard
import sys
import os
import json

# pandas
import pandas as pd

# numpy, matplotlib, seaborn
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# needed for project imports
sys.path.append(os.path.join(os.getcwd(), "../.."))

# project imports
from housepredictor.extractor import extract_preliminary, DictMultiExtractor, sanitize_data, sanitize_record


# this styling is purely my preference
# less chartjunk
sns.set_context('notebook', font_scale=1.5, rc={'line.linewidth': 2.5})
sns.set(style='ticks', palette='Set2')

In [2]:
data = next(pd.read_csv('../data/raw/2017-08-05T14-08-53-items.csv', chunksize=2000))
rawdicts = [eval( data.loc[i, 'data']) for i in range(data.shape[0])]

In [3]:
KEY_NAMES = [
    'AantalBadkamers',
    'AantalKamers',
    'AantalWoonlagen',
    'Aanvaarding',
    'Adres',
    'AfgekochtDatum',
    'BalkonDakterras',
    'BijdrageVVE',
    'Bijzonderheden',
    'Bouwjaar',
    'Bouwvorm',
    'BronCode',
    'EigendomsSituatie',
    'Energielabel.Definitief',
    'Energielabel.Index',
    'Energielabel.Label',
    'Energielabel.NietBeschikbaar',
    'Energielabel.NietVerplicht',
    'ErfpachtBedrag',
    'Garage',
    'GarageIsolatie',
    'GarageVoorzieningen',
    'GelegenOp',
    'GlobalId',
    'Inhoud',
    'Isolatie',
    'Koopprijs',
    'Ligging',
    'PerceelOppervlakte',
    'Perceeloppervlakte',
    'PermanenteBewoning',
    'Postcode',
    'ShortURL',
    'PublicatieDatum',
    'SchuurBerging',
    'SchuurBergingIsolatie',
    'SchuurBergingVoorzieningen',
    'ServiceKosten',
    'Soort-aanbod',
    'SoortDak',
    'SoortParkeergelegenheid',
    'SoortPlaatsing',
    'SoortWoning',
    'TuinLigging',
    'Verwarming',
    'VolledigeOmschrijving',
    'Voorzieningen',
    'WGS84_X',
    'WGS84_Y',
    'WarmWater',
    'WoonOppervlakte',
    'Woonplaats',
]


In [10]:
rawdicts[10]

{'AangebodenSinds': '/Date(1304895958000+0200)/',
 'AangebodenSindsTekst': '6+ maanden',
 'AanmeldDatum': '/Date(1262300400000+0100)/',
 'AantalBadkamers': None,
 'AantalBeschikbaar': None,
 'AantalKamers': None,
 'AantalKavels': None,
 'AantalSlaapkamers': None,
 'AantalWoonlagen': None,
 'Aanvaarding': 'In overleg',
 'Adres': 'Zwartebessenstraat',
 'AfgekochtDatum': None,
 'Afstand': 0,
 'BalkonDakterras': '',
 'BedrijfsruimteCombinatieObject': None,
 'BezichtingDagdelen': [],
 'BezichtingDagen': [],
 'BijdrageVVE': None,
 'Bijzonderheden': '',
 'Bouwjaar': None,
 'Bouwvorm': None,
 'BronCode': 'NVM',
 'ChildrenObjects': [],
 'ContactpersoonEmail': '',
 'ContactpersoonTelefoon': '',
 'Cv': None,
 'DatumAanvaarding': None,
 'DatumOndertekeningAkte': None,
 'Deeplink': None,
 'DetailInfo': {'HasPromotionLabel': False,
  'PromotionLabelType': 0,
  'RibbonColor': 0,
  'RibbonText': None,
  'Tagline': None},
 'EersteHuurPrijs': None,
 'EersteHuurPrijsLang': None,
 'EersteKoopPrijs': None,

In [4]:
extraction_specs = [{'key': key} for key in KEY_NAMES]
extractor = DictMultiExtractor(extraction_specs, sep='.')
extractor(rawdicts[0])

{'AantalBadkamers': None,
 'AantalKamers': 6,
 'AantalWoonlagen': '1 woonlaag',
 'Aanvaarding': 'In overleg',
 'Adres': 'Sloestraat 19',
 'AfgekochtDatum': None,
 'BalkonDakterras': None,
 'BijdrageVVE': None,
 'Bijzonderheden': '',
 'Bouwjaar': '2002',
 'Bouwvorm': 'bestaande bouw',
 'BronCode': 'VBO',
 'EigendomsSituatie': 'volle eigendom',
 'Energielabel.Definitief': False,
 'Energielabel.Index': None,
 'Energielabel.Label': 'B',
 'Energielabel.NietBeschikbaar': False,
 'Energielabel.NietVerplicht': False,
 'ErfpachtBedrag': 0,
 'Garage': 'aangebouwde stenen',
 'GarageIsolatie': 'geen spouw',
 'GarageVoorzieningen': None,
 'GelegenOp': None,
 'GlobalId': 3022972,
 'Inhoud': 359,
 'Isolatie': 'vloerisolatie, volledig geïsoleerd en dubbel glas',
 'Koopprijs': 215000,
 'Ligging': 'aan rustige weg',
 'PerceelOppervlakte': 230,
 'Perceeloppervlakte': 230,
 'PermanenteBewoning': 'permanente bewoning is toegestaan',
 'Postcode': '4456AN',
 'PublicatieDatum': '/Date(1431387323000+0200)/',
 

In [5]:
df =  extract_preliminary(pd.Series(rawdicts), KEY_NAMES)
san_df = sanitize_data(df)

In [6]:
san_df['Koopprijs']

0     215000.0
1     137500.0
2     389000.0
3     363000.0
4     490000.0
5     529000.0
6     499999.0
7     359000.0
8     149000.0
9     250000.0
10    185000.0
11    315000.0
12    179500.0
13    189000.0
14    159000.0
15    225000.0
16    185000.0
17    239000.0
Name: Koopprijs, dtype: float64

In [7]:
san_df.drop('VolledigeOmschrijving', axis='columns').info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 18 entries, 0 to 17
Data columns (total 46 columns):
AantalBadkamers                 9 non-null float64
AantalKamers                    17 non-null float64
BijdrageVVE                     0 non-null float64
Energielabel.Definitief         18 non-null float64
Energielabel.Index              0 non-null float64
Energielabel.NietBeschikbaar    18 non-null float64
Energielabel.NietVerplicht      18 non-null float64
ErfpachtBedrag                  16 non-null float64
Inhoud                          15 non-null float64
PerceelOppervlakte              16 non-null float64
ServiceKosten                   6 non-null float64
SoortPlaatsing                  18 non-null float64
WoonOppervlakte                 15 non-null float64
WGS84_X                         18 non-null float64
WGS84_Y                         18 non-null float64
Koopprijs                       18 non-null float64
PublicatieDatum                 18 non-null datetime64[ns]
Bouwjaar  

In [8]:
sanitize_record(rawdicts[0])

{'AantalBadkamers': nan,
 'AantalKamers': 6.0,
 'AantalWoonlagen': 1,
 'Aanvaarding': 'In overleg',
 'BalkonDakterras': None,
 'BijdrageVVE': nan,
 'Bijzonderheden': '',
 'Bouwjaar': 2002.0,
 'Bouwvorm': 'bestaande bouw',
 'BronCode': 'VBO',
 'EigendomsSituatie': 'volle eigendom',
 'Energielabel.Definitief': 0.0,
 'Energielabel.Index': nan,
 'Energielabel.Label': 'B',
 'Energielabel.NietBeschikbaar': 0.0,
 'Energielabel.NietVerplicht': 0.0,
 'ErfpachtBedrag': 0.0,
 'Garage': 'aangebouwde stenen',
 'GarageIsolatie': 'geen spouw',
 'GarageVoorzieningen': None,
 'GlobalId': 3022972,
 'Inhoud': 359.0,
 'Isolatie': 'vloerisolatie, volledig geïsoleerd en dubbel glas',
 'Koopprijs': 215000.0,
 'Ligging': 'aan rustige weg',
 'PerceelOppervlakte': 230.0,
 'PermanenteBewoning': 'permanente bewoning is toegestaan',
 'PublicatieDatum': Timestamp('2015-05-12 02:35:23'),
 'SchuurBerging': None,
 'SchuurBergingIsolatie': None,
 'SchuurBergingVoorzieningen': None,
 'ServiceKosten': nan,
 'ShortURL': '