### Imports

In [None]:
import pandas as pd
import numpy as np
import json
from pandas.io.json import json_normalize    
import sklearn
import re

pd.options.display.max_columns = 999
from IPython.display import display, HTML

### Load data

In [None]:
def sum_years(buurtinfo_merged, row):
    year = row.loc['attributes.TELJAAR']
    buurt = row.loc['WijkenEnBuurten']
    buurtinfo_merged_filter = buurtinfo_merged[buurtinfo_merged['WijkenEnBuurten']==buurt]
    aantal = buurtinfo_merged_filter[buurtinfo_merged_filter['attributes.TELJAAR'] <= year]['attributes.AANTAL'].sum()
    return aantal

In [None]:
def change_duplicate_columns(columns):
    seen = []
    final = []
    for column in columns:
        if column in seen:
            final.append(column + '1')
        else:
            final.append(column)
        seen.append(column)
    return final
    

In [None]:
def remove_numbers(columname):
    splitted = columname.split('_')
    if len(splitted) > 1:
        splitted = splitted[:-1]
        if len(splitted) > 1:
            return '_'.join(splitted)
    return splitted[0]

In [None]:
to_keep = ['WijkenEnBuurten', 'SoortRegio',
'AantalInwoners', 'Mannen', 'Vrouwen',
'k_0Tot15Jaar', 'k_15Tot25Jaar', 'k_25Tot45Jaar', 'k_45Tot65Jaar',
'k_65JaarOfOuder', 'Ongehuwd', 'Gehuwd', 'Gescheiden', 'Verweduwd',
'WestersTotaal', 'NietWestersTotaal',
'GeboorteRelatief', 'SterfteRelatief', 'HuishoudensTotaal',
'Eenpersoonshuishoudens', 'HuishoudensZonderKinderen',
'HuishoudensMetKinderen', 'GemiddeldeHuishoudensgrootte',
'Bevolkingsdichtheid', 'Woningvoorraad', 'GemiddeldeWoningwaarde',
'PercentageEengezinswoning', 'PercentageMeergezinswoning',
'PercentageBewoond', 'Koopwoningen',
'HuurwoningenTotaal', 'InBezitWoningcorporatie', 'InBezitOverigeVerhuurders',
'BouwjaarVoor2000', 'BouwjaarVanaf2000',
'GemiddeldElektriciteitsverbruikTotaal', 'Appartement', 'Tussenwoning',
'Hoekwoning', 'TweeOnderEenKapWoning', 'VrijstaandeWoning', 'Huurwoning', 'GemiddeldAardgasverbruikTotaal',
'AantalInkomensontvangers', 'GemiddeldInkomenPerInkomensontvanger',
'GemiddeldInkomenPerInwoner', 'k_40PersonenMetLaagsteInkomen',
'k_20PersonenMetHoogsteInkomen', 'k_20HuishoudensMetHoogsteInkomen',
'HuishoudensMetEenLaagInkomen', 'HuishOnderOfRondSociaalMinimum',
'BedrijfsvestigingenTotaal',
'PersonenautoSTotaal', 'PersonenautoSJongerDan6Jaar',
'PersonenautoS6JaarEnOuder', 'PersonenautoSBrandstofBenzine',
'PersonenautoSOverigeBrandstof', 'PersonenautoSPerHuishouden',
'PersonenautoSNaarOppervlakte', 'Motorfietsen',
'MateVanStedelijkheid','Omgevingsadressendichtheid']

buurtinfo2017 = pd.read_csv('../data/groningen/groningen_kern2017.csv',sep=';', encoding = "ISO-8859-1", skipinitialspace=True)
columns = buurtinfo2017.columns.map(remove_numbers)
buurtinfo2017.columns = columns
buurtinfo2017 = buurtinfo2017[to_keep]
buurtinfo2017['attributes.TELJAAR'] = 2017
buurtinfo2017.columns = change_duplicate_columns(buurtinfo2017.columns)

buurtinfo2016 = pd.read_csv('../data/groningen/groningen_kern2016.csv',sep=';', encoding = "ISO-8859-1", skipinitialspace=True)
columns = buurtinfo2016.columns.map(remove_numbers)
buurtinfo2016.columns = columns
buurtinfo2016 = buurtinfo2016[to_keep]
buurtinfo2016['attributes.TELJAAR'] = 2016
buurtinfo2016.columns = change_duplicate_columns(buurtinfo2016.columns)

buurtinfo2015 = pd.read_csv('../data/groningen/groningen_kern2015.csv',sep=';', encoding = "ISO-8859-1", skipinitialspace=True)
columns = buurtinfo2015.columns.map(remove_numbers)
buurtinfo2015.columns = columns
buurtinfo2015 = buurtinfo2015[to_keep]
buurtinfo2015['attributes.TELJAAR'] = 2015
buurtinfo2015.columns = change_duplicate_columns(buurtinfo2015.columns)

buurtinfo2014 = pd.read_csv('../data/groningen/groningen_kern2014.csv',sep=';', encoding = "ISO-8859-1", skipinitialspace=True)
columns = buurtinfo2014.columns.map(remove_numbers)
buurtinfo2014.columns = columns
buurtinfo2014 = buurtinfo2014.rename(columns={'Motortweewielers':'Motorfietsen'})
buurtinfo2014 = buurtinfo2014[to_keep]
buurtinfo2014['attributes.TELJAAR'] = 2014
buurtinfo2014.columns = change_duplicate_columns(buurtinfo2014.columns)

buurtinfo2013 = pd.read_csv('../data/groningen/groningen_kern2013.csv',sep=';', encoding = "ISO-8859-1", skipinitialspace=True)
columns = buurtinfo2013.columns.map(bla)
buurtinfo2013.columns = columns
buurtinfo2013 = buurtinfo2013.rename(columns={'RegioS':'WijkenEnBuurten'})
buurtinfo2013 = buurtinfo2013.rename(columns={'Motortweewielers':'Motorfietsen'})
buurtinfo2013 = buurtinfo2013.rename(columns={'PersonenMetLaagInkomen':'k_40PersonenMetLaagsteInkomen'})
buurtinfo2013 = buurtinfo2013.rename(columns={'PersonenMetHoogInkomen':'k_20PersonenMetHoogsteInkomen'})
buurtinfo2013 = buurtinfo2013.rename(columns={'HuishoudensMetLaagInkomen':'HuishoudensMetEenLaagInkomen'})
buurtinfo2013 = buurtinfo2013.rename(columns={'HuishoudensMetHoogInkomen':'k_20HuishoudensMetHoogsteInkomen'})
buurtinfo2013 = buurtinfo2013[to_keep]
buurtinfo2013['attributes.TELJAAR'] = 2013
buurtinfo2013.columns = change_duplicate_columns(buurtinfo2013.columns)

buurtinfo = pd.concat([buurtinfo2013,buurtinfo2014,buurtinfo2015,buurtinfo2016,buurtinfo2017], axis=0, ignore_index=True)
buurtinfo = buurtinfo[buurtinfo['SoortRegio'].str.strip() == 'Buurt']

buurtinfo['WijkenEnBuurten'] = buurtinfo['WijkenEnBuurten'].map(lambda x: int(x.lstrip('BU00')))
buurtinfo

In [None]:
zonnepanelen = pd.read_csv('../data/groningen/zonnepanelen_buurtcodes.csv', encoding = "ISO-8859-1", skipinitialspace=True)
zonnepanelen = zonnepanelen.rename(columns={'Buurt2017':'WijkenEnBuurten'})
zonnepanelen = zonnepanelen.dropna(subset=["WijkenEnBuurten"])
zonnepanelen['WijkenEnBuurten'] = zonnepanelen['WijkenEnBuurten'].map(int)
zonnepanelen = zonnepanelen.groupby(['attributes.TELJAAR', 'WijkenEnBuurten'], as_index=False).sum()
buurtinfo_merged = buurtinfo.merge(zonnepanelen[['attributes.TELJAAR', 'WijkenEnBuurten', 'attributes.AANTAL']], on=['attributes.TELJAAR', 'WijkenEnBuurten'], how='left')

In [None]:
buurtinfo_merged.loc[buurtinfo_merged['attributes.AANTAL'].isnull(),'attributes.AANTAL'] = 0
buurtinfo_merged = buurtinfo_merged[buurtinfo_merged['attributes.TELJAAR']!=2017]



In [None]:
buurtinfo_merged.dtypes

In [None]:
buurtinfo_merged['attributes.AANTAL_SUMMED'] = buurtinfo_merged.apply(lambda row: sum_years(buurtinfo_merged, row), axis=1)

In [None]:
def replace_dots(value):
    try:
        value = pd.to_numeric(value)
        return value
    except:
        return np.nan

In [None]:
for x in buurtinfo_merged.columns[2:]:
    buurtinfo_merged[x] = buurtinfo_merged[x].map(lambda y: replace_dots(y))

buurtinfo_merged = buurtinfo_merged.sort_values(['WijkenEnBuurten', 'attributes.TELJAAR']).fillna(method='pad')
buurtinfo_merged = buurtinfo_merged.sort_values(['WijkenEnBuurten', 'attributes.TELJAAR']).fillna(method='bfill')

## Add zonatlas

In [None]:
zon_atlas = pd.read_csv('../data/zon_atlas.csv', encoding = "ISO-8859-1", skipinitialspace=True)

buurtinfo_zon = buurtinfo_merged.merge(zon_atlas, on='WijkenEnBuurten', how='left')

zon_atlas = buurtinfo_zon['Zon_atlas']
buurtinfo_zon.drop(labels=['Zon_atlas'], axis=1,inplace = True)
buurtinfo_zon.insert(0, 'Zon_atlas', zon_atlas)

buurtinfo_zon.to_csv('alle_jaren_zonder_de_kut_puntjes.csv')
buurtinfo_zon.drop(labels=['Zon_atlas'], axis=1,inplace = True)
buurtinfo_zon
# buurtinfo_merged.reset_index()


## Calculate per neighbourhoods weights vectors

In [None]:
buurten = buurtinfo_zon.sort_values(['WijkenEnBuurten', 'attributes.TELJAAR'], ascending=False)
buurten

In [None]:
buurten_shifted = buurten[buurten.columns[2:]].shift() - buurten[buurten.columns[2:]]
buurten_complete = buurten_shifted.join(buurten[buurten.columns[:2]])
buurten_complete = buurten_complete[buurten_shifted['attributes.TELJAAR'] > 0]
buurten_complete = buurten_complete.drop('attributes.TELJAAR', axis=1 )
buurten_complete = buurten_complete.drop('attributes.AANTAL_SUMMED', axis=1 )
buurten_complete = buurten_complete.drop('SoortRegio', axis=1 )
buurten_complete = buurten_complete.drop('attributes.AANTAL', axis=1 )

mean_column_without_outliers = {}
for column in buurten_complete.columns[:-1]:
    mean_column_without_outliers[column] = buurten_complete[(buurten_complete[column] < 200) & (buurten_complete[column] > -200)][column].mean()

buurten_complete = buurten_complete.groupby('WijkenEnBuurten', as_index=False).mean()
buurten_complete

In [None]:
higher_lower = {}
for key, value in mean_column_without_outliers.items():
    higher_lower[key] = {'higher': value + 2*column_stdvs[key], 'lower': value - 2*column_stdvs[key]}
buurten_complete

In [None]:
column_means = {}
column_stdvs = {}
for column in buurten_complete[-3:]:
    column_means[column] = buurten_complete[column].mean()
    column_stdvs[column] = buurten_complete[column].std()

In [None]:
buurten_final = buurten_complete.copy()
for column in buurten_final:
    if column != 'WijkenEnBuurten':
        buurten_final.loc[buurten_final[column] > 200, column] = mean_column_without_outliers[column]
        buurten_final.loc[buurten_final[column] < -200, column] = -mean_column_without_outliers[column]
buurten_final


In [None]:
buurten_final['Zon_atlas'] = 1
buurten_final.to_csv('buurt_weights.csv')