In [1]:
import pandas as pd
import matplotlib as plt
import numpy as np
import bokeh
import seaborn as sb
from scipy.stats import kurtosis, skew

data = pd.read_csv('../Data/clean/finalclean3.0.csv', encoding = 'latin-1', low_memory = False)
data.dtypes

JAARTAL                    int64
STRAATNAAM                object
POSTCODE_VAN              object
POSTCODE_TOT              object
PRODUCTSOORT               int64
Aantal Aansluitingen       int64
%Leveringsrichting         int64
%Fysieke status            int64
%Soort aansluiting         int64
Soort aansluiting Naam    object
SJV                        int64
%SJV laag tarief           int64
%Slimme Meter              int64
dtype: object

In [2]:
data.isnull().sum()

JAARTAL                   0
STRAATNAAM                0
POSTCODE_VAN              0
POSTCODE_TOT              0
PRODUCTSOORT              0
Aantal Aansluitingen      0
%Leveringsrichting        0
%Fysieke status           0
%Soort aansluiting        0
Soort aansluiting Naam    0
SJV                       0
%SJV laag tarief          0
%Slimme Meter             0
dtype: int64

In [3]:
data.head()

Unnamed: 0,JAARTAL,STRAATNAAM,POSTCODE_VAN,POSTCODE_TOT,PRODUCTSOORT,Aantal Aansluitingen,%Leveringsrichting,%Fysieke status,%Soort aansluiting,Soort aansluiting Naam,SJV,%SJV laag tarief,%Slimme Meter
0,2018,De Ruyterkade Steigers,1011AA,1011AB,0,35,10,3,31,3x25,14403,4,2
1,2018,De Ruyterkade,1011AC,1011AC,0,39,10,5,28,3x80,18739,5,2
2,2018,De Ruyterkade,1011AC,1011AC,1,24,10,7,38,G6,6589,0,2
3,2018,Oosterdokskade,1011AD,1011AD,0,19,10,0,58,3x25,4026,5,0
4,2018,Oosterdokskade,1011AD,1011AE,1,11,10,0,82,G4,710,0,0


In [4]:
groups = data.groupby(['%Leveringsrichting', 'PRODUCTSOORT'])
grouped = groups['SJV'].agg(np.mean)
grouped = grouped.to_frame().reset_index()
grouped.columns = ['%Leveringsrichting','PRODUCTSOORT', 'SJV']
grouped

Unnamed: 0,%Leveringsrichting,PRODUCTSOORT,SJV
0,0,0,3430.0
1,1,0,2040.230769
2,2,0,2292.666667
3,3,0,3774.941176
4,4,0,2973.888889
5,5,0,3143.540541
6,6,0,4069.205128
7,7,0,3741.951076
8,8,0,4008.451172
9,9,0,3859.021019


In [17]:
from bokeh.core.properties import value
from bokeh.io import show, output_file
from bokeh.models import ColumnDataSource
from bokeh.plotting import figure
from bokeh.transform import dodge

bin_list = ['0','1','2','3','4','5','6','7','8','9','10']
sjv_list = [x for x in grouped['SJV']]
dic_data = {'bins': bin_list,
            'sjv' : sjv_list[:11]}

source = ColumnDataSource(data=dic_data)

p = figure(x_range=bin_list, y_range=(2000, 5000), plot_height=500, title="Gemiddeld verbruik per leveringsrichtinggroep",
           toolbar_location=None, tools=["pan","zoom_in","wheel_zoom","zoom_out"], x_axis_label='leveringsrichtinggroepen',
          y_axis_label='sjv')



p.vbar(x=dodge('bins', -0.125, range=p.x_range), top='sj', width=0.2, source=source,
       color="#718dbf")


p.x_range.range_padding = 0.1
p.xgrid.grid_line_color = None


show(p)