# 1 Housekeeping

## 1.1 Load libraries

In [None]:
import pandas as pd
import numpy as np
import plotly.express as px
import geojson
import mapbox
from shapely.geometry import MultiPoint, MultiLineString, MultiPolygon
from branca.element import Figure
import folium
import missingno as msno

In [None]:
pd.set_option("display.max_columns", 100)
pd.set_option("display.max_rows", 100)

## 1.2 Load data

### CBS theft

In [None]:
df = pd.read_csv(r'D:\Jupyter Notebooks\temp\data\cbs_diefstallen.csv', sep = ';', na_values ='       .')
df = df[df['GebruikVanGeweld']== 'T001540']
df = df.drop('GebruikVanGeweld', axis=1)
df = df[df['SoortDiefstal']!= 'CRI1134' ]
df['Perioden'] = df['Perioden'].str.split('JJ00').str[0].astype('int')

df = df.rename(columns = {'TotaalGeregistreerdeDiefstallen_1': 'Nr', 'GeregistreerdeDiefstallenPer1000Inw_3' : 'Rel_diefstal'})
df = df.drop('Rel_diefstal', axis=1)

In [None]:
df['SoortDiefstal'] = np.where(df['SoortDiefstal']== 'CRI1122', 'Diefstal van fiets', df['SoortDiefstal']  )
df['SoortDiefstal'] = np.where(df['SoortDiefstal']== 'CRI1123', 'Diefstal van bromfiets/snorfiets', df['SoortDiefstal']  )

df['SoortDiefstal'] = np.where(df['SoortDiefstal']== 'CRI1124', 'Diefstal van motor/scooter', df['SoortDiefstal']  )
df['SoortDiefstal'] = np.where(df['SoortDiefstal']== 'CRI1125', 'Diefstal van personenauto', df['SoortDiefstal']  )

df['SoortDiefstal'] = np.where(df['SoortDiefstal']== 'CRI1127', 'Diefstal van vaartuig', df['SoortDiefstal']  )
df['SoortDiefstal'] = np.where(df['SoortDiefstal']== 'CRI1128', 'Diefstal uit/vanaf personenauto', df['SoortDiefstal']  )

df['SoortDiefstal'] = np.where(df['SoortDiefstal']== 'CRI1131', 'Diefstal van dier', df['SoortDiefstal']  )
df['SoortDiefstal'] = np.where(df['SoortDiefstal']== 'CRI1132', 'Straatroof', df['SoortDiefstal']  )

df['SoortDiefstal'] = np.where(df['SoortDiefstal']== 'CRI1133', 'Zakkenrollerij', df['SoortDiefstal']  )
df['SoortDiefstal'] = np.where(df['SoortDiefstal']== 'CRI1135', 'Diefstal/inbraak uit woning', df['SoortDiefstal'] )

df['SoortDiefstal'] = np.where(df['SoortDiefstal']== 'CRI1137', 'Winkeldiefstal', df['SoortDiefstal']  )
df['SoortDiefstal'] = np.where(df['SoortDiefstal']== 'CRI1144', 'Overval', df['SoortDiefstal'] )


In [None]:
crimes = ['Diefstal van fiets', 'Diefstal van personenauto', 'Straatroof', 'Zakkenrollerij', 'Winkeldiefstal']

#df = df[df['SoortDiefstal'].isin(crimes)]
df.head()

### Gemeentes

In [None]:
gemeentes_2018= pd.read_csv(r'D:\Jupyter Notebooks\temp\data\gemeente_2018.csv')
gemeentes_2019= pd.read_csv(r'D:\Jupyter Notebooks\temp\data\gemeente_2019.csv')
gemeentes_2020= pd.read_csv(r'D:\Jupyter Notebooks\temp\data\gemeente_2020.csv')
gemeentes_2021= pd.read_csv(r'D:\Jupyter Notebooks\temp\data\gemeente_2021.csv')

#merge
gemeentes = gemeentes_2018.append(gemeentes_2019).append(gemeentes_2020).append(gemeentes_2021)
gemeentes = gemeentes.drop_duplicates(subset=['Gemeentecode', 'GemeentecodeGM', 'Gemeentenaam'], keep='last')
gemeentes.head()

### Geojson

In [None]:
#html_link
gemeente_json_html = f"https://gis.vng.nl/v2/assets/geojson/g2020.geojson" 

#geojson
gemeente_json = geojson.load(open('geojson_gemeente_2020.geojson', 'r'))
gemeente_json ['features'][1]


In [None]:
#create id in geojson
for feature in gemeente_json['features']:
    feature['id'] = feature['properties']['code']

### Merge and pivot

In [None]:
data = df.merge(gemeentes[['GemeentecodeGM', 'Gemeentenaam', 'Provincienaam']], how = 'inner', left_on = 'RegioS', right_on = 'GemeentecodeGM')
data = data[['ID', 'Provincienaam', 'GemeentecodeGM',  'Gemeentenaam', 'SoortDiefstal',  'Perioden', 'Nr']]
data.head()

In [None]:
#create pivot
data_pivot = pd.pivot_table(data.drop('ID', axis=1) , index = ['Provincienaam', 'GemeentecodeGM',  'Gemeentenaam', 'Perioden'], 
                            columns = 'SoortDiefstal',
                           aggfunc = np.mean,
                           fill_value = np.nan)

#create list of multi-level column names
mi = data_pivot.columns
mi.tolist()


#only keep the second element in the list
ind = pd.Index( [e[0] + "_" + e[1] for e in mi.tolist()])

#set the list as the column title
data_pivot.columns = ind

#flatten multlevel index
data_pivot = data_pivot.rename_axis(['Provincienaam', 'GemeentecodeGM',  'Gemeentenaam', 'Perioden']).reset_index()

#create id
data_pivot['id'] = data_pivot['GemeentecodeGM'].str.split('GM').str[1]

data_pivot.head()

In [None]:
data_pivot[data_pivot['Perioden']==2020].nlargest(10, 'Nr_Zakkenrollerij')['Gemeentenaam']


# 2 Plotting

In [None]:
data_plotly = data_pivot.copy()
data_plotly ['log_scale'] = np.log10(data_plotly ['Nr_Diefstal van fiets']+1)
data_plotly=data_plotly[data_plotly['Perioden']==2020]

In [None]:
fig2 = px.choropleth_mapbox(data_frame = data_plotly,
              locations= "id",
              geojson = gemeente_json,
              color = 'log_scale',
              mapbox_style = 'carto-positron',
              center = {'lat': 52.153, 'lon':5.3842 },
              zoom = 5,
              opacity  = 0.5,
              color_continuous_scale="Blues",
              #color_continuous_scale = px.colors.diverging.Bluered,
              range_color=(0, data_plotly['log_scale'].max()),
              #color_continuous_midpoint = 0,
              hover_name = 'Gemeentenaam',
              hover_data = ['Nr_Diefstal van fiets'])

fig2.show()