# CJIB


In [1]:
import pandas as pd

from visions.core.functional import type_inference_report_frame, compare_detect_inference_frame
from visions.core.implementations import visions_standard_set
from visions.core.implementations.types import *
from visions.core.model.type import evolve_relation
pd.options.display.max_columns = None
pd.options.display.max_rows = None

## Speed offences

In [14]:
df = pd.read_csv('../data/cjib/snelheidsovertredingen_2018.csv', sep=';')
df.head(10)

Unnamed: 0,categorie,overtreding,oms_feitgroep,mate_overschrijding,aantal
0,VL,gedrag,Snelheid autosnelwegen,6,67.577
1,VA,gedrag,Snelheid binnen bebouwde kom,12,89.23
2,VA,gedrag,Snelheid binnen bebouwde kom,23,8.731
3,VD,wegwerkzaamheden (bord A1),Snelheid binnen bebouwde kom,11,67.0
4,VF,gedrag,Snelheid buiten bebouwde kom,12,28.81
5,VA,gedrag,Snelheid binnen bebouwde kom,16,30.328
6,VM,bord A1,Snelheid autosnelwegen,23,12.204
7,VO,wegwerkzaamheden (bord A1),Snelheid autosnelwegen,6,6.884
8,VL,gedrag,Snelheid autosnelwegen,38,278.0
9,VN,bord A3,Snelheid autosnelwegen,24,1.0


In [11]:
df.dtypes

categorie               object
overtreding             object
oms_feitgroep           object
mate_overschrijding      int64
aantal                 float64
dtype: object

The type problem here is that aantal is considered a float, while the period actually is a thousand separator.

In [12]:
typeset = visions_standard_set()

report = type_inference_report_frame(df, typeset)
print(report)

oms_feitgroep            visions_string                 == visions_string                 
overtreding              visions_string                 == visions_string                 
mate_overschrijding      visions_integer                == visions_integer                
aantal                   visions_float                  == visions_float                  
categorie                visions_string                 == visions_string                 
In total 0 out of 5 types were changed.



To mitigate the problem, we utilize `read_csv`'s `thousands` argument.

In [15]:
df = pd.read_csv('../data/cjib/snelheidsovertredingen_2018.csv', sep=';', thousands='.')

typeset = visions_standard_set()

report = type_inference_report_frame(df, typeset)
print(report)

oms_feitgroep            visions_string                 == visions_string                 
overtreding              visions_string                 == visions_string                 
mate_overschrijding      visions_integer                == visions_integer                
aantal                   visions_integer                == visions_integer                
categorie                visions_string                 == visions_string                 
In total 0 out of 5 types were changed.



## Route inspections


In [22]:
df = pd.read_csv('../data/cjib/trajectcontrole_2018.csv', sep=';', thousands='.')
df.sample(10)

Unnamed: 0,systeem,feitgroep,projcode,mate,aantal,initieelbedrag,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,A4 (Hoofddorp rechts),KL0601
124,WAHV,Snelheid,KL0623,A tem_10km,30706,1058370,,,,,,,,
48,WAHV,Snelheid,KL0608,C 16_tem_20km,2164,253508,,,,,,,,
25,WAHV,Snelheid,KL0604,D 20_tem_25km,995,138844,,,,,,,Zeeland: Westerscheldetunnel oostbuis,19TR06
41,WAHV,Snelheid,KL0607,B 11_tem_15km,9499,843392,,,,,,,,
106,WAHV,Snelheid,KL0620,A tem_10km,279547,9545191,,,,,,,,
35,WAHV,Snelheid,KL0606,B 11_tem_15km,8531,763812,,,,,,,,
117,WAHV,Snelheid,KL0621,F 31_tem_39km,2319,543823,,,,,,,,
2,WAHV,Snelheid,19TR05,C 16_tem_20km,374,54083,,,,,,,A13 (Rotterdam links),KL0604
137,WAHV,Snelheid,KL0625,B 11_tem_15km,3309,309594,,,,,,,,
18,WAHV,Snelheid,KL0602,C 16_tem_20km,2339,272694,,,,,,,A4 (Den Haag - Amsterdam) Leidschendam links,KL0622


In [5]:
df.dtypes

systeem                   object
feitgroep                 object
projcode                  object
mate                      object
aantal                   float64
initieelbedrag            object
Unnamed: 6               float64
Unnamed: 7               float64
Unnamed: 8               float64
Unnamed: 9               float64
Unnamed: 10              float64
Unnamed: 11              float64
A4 (Hoofddorp rechts)     object
KL0601                    object
dtype: object

...

In [19]:
typeset = visions_standard_set()

report = type_inference_report_frame(df, typeset)
print(report)

PROVINCIE         visions_string                 == visions_string                 
PRODUCT           visions_string                 == visions_string                 
BEDRAG            visions_string                 == visions_string                 
FEITCODE          visions_string                 == visions_string                 
OMSCHRIJVING      visions_string                 == visions_string                 
GEMEENTE          visions_string                 == visions_string                 
ZAKEN             visions_integer                == visions_integer                
In total 0 out of 7 types were changed.



## Incoming cases

In [18]:
df = pd.read_csv('../data/cjib/instroom_zaken_2018.csv', sep=';', encoding='latin-1')
df.head(10)

Unnamed: 0,PRODUCT,PROVINCIE,GEMEENTE,FEITCODE,OMSCHRIJVING,ZAKEN,BEDRAG
0,OM-afdoening,Groningen,Appingedam,A917A,"Met een motorrijtuig, niet zijnde brom-fiets,r...",1,600
1,OM-afdoening,Groningen,Appingedam,D505,Op openbare weg/voor publiek toeg.plaatstegen ...,1,230
2,OM-afdoening,Groningen,Appingedam,D510,In staat v.dronkensch.het verkeer belem-meren/...,2,760
3,OM-afdoening,Groningen,Appingedam,D515,Door het bevoegd gezag naar zijn naamgevraagd ...,1,380
4,OM-afdoening,Groningen,Appingedam,D517,Niet voldoen aan verplichting om identi-teitsb...,11,998
5,OM-afdoening,Groningen,Appingedam,D530,Zich in kennelijke staat van dronken-schap op ...,7,665
6,OM-afdoening,Groningen,Appingedam,D537,Zonder gerechtigd bevinden op grondwaarvan toe...,2,143
7,OM-afdoening,Groningen,Appingedam,E100A,Zonder geldig vervoersbewijs gebruikmaken van ...,4,380
8,OM-afdoening,Groningen,Appingedam,E120C,Als reiziger orde/rust etc. verstorendoor verh...,2,460
9,OM-afdoening,Groningen,Appingedam,E128,als reiziger niet opvolgen aanwijzingenbetr. o...,1,95


In [8]:
df.dtypes

PRODUCT         object
PROVINCIE       object
GEMEENTE        object
FEITCODE        object
OMSCHRIJVING    object
ZAKEN            int64
BEDRAG          object
dtype: object

There are no type issues.

In [20]:
typeset = visions_standard_set()

report = type_inference_report_frame(df, typeset)
print(report)

PROVINCIE         visions_string                 == visions_string                 
PRODUCT           visions_string                 == visions_string                 
BEDRAG            visions_string                 == visions_string                 
FEITCODE          visions_string                 == visions_string                 
OMSCHRIJVING      visions_string                 == visions_string                 
GEMEENTE          visions_string                 == visions_string                 
ZAKEN             visions_integer                == visions_integer                
In total 0 out of 7 types were changed.

