# CBR Data

In [1]:
import pandas as pd

from visions.core.functional import type_inference_report_frame, compare_detect_inference_frame
from visions.core.implementations import visions_standard_set
from visions.core.implementations.types import *
from visions.core.model.type import evolve_relation
pd.options.display.max_columns = None
pd.options.display.max_rows = None

## Diploma's

In [2]:
df = pd.read_csv('../data/cbr/diplomas_jul2017_jun2018.csv', sep=';')
df.head(10)

Unnamed: 0,Weeknummer,DiplomaCode,DiplomaOmschrijving,Totaal
0,2017/26,ADRB,certificaat ADR Basis,19
1,2017/26,ADRBR,certificaat ADR Basis en Klasse 7,1
2,2017/26,ADRBT,certificaat ADR Basis en Tank,9
3,2017/26,ADRBV,"certificaat ADR Basis, Tank, Klasse 1 en Klasse 7",5
4,2017/26,ATPLA,Theorie-examens ATPLA,2
5,2017/26,BVASB,Diploma aspirant schipper binnenvaart,6
6,2017/26,BVDTG,ADN-diploma droge lading en tank,1
7,2017/26,BVRAD,Diploma radar,1
8,2017/26,BVRKM,"Diploma schipper rivieren, kanalen en meren",1
9,2017/26,BVRYN,Diploma schipper rijnvaart,5


In [3]:
df.dtypes

Weeknummer             object
DiplomaCode            object
DiplomaOmschrijving    object
Totaal                  int64
dtype: object

Type problems:

* (1) `Weeknummer` should be recognized as a datetime.
* (2) categoricals are being stored as object
* (3) `Totaal` is non-negative, could be stored as unsigned int

In [4]:
typeset = visions_standard_set()

report = type_inference_report_frame(df, typeset)
print(report)

DiplomaOmschrijving      visions_string                 == visions_string                 
Weeknummer               visions_string                 == visions_string                 
DiplomaCode              visions_string                 == visions_string                 
Totaal                   visions_integer                == visions_integer                
In total 0 out of 4 types were changed.



`visions.lib` contains an InferenceRelation from `visions_string` to `visions_datetime` that tests for this pattern.

We have seen the issues (2) and (3) before, hence we skip describing those (rdw.ipynb)

In [5]:
from visions.lib.relations.string_to_datetime import string_to_datetime_year_week
from visions.lib.relations.integer_to_count import integer_to_count

# (1)
typeset = typeset.replace(
    visions_datetime, 
    evolve_relation(visions_datetime, 'week', string_to_datetime_year_week)
)

# (3)
typeset += evolve_relation(visions_count, 'uint', integer_to_count)

# Final result
report = type_inference_report_frame(df, typeset)
print(report)

DiplomaOmschrijving      visions_string                 == visions_string                 
Weeknummer               visions_string                 != visions_datetime[week]         
DiplomaCode              visions_string                 == visions_string                 
Totaal                   visions_integer                != visions_count[uint]            
In total 2 out of 4 types were changed.



## Education

In [6]:
df = pd.read_csv('../data/cbr/opleidingsdata_jul2017_jun2018.csv', sep=';', encoding='latin-1')
df.head(10)

Unnamed: 0,Opleidercode,Opleidernaam,Opleider Startdatum,Opleider Einddatum,Opleider Straatnaam,Opleider Huisnummer,Opleider Huisnummer toevoeging,Opleider Postcode,Opleider Plaatsnaam,Categoriecode,Categorienaam,Productcode,Productnaam,Examenlocatienaam,Examenlocatie Straatnaam,Examenlocatie Huisnummer,Examenlocatie Huisnummer toevoeging,Examenlocatie Postcode,Examenlocatie Plaatsnaam,Examenperiode Begindatum,Examenperiode Einddatum,Totaal Eerste Examens/Toetsen Voldoende,Totaal Eerste Examens/Toetsen Onvoldoende,Eerste Examens/Toetsen Automaat Voldoende,Eerste Examens/Toetsen Automaat Onvoldoende,Eerste Examens/Toetsen Combi Voldoende,Eerste Examens/Toetsen Combi Onvoldoende,Eerste Examens/Toetsen Handgeschakeld Voldoende,Eerste Examens/Toetsen Handgeschakeld Onvoldoende,Totaal Herexamens/Toetsen Voldoende,Totaal Herexamens/Toetsen Onvoldoende,Herexamens/Toetsen Automaat Voldoende,Herexamens/Toetsen Automaat Onvoldoende,Herexamens/Toetsen Combi Voldoende,Herexamens/Toetsen Combi Onvoldoende,Herexamens/Toetsen Handgeschakeld Voldoende,Herexamens/Toetsen Handgeschakeld Onvoldoende
0,0003F8,Auto en Motorrijschool Erik Barella,12-01-1998,31-12-9999,De Brigantijn,6.0,,5247LK,ROSMALEN,A,Praktijkexamen motor verkeersdeelneming A rech...,A,praktijkexamen motor verkeersdeelneming A,Den Bosch (Hambakenwetering 13A),Hambakenwetering,13,A,5231DD,'S-HERTOGENBOSCH,01-07-2017,30-06-2018,12,2,0,0,0,0,12,2,2,0,0,0,0,0,2,0
1,0003F8,Auto en Motorrijschool Erik Barella,12-01-1998,31-12-9999,De Brigantijn,6.0,,5247LK,ROSMALEN,A-G,Praktijkexamen motor verkeersdeelneming A getrapt,A-G,praktijkexamen motor verkeersdeelneming A-getrapt,Den Bosch (Hambakenwetering 13A),Hambakenwetering,13,A,5231DD,'S-HERTOGENBOSCH,01-07-2017,30-06-2018,0,1,0,0,0,0,0,1,1,0,0,0,0,0,1,0
2,0003F8,Auto en Motorrijschool Erik Barella,12-01-1998,31-12-9999,De Brigantijn,6.0,,5247LK,ROSMALEN,A2,Praktijkexamen motor verkeersdeelneming A2,A2,praktijkexamen motor verkeersdeelneming A2,Den Bosch (Hambakenwetering 13A),Hambakenwetering,13,A,5231DD,'S-HERTOGENBOSCH,01-07-2017,30-06-2018,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0
3,0003F8,Auto en Motorrijschool Erik Barella,12-01-1998,31-12-9999,De Brigantijn,6.0,,5247LK,ROSMALEN,ATH,Theorie-examen motor,ATH,Theorie-examen motor (ATH),Eindhoven (Hoevenweg 20),Hoevenweg,20,,5652AW,EINDHOVEN,01-07-2017,30-06-2018,0,0,0,0,0,0,0,0,1,1,0,0,0,0,0,0
4,0003F8,Auto en Motorrijschool Erik Barella,12-01-1998,31-12-9999,De Brigantijn,6.0,,5247LK,ROSMALEN,AVB-A,Praktijkexamen motor voertuigbeheersing A,AVB-A,praktijkexamen motor voertuigbeheersing A,Erp (Bussele tegenover nr 17),Bussele,17,tegenov,5469DT,ERP,01-07-2017,30-06-2018,11,3,0,0,0,0,11,3,3,0,0,0,0,0,3,0
5,0003F8,Auto en Motorrijschool Erik Barella,12-01-1998,31-12-9999,De Brigantijn,6.0,,5247LK,ROSMALEN,AVB-A2,Praktijkexamen motor voertuigbeheersing A2,AVB-A2,praktijkexamen motor voertuigbeheersing A2,Erp (Bussele tegenover nr 17),Bussele,17,tegenov,5469DT,ERP,01-07-2017,30-06-2018,3,0,0,0,0,0,3,0,0,0,0,0,0,0,0,0
6,0003F8,Auto en Motorrijschool Erik Barella,12-01-1998,31-12-9999,De Brigantijn,6.0,,5247LK,ROSMALEN,B,Praktijkexamen personenauto,B,praktijkexamen personenauto,Den Bosch (Hambakenwetering 13A),Hambakenwetering,13,A,5231DD,'S-HERTOGENBOSCH,01-07-2017,30-06-2018,27,15,0,0,0,0,27,15,0,0,0,0,0,0,0,0
7,0003F8,Auto en Motorrijschool Erik Barella,12-01-1998,31-12-9999,De Brigantijn,6.0,,5247LK,ROSMALEN,B,Praktijkexamen personenauto,B-FA,faalangstexamen personenauto,Den Bosch (Hambakenwetering 13A),Hambakenwetering,13,A,5231DD,'S-HERTOGENBOSCH,01-07-2017,30-06-2018,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0
8,0003F8,Auto en Motorrijschool Erik Barella,12-01-1998,31-12-9999,De Brigantijn,6.0,,5247LK,ROSMALEN,B,Praktijkexamen personenauto,B-H,herexamen personenauto,Den Bosch (Hambakenwetering 13A),Hambakenwetering,13,A,5231DD,'S-HERTOGENBOSCH,01-07-2017,30-06-2018,0,0,0,0,0,0,0,0,17,6,0,0,0,0,17,6
9,0003F8,Auto en Motorrijschool Erik Barella,12-01-1998,31-12-9999,De Brigantijn,6.0,,5247LK,ROSMALEN,B-T,Tussentijdse toets personenauto,B-T,tussentijdse toets personenauto,Den Bosch (Hambakenwetering 13A),Hambakenwetering,13,A,5231DD,'S-HERTOGENBOSCH,01-07-2017,30-06-2018,18,0,0,0,0,0,18,0,0,0,0,0,0,0,0,0


In [7]:
df.dtypes

Opleidercode                                          object
Opleidernaam                                          object
Opleider Startdatum                                   object
Opleider Einddatum                                    object
Opleider Straatnaam                                   object
Opleider Huisnummer                                  float64
Opleider Huisnummer toevoeging                        object
Opleider Postcode                                     object
Opleider Plaatsnaam                                   object
Categoriecode                                         object
Categorienaam                                         object
Productcode                                           object
Productnaam                                           object
Examenlocatienaam                                     object
Examenlocatie Straatnaam                              object
Examenlocatie Huisnummer                               int64
Examenlocatie Huisnummer

Type issues:

* (1) We observe 31-21-9999 in dates
* (2) Counts (as before)
* (3) Categories (as before)

In [8]:
typeset = visions_standard_set()

report = type_inference_report_frame(df, typeset)
print(report)

Examenperiode Einddatum                                visions_string                 != visions_datetime               
Opleidercode                                           visions_string                 == visions_string                 
Eerste Examens/Toetsen Combi Onvoldoende               visions_integer                == visions_integer                
Categoriecode                                          visions_string                 == visions_string                 
Examenlocatienaam                                      visions_string                 == visions_string                 
Opleider Einddatum                                     visions_string                 == visions_string                 
Herexamens/Toetsen Handgeschakeld Onvoldoende          visions_integer                == visions_integer                
Examenlocatie Plaatsnaam                               visions_string                 == visions_string                 
Eerste Examens/Toetsen Handgesch

In [9]:
from visions.lib.relations.integer_to_count import integer_to_count

# (1)
# TODO: Create a transformer for custom NaNs
df.loc[df['Opleider Einddatum']==31-21-9999, 'Opleider Einddatum'] = None

# (2)
typeset += evolve_relation(visions_count, 'uint', integer_to_count)

report = type_inference_report_frame(df, typeset)
print(report)

Examenperiode Einddatum                                visions_string                 != visions_datetime               
Opleidercode                                           visions_string                 == visions_string                 
Eerste Examens/Toetsen Combi Onvoldoende               visions_integer                != visions_count[uint]            
Categoriecode                                          visions_string                 == visions_string                 
Examenlocatienaam                                      visions_string                 == visions_string                 
Opleider Einddatum                                     visions_string                 == visions_string                 
Herexamens/Toetsen Handgeschakeld Onvoldoende          visions_integer                != visions_count[uint]            
Examenlocatie Plaatsnaam                               visions_string                 == visions_string                 
Eerste Examens/Toetsen Handgesch