# Data understanding

De gebruikte dataset is “Geregistreerde criminaliteit" (https://opendata.cbs.nl/statline/#/CBS/nl/dataset/83648NED/table?fromstatweb). 

De CBS data is een csv bestand, dit staat voor comma seperated values of door comma gescheide waarden in het nederlands.
De data bevat de volgende kolomen:
 - `ID` is de unieke waarde voor elke row.
 - `Soort misdrijf` geeft aan welke om wat voor misdrijf het gaat.
 - `Perioden` geeft de periode aan waarin de misdrijven en aantal misdrijven zijn uitgevoerd.
 - `Regio's` is de regio waarin de genoemde aantal misdrijven in zijn gebeurd.
 - `Geregistreerde misdrijven/Totaal geregistreerde misdrijven (aantal)` is de aantal misdrijven die binnen een provincie/gemeente geregistreerd zijn.
 - `Geregistreerde misdrijven/Geregistreerde misdrijven, relatief (% van totaal geregistreerde misdrijven)` is de procentuele aantal van de totaal geregistreerde misdrijven.
 - `Geregistreerde misdrijven/Geregistreerde misdrijven per 1000 inw. (per 1.000 inwoners)` is de aantal misdrijven die binnen een provincie/gemeente geregistreerd zijn per 1.000 inwoners.

## Beschrijven van de data

Hieronder staat een beschrijving van de data vanuit de Centraal Bureau Statistieken. Dit wordt telkens door middel van een stukje code weergegeven. 

In [44]:
import pandas as pd
import geopandas as gpd
import seaborn as sb
import numpy as np
import matplotlib.pyplot as plt

# Dataset inlezen
file = "../../../raw-data/Veiligheid.csv"
data_veiligheid = pd.read_csv(file, sep=";")

# Dataverkennen door dataframe te openen
data_veiligheid

Unnamed: 0,Soort misdrijf,Perioden,Regio's,Geregistreerde misdrijven/Totaal geregistreerde misdrijven (aantal),"Geregistreerde misdrijven/Geregistreerde misdrijven, relatief (% van totaal geregistreerde misdrijven)",Geregistreerde misdrijven/Geregistreerde misdrijven per 1000 inw. (per 1 000 inwoners)
0,"Misdrijven, totaal",2015,Groningen (PV),30065.0,100.0,515
1,"Misdrijven, totaal",2016,Groningen (PV),29570.0,100.0,507
2,"Misdrijven, totaal",2017,Groningen (PV),24990.0,100.0,428
3,"Misdrijven, totaal",2018*,Groningen (PV),24035.0,100.0,412
4,"Misdrijven, totaal",2019*,Groningen (PV),24865.0,100.0,426
...,...,...,...,...,...,...
176995,9.2 Misdrijf (overig),2015,Niet-gemeentelijk ingedeeld,10.0,1.0,
176996,9.2 Misdrijf (overig),2016,Niet-gemeentelijk ingedeeld,10.0,1.0,
176997,9.2 Misdrijf (overig),2017,Niet-gemeentelijk ingedeeld,20.0,1.0,
176998,9.2 Misdrijf (overig),2018*,Niet-gemeentelijk ingedeeld,25.0,1.0,


In [45]:
# Info over de kolommen
info_kolommen_veiligheid = data_veiligheid.info()
info_kolommen_veiligheid

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 177000 entries, 0 to 176999
Data columns (total 6 columns):
 #   Column                                                                                                  Non-Null Count   Dtype  
---  ------                                                                                                  --------------   -----  
 0   Soort misdrijf                                                                                          177000 non-null  object 
 1   Perioden                                                                                                177000 non-null  object 
 2   Regio's                                                                                                 177000 non-null  object 
 3   Geregistreerde misdrijven/Totaal geregistreerde misdrijven (aantal)                                     148200 non-null  float64
 4   Geregistreerde misdrijven/Geregistreerde misdrijven, relatief (% van totaal gereg

In [46]:
# Beschrijvende statistieken van de data
beschrijvende_stats_veiligheid = data_veiligheid.describe()
beschrijvende_stats_veiligheid

Unnamed: 0,Geregistreerde misdrijven/Totaal geregistreerde misdrijven (aantal),"Geregistreerde misdrijven/Geregistreerde misdrijven, relatief (% van totaal geregistreerde misdrijven)"
count,148200.0,148200.0
mean,219.201113,4.900385
std,2918.560582,14.944102
min,0.0,0.0
25%,0.0,0.0
50%,5.0,0.0
75%,30.0,2.0
max,224970.0,100.0


In [48]:
# Informatie over de kolomnamen in de Dataframe
data_veiligheid.columns

Index(['Soort misdrijf', 'Perioden', 'Regio's',
       'Geregistreerde misdrijven/Totaal geregistreerde misdrijven (aantal)',
       'Geregistreerde misdrijven/Geregistreerde misdrijven, relatief (% van totaal geregistreerde misdrijven)',
       'Geregistreerde misdrijven/Geregistreerde misdrijven per 1000 inw.  (per 1 000 inwoners)'],
      dtype='object')

In [50]:
# Controleren op nulwaarden in de dataframe
data_veiligheid.isna().sum()

Soort misdrijf                                                                                                0
Perioden                                                                                                      0
Regio's                                                                                                       0
Geregistreerde misdrijven/Totaal geregistreerde misdrijven (aantal)                                       28800
Geregistreerde misdrijven/Geregistreerde misdrijven, relatief (% van totaal geregistreerde misdrijven)    28800
Geregistreerde misdrijven/Geregistreerde misdrijven per 1000 inw.  (per 1 000 inwoners)                   89035
dtype: int64

In [52]:
test = data_veiligheid["Soort misdrijf"].drop_duplicates()
test

0                              Misdrijven, totaal
2360                        1 Vermogensmisdrijven
4720        1.1 Diefstal/verduistering en inbraak
7080         1.1.1 Diefstal en inbraak met geweld
9440      1.1.2 Diefstal en inbraak zonder geweld
                           ...                   
165200                 6.3 Drugsmisdrijf (overig)
167560                    7 (Vuur)wapenmisdrijven
169920                9 Misdrijven overige wetten
172280                      9.1 Militair misdrijf
174640                      9.2 Misdrijf (overig)
Name: Soort misdrijf, Length: 75, dtype: object

In [None]:
provincie = data_veiligheid["Soort misdrijf"].loc[""]