# Cyber Crime Science Data Analysis and Visualization Project

## Data Import

### Libraries

In [1]:
import pandas as pd
import numpy as np


In [2]:
slachtofferschap_source = "data/source/slachtofferschap.csv"
age_distribution_source = "data/source/age_distribution.csv"
digitale_vaardigheden_source = "data/source/digitale_vaardigheden.csv"
education_levels_source = "data/source/education_levels.csv"
gdp_source = "data/source/gdp.csv"
bevolkingdichtheid_source = "data/source/bevolkingdichtheid.csv"
vestigingen_source = "data/source/vestigingen.csv"

In [3]:
slachtofferschap = pd.read_csv(slachtofferschap_source, sep=';')
age_distribution = pd.read_csv(age_distribution_source, sep=';')
digitale_vaardigheden = pd.read_csv(digitale_vaardigheden_source, sep=',')
education_levels = pd.read_csv(education_levels_source, sep=';')
gdp = pd.read_csv(gdp_source, sep=';')
bevolkingdichtheid = pd.read_csv(bevolkingdichtheid_source, sep=';')
vestigingen = pd.read_csv(vestigingen_source, sep=';')

## Data Cleaning

### Keep only the desired columns

In [4]:
# Calculate HighRiskShare for each province
vestigingen["HighRiskShare"] = (
    (vestigingen["J Informatie en communicatie"] + 
     vestigingen["K Financiële dienstverlening"] + 
     vestigingen["Q Gezondheids- en welzijnszorg"]) / 
    vestigingen["Totaal"]
) * 100

# Keep oply the "Regio's", "HighRiskShare" columns
vestigingen = vestigingen[["Regio's", "HighRiskShare"]]

In [5]:
bevolkingdichtheid_filtered = bevolkingdichtheid[[
    "Regio's",
    "Bevolking/Bevolkingssamenstelling op 1 januari/Bevolkingsdichtheid (aantal inwoners per km²)"
]]

bevolkingdichtheid_filtered = bevolkingdichtheid_filtered.rename(columns={
    "Bevolking/Bevolkingssamenstelling op 1 januari/Bevolkingsdichtheid (aantal inwoners per km²)": "Bevolkingsdichtheid (aantal inwoners per km²)"
})

In [6]:
gdp_filtered = gdp[[
    "Regio's",
    "Bbp (marktprijzen) (mln euro)",
    "Bbp per inwoner (euro)",
    "Bbp, volumemutaties (%)",
    "Bruto toegevoegde waarde, volumemutaties (%)",
    "Toegevoegde waarde (bruto, basisprijzen) (mln euro)",
]]

In [7]:
education_levels_filtered = education_levels[[
    "Regio's",
    "Onderwijsniveau 5 categorieën/11 Basisonderwijs (%)",
    "Onderwijsniveau 5 categorieën/12 Vmbo, havo-, vwo-onderbouw, mbo1 (%)",
    "Onderwijsniveau 5 categorieën/21 Havo, vwo, mbo2-4 (%)",
    "Onderwijsniveau 5 categorieën/31 Hbo-, wo-bachelor (%)",
    "Onderwijsniveau 5 categorieën/32 Hbo-, wo-master, doctor (%)",
]]

education_levels_filtered = education_levels_filtered.rename(columns={
    "Regio's": "Regio's",
    "Onderwijsniveau 5 categorieën/11 Basisonderwijs (%)": "Basisonderwijs (%)",
    "Onderwijsniveau 5 categorieën/12 Vmbo, havo-, vwo-onderbouw, mbo1 (%)": "Vmbo/Havo/Vwo/Mbo1 (%)",
    "Onderwijsniveau 5 categorieën/21 Havo, vwo, mbo2-4 (%)": "Havo/Vwo/Mbo2-4 (%)",
    "Onderwijsniveau 5 categorieën/31 Hbo-, wo-bachelor (%)": "Hbo/Wo-bachelor (%)",
    "Onderwijsniveau 5 categorieën/32 Hbo-, wo-master, doctor (%)": "Hbo/Wo-master/Doctor (%)"
})

In [8]:
age_distribution = age_distribution.applymap(lambda x: x.replace('"', '') if isinstance(x, str) else x)
age_distribution.columns = age_distribution.columns.str.replace('"', '')

# Strip whitespace from column names to ensure proper matching
age_distribution.columns = age_distribution.columns.str.strip()

# Drop the 'Leeftijd' column
age_distribution_filtered = age_distribution.drop(columns=['Leeftijd'])

  age_distribution = age_distribution.applymap(lambda x: x.replace('"', '') if isinstance(x, str) else x)


In [9]:
# Strip whitespace from column names to ensure proper matching
slachtofferschap.columns = slachtofferschap.columns.str.strip()

# Drop the 'Leeftijd' column
slachtofferschap_filtered = slachtofferschap.drop(columns=['Marges', 'Perioden'])

In [10]:
digitale_vaardigheden = digitale_vaardigheden.applymap(lambda x: x.replace('"', '') if isinstance(x, str) else x)
digitale_vaardigheden.columns = digitale_vaardigheden.columns.str.replace('"', '')

display(digitale_vaardigheden)

  digitale_vaardigheden = digitale_vaardigheden.applymap(lambda x: x.replace('"', '') if isinstance(x, str) else x)


Unnamed: 0,Regio's,Meer dan basisvaardigheden,Basisvaardigheden,Geringe/geen digitale vaardigheden,Kan niet vastgeteld worden
0,Groningen (PV),438,351,178,33
1,Fryslân (PV),443,339,148,70
2,Drenthe (PV),449,291,216,44
3,Overijssel (PV),479,284,209,28
4,Flevoland (PV),550,261,174,.
5,Gelderland (PV),464,307,198,30
6,Utrecht (PV),576,267,137,20
7,Noord-Holland (PV),536,287,159,18
8,Zuid-Holland (PV),515,272,183,29
9,Zeeland (PV),399,283,287,31


## Merge DataFrames

In [11]:
merged_df = pd.merge(
    slachtofferschap_filtered,
    age_distribution_filtered,
    left_on="Regio's",
    right_on="Regio's",
    how="left"  # or "left" if you want to keep all rows from slachtofferschap_filtered
)

display(merged_df)

Unnamed: 0,Regio's,Online criminaliteit/Totaal slachtoffers (%),Online oplichting en fraude/Totaal slachtoffers (%),Online oplichting en fraude/Aankoopfraude/Totaal slachtoffers (%),Online oplichting en fraude/Verkoopfraude/Totaal slachtoffers (%),Online oplichting en fraude/Fraude betalingsverkeer/Totaal slachtoffers (%),Online oplichting en fraude/Identiteitsfraude/Totaal slachtoffers (%),Online oplichting en fraude/Phishing/Totaal slachtoffers (%),Hacken/Totaal slachtoffers (%),Hacken/Apparaat/Totaal slachtoffers (%),...,81 jaar,82 jaar,83 jaar,84 jaar,85 jaar,86 jaar,87 jaar,88 jaar,89 jaar,95 jaar of ouder
0,Groningen (PV),16.3,8.6,6.5,1.4,1.0,0.6,1.0,6.3,2.7,...,36550,31730,29210,27475,24820,21610,19790,17090,14855,10990
1,Fryslân (PV),14.2,8.5,6.7,1.3,0.8,0.6,0.6,5.0,2.3,...,46370,41135,38315,35085,31990,28260,25335,21155,17750,13470
2,Drenthe (PV),14.8,8.8,6.6,1.7,1.4,0.6,1.0,5.9,2.8,...,37560,33740,31500,28345,26195,21975,20225,17425,15310,10895
3,Overijssel (PV),14.8,9.0,6.8,1.3,0.8,0.6,0.6,5.4,2.3,...,73115,64340,62935,57400,51710,45355,39090,33185,28455,21985
4,Flevoland (PV),16.9,10.1,7.6,1.7,1.0,0.8,0.9,5.5,2.8,...,16735,14240,12940,12150,10800,8700,8205,7115,6000,4355
5,Gelderland (PV),14.7,8.4,6.3,1.2,0.8,0.6,0.7,5.3,2.2,...,133670,122180,117005,104175,96095,79375,71785,62760,54320,39185
6,Utrecht (PV),15.0,9.0,6.7,1.4,1.2,0.8,0.7,5.4,2.1,...,71430,65445,64205,57245,52005,45170,39275,34340,29360,23360
7,Noord-Holland (PV),16.9,10.0,7.5,1.5,1.3,0.7,0.9,5.8,2.4,...,162680,147085,144140,129850,116165,96775,86540,74980,62545,51055
8,Zuid-Holland (PV),15.8,9.5,6.9,1.4,1.1,0.8,0.9,5.5,2.3,...,203620,189460,187840,168235,152620,128320,113795,100650,85135,71130
9,Zeeland (PV),15.8,9.8,7.4,1.8,0.9,0.7,1.0,5.5,2.4,...,29380,26075,24595,23565,20855,18055,16095,14185,12380,11255


In [12]:
merged_df = pd.merge(
    merged_df,
    education_levels_filtered,
    left_on="Regio's",
    right_on="Regio's",
    how="left"  # or "left" if you want to keep all rows from slachtofferschap_filtered
)

display(merged_df)

Unnamed: 0,Regio's,Online criminaliteit/Totaal slachtoffers (%),Online oplichting en fraude/Totaal slachtoffers (%),Online oplichting en fraude/Aankoopfraude/Totaal slachtoffers (%),Online oplichting en fraude/Verkoopfraude/Totaal slachtoffers (%),Online oplichting en fraude/Fraude betalingsverkeer/Totaal slachtoffers (%),Online oplichting en fraude/Identiteitsfraude/Totaal slachtoffers (%),Online oplichting en fraude/Phishing/Totaal slachtoffers (%),Hacken/Totaal slachtoffers (%),Hacken/Apparaat/Totaal slachtoffers (%),...,86 jaar,87 jaar,88 jaar,89 jaar,95 jaar of ouder,Basisonderwijs (%),Vmbo/Havo/Vwo/Mbo1 (%),Havo/Vwo/Mbo2-4 (%),Hbo/Wo-bachelor (%),Hbo/Wo-master/Doctor (%)
0,Groningen (PV),16.3,8.6,6.5,1.4,1.0,0.6,1.0,6.3,2.7,...,21610,19790,17090,14855,10990,7.4,16.3,45.1,20.0,11.2
1,Fryslân (PV),14.2,8.5,6.7,1.3,0.8,0.6,0.6,5.0,2.3,...,28260,25335,21155,17750,13470,7.8,19.1,47.0,19.7,6.4
2,Drenthe (PV),14.8,8.8,6.6,1.7,1.4,0.6,1.0,5.9,2.8,...,21975,20225,17425,15310,10895,8.4,18.9,46.5,18.7,7.6
3,Overijssel (PV),14.8,9.0,6.8,1.3,0.8,0.6,0.6,5.4,2.3,...,45355,39090,33185,28455,21985,8.2,18.1,44.9,20.3,8.5
4,Flevoland (PV),16.9,10.1,7.6,1.7,1.0,0.8,0.9,5.5,2.8,...,8700,8205,7115,6000,4355,8.6,18.5,45.6,19.6,7.6
5,Gelderland (PV),14.7,8.4,6.3,1.2,0.8,0.6,0.7,5.3,2.2,...,79375,71785,62760,54320,39185,8.4,18.1,42.3,20.1,11.1
6,Utrecht (PV),15.0,9.0,6.7,1.4,1.2,0.8,0.7,5.4,2.1,...,45170,39275,34340,29360,23360,7.6,15.0,36.1,22.2,19.0
7,Noord-Holland (PV),16.9,10.0,7.5,1.5,1.3,0.7,0.9,5.8,2.4,...,96775,86540,74980,62545,51055,8.3,15.7,37.7,21.6,16.7
8,Zuid-Holland (PV),15.8,9.5,6.9,1.4,1.1,0.8,0.9,5.5,2.3,...,128320,113795,100650,85135,71130,10.0,17.5,40.0,19.4,13.2
9,Zeeland (PV),15.8,9.8,7.4,1.8,0.9,0.7,1.0,5.5,2.4,...,18055,16095,14185,12380,11255,8.8,20.0,47.1,17.6,6.6


In [13]:
merged_df = pd.merge(
    merged_df,
    bevolkingdichtheid_filtered,
    left_on="Regio's",
    right_on="Regio's",
    how="left"  # or "left" if you want to keep all rows from slachtofferschap_filtered
)

display(merged_df)

Unnamed: 0,Regio's,Online criminaliteit/Totaal slachtoffers (%),Online oplichting en fraude/Totaal slachtoffers (%),Online oplichting en fraude/Aankoopfraude/Totaal slachtoffers (%),Online oplichting en fraude/Verkoopfraude/Totaal slachtoffers (%),Online oplichting en fraude/Fraude betalingsverkeer/Totaal slachtoffers (%),Online oplichting en fraude/Identiteitsfraude/Totaal slachtoffers (%),Online oplichting en fraude/Phishing/Totaal slachtoffers (%),Hacken/Totaal slachtoffers (%),Hacken/Apparaat/Totaal slachtoffers (%),...,87 jaar,88 jaar,89 jaar,95 jaar of ouder,Basisonderwijs (%),Vmbo/Havo/Vwo/Mbo1 (%),Havo/Vwo/Mbo2-4 (%),Hbo/Wo-bachelor (%),Hbo/Wo-master/Doctor (%),Bevolkingsdichtheid (aantal inwoners per km²)
0,Groningen (PV),16.3,8.6,6.5,1.4,1.0,0.6,1.0,6.3,2.7,...,19790,17090,14855,10990,7.4,16.3,45.1,20.0,11.2,257
1,Fryslân (PV),14.2,8.5,6.7,1.3,0.8,0.6,0.6,5.0,2.3,...,25335,21155,17750,13470,7.8,19.1,47.0,19.7,6.4,197
2,Drenthe (PV),14.8,8.8,6.6,1.7,1.4,0.6,1.0,5.9,2.8,...,20225,17425,15310,10895,8.4,18.9,46.5,18.7,7.6,191
3,Overijssel (PV),14.8,9.0,6.8,1.3,0.8,0.6,0.6,5.4,2.3,...,39090,33185,28455,21985,8.2,18.1,44.9,20.3,8.5,357
4,Flevoland (PV),16.9,10.1,7.6,1.7,1.0,0.8,0.9,5.5,2.8,...,8205,7115,6000,4355,8.6,18.5,45.6,19.6,7.6,315
5,Gelderland (PV),14.7,8.4,6.3,1.2,0.8,0.6,0.7,5.3,2.2,...,71785,62760,54320,39185,8.4,18.1,42.3,20.1,11.1,430
6,Utrecht (PV),15.0,9.0,6.7,1.4,1.2,0.8,0.7,5.4,2.1,...,39275,34340,29360,23360,7.6,15.0,36.1,22.2,19.0,935
7,Noord-Holland (PV),16.9,10.0,7.5,1.5,1.3,0.7,0.9,5.8,2.4,...,86540,74980,62545,51055,8.3,15.7,37.7,21.6,16.7,1109
8,Zuid-Holland (PV),15.8,9.5,6.9,1.4,1.1,0.8,0.9,5.5,2.3,...,113795,100650,85135,71130,10.0,17.5,40.0,19.4,13.2,1410
9,Zeeland (PV),15.8,9.8,7.4,1.8,0.9,0.7,1.0,5.5,2.4,...,16095,14185,12380,11255,8.8,20.0,47.1,17.6,6.6,220


In [14]:
vestigingen["Regio's"] = vestigingen["Regio's"].str.strip()
merged_df["Regio's"] = merged_df["Regio's"].str.strip()

merged_df = pd.merge(
    merged_df,
    vestigingen,
    left_on="Regio's",
    right_on="Regio's",
    how="left"  # or "left" if you want to keep all rows from slachtofferschap_filtered
)

display(merged_df)

Unnamed: 0,Regio's,Online criminaliteit/Totaal slachtoffers (%),Online oplichting en fraude/Totaal slachtoffers (%),Online oplichting en fraude/Aankoopfraude/Totaal slachtoffers (%),Online oplichting en fraude/Verkoopfraude/Totaal slachtoffers (%),Online oplichting en fraude/Fraude betalingsverkeer/Totaal slachtoffers (%),Online oplichting en fraude/Identiteitsfraude/Totaal slachtoffers (%),Online oplichting en fraude/Phishing/Totaal slachtoffers (%),Hacken/Totaal slachtoffers (%),Hacken/Apparaat/Totaal slachtoffers (%),...,88 jaar,89 jaar,95 jaar of ouder,Basisonderwijs (%),Vmbo/Havo/Vwo/Mbo1 (%),Havo/Vwo/Mbo2-4 (%),Hbo/Wo-bachelor (%),Hbo/Wo-master/Doctor (%),Bevolkingsdichtheid (aantal inwoners per km²),HighRiskShare
0,Groningen (PV),16.3,8.6,6.5,1.4,1.0,0.6,1.0,6.3,2.7,...,17090,14855,10990,7.4,16.3,45.1,20.0,11.2,257,18.563724
1,Fryslân (PV),14.2,8.5,6.7,1.3,0.8,0.6,0.6,5.0,2.3,...,21155,17750,13470,7.8,19.1,47.0,19.7,6.4,197,16.081363
2,Drenthe (PV),14.8,8.8,6.6,1.7,1.4,0.6,1.0,5.9,2.8,...,17425,15310,10895,8.4,18.9,46.5,18.7,7.6,191,18.672477
3,Overijssel (PV),14.8,9.0,6.8,1.3,0.8,0.6,0.6,5.4,2.3,...,33185,28455,21985,8.2,18.1,44.9,20.3,8.5,357,19.470765
4,Flevoland (PV),16.9,10.1,7.6,1.7,1.0,0.8,0.9,5.5,2.8,...,7115,6000,4355,8.6,18.5,45.6,19.6,7.6,315,20.73345
5,Gelderland (PV),14.7,8.4,6.3,1.2,0.8,0.6,0.7,5.3,2.2,...,62760,54320,39185,8.4,18.1,42.3,20.1,11.1,430,20.371861
6,Utrecht (PV),15.0,9.0,6.7,1.4,1.2,0.8,0.7,5.4,2.1,...,34340,29360,23360,7.6,15.0,36.1,22.2,19.0,935,22.358339
7,Noord-Holland (PV),16.9,10.0,7.5,1.5,1.3,0.7,0.9,5.8,2.4,...,74980,62545,51055,8.3,15.7,37.7,21.6,16.7,1109,19.573005
8,Zuid-Holland (PV),15.8,9.5,6.9,1.4,1.1,0.8,0.9,5.5,2.3,...,100650,85135,71130,10.0,17.5,40.0,19.4,13.2,1410,19.231222
9,Zeeland (PV),15.8,9.8,7.4,1.8,0.9,0.7,1.0,5.5,2.4,...,14185,12380,11255,8.8,20.0,47.1,17.6,6.6,220,17.124105


In [15]:
merged_df = pd.merge(
    merged_df,
    gdp_filtered,
    left_on="Regio's",
    right_on="Regio's",
    how="left"  # or "left" if you want to keep all rows from slachtofferschap_filtered
)

display(merged_df)

Unnamed: 0,Regio's,Online criminaliteit/Totaal slachtoffers (%),Online oplichting en fraude/Totaal slachtoffers (%),Online oplichting en fraude/Aankoopfraude/Totaal slachtoffers (%),Online oplichting en fraude/Verkoopfraude/Totaal slachtoffers (%),Online oplichting en fraude/Fraude betalingsverkeer/Totaal slachtoffers (%),Online oplichting en fraude/Identiteitsfraude/Totaal slachtoffers (%),Online oplichting en fraude/Phishing/Totaal slachtoffers (%),Hacken/Totaal slachtoffers (%),Hacken/Apparaat/Totaal slachtoffers (%),...,Havo/Vwo/Mbo2-4 (%),Hbo/Wo-bachelor (%),Hbo/Wo-master/Doctor (%),Bevolkingsdichtheid (aantal inwoners per km²),HighRiskShare,Bbp (marktprijzen) (mln euro),Bbp per inwoner (euro),"Bbp, volumemutaties (%)","Bruto toegevoegde waarde, volumemutaties (%)","Toegevoegde waarde (bruto, basisprijzen) (mln euro)"
0,Groningen (PV),16.3,8.6,6.5,1.4,1.0,0.6,1.0,6.3,2.7,...,45.1,20.0,11.2,257,18.563724,32566,55332,17,21,29211
1,Fryslân (PV),14.2,8.5,6.7,1.3,0.8,0.6,0.6,5.0,2.3,...,47.0,19.7,6.4,197,16.081363,25490,39052,35,4,22864
2,Drenthe (PV),14.8,8.8,6.6,1.7,1.4,0.6,1.0,5.9,2.8,...,46.5,18.7,7.6,191,18.672477,18434,37146,28,32,16535
3,Overijssel (PV),14.8,9.0,6.8,1.3,0.8,0.6,0.6,5.4,2.3,...,44.9,20.3,8.5,357,19.470765,53172,45476,38,42,47694
4,Flevoland (PV),16.9,10.1,7.6,1.7,1.0,0.8,0.9,5.5,2.8,...,45.6,19.6,7.6,315,20.73345,17303,40100,43,48,15521
5,Gelderland (PV),14.7,8.4,6.3,1.2,0.8,0.6,0.7,5.3,2.2,...,42.3,20.1,11.1,430,20.371861,95416,45360,38,43,85586
6,Utrecht (PV),15.0,9.0,6.7,1.4,1.2,0.8,0.7,5.4,2.1,...,36.1,22.2,19.0,935,22.358339,88660,64928,4,45,79527
7,Noord-Holland (PV),16.9,10.0,7.5,1.5,1.3,0.7,0.9,5.8,2.4,...,37.7,21.6,16.7,1109,19.573005,203766,70285,67,72,182774
8,Zuid-Holland (PV),15.8,9.5,6.9,1.4,1.1,0.8,0.9,5.5,2.3,...,40.0,19.4,13.2,1410,19.231222,200451,53597,35,4,179802
9,Zeeland (PV),15.8,9.8,7.4,1.8,0.9,0.7,1.0,5.5,2.4,...,47.1,17.6,6.6,220,17.124105,17839,46205,47,52,16001


In [16]:
merged_df = pd.merge(
    merged_df,
    digitale_vaardigheden,
    left_on="Regio's",
    right_on="Regio's",
    how="left"  # or "left" if you want to keep all rows from slachtofferschap_filtered
)

display(merged_df)

Unnamed: 0,Regio's,Online criminaliteit/Totaal slachtoffers (%),Online oplichting en fraude/Totaal slachtoffers (%),Online oplichting en fraude/Aankoopfraude/Totaal slachtoffers (%),Online oplichting en fraude/Verkoopfraude/Totaal slachtoffers (%),Online oplichting en fraude/Fraude betalingsverkeer/Totaal slachtoffers (%),Online oplichting en fraude/Identiteitsfraude/Totaal slachtoffers (%),Online oplichting en fraude/Phishing/Totaal slachtoffers (%),Hacken/Totaal slachtoffers (%),Hacken/Apparaat/Totaal slachtoffers (%),...,HighRiskShare,Bbp (marktprijzen) (mln euro),Bbp per inwoner (euro),"Bbp, volumemutaties (%)","Bruto toegevoegde waarde, volumemutaties (%)","Toegevoegde waarde (bruto, basisprijzen) (mln euro)",Meer dan basisvaardigheden,Basisvaardigheden,Geringe/geen digitale vaardigheden,Kan niet vastgeteld worden
0,Groningen (PV),16.3,8.6,6.5,1.4,1.0,0.6,1.0,6.3,2.7,...,18.563724,32566,55332,17,21,29211,438,351,178,33
1,Fryslân (PV),14.2,8.5,6.7,1.3,0.8,0.6,0.6,5.0,2.3,...,16.081363,25490,39052,35,4,22864,443,339,148,70
2,Drenthe (PV),14.8,8.8,6.6,1.7,1.4,0.6,1.0,5.9,2.8,...,18.672477,18434,37146,28,32,16535,449,291,216,44
3,Overijssel (PV),14.8,9.0,6.8,1.3,0.8,0.6,0.6,5.4,2.3,...,19.470765,53172,45476,38,42,47694,479,284,209,28
4,Flevoland (PV),16.9,10.1,7.6,1.7,1.0,0.8,0.9,5.5,2.8,...,20.73345,17303,40100,43,48,15521,550,261,174,.
5,Gelderland (PV),14.7,8.4,6.3,1.2,0.8,0.6,0.7,5.3,2.2,...,20.371861,95416,45360,38,43,85586,464,307,198,30
6,Utrecht (PV),15.0,9.0,6.7,1.4,1.2,0.8,0.7,5.4,2.1,...,22.358339,88660,64928,4,45,79527,576,267,137,20
7,Noord-Holland (PV),16.9,10.0,7.5,1.5,1.3,0.7,0.9,5.8,2.4,...,19.573005,203766,70285,67,72,182774,536,287,159,18
8,Zuid-Holland (PV),15.8,9.5,6.9,1.4,1.1,0.8,0.9,5.5,2.3,...,19.231222,200451,53597,35,4,179802,515,272,183,29
9,Zeeland (PV),15.8,9.8,7.4,1.8,0.9,0.7,1.0,5.5,2.4,...,17.124105,17839,46205,47,52,16001,399,283,287,31


In [None]:
#TO DO:

#gdp merge : Done
#age distribution : Done
#formule toevoegen over die vestigingen: Done
#Digital Skills toevoegen: Done
#Voeg slachtofferschap scores voor andere crimes ook toe: Done



In [None]:
#merged_df.to_csv("data/save/merged_data.csv", index=False)

## Analyse (To Do)

In [None]:
##Analyse
##Heatmaps: correlatie tussen verschillende variabelen met map van Nederland
##
#
## Suggested Analysis:
#
## 1. Correlation Analysis:
## Calculate the correlation matrix to understand relationships between variables.
#correlation_matrix = merged_df.corr()
#print("Correlation Matrix:")
#print(correlation_matrix)
#
## 2. Heatmap Visualization:
## Visualize the correlation matrix using a heatmap.
#import matplotlib.pyplot as plt
#
#plt.figure(figsize=(12, 8))
#sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm", fmt=".2f")
#plt.title("Correlation Heatmap")
#plt.show()
#
## 3. Regional Analysis:
## Group data by regions and calculate summary statistics.
#regional_summary = merged_df.groupby("Regio's").mean()
#print("Regional Summary:")
#print(regional_summary)
#
## 4. Scatter Plot Analysis:
## Visualize relationships between key variables, e.g., GDP per capita vs. online crime rates.
#plt.figure(figsize=(8, 6))
#sns.scatterplot(
#    data=merged_df,
#    x="Bbp per inwoner (euro)",
#    y="Online criminaliteit Totaal slachtoffers (%)",
#    hue="Bevolkingsdichtheid (aantal inwoners per km²)"
#)
#plt.title("GDP per Capita vs. Online Crime Rates")
#plt.xlabel("GDP per Capita (Euro)")
#plt.ylabel("Online Crime Rates (%)")
#plt.legend(title="Population Density")
#plt.show()
#
## 5. Digital Skills Impact:
## Analyze the impact of digital skills on online crime rates.
#plt.figure(figsize=(8, 6))
#sns.boxplot(
#    data=merged_df,
#    x="Digitale vaardigheden",
#    y="Online criminaliteit Totaal slachtoffers (%)"
#)
#plt.title("Impact of Digital Skills on Online Crime Rates")
#plt.xlabel("Digital Skills")
#plt.ylabel("Online Crime Rates (%)")
#plt.show()
#
## 6. Crime Type Analysis:
## Add analysis for other crime types if available in the dataset.
#if "Phishing Totaal slachtoffers (%)" in merged_df.columns:
#    plt.figure(figsize=(8, 6))
#    sns.scatterplot(
#        data=merged_df,
#        x="Bbp per inwoner (euro)",
#        y="Phishing Totaal slachtoffers (%)",
#        hue="Bevolkingsdichtheid (aantal inwoners per km²)"
#    )
#    plt.title("GDP per Capita vs. Phishing Crime Rates")
#    plt.xlabel("GDP per Capita (Euro)")
#    plt.ylabel("Phishing Crime Rates (%)")
#    plt.legend(title="Population Density")
#    plt.show()