# Customer Behaviour Insight Engine - Notebook 6b
## CBS Digital Adoption - Cleaned & Translated (Analysis-Ready)

**Goal of 6b**

Notebook 6a explored the raw CBS dataset about ICT-gebruik van personen (internet & device usage) and kept all original Dutch column names. 

This notebook will: 

- Reload the same CBS CSV from `data/external`
- Select only the columns needed for device / mobile usage
- Translate Dutch column names into clear English ones
- Reshape into a tidy format (`year`, `device-company`, `shape_pct`)
- Save the cleaned, analysis-ready table to: 

`../data/processed/cbs_digital_clean.csv`

In [17]:
import pandas as pd
import numpy as np 

pd.set_option("display.max_columns", 100)
pd.set_option("display.width", 120)
pd.set_option("display.float_format", "{:.2f}".format)

## 1. Load the raw CBS dataet (same source as 6a)

The data comes from CBS Open Data (ICT-gebruik van personen) and was downloaded as a semicolon-separated CSV with coma decimals. 

Here I: 

- Laod the file from `../data/external/cbs_digital_adoption.csv`
- Tell pandas explicitly: 
    - `sep=";"` -> EU-style delimiter
    - `decimal=","` → convert `88,3` to `88.3`
- Keep all Dutch column names as-is for now.



In [18]:
cbs_path = "../data/external/cbs_digital_adoption.csv"

cbs_raw = pd.read_csv(
    cbs_path,
    sep=";",          # semicolon-separated
    decimal=",",      # comma decimals
    encoding="utf-8", # UTF-8 is fine here
)

print("Raw CBS shape:", cbs_raw.shape)
cbs_raw.head()

Raw CBS shape: (8, 38)


Unnamed: 0,Kenmerken personen,Marges,Perioden,Internet gebruik/wanneer internet het laatst gebruikt/Minder dan 3 maanden geleden (% van personen 12 jaar of ouder),Internet gebruik/wanneer internet het laatst gebruikt/3 tot 12 maanden geleden (% van personen 12 jaar of ouder),Internet gebruik/wanneer internet het laatst gebruikt/Meer dan 12 maanden geleden (% van personen 12 jaar of ouder),Internet gebruik/wanneer internet het laatst gebruikt/Nooit internet gebruikt (% van personen 12 jaar of ouder),Internet gebruik/Frequentie gebruik afgelopen 3 maanden/(Bijna) elke dag (% van personen 12 jaar of ouder),Internet gebruik/Frequentie gebruik afgelopen 3 maanden/Minstens een keer per week (% van personen 12 jaar of ouder),Internet gebruik/Frequentie gebruik afgelopen 3 maanden/Minder dan een keer per week (% van personen 12 jaar of ouder),Internet gebruik/Plaats gebruik afgelopen 3 maanden/Thuis (% van personen 12 jaar of ouder),Internet gebruik/Plaats gebruik afgelopen 3 maanden/Bij iemand anders thuis (% van personen 12 jaar of ouder),Internet gebruik/Plaats gebruik afgelopen 3 maanden/Op het werk (% van personen 12 jaar of ouder),Internet gebruik/Plaats gebruik afgelopen 3 maanden/Bij een onderwijsinstelling (% van personen 12 jaar of ouder),Internet gebruik/Plaats gebruik afgelopen 3 maanden/Ergens anders (% van personen 12 jaar of ouder),Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Totaal (% van personen 12 jaar of ouder),Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Mobiele telefoon of smart phone (% van personen 12 jaar of ouder),Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Laptop (% van personen 12 jaar of ouder),Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Tablet (% van personen 12 jaar of ouder),Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Andere mobiele apparatuur (% van personen 12 jaar of ouder),Internet activiteiten/Communicatie/Versturen/ontvangen e-mails (% van personen 12 jaar of ouder),Internet activiteiten/Informatie en vermaak/Gebruik van diensten in de reisbranche (% van personen 12 jaar of ouder),Internet activiteiten/Informatie en vermaak/Zoeken van baan of solliciteren (% van personen 12 jaar of ouder),Internet activiteiten/Dienstverlening/Onderwijs/Volgen van online cursus (% van personen 12 jaar of ouder),Internet activiteiten/Dienstverlening/Overheids- en publieke instanties/Gebruik websites overheid/Zoeken op websites (% van personen 12 jaar of ouder),Internet activiteiten/Dienstverlening/Overheids- en publieke instanties/Gebruik websites overheid/Officiële documenten downloaden (% van personen 12 jaar of ouder),Internet activiteiten/Dienstverlening/Overheids- en publieke instanties/Gebruik websites overheid/Ingevulde documenten versturen (% van personen 12 jaar of ouder),Internet activiteiten/Dienstverlening/Overheids- en publieke instanties/Gebruik websites publieke instanties/Zoeken op websites (% van personen 12 jaar of ouder),Internet activiteiten/Dienstverlening/Overheids- en publieke instanties/Gebruik websites publieke instanties/Officiële documenten downloaden (% van personen 12 jaar of ouder),Internet activiteiten/Dienstverlening/Overheids- en publieke instanties/Gebruik websites publieke instanties/Ingevulde documenten versturen (% van personen 12 jaar of ouder),Internet activiteiten/Dienstverlening/Gebruik internet als opslagmedium/Cloud computing (% van personen 12 jaar of ouder),"Internet activiteiten/Dienstverlening/Gebruik internet als opslagmedium/Soort van opgeslagen bestanden/Tekst, spreadsheets, presentaties (% van personen 12 jaar of ouder)",Internet activiteiten/Dienstverlening/Gebruik internet als opslagmedium/Soort van opgeslagen bestanden/Foto's (% van personen 12 jaar of ouder),Internet activiteiten/Dienstverlening/Gebruik internet als opslagmedium/Soort van opgeslagen bestanden/E-Books of e-magazins (% van personen 12 jaar of ouder),Internet activiteiten/Dienstverlening/Gebruik internet als opslagmedium/Soort van opgeslagen bestanden/Muziek (% van personen 12 jaar of ouder),"Internet activiteiten/Dienstverlening/Gebruik internet als opslagmedium/Soort van opgeslagen bestanden/Video's, film of tv programma's (% van personen 12 jaar of ouder)",Internet activiteiten/Dienstverlening/Gebruik internet als opslagmedium/Soort van opgeslagen bestanden/Andere bestanden (% van personen 12 jaar of ouder),Internet activiteiten/Dienstverlening/Gebruik internet als opslagmedium/Betaling voor opslaan van bestanden (% van personen 12 jaar of ouder)
0,Totaal personen,Waarde,2012,88.3,0.6,0.9,10.0,76.2,10.2,1.5,87.4,25.4,44.0,18.3,15.9,51.4,40.3,29.2,16.1,,83.5,45.7,17.3,4.7,55.1,43.0,44.1,,,,,,,,,,,
1,Totaal personen,Waarde,2013,89.7,0.6,0.8,9.0,78.2,9.8,1.3,88.7,30.6,46.7,18.7,21.3,60.7,53.6,24.3,19.9,1.6,85.1,44.7,18.2,5.8,59.8,43.1,44.4,49.4,21.7,25.3,,,,,,,,
2,Totaal personen,Waarde,2014,89.0,0.9,1.1,9.0,79.3,7.8,1.8,88.5,43.3,48.2,20.6,40.4,65.9,60.4,23.7,23.3,4.9,84.8,45.6,23.1,7.2,60.0,43.0,44.6,54.9,29.2,32.9,31.1,20.8,29.2,4.6,12.3,9.4,7.0,3.4
3,Totaal personen,Waarde,2015,89.3,1.1,1.5,8.0,81.0,6.7,1.6,88.5,45.1,49.3,21.2,40.4,71.1,66.6,24.8,25.2,5.1,85.0,44.5,21.2,7.1,57.7,37.9,40.9,47.8,23.0,27.3,33.5,19.3,29.3,4.5,10.5,9.0,10.3,3.8
4,Totaal personen,Waarde,2016,89.6,0.8,1.4,8.2,82.1,6.1,1.4,88.9,52.7,52.4,23.7,50.2,73.2,70.5,22.0,21.9,4.5,84.9,45.4,21.0,8.3,59.1,38.6,43.4,47.0,23.0,26.3,39.8,23.5,34.8,5.6,11.1,9.3,12.9,5.7


## 2. Select only the device / mobile usage columns

From Notebook 6a, the relevant columns for device usage are: 

- `Perioden` → year  
- `Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Totaal (...)`
- `Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Mobiele telefoon of smart phone (...)`
- `Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Laptop (...)`
- `Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Tablet (...)`
- `Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Andere mobiele apparatuur (...)`

These represent:

- Overall mobile internet usage
- Smartphone usage
- Laptop usage (as a mobile device)
- Tablet usage
- Other mobile equipment



In [19]:
# Exact device-realted coumn names (from 6a)

device_cols_raw = [
    "Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Totaal (% van personen 12 jaar of ouder)",
    "Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Mobiele telefoon of smart phone (% van personen 12 jaar of ouder)",
    "Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Laptop (% van personen 12 jaar of ouder)",
    "Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Tablet (% van personen 12 jaar of ouder)",
    "Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Andere mobiele apparatuur (% van personen 12 jaar of ouder)",
]

cols_to_keep = ["Perioden"] + device_cols_raw

cbs_devices_wide = cbs_raw[cols_to_keep].copy()
cbs_devices_wide.head()

Unnamed: 0,Perioden,Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Totaal (% van personen 12 jaar of ouder),Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Mobiele telefoon of smart phone (% van personen 12 jaar of ouder),Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Laptop (% van personen 12 jaar of ouder),Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Tablet (% van personen 12 jaar of ouder),Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Andere mobiele apparatuur (% van personen 12 jaar of ouder)
0,2012,51.4,40.3,29.2,16.1,
1,2013,60.7,53.6,24.3,19.9,1.6
2,2014,65.9,60.4,23.7,23.3,4.9
3,2015,71.1,66.6,24.8,25.2,5.1
4,2016,73.2,70.5,22.0,21.9,4.5


## 3. Translate Dutch column names -> English analysis names 

for analysis and integration with other datasets, I want short, clear English names. 
**Original → New:**

- `Perioden` → `year`
- `Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Totaal (...)` → `mobile_total_pct`
- `Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Mobiele telefoon of smart phone (...)` → `mobile_smartphone_pct`
- `Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Laptop (...)` → `mobile_laptop_pct`
- `Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Tablet (...)` → `mobile_tablet_pct`
- `Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Andere mobiele apparatuur (...)` → `mobile_other_pct`

All values remain **percentages of the Dutch population aged 12+**.



In [20]:
cbs_rename_map = {
    "Perioden": "year",

    device_cols_raw[0]: "mobile_total_pct",

    device_cols_raw[1]: "mobile_smartphone_pct",

    device_cols_raw[2]: "mobile_laptop_pct",

    device_cols_raw[3]: "mobile_tablet_pct",

    device_cols_raw[4]: "mobile_other_pct",
}

cbs_devices_wide = cbs_devices_wide.rename(columns=cbs_rename_map)

print("Columns after renaming:")
print(cbs_devices_wide.columns.tolist())

cbs_devices_wide.head()

Columns after renaming:
['year', 'mobile_total_pct', 'mobile_smartphone_pct', 'mobile_laptop_pct', 'mobile_tablet_pct', 'mobile_other_pct']


Unnamed: 0,year,mobile_total_pct,mobile_smartphone_pct,mobile_laptop_pct,mobile_tablet_pct,mobile_other_pct
0,2012,51.4,40.3,29.2,16.1,
1,2013,60.7,53.6,24.3,19.9,1.6
2,2014,65.9,60.4,23.7,23.3,4.9
3,2015,71.1,66.6,24.8,25.2,5.1
4,2016,73.2,70.5,22.0,21.9,4.5


## 4. Check types and sumary statistics 

Before reshaping, confirm: 

- `year` is numeric (int)
- All device columns are numeric floats (percentages)
- There are not strange non-numeric values in the subset.

In [21]:
print(cbs_devices_wide.dtypes)
print("\nSumamry stats:")
cbs_devices_wide.describe(include="all")

year                       int64
mobile_total_pct         float64
mobile_smartphone_pct    float64
mobile_laptop_pct        float64
mobile_tablet_pct        float64
mobile_other_pct         float64
dtype: object

Sumamry stats:


Unnamed: 0,year,mobile_total_pct,mobile_smartphone_pct,mobile_laptop_pct,mobile_tablet_pct,mobile_other_pct
count,8.0,8.0,8.0,8.0,8.0,7.0
mean,2015.5,71.35,66.56,28.77,24.55,7.03
std,2.45,11.61,14.59,6.08,5.88,4.09
min,2012.0,51.4,40.3,22.0,16.1,1.6
25%,2013.75,64.6,58.7,24.15,21.4,4.7
50%,2015.5,72.15,68.55,27.0,24.25,5.1
75%,2017.25,81.88,79.25,33.12,26.9,10.0
max,2019.0,84.4,82.5,38.7,35.8,13.1


## 5. Reshape into tidy format:`year`, `device_category`, `share_pct`

For analysis and plotting, a long / tidy format: 

- One row per `(year device_category)`
- Single numeric column `share_pct`

Target schema:

- `year` - e.g. 2012 ... 2019
- `device_category` - one of: 
    -`"mobile_total"`
    - `"smartphone"`
    - `"laptop"`
    - `"tablet"`
    - `"other_mobile"`
- `share_pct` - percentage of persons (12+) using internet on that device type.

In [22]:
# 5.1 Melt wide -> long 
cbs_devices_long = cbs_devices_wide.melt(
    id_vars="year",
    var_name="device_raw",
    value_name="share_pct"
)

cbs_devices_long.head()

Unnamed: 0,year,device_raw,share_pct
0,2012,mobile_total_pct,51.4
1,2013,mobile_total_pct,60.7
2,2014,mobile_total_pct,65.9
3,2015,mobile_total_pct,71.1
4,2016,mobile_total_pct,73.2


In [23]:
device_category_map = {
    "mobile_total_pct": "mobile_total",
    "mobile_smartphone_pct": "smartphone",
    "mobile_laptop_pct": "laptop",
    "mobile_tablet_pct": "tablet",
    "mobile_other_pct": "other_mobile",
}

cbs_devices_long["device_category"] = cbs_devices_long["device_raw"].map(device_category_map)

# Drop the helper column now that we have a clean category
cbs_devices_long = cbs_devices_long[["year", "device_category", "share_pct"]].copy()


cbs_devices_long.head(10)

Unnamed: 0,year,device_category,share_pct
0,2012,mobile_total,51.4
1,2013,mobile_total,60.7
2,2014,mobile_total,65.9
3,2015,mobile_total,71.1
4,2016,mobile_total,73.2
5,2017,mobile_total,82.4
6,2018,mobile_total,81.7
7,2019,mobile_total,84.4
8,2012,smartphone,40.3
9,2013,smartphone,53.6


## 6. Device usage over time 

Verify if the trends are logical: 

- Mobile usage should generally increase over time 
- Smartphone use should be high and rising
- Laptops and tablets fluctuate but stay lower than smartphones 

In [24]:
trend_table = cbs_devices_long.pivot_table(
    index="year",
    columns="device_category",
    values="share_pct"
)

trend_table

device_category,laptop,mobile_total,other_mobile,smartphone,tablet
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2012,29.2,51.4,,40.3,16.1
2013,24.3,60.7,1.6,53.6,19.9
2014,23.7,65.9,4.9,60.4,23.3
2015,24.8,71.1,5.1,66.6,25.2
2016,22.0,73.2,4.5,70.5,21.9
2017,38.7,82.4,13.1,79.2,35.8
2018,32.5,81.7,9.1,79.4,26.7
2019,35.0,84.4,10.9,82.5,27.5


## 7. Save cleaned, analysis-ready CBS device ta ble

This file will be used later to: 

- Compare CBS device usabe with kaggle set's device mix 
- Integrate external statistics into the Customer Behaviour Insight Engine.

In [25]:
processed_path = "../data/processed/cbs_digital_clean.csv"

cbs_devices_long.to_csv(processed_path, index=False)

print("Saved cleaned CBS device data to:", processed_path)

Saved cleaned CBS device data to: ../data/processed/cbs_digital_clean.csv


## 8. Summary of Notebook 6b

- Reloaded the raw CBS dataset from `data/external/cbs_digital_adoption.csv`
- Selected only the columns relevant for mobile / device internet usage: 
    - Total mobile use 
    - Smartphone, laptop, table and other mobile equipment
- Translated Dutch CBS column names into clear English analysis names: 
- Reshaped the wide wable into a tidy format.

This cleaned table is now ready to be: 

- Joined with Kaggle-based session / device data
- Used in plots and comparrisons 
- Reused in other notebooks wihtout having to repeat the CBS cleaning steps.