# Customer Behaviour Insight Engine - Notebook 6a
## CBS Digital Adoption (Device Usage) - Data Exploration 

**Goal of 6a**
Load and explore a Dutch CBS dataset about ICT / internet use and device usage, and prepare it so that in later notebooks it's possible to: 

- Compare our **site device mix** (desktop / mobile / tablet) to real Dutch population patterns.
- Show integration of **external, official Dutch data (CBS)** with Kaggle-based customer behaviour dataset.
- Identify which columns (year, device type, percentages) are relevant for a clean, analysis-ready table. 

This notebook focuses on: 

1. Loading the CBS CSV (downloaded from `ICT-gebruik van personen`).
2. Inspecting columns, structure and unity. 
3. Seleting a subset of columns relevant to **device usage**.
4. Tidying / renaming columns into something readable (e.g. `year`, `device`, `share_pct`).
5. Saving a cleaned version to `data/processed/` for later integration. 

In [7]:
with open("../data/external/cbs_digital_adoption.csv", "r", encoding="utf-8") as f:
    for i in range(40):
        print(f.readline())

"Kenmerken personen";"Marges";"Perioden";"Internet gebruik/wanneer internet het laatst gebruikt/Minder dan 3 maanden geleden (% van personen 12 jaar of ouder)";"Internet gebruik/wanneer internet het laatst gebruikt/3 tot 12 maanden geleden (% van personen 12 jaar of ouder)";"Internet gebruik/wanneer internet het laatst gebruikt/Meer dan 12 maanden geleden (% van personen 12 jaar of ouder)";"Internet gebruik/wanneer internet het laatst gebruikt/Nooit internet gebruikt (% van personen 12 jaar of ouder)";"Internet gebruik/Frequentie gebruik afgelopen 3 maanden/(Bijna) elke dag (% van personen 12 jaar of ouder)";"Internet gebruik/Frequentie gebruik afgelopen 3 maanden/Minstens een keer per week (% van personen 12 jaar of ouder)";"Internet gebruik/Frequentie gebruik afgelopen 3 maanden/Minder dan een keer per week (% van personen 12 jaar of ouder)";"Internet gebruik/Plaats gebruik afgelopen 3 maanden/Thuis (% van personen 12 jaar of ouder)";"Internet gebruik/Plaats gebruik afgelopen 3 maand

In [8]:
import pandas as pd
import numpy as np

pd.set_option("display.max_columns", 100)
pd.set_option("display.width", 120)

cbs_path = "../data/external/cbs_digital_adoption.csv"

cbs = pd.read_csv(
    cbs_path,
    sep=";",          # <-- semicolon separated
    decimal=",",      # <-- convert 88,3 -> 88.3
    encoding="utf-8", # try utf-8 first
)

cbs.head()

Unnamed: 0,Kenmerken personen,Marges,Perioden,Internet gebruik/wanneer internet het laatst gebruikt/Minder dan 3 maanden geleden (% van personen 12 jaar of ouder),Internet gebruik/wanneer internet het laatst gebruikt/3 tot 12 maanden geleden (% van personen 12 jaar of ouder),Internet gebruik/wanneer internet het laatst gebruikt/Meer dan 12 maanden geleden (% van personen 12 jaar of ouder),Internet gebruik/wanneer internet het laatst gebruikt/Nooit internet gebruikt (% van personen 12 jaar of ouder),Internet gebruik/Frequentie gebruik afgelopen 3 maanden/(Bijna) elke dag (% van personen 12 jaar of ouder),Internet gebruik/Frequentie gebruik afgelopen 3 maanden/Minstens een keer per week (% van personen 12 jaar of ouder),Internet gebruik/Frequentie gebruik afgelopen 3 maanden/Minder dan een keer per week (% van personen 12 jaar of ouder),Internet gebruik/Plaats gebruik afgelopen 3 maanden/Thuis (% van personen 12 jaar of ouder),Internet gebruik/Plaats gebruik afgelopen 3 maanden/Bij iemand anders thuis (% van personen 12 jaar of ouder),Internet gebruik/Plaats gebruik afgelopen 3 maanden/Op het werk (% van personen 12 jaar of ouder),Internet gebruik/Plaats gebruik afgelopen 3 maanden/Bij een onderwijsinstelling (% van personen 12 jaar of ouder),Internet gebruik/Plaats gebruik afgelopen 3 maanden/Ergens anders (% van personen 12 jaar of ouder),Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Totaal (% van personen 12 jaar of ouder),Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Mobiele telefoon of smart phone (% van personen 12 jaar of ouder),Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Laptop (% van personen 12 jaar of ouder),Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Tablet (% van personen 12 jaar of ouder),Internet gebruik/Mobiel gebruik afgelopen 3 maanden/Andere mobiele apparatuur (% van personen 12 jaar of ouder),Internet activiteiten/Communicatie/Versturen/ontvangen e-mails (% van personen 12 jaar of ouder),Internet activiteiten/Informatie en vermaak/Gebruik van diensten in de reisbranche (% van personen 12 jaar of ouder),Internet activiteiten/Informatie en vermaak/Zoeken van baan of solliciteren (% van personen 12 jaar of ouder),Internet activiteiten/Dienstverlening/Onderwijs/Volgen van online cursus (% van personen 12 jaar of ouder),Internet activiteiten/Dienstverlening/Overheids- en publieke instanties/Gebruik websites overheid/Zoeken op websites (% van personen 12 jaar of ouder),Internet activiteiten/Dienstverlening/Overheids- en publieke instanties/Gebruik websites overheid/Officiële documenten downloaden (% van personen 12 jaar of ouder),Internet activiteiten/Dienstverlening/Overheids- en publieke instanties/Gebruik websites overheid/Ingevulde documenten versturen (% van personen 12 jaar of ouder),Internet activiteiten/Dienstverlening/Overheids- en publieke instanties/Gebruik websites publieke instanties/Zoeken op websites (% van personen 12 jaar of ouder),Internet activiteiten/Dienstverlening/Overheids- en publieke instanties/Gebruik websites publieke instanties/Officiële documenten downloaden (% van personen 12 jaar of ouder),Internet activiteiten/Dienstverlening/Overheids- en publieke instanties/Gebruik websites publieke instanties/Ingevulde documenten versturen (% van personen 12 jaar of ouder),Internet activiteiten/Dienstverlening/Gebruik internet als opslagmedium/Cloud computing (% van personen 12 jaar of ouder),"Internet activiteiten/Dienstverlening/Gebruik internet als opslagmedium/Soort van opgeslagen bestanden/Tekst, spreadsheets, presentaties (% van personen 12 jaar of ouder)",Internet activiteiten/Dienstverlening/Gebruik internet als opslagmedium/Soort van opgeslagen bestanden/Foto's (% van personen 12 jaar of ouder),Internet activiteiten/Dienstverlening/Gebruik internet als opslagmedium/Soort van opgeslagen bestanden/E-Books of e-magazins (% van personen 12 jaar of ouder),Internet activiteiten/Dienstverlening/Gebruik internet als opslagmedium/Soort van opgeslagen bestanden/Muziek (% van personen 12 jaar of ouder),"Internet activiteiten/Dienstverlening/Gebruik internet als opslagmedium/Soort van opgeslagen bestanden/Video's, film of tv programma's (% van personen 12 jaar of ouder)",Internet activiteiten/Dienstverlening/Gebruik internet als opslagmedium/Soort van opgeslagen bestanden/Andere bestanden (% van personen 12 jaar of ouder),Internet activiteiten/Dienstverlening/Gebruik internet als opslagmedium/Betaling voor opslaan van bestanden (% van personen 12 jaar of ouder)
0,Totaal personen,Waarde,2012,88.3,0.6,0.9,10.0,76.2,10.2,1.5,87.4,25.4,44.0,18.3,15.9,51.4,40.3,29.2,16.1,,83.5,45.7,17.3,4.7,55.1,43.0,44.1,,,,,,,,,,,
1,Totaal personen,Waarde,2013,89.7,0.6,0.8,9.0,78.2,9.8,1.3,88.7,30.6,46.7,18.7,21.3,60.7,53.6,24.3,19.9,1.6,85.1,44.7,18.2,5.8,59.8,43.1,44.4,49.4,21.7,25.3,,,,,,,,
2,Totaal personen,Waarde,2014,89.0,0.9,1.1,9.0,79.3,7.8,1.8,88.5,43.3,48.2,20.6,40.4,65.9,60.4,23.7,23.3,4.9,84.8,45.6,23.1,7.2,60.0,43.0,44.6,54.9,29.2,32.9,31.1,20.8,29.2,4.6,12.3,9.4,7.0,3.4
3,Totaal personen,Waarde,2015,89.3,1.1,1.5,8.0,81.0,6.7,1.6,88.5,45.1,49.3,21.2,40.4,71.1,66.6,24.8,25.2,5.1,85.0,44.5,21.2,7.1,57.7,37.9,40.9,47.8,23.0,27.3,33.5,19.3,29.3,4.5,10.5,9.0,10.3,3.8
4,Totaal personen,Waarde,2016,89.6,0.8,1.4,8.2,82.1,6.1,1.4,88.9,52.7,52.4,23.7,50.2,73.2,70.5,22.0,21.9,4.5,84.9,45.4,21.0,8.3,59.1,38.6,43.4,47.0,23.0,26.3,39.8,23.5,34.8,5.6,11.1,9.3,12.9,5.7


In [9]:
cbs.shape

(8, 38)

In [10]:
list(cbs.columns[:5])

['Kenmerken personen',
 'Marges',
 'Perioden',
 'Internet gebruik/wanneer internet het laatst gebruikt/Minder dan 3 maanden geleden (% van personen 12 jaar of ouder)',
 'Internet gebruik/wanneer internet het laatst gebruikt/3 tot 12 maanden geleden (% van personen 12 jaar of ouder)']