# Datastructuur

Data kan worden onderverdeeld in drie hoofdcategorieën:
1. **gestructureerde data**,
2. **semi-gestructureerde data** en
3. **ongestructureerde data**.
De verschillen tussen deze datatypes zijn cruciaal voor de keuze tussen ML modellen en leeralgoritmes.

## Gestructureerde data
(target-structured-data)=
**Gestructureerde data is data die een gestandaardiseerd formaat heeft dat wordt gedefinieerd door een schema**. Deze data wordt doorgaans opgeslagen in een tabelformaat met rijen en kolommen, wat het gemakkelijk maakt om te doorzoeken en te analyseren.

### Kenmerken
- **Vooraf bepaald formaat**: Volgt een vast patroon en structuur
- **Tabelformaat**: Opgeslagen in rijen en kolommen; ieder datapunt heeft een specifiek veld (`Naam`, `Datum`, `Adres`, enz.)
- **Gemakkelijke navigatie**: Kan eenvoudig worden opgevraagd met standaard _data-wrangling tools_ (_SQL_, _Pandas_, enz.)

### Voorbeelden
- SQL-databases
- _Spreadsheets_ (_.csv_, _.tsv_, _.xlsx_, enz.)

### Uitdaging
- **Heterogene datatypes**: Complexe vertaling van verschillende soorten data naar numerieke _features_ (_feature engineering_).
- **Missing data**: Hoe omgaan met `null` waarden?

In [1]:
import os

import kagglehub
import pandas as pd

# Download data from kaggle
path = kagglehub.dataset_download("yashdevladdha/uber-ride-analytics-dashboard")

# Load data into Pandas DataFrame
csv_file = os.path.join(path, "ncr_ride_bookings.csv")
df = pd.read_csv(csv_file)

df.head()

Downloading from https://www.kaggle.com/api/v1/datasets/download/yashdevladdha/uber-ride-analytics-dashboard?dataset_version_number=2...


100%|██████████| 16.5M/16.5M [00:02<00:00, 7.78MB/s]

Extracting files...





Unnamed: 0,Date,Time,Booking ID,Booking Status,Customer ID,Vehicle Type,Pickup Location,Drop Location,Avg VTAT,Avg CTAT,...,Reason for cancelling by Customer,Cancelled Rides by Driver,Driver Cancellation Reason,Incomplete Rides,Incomplete Rides Reason,Booking Value,Ride Distance,Driver Ratings,Customer Rating,Payment Method
0,2024-03-23,12:29:38,"""CNR5884300""",No Driver Found,"""CID1982111""",eBike,Palam Vihar,Jhilmil,,,...,,,,,,,,,,
1,2024-11-29,18:01:39,"""CNR1326809""",Incomplete,"""CID4604802""",Go Sedan,Shastri Nagar,Gurgaon Sector 56,4.9,14.0,...,,,,1.0,Vehicle Breakdown,237.0,5.73,,,UPI
2,2024-08-23,08:56:10,"""CNR8494506""",Completed,"""CID9202816""",Auto,Khandsa,Malviya Nagar,13.4,25.8,...,,,,,,627.0,13.58,4.9,4.9,Debit Card
3,2024-10-21,17:17:25,"""CNR8906825""",Completed,"""CID2610914""",Premier Sedan,Central Secretariat,Inderlok,13.1,28.5,...,,,,,,416.0,34.02,4.6,5.0,UPI
4,2024-09-16,22:08:00,"""CNR1950162""",Completed,"""CID9933542""",Bike,Ghitorni Village,Khan Market,5.3,19.6,...,,,,,,737.0,48.21,4.1,4.3,UPI


## Semi-gestructureerde data
(target-semi-structured-data)=
Semi-gestructureerde data bevindt zich tussen gestructureerde en ongestructureerde data in. Het heeft **geen star schema zoals gestructureerde data, maar bevat wel organisatorische elementen zoals tags, labels of andere markers die helpen bij het categoriseren van de informatie**.

### Kenmerken
- **Flexibele structuur**: Geen vast schema, maar wel organisatorische markers (`{[]}`, `<div></div>`, enz.)
- **Hiërarchische en/of netwerkstructuur**: Kan worden voorgesteld in diagrammen met _nodes_ en _edges_.

### Voorbeelden
- JSON
- XML
- YAML
- AVRO
- Parquet
- NoSQL records (MongoDB, ElasticSearch, enz.)

### Uitdagingen
- **Schema evolution**: Sparse data
- **Onvoorspelbare datatypes**: bv. `[["car"], ["car", "bus", "truck"], ["bike", "train"], ...]`
- **Navigatie**: Hoe groter de flexibiliteit in structuur, hoe groter de uitdaging.

In [2]:
import json

with open("../../../.devcontainer/devcontainer.json") as f:
    devcontainer_spec = json.load(f)
devcontainer_spec

{'name': 'ml-courses',
 'dockerComposeFile': '../docker-compose.yml',
 'service': 'devcontainer',
 'workspaceFolder': '/workspaces/${localWorkspaceFolderBasename}/',
 'features': {'ghcr.io/devcontainers-extra/features/starship:1': {}},
 'overrideCommand': True,
 'remoteUser': 'user',
 'postStartCommand': 'sudo chown -R user:user /opt/ && uv sync --python ${localEnv:PYTHON_VERSION:3.10} --resolution ${localEnv:RESOLUTION_STRATEGY:highest} --all-extras && pre-commit install --install-hooks',
 'customizations': {'jetbrains': {'backend': 'PyCharm',
   'plugins': ['com.github.copilot']},
  'vscode': {'extensions': ['charliermarsh.ruff',
    'GitHub.copilot',
    'GitHub.copilot-chat',
    'GitHub.vscode-github-actions',
    'GitHub.vscode-pull-request-github',
    'ms-azuretools.vscode-docker',
    'ms-python.mypy-type-checker',
    'ms-python.python',
    'ms-toolsai.jupyter',
    'ms-toolsai.vscode-jupyter-cell-tags',
    'ryanluker.vscode-coverage-gutters',
    'saoudrizwan.claude-dev',


In [3]:
pd.read_json("../../../.devcontainer/devcontainer.json")

Unnamed: 0,name,dockerComposeFile,service,workspaceFolder,features,overrideCommand,remoteUser,postStartCommand,customizations
ghcr.io/devcontainers-extra/features/starship:1,ml-courses,../docker-compose.yml,devcontainer,/workspaces/${localWorkspaceFolderBasename}/,{},True,user,sudo chown -R user:user /opt/ && uv sync --pyt...,
jetbrains,ml-courses,../docker-compose.yml,devcontainer,/workspaces/${localWorkspaceFolderBasename}/,,True,user,sudo chown -R user:user /opt/ && uv sync --pyt...,"{'backend': 'PyCharm', 'plugins': ['com.github..."
vscode,ml-courses,../docker-compose.yml,devcontainer,/workspaces/${localWorkspaceFolderBasename}/,,True,user,sudo chown -R user:user /opt/ && uv sync --pyt...,"{'extensions': ['charliermarsh.ruff', 'GitHub...."


## Ongestructureerde data
(target-unstructured-data)
Ongestructureerde data is **vrije data (_in the wild_) die geen consistent model volgt**. Het is vaak rijker aan informatie maar moeilijker te verwerken dan gestructureerde data.

### Kenmerken
- **Vrije vorm**: Geen vooraf gedefinieerde structuur
- **Specifieke serialisering**: Digitale formaten die eigen zijn aan de data (`.txt`, `.pdf`, `.py`, `.cpp`, `.jpeg`, `.avi`, `.wav`, `.mp3`, enz.)
- **Hoge Densiteit / Volumes**: Vaak zeer _dense_ informatie (bv. `1080x1080 px`)

### Voorbeelden
- Tekstdocumenten: Word-bestanden, PDF's
- Scripts
- Protein folding
- Media-inhoud: Video's, audio-opnames, afbeeldingen

### Uitdagingen
- **Processing**: Grote volumes en informatiedensiteit vragen om veel _resources_ (opslag en verwerking; zie _GPU_, _TPU_).
- **Complexe niet-lineaire patronen**: Complexe patronen in tijd en ruimte

[![](https://img.shields.io/badge/Demo-CNN-blue)](https://adamharley.com/nn_vis/cnn/3d.html)

## Datastructuur en ML modelkeuzes

Het onderzoek en de ontwikkeling van ML technieken is sterk beïnvloed door de gangbare datastructuur in bepaalde domeinen.
Zo is _deep learning_ voornamelijk tot stand gekomen binnen beeldverwerking (ongestructureerde data). De alomtegenwoordige _transformer_ architectuur is afkomstig uit _Natural Language Processing_ (_NLP_; ongestructureerde data). _Graph Neural Networks_ zijn vooral ontwikkeld binnen _semi-structured_ social-media netwerk toepassingen. Moderne tree-based methodes zijn dan weer alom tegenwoordig bij gestructureerde data. Hieronder geven we een illustratief overzicht van courante technieken. 

### Gestructureerde Data
- Linear/Polynomial Regression
- Logistic Regression
- Support Vector Machines
- Random Forest
- XGBoost
- AdaBoost
- LightGBM
- CatBoost 

### Semi-gestructureerde data
- Bayesian Networks
- Graph Neural Networks
- State Space Modellen
- Transformers

### Ongestructureerde data
- Convolutional Neural Networks (CNN's)
- RNN
- LSTM
- Transformers
- Diffusion models