# Anvendt Programmering

## Lektion 7: PPG og Feature Engineering

**Biomedical Engineering**

**Martin Siemienski Andersen**



# Overblik (i dag)

- Vi arbejder med PPG og **Feature**‑udtræk
- Vi går fra rå tidsserie → beats → **Feature**‑tabel
- Vi afslutter med at præsentere og fortolke resultater (variation/usikkerhed)

**Hvorfor skal vi kunne det?**
- Fordi det ofte er **Features** vi rent faktisk vil vide noget om (fx puls, variation, amplitude, rise time)
- Fordi det er sådan man gør signaler sammenlignelige og klar til statistik/ML/QA
- Fordi gode **Feature**‑mål giver et enkelt, målbart svar på et fysiologisk spørgsmål


# Etik: hvorfor gemme Features istedet for en tidsserie

## Idéen
- Rå biosignaler kan rumme mere information end nødvendigt for formålet (og kan være følsomme).
- **Feature**‑tabeller er ofte tilstrækkelige til statistik/ML/QA og kan reducere risiko ved deling og opbevaring.


## Vigtige nuancer
- **Feature** er ikke automatisk anonymisering: afledte data kan stadig være personoplysninger/helbredsoplysninger.
- Valget handler om *formål* og *nødvendighed* — og om at dokumentere hvad du har gjort.

**Referencer (GDPR, EUR‑Lex)**
- Dataminimering: art. 5(1)(c) https://eur-lex.europa.eu/eli/reg/2016/679/oj
- Formålsbegrænsning: art. 5(1)(b) https://eur-lex.europa.eu/eli/reg/2016/679/oj
- Privacy by design: art. 25 https://eur-lex.europa.eu/eli/reg/2016/679/oj
- Sikkerhed ved behandling: art. 32 https://eur-lex.europa.eu/eli/reg/2016/679/oj
- Særlige kategorier (helbredsoplysninger): art. 9 https://eur-lex.europa.eu/eli/reg/2016/679/oj

# Hvad er en Feature? (formelt)

## Definition
- En **Feature** er en funktion $f(\mathbf{x})$ der kortlægger et signal (eller et segment/beat) til et tal:
  $$f: \mathbb{R}^N \to \mathbb{R}$$
- Målet er at opsummere *relevant* information og ignorere resten (støj/irrelevant variation).

## Kvalitetskriterier (tommelregler)
- **Fortolkbar**: kan forklares fysiologisk/teknisk
- **Robust**: ændrer sig ikke voldsomt ved små artefakter/parameterændringer
- **Reproducerbar**: samme data + samme pipeline ⇒ samme tal
- **Brugbar**: hjælper på et konkret spørgsmål (QA, statistik, ML)

## Eksempler i PPG
- Amplitude (peak − baseline/foot)
- Rise time (foot → peak)
- IBI (inter-beat interval) og BPM

# Fra signal til Feature‑tabel

## Struktur
- Én række pr. beat (eller pr. tidsvindue)
- Kolonner = **Feature**‑mål + evt. kvalitet/flag

## Eksempel på kolonner (beat‑niveau)
- `t_peak_s` (tidspunkt)
- `ibi_s` (inter-beat interval)
- `bpm`
- `amp_au` (amplitude)
- `rise_time_s`
- `qc_flag` (fx motion/clipping)

## Hvorfor tabellen er vigtig
- Gør det nemt at lave `describe()`, plots, grupperinger og sammenligninger
- Gør det muligt at vise variation (fx pr. person eller før/efter)

# Variation og “error bars” (hvordan og hvordan man læser dem)

## Hvad viser error bars?
- Error bars viser *variation* eller *usikkerhed* omkring et tal (typisk et gennemsnit).
- Vigtigt: man skal altid sige hvad de betyder (ellers kan de misforstås).

## Typiske valg
- **Standardafvigelse (SD)**: spredning i dine målinger (hvor variable beats/personer er).
- **Standard error (SEM)**: usikkerhed på middelværdien ($\mathrm{SEM}=\mathrm{SD}/\sqrt{n}$).
- **95% konfidensinterval (CI)**: interval for middelværdien (ofte $\bar{x} \pm 1.96\cdot \mathrm{SEM}$ ved stor $n$).

## Hvordan fortolker man det
- SD: “hvor meget varierer data?”
- SEM/CI: “hvor præcist har vi estimeret middelværdien?”
- Overlap af error bars er **ikke** en sikker test for signifikans, men kan give et hurtigt visuelt hint.

## God praksis
- Vis også datapunkter/fordeling (scatter, histogram, boxplot) når det er muligt
- Brug median + IQR hvis fordelingen er skæv eller der er outliers