# FOREL√ÜSNING 9: Line√¶r regression med populationsdata

> Line√¶r regression p√• populationsniveau, modelvalidering, residualanalyse og forudsigelse af kontinuerte udfald.

### Underviser: Martin Siemienski Andersen mvan@hst.aau.dk

**ST2 - Anvendt Programmering**

# ST2 ANVENDT PROGRAMMERING ‚Äì Overblik

## Alle forel√¶sninger

| # | Forel√¶sning | Mappe | Prim√¶re emner |
|---|------------|-------|----------------|
| 1 | Hej C og Python | oop_1 | Programmeringssprog, grundl√¶ggende syntaks, milj√∏ops√¶tning |
| 2 | Objekter, indkapsling, interaktion | oop_2 | Klasser, metoder, dataindkapsling, objektinteraktion |
| 3 | Filer og dataindl√¶sning | oop_3 | Fra tekstfil til objekter |
| 4 | OOP-integration workshop | oop_4_workshop | Integration af OOP, fil-I/O, visualisering; overv√•gningssystemer til enheder |
| 5 | Signalgrundlag | signals_1 | EKG-fysiologi, statistik, peak-detektion |
| 6 | Filtrering og mekaniske signaler | signals_2 | Filtrering, SCG-fysiologi, mekanisk timing, Envelope-udtr√¶kning |
| 7 | Feature engineering, PPG og regression | signals_3 | Feature-definition, PPG-fysiologi, line√¶r regression, variationsm√•l |
| 8 | Signalintegration og etik | signals_4_workshop | Multimodal integration, refleksion over signal-workflow, etisk analyse |
| **9** | **Line√¶r regression med populationsdata** | **populations_data_1** | **Line√¶r regression, modelvalidering, residualer** |
| 10 | Datavisualisering og unsupervised l√¶ring | populations_data_2 | Datavisualisering, fordelinger, scatter plots, k-means clustering (Iris-datas√¶t) |
| 11 | Supervised learning: klassifikation | populations_data_3 | k-NN-klassifikation, beslutningsgr√¶nser, modelevaluering |
| 12 | Data-integration workshop | populations_data_4_workshop | End-to-end analyse: regression, clustering, klassifikation, reproducerbarhed, formidling |

# L√¶ringsm√•l

Efter dagens forel√¶sning kan du:

**Forst√• line√¶r regression p√• populationsniveau**
- Anvende regression til at forudsige kontinuerte udfald fra features
- Fortolke h√¶ldning, sk√¶ring og R¬≤

**Forberede og rense populationsdata**
- H√•ndtere manglende data og outliers
- Organisere data som NumPy arrays

**Evaluere regressionsmodeller**
- Beregne R¬≤, RMSE og residualer
- Validere modelantagelser visuelt

**Implementere multiple line√¶r regression**
- Bruge flere features som pr√¶diktorer
- Forst√• multikollinearitet

**Sikre reproducerbarhed**
- Dokumentere analyse med metadata

# Hvad er line√¶r regression?

## Definition
Line√¶r regression finder den **rette linje** der bedst beskriver sammenh√¶ngen mellem:
- **X**: prediktor/feature (uafh√¶ngig variabel)
- **y**: respons/udfald (afh√¶ngig variabel)

## Ligningen
$$y = mx + b$$

hvor:
- $m$ = **h√¶ldning** (hvor meget $y$ √¶ndrer sig per enhed $X$)
- $b$ = **sk√¶ring** (v√¶rdien af $y$ n√•r $X = 0$)

## Metode: Mindste kvadraters metode (Ordinary Least Squares)
Modellen finder $m$ og $b$ ved at **minimere kvadrerede fejl** (sum of squared residuals):

$$\text{SSE} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - (mx_i + b))^2$$

hvor $\hat{y}_i$ er den forudsagte v√¶rdi for observation $i$.

hvor $\bar{x}$ og $\bar{y}$ er middelv√¶rdierne af $X$ og $y$.

### Matematisk l√∏sning

Ved at differentiere SSE med hensyn til $m$ og $b$ og s√¶tte lig nul, f√•r vi:$$b = \bar{y} - m\bar{x}$$


$$m = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2}$$

In [None]:
# Manuel implementering af line√¶r regression
import numpy as np
import matplotlib.pyplot as plt

# Data: [alder (√•r), blodtryk (mmHg)] - flere datapunkter
x = np.array([25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75])
y = np.array([110, 115, 118, 122, 128, 135, 140, 145, 150, 155, 160])

print("DATA:")
print(f"x (alder):    {x}")
print(f"y (blodtryk): {y}")


In [None]:

# Trin 1: Beregn middelv√¶rdier
x_mean = np.mean(x)
y_mean = np.mean(y)

print("\nTRIN 1: MIDDELV√ÜRDIER")
print(f"xÃÑ (gennemsnitsalder):    {x_mean:.1f} √•r")
print(f"»≥ (gennemsnitsblodtryk): {y_mean:.1f} mmHg")

In [None]:


# Trin 2: Beregn afvigelser fra middelv√¶rdi
x_diff = x - x_mean
y_diff = y - y_mean

print("\nTRIN 2: AFVIGELSER FRA MIDDELV√ÜRDI")
print(f"(x - xÃÑ): {x_diff}")
print(f"(y - »≥): {y_diff}")

In [None]:

# Trin 3: Beregn h√¶ldning (m)
numerator = np.sum(x_diff * y_diff)
denominator = np.sum(x_diff ** 2)
m = numerator / denominator

print("\nTRIN 3: BEREGN H√ÜLDNING (m)")
print(f"T√¶ller:   Œ£(x-xÃÑ)(y-»≥) = {numerator:.1f}")
print(f"N√¶vner:   Œ£(x-xÃÑ)¬≤      = {denominator:.1f}")
print(f"H√¶ldning: m = {m:.4f} mmHg/√•r")

In [None]:

# Trin 4: Beregn sk√¶ring (b)
b = y_mean - m * x_mean

print("\nTRIN 4: BEREGN SK√ÜRING (b)")
print(f"b = »≥ - m¬∑xÃÑ")
print(f"b = {y_mean:.1f} - {m:.4f}¬∑{x_mean:.1f}")
print(f"b = {b:.2f} mmHg")

In [None]:

# Resultat
print("\n" + "=" * 50)
print("RESULTAT")
print("=" * 50)
print(f"Regressionslinje: y = {m:.4f}x + {b:.2f}")
print(f"\nFortolkning:")
print(f"  - For hvert √•r √¶ldre stiger blodtrykket {m:.4f} mmHg")
print(f"  - Ved alder 0 ville BT v√¶re {b:.2f} mmHg (ekstrapolation)")
print("=" * 50)

# Beregn forudsagte v√¶rdier
y_pred = m * x + b

# Plot data og regressionslinje
plt.figure(figsize=(10, 6))

# Scatter plot af faktiske data
plt.scatter(x, y, color='blue', s=100, alpha=0.7, label='Faktiske data', zorder=3)

# Regressionslinje
plt.plot(x, y_pred, color='red', linewidth=2.5, label=f'Regression: y = {m:.2f}x + {b:.1f}', zorder=2)

# Tilf√∏j grid bag datapunkterne
plt.grid(True, alpha=0.3, linestyle='--', zorder=1)

# Labels og titel
plt.xlabel('Alder (√•r)', fontsize=12, fontweight='bold')
plt.ylabel('Systolisk blodtryk (mmHg)', fontsize=12, fontweight='bold')
plt.title('Line√¶r regression: Blodtryk vs Alder', fontsize=14, fontweight='bold', pad=15)

# Legend
plt.legend(fontsize=11, loc='lower right')

# Tilpas layout
plt.tight_layout()

# Gem figur
plt.savefig('regression_plot.png', dpi=300, bbox_inches='tight')
print("\nPlot gemt som 'regression_plot.png'")

# Vis plot
plt.show()

print("\nBem√¶rk:")
print("  - Bl√• punkter viser de faktiske m√•linger")
print("  - R√∏d linje viser den beregnede regressionslinje")
print("  - Jo t√¶ttere punkterne er p√• linjen, jo bedre er fittet")

# Fra signaler til populationsdata

## Forskel p√• signalniveau og populationsniveau

| Aspekt | Signalniveau (Forel√¶sning 5-8) | Populationsniveau (Forel√¶sning 9-12) |
|--------|-------------------------------|--------------------------------------|
| **Data** | Tidsserier (EKG, PPG, SCG) | Tv√¶rsnitsdata (√©n m√•ling per person) |
| **Struktur** | 1D array (samples over tid) | 2D array (r√¶kker=personer, kolonner=features) |
| **Regression** | Forudsige beat-features fra signalkarakteristika | Forudsige helbredsudfald fra personkarakteristika |
| **Visualisering** | Linjeplot (tid p√• x-aksen) | Scatter plot (ingen tidsdimension) |
| **Eksempel** | HR fra PPG-amplitude | Blodtryk fra alder og BMI |

## Hvorfor populationsregression?
- Identificer **risikofaktorer** (hvilke features forudsiger sygdom?)
- **Forudsig udfald** for nye individer
- Forst√• **sammenh√¶nge** mellem karakteristika

# PRAKTISK IMPLEMENTERING

## Trin 1: Forbered data

Vi skal have data i den rigtige form for regression.

In [None]:
# Import n√∏dvendige biblioteker
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# Eksempel: Forudsig systolisk blodtryk fra alder
# Data: [alder (√•r), systolisk blodtryk (mmHg)]
data = np.array([
    [25, 110], [30, 115], [35, 118], [40, 122], 
    [45, 128], [50, 135], [55, 140], [60, 145],
    [65, 150], [70, 155], [75, 160]
])

# Split i X (prediktor) og y (respons)
X = data[:, 0].reshape(-1, 1)  # Alder (skal v√¶re 2D for sklearn)
y = data[:, 1]                  # Blodtryk (1D array)

print(f"X shape: {X.shape}")  # (11, 1) - 11 personer, 1 feature
print(f"y shape: {y.shape}")  # (11,) - 11 m√•linger
print(f"\nF√∏rste 3 datapunkter:")
print(f"Alder: {X[:3].flatten()}")
print(f"Blodtryk: {y[:3]}")

## Trin 2: Fit regressionsmodellen

Nu fitter vi modellen til data ved at finde den bedste linje.

In [None]:
# Opret og fit model
model = LinearRegression()
model.fit(X, y)

# Udtr√¶k parametre
m = model.coef_[0]      # H√¶ldning
b = model.intercept_    # Sk√¶ring

print("=" * 50)
print("REGRESSIONSPARAMETRE")
print("=" * 50)
print(f"H√¶ldning (m):     {m:.3f} mmHg/√•r")
print(f"Sk√¶ring (b):      {b:.3f} mmHg")
print(f"\nModelformel:  y = {m:.3f}x + {b:.3f}")
print("=" * 50)

# Fortolkning
print(f"\nFortolkning:")
print(f"   - For hvert √•r √¶ldre stiger blodtrykket {m:.3f} mmHg")
print(f"   - Ved alder 0 (ekstrapolation) ville BT v√¶re {b:.3f} mmHg")

## Trin 3: Lav forudsigelser

Brug modellen til at forudsige nye v√¶rdier.

In [None]:
# Forudsigelser for tr√¶ningsdata
y_pred = model.predict(X)

# Forudsigelser for nye aldere
alder_ny = np.array([[32], [48], [63]])  # 3 nye personer
blodtryk_forudsagt = model.predict(alder_ny)

print("FORUDSIGELSER FOR NYE PERSONER")
print("=" * 50)
for alder, bt in zip(alder_ny.flatten(), blodtryk_forudsagt):
    print(f"Alder {alder} √•r ‚Üí Forudsagt BT: {bt:.1f} mmHg")
print("=" * 50)

# Sammenlign faktiske vs forudsagte (tr√¶ningsdata)
print(f"\nF√∏rste 3 tr√¶ningspunkter:")
print(f"Faktisk BT:    {y[:3]}")
print(f"Forudsagt BT:  {y_pred[:3].round(1)}")

## Trin 4: Visualis√©r regressionen

Visualisering viser hvor godt linjen fitter data.

In [None]:
# Plot data og regressionslinje
plt.figure(figsize=(10, 6))

# Scatter plot af data
plt.scatter(X, y, color='blue', s=100, alpha=0.6, label='Faktiske data')

# Regressionslinje
plt.plot(X, y_pred, color='red', linewidth=2, label=f'Regression: y = {m:.2f}x + {b:.2f}')

# Tilpasning
plt.xlabel('Alder (√•r)', fontsize=12)
plt.ylabel('Systolisk blodtryk (mmHg)', fontsize=12)
plt.title('Line√¶r regression: Blodtryk vs Alder', fontsize=14, fontweight='bold')
plt.legend(fontsize=11)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

print("Bem√¶rk:")
print("   - Bl√• punkter = faktiske m√•linger")
print("   - R√∏d linje = den fittede model")
print("   - Jo t√¶ttere punkterne er p√• linjen, jo bedre fit")

# Modelevaluering

## Hvor godt er fittet?

Vi bruger tre hovedmetrikker:

### 1. **R¬≤ (R-squared)**
- Andel af varians forklaret af modellen
- Interval: 0 til 1 (0 = ingen forklaring, 1 = perfekt fit)
- $R^2 = 1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2}$

### 2. **RMSE (Root Mean Squared Error)**
- Gennemsnitlig afstand mellem forudsigelser og data
- Samme enhed som y (mmHg i vores eksempel)
- $\text{RMSE} = \sqrt{\frac{1}{n}\sum(y_i - \hat{y}_i)^2}$

### 3. **Residualer**
- Forskellen mellem faktisk og forudsagt: $\text{residual}_i = y_i - \hat{y}_i$
- B√∏r v√¶re tilf√¶ldige (ingen m√∏nster)

In [None]:
# Beregn evalueringsmetrikker
r2 = model.score(X, y)  # R¬≤ fra sklearn
rmse = np.sqrt(np.mean((y - y_pred)**2))  # RMSE
residuals = y - y_pred  # Residualer

print("=" * 50)
print("MODELEVALUERING")
print("=" * 50)
print(f"R¬≤ (R-squared):        {r2:.4f}")
print(f"RMSE:                  {rmse:.2f} mmHg")
print(f"Mean residual:         {np.mean(residuals):.2e} mmHg")
print(f"Std. dev. residuals:   {np.std(residuals):.2f} mmHg")
print("=" * 50)

# Fortolkning
print(f"\nFortolkning:")
print(f"   - R¬≤ = {r2:.4f} ‚Üí Modellen forklarer {r2*100:.1f}% af variansen")
if r2 > 0.9:
    print(f"   - Dette er et MEGET GODT fit!")
elif r2 > 0.7:
    print(f"   - Dette er et GODT fit")
else:
    print(f"   - Dette fit kunne forbedres")
print(f"   - RMSE = {rmse:.2f} mmHg ‚Üí Typisk forudsigelsefejl")
print(f"   - Residualer har mean ‚âà 0 (som forventet)")

# Residualanalyse

## Hvorfor residualer?

Residualer fort√¶ller os:
- **Hvor godt modellen fitter** (sm√• residualer = godt fit)
- **Om modellen er korrekt** (tilf√¶ldig spredning = godt, m√∏nster = problem)
- **Om antagelser holder** (normalitet, homoskedasticitet)

## God vs D√•rlig residualfordeling

| God residualfordeling | D√•rlig residualfordeling |
|-----------------------|--------------------------|
| Tilf√¶ldig spredning omkring 0 | Systematisk m√∏nster (kurve, vifteform) |
| Konstant varians | Variansen stiger/falder med X |
| Omtrent normalfordelt | Sk√¶v fordeling, outliers |

In [None]:
# Visualis√©r residualer
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Plot 1: Residualer vs Forudsagt
axes[0].scatter(y_pred, residuals, color='purple', s=100, alpha=0.6)
axes[0].axhline(y=0, color='red', linestyle='--', linewidth=2, label='y=0')
axes[0].set_xlabel('Forudsagt blodtryk (mmHg)', fontsize=12)
axes[0].set_ylabel('Residualer (mmHg)', fontsize=12)
axes[0].set_title('Residualer vs Forudsagt', fontsize=13, fontweight='bold')
axes[0].grid(True, alpha=0.3)
axes[0].legend()

# Plot 2: Histogram af residualer
axes[1].hist(residuals, bins=8, color='green', alpha=0.7, edgecolor='black')
axes[1].axvline(x=0, color='red', linestyle='--', linewidth=2, label='Mean=0')
axes[1].set_xlabel('Residualer (mmHg)', fontsize=12)
axes[1].set_ylabel('Frekvens', fontsize=12)
axes[1].set_title('Fordeling af residualer', fontsize=13, fontweight='bold')
axes[1].grid(True, alpha=0.3, axis='y')
axes[1].legend()

plt.tight_layout()
plt.show()

print("Interpretation:")
print("   - Venstre plot: Tilf√¶ldig spredning omkring 0 = godt")
print("   - H√∏jre plot: Omtrent symmetrisk fordeling = godt")
print("   - Hvis der var et m√∏nster, skulle vi bruge en ikke-line√¶r model")

# Multiple line√¶r regression

## Fra √©n til flere features

**Simpel line√¶r regression:**
$$y = m x + b$$
- √ân prediktor (X)

**Multiple line√¶r regression:**
$$y = m_1 x_1 + m_2 x_2 + m_3 x_3 + ... + m_n x_n + b$$
- Flere pr√¶diktorer ($x_1, x_2, ..., x_n$)

## Eksempel: Blodtryk fra alder OG BMI
$$\text{Blodtryk} = m_1 \cdot \text{Alder} + m_2 \cdot \text{BMI} + b$$

## Fordele
- Mere pr√¶cise forudsigelser (h√∏jere R¬≤)  
- Forst√• relative bidrag fra forskellige faktorer  
- Kontrollere for confounders  

## Udfordringer
- Multikollinearitet (korrelerede features)  
- Overfitting med for mange features  
- Fortolkning bliver mere kompleks

## Multiple regression: Implementering

In [None]:
# Data med flere features: [alder, BMI, systolisk BT]
data_multi = np.array([
    [25, 22, 110], [30, 24, 115], [35, 23, 118], [40, 26, 122], 
    [45, 28, 128], [50, 30, 135], [55, 29, 140], [60, 31, 145],
    [65, 32, 150], [70, 33, 155], [75, 35, 160]
])

# Split i X (flere features) og y
X_multi = data_multi[:, 0:2]  # Alder og BMI (2 kolonner)
y_multi = data_multi[:, 2]     # Blodtryk

print(f"X_multi shape: {X_multi.shape}")  # (11, 2) - 11 personer, 2 features
print(f"y_multi shape: {y_multi.shape}")  # (11,) - 11 m√•linger

# Fit multiple regression model
model_multi = LinearRegression()
model_multi.fit(X_multi, y_multi)

# Udtr√¶k parametre
m1, m2 = model_multi.coef_
b_multi = model_multi.intercept_

print("\n" + "=" * 50)
print("MULTIPLE REGRESSION RESULTAT")
print("=" * 50)
print(f"Koefficient for Alder (m1): {m1:.3f} mmHg/√•r")
print(f"Koefficient for BMI (m2):   {m2:.3f} mmHg/(kg/m¬≤)")
print(f"Sk√¶ring (b):                {b_multi:.3f} mmHg")
print(f"\nModelformel:")
print(f"BT = {m1:.3f}¬∑Alder + {m2:.3f}¬∑BMI + {b_multi:.3f}")
print("=" * 50)

# Evaluer
y_pred_multi = model_multi.predict(X_multi)
r2_multi = model_multi.score(X_multi, y_multi)
rmse_multi = np.sqrt(np.mean((y_multi - y_pred_multi)**2))

print(f"\nEvaluering:")
print(f"R¬≤:   {r2_multi:.4f} (sammenlign med simple model: {r2:.4f})")
print(f"RMSE: {rmse_multi:.2f} mmHg (sammenlign med simple model: {rmse:.2f} mmHg)")

if r2_multi > r2:
    print(f"\nMultiple regression forbedrer R¬≤ med {(r2_multi-r2)*100:.1f} procentpoint!")

# Datah√•ndtering: Manglende data og outliers

## Manglende data (NaN)

**Problem:** Reelle datas√¶t indeholder ofte manglende v√¶rdier

**L√∏sninger:**
1. **Fjern r√¶kker:** Drop personer med manglende data
   ```python
   # Identific√©r r√¶kker uden NaN
   mask = ~np.isnan(data).any(axis=1)
   data_clean = data[mask]
   ```

2. **Imputation:** Erstat med gennemsnit, median eller forudsigelse
   ```python
   from sklearn.impute import SimpleImputer
   imputer = SimpleImputer(strategy='mean')
   data_imputed = imputer.fit_transform(data)
   ```

## Outliers

**Problem:** Ekstreme v√¶rdier kan dominere fittet

**L√∏sninger:**
1. **Z-score metode:** Fjern punkter > 3 standardafvigelser fra middelv√¶rdi
2. **IQR metode:** Fjern punkter uden for [Q1-1.5¬∑IQR, Q3+1.5¬∑IQR]
3. **Boks visualisering:** Inspicer f√∏rst med box plots!

In [None]:
# Eksempel: Data med manglende v√¶rdier og outlier
data_messy = np.array([
    [25, 110], [30, 115], [35, np.nan], [40, 122],  # NaN ved alder 35
    [45, 128], [50, 135], [55, 200], [60, 145],     # Outlier (200) ved alder 55
    [65, 150], [70, 155], [75, 160]
])

print("ORIGINAL DATA")
print(data_messy)
print(f"\nAntal NaN: {np.isnan(data_messy).sum()}")

# 1. H√•ndter manglende data: Fjern r√¶kker med NaN
mask = ~np.isnan(data_messy).any(axis=1)
data_no_nan = data_messy[mask]
print(f"\nEfter fjernelse af NaN: {data_no_nan.shape[0]} r√¶kker tilbage")

# 2. Identific√©r outliers (Z-score > 3)
X_clean = data_no_nan[:, 0].reshape(-1, 1)
y_clean = data_no_nan[:, 1]

z_scores = np.abs((y_clean - np.mean(y_clean)) / np.std(y_clean))
outlier_mask = z_scores < 3  # Behold kun ikke-outliers

X_final = X_clean[outlier_mask]
y_final = y_clean[outlier_mask]

print(f"Efter fjernelse af outliers: {X_final.shape[0]} r√¶kker tilbage")
print(f"Fjernet outlier ved alder: {X_clean[~outlier_mask].flatten()}")

# Fit ren model
model_clean = LinearRegression()
model_clean.fit(X_final, y_final)
r2_clean = model_clean.score(X_final, y_final)

print(f"\nRen model R¬≤: {r2_clean:.4f}")
print(f"   (Sammenlign med oprindelig model: {r2:.4f})")

# Reproducerbarhed og dokumentation

## Hvorfor metadata?

Uden metadata kan analysen ikke verificeres eller genbruges!

## Hvad skal dokumenteres?

### Data-metadata
- Datakilde og indsamlingsdato
- Antal personer, antal features
- Enheder for hver variabel
- Behandlinger udf√∏rt (fjernet NaN? outliers?)

### Model-metadata
- Model-type (LinearRegression)
- Software-versioner (sklearn, numpy)
- Feature-navne og r√¶kkef√∏lge
- Fit-dato og analytiker

### Resultat-metadata
- R¬≤, RMSE og andre metrikker
- Koefficienter og sk√¶ring
- Valideringsstrategi (train/test split?)

## Gem metadata i JSON eller CSV
```python
import json
metadata = {
    "date": "2026-02-10",
    "model": "LinearRegression",
    "features": ["alder", "BMI"],
    "n_samples": 11,
    "r2": 0.9876,
    "rmse": 2.34
}
with open("metadata.json", "w") as f:
    json.dump(metadata, f, indent=2)
```

# Komplet workflow: Fra data til model

```
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ 1. INDL√ÜS DATA                                              ‚îÇ
‚îÇ    - L√¶s CSV/NumPy array                                    ‚îÇ
‚îÇ    - Tjek struktur og dimensioner                           ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                            ‚Üì
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ 2. INSPIC√âR & RENS                                          ‚îÇ
‚îÇ    - Visualis√©r med scatter plots                           ‚îÇ
‚îÇ    - Tjek for manglende data (np.isnan)                     ‚îÇ
‚îÇ    - Identific√©r og h√•ndter outliers                        ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                            ‚Üì
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ 3. FORBERED                                                 ‚îÇ
‚îÇ    - Split i X (features) og y (respons)                    ‚îÇ
‚îÇ    - Reshape til korrekte dimensioner                       ‚îÇ
‚îÇ    - (Optional) Normaliser/standardis√©r                     ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                            ‚Üì
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ 4. FIT MODEL                                                ‚îÇ
‚îÇ    - LinearRegression().fit(X, y)                           ‚îÇ
‚îÇ    - Udtr√¶k koefficienter og sk√¶ring                        ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                            ‚Üì
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ 5. EVALUER                                                  ‚îÇ
‚îÇ    - Beregn R¬≤, RMSE                                        ‚îÇ
‚îÇ    - Plot data + regressionslinje                           ‚îÇ
‚îÇ    - Analyser residualer                                    ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                            ‚Üì
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ 6. FORUDSIG & DOKUMENT√âR                                    ‚îÇ
‚îÇ    - Brug model.predict() p√• nye data                       ‚îÇ
‚îÇ    - Gem resultater med metadata                            ‚îÇ
‚îÇ    - Rapport√©r resultater                                   ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

# Antagelser og begr√¶nsninger

## Line√¶r regressions antagelser

For at regression skal v√¶re valid, skal f√∏lgende holde:

### 1. **Linearitet**
- Sammenh√¶ngen mellem X og y skal v√¶re line√¶r
- Tjek: Plot data f√∏rst!

### 2. **Uafh√¶ngighed**
- Observationer skal v√¶re uafh√¶ngige
- Problem: gentagne m√•linger p√• samme person

### 3. **Homoskedasticitet**
- Varians af residualer skal v√¶re konstant
- Tjek: Residualplot ikke-vifteformet

### 4. **Normalitet**
- Residualer b√∏r v√¶re normalfordelte
- Tjek: Histogram eller Q-Q plot

## Begr√¶nsninger

**Korrelation ‚â† kausalitet**
- Regression viser sammenh√¶ng, ikke √•rsag

**Ekstrapolering er usikker**
- Forudsigelser uden for data-omr√•det er up√•lidelige

**Multikollinearitet**
- Korrelerede features g√∏r koefficienter ustabile

**Outliers dominerer**
- F√• ekstreme punkter kan √¶ndre fittet drastisk

# Praktiske tips

## Gode vaner

### **Visualis√©r ALTID data f√∏rst**
- Scatter plot afsl√∏rer relationer og outliers
- Aldrig fit en model uden at se data

### **Start simpelt**
- Pr√∏v simple line√¶r regression f√∏r multiple
- Tilf√∏j features √©n ad gangen

### **Valid√©r antagelser**
- Tjek residualplots efter hvert fit
- Hvis m√∏nster: overvej ikke-line√¶r model

### **Dokument√©r alt**
- Gem metadata sammen med resultater
- Komment√©r kode grundigt
- Rapport√©r b√•de succesfulde og mislykkede fors√∏g

### **Fortolk i kontekst**
- R¬≤ alene er ikke nok
- Sp√∏rg: Giver resultaterne fysiologisk/klinisk mening?

## Almindelige fejl

- Glemme at reshape X til 2D array  
- Bruge tr√¶ningsdata til evaluering  
- Ignorere outliers og NaN  
- Antage kausalitet fra korrelation  
- Ekstrapolere langt fra data  
- Glemme metadata (hvordan blev modellen fittetet?)

# Etiske overvejelser

## Populationsdata er f√∏lsomme helbredsdata

### Privatlivsbeskyttelse
- **Pseudonymisering:** Ingen direkte identifikatorer (navne, CPR-numre)
- **Adgangskontrol:** Kun autoriserede personer ser data
- **Kryptering:** Data skal v√¶re krypteret b√•de i hvile og under transport

### Bias og retf√¶rdighed
- **Repr√¶sentativitet:** Er din population repr√¶sentativ?
- **Underrepr√¶sentation:** Visse grupper kan mangle i data
- **Fairness:** Sikr at modellen ikke diskriminerer p√• k√∏n, etnicitet, alder

### Samtykke og transparens
- **Informeret samtykke:** Personer skal vide hvordan data bruges
- **Form√•lsbegr√¶nsning:** Brug kun data til det aftalte form√•l
- **Retten til at blive glemt:** Personer kan tr√¶kke samtykke tilbage

### Ansvarlig brug af forudsigelser
- **Usikkerhed kommunikeres:** RMSE og konfidensintervaller skal rapporteres
- **Begr√¶nsninger ekspliciteres:** Ikke ekstrapol√©r, rapport√©r antagelser
- **Klinisk validering:** Modeller skal testes prospektivt f√∏r deployment

### Refleksion
> N√•r vi forudsiger helbredsudfald, p√•virker vi virkelige menneskers liv.  
> Sp√∏rg altid: Er dette etisk forsvarligt? Er det til gavn for patienten?

# Opsummering

## Hvad har vi l√¶rt?

### üìä **Line√¶r regression**
- Find sammenh√¶nge mellem kontinuerte variable
- Fit linje: $y = mx + b$ ved at minimere kvadrerede fejl
- sklearn: `LinearRegression().fit(X, y)`

### üìà **Evaluering**
- **R¬≤:** andel af varians forklaret (0-1)
- **RMSE:** typisk forudsigelsefejl (samme enhed som y)
- **Residualer:** skal v√¶re tilf√¶ldige, ingen m√∏nster

### üî¢ **Multiple regression**
- Flere features forbedrer forudsigelser
- Pas p√• multikollinearitet

### üßπ **Datah√•ndtering**
- H√•ndter manglende data og outliers
- Visualis√©r f√∏r modellering

### üìù **Reproducerbarhed**
- Dokument√©r parametre, data og metrikker
- Gem metadata i JSON

### ‚öñÔ∏è **Etik**
- Beskyt privatlivets fred
- V√¶r opm√¶rksom p√• bias
- Kommunik√©r usikkerhed

## N√¶ste gang: Forel√¶sning 10
**Datavisualisering og unsupervised l√¶ring**
- Exploratory Data Analysis (EDA)
- k-means clustering
- Iris-datas√¶t

# √òVELSE: Pr√∏v selv!

## Opgave: Forudsig diastolisk blodtryk fra puls

Du har f√∏lgende data: [puls (bpm), diastolisk blodtryk (mmHg)]

### Trin 1: Indl√¶s data
```python
data_exercise = np.array([
    [60, 70], [65, 72], [70, 75], [75, 78],
    [80, 80], [85, 83], [90, 85], [95, 88]
])
```

### Trin 2: Opgaver
1. **Split data** i X (puls) og y (diastolisk BT)
2. **Fit model** med `LinearRegression()`
3. **Visualis√©r** data + regressionslinje
4. **Evaluer** med R¬≤ og RMSE
5. **Analyser residualer** (plot residualer vs forudsagt)
6. **Forudsig** diastolisk BT ved puls = 72 bpm

### Trin 3: Udvidelse (multiple regression)
Tilf√∏j BMI som ekstra feature og se om R¬≤ forbedres:
```python
data_extended = np.array([
    [60, 22, 70], [65, 24, 72], [70, 23, 75], [75, 26, 78],
    [80, 28, 80], [85, 30, 83], [90, 29, 85], [95, 31, 88]
])
# Kolonner: puls, BMI, diastolisk BT
```

### Forventede resultater
- R¬≤ b√∏r v√¶re > 0.90
- Residualer b√∏r v√¶re tilf√¶ldigt spredt
- Multiple regression b√∏r forbedre R¬≤

## Start her!

In [None]:
# DIN KODE HER: L√∏s √∏velsen ovenfor

# Trin 1: Indl√¶s data
data_exercise = np.array([
    [60, 70], [65, 72], [70, 75], [75, 78],
    [80, 80], [85, 83], [90, 85], [95, 88]
])

# Trin 2: Din kode...

# Reference: sklearn funktioner

## Vigtigste funktioner til line√¶r regression

### **Model-oprettelse og fitting**
```python
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(X, y)  # X skal v√¶re 2D, y skal v√¶re 1D
```

### **Udtr√¶k parametre**
```python
m = model.coef_         # H√¶ldning(er) - array
b = model.intercept_    # Sk√¶ring - scalar
```

### **Forudsigelser**
```python
y_pred = model.predict(X)         # Forudsig for X
y_new = model.predict(X_new)      # Forudsig for nye data
```

### **Evaluering**
```python
r2 = model.score(X, y)            # R¬≤ score
```

### **Andre nyttige v√¶rkt√∏jer**
```python
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer

# Split data
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# Standardis√©r features
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# H√•ndter manglende data
imputer = SimpleImputer(strategy='mean')
X_imputed = imputer.fit_transform(X)
```

### **NumPy helpers**
```python
# Fjern NaN
mask = ~np.isnan(data).any(axis=1)
data_clean = data[mask]

# Beregn RMSE
rmse = np.sqrt(np.mean((y - y_pred)**2))

# Beregn residualer
residuals = y - y_pred
```

# Tjekliste: Line√¶r regression

Brug denne tjekliste hver gang du laver regression:

## F√∏r modellering

- [ ] Data indl√¶st og inspiceret (shape, type, range)
- [ ] Scatter plot lavet for at se relationer
- [ ] Manglende data identificeret og h√•ndteret
- [ ] Outliers identificeret og beslutning taget
- [ ] X er 2D array, y er 1D array
- [ ] Features og respons er klart defineret

## Under modellering

- [ ] Model oprettet: `LinearRegression()`
- [ ] Model fittet: `model.fit(X, y)`
- [ ] Koefficienter udtrukket: `model.coef_`, `model.intercept_`
- [ ] Forudsigelser lavet: `y_pred = model.predict(X)`

## Efter modellering

- [ ] R¬≤ beregnet og fortolket
- [ ] RMSE beregnet og fortolket
- [ ] Residualer beregnet og plottet
- [ ] Residualplot ser tilf√¶ldigt ud (ingen m√∏nster)
- [ ] Data + regressionslinje visualiseret
- [ ] Resultater giver fysiologisk/klinisk mening
- [ ] Metadata dokumenteret og gemt
- [ ] Antagelser tjekket (linearitet, homoskedasticitet)

## Etik og privatliv

- [ ] Data er pseudonymiseret
- [ ] Adgangskontrol implementeret
- [ ] Samtykke indhentet og respekteret
- [ ] Usikkerhed kommunikeret (RMSE, CI)
- [ ] Begr√¶nsninger ekspliciteret

---

## Du er nu klar til at arbejde med line√¶r regression!

**Sp√∏rgsm√•l?** ‚Üí mvan@hst.aau.dk