# Opgave Pytorch
## Bagtanker

Her er opgaverne som skal give jer en introduktion til hvor i kan implementere et simplt neuralt netv√¶rk ved hj√¶lp af pytorch.

Der kommer til at v√¶re noget general struktur i koden for at i hurtigere kan komme igang med at lave nogle netv√¶rk og pr√∏ve p√• dataen

## Pakker
Her er alle pakker som i burde skulle bruge til at f√• et virkede neuralt netv√¶rk.

### Installation og Import

F√∏rst installerer vi de n√∏dvendige pakker:
- **kagglehub**: Til at downloade datas√¶t fra Kaggle
- **corner**: Til at lave corner plots for data visualisering
- **seaborn**: Til smukke statistiske visualiseringer

**Installation:**
```bash
!pip install -q kagglehub corner seaborn
```

**Imports:**
```python
# PyTorch - Det prim√¶re machine learning framework
import torch
import torch.nn as nn

# VIGTIGT: Force CPU mode for kompatibilitet
# Udkomment√©r denne linje hvis du vil bruge GPU (hvis tilg√¶ngelig)
# torch.set_default_device("cpu")
```

### CPU vs GPU H√•ndtering

**Hvorn√•r skal I udkommentere `torch.set_default_device("cpu")`:**
- N√•r I har en GPU og vil bruge den til hurtigere tr√¶ning
- N√•r I arbejder med store datas√¶t (>10,000 samples)
- N√•r jeres model har mange parametre og tr√¶ning tager lang tid

**Hvorn√•r skal I beholde CPU force:**
- N√•r I l√¶rer grundl√¶ggende koncepter (mindre kompleksitet)
- Hvis I f√•r GPU memory errors
- N√•r I debugger kode (CPU er ofte mere stabil)
- Hvis jeres GPU drivers ikke virker korrekt

**S√•dan tjekker I GPU status:**
```python
print(f"CUDA available: {torch.cuda.is_available()}")
print(f"Current device: {device}")
if torch.cuda.is_available():
    print(f"GPU device name: {torch.cuda.get_device_name(0)}")
```

### Resterende Imports

```python
# Standard data science biblioteker
import numpy as np          # Numeriske beregninger og arrays
import matplotlib.pyplot as plt  # Plotting og visualisering
import seaborn as sns       # Statistiske plots og smukke grafer

# Vores custom import til datas√¶t og tr√¶ning
from NN_import import load_dataset, device, train_model
```

### Pakke Forklaringer

#### PyTorch Komponenter
- **torch**: Grundl√¶ggende tensor operationer og matematik
- **torch.nn**: Neurale netv√¶rk komponenter (lag, aktiveringer, loss funktioner)
- **torch.optim**: Optimizers (Adam, SGD, etc.) - importeres automatisk i train_model
- **torch.utils.data**: DataLoader og Dataset klasser - bruges internt

#### Visualisering og Data
- **numpy**: H√•ndtering af numeriske data og arrays
- **matplotlib.pyplot**: Grundl√¶ggende plotting funktioner
- **seaborn**: Statistiske visualiseringer og smukke plots
- **corner**: Specialiseret til corner plots (pairwise scatter plots)

#### Custom Imports
- **load_dataset**: Vores funktion til at indl√¶se og preprocesse data
- **device**: Automatisk CPU/GPU detection
- **train_model**: Komplet tr√¶nings pipeline

### Troubleshooting

**Hvis I f√•r CUDA errors:**
- Udkomment√©r `torch.set_default_device("cpu")` linjen

**Hvis visualiseringer ikke virker:**
- S√∏rg for at I har `matplotlib` og `seaborn` installeret
- Tjek at I k√∏rer i et milj√∏ der underst√∏tter plotting (Jupyter)

### GPU Performance Tips

**Hvorn√•r GPU giver st√∏rst fordel:**
- Store datas√¶t (>50,000 samples)
- Dybe netv√¶rk (>3-4 lag)
- Mange tr√¶nings epochs (>100)
- Komplekse arkitekturer

**Hvorn√•r CPU kan v√¶re hurtigere:**
- Meget sm√• datas√¶t (<1,000 samples)
- Simple netv√¶rk (1-2 lag)
- F√• epochs (<20)
- Debugging og eksperimentering

In [None]:
!pip install -q kagglehub corner seaborn

import torch
import torch.nn as nn
# Force CPU for compatibility
#torch.set_default_device("cpu")

# Import necessary libraries
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from NN_import import load_dataset, device, train_model

Using device: cpu


  from .autonotebook import tqdm as notebook_tqdm


## Data

Her har vi forberedt 5 forskellige datas√¶t som er formateret og klar til brug. Data preprocessing og cleaning er en af de vigtigste dele af Machine Learning, men det er gjort for jer, s√• I kan fokusere p√• at l√¶re om neurale netv√¶rk.

### Oversigt over Datas√¶t

| Dataset | Type | Target | Anvendelse |
|---------|------|--------|------------|
| `"particle"` | Regression | Invariant masse | Partikelfysik |
| `"weather"` | Regression | Apparent temperatur | Vejrforudsigelse |
| `"grades"` | Dual (Regression + Klassifikation) | GPA + GradeClass | Studieresultater |
| `"avocado"` | Klassifikation | Modenhed | Kvalitetsvurdering |
| `"diabetes"` | Klassifikation | Diabetes risiko | Sundhedsvurdering |

### Detaljerede Beskrivelser

#### üî¨ Partikelfysik (`"particle"`)
**Type:** Regression  
**Beskrivelse:** Elektron-par kollisioner i en partikeldetektor  
**M√•l:** Forudsig den invariante masse (energi) af partikelparet  
**Target:** `M` (masse) - kontinuerlig v√¶rdi  
**Features:** Kinetiske egenskaber fra detektorm√•linger  
**Anvendelse:** Opdagelse af nye partikler i fysikeksperimenter

#### üå§Ô∏è Vejrdata (`"weather"`)
**Type:** Regression  
**Beskrivelse:** Meteorologiske observationer fra Szeged  
**M√•l:** Forudsig apparent temperatur ud fra vejrforhold  
**Target:** `"Apparent Temperature (C)"` - kontinuerlig v√¶rdi  
**Features:** Temperatur, luftfugtighed, vindstyrke, barometertryk m.m.  
**Anvendelse:** Vejrforudsigelse og komfortindeks

#### üéì Studerende Data (`"grades"`)
**Type:** Dual (b√•de regression og klassifikation)  
**Beskrivelse:** Studerendes akademiske pr√¶station  
**M√•l:** Forudsig b√•de GPA (regression) og karakterkategori (klassifikation)  
**Target:** 
- `GPA` (regression): Kontinuerligt karaktergennemsnit (0.0-4.0)
- `GradeClass` (klassifikation): Kategorisk karakterniveau (A, B, C, D, F) - **one-hot encoded**
**Features:** Studietid, for√¶ldrest√∏tte, alder, tidligere karakterer  
**Anvendelse:** Uddannelsesplanl√¶gning og tidlig intervention

#### ü•ë Avocado Data (`"avocado"`)
**Type:** Klassifikation  
**Beskrivelse:** Kvalitetsvurdering af avocadoer  
**M√•l:** Klassificer modenhedsgrad ud fra fysiske egenskaber  
**Target:** `"ripeness"` - **one-hot encoded** kategorier (moden, fast-moden, umoden osv.)  
**Features:** H√•rdhed, farve, st√∏rrelse, v√¶gt  
**Anvendelse:** Kvalitetskontrol i f√∏devareindustrien

#### üè• Diabetes Data (`"diabetes"`)
**Type:** Klassifikation  
**Beskrivelse:** Sundhedsrisiko vurdering  
**M√•l:** Forudsig diabetes risiko ud fra livsstilsfaktorer  
**Target:** `"Diabetes_012"` - **one-hot encoded** (0=ingen, 1=pre-diabetes, 2=diabetes)  
**Features:** BMI, fysisk aktivitet, kost, alder, k√∏n, rygning  
**Anvendelse:** Forebyggende sundhedspleje og risikoscreening

### Target Encoding Forklaring

#### One-Hot Encoding
**Hvad er one-hot encoding?**
One-hot encoding er en m√•de at repr√¶sentere kategoriske data p√• i en format som neurale netv√¶rk kan forst√•. I stedet for at bruge tal som 0, 1, 2 for kategorier, opretter vi separate bin√¶re kolonner for hver kategori.

**Eksempel med 3 klasser (A, B, C):**
```
Original:  A  ‚Üí  [1, 0, 0]
          B  ‚Üí  [0, 1, 0]  
          C  ‚Üí  [0, 0, 1]
```

**Hvorfor bruger vi one-hot encoding?**
- **Undg√•r ordin√¶r bias**: Tal som 0, 1, 2 antyder en r√¶kkef√∏lge/hierarki der ikke findes
- **Bedre l√¶ring**: Netv√¶rket kan l√¶re forskellige m√∏nstre for hver klasse uafh√¶ngigt
- **Matematisk korrekt**: Fungerer optimalt med softmax aktivering og CrossEntropy loss

#### Target Format Per Dataset

**Regression (Particle, Weather, Grades-GPA):**
```python
# Kontinuerlige v√¶rdier (normaliserede)
train_targets_tensor.shape  # [N, 1] eller [N] - enkelt v√¶rdi per sample
```

**Bin√¶r Klassifikation (Avocado med ripeness_class="ripe"):**
```python
# 0 eller 1 for to klasser
train_targets_tensor.shape  # [N] - enkelt v√¶rdi (0/1) per sample
```

**Multiclass Klassifikation (Diabetes, Avocado-all, Grades-GradeClass):**
```python
# One-hot encoded - en kolonne per klasse
train_targets_tensor.shape  # [N, num_classes] - one-hot vektor per sample

# Eksempel for 3 klasser:
# Sample 0: [1, 0, 0] - tilh√∏rer klasse 0
# Sample 1: [0, 1, 0] - tilh√∏rer klasse 1
# Sample 2: [0, 0, 1] - tilh√∏rer klasse 2
```

### Brug af Datas√¶ttene

#### Grundl√¶ggende Loading
```python
# V√¶lg dit datas√¶t
dataset_name = "particle"  # Skift til: "weather", "grades", "avocado", "diabetes"
validation = False         # Inkluder validation set (default: False)
visualize = False         # Vis data visualiseringer

# Load datas√¶ttet
data = load_dataset(dataset_name, validation=validation, visualize=visualize)
```

#### Tilg√¶ngelige Data Variabler
Efter loading har du adgang til:
- `X_train_tensor`, `X_test_tensor` - Input features (altid normaliserede)
- `train_targets_tensor`, `test_targets_tensor` - Target v√¶rdier (format afh√¶nger af task type)  
- `X_val_tensor`, `val_targets_tensor` - Validation data (hvis `validation=True`)
- `input_size`, `output_size` - Netv√¶rksarkitektur dimensioner
- `data['task_type']` - 'regression' eller 'classification'
- `data['num_classes']` - Antal klasser (kun for klassifikation)
- `data['feature_names']` - Navne p√• input features

#### Output Size Guide
```python
# Regression: output_size = 1
if data['task_type'] == 'regression':
    print(f"Output layer should have {data['output_size']} neuron")

# Binary classification: output_size = 1  
elif data['num_classes'] == 1:
    print(f"Binary classification - output layer should have {data['output_size']} neuron")

# Multiclass classification: output_size = num_classes
else:
    print(f"Multiclass classification - output layer should have {data['output_size']} neurons")
```

#### Specielle Tilf√¶lde

**Grades Dataset (Dual Target):**
```python
if dataset_name == "grades":
    # Regression target (GPA)
    gpa_targets = train_targets_tensor  # Shape: [N] - kontinuerligt
    # Klassifikation target (GradeClass)  
    grade_class_targets = data['train_targets2']  # Shape: [N, num_classes] - one-hot
    print(f"GPA target shape: {gpa_targets.shape}")
    print(f"GradeClass target shape: {grade_class_targets.shape}")
```

**Avocado Dataset (Bin√¶r vs. Multiclass):**
```python
# Bin√¶r klassifikation (ripe vs. andre)
data = load_dataset("avocado", ripeness_class="ripe")
print(f"Binary target shape: {data['train_targets'].shape}")  # [N]

# Multiclass klassifikation (alle kategorier)
data = load_dataset("avocado", ripeness_class="all")
print(f"Multiclass target shape: {data['train_targets'].shape}")  # [N, num_classes]
```

### Data Preprocessing Pipeline

Alle datas√¶t gennemg√•r automatisk standardisering:

1. **NaN Removal** - R√¶kker med manglende v√¶rdier fjernes helt
2. **Train/Val/Test Split** - Automatisk opdeling (80/10/10% hvis validation=True)
3. **Feature Normalization** - StandardScaler p√• input features (mean=0, std=1)
4. **Target Processing**:
   - **Regression**: StandardScaler normalisering (mean=0, std=1)
   - **Classification**: One-hot encoding for multiclass, bin√¶r for binary
5. **Tensor Conversion** - Konverteret til PyTorch tensors p√• korrekt device (CPU/GPU)

### Visualisering

S√¶t `visualize=True` for at se:
- **Corner plots** - Pairwise feature relationships
- **Target distribution** - Histogram (regression) / bar plots (klassifikation)
- **Correlation matrix** - Feature korrelationer
- **Basic statistics** - Dataset st√∏rrelse og egenskaber

### Eksempel Output
```
Dataset: diabetes
Input size: 21
Output size: 3  
Task type: classification
Number of classes: 3
Training samples: 196036
Test samples: 21782
Feature names: ['HighBP', 'HighChol', 'CholCheck', ...]
Target shape: [196036, 3]  # One-hot encoded med 3 klasser
```

### Vigtige Pointer for Netv√¶rksdesign

**Output Layer Design:**
- **Regression**: `nn.Linear(hidden_size, 1)` + ingen aktivering
- **Bin√¶r klassifikation**: `nn.Linear(hidden_size, 1)` + sigmoid (eller BCEWithLogitsLoss)
- **Multiclass**: `nn.Linear(hidden_size, num_classes)` + softmax

**Loss Function Matching:**
- **Regression**: MSELoss med kontinuerlige targets
- **Bin√¶r**: BCELoss med 0/1 targets  
- **Multiclass**: BCELoss med one-hot targets (eller CrossEntropyLoss med class indices)

Denne struktur sikrer at jeres netv√¶rk f√•r data i det rigtige format og g√∏r det nemt at eksperimentere med forskellige arkitekturer p√• forskellige problemtyper.

In [2]:
# Load dataset with visualization
dataset_name = "avocado"  # Options: "particle", "weather", "grades", "avocado", "diabetes"
validation = False # Set to True to include validation set
visualize = False  # Set to True to see data visualizations

data = load_dataset(dataset_name, validation=validation, visualize=visualize)

# Extract commonly used variables for convenience
X_train_tensor = data['X_train']
X_test_tensor = data['X_test']
train_targets_tensor = data['train_targets']  
test_targets_tensor = data['test_targets']    
input_size = data['input_size']
output_size = data['output_size']

# Get task type and number of classes from data
task_type = data.get('task_type', 'regression')
num_classes = data.get('num_classes', None)

print(f"Task type: {task_type}")
if task_type == 'classification' and num_classes:
    print(f"Number of classes: {num_classes}")

# Check if there are any NaN values in the training data
if torch.isnan(X_train_tensor).any():
    print("Warning: Training data contains NaN values. Consider preprocessing to handle them.")
if torch.isnan(train_targets_tensor).any():
    print("Warning: Training targets contain NaN values. Consider preprocessing to handle them.")

# Handle grades dataset with two targets
if dataset_name == "grades" and 'train_targets2' in data:
    train_targets_classification = data['train_targets2']  # GradeClass (classification)
    test_targets_classification = data['test_targets2']    # GradeClass (classification)
    if validation:
        val_targets_classification = data['val_targets2']   # GradeClass (classification)
    print(f"Regression target (GPA): {train_targets_tensor.shape}")
    print(f"Classification target (GradeClass): {train_targets_classification.shape}")

if validation:
    X_val_tensor = data['X_val']
    val_targets_tensor = data['val_targets']

print(f"Dataset: {data['dataset_name']}")
print(f"Input size: {input_size}")
print(f"Output size: {output_size}")
print(f"Training samples: {X_train_tensor.shape[0]}")
if validation:
    print(f"Validation samples: {X_val_tensor.shape[0]}")
print(f"Test samples: {X_test_tensor.shape[0]}")
print(f"Feature names: {data['feature_names']}")

Original dataset shape: (250, 9)
After removing NaN values: (250, 9)
Removed 0 rows with NaN values
Avocado multiclass mapping: {0: 0, 1: 1, 2: 2, 3: 3, 4: 4}
Task type: classification
Number of classes: 5
Dataset: avocado
Input size: 7
Output size: 5
Training samples: 225
Test samples: 25
Feature names: ['firmness', 'hue', 'saturation', 'brightness', 'sound_db', 'weight_g', 'size_cm3']


## Simple Neural Network

Her er det mest simple netv√¶rk I kan lave - det har kun 1 input og 1 output lag. 

### Netv√¶rksarkitektur

N√•r I gerne vil lave flere lag, skal I bare s√∏rge for at st√∏rrelserne passer sammen:

**Eksempel p√• lag-dimensioner:**
- Input lag: `input_size` ‚Üí `hidden_size` (f.eks. 64)
- Hidden lag: `64` ‚Üí `64` (eller anden st√∏rrelse)
- Output lag: `64` ‚Üí `output_size`

### Vigtige Punkter

1. **Aktivering mellem lag**: Brug ReLU mellem hidden lag
2. **Output aktivering**: 
   - **Regression**: Ingen aktivering p√• output (line√¶r)
   - **Klassifikation**: Sigmoid (bin√¶r) eller ingen (multiclass med CrossEntropy)
3. **Lag st√∏rrelse**: Typiske hidden dimensioner er 32, 64, 128, 256

### Aktiveringsfunktioner

Aktiveringsfunktioner introducerer ikke-linearitet i netv√¶rket og g√∏r det muligt at l√¶re komplekse m√∏nstre:

**Almindelige aktiveringsfunktioner:**
- `nn.ReLU()` - Rectified Linear Unit (mest popul√¶re)
- `nn.Sigmoid()` - Sigmoid funktion (0 til 1)
- `nn.Tanh()` - Tanh funktion (-1 til 1)
- `nn.LeakyReLU()` - Modificeret ReLU der ikke "d√∏r"

**Hvorn√•r bruger vi aktivering:**
```python
# Mellem lag (altid)
x = self.fc1(x)
x = self.relu(x)  # Aktivering mellem lag

# P√• output lag (kun for klassifikation)
x = self.fc_output(x)
# For regression: ingen aktivering
# For bin√¶r klassifikation: sigmoid
# For multiclass: ingen (bruger CrossEntropy loss)
```

### SimpleNN Forklaring

Dette eksempel viser strukturen, men har en fejl - ReLU skal ikke bruges p√• output ved regression:

```python
class SimpleNN(nn.Module):
    def __init__(self, input_size, output_size):
        super(SimpleNN, self).__init__()
        self.fc1 = nn.Linear(input_size, output_size)  # Direkte forbindelse
        # ReLU bruges normalt mellem lag, ikke p√• output
    
    def forward(self, x):
        x = self.fc1(x)  # For regression: ingen aktivering p√• output
        return x
```

### Brug af train_model Funktionen

`train_model` funktionen g√∏r tr√¶ning nemt ved at h√•ndtere alle de tekniske detaljer:

```python
# Grundl√¶ggende brug
history, trained_model = train_model(
    model=model, 
    X_train=X_train_tensor, 
    y_train=train_targets_tensor,
    task_type='regression'  # eller 'classification'
)
```

**Avancerede parametre:**
```python
history, trained_model = train_model(
    model=model,
    X_train=X_train_tensor,
    y_train=train_targets_tensor,
    X_val=X_val_tensor,           # Validation data (optional)
    y_val=val_targets_tensor,     # Validation targets (optional)
    X_test=X_test_tensor,         # Test data (optional)
    y_test=test_targets_tensor,   # Test targets (optional)
    task_type='regression',       # 'regression' eller 'classification'
    epochs=100,                   # Antal tr√¶nings epochs
    learning_rate=0.001,          # Learning rate for optimizer
    batch_size=32,                # Batch st√∏rrelse
    early_stopping_patience=10,   # Stop hvis ingen forbedring
    print_every=10               # Print status hver 10. epoch
)
```

**Hvad returnerer train_model:**
- `history`: Dictionary med tr√¶nings/validation loss over tid
- `trained_model`: Det tr√¶nede netv√¶rk klar til brug

**Automatiske features:**
- V√¶lger "rigtig" loss funktion (MSE/CrossEntropy)
- Adam optimizer
- Device handling (CPU/GPU)
- Early stopping ved validation
- Progress tracking

### Opgave

Nu skal I pr√∏ve at lave jeres eget netv√¶rk og tr√¶ne det p√• et af datas√¶ttene. 

**Krav til jeres netv√¶rk:**
- 2-4 lag total (inkl. input og output lag)
- ReLU aktivering mellem hidden lag
- Passende output aktivering:
  - **Regression**: Ingen aktivering p√• output
  - **Bin√¶r klassifikation**: Sigmoid aktivering (kun √©n klasse output)
  - **Multiclass klassifikation**: Softmax aktivering (kun √©n klasse kan v√¶re sand)

**Om Bin√¶r Klassifikation:**
De tilg√¶ngelige datas√¶t er prim√¶rt regression og multiclass klassifikation. For at eksperimentere med bin√¶r klassifikation kan I:
- Bruge avocado datas√¶ttet med `ripeness_class="ripe"` (ripe vs. andre)
- Modificere et multiclass dataset til bin√¶r (f.eks. konvertere diabetes til "diabetes vs. ingen diabetes")

**Test jeres netv√¶rk:**
Efter I har implementeret jeres netv√¶rk, test det med `train_model`s grundl√¶ggende brug:

```python
# Grundl√¶ggende tr√¶ning
history, trained_model = train_model(
    model=model, 
    X_train=X_train_tensor, 
    y_train=train_targets_tensor,
    task_type='regression'  # eller 'classification'
)
```

**Tips:**
- Start simpelt (2-3 lag)
- Brug `hidden_size=64` til at starte med
- Husk at s√¶tte korrekt `task_type` baseret p√• jeres dataset
- Tjek at jeres netv√¶rks dimensioner passer med `input_size` og `output_size`
- For bin√¶r klassifikation: brug sigmoid aktivering p√• output (v√¶rdi mellem 0-1)
- For multiclass: brug softmax aktivering p√• output (sandsynlighedsfordeling over klasser)

**Bin√¶r Klassifikation Eksempel:**
```python
# Load avocado dataset for binary classification
data = load_dataset("avocado", ripeness_class="ripe")
# Dette giver binary targets: ripe (1) vs. alle andre (0)

# Eller konverter multiclass til binary:
# For diabetes: konverter til "har diabetes" vs. "ingen diabetes"
if dataset_name == "diabetes":
    # Konverter one-hot encoded targets til binary
    # [1,0,0] -> 0 (ingen diabetes)
    # [0,1,0] eller [0,0,1] -> 1 (har diabetes)
    binary_targets = (train_targets_tensor[:, 1] + train_targets_tensor[:, 2]).unsqueeze(1)
    print(f"Binary target shape: {binary_targets.shape}")  # [N, 1]
```

**Train_model Loss Functions:**
> **Note:** `train_model` funktionen bruger automatisk BCELoss for klassifikation (b√•de bin√¶r og multiclass) og MSELoss for regression. Dette betyder at for klassifikation skal jeres netv√¶rk have passende aktivering p√• output laget (sigmoid for bin√¶r, softmax for multiclass) da BCELoss forventer sandsynligheder mellem 0-1.

**Aktivering vs. Loss Function:**
- **Multiclass med Softmax**: Bruger BCELoss fordi targets er one-hot encoded
- **Bin√¶r med Sigmoid**: Bruger BCELoss med enkelt output  
- **Regression**: Bruger MSELoss med kontinuerlige targets

In [3]:
class JeresNN(nn.Module):
    def __init__(self, input_size, output_size, hidden_dimension=64, hidden_layers=2):
        super(JeresNN, self).__init__()
        # Her skal du definere de lag, aktiveringsfunktioner og andre komponenter i dit neurale netv√¶rk

        self.hidden_layers = hidden_layers
        self.hidden_dimension = hidden_dimension

        # TODO Inds√¶t din kode her

        
    
    def forward(self, x):
        # Her skal du definere, hvordan data passerer gennem netv√¶rket
        # TODO Inds√¶t din kode her
        
        return x

### Opgave - Implementer Jeres Eget Tr√¶nings Loop

Nu n√•r jeres netv√¶rk virker, skal I skrive jeres eget tr√¶nings loop fra bunden. Dette giver jer en dybere forst√•else af hvad der sker "under motorhjelmen" n√•r I bruger `train_model` funktionen.

> **üìö L√¶s f√∏rst:** Se afsnittet om "Matematikken" i `NN-forklaring.ipynb` for at forst√• hvad der sker under tr√¶ning.

#### Step 1: V√¶lg Loss Funktion og Hyperparametre

F√∏rst skal I v√¶lge de rigtige komponenter til jeres tr√¶nings setup:

**Loss Funktioner:**
- **MSE (Mean Squared Error)** for regression problemer
- **CrossEntropyLoss** for klassifikation problemer
- **BCELoss** for bin√¶r klassifikation med sigmoid output

**Hyperparametre I skal v√¶lge:**
- `learning_rate` (f.eks. 0.001) - hvor store skridt optimizeren tager
- `max_epochs` (f.eks. 100) - hvor mange gange I k√∏rer gennem alt data
- `batch_size` (f.eks. 32) - hvor mange samples I behandler ad gangen

> **üí° Tip:** Start konservativt med learning_rate=0.001. Hvis tr√¶ning er for langsom, pr√∏v 0.01. Hvis loss eksploderer, pr√∏v 0.0001.

#### Step 2: Forst√• Tr√¶nings Loop Strukturen

Et tr√¶nings loop har denne struktur:

```
For hver epoch (1 til max_epochs):
    S√¶t model i tr√¶nings mode
    For hver batch i tr√¶ningsdata:
        1. Flyt data til korrekt device (CPU/GPU)
        2. Nulstil gradienter
        3. Forward pass (beregn output)
        4. Beregn loss
        5. Backward pass (beregn gradienter) 
        6. Optimizer step (opdater v√¶gte)
    Print loss for denne epoch
```

> **üîç Forklaring:** L√¶s afsnittet om "Epochs" i `NN-forklaring.ipynb` for at forst√• hvorfor vi gentager denne proces.

#### Step 3: Implementer Tr√¶nings Loopet

**Ydre loop - Epochs:**
- Lav en for-loop som k√∏rer `max_epochs` gange
- Kald `model.train()` for at s√¶tte modellen i tr√¶nings mode
- Opret en variabel til at holde styr p√• den samlede loss for denne epoch

**Indre loop - Batches:**
- Lav en for-loop over `train_loader` med `for X, y in train_loader:`
- Dette giver jer b√•de input data (`X`) og targets (`y`) for hver batch

**Data Handling:**
```python
# Flyt data til korrekt device
X = X.to(device)
y = y.to(device)
```

**Den Klassiske Tr√¶nings Sekvens:**
```python
# 1. Nulstil gradienter fra forrige batch
optimizer.zero_grad()

# 2. Forward pass - hvad forudsiger modellen?
outputs = model(X)

# 3. Beregn loss mellem forudsigelse og virkelighed
loss = criterion(outputs, y)

# 4. Backward pass - beregn gradienter
loss.backward()

# 5. Optimizer step - opdater model v√¶gte
optimizer.step()

# 6. Akkumuler loss for denne batch
epoch_loss += loss.item()
```

**Print Progress:**
Efter hver epoch, print den gennemsnitlige loss:
```python
avg_loss = epoch_loss / len(train_loader)
print(f'Epoch [{epoch+1}/{max_epochs}], Loss: {avg_loss:.4f}')
```

#### Step 4: Debugging Tips

**Hvis jeres loss ikke falder:**
- Tjek at I bruger den rigtige loss funktion for jeres problem type
- Pr√∏v en lavere learning rate
- Kontroller at jeres netv√¶rk har passende aktivering p√• output

**Hvis loss eksploderer (bliver meget stor):**
- Reducer learning rate betydeligt (f.eks. fra 0.001 til 0.0001)
- Tjek at jeres data er normaliseret korrekt

**Hvis tr√¶ning er for langsom:**
- √òg learning rate forsigtigt
- Reducer model st√∏rrelse eller batch size

> **‚ö†Ô∏è Almindelige Fejl:**
> - Glemme `optimizer.zero_grad()` - dette f√•r gradienter til at akkumulere
> - Glemme `loss.backward()` - ingen gradienter bliver beregnet
> - Forkert loss funktion for problem type
> - Data ikke p√• samme device som model

#### Step 5: Sammenlign med train_model

Efter I har implementeret jeres eget tr√¶nings loop, sammenlign det med `train_model` funktionen:
- F√•r I lignende loss v√¶rdier?
- Tr√¶ner jeres model lige s√• hurtigt?
- Hvad er forskellen i performance?

> **üéØ M√•l:** I skal kunne implementere et funktionelt tr√¶nings loop der giver lignende resultater som `train_model` funktionen. Dette viser at I forst√•r de grundl√¶ggende principper bag neural network tr√¶ning.

In [None]:
#Define the loss function
criterion = nn.MSELoss()  # Mean Squared Error for regression tasks
#criterion = nn.CrossEntropyLoss()  # For classification tasks

# Define hyperparameters
batch_size = 32
lr = 0.001
max_epochs = 100

# Initialize the model, optimizer, and data loader
model = JeresNN(input_size, output_size).to(device)  # Initialize your custom model
train_dataset = torch.utils.data.TensorDataset(X_train_tensor, train_targets_tensor)
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
optimizer = torch.optim.Adam(model.parameters(), lr=lr)



ValueError: optimizer got an empty parameter list

### Opgave - Evaluering af Jeres Tr√¶nede Model

Nu har I det mest basale om hvordan man tr√¶ner et neuralt netv√¶rk, s√• nu skal I evaluere det. Det er som udgangspunkt bare at sige `model(jeres_data_her)`. Det vigtige er at I skriver `model.eval()` f√∏rst for at g√• ud af tr√¶nings mode.

Nu skal I pr√∏ve at se hvor langt jeres forudsagte test data er fra de rigtige v√¶rdier.

#### For Regression:
- **Standard afvigelse**: `torch.std(forudsigelse - rigtig)` 
- **Root Mean Square Error (RMSE)**: `torch.sqrt(torch.mean((forudsigelse - rigtig)**2))`
- **Mean Absolute Error (MAE)**: `torch.mean(torch.abs(forudsigelse - rigtig))`

#### For Klassifikation:
- **Accuracy (n√∏jagtighed)**: `torch.mean((forudsigelse > 0.5) == rigtig)` for bin√¶r klassifikation
- **For multiclass**: `torch.mean(torch.argmax(forudsigelse, dim=1) == torch.argmax(rigtig, dim=1))`

### Opgave - Eksperimentering og Videreudvikling

Leg med det! Den bedste m√•de at f√• en god id√© om hvad der virker i machine learning er at eksperimentere mange gange. Derfor synes vi bare I skal lege med det og pr√∏ve forskellige ting.

> **üìö L√¶s f√∏rst:** Se `NN-forklaring.ipynb` for dybere forst√•else af de koncepter der n√¶vnes herunder.

#### Forslag til Eksperimenter

**Grundl√¶ggende Forbedringer:**
- **Validering og Early Stopping** - Se afsnittet om "Validation og Early stopping" i `NN-forklaring.ipynb`
  - S√¶t `validation=True` n√•r I loader data
  - Brug `train_model` med validation parametre for automatisk early stopping
  - Implementer jeres eget early stopping i jeres tr√¶nings loop

- **Netv√¶rksarkitektur** - Se afsnittet om "Matematikken" for forst√•else af lag-strukturer
  - Pr√∏v forskellige antal lag (2-6 lag)
  - Eksperiment√©r med forskellige hidden_dimensions (32, 64, 128, 256)
  - Test forskellige aktiveringsfunktioner mellem lag

**Avancerede Teknikker:**
- **Dropout for Regularisering** - Se afsnittet om "Overtr√¶ning" ‚Üí "Dropout"
  - Tilf√∏j `nn.Dropout(p=0.2)` mellem jeres lag
  - Pr√∏v forskellige dropout rates (0.1, 0.3, 0.5)
  - Sammenlign performance med og uden dropout

- **Forskellige Aktiveringsfunktioner** - Se afsnittet om "Aktiverings Funktioner"
  - Pr√∏v `nn.LeakyReLU()` i stedet for `nn.ReLU()`
  - Test `nn.Tanh()` p√• hidden lag
  - Eksperiment√©r med forskellige output aktiveringer baseret p√• jeres problem type

**Problem-Specifik Eksperimentering:**
- **Klassifikation vs. Regression** - Se afsnittene om "Klassifikation" og "Regression"
  - Sammenlign performance p√• forskellige datas√¶t
  - Pr√∏v at konvertere multiclass til bin√¶r klassifikation
  - Test forskellige loss funktioner og evalueringsmetrikker

- **Cross Validation** - Se afsnittet om "Cross validation" i `NN-forklaring.ipynb`
  - Implementer k-fold cross validation
  - Sammenlign med simple train/validation split

#### Praktisk Brug af train_model

`train_model` funktionen kan h√•ndtere b√•de evaluering og validering automatisk:

```python
# Fuld setup med validering og test evaluering
history, trained_model = train_model(
    model=model, 
    X_train=X_train_tensor, 
    y_train=train_targets_tensor,
    X_val=X_val_tensor if validation else None,     # Automatisk early stopping
    y_val=val_targets_tensor if validation else None,
    X_test=X_test_tensor,                           # Automatisk test evaluering
    y_test=test_targets_tensor,
    task_type='regression',  # eller 'classification'
    epochs=200,              # H√∏jere da early stopping stopper automatisk
    early_stopping_patience=15  # Stop hvis ingen forbedring i 15 epochs
)
```

#### Debugging og Probleml√∏sning

**Hvis jeres model ikke l√¶rer:** Se "Hvad kan g√• galt" sektionerne i `NN-forklaring.ipynb`
- Tjek for overtr√¶ning (h√∏j tr√¶ning accuracy, lav test accuracy)
- Kontroller data skala og normalisering
- Pr√∏v forskellige learning rates
- Unders√∏g om I har nok data til jeres model kompleksitet

**Hvis I f√•r m√¶rkelige resultater:**
- Sammenlign med baseline (hvad f√•r I hvis I altid g√¶tter gennemsnittet?)
- Visualiser jeres predictions vs. targets
- Tjek om jeres data har bias eller outliers

#### Sp√∏rgsm√•l og Hj√¶lp

Sp√∏rg gerne hvis der er noget I har problemer med, eller noget mere I gerne vil pr√∏ve! Nogle gode sp√∏rgsm√•l at stille sig selv:

- Hvordan p√•virker antal lag performance?
- Hvad sker der hvis I bruger meget sm√• eller store learning rates?
- Kan I finde det optimale antal epochs f√∏r overtr√¶ning?
- Hvilken aktiverings funktion virker bedst for jeres problem?
- Hvordan p√•virker dropout rate performance?

> **üí° Tip:** Start med simple √¶ndringer og byg kompleksiteten op gradvist. Document hvad I pr√∏ver s√• I kan sammenligne resultater!