# ‚ö° Latensbenchmark - F√∂rst√• modellens prestanda

**M√•l**: F√∂rst√• hur vi m√§ter och tolkar modellens latens (svarstid).

I detta notebook kommer vi att:
- F√∂rst√• vad latens √§r och varf√∂r det √§r viktigt
- Se hur benchmark fungerar (warmup, runs, providers)
- Tolka resultat (p50, p95, histogram)
- Experimentera med olika inst√§llningar

> **üí° Tips**: Latens √§r avg√∂rande f√∂r edge deployment - en modell som √§r f√∂r l√•ngsam √§r inte anv√§ndbar i verkligheten!


## ü§î Vad √§r latens och varf√∂r √§r det viktigt?

**Latens** = tiden det tar f√∂r modellen att g√∂ra en f√∂ruts√§gelse (inference time).

**Varf√∂r viktigt f√∂r edge**:
- **Realtidsapplikationer** - robotar, autonoma fordon
- **Anv√§ndarupplevelse** - ingen vill v√§nta 5 sekunder p√• en bildklassificering
- **Resursbegr√§nsningar** - Raspberry Pi har begr√§nsad CPU/memory

<details>
<summary>üîç Klicka f√∂r att se typiska latensm√•l</summary>

**Typiska latensm√•l**:
- **< 10ms**: Realtidsvideo, gaming
- **< 100ms**: Interaktiva applikationer
- **< 1000ms**: Batch processing, offline analys

**V√•r modell**: F√∂rv√§ntar oss ~1-10ms p√• CPU (bra f√∂r edge!)

</details>


## üîß Hur fungerar benchmark?

**Benchmark-processen**:
1. **Warmup** - k√∂r modellen n√•gra g√•nger f√∂r att "v√§rmma upp" (JIT compilation, cache)
2. **Runs** - m√§ter latens f√∂r m√•nga k√∂rningar
3. **Statistik** - ber√§knar p50, p95, mean, std

**Varf√∂r warmup?**
- F√∂rsta k√∂rningen √§r ofta l√•ngsam (JIT compilation)
- Cache-v√§rme p√•verkar prestanda
- Vi vill m√§ta "steady state" prestanda


In [None]:
# K√∂r benchmark med olika inst√§llningar
print("üöÄ K√∂r benchmark...")

# Anv√§nd modellen fr√•n f√∂reg√•ende notebook (eller skapa en snabb)
!python -m piedge_edukit.train --fakedata --no-pretrained --epochs 1 --batch-size 256 --output-dir ./models_bench


In [None]:
# Benchmark med olika antal runs f√∂r att se varians
import os

# Test 1: F√• runs (snabb)
print("üìä Test 1: 10 runs")
!python -m piedge_edukit.benchmark --fakedata --model-path ./models_bench/model.onnx --warmup 3 --runs 10 --providers CPUExecutionProvider


In [None]:
# Visa benchmark-resultat
if os.path.exists("./reports/latency_summary.txt"):
    with open("./reports/latency_summary.txt", "r") as f:
        print("üìà Benchmark-resultat:")
        print(f.read())
else:
    print("‚ùå Benchmark-rapport saknas")


In [None]:
# L√§s detaljerade latensdata och visualisera
import pandas as pd
import matplotlib.pyplot as plt

if os.path.exists("./reports/latency.csv"):
    df = pd.read_csv("./reports/latency.csv")
    
    print(f"üìä Latens-statistik:")
    print(f"Antal m√§tningar: {len(df)}")
    print(f"Mean: {df['latency_ms'].mean():.2f} ms")
    print(f"Std: {df['latency_ms'].std():.2f} ms")
    print(f"Min: {df['latency_ms'].min():.2f} ms")
    print(f"Max: {df['latency_ms'].max():.2f} ms")
    
    # Histogram
    plt.figure(figsize=(10, 6))
    plt.hist(df['latency_ms'], bins=20, alpha=0.7, edgecolor='black')
    plt.xlabel('Latens (ms)')
    plt.ylabel('Antal')
    plt.title('Latens-distribution')
    plt.grid(True, alpha=0.3)
    plt.show()
    
    # Box plot
    plt.figure(figsize=(8, 6))
    plt.boxplot(df['latency_ms'])
    plt.ylabel('Latens (ms)')
    plt.title('Latens Box Plot')
    plt.grid(True, alpha=0.3)
    plt.show()
else:
    print("‚ùå Latens CSV saknas")


## ü§î Reflektionsfr√•gor

<details>
<summary>üí≠ Varf√∂r √§r p95 viktigare √§n mean f√∂r edge deployment?</summary>

**Svar**: p95 (95:e percentilen) visar den v√§rsta latensen som 95% av anv√§ndarna upplever. Det √§r viktigare √§n mean eftersom:

- **Anv√§ndarupplevelse**: En anv√§ndare som f√•r 100ms latens kommer att m√§rka det, √§ven om mean √§r 10ms
- **SLA-krav**: M√•nga system har SLA-krav p√• p95 latens
- **Outliers**: Mean kan p√•verkas av extrema v√§rden, p95 √§r mer robust

</details>

<details>
<summary>üí≠ Vad h√§nder med latens-variansen n√§r du √∂kar antal runs?</summary>

**Svar**: Med fler runs f√•r vi:
- **Mer stabil statistik** - p50/p95 blir mer tillf√∂rlitliga
- **B√§ttre f√∂rst√•else av varians** - ser om modellen √§r konsistent
- **Mindre p√•verkan av outliers** - enstaka l√•ngsamma k√∂rningar p√•verkar mindre

**Experiment**: K√∂r benchmark med 10, 50, 100 runs och j√§mf√∂r standardavvikelsen.

</details>


## üéØ Ditt eget experiment

**Uppgift**: K√∂r benchmark med olika inst√§llningar och j√§mf√∂r resultaten.

**F√∂rslag**:
- Testa olika antal runs (10, 50, 100)
- J√§mf√∂r warmup-effekten (0, 3, 10 warmup)
- Analysera variansen mellan k√∂rningar

**Kod att modifiera**:
```python
# √Ñndra dessa v√§rden:
WARMUP_RUNS = 5
BENCHMARK_RUNS = 50

!python -m piedge_edukit.benchmark --fakedata --model-path ./models_bench/model.onnx --warmup {WARMUP_RUNS} --runs {BENCHMARK_RUNS} --providers CPUExecutionProvider
```


In [None]:
# TODO: Implementera ditt experiment h√§r
# √Ñndra v√§rdena nedan och k√∂r benchmark

WARMUP_RUNS = 5
BENCHMARK_RUNS = 50

print(f"üß™ Mitt experiment: warmup={WARMUP_RUNS}, runs={BENCHMARK_RUNS}")

# TODO: K√∂r benchmark med dina inst√§llningar
# !python -m piedge_edukit.benchmark --fakedata --model-path ./models_bench/model.onnx --warmup {WARMUP_RUNS} --runs {BENCHMARK_RUNS} --providers CPUExecutionProvider


## üéâ Sammanfattning

Du har nu l√§rt dig:
- Vad latens √§r och varf√∂r det √§r kritiskt f√∂r edge deployment
- Hur benchmark fungerar (warmup, runs, statistik)
- Hur man tolkar latens-resultat (p50, p95, varians)
- Varf√∂r p95 √§r viktigare √§n mean f√∂r anv√§ndarupplevelse

**N√§sta steg**: G√• till `03_quantization.ipynb` f√∂r att f√∂rst√• hur kvantisering kan f√∂rb√§ttra prestanda.

**Viktiga begrepp**:
- **Latens**: Inference-tid (kritiskt f√∂r edge)
- **Warmup**: F√∂rbereder modellen f√∂r m√§tning
- **p50/p95**: Percentiler f√∂r latens-distribution
- **Varians**: Konsistens i prestanda
