# ‚ö° Kvantisering (INT8) - Komprimera modellen f√∂r snabbare inference

**M√•l**: F√∂rst√• hur kvantisering fungerar och n√§r det √§r v√§rt det.

I detta notebook kommer vi att:
- F√∂rst√• vad kvantisering √§r (FP32 ‚Üí INT8)
- Se hur det p√•verkar modellstorlek och latens
- Experimentera med olika kalibreringsstorlekar
- F√∂rst√• kompromisser (accuracy vs prestanda)

> **üí° Tips**: Kvantisering √§r en av de viktigaste teknikerna f√∂r edge deployment - det kan g√∂ra modellen 4x snabbare!


## ü§î Vad √§r kvantisering?

**Kvantisering** = konvertera modellen fr√•n 32-bit flyttal (FP32) till 8-bit heltal (INT8).

**F√∂rdelar**:
- **4x mindre modellstorlek** (32 bit ‚Üí 8 bit)
- **2-4x snabbare inference** (INT8 √§r snabbare att ber√§kna)
- **Mindre minnesanv√§ndning** (viktigt f√∂r edge)

**Kompromisser**:
- **Accuracy-f√∂rlust** - modellen kan bli mindre exakt
- **Kalibrering kr√§vs** - beh√∂ver representativ data f√∂r att hitta r√§tt skala

<details>
<summary>üîç Klicka f√∂r att se tekniska detaljer</summary>

**Teknisk f√∂rklaring**:
- FP32: 32 bit per vikt (4 bytes)
- INT8: 8 bit per vikt (1 byte)
- Kvantisering hittar r√§tt skala f√∂r varje vikt
- Kalibrering anv√§nder representativ data f√∂r att optimera skalan

</details>


In [None]:
# F√∂rst skapar vi en modell att kvantisera
print("üöÄ Skapar modell f√∂r kvantisering...")
!python -m piedge_edukit.train --fakedata --no-pretrained --epochs 1 --batch-size 256 --output-dir ./models_quant


In [None]:
# Kontrollera ursprunglig modellstorlek
import os

if os.path.exists("./models_quant/model.onnx"):
    original_size = os.path.getsize("./models_quant/model.onnx") / (1024*1024)
    print(f"üì¶ Ursprunglig modellstorlek: {original_size:.2f} MB")
else:
    print("‚ùå Modell saknas")


## üß™ Experimentera med olika kalibreringsstorlekar

**Kalibreringsstorlek** = antal bilder som anv√§nds f√∂r att hitta r√§tt skala f√∂r kvantisering.

**St√∂rre kalibrering**:
- ‚úÖ B√§ttre accuracy (mer representativ data)
- ‚ùå L√§ngre kvantiserings-tid
- ‚ùå Mer minne under kvantisering

**Mindre kalibrering**:
- ‚úÖ Snabbare kvantisering
- ‚úÖ Mindre minnesanv√§ndning
- ‚ùå Potentiellt s√§mre accuracy


In [None]:
# Test 1: Liten kalibrering (snabb)
print("‚ö° Test 1: Liten kalibrering (16 bilder)")
!python -m piedge_edukit.quantization --fakedata --model-path ./models_quant/model.onnx --calib-size 16


In [None]:
# Visa kvantiseringsresultat
if os.path.exists("./reports/quantization_summary.txt"):
    with open("./reports/quantization_summary.txt", "r") as f:
        print("üìä Kvantiseringsresultat:")
        print(f.read())
else:
    print("‚ùå Kvantiseringsrapport saknas")


In [None]:
# J√§mf√∂r modellstorlekar
if os.path.exists("./models_quant/model.onnx") and os.path.exists("./models_quant/model_static.onnx"):
    original_size = os.path.getsize("./models_quant/model.onnx") / (1024*1024)
    quantized_size = os.path.getsize("./models_quant/model_static.onnx") / (1024*1024)
    
    print(f"üì¶ Modellstorlekar:")
    print(f"  Ursprunglig (FP32): {original_size:.2f} MB")
    print(f"  Kvantiserad (INT8): {quantized_size:.2f} MB")
    print(f"  Komprimering: {original_size/quantized_size:.1f}x")
else:
    print("‚ùå Modellfiler saknas")


In [None]:
# Benchmark b√•da modellerna f√∂r att j√§mf√∂ra latens
print("üöÄ Benchmark ursprunglig modell (FP32)...")
!python -m piedge_edukit.benchmark --fakedata --model-path ./models_quant/model.onnx --warmup 3 --runs 20 --providers CPUExecutionProvider


In [None]:
# Benchmark kvantiserad modell (INT8)
print("‚ö° Benchmark kvantiserad modell (INT8)...")
!python -m piedge_edukit.benchmark --fakedata --model-path ./models_quant/model_static.onnx --warmup 3 --runs 20 --providers CPUExecutionProvider


In [None]:
# J√§mf√∂r latens-resultat
import pandas as pd

# L√§s b√•da benchmark-resultaten
fp32_file = "./reports/latency_summary.txt"
if os.path.exists(fp32_file):
    with open(fp32_file, "r") as f:
        fp32_content = f.read()
    
    # Extrahera mean latens fr√•n texten (enkel parsing)
    lines = fp32_content.split('\n')
    fp32_mean = None
    for line in lines:
        if 'Mean' in line and 'ms' in line:
            try:
                fp32_mean = float(line.split(':')[1].strip().replace('ms', '').strip())
                break
            except:
                pass
    
    print(f"üìä Latens-j√§mf√∂relse:")
    if fp32_mean:
        print(f"  FP32 (ursprunglig): {fp32_mean:.2f} ms")
    else:
        print(f"  FP32: Kunde inte parsa latens")
    
    # TODO: L√§gg till INT8-latens h√§r n√§r den √§r tillg√§nglig
    print(f"  INT8 (kvantiserad): [kommer efter benchmark]")
else:
    print("‚ùå Benchmark-rapport saknas")


## ü§î Reflektionsfr√•gor

<details>
<summary>üí≠ N√§r √§r INT8-kvantisering v√§rt det?</summary>

**Svar**: INT8 √§r v√§rt det n√§r:
- **Latens √§r kritisk** - realtidsapplikationer, edge deployment
- **Minne √§r begr√§nsat** - mobil, Raspberry Pi
- **Accuracy-f√∂rlusten √§r acceptabel** - < 1-2% accuracy-f√∂rlust √§r ofta OK
- **Batch size √§r liten** - kvantisering fungerar b√§st med sm√• batches

**N√§r INTE v√§rt det**:
- Accuracy √§r absolut kritisk
- Du har gott om minne och CPU
- Modellen √§r redan snabb nog

</details>

<details>
<summary>üí≠ Vilka risker finns med kvantisering?</summary>

**Svar**: Huvudrisker:
- **Accuracy-f√∂rlust** - modellen kan bli mindre exakt
- **Kalibreringsdata** - beh√∂ver representativ data f√∂r bra kvantisering
- **Edge cases** - extrema v√§rden kan orsaka problem
- **Debugging** - kvantiserade modeller √§r sv√•rare att debugga

**Minskning**:
- Testa noggrant med riktig data
- Anv√§nd olika kalibreringsstorlekar
- Benchmark b√•de accuracy och latens

</details>


## üéØ Ditt eget experiment

**Uppgift**: Testa olika kalibreringsstorlekar och j√§mf√∂r resultaten.

**F√∂rslag**:
- Testa kalibreringsstorlekar: 8, 16, 32, 64
- J√§mf√∂r modellstorlek och latens
- Analysera accuracy-f√∂rlust (om tillg√§nglig)

**Kod att modifiera**:
```python
# √Ñndra dessa v√§rden:
CALIB_SIZE = 32

!python -m piedge_edukit.quantization --fakedata --model-path ./models_quant/model.onnx --calib-size {CALIB_SIZE}
```


In [None]:
# TODO: Implementera ditt experiment h√§r
# √Ñndra v√§rdena nedan och k√∂r kvantisering

CALIB_SIZE = 32

print(f"üß™ Mitt experiment: kalibreringsstorlek={CALIB_SIZE}")

# TODO: K√∂r kvantisering med din inst√§llning
# !python -m piedge_edukit.quantization --fakedata --model-path ./models_quant/model.onnx --calib-size {CALIB_SIZE}


## üéâ Sammanfattning

Du har nu l√§rt dig:
- Vad kvantisering √§r (FP32 ‚Üí INT8) och varf√∂r det √§r viktigt
- Hur kalibreringsstorlek p√•verkar resultatet
- Kompromisser mellan accuracy och prestanda
- N√§r kvantisering √§r v√§rt det vs n√§r det inte √§r det

**N√§sta steg**: G√• till `04_evaluate_and_verify.ipynb` f√∂r att f√∂rst√• automatiska checks och kvittogenerering.

**Viktiga begrepp**:
- **Kvantisering**: FP32 ‚Üí INT8 f√∂r snabbare inference
- **Kalibrering**: Representativ data f√∂r att hitta r√§tt skala
- **Komprimering**: 4x mindre modellstorlek
- **Speedup**: 2-4x snabbare inference
