# Labb 2 (vecka 2): Klassificering – välja rätt metric och justera threshold


## Mål
Ni ska träna en klassificeringsmodell och:
1) välja **vilken utvärderings-metric som är mest rimlig** i ett givet scenario (accuracy / precision / recall / F1)  
2) **anpassa modellen** utifrån ert scenario genom att (a) välja en modellfamilj och (b) **justera threshold** för att få en bättre trade-off.

> Fokus i den här labben är inte att skriva mycket kod från scratch,
> utan att förstå **vad koden gör**, **varför vi gör stegen** och **hur vi tolkar resultaten**.

---

## Viktigt innan ni börjar
- **Kodning i den här labben:**  
  - `target = 1` = **positivt fall** (det ni vill hitta / larma om i scenariot)  
  - `target = 0` = **negativt fall** (allt annat)


- Fundera på: **Vilket fel är värst?**  
  - *False Positive (FP)* = falsklarm  
  - *False Negative (FN)* = miss
- Ni kommer att se att det inte finns ett “perfekt” svar – ni måste välja en trade-off.

---

## Scenarion
Läs igenom alla scenarion tillsammans. Välj sedan **ett** scenario per grupp.

Ni får samma dataset och nästan samma kod – men “vad som är ett bra resultat” beror på situationen.

### Scenario A: Kvalitetskontroll i produktion

**Kodning:** `0 = OK`, `1 = Defekt`

Ni har en modell som ska avgöra om en produkt är **OK** eller **Defekt**.  
Om en defekt produkt slinker igenom blir det reklamation och missnöjda kunder.  
Om en OK produkt felaktigt flaggas som defekt blir det onödigt svinn/omarbete.

En defekt som slinker igenom kostar ungefär lika mycket som att kassera/omarbeta en OK produkt (i snitt).

**Diskutera:**
- Vad kostar FP respektive FN här – och varför?
- Är det viktigast att *inte missa defekter* eller att *inte slösa på falsklarm*?
- Vad skulle ni vilja veta mer om (kostnader, volymer, kapacitet) innan ni bestämmer er?

---

### Scenario B: Supportteam – prioritera ärenden

**Kodning:** `0 = Låg prio`, `1 = Hög prio`

Ni ska förutsäga om ett inkommande ärende är **Hög prio** eller **Låg prio**.  
När modellen flaggar “hög prio” går ärendet direkt till ett specialistteam.  
Specialistteamet är dyrt och har begränsad kapacitet – men om ett *riktigt* högprio-ärende hamnar fel kan det bli dyrt på andra sätt (SLA, förlorade kunder).

Specialistteamet hinner max ta 20 ärenden/dag. Om modellen flaggar fler blir kö och allt tappar värde.

**Diskutera:**
- Vad händer om ni flaggar för många som “hög prio”?
- Vad händer om ni missar ett högprio-ärende?
- Hur skulle ni beskriva en “rimlig” trade-off för teamet?

---

### Scenario C: Säkerhet – upptäck intrång

**Kodning:** `0 = Inte intrång`, `1 = Intrång`

Ni övervakar systemloggar och ska förutsäga om en händelse är **Intrång** eller **Inte intrång**.  
Ett falsklarm innebär att någon får kolla upp det i efterhand.  
Ett missat intrång kan däremot få stora konsekvenser.

Ett missat intrång kan innebära dataläcka och driftstopp; ett falsklarm tar 5–10 min att kontrollera.

**Diskutera:**
- Varför är det här ett typiskt “obalanserat” problem i verkligheten?
- Vilket fel är värst: FP eller FN? (motivera)
- Hur skulle ni kommunicera er trade-off till en icke-teknisk chef?

---

### Scenario D: Marknad – hitta rätt målgrupp

**Kodning:** `0 = Kommer inte köpa`, `1 = Kommer köpa (om de får kampanjen)`

Ni ska välja vilka kunder som ska få en **kampanj** (positiv = “kommer troligen köpa om de får kampanjen”).  
Varje skickad kampanj kostar pengar och riskerar att irritera kunder som inte är intresserade.  
Samtidigt vill ni inte missa de kunder som faktiskt hade köpt.

Ni vill både undvika spam och samtidigt inte missa intäkter — ledningen vill ha en ‘rimlig balans’.

**Diskutera:**
- Vad kostar FP respektive FN i det här fallet?
- När kan det vara bättre att vara “snål” med kampanjer? När kan det vara bättre att vara “generös”?
- Om ni bara fick skicka kampanjen till 10% av kunderna – hur påverkar det er strategi?

---

## Uppgifter
1. Diskutera alla scenarion kort i gruppen, och välj sedan **ett** scenario att gå vidare med.
2. Bestäm och skriv ner vilket misstag som känns värst i praktiken:  **FP** (false positives) eller **FN** (false negatives)? Varför?
3. Välj en **primär metric** utifrån ert scenario och skriv en kort motivering:
   - Accuracy / Precision / Recall / F1
4. Kör notebooken fram till delen där ni **jämför flera modeller**.
   - Stanna vid varje output och **tolka tillsammans**.
5. Välj **en modell** att gå vidare med (t.ex. Logistic Regression / Decision Tree / Random Forest) och motivera kort:
   - Varför den modellen känns rimlig för just ert scenario (tolkning, stabilitet, risk för överfitting, osv).
6. Titta på modellens resultat på valideringsdatan:
   - Confusion matrix  
   - Accuracy / Precision / Recall / F1  
   - PR-kurva  
   Diskutera: *Ser det ut som ni får den typ av misstag ni helst vill undvika?*
7. **Justera threshold** (ändra bara `THRESHOLD`) och kör om.
   - Testa minst **tre** olika thresholds (t.ex. 0.2, 0.5, 0.8).
   - Efter varje test: skriv ner vad som händer med **FP** och **FN**.
8. Välj en threshold som ni kan **försvara** utifrån scenariot.
   - Skriv 2–3 meningar: *Vad offrar ni? Vad vinner ni?*
9. Kör sista delen (test-set) och jämför:
   - er valda modell + threshold
   - baseline (DummyClassifier)  
   Diskutera: *Blev resultatet liknande på test? Om inte – varför kan det skilja?*

### (Valfritt, om ni hinner)
- Byt primär metric och se om ni hade valt en annan threshold eller annan modell.
- Testa en annan modell och se om PR-kurvan förändras på ett sätt som påverkar ert beslut.

---

## Leverans (till helklassdiskussionen)
När ni är klara ska ni kunna svara kort på:
1) Vilket scenario valde ni och varför?
2) Vilket fel (FP eller FN) är värst – och varför?
3) Vilken metric valde ni som primär, och vilken modell valde ni?
4) Vilken threshold valde ni och vilken trade-off accepterade ni?

In [None]:
# python -m pip install numpy pandas matplotlib seaborn scikit-learn

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns; sns.set_theme()

from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split, StratifiedKFold, cross_validate
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.dummy import DummyClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

from sklearn.metrics import (
    confusion_matrix,
    ConfusionMatrixDisplay,
    accuracy_score,
    precision_score,
    recall_score,
    f1_score,
    precision_recall_curve,
    average_precision_score,
)

RANDOM_SEED = 42
rng = np.random.default_rng(RANDOM_SEED)


## Skapa ett dataset

In [None]:
# Vi skapar ett syntetiskt dataset så att vi kan styra svårighetsgrad och klassobalans.
# Positiv klass = 1 (det ni "larmar" om).

X, y = make_classification(
    n_samples=5000,
    n_features=20,
    n_informative=6,
    n_redundant=4,
    n_repeated=0,
    n_clusters_per_class=2,
    weights=[0.92, 0.08],       # <-- klassobalans (8% positiva)
    flip_y=0.02,                # <-- lite label noise
    class_sep=1.0,              # <-- justera om ni vill göra det lättare/svårare
    random_state=RANDOM_SEED,
)

X = pd.DataFrame(X, columns=[f"x{i:02d}" for i in range(X.shape[1])])
y = pd.Series(y, name="target")

y.value_counts(normalize=True).rename("andel")


## EDA (snabbt)

Vi gör bara en **snabb koll på klassbalansen**.

Poängen är att se om problemet är “obalanserat” (t.ex. få positiva fall).  
Det påverkar ofta hur man ska tolka **accuracy** och varför **precision/recall** kan bli viktiga.


In [None]:
# Snabb titt på klassbalans

counts = pd.Series(y).value_counts().sort_index()
display(pd.DataFrame({
    "target": counts.index,
    "antal": counts.values,
    "andel": (counts.values / counts.values.sum())
}))

fig, ax = plt.subplots(figsize=(5,3))
ax.bar(counts.index.astype(str), counts.values)
ax.set_xlabel("target (0/1)")
ax.set_ylabel("Antal")
ax.set_title("Klassbalans i datasetet")
plt.show()


## Train / Validation / Test split

In [None]:
# Vi vill ha en separat validation-del för att välja modell + threshold
X_trainval, X_test, y_trainval, y_test = train_test_split(
    X, y, test_size=0.2, stratify=y, random_state=RANDOM_SEED
)

X_train, X_val, y_train, y_val = train_test_split(
    X_trainval, y_trainval, test_size=0.25, stratify=y_trainval, random_state=RANDOM_SEED
)  # => 60% train, 20% val, 20% test

print("Train:", X_train.shape, " Val:", X_val.shape, " Test:", X_test.shape)
print("Andel positiva (train/val/test):",
      y_train.mean().round(3), y_val.mean().round(3), y_test.mean().round(3))


## Baseline

In [None]:
# Baseline: gissa alltid majoritetsklassen
baseline = DummyClassifier(strategy="most_frequent", random_state=RANDOM_SEED)
baseline.fit(X_train, y_train)

y_pred_base = baseline.predict(X_val)

def metrics_report(y_true, y_pred, title=""):
    return pd.Series({
        "accuracy": accuracy_score(y_true, y_pred),
        "precision": precision_score(y_true, y_pred, zero_division=0),
        "recall": recall_score(y_true, y_pred, zero_division=0),
        "f1": f1_score(y_true, y_pred, zero_division=0),
    }, name=title)

display(metrics_report(y_val, y_pred_base, "Baseline (val)"))

cm = confusion_matrix(y_val, y_pred_base)
disp = ConfusionMatrixDisplay(cm)
disp.plot(values_format="d")
plt.title("Confusion matrix – Baseline (val)")
plt.show()


## Jämför modeller (CV på train)

In [None]:
# Vi jämför tre vanliga modellfamiljer:
# - Logistic Regression (linjär modell, ofta bra baseline)
# - Decision Tree (icke-linjär, kan överanpassa)
# - Random Forest (ensemble, ofta robust)

models = {
    "logreg": Pipeline([
        ("imputer", SimpleImputer(strategy="median")),
        ("scaler", StandardScaler()),
        ("clf", LogisticRegression(max_iter=2000, random_state=RANDOM_SEED, class_weight="balanced"))
    ]),
    "tree": Pipeline([
        ("imputer", SimpleImputer(strategy="median")),
        ("clf", DecisionTreeClassifier(random_state=RANDOM_SEED, max_depth=5, min_samples_leaf=20))
    ]),
    "rf": Pipeline([
        ("imputer", SimpleImputer(strategy="median")),
        ("clf", RandomForestClassifier(
            n_estimators=200,
            random_state=RANDOM_SEED,
            n_jobs=-1,
            max_depth=8,
            min_samples_leaf=10
        ))
    ]),
}

scoring = {
    "accuracy": "accuracy",
    "precision": "precision",
    "recall": "recall",
    "f1": "f1",
}

cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=RANDOM_SEED)

rows = []
for name, pipe in models.items():
    out = cross_validate(pipe, X_train, y_train, cv=cv, scoring=scoring, n_jobs=-1)
    row = {m: out[f"test_{m}"].mean() for m in scoring.keys()}
    row["model"] = name
    rows.append(row)

cv_results = pd.DataFrame(rows).set_index("model")
cv_results


## Er uppgift: välj primär metric och modell

In [None]:
# 1) Välj EN primär metric baserat på ert scenario.
# Skriv exakt en av: "accuracy"  "precision"  "recall"  "f1"
PRIMARY_METRIC = "f1"  # <-- ÄNDRA här

allowed_metrics = {"accuracy", "precision", "recall", "f1"}
if PRIMARY_METRIC not in allowed_metrics:
    raise ValueError(f"PRIMARY_METRIC måste vara en av {allowed_metrics}. Du skrev: {PRIMARY_METRIC}")

PRIMARY_METRIC


In [None]:
# 2) Välj en modell att gå vidare med.
# Skriv exakt en av: "logreg"  "tree"  "rf"
MODEL_NAME = "logreg"  # <-- ÄNDRA här

allowed_models = set(models.keys())
if MODEL_NAME not in allowed_models:
    raise ValueError(f"MODEL_NAME måste vara en av {allowed_models}. Du skrev: {MODEL_NAME}")

MODEL_NAME


In [None]:
# Träna den valda modellen på train och utvärdera på validation (med default threshold=0.5)

model = models[MODEL_NAME]
model.fit(X_train, y_train)

y_pred_val = model.predict(X_val)

display(metrics_report(y_val, y_pred_val, f"{MODEL_NAME} (val, threshold=0.5)"))

cm = confusion_matrix(y_val, y_pred_val)
ConfusionMatrixDisplay(cm).plot(values_format="d")
plt.title(f"Confusion matrix – {MODEL_NAME} (val, threshold=0.5)")
plt.show()


## PR-kurva och threshold

In [None]:
# För att kunna flytta threshold behöver vi sannolikheter (predict_proba).
# Alla våra modeller här stödjer predict_proba.

proba_val = model.predict_proba(X_val)[:, 1]  # sannolikhet för klass 1

precision, recall, thresholds = precision_recall_curve(y_val, proba_val)

ap = average_precision_score(y_val, proba_val)
print(f"Average precision (AP) på val: {ap:.3f}")

fig, ax = plt.subplots(figsize=(6,4))
ax.plot(recall, precision)
ax.set_xlabel("Recall")
ax.set_ylabel("Precision")
ax.set_title("Precision–Recall-kurva (val)")
plt.show()


In [None]:
# Hjälpplot: hur precision/recall/F1 ändras när vi flyttar threshold
# (thresholds har längd n-1 jämfört med precision/recall)

thr = thresholds
prec_thr = precision[:-1]
rec_thr = recall[:-1]
f1_thr = 2 * (prec_thr * rec_thr) / (prec_thr + rec_thr + 1e-12)

fig, ax = plt.subplots(figsize=(7,4))
ax.plot(thr, prec_thr, label="precision")
ax.plot(thr, rec_thr, label="recall")
ax.plot(thr, f1_thr, label="f1")
ax.set_xlabel("Threshold")
ax.set_ylabel("Score")
ax.set_title("Scores vs threshold (val)")
ax.legend()
plt.show()

pd.DataFrame({
    "threshold": thr,
    "precision": prec_thr,
    "recall": rec_thr,
    "f1": f1_thr
}).head()


### Er uppgift: välj ett threshold som passar ert scenario

Nu kommer den viktiga delen: **ni kan göra modellen mer “strikt” eller mer “generös”**.

- Högre threshold → modellen säger “1” mer sällan (färre larm)  
- Lägre threshold → modellen säger “1” oftare (fler larm)

**Diskutera medan ni testar:**
- Vad händer med FP och FN när ni flyttar threshold?
- Vilken förändring känns “rimlig” i ert scenario – och varför?
- Vilken trade-off accepterar ni?

> Ni ska inte “gissa” ett tal. Testa några olika värden och jämför.


In [None]:
# Ändra threshold och se vad som händer.
THRESHOLD = 0.50  # <-- ÄNDRA här (t.ex. 0.2, 0.35, 0.65, 0.8)

print("Proba min/max:", proba_val.min(), proba_val.max())
print("Unika proba (avrundat till 2 dec):", len(np.unique(np.round(proba_val, 2))))

y_pred_thr = (proba_val >= THRESHOLD).astype(int)

display(metrics_report(y_val, y_pred_thr, f"{MODEL_NAME} (val, threshold={THRESHOLD:.2f})"))

cm = confusion_matrix(y_val, y_pred_thr)
ConfusionMatrixDisplay(cm).plot(values_format="d")
plt.title(f"Confusion matrix – {MODEL_NAME} (val, threshold={THRESHOLD:.2f})")
plt.show()


# Extra visual: hur sannolikheterna ser ut (val)
# Tolkning: om fördelningarna överlappar mycket blir trade-offen svårare.
fig, ax = plt.subplots(figsize=(6,3))
ax.hist(proba_val[y_val==0], bins=30, alpha=0.6, label="target=0")
ax.hist(proba_val[y_val==1], bins=30, alpha=0.6, label="target=1")
ax.axvline(THRESHOLD, linestyle="--")
ax.set_xlabel("Predikterad sannolikhet för klass 1")
ax.set_ylabel("Antal")
ax.set_title("Fördelning av predikterade sannolikheter (val)")
ax.legend()
plt.show()


## Sluttest på test-setet

In [None]:
# När ni är nöjda: träna om modellen på train+val (så vi utnyttjar mer data),
# och utvärdera en enda gång på test-setet med ert valda threshold.

final_model = models[MODEL_NAME]
final_model.fit(pd.concat([X_train, X_val]), pd.concat([y_train, y_val]))

proba_test = final_model.predict_proba(X_test)[:, 1]
y_pred_test = (proba_test >= THRESHOLD).astype(int)

display(metrics_report(y_test, y_pred_test, f"{MODEL_NAME} (test, threshold={THRESHOLD:.2f})"))

cm = confusion_matrix(y_test, y_pred_test)
ConfusionMatrixDisplay(cm).plot(values_format="d")
plt.title(f"Confusion matrix – {MODEL_NAME} (test, threshold={THRESHOLD:.2f})")
plt.show()

# PR-kurva på test (för att se om samma trade-off håller)
precision_t, recall_t, _ = precision_recall_curve(y_test, proba_test)
ap_t = average_precision_score(y_test, proba_test)

fig, ax = plt.subplots(figsize=(6,4))
ax.plot(recall_t, precision_t)
ax.set_xlabel("Recall")
ax.set_ylabel("Precision")
ax.set_title(f"Precision–Recall-kurva (test), AP={ap_t:.3f}")
plt.show()


## Förbättring mot baseline

In [None]:
# Baseline på test för jämförelse
baseline.fit(pd.concat([X_train, X_val]), pd.concat([y_train, y_val]))
y_pred_base_test = baseline.predict(X_test)

report = pd.DataFrame([
    metrics_report(y_test, y_pred_base_test, "Baseline (test)"),
    metrics_report(y_test, y_pred_test, f"{MODEL_NAME} (test, thr={THRESHOLD:.2f})"),
]).T

report
