# Kunskapskontroll Del 1: Teori (Kapitel 1–4)

**Namn:** Saban Sulejmani

Detta är en sammanställning av teori för kapitel 1–4.

---


## Innehåll
- Kapitel 1 – Introduktion till Maskininlärning
- Kapitel 2 – Datahantering
- Kapitel 3 – Linjär Regression
- Kapitel 4 – Klassificering


# Kapitel 1 – Introduktion till Maskininlärning

## Faktafrågor

### 1. Hur hänger AI, ML och DL ihop?
Man kan se det som ryska dockor (cirklar inuti varandra):

- **AI (Artificiell Intelligens):** Det bredaste begreppet. Det handlar om all teknik som får maskiner att efterlikna mänsklig intelligens (t.ex. logik, regler eller inlärning).
- **ML (Maskininlärning):** En delmängd av AI. Här programmerar vi inte reglerna manuellt, utan algoritmen lär sig regler genom att titta på data.
- **DL (Djupinlärning):** En delmängd av ML. Här använder vi specifikt artificiella neurala nätverk (ANN) med många lager för att lösa väldigt komplexa problem (som bildigenkänning).


### 2. Vilka är de fyra problemkategorierna inom ML?
- **Supervised Learning (Övervakad inlärning):** Vi har facit. Datan består av input (X) och korrekt output (y). Exempel: Klassificera mail som "Spam" eller "Ej spam".
- **Unsupervised Learning (Oövervakad inlärning):** Vi saknar facit. Modellen får leta mönster själv i datan. Exempel: Kundsegmentering (klustring).
- **Semi-supervised Learning:** En blandning. Vi har mycket data, men bara en liten del har facit. Används ofta när det är dyrt att märka upp data (t.ex. medicinska bilder).
- **Reinforcement Learning (Förstärkningsinlärning):** En agent lär sig genom "trial and error" i en miljö och får belöning eller straff. Exempel: En dator som lär sig spela schack.


### 3. Förklaring av begrepp

**a) Syftet med Train/Val/Test-split**  
Vi delar upp datan för att undvika att lura oss själva.

- **Träningsdata:** Läroboken vi pluggar på.
- **Valideringsdata:** Övningsprov vi gör under kursen för att stämma av (tune hyperparametrar).
- **Testdata:** Det skarpa slutprovet. Denna data får modellen aldrig ha sett innan, för att vi ska veta hur den presterar i verkligheten.

**b) K-delad korsvalidering (Cross-validation)**  
Istället för att bara ha en träningsdel och en testdel, delar vi datan i K delar (t.ex. 5). Vi tränar K gånger. Varje gång agerar en ny del "testdata" och resten träningsdata.  
Syfte: Ger ett mycket säkrare mått på hur bra modellen är, eftersom slumpen spelar mindre roll.

**c) RMSE (Root Mean Squared Error)**  
Ett mått på hur mycket fel vår modell gissar i genomsnitt (för regression).  
Vi tar felet, kvadrerar det (för att straffa stora fel hårt), tar medelvärdet, och sen roten ur.  
Lågt värde = bra modell.

**d) Hyperparameter vs Parameter**  
- **Parameter:** Det modellen lär sig själv under träningen (t.ex. vikterna i ett neuralt nätverk).
- **Hyperparameter:** Inställningar vi bestämmer innan träningen börjar (t.ex. learning_rate, antal lager i nätverket, eller antal grannar i KNN).

**e) Grid Search**  
En metod för att hitta bästa hyperparametrarna.

- **Grid:** Vi sätter upp ett rutnät av värden vi vill testa (t.ex. learning rate: 0.01, 0.1, 0.001).
- **Search:** Datorn testar systematiskt alla kombinationer i rutnätet för att se vilken som ger bäst resultat.


## Resonemangsfrågor

### Resonemang kring "Bias-Variance Tradeoff" (Överanpassning vs Underanpassning)
- Om en modell är för enkel (hög bias/underfitting) missar den poängen, ungefär som att gissa att alla hus kostar 2 miljoner oavsett storlek.
- Om en modell är för komplex (hög varians/overfitting) pluggar den in brus och tillfälligheter i träningsdatan. Det är som att memorera svaren på ett specifikt prov men misslyckas så fort frågorna formuleras om.
- Målet: Hitta balansen (sweet spot) där modellen generaliserar bra på ny data.


# Kapitel 2 – Datahantering

## Faktafrågor

### 1. Varför behöver vi skala (normalisera/standardisera) data?
Många ML-algoritmer (särskilt de som bygger på avstånd, som KNN, eller gradient descent, som neurala nätverk) fungerar dåligt om variablerna har olika skalor.

Exempel: Om "Ålder" är 0–100 och "Lön" är 20 000–50 000, kommer "Lön" att dominera matematiskt. Vi skalar om så båda hamnar runt 0–1 eller har samma spridning.


### 2. Standard Scaler vs MinMax Scaler
- **MinMax Scaler:** Tvingar in alla värden mellan 0 och 1. Känslig för outliers (extrema värden).
- **Standard Scaler:** Gör om datan så medelvärdet blir 0 och standardavvikelsen 1. Bättre om datan följer en normalfördelning eller har outliers.


### 3. Hantering av kategorisk data (text till siffror)
Datorer förstår bara siffror.

- **Label Encoding:** Ger varje kategori en siffra (Röd=1, Blå=2, Grön=3). Problem: Modellen kan tro att Grön är "större/bättre" än Röd. Bra för ordnad data (Liten, Mellan, Stor).
- **One-Hot Encoding:** Skapar en ny kolumn för varje kategori med 1 eller 0 (Är_Röd: 1, Är_Blå: 0). Tar mer plats men lurar inte modellen att tro på falsk rangordning.


## Resonemangsfrågor

### Resonemang kring saknad data (Missing Data)
Om vi har hål i datan kan vi inte bara köra modellen. Vi har två huvudval:

- **Ta bort:** Om vi har miljontals rader och bara några saknas, kan vi radera dem. Risk: Vi kanske kastar bort viktig info.
- **Imputera (fylla i):** Vi ersätter det saknade värdet med medelvärdet (mean) eller medianen av kolumnen. Risk: Vi gissar, vilket inför en viss osäkerhet, men vi får behålla datan.


# Kapitel 3 – Linjär Regression

## Faktafrågor

### 1. Vad är Linjär Regression?
En algoritm för att förutsäga ett numeriskt värde (regression). Den försöker dra en rät linje genom datapunkterna så att avståndet mellan linjen och punkterna minimeras.

Formel:  
\[ y = kx + m \]  
(eller \( y = w \cdot x + b \) i ML-språk)


### 2. Vad är en residual?
Felet för en specifik punkt. Avståndet mellan det verkliga värdet (y) och det värde linjen förutspådde (ŷ).


## Resonemangsfrågor

### Resonemang kring korrelation
Bara för att två saker korrelerar (följer varandra) betyder det inte att den ena orsakar den andra (kausalitet).

Exempel: Glassförsäljning och drunkningsolyckor ökar samtidigt. Orsakar glass drunkning? Nej, båda styrs av en tredje faktor: värmen på sommaren.

För ML betyder det att vi kan använda korrelation för prediktion, men vi ska vara försiktiga med att dra slutsatser om orsak.


# Kapitel 4 – Klassificering

## Faktafrågor

### 1. Vad skiljer Regression från Klassificering?
- **Regression:** Svaret är en siffra på en glidande skala (t.ex. pris på hus, temperatur).
- **Klassificering:** Svaret är en kategori/klass (t.ex. katt/hund, sjuk/frisk, ja/nej).


### 2. Vad är Logistisk Regression?
Trots namnet används den för klassificering.

Den använder en sigmoid-funktion (S-kurva) för att klämma in resultatet mellan 0 och 1. Detta tolkas som sannolikheten för klassen (t.ex. 0.8 = 80% chans att det är spam).


### 3. Förklara Confusion Matrix (Konfusionsmatris)
En tabell som visar hur modellen gissade jämfört med verkligheten.

- **TP (True Positive):** Rätt gissat JA.
- **TN (True Negative):** Rätt gissat NEJ.
- **FP (False Positive):** Falskt larm (gissade JA, var NEJ).
- **FN (False Negative):** Miss (gissade NEJ, var JA).


## Resonemangsfrågor

### Resonemang kring Accuracy (Träffsäkerhet) vs andra mått
Accuracy (andel rätt gissningar totalt) kan vara vilseledande.

Exempel: Om 99 personer är friska och 1 har cancer. Om modellen gissar "Frisk" på alla, har den 99% accuracy. Men den är värdelös för att hitta cancern.

Därför behöver vi:
- **Precision:** Av alla vi gissade var sjuka, hur många var det? (Vill undvika falska larm.)
- **Recall:** Av alla som faktiskt var sjuka, hur många hittade vi? (Vill undvika att missa fall.)
- **F1-score:** Ett harmoniskt medelvärde av precision och recall. Bra balans.
