
# ✅ Anteckningar inför tentamen i Maskininlärning

## Vad är maskininlärning?
Maskininlärning handlar om att skapa modeller som kan förutsäga (regression) eller klassificera (klassificering) data. Vi är inte intresserade av hur väl modellen passar träningsdata, utan hur väl den generaliserar till ny, osedd data. Därför är testdata och validering viktigt.

---

## 🧪 Modellvalidering och prestanda

### Cross-Validation
Korsvalidering delar upp datan i flera delar (t.ex. k-faldig) där modellen tränas på vissa delar och testas på andra. Hjälper till att minska överanpassning (overfitting) och uppskatta modellens generaliseringsförmåga.

### Bias - Varians
- **Bias** – Hur mycket modellen förenklar problemet. Hög bias ger underfitting.
- **Variance** – Hur känslig modellen är för små förändringar i träningsdata. Hög variance ger overfitting.

**Lösning vid hög bias**:
- Träna längre
- Använd mer komplex modell
- Lägg till fler features

**Lösning vid hög variance**:
- Mer träningsdata
- Använd regularisering
- Använd enklare modell

---

## 📊 Viktiga utvärderingsmått

| Mått | Formel | Beskrivning |
|------|--------|-------------|
| **Accuracy** | TP+TN / (TP+TN+FP+FN) | Andel korrekt klassificering |
| **Precision** | TP / (TP+FP) | Andel korrekt positiva av alla som klassades som positiva |
| **Recall (Sensitivity)** | TP / (TP+FN) | Andel korrekt identifierade positiva av alla verkligt positiva |
| **F1-score** | 2 / (1/Precision + 1/Recall) | Harmoniskt medelvärde av precision och recall |

---

## 📉 Kostnadsfunktioner
Används för att mäta hur långt modellen är från sanningen.

- **MSE (Mean Squared Error)** – vanlig i regression, straffar stora fel.
- **MAE (Mean Absolute Error)** - Valig i regression, straffar inte stora fel lika hårt. 
- **LogLoss (Cross-Entropy Loss)** – vanlig i klassificering. Straffar fel som har stort förtroende. Baserat på sannolikhet. 
- **RMSE (Root Mean Squared Error)** – kvadratroten av MSE

---

## 🔍 Supervised Learning

Vi vet både input (features) och output (labels).

### 🔷 Regression
**Linear Regression**  
- Passar en linje till data genom att minimera **Sum of Squared Errors (SSE)**.
- R^2 används som mått på modellens förklaringsgrad.

**Ridge Regression (L2)**  
- Lägger till en **straffterm (λ Σ β²)** för att minska variansen. Bra för små dataset med multikollinearitet. Koeficienterna blir inte noll. Så alla features blir kvar. 

**Lasso Regression (L1)**  
- Straffar med **absolutbelopp (λ Σ |β|)**. Kan sätta koefficienter till exakt noll – bra för feature selection.

**Elastic Net**  
- Kombination av L1 och L2. Hanterar både multikollinearitet och feature selection.

**Logistic Regression**  
- En klassificeringsmodell som skattar sannolikheten att en datapunkt tillhör en klass.
- Använder **maximum likelihood**, inte SSE.
- Output mellan 0 och 1.
- Vanlig vid binär klassificering.

### 🔷 Klassificering

**K-Nearest Neighbors (KNN)**  
- Ingen modell tränas. Klassificerar baserat på närmaste grannar.
- Bra när det inte finns linjära samband.

**Support Vector Machines (SVM)**  
- Hittar det hyperplan som maximerar marginalen mellan klasser.
- Fungerar bra i höga dimensioner.
- **Kernel Trick** används för att hantera icke-linjära separationer utan att uttryckligen öka dimensionsantalet ,likt polynomial expansion, men utan straffet av polynimial explsion. Då vi inte ändra features i data settet. 

**Naive Bayes**  
- Bygger på Bayes sats + antagande om oberoende mellan features.
- Väldigt snabb. Bra för textklassificering.

**Decision Tree**  
- Trädet byggs genom att maximera **information gain**.
- Leaf nodes innehåller klass.
- Risk för överanpassning.
- Vid regression så Varaiance Reduction. 

**Random Forest**  
- Ensemble av träd, varje träd tränas på ett bootstrappat sample.
- Robust, minskar variance.

**Boosting (t.ex. Gradient Boosting)**  
- Bygger träd sekventiellt där varje nytt träd förbättrar det förra.
- Risk för overfitting om inte reglerat.

**Neurala nätverk**  
- Lagrar flera lager av noder som försöker extrahera mönster.
- "Black box", men kraftfull vid stora dataset.

---

## 🧠 Unsupervised Learning

Ingen känd output. Mål: hitta struktur.

**K-means Clustering**  
- Delar in data i k kluster baserat på avstånd till klustercentroid.

---

## 🧰 Dimensionalitetsreduktion

**Principal Component Analysis (PCA)**  
- Transformerar datan till nya ortogonala komponenter som förklarar mest varians.
- Används för att minska antalet features.

**Linear Discriminant Analysis (LDA)**  
- Lik PCA men maximerar separationen mellan klasser.
- Kan också användas för klassificering.

---

## 📏 Koefﬁcienten och signifikans

- I logistisk regression är koefficienterna i **log-odds**.
- Med exponentiering får vi **odds-ratio**.
- **p-värde < 0.05** innebär att koefficienten är signifikant.

---

## Kernel Trick vs Polynomial Expansion (för SVM)

- **Polynomial Expansion**: explicit skapar nya features som t.ex. x1², x1x2, etc.
- **Kernel Trick**: implicit beräknar likheten i en högre dimension utan att skapa nya features. Effektivt vid komplexa separationer.
