# Nadgledano učenje

Nadgledano učenje (Supervised Learning) je jedan od najčešće korišćenih pristupa u mašinskom učenju. U ovom pristupu, model se trenira na skupu podataka sa poznatim ulazima (X) i izlazima (y), pri čemu je cilj modela da nauči vezu između ulaznih i izlaznih podataka. Kada se model obuči, može se koristiti za predviđanje izlaznih vrednosti za nove, nepoznate podatke.

![img/3/supervised-lr.png](img/3/supervised-lr.png)


U nadgledanom učenju, model pokušava da nauči funkciju:

𝑓(𝑋)=𝑦

gde su:

X – Ulazni podaci (npr. karakteristike)

y – Izlazne vrednosti (cilj)

Podela nadgledanog učenja:
1. Regresija – Kada je izlazna vrednost kontinuirana (npr. temperatura, cena, visina).

2. Klasifikacija – Kada je izlazna vrednost diskretna (npr. bolest: da/ne, boja: crvena/plava/zuta).

## Regresija


### 🌟 Analogija
Zamislite da igrate igru gde treba da predvidite koliko će jabuka biti u korpi na osnovu broja stabala. Ako znate da svako stablo da 5 jabuka, lako je: `jabuke = 5 × stabla`. Regresija radi isto – pronalazi matematičku vezu između ulaza (stabla) i izlaza (jabuke) da bi predvidela buduće vrednosti.

---

### 📚 Definicija
-  Statistička metoda za **predviđanje numeričkih vrednosti** na osnovu istorijskih podataka. Regresija se koristi kada je cilj modela da predvidi kontinuiranu vrednost.
- **Primeri**:  
  - Predviđanje cene stana na osnovu kvadrature.  
  - Procena potrošnje goriva automobila prema broju cilindara.  
  - Prognoza temperature na osnovu vlažnosti vazduha.  

Linearna regresija pokušava da pronađe pravu liniju koja najbolje opisuje odnos između ulaznih i izlaznih podataka.

Matematički, linearna regresija se izražava kao:

𝑦=𝑤𝑋+𝑏

gde su:    
w – koeficijent (nagib linije)   
b – slobodan član (presek sa y-osom)


![img/3/linear_regression.gif](img/3/linear_regression.gif)

---

### 📚 **Vrste regresije**  
| Tip                  | Opis                                  | Primer                      |  
|-----------------------|---------------------------------------|-----------------------------|  
| **Linearna**          | Prava linija koja modelira vezu.      | `cena = 2000 × kvadratura + 50.000` |  
| **Polinomska**        | Kriva linija (npr. kvadratna, kubna). | `cena = 3×kvadratura² + 1000×kvadratura + 10.000` |  
| **Logistička**        | Predviđanje verovatnoće (0-1).        | Verovatnoća da je e-mail spam. |  

---

### 🎯 **Ključni koncepti**  
#### 1. **Zavisna i nezavisna promenljiva**  
- **Nezavisna (X)**: Ulaz koji koristimo za predviđanje (npr. kvadratura).  
- **Zavisna (Y)**: Izlaz koji želimo da predvidimo (npr. cena).  
- **Primer**:  
  Ako trenirate da predvidite vreme, X su oblaci, Y je kiša.  

#### 2. **Koeficijenti (Parametri)**  
- Vrednosti koji definišu odnos između X i Y.  
- **Primer**: U `cena = 2000 × kvadratura + 50.000`:  
  - `2000` = uticaj kvadrature na cenu.  
  - `50.000` = osnovna cena (kad je kvadratura 0).  

#### 3. **Funkcija gubitka (Loss)**  
- **Najčešće**: **Mean Squared Error (MSE)** – prosečna kvadratna greška.  
  ```  
  MSE = (1/n) * Σ (stvarno - predviđeno)²  
  ```  
- **🌟 Analogija**: Kazna za svako loše predviđanje – što ste dalje, veća kazna.  

---

### ⚙️ **Kako radi linearna regresija?**  
1. **Inicijalizacija**: Model počinje sa nasumičnim koeficijentima (npr. `cena = 100 × kvadratura + 0`).  
2. **Predviđanje**: Računa Y za sve X vrednosti.  
3. **Računanje greške**: MSE pokazuje koliko je predviđanje loše.  
4. **Podešavanje koeficijenata**: Algoritam (npr. gradijentni spust) menja koeficijente da smanji grešku.  
5. **Ponavlja se** dok greška ne postane minimalna.  

---

### 🌍 **Primer: Predviđanje cene stanova**  
1. **Podaci**:

| Kvadratura | Cena (€) |
|------------|----------|
| 50         | 150.000  |
| 80         | 220.000  |
| 100        | 280.000  |

2. **Model**: Linearna regresija nalazi pravac koji najbolje prati podatke.  
   - **Jednačina**: `cena = 2000 × kvadratura + 50.000`  
   - **Tumačenje**: Svaki dodatni m² povećava cenu za 2000€, osnovna cena je 50.000€.  

3. **Predviđanje za 120 m²**:  
   `2000 × 120 + 50.000 = 290.000€`.  

---

### 📊 **Evaluacija modela**  
| **Metrika**            | **Formula**                                   | **Opis**                                |
|-----------------------|--------------------------------------------|-----------------------------------------|
| **MSE**               |  $MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$  | Velike greške su strože kažnjene jer se kvadriraju. |
| **R² (R-squared)**    | $R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}$ | Pokazuje koliko dobro model objašnjava varijansu podataka (od 0 do 1). |
| **MAE**               | $MAE = \frac{1}{n} \sum_{i=1}^{n} \left\| y_i - \hat{y}_i \right\|$                 | Prosečna apsolutna greška, lako za tumačenje. |


- **Primer**:  
  - **R² = 0.85** → Model objašnjava 85% varijanse u podacima.  
  - **MSE = 10.000** → Prosečna kvadratna greška je 10.000€².  

---

###  ❓ **Interaktivno pitanje**   
1. Zašto je R² bolji od MSE za upoređivanje modela na različitim skupovima?  
<details>
  <summary>Klikni za odgovor</summary>
  ✅  R² je normalizovan (0-1), dok MSE zavisi od skale podataka
</details>


2. Ako model predvidi cenu od 300.000€ za stan od 110 m², a stvarna cena je 320.000€, izračunajte:
- A) MSE:
<details>
  <summary>Klikni za odgovor</summary>
  ✅  MSE = (320.000 - 300.000)² = 400.000.000              
</details>

- B) MAE:
<details>
  <summary>Klikni za odgovor</summary>            
  ✅  MAE = |320.000 - 300.000| = 20.000
</details>

    
---

### 🎯 **Sumirano**  
```  
REGRESIJA = VEZA IZMEĐU ULAZA I IZLAZA 🔗  
1. Nađi pravac/krivu koja najbolje prati podatke.  
2. Koristi je za predviđanje novih vrednosti.  
3. Proveri koliko je dobra (MSE, R²).  
```  



## Klasifikacija

### 🌟 Anlogija
Klasifikacija je kao sortiranje knjiga u biblioteci – svaka knjiga (podatak) ide na određenu policu (kategoriju/klasu).

---

### 📚 Definicija
- Klasifikacija se koristi za podelu podataka u kategorije na osnovu istorijskih podataka. Na primer, možemo imati podatke o biljkama i želimo da ih klasifikujemo prema vrsti (npr. ruža, ljiljan, orhideja).  

- **Primeri**:  
  - Prepoznavanje slova (A, B, C...).  
  - Dijagnostika bolesti (zdrav/oboleo).  
  - Detekcija spama (spam/ne spam).  

---

⚙️ Kako radi klasifikacija?
1. Obučavanje modela: Model uči veze između obeležja (X) i labela (Y) iz trening podataka.    
Primer: Obeležja = dužina i širina latica;   
Labela = vrsta cveća (Iris setosa, versicolor).

2. Predviđanje: Za novi podatak, model koristi naučena pravila da odredi labelu.

### **KNN (K-Nearest Neighbors)**  

- Klasifikuje nove podatke na osnovu **K najbližih suseda** u trening skupu.  
- **🌟 Analogija**: Kao da pitate 5 najbližih komšija (K=5) da preporuče film – većina odlučuje.  

#### ⚙️ **Kako radi?**  
1. Izračunaj udaljenost novog podatka od svih u treningu (npr. Euklidska udaljenost).  
2. Odaberi **K najbližih**.  
3. Dodeli klasu koja je najčešća među njima.  

![img/3/knn.gif](img/3/knn.gif)

**Primer**:  
- **Podaci**: Cveće (dužina latica, širina latica) → vrsta (Iris setosa, virginica).  
- **Novi cvet**: (5cm, 1.5cm).  
- **K=3**: 2 suseda su setosa, 1 virginica → klasa = **setosa**.  

#### **Prednosti i mane**:  
| ✅ Prednosti          | ❌ Mane                  |  
|-----------------------|--------------------------|  
| Jednostavan za razumevanje. | Spor za velike skupove podataka. |  
| Nema pretreniranja (lazy learning). | Osetljiv na šum i autlajere. |  

---

###  **SVM (Support Vector Machine)**  

- Nalazi **granicu** (hiperravan) koja najbolje razdvaja klase, maksimizirajući marginu.  
- **🌟 Analogija**: Kao da crtate najširu moguću traku između dve grupe ljudi u parku.  

#### **⚙️ Kako radi?**  
1. Pronađe hiperravan koja maksimizuje marginu između klasa.  
2. **Support vektori** su podaci najbliži granici – oni određuju položaj hiperravni.  
3. Za nelinearne podatke koristi **kernel trik** (npr. RBF) da ih preslika u višu dimenziju.  

![img/3/svm.gif](img/3/svm.gif)

**Primer**:  
- **Podaci**: Pacijenti (nivo šećera, pritisak) → dijabetes (da/ne).  
- **Hiperravan**: Linija koja razdvaja pacijente sa i bez dijabetesa.  
- **Kernel (RBF)**: Transformiše podatke u prostor gde su linearne klase.  

#### **Prednosti i mane**:  
| ✅ Prednosti          | ❌ Mane                  |  
|-----------------------|--------------------------|  
| Efikasan u visokim dimenzijama. | Zahteva pažljivo podešavanje parametara. |  
| Dobro radi sa nelinearnim podacima (kernel). | Spor za veoma velike skupove. |  

---

### 🛠️ **Kada koristiti KNN vs SVM?**  
| **Kriterijum**       | **KNN**                  | **SVM**                  |  
|-----------------------|--------------------------|--------------------------|  
| **Veličina podataka** | Manji skupovi.           | Srednji/veliki skupovi.  |  
| **Kompleksnost**      | Brza implementacija.     | Složenija konfiguracija. |  
| **Nelinearnost**      | Lošije za kompleksne obrasce. | Izvrsno sa kernelima. |  

---

### 🌍 **Primeri**  
1. **KNN u preporukama**:  
   - Ako kupite 3 knjige, sistem preporučuje knjige koje su kupili korisnici sa sličnim izborom.  
2. **SVM u medicini**:  
   - Određivanje da li je tumor benigni ili maligni na osnovu veličine i oblika.  

---

### 🚫 **Česte greške**  
- **KNN**: Ne skaliranje obeležja (npr. visina u metrima i plata u evrima).  
- **SVM**: Pogrešan izbor kernela (npr. linearni kernel za spiralno razdvojive podatke).  

---

### 🎯 **Sumirano**  
- **KNN**: "Pamti sve i pita komšije." Idealno za brze prototipove.  
- **SVM**: "Crtaj granicu sa širinom." Idealno za kompleksne podatke.  
