# **1. Čišćenje i priprema podataka**

---



### 🌟 **Analogija**  
Zamislite da pravite salatu:  
- Ako koristite **pokvareni paradajz** ili **neopranu zelenu salatu**, cela salata će imati loš ukus
**Čišćenje podataka je isto** – ako model uči iz neurednih podataka, donosiće loše odluke.  
**Cilj**: Ukloniti 'nečistoće' i pripremiti podatke da budu **konzistentni, potpuni i korisni**.

---

### 📚 **Definicija**  
Proces transformacije "sirovih" podataka u oblik pogodan za mašinsko učenje.

**Ključni koraci**:  
1. **Popunjavanje nedostajućih vrednosti** (Missing Values).  
2. **Uklanjanje autlajera** (Outliers).  
3. **Kodiranje kategorijskih promenljivih** .  
4. **Normalizacija** (skaliranje brojeva na zajednički opseg).  
5. **Uklanjanje duplikata**.  

---

### 🧹 **Koraci čišćenja i pripreme (sa primerima)**  

#### 1. **Nedostajući podaci (Missing Values)**  
- **Problem**: Prazna polja u tabeli (`NaN`).  
- **Rešenja**:  
  - **Popuniti ih**: npr. srednjom vrednošću, medijanom, interpolacijom, vrednošću najsličnije instance...
  - **Izbaciti redove**: Ako je mali procenat nedostajućih vrednosti   


#### 2. **Autlajeri (Outliers)**  
- **Problem**: Vrednosti koje ekstremno odstupaju (npr. stan od 200 m² u gradu gde su prosečni stanovi 70 m²).  
- **Rešenja**:  
  - **Izbaciti ih**: Ako su greške (npr. pogrešno uneta vrednost).  
  - **Zameniti graničnim vrednostima**: Npr. postaviti maksimum na 100 m².  

#### 3. **Kodiranje kategorijskih promenljivih**  
- **Problem**: Modeli ne razumeju tekst (npr. "Beograd", "Novi Sad").  
- **Rešenja**:  
  - **Label Encoding**: "Beograd" → 1, "Novi Sad" → 2.  
  - **One-Hot Encoding**: Svaka kategorija postaje posebna binarna vrednost (0 ili 1) u nizu (vektoru) svih vrednosti. Za dva moguća grada Beograd i Novi Sad, Beograd možemo predstaviti kao [1,0], a Novi Sad kao [0, 1]. Generalno, svaka vrednost je predstavljena vektorom gde je na njemu odgovarajućoj poziciji 1, a na ostalim pozicijama je 0. ->  (Beograd: [1,0], Novi Sad: [1,0]).  
- *Prevodite reči na jezik koji računar razume (brojeve).*  

#### 4. **Normalizacija**  
- **Problem**: Različiti opsezi (npr. kvadratura: 50–200 m², cena: 50.000–500.000€).  
- **Rešenje**: Skalirajte sve brojeve na opseg 0–1.  
- **Analogija**: *Kao da sve sastojke isečete na sličnu ili srazmernu veličinu da ravnomerno prođu kroz proces kuvanja.*  

#### 5. **Duplikati**  
- **Problem**: Isti podaci uneti više puta.  
- **Rešenje**: Izbacivanje ponavljanja.  

---

### 💡 **Zašto je ovaj proces bitan?**  
1. **Tačnost modela**:  
   - *Loši podaci → Loša predviđanja.* - *Garbage in, garbage out*
   - *Primer:* Ako model vidi da neki stanovi imaju kvadraturu 0 m², naučiće pogrešne veze.  

2. **Brzina i efikasnost**:  
   - Čist skup podataka smanjuje vreme obuke i memorijsko opterećenje.  

3. **Sprečavanje pristrasnosti (Bias)**:  
   - Ako podaci sadrže sistematske greške (npr. svi stanovi su iz jednog naselja), model će biti pristrasan.  

4. **Generalizacija**:  
   - Dobro pripremljeni podaci omogućavaju modelu da radi i na **novim podacima**.  
---

### 🌍 **Primer iz prakse: Predviđanje cena automobila**  
1. **Nedostajući podaci**: 10% automobila nema godište → zameni medianom (2015).  
2. **Autlajeri**: Jedan automobil ima godište 3021 (očigledna greška) → izbaci.  
3. **Kategorijska promenljiva**: Boja → One-Hot Encoding
4. **Skaliranje**: Cena od 5.000–50.000€ → skaliraj na 0–1.  

**Efekat**: Model postaje tačniji nakon čišćenja!  

---

###  
```  
PRE ČIŠĆENJA:  
| Model   | Godište | Cena   | Boja   |  
|---------|---------|--------|--------|  
| Golf    | 2010    | 8000   | Crvena |  
| Passat  | NaN     | 15000  | Plava  |  
| Polo    | 3021    | 500    | Crna   |  

POSLE ČIŠĆENJA:  
| Model   | Godište | Cena (0-1) | Crvena | Plava | Crna   |  
|---------|---------|------------|--------|-------|--------|  
| Golf    | 2010    | 0.16       | 1      | 0     | 0      |  
| Passat  | 2015    | 0.30       | 0      | 1     | 1      |  
```  

---

### ❓ **Interaktivno pitanje**  
*Šta biste uradili sa kolonom gde 50% podataka nedostaje?*  
- **A)** Izbaciti celu kolonu.  
- **B)** Popuniti prosekom.  
- **C)** Istražiti zašto nedostaje i doneti odluku.
- **D)** Izbaciti sve redove sa nedostajućim vrednostima.
<details>
  <summary>Klikni za odgovor</summary>
  ✅  C – kontekst je ključan!
</details>

---

### 🚫 **Česte greške**  
1. **Previše čišćenja**: Uklanjanje autlajera koji su zapravo validni (npr. retki ali važni slučajevi prevara).  
2. **Ignorisanje konteksta**: Popunjavanje nedostajućih vrednosti na način koji iskrivljuje priču (npr. zameniti nedostajuću platu prosekom, iako su podaci grupisani po radnim mestima).  
3. **Zanemariti nebalansiranost skupova**: Ako su klase nejednako zastupljene (npr. 95% pozitivnih i 5% negativnih primera), model može naučiti da uvek predviđa dominantnu klasu, što dovodi do loše generalizacije.

---




# **2. Princip evaluacije:**

---


Napomena: Pri obučavanju modela upoređujemo stvarne i predviđene vrednosti modela i dobijamo kvantitativnu vrednost performansi modela - meru performanse (Više o tome u nastavku), ali pre obučavanja moramo skup podataka da podelimo na grupe shodno njihovim svrhama.    
U literaturi princip evaluacije i mera performanse se uglavnom nalaze pod naslovom "Evaluacija modela". Kako bismo ispratili tok rada jednog ML projekta mi ćemo prvo pričati o principu evaluacije kao procesu podele skupa podataka, onda o obučavanju, a nakon toga o merama perfomanse modela.

### 🌟 **Analogija**  
*Zamislite da učite za ispit iz matematike:*  
- **Trening skup**: Udžbenik iz kog vežbate.  
- **Validacioni skup**: Probni testovi koje radite pre ispita da proverite gde grešite.  
- **Test skup**: Sam ispit – provera na zadacima koje do tad niste videli, tek tu vidite koliko ste stvarno naučili.  

**Cilj:** Provera generalizacije modela - da li radi i na **novim, neviđenim podacima** (a ne samo na onima koje je 'naučio napamet').

---

### 📚 **Definicija**  

U nastavku ćemo navesti dva najčešća principa evaluacije (podele svih raspoloživih primera iz skupa podataka):

#### 1. **Trening/Validacioni/Test skup**  
- **Trening skup** (70–80% podataka):  
  - Podaci na kojima model **uči** (nalazi obrasce).  
  - *Analogija:* Vežbanje zadataka iz udžbenika.  
- **Validacioni skup** (10–15%):  
  - Podaci za **podešavanje** modela (odabir najboljih hiperparametara).  
  - *Analogija:* Probni testovi – menjate strategiju učenja ako rezultati nisu zadovoljavajući.  
- **Test skup** (10–15%):  
  -  Podaci za **finalnu proveru** performansi.  
  - *Analogija:* Ispit u realnim uslovima – test znanja na nikad viđenim podacima.  

```  
Podaci → [Trening (70%)] → [Validacioni (15%)] → [Test (15%)]  
```


#### 2. **K-unakrsna validacija (K-Fold Cross-Validation)**  
- Podela podataka na **K jednakih delova**. Model se trenira **K puta** – svaki put se jedan deo koristi za validaciju, ostali za trening.  
- **Analogija:**  
  Postoji 5 probnih testova. Svaki put izaberete 1 test da radite, a ostala 4 koristite za učenje. Na kraju, uprosečite rezultate svih 5 testova.  

```  
K = 5  
1. Iteracija: Trening (Fold 2-5) → Validacija (Fold 1)  
2. Iteracija: Trening (Fold 1,3-5) → Validacija (Fold 2)  
...  
5. Iteracija: Trening (Fold 1-4) → Validacija (Fold 5)  
```

---

### 🎯 **Ključne razlike između metoda**  
| Metoda               | Prednosti                          | Nedostaci                     | Kada koristiti?              |  
|----------------------|------------------------------------|-------------------------------|------------------------------|  
| **Trening/Valid/Test** | Brža i jednostavnija.             | Manje pouzdana ako je malo podataka. | Veliki skupovi podataka.     |  
| **K-Fold**           | Smanjuje rizik od loše podele podataka. | Spora i zahteva više resursa. | Mali skupovi ili kritični zadaci. |  

---

### 🌍 **Primer**  

Pravite model za prepoznavanje bolesti na osnovu rendgena:

1. **Trening skup**: 800 slika – model uči kako izgledaju obolela i zdrava tkiva.  
2. **Validacioni skup**: 100 slika – podešavate parametre (sprečavate preprilagodavanje, tj. napamet situaciju napamet naučenih 800 slika - overfitting (O tome više u sledećem poglavlju)).  
3. **Test skup**: 100 slika – konačno merenje koliko je model pouzdan.

Sprečava preprilagodavanje i daje realnu sliku performansi

**K-Fold (K=5):**  
- Podelite 1000 slika na 5 grupa.  
- Svaka grupa je validacioni skup tačno jednom.  
- Prosečna tačnost svih 5 testova = realnija procena.  

"Zlatni standard" za male skupove – svaki podatak dobije ulogu u treningu i validaciji.

---

### ❓ **Interaktivno pitanje**  
*Šta biste odabrali za ove situacije?*  
- **A)** Imate 100.000 podataka i želite brzu evaluaciju.  
<details>
  <summary>Klikni za odgovor</summary>
  ✅  Trening/Valid/Test
</details>
- **B)** Imate samo 500 podataka i želite maksimalno pouzdane rezultate.  
<details>
  <summary>Klikni za odgovor</summary>
  ✅  K-Fold
</details>

---

### 🚫 **Česte greške**  
1. **Testiranje na trening podacima**: Koristite udžbenik kao ispit – model će imati lažno visoke performanse.  
2. **Curenje podataka (Data Leakage)**: Slučajno korišćenje test podataka za podešavanje modela – videli ste ispit pre nego što ga radite.  



# **3. Obučavanje modela**

---



### 🌟 **Analogija**  
*Zamislite da učite studenta matematike:*
1. **Delite zadatke u tri kategorije** : za učenje (trening skup), za proveru (validacioni skup) i za krajnje testiranje (test skup)
2. **Zadatke iz udžbenika (trening podaci) delite na lekcije (batch-eve)**  
2. **Proveravate rešenja** i objašnjavate greške (validacioni skup).  
3. **Ponavljate** dok ne nauči (epohu po epohu ).  
4. **Testirate ga na novim zadacima** (test skup).  

**Treniranje modela je isto** – algoritam 'uči' iz podataka da bi donosio tačna predviđanja.

---

Pre svega potrebno je izabrati model, cilj obučavanja modela je učenje parametra koji će za novi podatak dati što tačniju izlaznu vrednost.


### 📚 **Šta se dešava tokom obučavanja?**  
1. **Model prima podatke**:  
   - **Obeležja (X)**: Ulazne informacije (npr. kvadratura, lokacija stana).  
   - **Labela (y)**: Izlaz koji želimo da predvidi (npr. cena stana).  

2. **Inicijalizacija parametara**:  
   - Model počinje sa **nasumičnim pretpostavkama** (npr. težinski koeficijenti u linearnoj regresiji).  
   - *Analogija:* Zamislite da je student pre bilo kakvog učenja osmislio svoju metodu rešavanja zadataka.  

3. **Predviđanje i greška**:  
  - Model vrši proces **predviđanja** (npr. cena = 200.000€).  
  - **Greška (loss)** se računa poređenjem sa stvarnom vrednošću instance iz trening skupa (npr. stvarna cena = 210.000€ → greška = 10.000€).  
  - Ujedno se proverava i mera performanse na validacionom skupu.
  - *Analogija:* Student prelazi lekciju iz udžbenik. Nakon što je nauči, proverava svoje znanje na zadacima za proveru.  

4. **Optimizacija**:  
   - Model **podešava parametre** kako bi smanjio grešku kojim neznatno menja vrednost parametra u smeru koji smanjuje grešku rezultata (npr. koristi **gradijentni spust**).  
   - *Analogija:* Student prilagodi metode rešavanja nakon što vidi gde greši.

  🚩 **Napomena** : Model podešava parametre u odnosu na greške sa trening skupa, provera na validacionom skupu je provera koliko model greši u **generalizaciji** (sposobnost modela da uspešno primeni naučeno i na novim situacijama, a ne samo na onim što je već "zapamtio").

   Greške na trening skupu služe za obučavanje modela, tj. podešavanje parametara. Praćenje greške na validacionom skupu služi za podešavanje hiperparametara modela koje korisnik namešta ručno pre početka obučavanja.

  1) **Parametri** - računaju se sami, podešavaju pomoću algoritma koji se oslanja na grešku na trening skupu  
  2) **Hiperparametri** - korisnik namešta pre početka obučavanja, ukoliko je već obučio model oslanja se na rezultate sa validacionog skupa (Još jedna napomena: I ovaj proces se automatizuje, ali nekad to nije moguće to uraditi zbog resursa. Kako bi Vam lakše bilo da razumete razliku, ostanimo pri tome da korisnik to sam radi)

5. **Ponavljanje (epohe)**:  
   - Proces učenja se ponavlja ispočetka, dok greška ne postane dovoljno mala ili se dostigne maksimalan broj epoha.  

6. **Testiranje**  
   - Testiramo model na test podacima koje će videti po prvi put.  

---

### ⚙️ **Kako model postaje bolji?**  
- **Parametri se fino podešavaju**: Svaka epoha smanjuje grešku.  
- **Primer za linearnu regresiju**:  
  - Početak: `cena = 3 * kvadratura + 10000` (loše).  
  - Kraj: `cena = 2.5 * kvadratura + 15000` (tačnije).  

  `2.5` i `15000` su naučeni parametri modela, `kvadratura` je atribut/obeležje (x), `cena` je izlaz/labela/ciljno obeležje (y)

```  
Korak 1: Inicijalizacija  
Model: cena = 3 * kvadratura + 10000 → greška = 50.000  

Korak 2: Podešavanje težina  -> epoha 1
Model: cena = 2.8 * kvadratura + 12000 → greška = 30.000  

Korak 3: Ponavljanje  -> epoha 2
Model: cena = 2.5 * kvadratura + 15000 → greška = 10.000  
```  


---

### **Ključni koncepti u procesu**  

#### 1. **Loss Function (Funkcija greške)**  
- Metrika koja meri koliko su predviđanja loša poređenjem izračunate i stvarne izlazne vrednosti.  
- **Primeri**:  
  - **MSE** (Mean Squared Error): Za regresiju – prosečna kvadratna greška.  
  - **Cross-Entropy**: Za klasifikaciju – kažnjava pogrešne klasifikacije.   

#### 2. **Optimizacija (Gradijentni spust)**  
- Algoritam koji pronalazi **minimum funkcije greške** podešavanjem parametara.  
- **Kako radi**:  
  1. Računa **gradijent** (nagib funkcije greške).  
  2. Pomeri parametre u smeru suprotnom od gradijenta (npr. "nizbrdo").  
- **Analogija**: Zamislite da se spuštate niz brdo u magli – pratite nagib (gradijent) da biste stigli do dna (minimalne greške).  

*Više o tome u narednim lekcijama*

#### 3. **Epohe i Batch-evi**  
- **Epoha**: Jedan prolazak kroz **ceo trening skup**.  (npr. 3,168 primera)
- **Batch**: Manji podskup podataka korišćen u jednoj iteraciji (npr. 32 primera).  
- **Analogija**:  
  - **Epoha**: Pročitati ceo udžbenik jednom.  
  - **Batch**: Pročitati jednu lekciju.  

---


### 🚫 **Izazovi tokom treniranja**  
1. **Overfitting**: Model nauči napamet trening podatke (student koji je napamet naučio samo zadatke iz zbirke).  
2. **Underfitting**: Model je previše jednostavan (student koji ne razume osnove).  
3. **Stagnacija**: Greška se ne pada i pored ažuriranja parametara – možda je potrebno promeniti model.  


---

### 🌍 **Primer: Prepoznavanje rukopisa**  
1. **Ulaz**: Slika broja (28x28 piksela).  
2. **Treniranje**:  
   - Model uči da poveže piksele sa brojevima (0-9).  
   - Optimizuje težine da minimizuje grešku.  
3. **Rezultat**: Nakon 10 epoha, model tačno prepoznaje 95% brojeva.  

---

### ❓ **Interaktivno pitanje**  
Šta se desilo ako model ima izuzetno malu grešku na trening skupu, ali veliku na testu?
  <details>
    <summary>Klikni za odgovor</summary>
    ✅   Overfitting – model ne može da generalizuje
  </details>

---

### 🎯 **Sumirano**  
```  
UČENJE = PRAVLJENJE I POPRAVLJANJE GREŠAKA 📉  
1. Probaj → 2. Izmeri grešku → 3. Podesi parametre → 4. Ponovi dok ne savladaš.  
```  



# **Overfitting i Underfitting**

---



### 🌟 **Analogija**  
*Zamislite da učite da crtate čoveka:*  
- **Underfitting**: Nacrtate Čiča Glišu (previše jednostavno, nema detalja).  
- **Overfitting**: Nacrtate svaki detalj, ali samo za čoveka kog ste videli – ne možete nacrtati druge ljude.  

**Cilj**: Naći balans – crtež koji prepoznaje osobu, ali sa dovoljno detalja.

---
Pogledaj sliku ispod.

### 📚 **Underfitting (Potprilagodavanje)**  
- Model je **previše jednostavan** da uhvati obrasce u podacima.  
- **Analogija**:  
  - Kao da pokušavate da rešite matematički problem samo sa osnovnim računanjem.  
  - Ili da pevate pesmu samo u jednom tonu – nema dinamike.  
- **Znaci**:  
  - Loše performanse i na **trening** i na **validacionom** skupu.  
  - Model ne uči ništa korisno.  
- **Uzroci**:  
  - Premalo složenosti (npr. linearni model za nelinearne podatke).  
  - Premalo podataka za obuku.  
  - Premalo obeležja.

---

### 📚 **Overfitting (Preprilagodavanje)**  
- Model **nauči šum i detalje iz trening podataka** i ne može da generalizuje.  
- **Analogija**:  
  - Student uči napamet sve primere iz zbirke, ali ne razume kako da reši novi zadatak.  
  - Zapamtite svaki korak GPS navigacije za jednu rutu – ako se promeni put, izgubljeni ste.  
- **Znaci**:  
  - Savršena tačnost na **trening**, ali loša na **validacionom**.  
  - Model "prati" svaku tačku u podacima.  
- **Uzroci**:  
  - Previše složen model.  
  - Predugo pušten proces obučavanja.  
  - Previše obeležja.

![img/1/overfitting-underfitting.jpg](img/1/overfitting-underfitting.jpg)

*Regulacija je tehnika sprečavanja overfitting-a dodatnim kažnjavanjem modela u loss funkciji, sprečavajući na taj način "učenje napamet"*

---

### 📚 **Bias-Variance Tradeoff**  
**Bias** (pristrasnost) pokazuje koliko model pojednostavljuje problem – da li model pravi previše jake pretpostavke i ignoriše važne obrasce u podacima, ne uči dobro.   
**Variance**  (varijansa) pokazuje koliko su predikcije modela osetljive na promene u trening podacima.

- **Underfitting** = **Visok bias** (model pravi jake pretpostavke - pojednostavljuje).  
- **Overfitting** = **Visoka varijansa** (model je previše osetljiv na podatke - previše se uklapa u podatke).  
- **Balans**: Model koji uhvati prave obrasce (dovoljno se uklopi u podatke), a ignoriše šum.  

**Analogija**:  
*Kao da podesite radio antenu:*  
- **Underfitting**: Antena hvata sve šumove, ali nijedna stanica nije čista.
- **Overfitting**: Antena uhvati samo jednu stanicu, ali jasno.
- Potrebno je naći meru tako da se uhvati dovoljno stanica, sa dovoljnom čistinom

*Ako zamislimo previđanje modela kao pogađanje u metu*
1. Visok bias, niska varijansa → Promašuje metu, ali je precizan na pogrešnom mestu (Underfitting).
2. Nizak bias, visoka varijansa → Ponekad pogodi, ali su hici raštrkani (Overfitting).
3. Visok bias, visoka varijansa → Ništa ne funkcioniše (loš model).
4. Nizak bias, niska varijansa → Idealna situacija!

![img/1/bias-variance.png](img/1/bias-variance.png)

---

### 🛠️ **Kako se boriti protiv ovih problema?**  
#### Za **Underfitting**:  
- **Povećajte složenost modela**: Koristite nelinearne modele (npr. neuronske mreže).  
- **Dodajte više obeležja**: Npr. ne samo "kvadratura", već i "lokacija", "broj soba".  
- **Smanjite regularizaciju**: Ako model koristi tehnike koje ga čine previše konzervativnim.  

#### Za **Overfitting**:  
- **Koristite regularizaciju**: "Kaznite" model ako postane previše složen.  
- **Smanjite broj obeležja**: Izbacite nebitne informacije (npr. "boja majice" nije bitna za dijagnozu bolesti).  
- **Povećajte količinu podataka**: Više primera = manje šanse da model zapamti šum, tj. da se preprilagodi pojedinačnim podacima.  
- **Koristite cross-validation**: Proverite da li model dobro radi na svim delovima podataka.  

---

### ❓ **Interaktivno pitanje**  
*Šta je ovo?*  
- Model ima 99% tačnosti na treningu, 50% na testu.
<details>
  <summary>Klikni za odgovor</summary>
  ✅   Overfitting
</details>  
- Model ima 60% tačnosti i na treningu i na testu.
<details>
  <summary>Klikni za odgovor</summary>
  ✅   Underfitting
</details>  

---

### 🌍 **Zašto je ovo važno?**  
- **Preprilagodavanje** i **podprilagodavanje** su glavni razlozi loših performansi modela u stvarnom svetu.  
- Bez razumevanja, možete izgubiti nedelje radeći na modelu koji radi samo u laboratoriji.  

---

### 🎯 **Sumirano**  
```  
BALANS = GOLDILOCKS ZONA 🌟  
Underfitting: ❌ Premalo učenja.  
Overfitting: ❌ Previše učenja.  
Idealno: ✅ Model uhvati prave obrasce, ignoriše šum.  
```  



# **4. Mera performanse**
---



### 🌟 **Analogija**  
*Zamisli da si ribolovac. Kako meriš svoj ribolovački uspeh?*  
  1. Koliko si ukupno riba upecao?
  2. Koliko riba je bilo preko 3kg u tvom ulovu?  
  3. Koliko je tvoja tehnika dobra, koliko puta si upecao riba težine preko 3kg kada si imao šansu za to?
  4. Nekom kombinacijom broja riba preko 3kg i iskorišćenih šansi za to?

  Da li želiš samo da pecaš što više riba ili ti je važnije da budu prave težine ili je ipak važnije da oceniš svoju tehniku?

  Isto je i u predstavljanju rezultata tvog modela - **Izbor metrike zavisi od tvog cilja!**
---
### 📚**Različite metrike za različite zadatke**  
- **Klasifikacija** (kategorije): Tačnost, preciznost, odziv, F1.  
- **Regresija** (brojevi): MSE, RMSE, MAE, R².  

###  **Evaluacija za klasifikaciju**  
#### 1. **Konfuziona matrica**  
- Tabela koja prikazuje tačna i pogrešna predviđanja.

![img/1/confusion_matrix.png](img/1/confusion_matrix.png)

#### 2. **Metrike**  
- 1. **Tačnost (Accuracy)** – Koliko ukupno tačno klasifikujemo?   
     `TP + TN / (TP + FP + TN + FN)`

    - Ako posedujemo 1000 mejlova, a model ispravno označi 900 njih (bilo kao spam ili kao regularne), tačnost je 90%.  
    - Problem? Ako je 950 mejlova regularno i 50 mejlova spam, model može postići visoku tačnost jednostavno tako što skoro nikad ne označi mejl kao spam ali to nije ispravna pretpostavka mere performanse.  

- 2. **Preciznost (Precision)**: – Koliko su označeni spam mejlovi zaista spam?  
      `TP / (TP + FP)`
    
    - Ako model označi 100 mejlova kao spam, a samo 60 su zaista spam, preciznost je 60%.
    - Problem? Ako je preciznost niska, izgubićeš važne mejlove jer su pogrešno označeni kao spam, sa druge strane, ne vodimo računa o tome koliko spam mejlova nismo prepoznali.

- 3. **Odziv (Recall)**:  – Koliko stvarnog spama prepoznamo?   
      `TP / (TP + FN)`

    - Ako u inboxu ima 80 pravih spam mejlova, a model označi samo 60, osetljivost je 75%.  
    - Problem? Ako je osetljivost niska, mnogo spama će i dalje završiti u tvojoj glavnoj pošti, ne vodimo računa o tome koliko regularnih mejlova smo označili kao spam.

- 4. **F1-Score**: Harmonijska sredina preciznosti i odziva → Balans između njih.  
      `2 * Precision * Recall / (Precision + Recall)`





###  **Evaluacija za regresiju**  
#### 1. **MSE (Mean Squared Error)**  
-  Prosek kvadrata grešaka između predviđanja i stvarnih vrednosti.  
- **Primer**: Ako model predvidi cenu stana kao 200.000€, a stvarna je 210.000€, greška je 10.000² = 100.000.000.  

    $$
    MSE = \frac{1}{N} \sum (y_i - \hat{y}_i)^2
    $$
  

- $\ y_i -$  Stvarna vrednost   
- $\hat{y}_i -$ Prediktivna vrednost

#### 2. **MAE (Mean Absolute Error)**  
- Prosek apsolutnih grešaka → Lakše za tumačenje.  
- **Primer**: Za isti stan, greška je |200.000 - 210.000| = 10.000.  

    $$
    MAE = \frac{1}{N} \sum |y_i - \hat{y}_i|
    $$

- $\ y_i -$  Stvarna vrednost   
- $\hat{y}_i -$ Prediktivna vrednost

#### 3. **R² (R-squared)**  
- Koliko dobro model objašnjava varijaciju podataka (0 = loše, 1 = savršeno).  

$$
R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2}
$$

- $\ y_i -$  Stvarna vrednost   
- $\hat{y}_i -$ Prediktivna vrednost
- $\bar{y} -$ Srednja vrednost podataka

---

### 🌍 **Praktični saveti**  
1. **Obratite pažnju na balansiranost klasa i počnite sa jednostavnim metrikama**.  
2. **Koristite cross-validation** da proverite stabilnost modela.
3. **Preciznost** je bitna ako želite da izbegnete lažne alarme.  
   **Odziv** je bitan ako želite da uhvatite što više slučajeva.  

---
### ❓ **Interaktivno pitanje**:  
   1. *Ako model za preporuku filmova ima visoku preciznost (90%), ali nizak odziv (30%), šta to znači?*  
    <details>
      <summary>Klikni za odgovor</summary>
      ✅   Model retko greši kad preporuči film, ali propušta mnoge filmove koje bi korisnik voleo.
    </details>
   2. *Skup podataka je sačinjen od 95% regularnih i 5% spam mejlova, kakav je model koji ima 95% tačnosti? Ako mislite da je dobar - zašto? Ako mislite da je loš - zašto i kako biste popravili?*
    <details>
      <summary>Klikni za odgovor</summary>
      ✅   Beskoristan - Koristimo druge metrike i pokušamo da izbalansiramo skup podataka
    </details>
    




