# Predikcija kategorije proizvoda na osnovu naslova

**Kurs:** Introduction to Machine Learning using Python  
**Modul:** Kompletan ML projekat – od početka do kraja  

Ovaj projekat ima za cilj razvoj modela mašinskog učenja koji automatski predviđa kategoriju proizvoda na osnovu njegovog naziva.


## 1.0 Razumevanje poslovnog problema

### 1.1 Kontekst zadatka
Online trgovine svakodnevno dodaju veliki broj novih proizvoda u sistem. Da bi proizvodi bili pravilno prikazani i lako dostupni korisnicima, neophodno je da budu tačno kategorizovani.

Ručna klasifikacija proizvoda je spora, sklona greškama i teško skalabilna, što stvara potrebu za automatizovanim rešenjem.

### 1.2 Definicija problema
Zadatak je automatska klasifikacija proizvoda u odgovarajuće kategorije na osnovu tekstualnog naziva proizvoda.

Problem se može posmatrati kao supervizovani problem višeklasne klasifikacije teksta, gde je ulaz naziv proizvoda, a izlaz njegova kategorija.

### 1.3 Cilj zadatka
Cilj je razviti model mašinskog učenja koji na osnovu naziva proizvoda predviđa njegovu kategoriju sa zadovoljavajućom tačnošću.

Model treba da bude stabilan, jednostavan za testiranje i spreman za primenu u realnom poslovnom okruženju.

### 1.4 Poslovna vrednost rešenja
Automatska kategorizacija proizvoda ubrzava proces unosa, smanjuje broj grešaka i poboljšava korisničko iskustvo na platformi.

Rešenje omogućava skalabilan i efikasan rad sistema, uz istovremeno sticanje praktičnog iskustva u razvoju ML rešenja za realan poslovni problem.


## 2.0 Opis skupa podataka

### 2.1 Pregled dostupnih podataka
Za razvoj modela korišćen je realan skup podataka `products.csv` koji sadrži informacije o proizvodima iz različitih kategorija online prodavnice.

Svaki red u skupu podataka predstavlja jedan proizvod, dok kolone sadrže opisne i numeričke karakteristike povezane sa tim proizvodom.

### 2.2 Opis kolona i njihova uloga
Skup podataka sadrži sledeće kolone:

- **Product ID** – jedinstveni identifikator proizvoda  
- **Product Title** – naziv proizvoda (tekstualni ulaz za model)  
- **Merchant ID** – identifikator prodavca  
- **Category Label** – kategorija proizvoda (ciljna promenljiva)  
- **Product Code** – interni kod proizvoda  
- **Number of Views** – broj pregleda proizvoda  
- **Merchant Rating** – ocena prodavca  
- **Listing Date** – datum postavljanja proizvoda

U ovom projektu, ključne kolone su *Product Title* kao ulazni podatak i *Category Label* kao ciljna promenljiva.

### 2.3 Prvi uvid u strukturu podataka
Skup podataka sadrži veliki broj proizvoda raspoređenih u više kategorija, što ga čini pogodnim za višeklasni problem klasifikacije.

Pre daljeg rada, neophodno je proveriti:
- da li postoje prazne ili nevalidne vrednosti,
- raspodelu proizvoda po kategorijama,
- osnovne statistike i potencijalne nepravilnosti u podacima.


## 3.0 Istraživačka analiza podataka (EDA)

### 3.1 Distribucija kategorija proizvoda
Prvi korak u istraživačkoj analizi je sagledavanje raspodele proizvoda po kategorijama. Ova analiza omogućava uvid u to da li su sve kategorije ravnomerno zastupljene ili postoji izražen disbalans.

Neuravnotežene kategorije mogu imati značajan uticaj na performanse modela i kasnije zahtevati dodatnu pažnju tokom treniranja i evaluacije.

### 3.2 Najčešće reči u nazivima proizvoda
Analiza najčešće korišćenih reči u nazivima proizvoda pomaže u razumevanju sadržaja tekstualnih podataka.

Ovim korakom se može uočiti:
- prisustvo naziva brendova,
- česti tehnički termini,
- ponavljajući obrasci karakteristični za određene kategorije.

Ova zapažanja su korisna za kasniji inženjering tekstualnih karakteristika.

### 3.3 Dužina naziva proizvoda
Dužina naziva proizvoda, izražena kroz broj reči ili karaktera, može nositi informaciju relevantnu za klasifikaciju.

Različite kategorije proizvoda često imaju različite obrasce u dužini naziva (npr. tehnička roba u odnosu na kućne aparate), što može biti iskorišćeno kao dodatna karakteristika.

### 3.4 Potencijalni problemi u podacima
Tokom EDA faze obraća se pažnja na moguće probleme u podacima, kao što su:
- prazne ili nedostajuće vrednosti,
- duplikati proizvoda,
- šum u tekstu (specijalni karakteri, višestruki razmaci, nekonzistentno pisanje).

Identifikovanje ovih problema je ključno kako bi se u narednom koraku izvršilo adekvatno čišćenje i priprema podataka za modeliranje.


## 4.0 Priprema i čišćenje podataka

### 4.1 Obrada praznih i nevalidnih vrednosti
Pre treniranja modela neophodno je proveriti postojanje praznih ili nevalidnih vrednosti u skupu podataka.

Posebna pažnja se posvećuje kolonama koje su ključne za modeliranje, pre svega *Product Title* i *Category Label*, jer nedostajuće vrednosti u ovim kolonama mogu negativno uticati na kvalitet modela.

### 4.2 Standardizacija tekstualnih podataka
Nazivi proizvoda često sadrže različite oblike zapisa, uključujući velika i mala slova, specijalne karaktere i višestruke razmake.

U ovom koraku tekst se standardizuje kako bi se obezbedila konzistentnost ulaznih podataka i poboljšala efikasnost algoritama za obradu teksta.

### 4.3 Priprema ciljne promenljive
Ciljna promenljiva (*Category Label*) mora biti pravilno pripremljena za proces treniranja modela.

Ovaj korak uključuje proveru tipa podataka, eventualno mapiranje kategorija u odgovarajući format i obezbeđivanje da svaka instanca ima validnu oznaku klase.

### 4.4 Finalni skup podataka spreman za modeliranje
Nakon čišćenja i standardizacije, dobija se finalni skup podataka koji je spreman za fazu inženjeringa karakteristika i treniranje modela.

U ovom trenutku svi relevantni podaci su konzistentni, bez nedostajućih vrednosti i prilagođeni za dalju analizu i primenu mašinskog učenja.


## 5.0 Inženjering karakteristika

### 5.1 Tekstualne karakteristike
Osnovna informacija za predikciju kategorije proizvoda nalazi se u tekstualnom nazivu proizvoda.

Tekstualni podaci se transformišu u numerički oblik primenom tehnika za vektorizaciju teksta, kao što su Bag of Words ili TF-IDF, kako bi ih modeli mašinskog učenja mogli efikasno koristiti.

### 5.2 Dodatne numeričke karakteristike
Pored samog teksta, iz naziva proizvoda se mogu izvesti dodatne numeričke karakteristike koje potencijalno poboljšavaju performanse modela.

Primeri takvih karakteristika uključuju:
- broj reči u nazivu proizvoda,
- prisustvo numeričkih vrednosti (npr. modeli, kapacitet),
- dužinu najduže reči u nazivu.

Ove karakteristike doprinose bogatijem opisu proizvoda.

### 5.3 Kombinovanje karakteristika
Tekstualne i numeričke karakteristike se kombinuju u jedinstven skup ulaznih podataka za treniranje modela.

Na ovaj način model dobija i semantičku informaciju iz teksta i dodatne strukturne signale koji mogu pomoći u preciznijoj klasifikaciji.

### 5.4 Obrazloženje izbora karakteristika
Izabrane karakteristike su odabrane sa ciljem postizanja balansa između performansi modela i njegove interpretabilnosti.

Svaka dodata karakteristika ima jasno opravdanje i potencijalnu vrednost, dok se nepotrebni ili redundantni podaci izostavljaju kako bi se izbegla prenaučenost modela.


## 6.0 Treniranje i poređenje modela

### 6.1 Podela skupa podataka
Pre treniranja modela, skup podataka se deli na trening i test skup.

Ova podela omogućava objektivnu procenu performansi modela na podacima koje nije video tokom treniranja i predstavlja osnovu za pravilnu evaluaciju.

### 6.2 Treniranje prvog modela
Prvi model se trenira kao osnovno (baseline) rešenje za problem klasifikacije.

Cilj ovog koraka je da se dobije početna referenca performansi, koja će kasnije poslužiti za poređenje sa unapređenim modelima.

### 6.3 Treniranje drugog modela
Drugi model se trenira sa ciljem poboljšanja performansi u odnosu na osnovni model.

U ovom koraku se ispituje da li drugačiji algoritam ili drugačiji pristup vektorizaciji teksta može doneti bolju tačnost i stabilnost predikcija.

### 6.4 Uporedna analiza performansi
Performanse treniranih modela se upoređuju na osnovu definisanih evaluacionih metrika.

Na osnovu rezultata se donosi odluka o tome koji model pruža najbolji balans između preciznosti, robusnosti i jednostavnosti za dalju primenu.


## 7.0 Evaluacija modela

### 7.1 Tačnost modela (Accuracy)
Tačnost predstavlja udeo ispravno klasifikovanih proizvoda u odnosu na ukupan broj instanci u test skupu.

Ova metrika daje osnovni uvid u ukupne performanse modela, ali sama po sebi ne daje potpunu sliku u slučaju neuravnoteženih klasa.

### 7.2 Klasifikacioni izveštaj
Klasifikacioni izveštaj uključuje metrike kao što su preciznost (precision), odziv (recall) i F1-score za svaku kategoriju proizvoda.

Ove metrike omogućavaju detaljniju analizu performansi modela po klasama i pomažu u identifikaciji kategorija u kojima model pravi najviše grešaka.

### 7.3 Matrica zabune
Matrica zabune vizualizuje odnos između stvarnih i predviđenih kategorija.

Ovaj prikaz olakšava razumevanje tipova grešaka koje model pravi i pruža uvid u to koje kategorije se najčešće međusobno mešaju.

### 7.4 Izbor finalnog modela
Na osnovu evaluacionih metrika i analize grešaka donosi se odluka o izboru finalnog modela.

Izabrani model predstavlja najbolje rešenje u pogledu tačnosti, stabilnosti i spremnosti za dalju primenu u realnom sistemu.


## 8.0 Finalni model i čuvanje

### 8.1 Treniranje finalnog modela
Nakon izbora najboljeg algoritma, finalni model se trenira koristeći optimalne parametre i kompletan trening skup podataka.

Cilj ovog koraka je da se dobije stabilan i pouzdan model spreman za praktičnu primenu.

### 8.2 Čuvanje modela u .pkl formatu
Istrenirani model se čuva u `.pkl` formatu kako bi mogao da se ponovo koristi bez potrebe za ponovnim treniranjem.

Ovaj format omogućava jednostavno učitavanje modela u drugim Python skriptovima i integraciju u postojeće sisteme.

### 8.3 Provera učitavanja modela
Nakon čuvanja modela, vrši se provera da li se model može ispravno učitati i koristiti za predikciju.

Ovim korakom se osigurava da je sačuvani model validan i spreman za dalju upotrebu.


## 9.0 Implementacija skriptova

### 9.1 `train_model.py` – opis funkcionalnosti
Skript `train_model.py` služi za treniranje i čuvanje finalnog modela.

Njegova uloga je da:
- učita podatke iz `products.csv`,
- izvrši osnovnu pripremu i čišćenje podataka,
- izgradi pipeline (vektorizacija + model + dodatne karakteristike po potrebi),
- trenira finalni model,
- sačuva trenirani model u `.pkl` formatu za kasniju upotrebu.

### 9.2 `predict_category.py` – interaktivno testiranje
Skript `predict_category.py` omogućava praktično testiranje modela kroz interaktivni unos.

Korisnik unosi naziv proizvoda (Product Title), a skript:
- učitava prethodno sačuvani `.pkl` model,
- priprema ulazni tekst na isti način kao tokom treniranja,
- vraća predikciju kategorije proizvoda kao rezultat.

Cilj je da skript bude jednostavan za korišćenje i spreman za upotrebu u timu.

### 9.3 Testiranje na primerima iz zadatka
Nakon implementacije, model se testira ručno na zadatim primerima naziva proizvoda iz zadatka.

Ovaj korak služi kao brza validacija da model daje smislene rezultate u realnim primerima i da predikcije odgovaraju očekivanim kategorijama.


## 10.0 Organizacija GitHub repozitorijuma

### 10.1 Struktura foldera projekta
Projekat treba organizovati tako da bude jasan i lako upotrebljiv za bilo kog člana tima.

Preporučena struktura repozitorijuma:
- `data/` – dataset (npr. `products.csv`)
- `notebooks/` – Jupyter/Colab sveske sa analizom i razvojem rešenja
- `models/` – sačuvani model u `.pkl` formatu
- `src/` ili `scripts/` – Python skriptovi (`train_model.py`, `predict_category.py`)
- `README.md` – dokumentacija projekta
- `requirements.txt` – lista potrebnih biblioteka

Ovakva struktura olakšava održavanje, testiranje i dalje unapređenje projekta.

### 10.2 Uloga Jupyter sveski
Jupyter/Colab sveske služe kao centralno mesto za:
- istraživačku analizu podataka (EDA),
- čišćenje i pripremu podataka,
- inženjering karakteristika,
- treniranje i evaluaciju modela,
- dokumentovanje odluka i zaključaka.

One predstavljaju “radnu dokumentaciju” procesa i pružaju transparentan uvid u sve korake razvoja rešenja.

### 10.3 README.md – sadržaj i uputstvo za korišćenje
README treba da omogući korisniku da brzo razume projekat i pokrene ga bez dodatnih objašnjenja.

Minimum koji README treba da sadrži:
- kratak opis problema i cilja projekta,
- opis dataset-a i ulaz/izlaz modela,
- korake za instalaciju zavisnosti,
- kako pokrenuti treniranje (`train_model.py`),
- kako pokrenuti interaktivno testiranje (`predict_category.py`),
- primer unosa i očekivanog izlaza,
- napomenu gde se nalazi sačuvani model (`.pkl`).


## 11.0 Zaključak

### 11.1 Ostvareni ciljevi
U okviru ovog projekta razvijen je model mašinskog učenja koji automatski predviđa kategoriju proizvoda na osnovu njegovog naziva.

Model je prošao kroz sve ključne faze kompletnog ML projekta, uključujući analizu podataka, pripremu, inženjering karakteristika, treniranje, evaluaciju i implementaciju.

### 11.2 Poslovna vrednost rešenja
Razvijeno rešenje omogućava automatizaciju procesa kategorizacije proizvoda, čime se značajno ubrzava unos novih artikala i smanjuje mogućnost greške.

Model je primenljiv u realnom poslovnom okruženju i može se lako integrisati u postojeće sisteme online trgovine.

### 11.3 Moguća unapređenja
U budućnosti, model se može unaprediti dodatnim inženjeringom karakteristika, korišćenjem naprednijih algoritama ili uključivanjem dodatnih izvora podataka.

Takođe, moguće je implementirati automatsko ponovno treniranje modela kako bi se prilagođavao promenama u strukturi proizvoda i tržišta.
