# Konvolucijske neuronske mreže

<center><img src="Images/V10_banner.png" width="700" height="700"/></center>



# Uvod u 1D i 2D konvoluciju

Konvolucija predstavlja temeljnu matematičku operaciju u obradi signala i slika. U području dubokog učenja koristi se za ekstrakciju lokalnih značajki (eng. *features*) iz podataka – bilo da je riječ o vremenskim signalima (1D) ili slikama (2D). Konvolucija omogućuje sustavu da prepoznaje obrasce poput rubova, tekstura i oblika bez potrebe za ručnim dizajniranjem značajki.


**1D konvolucija** djeluje nad linearnim nizom podataka. Tijekom operacije jezgra (eng. *kernel*) klizi preko ulaza i za svaku poziciju računa se ponderirana suma:

\begin{align}
y[i] = \sum_{k=0}^{K-1} x[i + k] \cdot w[k]
\end{align}

gdje su:  
- $x$ -- ulazni niz  
- $w$ -- jezgra duljine $K$  
- $y[i]$ -- izlazni element na poziciji $i$

Ova operacija se tipično koristi za obradu zvuka, vremenskih serija i svih problema gdje je važno prepoznati lokalne obrasce u jednom smjeru.

**2D konvolucija** primjenjuje se na matricama, najčešće na slikama. Jezgra se pomiče u svim smjerovima (lijevo-desno, gore-dolje), a za svaku poziciju računa se:

\begin{align}
y[i, j] =
\sum_{m=0}^{K_h-1} \sum_{n=0}^{K_w-1}
x[i + m,\; j + n] \cdot w[m, n]
\end{align}

gdje su $K_h$ i $K_w$ visina i širina jezgre.

Ova operacija omogućuje modelu da prepoznaje prostorne obrasce unutar slike, što je ključno za računalni vid, medicinsku dijagnostiku i detekciju objekata.

---

## Klasični parametri konvolucije

Konvolucijsko računanje ovisi o nekoliko ključnih parametara koji definiraju ponašanje jezgre i izlaza.


* **Veličina prozora** (*jezgre*) određuje područje ulaza koje se analizira u jednom koraku.

    * 1D: duljina jezgre  
    * 2D: dimenzije jezgre, npr. 3×3 ili 5×5  

    Veće jezgre obuhvaćaju šire područje ulaza, ali uvode i veći broj parametara.


* **Stride** definira koliko se jezgra pomiče nakon svakog izračuna:

    * **stride = 1** -- analiza svakog susjednog elementa/piksela  
    * **stride = 2** -- preskakanje svakog drugog elementa → izlaz je manji  

    Veći stride se koristi za **smanjivanje rezolucije** i smanjenje dimenzija podataka.

* **Padding** definira koliko se nula dodaje oko ulaza prije konvolucije:

    * **padding = 0** (*valid*) -- izlaz je manji od ulaza  
    * **padding = 1** (ili više) -- omogućuje da i rubovi ulaza sudjeluju u konvoluciji  

    Padding čuva prostorne informacije i sprječava gubitak rubnih detalja.

* **Receptivno polje** opisuje koliko ulaznih elemenata utječe na jedan izlazni element.  
Raste s veličinom jezgre, dubinom mreže i uporabom dilatacije.

---

## Izračun izlazne dimenzije konvolucije (Conv1d / Conv2d)

Kod obične konvolucije izlazna dimenzija ovisi o:

* `kernel_size` — veličina jezgre  
* `stride` — korak  
* `padding` — kolika se nulta popuna dodaje oko ulaza  
* `dilation` — razmak između elemenata jezgre (default = 1)  

PyTorch konvencije koriste sljedeće formule.

---

##### 1D konvolucija

Ako je ulaz duljine:

\begin{align}
L_\text{in}
\end{align}

tada je duljina izlaza:

\begin{align}
L_\text{out}
=
\left\lfloor
\frac{L_\text{in} + 2 \cdot \text{padding} - \text{dilation} \cdot (\text{kernel\_size} - 1) - 1}{\text{stride}}
\right\rfloor
+ 1
\end{align}

---

#### 2D konvolucija

Za ulaz dimenzija:

\begin{align}
H_\text{in} \times W_\text{in}
\end{align}

visina izlaza:

\begin{align}
H_\text{out}
=
\left\lfloor
\frac{H_\text{in} +
2 \cdot \text{padding}_h -
\text{dilation}_h \cdot (\text{kernel\_size}_h - 1) - 1}{\text{stride}_h}
\right\rfloor
+ 1
\end{align}

širina izlaza:

\begin{align}
W_\text{out}
=
\left\lfloor
\frac{W_\text{in} +
2 \cdot \text{padding}_w -
\text{dilation}_w \cdot (\text{kernel\_size}_w - 1) - 1}{\text{stride}_w}
\right\rfloor
+ 1
\end{align}

---


## Motivacija zašto se koriste CNN (konvolucijske neuronske mreže)

CNN modeli temelje se upravo na konvolucijskim operacijama.  
Razlog njihove iznimne uspješnosti leži u nekoliko ključnih svojstava:


* **Lokalnost** -- Konvolucija pretpostavlja da su važne informacije lokalno grupirane.  
Time se omogućuje modelu da otkriva rubove, teksture i oblike bez potrebe za globalnim pregledom cijelog ulaza odjednom.


* **Dijeljenje težina** (weight sharing) -- Jedna te ista jezgra primjenjuje se na cijeli ulaz.  To rezultira:

    * drastično manjim brojem parametara  
    * boljom generalizacijom  
    * manjom potrošnjom memorije  

    U usporedbi s potpuno povezanim slojevima, CNN se skaliraju daleko bolje na velike slike.

* **Hijerarhija značajki** --CNN prirodno razvija višeslojne reprezentacije:

    * niži slojevi: rubovi, kontrasti  
    * srednji slojevi: uzorci, teksture  
    * viši slojevi: oblici i semantičke strukture  

    Ovaj princip omogućuje prepoznavanje kompleksnih vizualnih objekata.


* **Varijantnost na translaciju** --Zbog načina na koji se jezgre primjenjuju na različite dijelove slike, CNN modeli ostaju robusni na pomicanje objekata u slici.  Drugim riječima, objekt se može pojaviti bilo gdje, a model ga može prepoznati.


---

<font color='green'>


## Primjer

<left><img src="Images/Primjer.png" width="70" height="70"/></left>
</font>

Usporedite treniranje potpuno povezane neuronske mreže sa konvolucijskom neuronskom mrežom. Usporedite ostvarene rezultate i broj parametara - što zaključujete?

In [None]:
from Skripte.Vjezba10.widget import unified_mlp_conv2d_widget
from IPython.display import display

# Autoreload
%load_ext autoreload
%autoreload 2

display(unified_mlp_conv2d_widget())

---

<font color='red'>


## Zadatak

<left><img src="Images/Zadatak.png" width="70" height="70"/></left>
</font>

Iduće dvije ćelije implementiraju 1D i 2D konvoluciju te omogućuju eksperimentiranje sa parametrima. Istražite kako računati 1D i 2D konvoluciju, proučite utjecaj parametara na konačni ishod, a posbno na veličinu izlaznog niza/slike. Iznesite svoje zaključke te provjerite iduće formule za izračun izlaznog niza/slike:



In [None]:
# Autoreload
%load_ext autoreload
%autoreload 2
    
# Učitavanje programskih knjižnica
from Skripte.Vjezba10.CNN1D_widget import create_conv1d_widget

# Poziv funcije
widget = create_conv1d_widget()
display(widget)


In [None]:
# Autoreload
%load_ext autoreload
%autoreload 2
    
# Učitavanje programskih knjižnica
from Skripte.Vjezba10.CNN2D_widget import create_conv2d_widget

# Poziv funcije
widget = create_conv2d_widget()
display(widget)

---

## Transponirana konvolucija (dekonvolucija)

Transponirana konvolucija (često zvana i **dekonvolucija** ili **ConvTranspose**) je operacija koja se koristi kada se želi **povećati prostorna rezolucija** značajki (feature mapa) u konvolucijskim mrežama. Klasičan primjer je dekoder u **autoenkoderima**, **U-Net** arhitekturama ili **generativnim mrežama**, gdje se iz “sažetog” prikaza želi rekonstruirati slika većih dimenzija. Drugi, vrlo često korišteni način, jest **interpolacija**

Dakle, obična konvolucija radi sljedeće:

- ulaz: npr. slika veličine $( H \times W ) $ 
- primjenjuje se jezgra (kernel), često sa $stride > 1$  
- izlaz: najčešće **manji** od ulaza (downsampling)

Transponirana konvolucija želi napraviti suprotno:

- ulaz: “manja” mapa značajki  
- izlaz: **veća** mapa, npr. $( H \times W \to 2H \times 2W)$  
- koristi se za **upsampling pomoću naučenih filtera**, a ne samo interpolacije (npr. nearest/bilinear)

---

#### 1D primjer i intuicija

Za običnu 1D konvoluciju (bez obzira na “conv” ili “cross-correlation”) izlaz se računa kao:

\begin{align}
y[i] = \sum_{k} x[i + k] \cdot w[k]
\end{align}

Transponirana konvolucija radi intuitivno:

1. **“Rastegne” ulaz** – između uzoraka se implicitno ubacuju nule (ovisno o stride-u).  
2. Preko tog “raširenog” ulaza se pomiče jezgra i računa se iznos izlaza.

Važno je naglasiti:

- kod transponirane konvolucije **nije potrebno ručno ubacivati nule** – to radi operator “ispod haube”  
- padding i stride utječu na geometriju izlaza, ali na drugačiji način nego kod obične konvolucije

---

#### 1D formula za veličinu izlaza

Za 1D transponiranu konvoluciju (ConvTranspose1d) tipična formula za duljinu izlaza jest:

\begin{align}
\text{out\_len} = (\text{in\_len} - 1) \cdot \text{stride} - 2 \cdot \text{padding} + \text{kernel\_size} + \text{output\_padding}
\end{align}

gdje su:

- $(\text{in\_len})$ – duljina ulaza  
- $(\text{stride})$ – korak  
- $(\text{padding})$ – “unutarnji” padding koji se primjenjuje pri definiranju operatora  
- $(\text{kernel\_size})$ – duljina jezgre  
- $(\text{output\_padding})$ – dodatna korekcija koja omogućuje fino podešavanje duljine izlaza (npr. kada se želi točno odrediti dimenziju)

---

#### 2D transponirana konvolucija

Za 2D slučaj (ConvTranspose2d) sve se proširuje na visinu i širinu slike.

Ulaz:  
\begin{align}
x \in \mathbb{R}^{C_\text{in} \times H_\text{in} \times W_\text{in}}
\end{align}

Izlaz:  
\begin{align}
y \in \mathbb{R}^{C_\text{out} \times H_\text{out} \times W_\text{out}}
\end{align}

Formule za dimenzije izlaza:

\begin{align}
H_\text{out} =
(H_\text{in} - 1) \cdot \text{stride}_h
- 2 \cdot \text{padding}_h
+ \text{kernel\_size}_h
+ \text{output\_padding}_h
\end{align}

\begin{align}
W_\text{out} =
(W_\text{in} - 1) \cdot \text{stride}_w
- 2 \cdot \text{padding}_w
+ \text{kernel\_size}_w
+ \text{output\_padding}_w
\end{align}

Za svaki kanal jezgre $(w)$ i ulaza $(x)$, transponirana konvolucija radi kao “obrnuti” stamping: svaki ulazni piksel množi jezgru i dodaje svoj doprinos na više pozicija u izlazu.

---

## Usporedba s interpolacijom + konvolucija

Za upsampling postoje dva glavna pristupa:

1. **Transponirana konvolucija (ConvTranspose)**  
   - uči kako povećati rezoluciju i istovremeno naučiti filtriranje  
   - može proizvesti artefakte (tzv. *checkerboard artefakti*) ako se parametri ne odaberu pažljivo

2. **Interpolacija + obična konvolucija**  
   - npr. bilinearna interpolacija → povećanje rezolucije  
   - zatim obična Conv2d za učenje filtriranja  
   - često stabilnije i bez checkerboard artefakata

Transponirana konvolucija je popularna jer spaja upsampling i učenje filtriranja u jednom sloju, ali se u modernim arhitekturama često kombinira ili zamjenjuje s interpolacijom + conv zbog stabilnosti.

---

## Tipične primjene

- dekoderski dijelovi **autoenkodera** i **U-Net** arhitektura  
- **generativne mreže** (npr. GAN-ovi) za generiranje slika iz latentnog vektora  
- rekonstrukcija slike iz “feature mapa” niže rezolucije  
- segmentacija, super-resolution, “inpainting” itd.

---
<font color='red'>


## Zadatak

<left><img src="Images/Zadatak.png" width="70" height="70"/></left>
</font>

Iduće dvije ćelije implementiraju 1D i 2D konvoluciju te omogućuju eksperimentiranje sa parametrima. Istražite kako računati 1D i 2D konvoluciju, proučite utjecaj parametara na konačni ishod, a posbno na veličinu izlaznog niza/slike. Iznesite svoje zaključke te provjerite iduće formule za izračun izlaznog niza/slike:


In [None]:
# Autoreload
%load_ext autoreload
%autoreload 2
    
# Učitavanje programskih knjižnica
from Skripte.Vjezba10.Dekonvolucija_widgets import create_convtranspose1d_widget, create_convtranspose2d_widget

# Poziv funcije
widget = create_convtranspose1d_widget()
display(widget)

In [None]:
# Autoreload
%load_ext autoreload
%autoreload 2
    
# Učitavanje programskih knjižnica
from Skripte.Vjezba10.Dekonvolucija_widgets import create_convtranspose1d_widget, create_convtranspose2d_widget

# Poziv funcije
widget = create_convtranspose2d_widget()
display(widget)