# Konvoliuciniai neuroniniai tinklai

- David H. Hubel ir Torsten Wiesel 1958 m. atliko keletą eksperimentų su katėmis, kurie suteikė esminių įžvalgų apie regos žievės struktūrą. 

- Jie parodė, kad daugelis regos žievės neuronų turi mažą vietinį receptorinį lauką, t. y. jie reaguoja tik į ribotoje regos lauko srityje esančius regimuosius dirgiklius.

- Be to, autoriai parodė, kad kai kurie neuronai reaguoja tik į horizontalių linijų vaizdus, o kiti - tik į skirtingų orientacijų linijas (du neuronai gali turėti tą patį recepcinį lauką, bet reaguoti į skirtingų orientacijų linijas).

- Jie taip pat pastebėjo, kad kai kurie neuronai turi didesnius recepcinius laukus ir reaguoja į sudėtingesnius raštus, kurie yra žemesnio lygio raštų deriniai. 

- Visa tai lėmė konvoliucinio neuroninio tinklo architektūros išradimą.

## Konvoliucijos ir koreliacijos operacijos

- Kryžminė koreliacija (angl. cross-correlation) yra dviejų sekų/funkcijų panašumo matas. Koreliacija kaip argumentus paima dvi funkcijas $f$ ir $g$, ir grąžina trečią, kuri, tam tikra prasme, parodo $f$ ir $g$ panašumo lygį.

- Dažniausiai viena funkcija imama kaip fiksuotas filtras, dar vadinamas branduoliu (angl. kernel).

- Diskrečioms vieno kintamojo funkcijoms kryžminės koreliacijos operacija apibrėžiama kaip:

$$
(f * g)(m) = \sum_{n} f(n) \cdot g(m + n)
$$

<div style="text-align: center;">
<img src="https://raw.githubusercontent.com/ugniusalekna/intro-to-ml/main/images/convolution.gif" alt="correlation" width="65%">
<p><strong>1.12 pav., Koreliacijos operacija </strong></p>
</div>

- Šiek tiek painu: konvoliucija ir koreliacija yra labai panašios operacijos; konvoliucija yra koreliacija su filtru, pasuktu 180 laipsnių.

- Kadangi filtro svoriai nėra fiksuoti, nėra svarbu, ar atliekant operaciją filtrą apversime, ar ne, todėl skaičiavimų prasme, lengviau atlikti koreliacijos operaciją. 

- Taigi, konvoliuciniai neuroniniai tinklai iš tiesų naudoja kryžminę koreliaciją! 


### Vaizdo kaip funkcijos apibrėžimas

- Vaizdą galima apibrėžti kaip dviejų kintamųjų funkciją $I(x, y)$ – pikselio intensyvumo reikšmė koordinatėse $(x, y)$. Vieno kanalo atveju (nespalvotas vaizdas) $I$ įgyja reikšmes nuo 0 iki 255 (arba kitas normalizuotas diapazonas, pvz., [0, 1]).

### Koreliacijos operacija taikoma vaizdui

- Koreliacija vaizdo apdorojime taikoma naudojant nedidelį filtrą (branduolį) $\mathbf{K}$, kuris slysta per visą vaizdą $ I(x, y) $. Kiekviename žingsnyje atliekama skaliarinė sandauga tarp filtro ir atitinkamos vaizdo dalies:

$$
(I * K)(x, y) = \sum_{i=0}^{f_h-1} \sum_{j=0}^{f_w-1} I(x+i, y+j) \cdot K(i, j)
$$

  - Čia:
    - $ I(x+i, y+j) $ yra įvesties vaizdo reikšmė pozicijoje $ (x+i, y+j) $,
    - $ K(i, j) $ yra filtro (branduolio) reikšmė pozicijoje $ (i, j) $,
    - $ (I * K)(x, y) $ yra išvesties reikšmė pozicijoje $ (x, y) $.

### Koreliacijos operacijos pavyzdys

- Tarkime, turime 3x3 dydžio filtrą (branduolį) $ K $ ir 6x6 dydžio vaizdą $ I $:

<div style="text-align: center;">
<img src="https://raw.githubusercontent.com/ugniusalekna/intro-to-ml/main/images/conv_dotprod.gif" alt="correlation dot product" width="65%">
<p><strong>1.12 pav., Skaliarinė sandauga tarp vaizdo dalies ir filtro  </strong></p>
</div>

- Koreliacijos operacija atliekama pasirinktoje pozicijoje, pavyzdžiui, kai filtro viršutinis kairysis kampas sutampa su vaizdo tašku (1, 1) (antra eilutė, antra stulpelis):

$$
\text{Output}(2, 2) = (1 \times 0) + (5 \times 1) + (8 \times 0) + (7 \times 1) + (2 \times -4) + (2 \times 1) + (3 \times 0) + (1 \times 1) + (5 \times 0) = 10
$$

- Šis skaičiavimas kartojamas kiekvienam pikseliui, ir gauname naują išvesties vaizdą, kur kiekviena reikšmė yra koreliacijos rezultatas.

### Filtrai ir jų poveikis

- **Gaussiškas Filtras**: 
    - Šis filtras naudojamas vaizdams išlyginti (smooth). Gaussiškas filtras turi aukštą vidurio koeficientą, kuris palaipsniui mažėja į šonus:

$$
G = \frac{1}{16}\begin{bmatrix}
1 & 2 & 1 \\
2 & 4 & 2 \\
1 & 2 & 1
\end{bmatrix}
$$

    - Taikant tokį filtrą, vaizdas tampa mažiau triukšmingas ir švelnesnis.

- **Kraštų Aptikimo Filtras** (Sobelio filtras):
    - Šis filtras naudojamas aptikti kraštus vaizde:

$$
S_x = \begin{bmatrix}
-1 & 0 & 1 \\
-2 & 0 & 2 \\
-1 & 0 & 1
\end{bmatrix}, \quad
S_y = \begin{bmatrix}
-1 & -2 & -1 \\
0 & 0 & 0 \\
1 & 2 & 1
\end{bmatrix}
$$

    - Pirmas filtras aptinka vertikalius kraštus, o antras – horizontalius. Jų derinys gali būti naudojamas aptikti visus kraštus vaizde.

- **Laplaciano Filtras**:
    - Tai antrosios išvestinės filtras, kuris pabrėžia kraštus, bet kartu paryškina triukšmą:

$$
L = \begin{bmatrix}
0 & 1 & 0 \\
1 & -4 & 1 \\
0 & 1 & 0
\end{bmatrix}
$$

    - Taikant šį filtrą, paryškinami kraštai ir kontūrai, kurie yra staigūs perėjimai vaizde.

### Išvada

Koreliacijos ir konvoliucijos operacijos yra esminės vaizdo apdorojimo technikos, leidžiančios išgauti ir analizuoti įvairias vaizdo ypatybes. Pasitelkiant skirtingus filtrus, galima atlikti įvairius veiksmus, tokius kaip triukšmo mažinimas, kraštų aptikimas ar tekstūrų paryškinimas. Šie metodai yra plačiai naudojami kompiuterinėje regos sistemoje ir kitose srityse, kur svarbu analizuoti vizualinę informaciją.

In [1]:
import numpy as np

def correlation(image, filter):

    output_image = np.copy(image)
    
    image_width, image_length = image.shape
    filter_width, filter_length = filter.shape

    for i in range(image_width):
        for j in range(image_length):
    
            image_region = image[i:i+filter_width, j:j+filter_length]
    
            if image_region.shape == filter.shape:
                correlation = np.sum(image_region * filter)
                output_image[i + (filter_width-1)//2, j + (filter_length-1)//2] = correlation

    return output_image


def apply_filter(image, filter):    
    return correlation(image, filter)

## Konvoliucinis sluoksnis

- Svarbiausias struktūrinis blokas yra konvoliucinis sluoksnis – pirmojo konvoliucinio sluoksnio neuronai prijungiami ne prie kiekvieno įvesties vaizdo pikselio (kaip ankstesniuose skyriuose), o tik prie pikselių, esančių jų recepciniame lauke. 
- Savo ruožtu kiekvienas antrojo konvoliucinio sluoksnio neuronas yra sujungtas tik su neuronais, esančiais nedideliame stačiakampyje pirmajame sluoksnyje. 
- Tokia architektūra leidžia tinklui pirmajame paslėptajame sluoksnyje sutelkti dėmesį į žemo lygio požymius, tada kitame paslėptajame sluoksnyje juos surinkti į aukštesnio lygio požymius ir t.t. 
- Tokia hierarchinė struktūra būdinga vaizdo apdorojimui gyvūnų smegenyse.


<div style="text-align: center;">
<img src="https://raw.githubusercontent.com/ugniusalekna/intro-to-ml/main/images/receptive_field.png" alt="receptive-field" width="65%">
<p><strong>1.12 pav., Konvoliucinių sluoksnių receptinis laukas </strong></p>
</div>

### Nulių pridėjimas (angl. zero-padding)

Tam tikro sluoksnio $i$ eilutėje, $j$ stulpelyje esantis neuronas yra sujungtas su ankstesnio sluoksnio neuronų, esančių nuo $i$ iki $i + f_h - 1$, nuo $j$ iki $j + f_w - 1$ eilutėse, išėjimais, kur $f_h$ ir $f_w$ yra recepcinio lauko aukštis ir plotis. Kad sluoksnis būtų tokio paties aukščio ir pločio kaip ankstesnis sluoksnis, aplink įvesties matricą reikia pridėti nulius. 1.13 pav., $5 \times 7$ įvesties dydžio įvesties sluoksnis papildomas nulių paraštėmis iš visų pusių, kad tolimesnis sluoksnis taip pat būtų $5 \times 7$ dydžio.

<div style="text-align: center;">
<img src="https://raw.githubusercontent.com/ugniusalekna/intro-to-ml/main/images/zero_padding.png" alt="zero-padding" width="65%">
<p><strong>1.13 pav., Nulių pridėjimo operacija </strong></p>
</div>

### Konvoliucijos filtro žingsnis (angl. stride)

Didelės rezoliucijos įvesties sluoksniai gali būti sujungti su daug mažesnės rezoliucijos sluoksniu, išdėstant receptorinius laukus su didesniais tarpais tarp jų. Atstumas tarp dviejų vienas po kito einančių recepcinių laukų vadinamas konvoliucijos filtro žingsniu. 1.14 pav. $5 \times 7$ įvesties sluoksnis (plius zero-pad) sujungtas su $3 \times 4$ sluoksniu, naudojant $3 \times 3$ recepcinius laukus ir žingsnį lygų $2$. Viršutinio sluoksnio $i$ eilutėje, $j$ stulpelyje esantis neuronas yra sujungtas su ankstesnio sluoksnio neuronų, esančių nuo $i \times s_h$ iki $i \times s_h + f_h - 1$ eilutėse, $j \times s_w + f_w - 1$ stulpeliuose, išėjimais, kur $s_h$ ir $s_w$ yra žingsnių dydžiai vertikalia ir horizontalia kryptimi.

<div style="text-align: center;">
<img src="https://raw.githubusercontent.com/ugniusalekna/intro-to-ml/main/images/stride.png" alt="stride" width="65%">
<p><strong>1.14 pav., Konvoliucijos filtro žingsnis </strong></p>
</div>

Puiki vizualizacija: [CNN Explainer](https://poloclub.github.io/cnn-explainer/)