#  Konwolucyjne sieci neuronowe (Convolutional Neural Network - CNN)



## Convolutional Neural Networks (CNN) – Szczegółowe Omówienie

- Konwolucyjne sieci neuronowe (CNN) stanowią fundament współczesnej wizji komputerowej i przetwarzania obrazów.
- CNN zastępują tradycyjne warstwy gęste (fully-connected) warstwami konwolucyjnymi, co pozwala sieci uczyć się hierarchii cech wizualnych bez ręcznej inżynierii.
- CNN wykorzystują operacje konwolucyjne i filtry (kernels), które analizują lokalne fragmenty obrazu, wykrywając wzorce takie jak krawędzie, linie, tekstury i kształty.
- Hierarchia cech: dolne warstwy rozpoznają proste wzorce, wyższe łączą je w bardziej złożone struktury, pozwalając na rozpoznawanie złożonych obiektów.
- Dzięki translacyjnej niezmienności wzorców, CNN są odporne na przesunięcia czy drobne modyfikacje obrazu.


![Untitled](https://i.ibb.co/3N7DQ9q/Untitled-11.png)



## **Warstwy konwolucyjne**

- Konwolucyjne sieci neuronowe składają się z kilku warstw, z których najważniejsze są warstwy konwolucyjne.
- Warstwy konwolucyjne wykorzystują operację konwolucji, która pozwala na ekstrakcję cech z obrazów.
- Operacja konwolucji polega na przesuwaniu filtra po obrazie i obliczaniu iloczynów skalarnych między elementami filtra i obrazu.
- Wynik operacji konwolucji jest mapą cech, która może być dalej przetwarzana przez kolejne warstwy sieci.


## **Operacja konwolucji**

- Operacja konwolucji pozwala na ekstrakcję cech z obrazów i jest kluczowa dla konwolucyjnych sieci neuronowych (CNN).
- Operacja konwolucji wykorzystuje filtry, które są przesuwane po obrazie, a każdy element filtra jest mnożony przez piksel obrazu.
- Operacja konwolucji prowadzi do utworzenia map cech, które następnie mogą być przetwarzane przez kolejne warstwy sieci.



[https://miro.medium.com/v2/resize:fit:1052/0*jLoqqFsO-52KHTn9.gif](https://miro.medium.com/v2/resize:fit:1052/0*jLoqqFsO-52KHTn9.gif)

[Convolutional Neural Network Visualization by Otavio Good - YouTube](https://www.youtube.com/watch?v=f0t-OCG79-U)


![Untitled](https://i.ibb.co/CQGCxmp/Untitled-12.png)



## **Filtry/Kernele**

- Filtry (kernel) to macierze wag, które są przesuwane po obrazie w operacji konwolucji.
- Filtry pozwalają na wykrywanie cech w obrazach, takich jak krawędzie, linie, tekstury i kształty.
- Filtry są trenowane w procesie uczenia, aby znaleźć najlepsze wagi, które pozwalają na wykrycie istotnych cech.




## **Dlaczego stosujemy padding?**

- Padding to technika polegająca na dodaniu zerowych pikseli wokół obrazu wejściowego, aby zwiększyć wymiar obrazu.
- Padding jest stosowany, aby zachować rozmiar obrazu po przeprowadzeniu operacji konwolucji.
- Bez paddingu, rozmiar obrazu może zmniejszać się wraz z każdą warstwą konwolucyjną, co może prowadzić do utraty informacji i utrudnienia uczenia.

## **Rodzaje paddingu**

- Padding może być dodawany do krawędzi obrazu na różne sposoby, w zależności od zastosowania.
- Zero padding to najczęściej stosowany rodzaj paddingu, w którym piksele wokół obrazu są uzupełniane zerami.
- Valid padding, nazywany też 'no padding', oznacza brak dodatkowych pikseli wokół obrazu i prowadzi do zmniejszenia rozmiaru obrazu.
- Same padding oznacza, że piksele wokół obrazu są uzupełniane w taki sposób, aby zachować rozmiar obrazu.
    
    ![Untitled](https://i.ibb.co/Rpnhtjn/Untitled-13.png)

## **Co to jest Stride?**

- Stride to odstęp między kolejnymi pozycjami filtra podczas przesuwania po obrazie.
- Stride wpływa na rozmiar mapy cech wyjściowych z warstwy konwolucyjnej.
- Większy stride oznacza mniejszą liczbę pozycji filtra na obrazie i prowadzi do zmniejszenia rozmiaru mapy cech wyjściowych.

![Untitled](https://i0.wp.com/www.brilliantcode.net/wp-content/uploads/2019/08/CNN_Tutorial_stride.png?resize=800%2C713&ssl=1)


## **Warstwy grupujące**

- Warstwy grupujące, zwane też warstwami pooling, służą do zmniejszania wymiarowości danych.
- Najczęściej stosowaną operacją w warstwach grupujących jest operacja maksymalizacji (max pooling), która wybiera maksymalną wartość z danego regionu.
- W Max Pooling, największy element jest brany z mapy cech. Średnie wartości są obliczane w Average Pooling dla elementów znajdujących się w zdefiniowanym obszarze obrazu. Całkowita suma elementów w zdefiniowanym obszarze jest obliczana w Sum Pooling.
- Warstwa Pooling zazwyczaj służy jako połączenie między warstwą konwolucyjną a warstwą FC.
- Warstwy grupujące pomagają zwiększyć odporność sieci na przesunięcia, zmiany skali i inne transformacje obrazu.

![Untitled](https://i.ibb.co/dKyjVhF/Untitled-15.png)

## **Warstwy gęste**

- Warstwy gęste (fully connected layers) są końcową częścią konwolucyjnych sieci neuronowych i służą do klasyfikacji lub regresji.
- W warstwach gęstych każdy neuron jest połączony z każdym neuronem z poprzedniej warstwy.
- Warstwy gęste służą do mapowania wejściowego sygnału na wektor wyjściowy o odpowiedniej liczbie wymiarów.

## **Activation Functions**

- Jednym z najważniejszych parametrów modelu CNN jest funkcja aktywacji.
- Służy ona do uczenia i przybliżania różnych ciągłych i złożonych zależności między zmiennymi w sieci.
- W prostych słowach, decyduje ona, które informacje z modelu powinny zostać aktywowane w kierunku przodu, a które nie na końcu sieci.
- Funkcja aktywacji wprowadza nieliniowość do sieci.
- Istnieje kilka powszechnie stosowanych funkcji aktywacji, takich jak ReLU, Softmax, tanH i funkcje Sigmoid.




![Untitled](https://i.ibb.co/vBFD2zw/Untitled-16.png)


- Każda z tych funkcji ma specyficzne zastosowanie.
- Dla modelu CNN klasyfikacji binarnej preferowane są funkcje sigmoidalne i softmax, a dla klasyfikacji wieloklasowej zazwyczaj stosuje się softmax.
- W prostych słowach, funkcje aktywacji w modelu CNN decydują, czy neuron powinien być aktywowany czy nie.
- To określa, czy dane wejściowe są istotne, czy nie, dla przewidywania za pomocą operacji matematycznych.


## **Standardowa sieć CNN składa się z następujących warstw CNN**


![Untitled](https://i.ibb.co/yh6wXYn/Untitled-17.png)


- Wejściowy obraz poddawany jest wielu filtrom, aby wygenerować różne mapy cech.
- Każda mapa cech o wymiarze (C, C) jest następnie łączona, tworząc wyjście o wymiarze (C/2, C/2) (dla standardowego łączenia 2×2).
- Powyższy wzór nazywa się warstwą neuronową konwolucyjną lub jednostką. Wiele takich warstw CNN jest umieszczanych na siebie, tworząc głębokie sieci neuronowe konwolucyjne.
- Wyjście z warstwy splotowej zawiera cechy, które są wprowadzane do gęstej sieci neuronowej..

# Regularyzacja i stabilizacja treningu w CNN

### Regularyzacja i Stabilizacja Treningu

- Głębokie sieci (w tym CNN) mają miliony parametrów, podatne na overfitting.
- Techniki regularyzacji:

  - L1/L2 regularyzacje penalizują duże wartości wag
![Untitled](https://i.ibb.co/g4fc8cN/Untitled-2.png)


  - Dropout losowo wyłącza neurony, wymuszając bardziej zróżnicowane i odporne reprezentacje
![Untitled](https://i.ibb.co/HnwzL9h/Untitled-4.png)


## **Dodawanie Dropout**

W Kerasie argument `rate` definiuje procent jednostek wejściowych do wyłączenia. Warstwę `Dropout` umieszczamy tuż przed warstwą, do której chcemy zastosować Dropout:

```python
keras.Sequential([
    # ...
    layers.Dropout(rate=0.3), # zastosuj 30% dropout do następnej warstwy
    layers.Dense(16),
    # ...
])

```


### **Batch Normalization**

- Batch Normalization to technika, która normalizuje wejście do każdej warstwy sieci.
- Normalizacja wsadowa może poprawić skuteczność uczenia się, ponieważ zapobiega zanikaniu lub eksplodowaniu gradientu i przyspiesza proces uczenia się.

![Untitled](https://i.ibb.co/MfbXDVm/Untitled-5.png)


## **Dodawanie normalizacji wsadowej**

Wygląda na to, że Batch Normalization może być stosowana niemal w dowolnym miejscu w sieci. Można ją umieścić po warstwie...

```
layers.Dense(16, activation='relu'),
layers.BatchNormalization(),

```

... lub między warstwą a jej funkcją aktywacji:

```
layers.Dense(16),
layers.BatchNormalization(),
layers.Activation('relu'),


#  Data Augmentation – sztuczne wzbogacanie zbioru treningowego

### Data Augmentation

- Data Augmentation zwiększa różnorodność danych treningowych, poprawiając zdolność modelu do generalizacji.
- Techniki augmentacji:
  - Obrót, przesunięcie, zmiana skali, odbicie lustrzane
  - Zmiany jasności, kontrastu, dodawanie szumu
- Dzięki augmentacji model widzi więcej wariantów obiektów, staje się odporniejszy na zmiany w danych wejściowych i redukuje ryzyko overfittingu.
- Jest standardowym elementem workflow w projektach wizji komputerowej.


![Untitled](https://i.ibb.co/pWngtvh/Untitled-6.png)


# Podsumowanie koncepcji CNN 

- CNN umożliwiają automatyczną ekstrakcję cech z obrazów:
  - Konwolucje i filtry: detekcja wzorców
  - Pooling: redukcja wymiarowości i odporność na przesunięcia
  - Regularyzacja (Dropout, BN, L1/L2) i augmentacja danych dla lepszej generalizacji
