# Metody Głębokiego Uczenia
# Projekt I - raport

## Autorzy:
Wojciech Celej  
Bartosz Paszko

# 1. Opis rozwiązania
W ramach projektu przygotowaliśmy program pozwalający budować i trenować proste sieci neuronowe typu feed-forward. Rozwiązanie zostało zaimplementowane w języku Python, natomiast sam proces definiowania sieci odbywa się za pomocą dostarczenia odpowiedniego pliku typu JSON o ustalonej strukturze.

Program składa się z klas odpowiadających za:
* całość sieci
* poszczególne funkcje aktywacji
* poszczególne funkcje straty
* ładowanie danych i zamianę ich formatu
* optymalizację
* wizualizację

Taki podział pozwala na proste dodawanie np. kolejnych funkcji aktywacji poprzez implementację ich określonych funkcji. 

Trening sieci odbywa się za pomocą algorytmu wstecznej propagacji. Wspierane są następujące funkcje aktywacji:
* sigmoid
* tangens hiperboliczny
* softplus
* ReLU
* liniowa

Zaimplementowana została tylko jedna funkcja straty (MSE), natomiast dodanie nowej wymaga tylko dodania implementacji jej klasy, a dokładnie wymaganych metod. Podobnie jest z optymalizatorami, gdzie dostępny jest tylko SGD Momentum. 

# 2. Modyfikacje parametrów
Poniżej znajdują się dostępne do modyfikacji parametry architektury oraz treningu obok których przedstawione zostały ich przykładowe definicje w JSON’ie.

a) dobór liczby warstw i neuronów w każdej z nich oraz ich funkcji aktywacji
```
"hidden_layers": [
   {
     "activation": "sigmoid",
     "neurons": 256
   },
   {
     "activation": "tanh",
     "neurons": 128
   }
]
```

b) podanie ilości epok przez które ma trenować się model
```
"number_of_iterations": 500
```

c) zmianę wartości współczynnika nauki
```
"learning_rate": 0.01
```

d) zmianę wartości współczynnika bezwładności
```
"momentum": 0.9
```

e) zmianę wielkości batcha
```
"batch_size": 200
```

f) wybór problemu (klasyfikacja, regresja)
```
"type": "regression"
```

g) określenie zbiorów uczenia (treningowego oraz testowego) 
```
"train_df": "data/Regression/data.activation.train.1000.csv",
"test_df": "data/Regression/data.activation.test.1000.csv"
```

h) zainicjowanie ziarna generatora liczb losowych
```
"seed": 123
```

Klasa parsująca plik w formacie JSON zawiera podstawowe mechanizmy zabezpieczające przed załadowaniem niepoprawnych danych na etapie ich parsowania.

# 3. Wizualizacja działania modelu

W celu analizy jakości treningu jest on nadzorowany poprzez zbieranie informacji o wartości funkcji straty dla każdej epoki treningowej oraz co pewien czas (5 epok) obliczana jest jej wartość na zbiorze testowym. Pozwala to na analizę dwóch krzywych straty i wyciągnięcie wniosków co do poprawności treningu.

Dodatkowym narzędziem do analizy modelu są wykresy predykcji dla problemu klasyfikacji oraz regresji. W przypadku klasyfikacji zbiór treningowy zaznaczany jest dodatkowo na wykresie za pomocą punktów o kolorach przypisanych danej klasie, natomiast cała płaszczyzna malowana jest na kolory odpowiadające klasom wybranym przez model w danym miejscu.


We wszystkich zaprezentowanych poniżej przykładach parametry ustawiono na:
```
  "learning_rate": 0.01,
  "momentum": 0.9,
  "number_of_iterations": 100,
  "seed": 123,
```

Pozostałe parametry będą prezentowane dla poszczególnych zbiorów.

## Regresja

Dla wszystkich zbiorów treningowych $x \in [-2 ; 5]$  
Dla wszystkich zbiorów testowych $x \in [-5 ; 7]$  
Zakres zbioru testowego jest szerszy niż zbioru treningowego, co pozwoli okreslić jak sieć z liniowym wejściem radzi sobie z problemem generalizacji wiedzy (ektrapolacji).

### 1. Activation

  ```
  "hidden_layers": [
    {
      "activation": "sigmoid",
      "neurons": 10
    }
  ],
  "type": "regression",
  "train_df": "data/Regression/data.activation.train.10000.csv",
  "test_df": "data/Regression/data.activation.test.10000.csv",
  "batch_size": 10
```

![](TESTY/regresja/activation/loss.png)

![](TESTY/regresja/activation/result.png)

### 2. Cube

```
  "hidden_layers": [
    {
      "activation": "sigmoid",
      "neurons": 100
    }
  ],
  "type": "regression",
  "train_df": "data/Regression/data.cube.train.10000.csv",
  "test_df": "data/Regression/data.cube.test.10000.csv",
  "batch_size": 50
```

![](TESTY/regresja/cube/loss.png)

![](TESTY/regresja/cube/result.png)

### 3. Linear

```
  "hidden_layers": [
    {
      "activation": "sigmoid",
      "neurons": 50
    }
  ],
  "type": "regression",
  "train_df": "data/Regression/data.linear.train.10000.csv",
  "test_df": "data/Regression/data.linear.test.10000.csv",
  "batch_size": 50
```

![](TESTY/regresja/linear/loss.png)

![](TESTY/regresja/linear/result.png)

### 4. Multimodal

```
  "hidden_layers": [
    {
      "activation": "sigmoid",
      "neurons": 200
    }
  ],
  "type": "regression",
  "train_df": "data/Regression/data.multimodal.train.10000.csv",
  "test_df": "data/Regression/data.multimodal.test.10000.csv",
  "batch_size": 50
```

![](TESTY/regresja/multimodal/loss.png)

![](TESTY/regresja/multimodal/result.png)

### 5. Square

```
  "hidden_layers": [
    {
      "activation": "sigmoid",
      "neurons": 100
    }
  ],
  "type": "regression",
  "train_df": "data/Regression/data.square.train.10000.csv",
  "test_df": "data/Regression/data.square.test.10000.csv",
  "batch_size": 10
```

![](TESTY/regresja/square/loss.png)

![](TESTY/regresja/square/result.png)

### Wnioski

* zadowalające wyniki na zbiorze treningowym uzyskano dla sieci z jedną wartswą ukrytą
* sieć neuronowa dobrze odwzorowuje funkcję na zbiorze testowym w zakresie $x$ pokrywającym się z zakresem $x$ dla zbioru treningowego
* duży błąd na zbiorze testowym bierze się z braku generalizacji, co wynika z użycia sieci z jednym wejściem liniowym

## Klasyfikacja

### 1. Circles

Accuracy score: 0.9635

```
  "hidden_layers": [
    {
      "activation": "sigmoid",
      "neurons": 50
    },
    {
      "activation": "sigmoid",
      "neurons": 50
    },
    {
      "activation": "sigmoid",
      "neurons": 50
    },
    {
      "activation": "sigmoid",
      "neurons": 50
    },
    {
      "activation": "sigmoid",
      "neurons": 50
    },
    {
      "activation": "sigmoid",
      "neurons": 50
    },
    {
      "activation": "sigmoid",
      "neurons": 50
    },
    {
      "activation": "sigmoid",
      "neurons": 50
    },
    {
      "activation": "sigmoid",
      "neurons": 50
    }
  ],
  "type": "classification",
  "train_df": "data/Classification/data.circles.train.10000.csv",
  "test_df": "data/Classification/data.circles.test.10000.csv",
  "batch_size": 10
```

![](TESTY/klasyfikacja/circles/loss.png)

![](TESTY/klasyfikacja/circles/result.png)

![](TESTY/klasyfikacja/circles/myplot.png)

### 2. noisyXOR

Accuracy score: 0.9192

```
  "hidden_layers": [
    {
      "activation": "sigmoid",
      "neurons": 100
    },
    {
      "activation": "sigmoid",
      "neurons": 100
    }
  ],
  "type": "classification",
  "train_df": "data/Classification/data.noisyXOR.train.10000.csv",
  "test_df": "data/Classification/data.noisyXOR.test.10000.csv",
  "batch_size": 10
```

![](TESTY/klasyfikacja/noisy_xor/loss.png)

![](TESTY/klasyfikacja/noisy_xor/result.png)

![](TESTY/klasyfikacja/noisy_xor/myplot.png)

## 3. Simple

Accuracy score: 0.9938

```
  "hidden_layers": [
    {
      "activation": "sigmoid",
      "neurons": 10
    }
  ],
  "type": "classification",
  "train_df": "data/Classification/data.simple.train.10000.csv",
  "test_df": "data/Classification/data.simple.test.10000.csv",
  "batch_size": 10
```

![](TESTY/klasyfikacja/simple/loss.png)

![](TESTY/klasyfikacja/simple/result.png)

![](TESTY/klasyfikacja/simple/myplot.png)

### 4. Three gauss

Accuracy score: 0.9313

```
  "hidden_layers": [
    {
      "activation": "sigmoid",
      "neurons": 100
    },
    {
      "activation": "sigmoid",
      "neurons": 50
    }
  ],
  "type": "classification",
  "train_df": "data/Classification/data.three_gauss.train.10000.csv",
  "test_df": "data/Classification/data.three_gauss.test.10000.csv",
  "batch_size": 10
```

![](TESTY/klasyfikacja/three_gaussian/loss.png)

![](TESTY/klasyfikacja/three_gaussian/result.png)

![](TESTY/klasyfikacja/three_gaussian/myplot.png)

### 5. XOR

Accuracy score: 0.9893

```
    {
      "activation": "sigmoid",
      "neurons": 50
    },
    {
      "activation": "sigmoid",
      "neurons": 50
    },
    {
      "activation": "sigmoid",
      "neurons": 50
    }
  ],
  "type": "classification",
  "train_df": "data/Classification/data.xor.train.10000.csv",
  "test_df": "data/Classification/data.xor.test.10000.csv",
  "batch_size": 10
```

![](TESTY/klasyfikacja/xor/loss.png)

![](TESTY/klasyfikacja/xor/result.png)

![](TESTY/klasyfikacja/xor/myplot.png)

### Wnioski

* w celu uzyskania poprawnej klasyfikacji ( w szczególności dla trudniejszych zbiorów jak cycles) użyto sieci z więcej niż jedną warstwą ukrytą
* accuracy score we wszystkich przypadkach jest bliskie 1
* uzyskanie poprawnej klasyfikacji wymagało użycia sieci o odpowiedniej budowie, jednowarstowe sieci dla trudniejszych przypadków zwracały złe wyniki

# 4. Przykładowe testy

## Klasyfikacja

Referencyjny przykład: jak w wizualizacji

#### Za mało warstw

```
 "hidden_layers": [
    {
      "activation": "sigmoid",
      "neurons": 50
    },
    {
      "activation": "sigmoid",
      "neurons": 50
    },
    {
      "activation": "sigmoid",
      "neurons": 50
    }
```

![](TESTY/other/myplot1.png)

![](TESTY/other/myplot2.png)

Accuracy: 0.8246

## Regresja

Referencyjny przykład

```
{
  "learning_rate": 0.01,
  "momentum": 0.9,
  "number_of_iterations": 200,
  "seed": 123,
  "hidden_layers": [
    {
      "activation": "sigmoid",
      "neurons": 200
    }
  ],
  "type": "regression",
  "train_df": "data/Regression/data.multimodal.train.10000.csv",
  "test_df": "data/Regression/data.multimodal.test.10000.csv",
  "batch_size": 50
}
```

![](TESTY/other/myplot3.png)

#### Za mało neuronów w warstwie ukrytej

```
  "hidden_layers": [
    {
      "activation": "sigmoid",
      "neurons": 50
    }
```

![](TESTY/other/myplot4.png)

#### Za mało iteracji uczących

```
    "number_of_iterations": 100,
    "batch_size": 10
```

![](TESTY/other/myplot5.png)