# Metody Głębokiego uczenia
# Raport - Projekt 1

* *Aleksandra Miesiąc*
* *Agata Pałdyna* 
* *Katarzyna Spalińska*

# Opis architektury programu

Program składa się z kilku modułów oraz pliku konfiguracyjnego, służącego do ustalenia parametrów sieci, opisanego w kolejnym punkcie raportu. 

__Plik *activation_functions.py*__ zawiera implementacje 11 różnych funkcji aktywacji wraz z ich pochodnymi, tak aby można było swobodnie zmieniać ten parametr sieci. Zadana w pliku konfiguracyjnym funkcja aktywacji jest przypisana wszystkim neuronom wewnątrz sieci w przypadku problemu klasyfikacji, zaś wszystkim neuronom warstw ukrytych w przypadku problemu regresji (neurony warstwy wejściowej i wyjściowej mają funkcję aktywacji "ReLU").


__Plik *neural_network.py*__ zawiera implementacje dwóch klas: NeuralNetwork oraz Layer.

__Klasa Layer__
Implementuje obiekt "warstwa", której atrybutami są:
* rozmiar warstwy
* wektor wag (podczas tworzenia generowany losowo)
* wektor wartości neuronów (podczas tworzenia pusty)

__Klasa NeuralNetwork__
Implementuje obiekt "sieć neuronowa", której atrybutami są:
* *input_vector* - wektor wejściowy sieci
* *output_vector* - wektor wyjściowy, obliczony przez sieć
* *output* - oczekiwane wyjście sieci
* *layers* - wektor warstw (obiektów typu Layer)
* *number_of_layers* - liczba warstw (z pliku konfiguracyjnego)
* *layer_size* - liczba neuronów w warstwie (z pliku konfiguracyjnego)
* *activation_function* - funkcja aktywacji (z pliku konfiguracyjnego)
* *learning_rate* - współczynnik uczenia (z pliku konfiguracyjnego)
* *problem* - rodzaj problemu, dla którego sieć będzie trenowana (z pliku konfiguracyjnego)
* *number_of_samples*

Zawiera funkcje:
* *add_layers()* - budującą strukturę sieci. Tworzy odpowiednie obiekty klasy Layer i umieszcza je w wektorze warstw.
* *backpropagation()* - funkcja implementująca algorytm propagacji wstecznej
* *loss_function()* - funkcja obliczająca błąd sieci według wzoru: (norm(y' - y))^2
* *feedforward()* - funkcja implementująca algorytm przechodzenia przez sieć od wejścia do wyjścia
* *argmax_output()* - funkcja która transformuje macierzowe wyjście sieci, zakodowane metodą 'one-hot encoding', na pojedynczy wektor o wartościach takich jak klasy w wektorze oczekiwanego wyjścia sieci (wybierając klasę o największym prawdopodobieństwie)
* *train()* - funkcja trenowania sieci, w której wywołane są raz, kolejno: *feedforward()*, *backpropagation()*
* *predict()* - funkcja implementująca predykcję na nauczonej sieci, wywołująca raz funkcję *feedforward()* i zwracająca wektor wyjściowy sieci (dla problemu regresji) oraz przerobiony funkcją *argmax_output* wektor wyjściowy sieci dla problemu klasyfikacji.
* evaluate()* - funkcja obliczająca procent poprawnych odpowiedzi sieci

__Plik *main.py*__

W pliku main.py następuje kolejno:
* wczytanie pliku konfiguracyjnego
* wczytanie plików ze zbiorami treningowymi i testowymi
* podzielenie zbiorów danych na podzbiory train_X, train_y, test_X, test_y
* podzielenie zbiorów danych na podzbiory (*batch*)
* utworzenie sieci neuronowej zgodnie z plikiem konfiguracyjnym
* iteracyjne trenowanie sieci
* ewaluacja wyników wraz z wygenerowaniem wykresów

# Opis pliku konfiguracyjnego:

Parametry sieci oraz ustawienia programu można modyfikować za pomocą pliku configuration_file.txt, w którym dane zapisane są w postaci nazwa_parametru=wartość. Znajdują się w nim następujące pola:
* *number_of_layers* – liczba ukrytych warstw; liczba naturalna
* *layer_size* – rozmiar warstw (liczba neuronów w warstwie); liczba naturalna lub lista liczb naturalnych oddzielonych przecinkami (np. 3,5,2)
* *activation_function* – nazwa funkcji aktywacji
* *number_of_iterations* – liczba iteracji/epok; liczba naturalna
* *learning_rate* – wartość współczynnika nauki; liczba rzeczywista dodatnia
* *batch_size* – rozmiar batcha; liczba naturalna
* *problem* – rodzaj problemu: klasyfikacja (classification) lub regresja (regression)
* *set_name* – nazwa zbioru danych
* *number_of_samples* – liczba próbek w zbiorze; liczba naturalna

Uwagi: 
Zakładamy, że użytkownik podaje 'poprawne' wartości poszczególnych parametrów.
Przez liczby naturalne rozumiemy liczby całkowite dodatnie, tj. zbiór {1, 2, 3, …}.

Liczbę warstw i neuronów ukrytych w każdej warstwie można definiować na dwa sposoby.
Sposób 1: gdy parametr *layer_size* podamy jako pojedynczą liczbę, wówczas każda z *number_of_layers* warstw zawiera *layer_size* neuronów.
Sposób 2: gdy parametr *layer_size* podamy jako listę liczb oddzielonych przecinkami, wówczas i-ta warstwa zawiera *layer_size*[i] neuronów, a *number_of_layers* jest równe długości listy *layer_size*.

Pola *set_name* i *number_of_samples* stanowią części nazwy wczytywanego zbioru danych (nazwy plików są postaci *data.set_name.train.number_of_samples.csv* dla zbiorów listę treningowych oraz *data.set_name.test.number_of_samples.csv* dla zbiorów testowych).

# Wyniki przeprowadzonych eksperymentów:

Wczytanie plików png, zawierających wykresy przedstawiające wyniki działania sieci:

In [25]:
import os,glob

rootdir = '/home/kasia/Pulpit/temp2/MG--Projekt1-770a75379d25dd5aa4ef38d6b7f27d9d6e5eb4b3/Porownania'

classification_files = []
regression_files = []

# Klasyfikacja:
for subdir, dirs, files in os.walk(rootdir+"/Classification"):
    for directory in dirs:
        if directory != None and not os.path.exists(directory):
            os.mkdir(directory)
    for file in sorted(files):
        filename, ext = os.path.splitext(file)
        if ext != '.txt':
            classification_files.append('files/Porownania/Classification/'+file)
        
# Regresja
for subdir, dirs, files in os.walk(rootdir+"/Regression"):
    for directory in dirs:
        if directory != None and not os.path.exists(directory):
            os.mkdir(directory)
    for file in sorted(files):
        filename, _ = os.path.splitext(file)
        if ext != '.txt':
            regression_files.append('files/Porownania/Regression/'+file)

1. Wyniki - Klasyfikacja

In [18]:
from IPython.display import HTML, display

for i in range(int(len(classification_files)/2)):
    print(classification_files[2*i][len('files/Porownania/Classification/'):])
    display(HTML("<table><tr><td><img src='"+classification_files[2*i]+"'></td><td><img src='"+classification_files[2*i+1]+"'></td></tr></table>"))

XOR10000compare.png


XOR1000compare.png


XOR100compare.png


XOR500compare.png


circles10000compare.png


circles1000compare.png


circles100compare.png


circles500compare.png


noisyXOR10000compare.png


noisyXOR1000compare.png


noisyXOR100compare.png


noisyXOR500compare.png


simple10000compare.png


simple1000compare.png


simple100compare.png


simple500compare.png


three_gauss10000compare.png


three_gauss1000compare.png


three_gauss100compare.png


three_gauss500compare.png


2. Wyniki - Regresja

In [26]:
from IPython.display import HTML, display

for i in range(int(len(regression_files)/2)):
    print(regression_files[2*i][len('files/Porownania/Regression/'):])
    display(HTML("<table><tr><td><img src='"+regression_files[2*i]+"'></td><td><img src='"+regression_files[2*i+1]+"'></td></tr></table>"))

activation10000compare.png


activation1000compare.png


activation100compare.png


activation500compare.png


cube10000compare.png


cube1000compare.png


cube100compare.png


cube500compare.png


linear10000compare.png


linear1000compare.png


linear100compare.png


linear500compare.png


multimodal10000compare.png


multimodal1000compare.png


multimodal100compare.png


multimodal500compare.png


square10000compare.png


square1000compare.png


square100compare.png


square500compare.png


# Wnioski

·        Dla prawie wszystkich zbiorów danych dla klasyfikacji udaje się uzyskać bardzo dobre wyniki, na poziomie powyżej 95% accuracy(jest to frakcja dobrze przypasowanych klas).

·        Jedyną trudnością dla naszej sieci jest zbiór three_gauss z 10000 próbkami.

·        Jest to dość osobliwa sytuacja, gdyż w każdym innym przypadku im większy jest zbiór treningowy, tym lepiej sieć się dopasowuje.

Może to być spowodowane tym, że jest to zbiór na który nakładają się różne warstwy punktów, a sieć tego nie rozróżnia.

·        Dla regresji sprawa ma się nieco gorzej. Gdyż zmiana jaka zachodzi w architekturze sieci (zmiana funkcji aktywacji na ostatniej warstwie) znacząco wpływa na dopasowanie sieci.

·        Dla zbiorów activation  oraz linear sieć przewiduje z bardzo dobrym accuracy (W tym wypadku jest to uśredniony moduł błędu), który jest bardzo mały.

·        Dla zbioru multimodal accuracy jest większe, jednakże sieć również nie daje sobie rady, próbuje uśredniać funkcję która ma na wejściu. Widać to bardzo dobrze na wykresie.

·        Dla zbiorów cube  oraz square siec stara się przybliżyć funkcję liniową do funkcji kwadratowej i sześciennej i nie daje sobie rady. Może to być spowodowane tym, że funkcja aktywacji jest funkcją liniową, a próbujemy estymować nieliniowe zależności.

·        Wypróbowując różne funkcje aktywacji i wielkość sieci zaobserwowałyśmy, że:

·        w wypadku klasyfikacji bardzo dobrze się sprawdza niewielka liczba warstw (około 5) oraz duża liczba neuronów (około 10) oraz funkcja aktywacji jaką jest sigmoida.

·        Natomiast w przypadku regresji najlepiej sprawdza się jedna warstwa i dużo neuronów (17) lub kilka warstw(3) i zmieniająca się malejąco liczba neuronów w warstwach (30,15,1)

·        Zarówno dla regresji i klasyfikacji zauważyłyśmy zależność, że im więcej damy epok, tym lepsze dopasowania dostajemy. Jednak szybciej zbiega wykres błędy dla klasyfikacji. Można zauważyć, że już po niewielu epokach (około 100) wykres błędu jest bardzo wygładzony, więc zmiana dopasowania nie jest duża, aczkolwiek ciągle maleje, co jest pocieszające.

·        Przy klasyfikacji bardzo duże znaczenie do poprawy wyników miało wprowadzenie dzielenia zbiorów na mniejsze (mini batche) co skutkowało tym, że sieć miała dużo więcej możliwości do nauczenia się (zamiast jednego zbioru miała np.100), dzięki czemu, żeby osiągnąć tą samą wartość błędu sieci potrzeba było znacznie mniejszej liczby epok, a co za tym idzie, pamięciowo i obliczeniowo działa lepiej.

·        Zauważyłyśmy też, że w wypadku regresji dla zbiorów, w których estymowane wartości są duże, na poprawę wyników wpływa standaryzacja zmiennych oraz zmiana funkcji aktywacji na tangens hiperboliczny, a jeżeli chcemy zostać przy funkcji aktywacji jako sigmoida, musimy się liczyć z tym, że gradient będzie malał bardzo powoli dla dużych wartości ujemnych bądź dodatnich, więc musimy temu jakoś zaradzić, zatem zwiększamy mocno ilość epok, lub zwiększamy wartość współczynnika nauki.