<a href="https://colab.research.google.com/github/skrzypczykt/MAchineLearningProjects/blob/main/NeuralNetworksTutorials/NeuralNetworksTutorials/keras/MLP/Sieci_glebokie_keras_czyste.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import keras

## Dataset

Zastosujemy dane zespołu badawczego Zalando: *Fashion MNIST*.

In [None]:
mnist = keras.datasets.fashion_mnist
(X_train, y_train), (X_test, y_test) = mnist.load_data()

Zauważcie, że dane są już podzielone na dane testowe i treningowe. Jaki jest kształt danych treningowych i poprawnych etykiet?

In [None]:
X_train = np.array(X_train)

In [None]:
X_train.shape

Wyświetlmy 10 pierwszy poprawnych etykiet.

In [None]:
y_train.shape

In [None]:
y_train[:10]

Zobaczmy jak wygląda jeden przykładowy obraz:

In [None]:
%matplotlib inline

In [None]:
train_idx = 29

plt.imshow(X_train[train_idx], cmap='binary')
plt.axis('off')

I jaka jest jego poprawna kategoria:

In [None]:
y_train[train_idx]

Za tym obrazem kryje faktycznie dwuwymiarowa macierz wartości liczbowych, zobaczmy w pierwsze 10 wierszy i kolumn:

In [None]:
X_train[train_idx, :10, :10]

widzimy, że lewy "bark" kurtki widzimy zarówno w obrazie jaki i wycinku danych liczbowych.

In [None]:
X_train.max()

Przekopiuj poniżej kod do wyświetlania pojedynczego obrazu i jego etykiety, wyświetl kilka obrazów i zastanów się co oznaczają etykiety:

A teraz wyświetlmy kilka obrazów. Najpierw wylosujmy indeksy obrazów. Chcemy wylosować wartości od 0 do długości `X_train` w kształcie macierzy 3 wiersze na 4 kolumny:

In [None]:
img_idx = np.random.randint(0, high=60000, size=(3, 4))

In [None]:
img_idx

## Skalowanie wartości
Sieci, podobnie jak inne algorytmy z zakresu uczenia maszynowego najlepiej uczą się na przeskalowanych danych (np. wystandaryzowanych). W tym wypadku przeskalujemy dane dzieląc wszystkie wartości przez `255`. Robimy tak ponieważ najwyższa wartość dla obrazu to 255 - po podzieleniu przez 255 zakres wartości wynosić będzie `0 - 1`.

In [None]:
X_train_scaled = X_train / 255
X_test_scaled = X_test / 255

Upewnijmy się, że wartości są przeskalowane:

In [None]:
print(X_train_scaled.min(), '-', X_train_scaled.max())
print(X_test_scaled.min(), '-', X_test_scaled.max())

jeżeli wartości mają inny zakres, przeskaluj je z powrotem do 0 - 1.

In [None]:
X_train_scaled[train_idx, :10, :10]

## Tworzymy pierwszą sieć
Stwórzmy teraz prostą sieć, którą nauczymy rozpoznawac ciuchy.

* Skorzystamy z jednej warstwy ukrytej z 64 neuronami
* oraz warstwy wyjściowej z 10 neuronami
  
Dlaczego potrzebujemy 10 neuronów w warstwie wyjściowej?  
  
* Aktywacja neuronów ostatnie warstwy to `'softmax'` - aby przeskalować wszystkie 10 wartości do rozkładu prawdopodobieństwa.  
* Jako pierwszą warstwę będziemy natomiast potrzebować `Flatten` - to warstwa, która rozwija wielowymiarowy obiek (np. zdjęcie) w wektor wartości. Zwykłe sieci neuronowe (w przeciwieństwie do sieci splotowych, które omówimy później) nie interesuje przestrzenna struktura zdjęcia - tzn. nie są przygotowane do przetwarzania np. informacji o sąsiedztwie pikseli. Do takich zwykłych sieci neuronowych podajemy wektor wartości, a nie dwu-wymiarowe zdjęcie. Warstwa `Flatten` zamienia zdjęcia w wektor aby sieć dostała poprawny input. Zamiana dwuwymiarowej macierzy (zdjęcia) w wektor jest podobna do prucia swetra - z dwuwymiarowej tkaniny otrzymujemy jedną nitkę.

In [None]:
from keras.layers import Flatten, Dense
from keras.models import Sequential

In [None]:
model = Sequential([Flatten(input_shape=(28, 28)), 
                    Dense(__, activation=______), 
                    Dense(__, activation=______)])

In [None]:
model.summary()

Tak jak wcześniej - po zdefiniowaniu modelu musimy go skompilować.
Tym razem używamy funkcji kosztu `'sparse_categorical_crossentropy'`:

* `categorical_crossentropy` to bardzo popularna funkcja kosztu w przypadku problemów klasyfikacji - używaliśmy jej już wcześniej. Porównuje ona  prawdopodobieństwa wygenerowane przez sieć dla każdej kategorii z poprawną kategorią.
* `'sparse'` dodajmy do nazwy aby użyć specjalnej wersji funkcji `categorical_crossentropy` ponieważ `y_labels` zawiera w naszym wypadku wartości od `0` do `9`, a nie tzw. one-hot encoding (w one-hot encoding każda kategoria ma swoją kolumnę i gdy dany obraz przynależy do tej kategorii jej kolumna zawiera 1, a reszta kolumn zaiwera zera).

Jako optymalizator wybierzemy `'adam'`, a jako metrykę ustawimy `'accuracy'` (ale argument `metrics` przyjmuje listę nazw metryk!).

In [None]:
model.compile(optimizer='adam', metrics=['accuracy'],
              loss='sparse_categorical_crossentropy')

Wytrenujmy teraz model. Dajmy mu 20 epok podczas treningu.

In [None]:
history = model.fit(______, ______, epochs=__)

Powinniśmy mieć teraz poprawność na danych treningowych równą mniej więcej 90 - 92%. Zobaczmy wykres zmian poprawności wraz z uczeniem:

In [None]:
plt.plot(history.history['accuracy'])

Sprawdźmy też poprawność na danych testowych:

In [None]:
model.evaluate(X_test, y_test)

Poprawność powinna wynosić ok 88% - to całkiem nieźle, ale jest cały czas dużo miejsca na poprawę.

## Eksploracja predykcji i błędów sieci
Najpierw poprosimy nasz model o wygenerowanie predykcji dla wszystkich obrazów testowych:

In [None]:
pred = model.predict(X_test)

Zobaczmy kształt:

In [None]:
pred.shape

Wyświetlmy sobie predykcje dla pierwszego obrazu testowego:

In [None]:
pred[0]

Co reprezentują te wartości? Zastnaów się najpierw, a później narysuj je jako linię:

In [None]:
plt.plot(pred[0])

In [None]:
plt.imshow(X_test[0], cmap='binary')

### dodatkowe informacje - jak utworzyć własnoręcznie z predykcji coś podobnego do `y_test`

In [None]:
pred_cat = np.argmax(pred, axis=1)

In [None]:
pred_iscorr = pred_cat == y_test

In [None]:
error_idx = np.where(pred_iscorr == False)[0]

In [None]:
error_idx

Sprawdź jak wygląda powyższy wykres dla kilku innych obrazów z danych treningowych.

### Ćwiczenie 01
Utwórz i wytrenuj drugą sieć, `model2`, zawierającą `128` ukrytych neuronów. Trenuj przez 20 epok. Sprawdź jak wyższa liczba neuronów w sieci `model2` wpływa na zmianę poprawności na danych treningowych oraz testowych.

### Ćwiczenie 02
Utwórz kolejną sieć `model3`, zawierającą `64` neurony w pierwszej ukrytej warstwie oraz `16` w drugiej ukrytej warstwie.
Wytrenuj sieć i porównaj jej poprawność na danych treningowych i testowych z poprzednimi sieciami.

### Ćwiczenie 03
Znajdź i wyświetl kilka błędów (sytuacji w których predykcja sieci nie zgadza się z poprawną etykietą obrazu testowego).

* najpierw zastanów się jaki jest kształt macierzy predykcji sieci i jak możesz przekształcić tę macierz w wektor przewidywanych przez sieć etykiet. (podpowiedź: przyda Ci się `np.argmax`)
* następnie, po przekształceniu macierzy `pred` w przewidywane etykiety (nazwijmy ją `pred_labels`) porównaj `pred_labels` z poprawnymi etykietami aby dostać wektor typu boolean (prawd i fałszy)
* wreszcie znajdź w tym wektorze adresy (indeksy) elementów fałszywych - to tym samym adresy (indeksy) obrazów źle rozpoznanych przez sieć.
* wykorzystaj kod z wcześniejszej komórki do wyświetlania predykcji sieci obok obrazu aby wyświetlić przykłady, których sieć nie rozpoznała poprawnie

In [None]:
np.argmax([0.3, 0.6, 0.1])

In [None]:
pred_label = np.argmax(_______, axis=1)

In [None]:
label_correct = _______ == _______

In [None]:
errors_idx = np.where(label_correct == _______)[0]

In [None]:
errors_idx