Lab_11
Rafał Gąsior 407326

### Klasyfikacja z wykorzystaniem sieci neuronowych
W ramach tego ćwiczenia zadaniem będzie przeprowadzenie eksperymentu mającego na celu wytrenowanie modelu do klasyfikacji odręcznie pisanych cyfr z bazy MNIST. Jako klasyfikator należy zastosować każdy z trzech typów: pojedynczy neuron, sieć neuronowa MLP oraz sieć konwolucyjna.

In [1]:
import numpy as np
from keras.datasets import mnist
import keras
from keras import layers
from sklearn.metrics import classification_report, confusion_matrix

Using TensorFlow backend.


#### Wczytywanie i konwersja danych

In [2]:
training_set, test_set = mnist.load_data()

Dla wygody, warto podzielić zbiór danych na przykłady oraz etykiety:

In [3]:
X_train, y_train = training_set
X_test, y_test = test_set

Po wypisaniu wymiaru wczytanych danych, możemy się spodziewać wartości:

In [4]:
print(X_train.shape)

(60000, 28, 28)


Co oznacza, że tensor ma 3 wymiary i każdy z nich jest reprezentowany przez:
- ilość przykładów,
- wysokość obrazu,
- szerokość obrazu.

Tensorflow przyjmuje dane w postaci obrazów z jeszcze jednym dodatkowym wymiarem na końcu - liczbą kanałów (w przypadku obrazów w skali szarości jest to 1 kanał, dla obrazów RGB - 3 kanału). Należy dodać wymiar kanału do zbioru uczącego i testowego: 

In [5]:
X_train = np.expand_dims(X_train, -1)
X_test = np.expand_dims(X_test, -1)

In [6]:
print(X_train.shape)

(60000, 28, 28, 1)


W ostatnim kroku, wartości pikseli warto przeskalować do zakresu 0.0-1.0. Obraz jest w skali szarości, gdzie wartość pikseli jest reprezentowana na ośmiu bitach, dlatego też wystarczy podzielić każdy z pikseli przez maksymalną możliwą wartość, tj 255: 

In [7]:
X_train = X_train.astype(np.float) / 255.0  
X_test = X_test.astype(np.float) / 255.0

#### Przygotowanie eksperymentu
Kilka wartości definiujących warunki eksperymentu: 

In [8]:
num_classes = 10
input_shape = (28, 28, 1)
batch_size = 128
epochs = 30

gdzie każda z nich oznacza:
num_classes - ilość klas do klasyfikacji (w tym przypadku 10 gdyż klasyfikujemy cyfry 0-9),
input_shape - rozmiar wejścia na sieć (obraz w skali szarości z jednym kanałem),
batch_size - rozmiar paczki będącej jednorazowym wejściem na sieć (z reguły sieci nie trenuje się na wszystkich danych na raz, m. in. z powodu ograniczeń pamięci dla obszernych danych),
epochs - ilość epok uczenia. Jako jedną epokę interpretujemy “pokazanie” wszystkich przykładów modelowi.

Następnie należy przygotować model: 

In [15]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

In [16]:
model = tf.keras.Sequential(
        [
            keras.Input(shape=input_shape),
            keras.layers.Flatten(),
            layers.Dense(num_classes, activation="softmax")
        ]
    )

In [17]:
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
flatten (Flatten)            (None, 784)               0         
_________________________________________________________________
dense (Dense)                (None, 10)                7850      
Total params: 7,850
Trainable params: 7,850
Non-trainable params: 0
_________________________________________________________________


Kompilowanie:

In [18]:
model.compile(loss="sparse_categorical_crossentropy", optimizer="adam", metrics=["accuracy"])

Powyższy kod utworzy model sekwencyjny (bez rozgałęzień) składający się z warstwy wejściowej, warstwy rozplatającej obraz z macierzy HxWxD na wektor jednowymiarowy o długości H*W*D, oraz warstwy gęstej reprezentowanej przez jeden neuron dla każdej z klas. 

### Uczenie modelu

In [19]:
model.fit(X_train, y_train, batch_size=batch_size, epochs=epochs, validation_split=0.2)

Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30
Epoch 12/30
Epoch 13/30
Epoch 14/30
Epoch 15/30
Epoch 16/30
Epoch 17/30
Epoch 18/30
Epoch 19/30
Epoch 20/30
Epoch 21/30
Epoch 22/30
Epoch 23/30
Epoch 24/30
Epoch 25/30
Epoch 26/30
Epoch 27/30
Epoch 28/30
Epoch 29/30
Epoch 30/30


<tensorflow.python.keras.callbacks.History at 0x1a79f335580>

Spodziewamy się spadku wartości funkcji kosztu (loss) oraz wzrostu metryki accuracy z epoki na epokę na zbiorze uczącym i walidacyjnym. Ilość epok staramy się tak dobrać aby otrzymać jak najniższe wartości kosztu (loss oraz val_loss) na obu zbiorach. 

### Ocena modelu

Do oceny modelu klasyfikacji głównie stosuje się metryki czułości (sensitivity, recall) oraz pozytywnego przewidywania (positive predictivity, precision) oraz ich średnią harmoniczną (F1-score). Aby policzyć metryki można użyć wbudowanych w bibliotekę sciki t-learn funkcji: 

In [20]:
from sklearn.metrics import classification_report, confusion_matrix

Przed ich użyciem należy wygenerować odpowiedzi modelu na zbiorze testowym: 

In [21]:
y_probab = model.predict(X_test)
y_pred = np.argmax(y_probab, axis=1)

In [22]:
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.97      0.97      0.97       980
           1       0.97      0.98      0.97      1135
           2       0.93      0.89      0.91      1032
           3       0.91      0.91      0.91      1010
           4       0.94      0.93      0.93       982
           5       0.92      0.87      0.89       892
           6       0.94      0.96      0.95       958
           7       0.92      0.93      0.92      1028
           8       0.86      0.91      0.88       974
           9       0.92      0.90      0.91      1009

    accuracy                           0.93     10000
   macro avg       0.93      0.93      0.93     10000
weighted avg       0.93      0.93      0.93     10000

[[ 947    0    2    2    1    6   14    4    4    0]
 [   0 1113    3    3    0    1    3    2   10    0]
 [   3   11  922   15    8    4   12   10   44    3]
 [   2    0   18  920    0   23    2   12   27    6]
 [   1    2    7    1  914   

### Uczenie modeli nieliniowych
Należy powtórzyć eksperyment dla modelu MLP oraz sieci konwolucyjnej. Sieć MLP powinna składać się z dwóch ukrytych warstw Dense, natomiast sieć konwolucyjna naprzemiennie z warstw konwolucyjnych oraz maxpooling.

### Model MLP

In [27]:
model_MLP = keras.Sequential(
        [
            keras.Input(shape=input_shape),
            keras.layers.Flatten(),
            layers.Dense(64, activation="tanh"),
            layers.Dense(128, activation="tanh"),
            layers.Dense(num_classes, activation="softmax")
        ]
    )

In [28]:
model_MLP.summary()

Model: "sequential_2"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
flatten_2 (Flatten)          (None, 784)               0         
_________________________________________________________________
dense_4 (Dense)              (None, 64)                50240     
_________________________________________________________________
dense_5 (Dense)              (None, 128)               8320      
_________________________________________________________________
dense_6 (Dense)              (None, 10)                1290      
Total params: 59,850
Trainable params: 59,850
Non-trainable params: 0
_________________________________________________________________


In [29]:
model_MLP.compile(loss="sparse_categorical_crossentropy", optimizer="adam", metrics=["accuracy"])

Uczenie modelu:

In [30]:
model_MLP.fit(X_train, y_train, batch_size=batch_size, epochs=epochs, validation_split=0.2)

Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30
Epoch 12/30
Epoch 13/30
Epoch 14/30
Epoch 15/30
Epoch 16/30
Epoch 17/30
Epoch 18/30
Epoch 19/30
Epoch 20/30
Epoch 21/30
Epoch 22/30
Epoch 23/30
Epoch 24/30
Epoch 25/30
Epoch 26/30
Epoch 27/30
Epoch 28/30
Epoch 29/30
Epoch 30/30


<tensorflow.python.keras.callbacks.History at 0x1a7b09cdac0>

In [31]:
y_probab = model_MLP.predict(X_test)
y_pred = np.argmax(y_probab, axis=1)

In [32]:
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.99      0.99      0.99       980
           1       0.99      0.99      0.99      1135
           2       0.96      0.98      0.97      1032
           3       0.96      0.98      0.97      1010
           4       0.98      0.97      0.98       982
           5       0.98      0.96      0.97       892
           6       0.98      0.98      0.98       958
           7       0.97      0.97      0.97      1028
           8       0.97      0.97      0.97       974
           9       0.97      0.97      0.97      1009

    accuracy                           0.98     10000
   macro avg       0.98      0.97      0.97     10000
weighted avg       0.98      0.98      0.98     10000

[[ 971    1    2    0    0    1    3    1    0    1]
 [   0 1123    4    0    0    2    2    1    3    0]
 [   5    0 1008    6    0    0    2    3    6    2]
 [   0    0    6  987    1    3    0    4    5    4]
 [   0    1    3    3  953   

### Model sieci konwolucyjnej

In [34]:
model_konw = keras.Sequential(
        [
            keras.Input(shape=input_shape),
            layers.Conv2D(32, kernel_size=(3, 3), activation="relu"),
            layers.MaxPooling2D(pool_size=(2, 2)),
            layers.Conv2D(64, kernel_size=(3, 3), activation="relu"),
            layers.MaxPooling2D(pool_size=(2, 2)),
            layers.Flatten(),
            layers.Dropout(0.5),
            layers.Dense(num_classes, activation="softmax"),
        ]
    )

In [35]:
model_konw.summary()

Model: "sequential_4"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d_2 (Conv2D)            (None, 26, 26, 32)        320       
_________________________________________________________________
max_pooling2d_2 (MaxPooling2 (None, 13, 13, 32)        0         
_________________________________________________________________
conv2d_3 (Conv2D)            (None, 11, 11, 64)        18496     
_________________________________________________________________
max_pooling2d_3 (MaxPooling2 (None, 5, 5, 64)          0         
_________________________________________________________________
flatten_4 (Flatten)          (None, 1600)              0         
_________________________________________________________________
dropout_1 (Dropout)          (None, 1600)              0         
_________________________________________________________________
dense_8 (Dense)              (None, 10)               

In [36]:
model_konw.compile(loss="sparse_categorical_crossentropy", optimizer="adam", metrics=["accuracy"])

Uczenie modelu

In [37]:
model_konw.fit(X_train, y_train, batch_size=batch_size, epochs=epochs, validation_split=0.2)

Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30
Epoch 12/30
Epoch 13/30
Epoch 14/30
Epoch 15/30
Epoch 16/30
Epoch 17/30
Epoch 18/30
Epoch 19/30
Epoch 20/30
Epoch 21/30
Epoch 22/30
Epoch 23/30
Epoch 24/30
Epoch 25/30
Epoch 26/30
Epoch 27/30
Epoch 28/30
Epoch 29/30
Epoch 30/30


<tensorflow.python.keras.callbacks.History at 0x1a7b0e15a00>

In [38]:
y_probab = model_konw.predict(X_test)
y_pred = np.argmax(y_probab, axis=1)

In [39]:
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.99      1.00      1.00       980
           1       0.99      1.00      0.99      1135
           2       0.99      0.99      0.99      1032
           3       0.99      0.99      0.99      1010
           4       0.99      0.99      0.99       982
           5       0.99      0.99      0.99       892
           6       1.00      0.99      0.99       958
           7       0.98      0.99      0.99      1028
           8       0.99      0.99      0.99       974
           9       0.99      0.98      0.99      1009

    accuracy                           0.99     10000
   macro avg       0.99      0.99      0.99     10000
weighted avg       0.99      0.99      0.99     10000

[[ 978    0    0    0    0    0    0    1    1    0]
 [   0 1132    2    1    0    0    0    0    0    0]
 [   1    2 1023    0    1    0    0    4    1    0]
 [   0    0    2 1002    0    4    0    1    1    0]
 [   0    2    1    0  973   