In [1]:
import tensorflow as tf 
from keras import models 
from keras.datasets import mnist
from keras.layers import Dense, Flatten

In [11]:
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()

Pobrieramy dane z biblioteki MNIST
###### Konwersja danych:

In [12]:
train_images = train_images.reshape((60000, 28, 28, 1))  
train_images = train_images.astype('float32') / 255   
test_images = test_images.reshape((10000, 28, 28, 1))
test_images = test_images.astype('float32') / 255

Zmieniamy rozmiar obrazów                                                                                         
Skalujemy je do zakresu [0,1], ustawiamy precyzje 32-bitową
                                                                                                    
Domyślnie tabele przechowujące prawidłowe rozwiązania są zapisane integerem:

In [13]:
print(train_labels[0])

5


Przed stworzeniem sieci należy je przekonwertowć, tak by sieć zrozumiała prawidłową odpowiedź.                                 
W tym celu zmieniamy dane integer na kategoryczne(one-hot encoding):

In [14]:
train_labels = tf.keras.utils.to_categorical(train_labels)
test_labels = tf.keras.utils.to_categorical(test_labels)
print(train_labels[0])

[0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]


### Modele sieci neuronowych
#### Model prostej sieci jednokierunkowej:

In [16]:
model = models.Sequential()
model.add(Flatten())
model.add(Dense(64, activation='relu'))
model.add(Dense(10, activation='softmax'))

- Tworzymy model sekwencyjny - standardowy model sieci wielowarstwowej w bibliotece TensorFlow.                             
- Funkcja Flatten() odpowiada za stworzenie wastwy wejsciowej o wielkości 28x28=784 neuronów.                                  
- Następnie dodajemy jedną warstwę ukrytą o wielkości 64 neuronów. Korzystyma z fukcji aktywacji RELU (x dla x>=0 i 0 dla x<0).
- Warstwa wyjściowa składa się z 10 neuronów reprezentujących możliwe rozwiązania (od 0 do 9). Funkcja aktywacji SOTFMAX

Po stworzeniu architektury sieci musimy ustawić jej parametry:                                                
- Wybieramy optimazer, czyli algorytm odpowiedzialny za uczenie sieci (aktualizacje wag) - w tym przypadku "Adam"
- Wybieramy funkcje błędu, czyli funkcję opisującą jakość naszej sieci w trakcie kolejnych iteracji uczenia. Algorytm             optymalizujący dąży do zmniejszenia jej wielkości poprzez zmianę wag - w tym przypadku wybieramy "Categorical_crossentropy"
- Wybieramy rodzaj metryki, czyli funckji oceniającej kiedy sieć odpowiedziała prawidłowo - tutaj "Accucary"

In [None]:
model.compile(optimizer='adam',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

###### Uczenie sieci
- dobieramy parametr epochs - liczbę powtórzeń uczenia całym zbiorem danych treningowych
- ustawiamy batch_size, czyli liczbę próbek podawanych jednocześnie, po których następuje aktualizacja wag sieci.

In [18]:
model.fit(train_images, train_labels, epochs=5, batch_size=64)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x181f0743f40>

###### Ostatni krok to sprawdzenie dokładności sieci na testowym zbiorze danych:

In [19]:
score = model.evaluate(test_images, test_labels)
print('Test loss:', score[0])
print('Test accuracy:', score[1])

Test loss: 0.09671694040298462
Test accuracy: 0.9707000255584717


#### Model sieci konwolucyjnej:

In [20]:
from keras.layers import Conv2D, MaxPooling2D

In [21]:
model = models.Sequential()
model.add(Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)))
model.add(MaxPooling2D((2, 2)))
model.add(Conv2D(64, (3, 3), activation='relu'))
model.add(MaxPooling2D((2, 2)))
model.add(Conv2D(64, (3, 3), activation='relu'))

Pojedyńczy obraz 28x28 pikseli przeszedł transformację za pomocą:
- trzykrotnego filtrowania oknem 3x3
- dwukrotnego MaxPoolingu o rozmiarze okna 2x2

Ostatecznie przybrał postać 64 różnych macierzy o rozmiarze 3x3 piksele, co w efekcie daje 3x3x64=576 neuronów w warstwie wejściowej.

In [22]:
model.add(Flatten())
model.add(Dense(64, activation='relu'))
model.add(Dense(10, activation='softmax'))
model.compile(optimizer='adam',
              loss='categorical_crossentropy',
              metrics=['accuracy'])
model.fit(train_images, train_labels, epochs=5, batch_size=64)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x1818ca0f730>

In [23]:
score = model.evaluate(test_images, test_labels)
print('Test loss:', score[0])
print('Test accuracy:', score[1])

Test loss: 0.034103937447071075
Test accuracy: 0.9890999794006348


W efekcie otrzymaliśmy przeskok do 99% skuteczności przy identycznej architekturze warstw ukrytych.
#### Model sieci konwolucyjnej z dropoutem

In [27]:
from keras.layers import Dropout

In [28]:
model = models.Sequential() 
input_shape=(28,28,1)
model.add(Conv2D(64, kernel_size=(3, 3), activation='relu', input_shape=input_shape))
model.add(Conv2D(128, (3, 3), activation='relu')) 
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Dropout(0.25))
model.add(Conv2D(128, (3, 3), activation='relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Dropout(0.25))
model.add(Flatten())
model.add(Dense(128, activation='relu',kernel_initializer='he_normal'))
model.add(Dropout(0.5))
model.add(Dense(10, activation='softmax'))
model.compile(optimizer='adam', 
              loss='categorical_crossentropy', 
              metrics=['accuracy']) 
model.fit(train_images, train_labels, epochs=5, batch_size=64)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x18180ff5a80>

In [29]:
score = model.evaluate(test_images, test_labels)
print('Test loss:', score[0])
print('Test accuracy:', score[1])

Test loss: 0.019674547016620636
Test accuracy: 0.9937999844551086
