Obrazy z życia wzięte (zbiory danych) nie wyglądają jak FASHION MNIST - w prawdziwym życiu mielibyśmy obrazy o różnych wysokościach i szerokościach, w znacznie większej rozdzielczości. Spójrz na zdjęcia z poniższych katalogów:

In [None]:
train_dir = "data/alien-vs-predator/train/"
validation_dir = "data/alien-vs-predator/validation/"
test_dir = "data/alien-vs-predator/test/"

W przypadku zbioru danych "alien vs predator" musielibyśmy zaimportować wszystkie obrazy do `Python` i przekształcić je w odpowiednie tensory, aby zbudować model w `keras`. Teraz prawdopodobnie widzisz wąskie gardło - `Python` jest wolny, więc gdybyśmy mieli na przykład miliony obrazów, zajęłoby to całe wieki i prawdopodobnie zabrakłoby nam pamięci. Na szczęście w `keras` istnieje sposób na uniknięcie wczytywania całych danych do `Python` - możemy użyć **generatorów danych** i **przepływów**.

Zaczniemy od stworzenia prostego generatora danych dla zbioru treningowego i walidacyjnego, który powie `keras` jak przekształcać obrazy:

In [None]:
import pandas as pd
import tensorflow as tf
import numpy as np
import random
import os
from matplotlib import pyplot as plt
plt.rcParams['figure.figsize'] = [20, 10]

tf.__version__ 

In [None]:
train_datagen = tf.keras.preprocessing.image.ImageDataGenerator(
    rescale = 1 / 255
)
validation_datagen = tf.keras.preprocessing.image.ImageDataGenerator(
    rescale = 1 / 255
)

W kolejnym kroku musimy stworzyć flow obrazu:

In [None]:
train_flow = train_datagen.flow_from_directory(
  directory = train_dir, # Path for train images folder
  color_mode = "rgb", # Images are in color
  target_size = (150, 150), # Scale all images to 150x150
  batch_size = 32, # Batch size
  class_mode = "categorical" # Classification task
)

validation_flow = validation_datagen.flow_from_directory(
  directory = validation_dir,
  color_mode = "rgb",
  target_size = (150, 150),
  batch_size = 32,
  class_mode = "categorical"
)

Jeśli chcemy, możemy sprawdzić przykładowe obrazy z naszego flow:

In [None]:
sample_batch = train_flow.next()

In [None]:
for i in range(0, 32):
    img = sample_batch[0][i, :, : , :]
    plt.matshow(img)
plt.show()

Teraz czas na zbudowanie naszego pierwszego modelu:

In [None]:
# Zbuduj model

alien_predator_model_1.summary()

In [None]:
alien_predator_model_1.compile(
    optimizer = tf.keras.optimizers.RMSprop(),
    loss = "categorical_crossentropy",
    metrics = ("accuracy"))

In [None]:
history = alien_predator_model_1.fit(
        train_flow,
        steps_per_epoch=22, # ceiling(694 / 32)
        epochs=15,
        validation_data=validation_flow,
        validation_steps=6) # ceiling(184 / 32)

In [None]:
plt.plot(history.history['accuracy'])
plt.plot(history.history['val_accuracy'])
plt.title('model Accuracy')
plt.ylabel('Accuracy')
plt.xlabel('epoch')
plt.legend(['train', 'val'], loc='upper left')
plt.show()

W podobny sposób możemy ocenić model na zbiorze testowym:

In [None]:
test_datagen = tf.keras.preprocessing.image.ImageDataGenerator(
    rescale = 1 / 255
)

test_flow = train_datagen.flow_from_directory(
  directory = test_dir, # Path for train images folder
  color_mode = "rgb", # Images are in color
  target_size = (150, 150), # Scale all images to 150x150
  batch_size = 1, # Batch size
  class_mode = "categorical" # Classification task
)

alien_predator_model_1.evaluate(test_flow, steps = 18)

Jak widać, nasz model daleki jest od doskonałości. Nauczmy się nowych sztuczek. Jak zapewne wiesz, jeśli wielkość twojej próbki jest mała, najlepszą rzeczą, jaką możesz zrobić, jest jej zwiększenie. W naszym przypadku moglibyśmy zebrać więcej zdjęć, ale co zrobić, jeśli to niemożliwe? Możemy generować nowe próbki w procesie **augmentacji danych**. Na szczęście dla nas jest to bardzo proste, musimy tylko dodać kilka dodatkowych argumentów do generatora danych treningowych:

In [None]:
train_datagen = tf.keras.preprocessing.image.ImageDataGenerator(
    rescale = 1 / 255,
    rotation_range = 35,
    width_shift_range = 0.3,
    height_shift_range = 0.3,
    zoom_range = 0.2,
    horizontal_flip = True
)
validation_datagen = tf.keras.preprocessing.image.ImageDataGenerator(
    rescale = 1 / 255
)

train_flow = train_datagen.flow_from_directory(
  directory = train_dir, # Path for train images folder
  color_mode = "rgb", # Images are in color
  target_size = (150, 150), # Scale all images to 150x150
  batch_size = 32, # Batch size
  class_mode = "categorical" # Classification task
)

validation_flow = validation_datagen.flow_from_directory(
  directory = validation_dir,
  color_mode = "rgb",
  target_size = (150, 150),
  batch_size = 32,
  class_mode = "categorical"
)

In [None]:
sample_batch = train_flow.next()

for i in range(0, 32):
    img = sample_batch[0][i, :, : , :]
    plt.matshow(img)
plt.show()

Od tego momentu budowanie architektury CNN i dopasowywanie modelu wyglądałoby dokładnie tak samo, ale jest jeszcze jedna bardzo potężna metoda, której możemy użyć do stworzenia lepszego modelu. Użyjemy **fine-tuningu**, będącego jedną z wielu metod z pola **transfer learning**. W krótkim podsumowaniu, jeśli masz wstępnie wytrenowany model dopasowany do dużego zbioru danych, który jest w pewien sposób podobny do innych danych, możesz dostroić ten model do pracy na innych danych.

Aby dokonać fine-tuningu w `keras`, musimy zacząć od wcześniej wytrenowanego modelu. W `keras` mamy dostęp do kilku różnych architektur wstępnie przeszkolonych w zbiorze danych **ImageNet** zawierającym miliony obrazów z ponad 1000 klas.

In [None]:
conv_base = tf.keras.applications.vgg16.VGG16(
  weights = "imagenet", # Weights trained on 'imagenet'
  include_top = False, # Without dense layers on top - we will add them later
  input_shape = (150, 150, 3) # Same shape as in our generators
)

conv_base.summary()

Jak pamiętacie, filtry CNN w pierwszych warstwach przedstawiają podstawowe zmienne, takie jak linie, krzywe itp. Te zmienne będą przydatne w naszym tuningowanym modelu, więc CNN nie musi uczyć się tego od nowa. Będziemy interesować się tylko zmiennymi w kilku ostatnich warstwach, które reprezentują specyficzne cechy dla naszego zadania. Na początku musimy zamrozić wagi CNN:

In [None]:
conv_base.trainable = False
conv_base.summary()

W następnym kroku musimy dodać warstwę wyjściową (i dodatkowe warstwy, jeśli chcemy) na wierzchu bazy konwolucyjnej i skompilować cały model:

In [None]:
inputs = tf.keras.Input(shape=(150, 150, 3))
outputs = conv_base(inputs, training=False)
outputs = tf.keras.layers.Flatten()(outputs)
outputs = tf.keras.layers.Dense(units = 256, activation = "relu")(outputs)
outputs = tf.keras.layers.Dense(units = 2, activation = "softmax")(outputs)
alien_predator_model_2 = tf.keras.Model(inputs, outputs)

alien_predator_model_2.compile(
    optimizer = tf.keras.optimizers.RMSprop(lr = 1e-5),
    loss = "categorical_crossentropy",
    metrics = ("accuracy"))

alien_predator_model_2.summary()

In [None]:
history = alien_predator_model_2.fit(
        train_flow,
        steps_per_epoch=22, # ceiling(694 / 32)
        epochs=15,
        validation_data=validation_flow,
        validation_steps=6) # ceiling(184 / 32)

In [None]:
plt.plot(history.history['accuracy'])
plt.plot(history.history['val_accuracy'])
plt.title('model Accuracy')
plt.ylabel('Accuracy')
plt.xlabel('epoch')
plt.legend(['train', 'val'], loc='upper left')
plt.show()

In [None]:
test_datagen = tf.keras.preprocessing.image.ImageDataGenerator(
    rescale = 1 / 255
)

test_flow = train_datagen.flow_from_directory(
  directory = test_dir, # Path for train images folder
  color_mode = "rgb", # Images are in color
  target_size = (150, 150), # Scale all images to 150x150
  batch_size = 1, # Batch size
  class_mode = "categorical" # Classification task
)

alien_predator_model_2.evaluate(test_flow, steps = 18)

# Praca domowa

Teraz twoja kolej! Utwórz CNN za pomocą generatora danych i przepływów, aby sklasyfikować obrazy gestów języka migowego. Tym razem nie stosuj fine-tuningu.

In [None]:
train_path = "data/sign-language-mnist/train/"
test_path = "data/sign-language-mnist/test/"