In [1]:
from keras.preprocessing.image import ImageDataGenerator
from keras.models import Sequential, Model
from keras.layers import Dense, Activation, Flatten, Dropout
from keras.applications.inception_v3 import InceptionV3
#from keras.callbacks import ModelCheckpoint
from keras.optimizers import SGD
from keras.callbacks import ReduceLROnPlateau
from keras.callbacks import EarlyStopping

import os
import shutil
import glob
#from keras import backend as K
#K.set_image_dim_ordering('th')

import numpy as np
import pandas as pd
#import h5py

import matplotlib.pyplot as plt

## 1. Препроцессинг изображений

### 1.1 Очистка папок

In [2]:
def clear_folder(mydir):
    filelist = [f for f in os.listdir(mydir)]
    for f in filelist:
        os.remove(os.path.join(mydir, f))

In [3]:
for i in os.listdir('data/train_a'):
    clear_folder(f'data/train_a/{i}')
    
for i in os.listdir('data/test_a'):
    clear_folder(f'data/test_a/{i}')

### 1.2 Выбор изображений

In [4]:
data_names = list(glob.glob('data/Aldanella_attleborensis/*Plate_?*_?*a.tif'))
f = open('data/Aldanella_attleborensis/different_angle.txt', 'rt')
diff_angle = f.readlines()
for i, pic in enumerate(diff_angle):
    diff_angle[i] = f'data/Aldanella_attleborensis\\{pic.rstrip()}.tif'
for pic in diff_angle:
    if pic in data_names:
        data_names.remove(pic)
f.close()
#print(data_names)
for i, n in enumerate(range(len(data_names))):
    if i <= int(len(data_names)*0.75):
        shutil.copy(data_names[n], 'data/train_a/class_att')
    else:
        shutil.copy(data_names[n], 'data/test_a/class_att')

In [5]:
data_names = list(glob.glob('data/Aldanella_sibirica_sp_nov/*Plate_?*_?*a.tif'))
f = open('data/Aldanella_sibirica_sp_nov/different_angle.txt', 'rt')
diff_angle = f.readlines()
for i, pic in enumerate(diff_angle):
    diff_angle[i] = f'data/Aldanella_sibirica_sp_nov\\{pic.rstrip()}.tif'
for pic in diff_angle:
    if pic in data_names:
        data_names.remove(pic)
f.close()
#print(data_names) 
for i, n in enumerate(range(len(data_names))):
    if i <= int(len(data_names)*0.75):
        shutil.copy(data_names[n], 'data/train_a/class_sib')
    else:
        shutil.copy(data_names[n], 'data/test_a/class_sib')

### 1.3 Создание тензеров из изображений

Не будем пока делать аугментацию (повороты, добавления шума) изображений. Сделаем это при тренировки полной модели

In [6]:
datagen = ImageDataGenerator(rescale=1./255) # масштабируем именно значения каждого пикселя

In [7]:
#Пропускаем через свёртучнуя чать сети изображения (как "train", так и "test"), чтобы выделить массивы наиболее важных признаков

train_generator = datagen.flow_from_directory('data/train_a/', #Важно разложить по папкам объекты классов
                                        target_size=(150, 150), #Размер изображения (высота и ширина в пикселях)
                                        batch_size=10, #количество изображений, пропускаемых через сеть на каждой итерации,
                                        color_mode='rgb',
                                        shuffle=False) #не перемешиваем, т.к. эти данные будем прогонять через уже обученную
                                                       #сеть. Далее будет удобно работать с индексами классов при загрузке
                                                       #массивов numpy для обучения полносвязанных слоёв
                                                       # keep data in same order as labels

        
#Нужно настроить: color_mode=не "rgb" (3 канала), а "grayscale" (1 канал)
#Трансофрмацию валидационных данных не нужно делать
test_generator = datagen.flow_from_directory('data/test_a/',
                                              target_size=(150, 150), #разобраться с количеством тестовых
                                                                      #нужно, чтобы их было 25%, а не 50%
                                              batch_size=10, #количество изображений, пропускаемых через сеть на каждой итерации,
                                              color_mode='rgb',
                                              shuffle=False)

Found 71 images belonging to 2 classes.
Found 22 images belonging to 2 classes.


## 2. Создание модели

In [8]:
inc_model = InceptionV3(include_top=False, weights='imagenet', pooling='avg', input_shape=((150, 150, 3)))

In [9]:
features_train = inc_model.predict(train_generator) #2000 значит, что мы предскажем 
                                                    #только первые 2000 элементов из папки
np.save(open('data/binary/train_a_binary/bn_features_exp1_train_a.npy', 'wb'), features_train) #'wb' - открыть/создать
                                                                               #файл для двоичной записи

features_test = inc_model.predict(test_generator) #Настроить количество предсказаний
np.save(open('data/binary/test_a_binary/bn_features_exp1_test_a.npy', 'wb'), features_test)



In [10]:
train_data = np.load(open('data/binary/train_a_binary/bn_features_exp1_train_a.npy', 'rb'))
train_labels = np.array([0] * 19 + [1] * 52) 

test_data = np.load(open('data/binary/test_a_binary/bn_features_exp1_test_a.npy', 'rb'))
test_labels = np.array([0] * 6 + [1] * 16)

In [11]:
fc_model = Sequential()
fc_model.add(Flatten(input_shape=train_data.shape[1:])) #Явно не создаём слой ввода (input)
                                                        #'Flatten' cжимает тензор на входе до вектора заданной формы
fc_model.add(Dense(128, activation='relu', name='dense_one')) #можно попробовать функцию активации 'selu'
fc_model.add(Dropout(0.5, name='dropout_one')) #выбрасываем сигналы от половины нейронов
fc_model.add(Dense(128, activation='relu', name='dense_two'))
fc_model.add(Dropout(0.5, name='dropout_two'))
fc_model.add(Dense(128, activation='relu', name='dense_three'))
fc_model.add(Dropout(0.5, name='dropout_three'))
fc_model.add(Dense(1, activation='sigmoid', name='output')) #использовать 'softmax' для многоклассовой классификации
#количество нейронов в выходном слое равно количеству классов (записываем максимальный номер класса)

fc_model.compile(optimizer='adam', #поиск минимума (может быть 'adam', 'sgd', 'rmsprop')
              loss='binary_crossentropy', # 'categorical_crossentropy'
              metrics=['accuracy'])

In [12]:
fc_model.fit(train_data, train_labels,
            epochs=50, batch_size=10,
            validation_data=(test_data, test_labels))

fc_model.save_weights('data/model_weights/exp1_a.hdf5')

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


In [13]:
#fc_model.evaluate(test_data, test_labels, batch_size=1)

In [14]:
result = fc_model.evaluate(test_data, test_labels)
dict(zip(fc_model.metrics_names, result))



{'loss': 0.8217106461524963, 'accuracy': 0.7272727489471436}

In [15]:
x = Flatten()(inc_model.output)
x = Dense(128, activation='relu', name='dense_one')(x)
x = Dropout(0.5, name='dropout_one')(x)
x = Dense(128, activation='relu', name='dense_two')(x)
x = Dropout(0.5, name='dropout_two')(x)
x = Dense(128, activation='relu', name='dense_three')(x)
x = Dropout(0.5, name='dropout_three')(x)
top_model=Dense(1, activation='sigmoid', name='output')(x)
model = Model(inputs=inc_model.input, outputs=top_model)

In [16]:
weights_filename='data/model_weights/exp1_a.hdf5'
model.load_weights(weights_filename, by_name=True)

In [17]:
model.compile(loss='binary_crossentropy',
              optimizer=SGD(learning_rate=1e-4, momentum=0.9),
                #optimizer='adam',
              metrics=['accuracy'])

In [18]:
train_datagen = ImageDataGenerator(rescale=1./255, rotation_range=90)

test_datagen = ImageDataGenerator(rescale=1./255)

train_generator = train_datagen.flow_from_directory('data/train_a/',
                                        target_size=(150, 150),
                                        batch_size=10,
                                        color_mode='rgb',
                                        class_mode='binary',
                                        shuffle=True)

validation_generator = test_datagen.flow_from_directory('data/test_a/',
                                              target_size=(150, 150),
                                              batch_size=10,
                                              color_mode='rgb',
                                              class_mode='binary',
                                              shuffle=True)

'''
pred_generator=test_datagen.flow_from_directory('data/img_val/',
                                                     target_size=(150,150),
                                                     batch_size=100,
                                                     class_mode='binary')
'''

Found 71 images belonging to 2 classes.
Found 22 images belonging to 2 classes.


"\npred_generator=test_datagen.flow_from_directory('data/img_val/',\n                                                     target_size=(150,150),\n                                                     batch_size=100,\n                                                     class_mode='binary')\n"

In [19]:
reduce_lr = ReduceLROnPlateau(monitor='val_loss', factor=0.2, #new_lr = lr * factor
                              patience=5, min_lr=0.0001)
early_stopping = EarlyStopping(monitor='val_loss', patience=10)

In [20]:
model.fit(
        train_generator,
        epochs=150,
        validation_data=validation_generator,
        callbacks=[early_stopping]
        )

Epoch 1/150
Epoch 2/150
Epoch 3/150
Epoch 4/150
Epoch 5/150
Epoch 6/150
Epoch 7/150
Epoch 8/150
Epoch 9/150
Epoch 10/150
Epoch 11/150
Epoch 12/150
Epoch 13/150
Epoch 14/150
Epoch 15/150
Epoch 16/150
Epoch 17/150
Epoch 18/150
Epoch 19/150
Epoch 20/150
Epoch 21/150
Epoch 22/150


<keras.callbacks.History at 0x22c5a96fd90>

In [21]:
#model.evaluate_generator(pred_generator)
result = model.evaluate(validation_generator)
dict(zip(fc_model.metrics_names, result))



{'loss': 0.5479055643081665, 'accuracy': 0.7272727489471436}