In [1]:
import os
import PIL
import h5py
import math
import numpy as np
import matplotlib.pyplot as plt
from keras.applications.vgg16 import preprocess_input, VGG16
from keras.preprocessing.image import ImageDataGenerator
from keras.utils.np_utils import to_categorical
%matplotlib inline

Using TensorFlow backend.


In [2]:
OUT_FILE = 'data/pp_train_data.h5'
METADATA = 'metadata.npy'
DATA_FOLDER = 'data/train'
SHAPE = (300, 500, 3)
BATCH_SIZE = 16

In [3]:
labels = os.listdir(DATA_FOLDER)
labels = [l for l in labels if ".DS_Store" not in l]
labels_path = [os.path.join(DATA_FOLDER, l) for l in labels]
print(labels_path)
n_labels = len(labels)
n_images = np.sum([len(os.listdir(l)) for l in labels_path])

label2idx = {j:to_categorical(i, n_labels)[0] for i,j in enumerate(labels)}
np.save(METADATA, label2idx)

model = VGG16(include_top=False, input_shape=SHAPE)
model.layers.pop()
    
print('model output shape: {}', model.output_shape)

f = h5py.File(OUT_FILE)
output_shape = (n_images, *model.output_shape[1:])
chunk_shape = (BATCH_SIZE, *model.output_shape[1:])
try:
    f.pop('x')
    f.pop('y')
except:
    None

img_data = f.create_dataset('x', shape=output_shape,
                            dtype=np.float32, chunks=chunk_shape)
labels_data = f.create_dataset('y', shape=(n_images, n_labels),
                               dtype=np.float32, chunks=(BATCH_SIZE, n_labels))

['data/train/ALB', 'data/train/BET', 'data/train/DOL', 'data/train/LAG', 'data/train/NoF', 'data/train/OTHER', 'data/train/SHARK', 'data/train/YFT']


model output shape: {} (None, 9, 15, 512)


In [4]:
from collections import deque
from time import time

t0 = time()
ts = deque(maxlen=5)
idxx = 0

for path, label in zip(labels_path, labels):
    files = os.listdir(path)
    n_files = len(files)
    next_idxx = idxx + n_files
    labels_data[idxx:next_idxx] = label2idx[label]
    idx = 0
    for i in range(math.ceil(n_files / BATCH_SIZE)):
        tt0 = time()
        eta = np.mean(ts) * (n_images - idxx - idx) if len(ts) != 0 else 999
        print('%s: %04d/%04d (ETA: %.2fs)...' %
              (label, idx, n_files, eta), end='\r')
        next_idx = min(n_files, idx + BATCH_SIZE)
        batch_n = next_idx - idx
        batch_x = np.ndarray((batch_n, *SHAPE), dtype=np.float32)
        for j in range(batch_n):
            img = PIL.Image.open(os.path.join(path, files[idx + j]))
            img = img.resize(SHAPE[:2][::-1])
            img = np.asarray(img, dtype=np.float32)
            batch_x[j] = img
    
        batch_x = preprocess_input(batch_x)
        img_data[idxx + idx:idxx + idx + batch_n] = model.predict(batch_x)
        idx = next_idx
        ts.append((time() - tt0) / batch_n)
    
    idxx = next_idxx
    print(' '*50, end='\r')
    print('{}: Done', label)
    
print('Done ({})', (time() - t0))

ALB: 0000/1719 (ETA: 999.00s)...

ALB: 0016/1719 (ETA: 11138.62s)...

ALB: 0032/1719 (ETA: 10507.88s)...

ALB: 0048/1719 (ETA: 10233.75s)...

ALB: 0064/1719 (ETA: 10044.46s)...

ALB: 0080/1719 (ETA: 9890.10s)...

ALB: 0096/1719 (ETA: 9568.52s)...

ALB: 0112/1719 (ETA: 9433.15s)...

ALB: 0128/1719 (ETA: 9343.58s)...

ALB: 0144/1719 (ETA: 9262.36s)...

ALB: 0160/1719 (ETA: 9217.84s)...

ALB: 0176/1719 (ETA: 9162.27s)...

ALB: 0192/1719 (ETA: 9116.53s)...

ALB: 0208/1719 (ETA: 9077.27s)...

ALB: 0224/1719 (ETA: 9050.05s)...

ALB: 0240/1719 (ETA: 8983.26s)...

ALB: 0256/1719 (ETA: 8924.36s)...

ALB: 0272/1719 (ETA: 8923.95s)...

ALB: 0288/1719 (ETA: 8864.00s)...

ALB: 0304/1719 (ETA: 8833.47s)...

ALB: 0320/1719 (ETA: 8807.68s)...

ALB: 0336/1719 (ETA: 8784.02s)...

ALB: 0352/1719 (ETA: 8739.96s)...

ALB: 0368/1719 (ETA: 8716.47s)...

ALB: 0384/1719 (ETA: 8818.47s)...

ALB: 0400/1719 (ETA: 8782.79s)...

ALB: 0416/1719 (ETA: 8751.28s)...

ALB: 0432/1719 (ETA: 8717.55s)...

ALB: 0448/1719 (ETA: 8646.42s)...

ALB: 0464/1719 (ETA: 8457.18s)...

ALB: 0480/1719 (ETA: 8391.30s)...

ALB: 0496/1719 (ETA: 8337.20s)...

ALB: 0512/1719 (ETA: 8291.66s)...

ALB: 0528/1719 (ETA: 8274.75s)...

ALB: 0544/1719 (ETA: 8219.78s)...

ALB: 0560/1719 (ETA: 8197.17s)...

ALB: 0576/1719 (ETA: 8152.16s)...

ALB: 0592/1719 (ETA: 8087.39s)...

ALB: 0608/1719 (ETA: 8045.33s)...

ALB: 0624/1719 (ETA: 8024.35s)...

ALB: 0640/1719 (ETA: 7992.33s)...

ALB: 0656/1719 (ETA: 7944.63s)...

ALB: 0672/1719 (ETA: 7915.85s)...

ALB: 0688/1719 (ETA: 7887.02s)...

ALB: 0704/1719 (ETA: 7837.90s)...

ALB: 0720/1719 (ETA: 7787.85s)...

ALB: 0736/1719 (ETA: 7748.23s)...

ALB: 0752/1719 (ETA: 7703.13s)...

ALB: 0768/1719 (ETA: 7664.17s)...

ALB: 0784/1719 (ETA: 7614.43s)...

ALB: 0800/1719 (ETA: 7581.94s)...

ALB: 0816/1719 (ETA: 7554.01s)...

ALB: 0832/1719 (ETA: 7525.45s)...

ALB: 0848/1719 (ETA: 7471.52s)...

ALB: 0864/1719 (ETA: 7481.78s)...

ALB: 0880/1719 (ETA: 7407.88s)...

ALB: 0896/1719 (ETA: 7345.83s)...

ALB: 0912/1719 (ETA: 7295.73s)...

ALB: 0928/1719 (ETA: 7260.35s)...

ALB: 0944/1719 (ETA: 7156.43s)...

ALB: 0960/1719 (ETA: 7142.95s)...

ALB: 0976/1719 (ETA: 7108.95s)...

ALB: 0992/1719 (ETA: 7057.95s)...

ALB: 1008/1719 (ETA: 7014.38s)...

ALB: 1024/1719 (ETA: 6983.67s)...

ALB: 1040/1719 (ETA: 6955.68s)...

ALB: 1056/1719 (ETA: 6989.85s)...

ALB: 1072/1719 (ETA: 7170.06s)...

ALB: 1088/1719 (ETA: 7137.81s)...

ALB: 1104/1719 (ETA: 7097.49s)...

ALB: 1120/1719 (ETA: 7040.66s)...

ALB: 1136/1719 (ETA: 6958.79s)...

ALB: 1152/1719 (ETA: 6703.07s)...

ALB: 1168/1719 (ETA: 6641.43s)...

ALB: 1184/1719 (ETA: 6712.35s)...

ALB: 1200/1719 (ETA: 6796.18s)...

ALB: 1216/1719 (ETA: 6729.94s)...

ALB: 1232/1719 (ETA: 6672.87s)...

ALB: 1248/1719 (ETA: 6630.00s)...

ALB: 1264/1719 (ETA: 6480.99s)...

ALB: 1280/1719 (ETA: 6318.06s)...

ALB: 1296/1719 (ETA: 6263.45s)...

ALB: 1312/1719 (ETA: 6228.99s)...

ALB: 1328/1719 (ETA: 6182.49s)...

ALB: 1344/1719 (ETA: 6145.83s)...

ALB: 1360/1719 (ETA: 6107.75s)...

ALB: 1376/1719 (ETA: 6064.80s)...

ALB: 1392/1719 (ETA: 6026.95s)...

ALB: 1408/1719 (ETA: 5988.96s)...

ALB: 1424/1719 (ETA: 5937.65s)...

ALB: 1440/1719 (ETA: 5895.21s)...

ALB: 1456/1719 (ETA: 5856.51s)...

ALB: 1472/1719 (ETA: 5820.37s)...

ALB: 1488/1719 (ETA: 5783.41s)...

ALB: 1504/1719 (ETA: 5745.91s)...

ALB: 1520/1719 (ETA: 5698.93s)...

ALB: 1536/1719 (ETA: 5794.36s)...

ALB: 1552/1719 (ETA: 5871.88s)...

ALB: 1568/1719 (ETA: 5846.63s)...

ALB: 1584/1719 (ETA: 5798.45s)...

ALB: 1600/1719 (ETA: 5777.05s)...

ALB: 1616/1719 (ETA: 5593.02s)...

ALB: 1632/1719 (ETA: 5440.21s)...

ALB: 1648/1719 (ETA: 5384.74s)...

ALB: 1664/1719 (ETA: 5351.04s)...

ALB: 1680/1719 (ETA: 5301.02s)...

ALB: 1696/1719 (ETA: 5250.27s)...

ALB: 1712/1719 (ETA: 5204.41s)...

                                                  {}: Done ALB
BET: 0000/0200 (ETA: 5219.01s)...

BET: 0016/0200 (ETA: 5223.41s)...

BET: 0032/0200 (ETA: 5345.74s)...

BET: 0048/0200 (ETA: 5329.84s)...

BET: 0064/0200 (ETA: 5392.61s)...

BET: 0080/0200 (ETA: 5318.20s)...

BET: 0096/0200 (ETA: 5311.11s)...

BET: 0112/0200 (ETA: 5117.92s)...

BET: 0128/0200 (ETA: 5301.95s)...

BET: 0144/0200 (ETA: 5214.03s)...

BET: 0160/0200 (ETA: 5179.55s)...

BET: 0176/0200 (ETA: 5253.59s)...

BET: 0192/0200 (ETA: 5248.37s)...

                                                  {}: Done BET
DOL: 0000/0117 (ETA: 4957.82s)...

DOL: 0016/0117 (ETA: 4884.73s)...

DOL: 0032/0117 (ETA: 4867.21s)...

DOL: 0048/0117 (ETA: 4675.54s)...

DOL: 0064/0117 (ETA: 4638.59s)...

DOL: 0080/0117 (ETA: 4751.56s)...

DOL: 0096/0117 (ETA: 4709.59s)...

DOL: 0112/0117 (ETA: 4635.37s)...

                                                  {}: Done DOL
LAG: 0000/0067 (ETA: 4505.22s)...

LAG: 0016/0067 (ETA: 4497.58s)...

LAG: 0032/0067 (ETA: 4386.42s)...

LAG: 0048/0067 (ETA: 4377.01s)...

LAG: 0064/0067 (ETA: 4367.71s)...

                                                  {}: Done LAG
NoF: 0000/0465 (ETA: 4417.66s)...

NoF: 0016/0465 (ETA: 4307.24s)...

NoF: 0032/0465 (ETA: 4246.14s)...

NoF: 0048/0465 (ETA: 4271.52s)...

NoF: 0064/0465 (ETA: 4278.22s)...

NoF: 0080/0465 (ETA: 4284.89s)...

NoF: 0096/0465 (ETA: 4281.92s)...

NoF: 0112/0465 (ETA: 4339.00s)...

NoF: 0128/0465 (ETA: 4231.19s)...

NoF: 0144/0465 (ETA: 4099.73s)...

NoF: 0160/0465 (ETA: 4090.65s)...

NoF: 0176/0465 (ETA: 4096.81s)...

NoF: 0192/0465 (ETA: 4154.32s)...

NoF: 0208/0465 (ETA: 4130.48s)...

NoF: 0224/0465 (ETA: 4149.21s)...

NoF: 0240/0465 (ETA: 4082.07s)...

NoF: 0256/0465 (ETA: 3996.81s)...

NoF: 0272/0465 (ETA: 3762.28s)...

NoF: 0288/0465 (ETA: 3673.45s)...

NoF: 0304/0465 (ETA: 3716.68s)...

NoF: 0320/0465 (ETA: 3719.22s)...

NoF: 0336/0465 (ETA: 3711.57s)...

NoF: 0352/0465 (ETA: 3814.74s)...

NoF: 0368/0465 (ETA: 3926.67s)...

NoF: 0384/0465 (ETA: 3820.70s)...

NoF: 0400/0465 (ETA: 3809.31s)...

NoF: 0416/0465 (ETA: 3739.33s)...

NoF: 0432/0465 (ETA: 3569.53s)...

NoF: 0448/0465 (ETA: 3359.95s)...

NoF: 0464/0465 (ETA: 3258.02s)...

                                                  {}: Done NoF
OTHER: 0000/0299 (ETA: 3114.34s)...

OTHER: 0016/0299 (ETA: 3016.83s)...

OTHER: 0032/0299 (ETA: 2965.44s)...

OTHER: 0048/0299 (ETA: 2942.86s)...

OTHER: 0064/0299 (ETA: 2895.03s)...

OTHER: 0080/0299 (ETA: 2969.66s)...

OTHER: 0096/0299 (ETA: 2936.28s)...

OTHER: 0112/0299 (ETA: 2968.22s)...

OTHER: 0128/0299 (ETA: 2917.71s)...

OTHER: 0144/0299 (ETA: 2929.79s)...

OTHER: 0160/0299 (ETA: 2788.33s)...

OTHER: 0176/0299 (ETA: 2721.90s)...

OTHER: 0192/0299 (ETA: 2587.45s)...

OTHER: 0208/0299 (ETA: 2523.71s)...

OTHER: 0224/0299 (ETA: 2417.39s)...

OTHER: 0240/0299 (ETA: 2381.11s)...

OTHER: 0256/0299 (ETA: 2342.62s)...

OTHER: 0272/0299 (ETA: 2302.67s)...

OTHER: 0288/0299 (ETA: 2261.29s)...

                                                  {}: Done OTHER
SHARK: 0000/0176 (ETA: 2201.95s)...

SHARK: 0016/0176 (ETA: 2165.16s)...

SHARK: 0032/0176 (ETA: 2129.11s)...

SHARK: 0048/0176 (ETA: 2092.23s)...

SHARK: 0064/0176 (ETA: 2059.80s)...

SHARK: 0080/0176 (ETA: 2051.88s)...

SHARK: 0096/0176 (ETA: 2016.60s)...

SHARK: 0112/0176 (ETA: 1977.94s)...

SHARK: 0128/0176 (ETA: 1939.60s)...

SHARK: 0144/0176 (ETA: 1898.86s)...

SHARK: 0160/0176 (ETA: 1858.37s)...

                                                  {}: Done SHARK
YFT: 0000/0734 (ETA: 1821.90s)...

YFT: 0016/0734 (ETA: 1784.12s)...

YFT: 0032/0734 (ETA: 1747.72s)...

YFT: 0048/0734 (ETA: 1713.70s)...

YFT: 0064/0734 (ETA: 1681.91s)...

YFT: 0080/0734 (ETA: 1635.15s)...

YFT: 0096/0734 (ETA: 1593.39s)...

YFT: 0112/0734 (ETA: 1550.87s)...

YFT: 0128/0734 (ETA: 1507.34s)...

YFT: 0144/0734 (ETA: 1466.08s)...

YFT: 0160/0734 (ETA: 1434.12s)...

YFT: 0176/0734 (ETA: 1396.28s)...

YFT: 0192/0734 (ETA: 1359.45s)...

YFT: 0208/0734 (ETA: 1320.41s)...

YFT: 0224/0734 (ETA: 1278.70s)...

YFT: 0240/0734 (ETA: 1237.51s)...

YFT: 0256/0734 (ETA: 1197.42s)...

YFT: 0272/0734 (ETA: 1156.78s)...

YFT: 0288/0734 (ETA: 1115.94s)...

YFT: 0304/0734 (ETA: 1076.78s)...

YFT: 0320/0734 (ETA: 1036.59s)...

YFT: 0336/0734 (ETA: 994.97s)...

YFT: 0352/0734 (ETA: 954.33s)...

YFT: 0368/0734 (ETA: 914.84s)...

YFT: 0384/0734 (ETA: 876.20s)...

YFT: 0400/0734 (ETA: 836.53s)...

YFT: 0416/0734 (ETA: 797.02s)...

YFT: 0432/0734 (ETA: 756.87s)...

YFT: 0448/0734 (ETA: 716.14s)...

YFT: 0464/0734 (ETA: 674.51s)...

YFT: 0480/0734 (ETA: 633.00s)...

YFT: 0496/0734 (ETA: 594.11s)...

YFT: 0512/0734 (ETA: 554.93s)...

YFT: 0528/0734 (ETA: 515.35s)...

YFT: 0544/0734 (ETA: 476.32s)...

YFT: 0560/0734 (ETA: 437.01s)...

YFT: 0576/0734 (ETA: 396.38s)...

YFT: 0592/0734 (ETA: 355.02s)...

YFT: 0608/0734 (ETA: 315.01s)...

YFT: 0624/0734 (ETA: 274.67s)...

YFT: 0640/0734 (ETA: 234.41s)...

YFT: 0656/0734 (ETA: 194.63s)...

YFT: 0672/0734 (ETA: 154.91s)...

YFT: 0688/0734 (ETA: 114.94s)...

YFT: 0704/0734 (ETA: 74.95s)...

YFT: 0720/0734 (ETA: 34.98s)...

                                                  {}: Done YFT
Done ({}) 9758.74925494194


In [5]:
f.close()