In [4]:
from tensorflow.keras.applications import VGG16
from tensorflow.keras.applications import imagenet_utils
from tensorflow.keras.preprocessing.image import img_to_array
from tensorflow.keras.preprocessing.image import load_img
from sklearn.preprocessing import LabelEncoder
from loader_util.io import HDF5DatasetWriter
from imutils import paths
import numpy as np
import progressbar
import random
import os

In [5]:
# mock arguments
args = {
    "dataset": r"C:\GoogleDrive\GitHub\image_datasets\animals\images",
    "output_dir": r"C:\GoogleDrive\GitHub\image_datasets\animals\hdf5\features.hdf5",
    "batch_size": 32,
    "buffer_size": 1000,
}

In [6]:
print(f"[INFO] loading images......")
image_paths = list(paths.list_images(args["dataset"]))
random.shuffle(image_paths)

labels = [pth.split(os.path.sep)[-2] for pth in image_paths]
le = LabelEncoder()
encoded_labels = le.fit_transform(labels)
class_names = le.classes_


[INFO] loading images......


In [7]:
print(f"[INFO] loading the network......")
model = VGG16(weights='imagenet', include_top=False, input_shape=(224, 224, 3))

# init the h5 dataset
dataset = HDF5DatasetWriter(dims=(len(image_paths), 512 * 7 * 7),
                            outpath=args["output_dir"],
                            bufsize=args["buffer_size"])
dataset.store_string_feature_labels(class_names)

[INFO] loading the network......
Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/vgg16/vgg16_weights_tf_dim_ordering_tf_kernels_notop.h5


In [8]:

# initialize the progress bar
widgets = ["Building Dataset: ", progressbar.Percentage(), " ",
           progressbar.Bar(), " ", progressbar.ETA()]
pbar = progressbar.ProgressBar(maxval=len(image_paths),
                               widgets=widgets).start()

for i in range(0, len(image_paths), args["batch_size"]):
    batch_paths = image_paths[i:i + args["batch_size"]]
    batch_labels = encoded_labels[i:i + args["batch_size"]]
    batch_images = []

    # start processing the images in the batch
    for j, image_path in enumerate(batch_paths):
        image = load_img(image_path, target_size=(224, 224))
        image = img_to_array(image)
        image = np.expand_dims(image, axis=0)
        image = imagenet_utils.preprocess_input(image)
        batch_images.append(image)

    # batch processed
    batch_images = np.vstack(batch_images)
    features = model.predict(batch_images, batch_size=args["batch_size"])
    features = features.reshape(features.shape[0], 512 * 7 * 7)
    dataset.add(rows=features, labels=batch_labels)
    pbar.update(i)

dataset.close()
pbar.finish()


Building Dataset: [38;2;255;0;0m  0%[39m |                                       | ETA:  --:--:--



Building Dataset: [38;2;255;0;0m  0%[39m |                                       | ETA:  --:--:--



Building Dataset: [38;2;255;7;0m  1%[39m |                                       | ETA:   0:11:27



Building Dataset: [38;2;255;14;0m  2%[39m |                                       | ETA:   0:08:10



Building Dataset: [38;2;255;21;0m  3%[39m |#                                      | ETA:   0:07:30



Building Dataset: [38;2;255;28;0m  4%[39m |#                                      | ETA:   0:07:14



Building Dataset: [38;2;255;35;0m  5%[39m |##                                     | ETA:   0:07:05



Building Dataset: [38;2;255;42;0m  6%[39m |##                                     | ETA:   0:07:18



Building Dataset: [38;2;255;49;0m  7%[39m |##                                     | ETA:   0:07:38



Building Dataset: [38;2;255;78;0m  8%[39m |###                                    | ETA:   0:08:08



Building Dataset: [38;2;255;81;0m  9%[39m |###                                    | ETA:   0:09:02



Building Dataset: [38;2;255;84;0m 10%[39m |####                                   | ETA:   0:09:35



Building Dataset: [38;2;255;87;0m 11%[39m |####                                   | ETA:   0:09:57



Building Dataset: [38;2;255;90;0m 12%[39m |####                                   | ETA:   0:10:15



Building Dataset: [38;2;255;93;0m 13%[39m |#####                                  | ETA:   0:10:23



Building Dataset: [38;2;255;96;0m 14%[39m |#####                                  | ETA:   0:10:30



Building Dataset: [38;2;255;99;0m 16%[39m |######                                 | ETA:   0:10:43



Building Dataset: [38;2;255;102;0m 17%[39m |######                                 | ETA:   0:10:45



Building Dataset: [38;2;255;105;0m 18%[39m |#######                                | ETA:   0:10:45



Building Dataset: [38;2;255;108;0m 19%[39m |#######                                | ETA:   0:10:43



Building Dataset: [38;2;255;111;0m 20%[39m |#######                                | ETA:   0:10:39



Building Dataset: [38;2;255;114;0m 21%[39m |########                               | ETA:   0:10:36



Building Dataset: [38;2;255;117;0m 22%[39m |########                               | ETA:   0:10:35



Building Dataset: [38;2;255;120;0m 23%[39m |#########                              | ETA:   0:10:30



Building Dataset: [38;2;255;123;0m 24%[39m |#########                              | ETA:   0:10:24



Building Dataset: [38;2;255;126;0m 25%[39m |#########                              | ETA:   0:10:21



Building Dataset: [38;2;255;129;0m 26%[39m |##########                             | ETA:   0:10:13



Building Dataset: [38;2;255;132;0m 27%[39m |##########                             | ETA:   0:10:10



Building Dataset: [38;2;255;135;0m 28%[39m |###########                            | ETA:   0:10:05



Building Dataset: [38;2;255;138;0m 29%[39m |###########                            | ETA:   0:09:59



Building Dataset: [38;2;255;141;0m 30%[39m |############                           | ETA:   0:09:52



Building Dataset: [38;2;255;144;0m 32%[39m |############                           | ETA:   0:09:46



Building Dataset: [38;2;255;147;0m 33%[39m |############                           | ETA:   0:09:41



Building Dataset: [38;2;255;150;0m 34%[39m |#############                          | ETA:   0:09:34



Building Dataset: [38;2;255;153;0m 35%[39m |#############                          | ETA:   0:09:26



Building Dataset: [38;2;255;156;0m 36%[39m |##############                         | ETA:   0:09:19



Building Dataset: [38;2;255;159;0m 37%[39m |##############                         | ETA:   0:09:10



Building Dataset: [38;2;255;162;0m 38%[39m |##############                         | ETA:   0:09:00



Building Dataset: [38;2;255;165;0m 39%[39m |###############                        | ETA:   0:08:50



Building Dataset: [38;2;255;168;0m 40%[39m |###############                        | ETA:   0:08:48



Building Dataset: [38;2;255;171;0m 41%[39m |################                       | ETA:   0:08:47



Building Dataset: [38;2;255;173;0m 42%[39m |################                       | ETA:   0:08:45



Building Dataset: [38;2;255;179;0m 43%[39m |#################                      | ETA:   0:08:41



Building Dataset: [38;2;255;185;0m 44%[39m |#################                      | ETA:   0:08:38



Building Dataset: [38;2;255;191;0m 45%[39m |#################                      | ETA:   0:08:33



Building Dataset: [38;2;255;197;0m 46%[39m |##################                     | ETA:   0:08:30



Building Dataset: [38;2;255;203;0m 48%[39m |##################                     | ETA:   0:08:25



Building Dataset: [38;2;255;209;0m 49%[39m |###################                    | ETA:   0:08:18



Building Dataset: [38;2;255;215;0m 50%[39m |###################                    | ETA:   0:08:10



Building Dataset: [38;2;255;221;0m 51%[39m |###################                    | ETA:   0:08:02



Building Dataset: [38;2;255;227;0m 52%[39m |####################                   | ETA:   0:07:55



Building Dataset: [38;2;255;233;0m 53%[39m |####################                   | ETA:   0:07:47



Building Dataset: [38;2;255;239;0m 54%[39m |#####################                  | ETA:   0:07:38



Building Dataset: [38;2;255;245;0m 55%[39m |#####################                  | ETA:   0:07:28



Building Dataset: [38;2;255;251;0m 56%[39m |######################                 | ETA:   0:07:18



Building Dataset: [38;2;255;257;0m 57%[39m |######################                 | ETA:   0:07:08



Building Dataset: [38;2;250;255;0m 58%[39m |######################                 | ETA:   0:06:58



Building Dataset: [38;2;247;255;0m 59%[39m |#######################                | ETA:   0:06:48



Building Dataset: [38;2;244;255;0m 60%[39m |#######################                | ETA:   0:06:36



Building Dataset: [38;2;241;255;0m 61%[39m |########################               | ETA:   0:06:25



Building Dataset: [38;2;238;255;0m 62%[39m |########################               | ETA:   0:06:15



Building Dataset: [38;2;235;255;0m 64%[39m |########################               | ETA:   0:06:05



Building Dataset: [38;2;232;255;0m 65%[39m |#########################              | ETA:   0:05:54



Building Dataset: [38;2;229;255;0m 66%[39m |#########################              | ETA:   0:05:43



Building Dataset: [38;2;226;255;0m 67%[39m |##########################             | ETA:   0:05:33



Building Dataset: [38;2;223;255;0m 68%[39m |##########################             | ETA:   0:05:22



Building Dataset: [38;2;220;255;0m 69%[39m |###########################            | ETA:   0:05:11



Building Dataset: [38;2;217;255;0m 70%[39m |###########################            | ETA:   0:05:01



Building Dataset: [38;2;214;255;0m 71%[39m |###########################            | ETA:   0:04:52



Building Dataset: [38;2;211;255;0m 72%[39m |############################           | ETA:   0:04:40



Building Dataset: [38;2;208;255;0m 73%[39m |############################           | ETA:   0:04:28



Building Dataset: [38;2;205;255;0m 74%[39m |#############################          | ETA:   0:04:16



Building Dataset: [38;2;202;255;0m 75%[39m |#############################          | ETA:   0:04:05



Building Dataset: [38;2;199;255;0m 76%[39m |#############################          | ETA:   0:03:53



Building Dataset: [38;2;196;255;0m 77%[39m |##############################         | ETA:   0:03:42



Building Dataset: [38;2;193;255;0m 78%[39m |##############################         | ETA:   0:03:31



Building Dataset: [38;2;190;255;0m 80%[39m |###############################        | ETA:   0:03:20



Building Dataset: [38;2;188;255;0m 81%[39m |###############################        | ETA:   0:03:08



Building Dataset: [38;2;185;255;0m 82%[39m |################################       | ETA:   0:02:57



Building Dataset: [38;2;182;255;0m 83%[39m |################################       | ETA:   0:02:46



Building Dataset: [38;2;179;255;0m 84%[39m |################################       | ETA:   0:02:35



Building Dataset: [38;2;176;255;0m 85%[39m |#################################      | ETA:   0:02:24



Building Dataset: [38;2;173;255;0m 86%[39m |#################################      | ETA:   0:02:13



Building Dataset: [38;2;170;255;0m 87%[39m |##################################     | ETA:   0:02:02



Building Dataset: [38;2;167;255;0m 88%[39m |##################################     | ETA:   0:01:52



Building Dataset: [38;2;164;255;0m 89%[39m |##################################     | ETA:   0:01:42



Building Dataset: [38;2;161;255;0m 90%[39m |###################################    | ETA:   0:01:32



Building Dataset: [38;2;101;255;0m 91%[39m |###################################    | ETA:   0:01:21



Building Dataset: [38;2;88;255;0m 92%[39m |####################################   | ETA:   0:01:11



Building Dataset: [38;2;75;255;0m 93%[39m |####################################   | ETA:   0:01:00



Building Dataset: [38;2;62;255;0m 94%[39m |#####################################  | ETA:   0:00:49



Building Dataset: [38;2;49;255;0m 96%[39m |#####################################  | ETA:   0:00:39



Building Dataset: [38;2;35;255;0m 97%[39m |#####################################  | ETA:   0:00:28



Building Dataset: [38;2;22;255;0m 98%[39m |###################################### | ETA:   0:00:18



Building Dataset: [38;2;0;255;0m100%[39m |#######################################| Time:  0:16:15
