## Packages

Let's first import all the packages that you will need during this assignment. 
- [os](https://docs.python.org/3/library/os.html) is the fundamental package for iteracting with any operating system in Python.
- [cv2](https://pypi.org/project/opencv-python/) is a library for images manipulation.
- [numpy](www.numpy.org) is the fundamental package for scientific computing with Python.
- [pandas](https://pandas.pydata.org) the most fantastic module for dealing with data and tables
- sklearn.utils.shuffle it's the easiest way to shuffle a pandas data frame

In [1]:
#import modules
import os
import cv2
import numpy as np
import pandas as pd
from sklearn.utils import shuffle

In [2]:
def see_image(img_object):
    """
    This method is used to show an image object
    The window name will be named after the image size. 
        So, if we have an 64x64 colorful image, the window name will be 64x64x3
    """
    window_name = 'x'.join(str(tmp) for tmp in img_object.shape)
    cv2.namedWindow(window_name, cv2.WINDOW_NORMAL)
    cv2.imshow(window_name, img_object)
    cv2.waitKey(0)
    cv2.destroyAllWindows()

In [3]:
def convert_data(path):
    """
    This function is given a path where the images are, then it does:
    -> It minimizes the image size into 64x64
    -> change image channel from BGR into RGB
    -> convert all the image files into numpy array, then save all of them as a list
    -> return that list
    """
    print(path)
    storage = []
    # loop over train addresses
    for i, filename in enumerate(os.listdir(path)):
        print(i, filename)
        # print how many images are saved every 100 images
        if i % 100 == 0 and i > 1:
            print("Train data: {}".format(i))

        # read an image and resize to (224, 224)
        img = cv2.imread(path+'/'+filename)
        img = cv2.resize(img, (64, 64), interpolation=cv2.INTER_CUBIC)#
        # cv2 load images as BGR, convert it to RGB
        img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)

        # save the image
        storage.append(img)
    return storage

In [4]:
#The actual code
train_hot_dog = convert_data("./data/preprocessing/train/hot_dog")
train_label_hot_dog = [1 for i in range(len(train_hot_dog))]
train_not_hot_dog = convert_data("./data/preprocessing/train/not_hot_dog")
train_label_not_hot_dog = [0 for i in range(len(train_not_hot_dog))]
df = pd.DataFrame({ "image": train_hot_dog+train_not_hot_dog,
                    "label": train_label_hot_dog+train_label_not_hot_dog})
#shuffle the data frame
df = shuffle(df)
df.to_hdf(path_or_buf= './data/processed/train.h5', key="train", mode= 'w')


#testing data
test_hot_dog = convert_data("./data/preprocessing/test/hot_dog")
test_label_hot_dog = [1 for i in range(len(test_hot_dog))]
test_not_hot_dog = convert_data("./data/preprocessing/test/not_hot_dog")
test_label_not_hot_dog = [0 for i in range(len(test_not_hot_dog))]
df = pd.DataFrame({ "image": test_hot_dog+test_not_hot_dog,
                    "label": test_label_hot_dog+test_label_not_hot_dog})
#shuffle the data frame
df = shuffle(df)
df.to_hdf(path_or_buf= './data/processed/test.h5', key="test", mode= 'w')

./data/preprocessing/train/hot_dog
0 1000288.jpg
1 1011661.jpg
2 1013916.jpg
3 1017226.jpg
4 1018245.jpg
5 1023510.jpg
6 1040579.jpg
7 1046526.jpg
8 1051628.jpg
9 1051643.jpg
10 1051711.jpg
11 1053879.jpg
12 1055689.jpg
13 1057517.jpg
14 1057882.jpg
15 1059903.jpg
16 1068951.jpg
17 1086377.jpg
18 1086675.jpg
19 1098632.jpg
20 1098635.jpg
21 1104394.jpg
22 1107015.jpg
23 1111638.jpg
24 1115020.jpg
25 1119906.jpg
26 1123406.jpg
27 1125436.jpg
28 1133460.jpg
29 1134237.jpg
30 1143044.jpg
31 1143110.jpg
32 1143398.jpg
33 1143830.jpg
34 1144643.jpg
35 1153737.jpg
36 115434.jpg
37 1154965.jpg
38 1161343.jpg
39 1161755.jpg
40 116486.jpg
41 1166403.jpg
42 1166929.jpg
43 1174926.jpg
44 117749.jpg
45 1179964.jpg
46 1182402.jpg
47 1182518.jpg
48 1183508.jpg
49 1183725.jpg
50 1186993.jpg
51 118875.jpg
52 1190833.jpg
53 1192908.jpg
54 1195487.jpg
55 1195698.jpg
56 1195977.jpg
57 120471.jpg
58 1205205.jpg
59 1207811.jpg
60 1210977.jpg
61 1211682.jpg
62 122007.jpg
63 1224013.jpg
64 122606.jpg
65 1226

203 270122.jpg
204 27330.jpg
205 27410.jpg
206 27415.jpg
207 274368.jpg
208 274711.jpg
209 275673.jpg
210 27963.jpg
211 28387.jpg
212 284999.jpg
213 28783.jpg
214 289256.jpg
215 28996.jpg
216 290382.jpg
217 291636.jpg
218 29204.jpg
219 292607.jpg
220 293052.jpg
221 29417.jpg
222 296039.jpg
223 296611.jpg
224 29869.jpg
225 302329.jpg
226 303460.jpg
227 303809.jpg
228 30395.jpg
229 30731.jpg
230 30892.jpg
231 309651.jpg
232 311779.jpg
233 31881.jpg
234 319830.jpg
235 4889.jpg
236 5762.jpg
237 5764.jpg
238 5813.jpg
239 6021.jpg
240 6127.jpg
241 6229.jpg
242 6261.jpg
243 6709.jpg
244 6926.jpg
245 7056.jpg
246 7394.jpg
247 748088.jpg
248 749374.jpg
249 759160.jpg
250 765053.jpg
251 766638.jpg
252 768793.jpg
253 769437.jpg
254 776077.jpg
255 779193.jpg
256 781137.jpg
257 784510.jpg
258 7847.jpg
259 790763.jpg
260 791662.jpg
261 797686.jpg
262 801827.jpg
263 803895.jpg
264 807258.jpg
265 8119.jpg
266 815394.jpg
267 816725.jpg
268 816756.jpg
269 817533.jpg
270 822411.jpg
271 823536.jpg
272 824

your performance may suffer as PyTables will pickle object types that it cannot
map directly to c-types [inferred_type->mixed,key->block1_values] [items->['image']]

  return pytables.to_hdf(path_or_buf, key, self, **kwargs)


./data/preprocessing/test/hot_dog
0 419255.jpg
1 502977.jpg
2 550512.jpg
3 595968.jpg
4 651101.jpg
5 718939.jpg
6 380963.jpg
7 382188.jpg
8 388733.jpg
9 388827.jpg
10 391898.jpg
11 393123.jpg
12 397071.jpg
13 397466.jpg
14 397696.jpg
15 398941.jpg
16 400228.jpg
17 403561.jpg
18 408504.jpg
19 409435.jpg
20 410713.jpg
21 413426.jpg
22 413825.jpg
23 415744.jpg
24 417155.jpg
25 422730.jpg
26 423659.jpg
27 424960.jpg
28 439441.jpg
29 445366.jpg
30 453463.jpg
31 456751.jpg
32 458164.jpg
33 461937.jpg
34 462004.jpg
35 471340.jpg
36 480916.jpg
37 485835.jpg
38 486658.jpg
39 489624.jpg
40 493727.jpg
41 498141.jpg
42 500768.jpg
43 500771.jpg
44 505563.jpg
45 505584.jpg
46 510674.jpg
47 510955.jpg
48 514482.jpg
49 518867.jpg
50 520065.jpg
51 520905.jpg
52 527074.jpg
53 527633.jpg
54 528022.jpg
55 530316.jpg
56 531567.jpg
57 533172.jpg
58 533521.jpg
59 537584.jpg
60 544416.jpg
61 547307.jpg
62 547312.jpg
63 551784.jpg
64 554307.jpg
65 558890.jpg
66 561681.jpg
67 564558.jpg
68 566784.jpg
69 566965.

## Note:

Don't worry about this warning
> /home/anwar/anaconda3/lib/python3.6/site-packages/pandas/core/generic.py:1993: PerformanceWarning: 
your performance may suffer as PyTables will pickle object types that it cannot
map directly to c-types [inferred_type->mixed,key->block1_values] [items->['image']]
>
>  return pytables.to_hdf(path_or_buf, key, self, **kwargs)

This warning is just a performance warning