# Classes infomation

In [1]:
import pandas as pd
import numpy as np
import os
import h5py
from keras.preprocessing.image import load_img, array_to_img, img_to_array
from tqdm import tqdm

  from ._conv import register_converters as _register_converters
Using TensorFlow backend.


In [2]:
d_list = pd.read_csv('../dataset/driver_imgs_list.csv')

In [3]:
d_list.head()

Unnamed: 0,subject,classname,img
0,p002,c0,img_44733.jpg
1,p002,c0,img_72999.jpg
2,p002,c0,img_25094.jpg
3,p002,c0,img_69092.jpg
4,p002,c0,img_92629.jpg


In [4]:
classes_cnt = d_list['classname'].value_counts()
ordered_idx = sorted(classes_cnt.index)
c_cnt = classes_cnt[ordered_idx]
c_per = round(classes_cnt[ordered_idx] / sum(classes_cnt) * 100, 1)
classes_info = pd.DataFrame({'count': c_cnt, 'percent': c_per}, index=c_cnt.index)
classes_info

Unnamed: 0,count,percent
c0,2489,11.1
c1,2267,10.1
c2,2317,10.3
c3,2346,10.5
c4,2326,10.4
c5,2312,10.3
c6,2325,10.4
c7,2002,8.9
c8,1911,8.5
c9,2129,9.5


# Save image to npy

In [5]:
image_dir = '../dataset/train/'
train_h5py = '../dataset/h5py/train'
c_list = os.listdir(image_dir)

In [6]:
cnt = list()
for c in c_list:
    imgs_dir = os.listdir(os.path.join(image_dir,c))
    cnt.append(len(imgs_dir))
cnt

[2489, 2267, 2317, 2346, 2326, 2312, 2325, 2002, 1911, 2129]

In [7]:
hf = h5py.File(train_h5py,'w')
for i in range(len(c_list)):
    c_dir = os.path.join(image_dir,c_list[i])
    c_imgs = np.zeros((cnt[i],224,224,1))
    imgs_dir = os.listdir(c_dir) 
    for j in tqdm(range(len(imgs_dir))):
        im = load_img(c_dir + '/' + imgs_dir[j], target_size=(224,224), color_mode='grayscale')
        arr = img_to_array(im)
        c_imgs[j] = arr   
    hf.create_dataset('train' + str(i), data=c_imgs, compression='lzf')
hf.close()

100%|███████████████████████████████████████████████████████████| 2489/2489 [00:11<00:00, 220.34it/s]
100%|███████████████████████████████████████████████████████████| 2267/2267 [00:10<00:00, 215.34it/s]
100%|███████████████████████████████████████████████████████████| 2317/2317 [00:11<00:00, 210.33it/s]
100%|███████████████████████████████████████████████████████████| 2346/2346 [00:11<00:00, 210.68it/s]
100%|███████████████████████████████████████████████████████████| 2326/2326 [00:11<00:00, 210.16it/s]
100%|███████████████████████████████████████████████████████████| 2312/2312 [00:10<00:00, 213.33it/s]
100%|███████████████████████████████████████████████████████████| 2325/2325 [00:10<00:00, 220.58it/s]
100%|███████████████████████████████████████████████████████████| 2002/2002 [00:09<00:00, 218.17it/s]
100%|███████████████████████████████████████████████████████████| 1911/1911 [00:08<00:00, 219.91it/s]
100%|███████████████████████████████████████████████████████████| 2129/2129 [00:09

## Test images

In [8]:
test_dir = '../dataset/test/'
test_h5py = '../dataset/h5py/test'

In [9]:
test_list = os.listdir(test_dir)
print(len(test_list))

79726


In [10]:
rate = len(test_list) // 10

In [11]:
test_list[:rate*1]

['img_1.jpg',
 'img_10.jpg',
 'img_100.jpg',
 'img_1000.jpg',
 'img_100000.jpg',
 'img_100001.jpg',
 'img_100002.jpg',
 'img_100003.jpg',
 'img_100004.jpg',
 'img_100005.jpg',
 'img_100007.jpg',
 'img_100008.jpg',
 'img_100009.jpg',
 'img_10001.jpg',
 'img_100010.jpg',
 'img_100011.jpg',
 'img_100012.jpg',
 'img_100013.jpg',
 'img_100014.jpg',
 'img_100016.jpg',
 'img_100017.jpg',
 'img_100018.jpg',
 'img_100019.jpg',
 'img_10002.jpg',
 'img_100020.jpg',
 'img_100022.jpg',
 'img_100023.jpg',
 'img_100024.jpg',
 'img_100025.jpg',
 'img_100028.jpg',
 'img_100030.jpg',
 'img_100031.jpg',
 'img_100032.jpg',
 'img_100033.jpg',
 'img_100034.jpg',
 'img_100035.jpg',
 'img_100037.jpg',
 'img_100038.jpg',
 'img_100039.jpg',
 'img_10004.jpg',
 'img_100040.jpg',
 'img_100042.jpg',
 'img_100043.jpg',
 'img_100044.jpg',
 'img_100047.jpg',
 'img_100049.jpg',
 'img_10005.jpg',
 'img_100051.jpg',
 'img_100052.jpg',
 'img_100053.jpg',
 'img_100054.jpg',
 'img_100055.jpg',
 'img_100056.jpg',
 'img_10005

In [12]:
test_imgs = os.listdir(test_dir) 
test_imgs1 = test_imgs[:rate*1]
test_imgs2 = test_imgs[rate*1:rate*2]
test_imgs3 = test_imgs[rate*2:rate*3]
test_imgs4 = test_imgs[rate*3:rate*4]
test_imgs5 = test_imgs[rate*4:rate*5]
test_imgs6 = test_imgs[rate*5:rate*6]
test_imgs7 = test_imgs[rate*6:rate*7]
test_imgs8 = test_imgs[rate*7:rate*8]
test_imgs9 = test_imgs[rate*8:rate*9]
test_imgs10 = test_imgs[rate*9:]
test_imgs_list = [test_imgs1, test_imgs2, test_imgs3, test_imgs4, test_imgs5, test_imgs6, test_imgs7, test_imgs8, test_imgs9, test_imgs10]

In [14]:
hf = h5py.File(test_h5py,'w')
for i in range(len(test_imgs_list)):
    test_imgs_i = np.zeros((len(test_imgs_list[i]),224,224,1))
    for j in tqdm(range(len(test_imgs_list[i]))):
        im = load_img(test_dir + test_imgs_list[i][j], target_size=(224,224), color_mode='grayscale')
        arr = img_to_array(im)
        test_imgs_i[j] = arr
    hf.create_dataset('test' + str(i), data=test_imgs_i, compression='lzf')
hf.close()

100%|███████████████████████████████████████████████████████████| 7972/7972 [00:36<00:00, 219.25it/s]
100%|███████████████████████████████████████████████████████████| 7972/7972 [00:36<00:00, 219.17it/s]
100%|███████████████████████████████████████████████████████████| 7972/7972 [00:36<00:00, 221.05it/s]
100%|███████████████████████████████████████████████████████████| 7972/7972 [00:35<00:00, 221.79it/s]
100%|███████████████████████████████████████████████████████████| 7972/7972 [00:36<00:00, 220.51it/s]
100%|███████████████████████████████████████████████████████████| 7972/7972 [00:36<00:00, 221.36it/s]
100%|███████████████████████████████████████████████████████████| 7972/7972 [00:35<00:00, 221.75it/s]
100%|███████████████████████████████████████████████████████████| 7972/7972 [00:36<00:00, 220.37it/s]
100%|███████████████████████████████████████████████████████████| 7972/7972 [00:36<00:00, 219.86it/s]
100%|███████████████████████████████████████████████████████████| 7978/7978 [00:36