# Preprocess and Feature Extraction - Flavia dataset

Extracted features are saved in file named "Flavia_features.csv"

In [1]:
import os
import cv2
import numpy as np
import pandas as pd
import mahotas as mt
from matplotlib import pyplot as plt
%matplotlib inline

In [2]:
ds_path = "..\\Flavia leaves dataset"
img_files = os.listdir(ds_path)

In [3]:
def create_dataset():
    names = ['area','perimeter','physiological_length','physiological_width','aspect_ratio','rectangularity','circularity', \
             'mean_r','mean_g','mean_b','stddev_r','stddev_g','stddev_b', \
             'contrast','correlation','inverse_difference_moments','entropy'
            ]
    df = pd.DataFrame([], columns=names)
    for file in img_files:
        imgpath = ds_path + "\\" + file
        main_img = cv2.imread(imgpath)
        
        #Preprocessing
        img = cv2.cvtColor(main_img, cv2.COLOR_BGR2RGB)
        gs = cv2.cvtColor(img,cv2.COLOR_RGB2GRAY)
        blur = cv2.GaussianBlur(gs, (25,25),0)
        ret_otsu,im_bw_otsu = cv2.threshold(blur,0,255,cv2.THRESH_BINARY_INV+cv2.THRESH_OTSU)
        kernel = np.ones((50,50),np.uint8)
        closing = cv2.morphologyEx(im_bw_otsu, cv2.MORPH_CLOSE, kernel)
        
        #Shape features
        image, contours, _ = cv2.findContours(closing,cv2.RETR_TREE,cv2.CHAIN_APPROX_SIMPLE)
        cnt = contours[0]
        M = cv2.moments(cnt)
        area = cv2.contourArea(cnt)
        perimeter = cv2.arcLength(cnt,True)
        x,y,w,h = cv2.boundingRect(cnt)
        aspect_ratio = float(w)/h
        rectangularity = w*h/area
        circularity = ((perimeter)**2)/area
        
        #Color features
        red_channel = img[:,:,0]
        green_channel = img[:,:,1]
        blue_channel = img[:,:,2]
        blue_channel[blue_channel == 255] = 0
        green_channel[green_channel == 255] = 0
        red_channel[red_channel == 255] = 0
        
        red_mean = np.mean(red_channel)
        green_mean = np.mean(green_channel)
        blue_mean = np.mean(blue_channel)
        
        red_std = np.std(red_channel)
        green_std = np.std(green_channel)
        blue_std = np.std(blue_channel)
        
        #Texture features
        textures = mt.features.haralick(gs)
        ht_mean = textures.mean(axis=0)
        contrast = ht_mean[1]
        correlation = ht_mean[2]
        inverse_diff_moments = ht_mean[4]
        entropy = ht_mean[8]
        
        vector = [area,perimeter,w,h,aspect_ratio,rectangularity,circularity,\
                  red_mean,green_mean,blue_mean,red_std,green_std,blue_std,\
                  contrast,correlation,inverse_diff_moments,entropy
                 ]
        
        df_temp = pd.DataFrame([vector],columns=names)
        df = df.append(df_temp)
        print(file)
    return df

In [4]:
dataset = create_dataset()

1001.jpg
1002.jpg
1003.jpg
1004.jpg
1005.jpg
1006.jpg
1007.jpg
1008.jpg
1009.jpg
1010.jpg
1011.jpg
1012.jpg
1013.jpg
1014.jpg
1015.jpg
1016.jpg
1017.jpg
1018.jpg
1019.jpg
1020.jpg
1021.jpg
1022.jpg
1023.jpg
1024.jpg
1025.jpg
1026.jpg
1027.jpg
1028.jpg
1029.jpg
1030.jpg
1031.jpg
1032.jpg
1033.jpg
1034.jpg
1035.jpg
1036.jpg
1037.jpg
1038.jpg
1039.jpg
1040.jpg
1041.jpg
1042.jpg
1043.jpg
1044.jpg
1045.jpg
1046.jpg
1047.jpg
1048.jpg
1049.jpg
1050.jpg
1051.jpg
1052.jpg
1053.jpg
1054.jpg
1055.jpg
1056.jpg
1057.jpg
1058.jpg
1059.jpg
1060.jpg
1061.jpg
1062.jpg
1063.jpg
1064.jpg
1065.jpg
1066.jpg
1067.jpg
1068.jpg
1069.jpg
1070.jpg
1071.jpg
1072.jpg
1073.jpg
1074.jpg
1075.jpg
1076.jpg
1077.jpg
1078.jpg
1079.jpg
1080.jpg
1081.jpg
1082.jpg
1083.jpg
1084.jpg
1085.jpg
1086.jpg
1087.jpg
1088.jpg
1089.jpg
1090.jpg
1091.jpg
1092.jpg
1093.jpg
1094.jpg
1095.jpg
1096.jpg
1097.jpg
1098.jpg
1099.jpg
1100.jpg
1101.jpg
1102.jpg
1103.jpg
1104.jpg
1105.jpg
1106.jpg
1107.jpg
1108.jpg
1109.jpg
1110.jpg
1111.jpg
1

2296.jpg
2297.jpg
2298.jpg
2299.jpg
2300.jpg
2301.jpg
2302.jpg
2303.jpg
2304.jpg
2305.jpg
2306.jpg
2307.jpg
2308.jpg
2309.jpg
2310.jpg
2311.jpg
2312.jpg
2313.jpg
2314.jpg
2315.jpg
2316.jpg
2317.jpg
2318.jpg
2319.jpg
2320.jpg
2321.jpg
2322.jpg
2323.jpg
2324.jpg
2325.jpg
2326.jpg
2327.jpg
2328.jpg
2329.jpg
2330.jpg
2331.jpg
2332.jpg
2333.jpg
2334.jpg
2335.jpg
2336.jpg
2337.jpg
2338.jpg
2339.jpg
2340.jpg
2341.jpg
2342.jpg
2343.jpg
2344.jpg
2345.jpg
2346.jpg
2347.jpg
2348.jpg
2349.jpg
2350.jpg
2351.jpg
2352.jpg
2353.jpg
2354.jpg
2355.jpg
2356.jpg
2357.jpg
2358.jpg
2359.jpg
2360.jpg
2361.jpg
2362.jpg
2363.jpg
2364.jpg
2365.jpg
2366.jpg
2367.jpg
2368.jpg
2369.jpg
2370.jpg
2371.jpg
2372.jpg
2373.jpg
2374.jpg
2375.jpg
2376.jpg
2377.jpg
2378.jpg
2379.jpg
2380.jpg
2381.jpg
2382.jpg
2383.jpg
2384.jpg
2385.jpg
2386.jpg
2387.jpg
2388.jpg
2389.jpg
2390.jpg
2391.jpg
2392.jpg
2393.jpg
2394.jpg
2395.jpg
2396.jpg
2397.jpg
2398.jpg
2399.jpg
2400.jpg
2401.jpg
2402.jpg
2403.jpg
2404.jpg
2405.jpg
2406.jpg
2

3535.jpg
3536.jpg
3537.jpg
3538.jpg
3539.jpg
3540.jpg
3541.jpg
3542.jpg
3543.jpg
3544.jpg
3545.jpg
3546.jpg
3547.jpg
3548.jpg
3549.jpg
3550.jpg
3551.jpg
3552.jpg
3553.jpg
3554.jpg
3555.jpg
3556.jpg
3557.jpg
3558.jpg
3559.jpg
3560.jpg
3561.jpg
3562.jpg
3563.jpg
3566.jpg
3567.jpg
3568.jpg
3569.jpg
3570.jpg
3571.jpg
3572.jpg
3573.jpg
3574.jpg
3575.jpg
3576.jpg
3577.jpg
3578.jpg
3579.jpg
3580.jpg
3581.jpg
3582.jpg
3583.jpg
3584.jpg
3585.jpg
3586.jpg
3587.jpg
3588.jpg
3589.jpg
3590.jpg
3591.jpg
3592.jpg
3593.jpg
3594.jpg
3595.jpg
3596.jpg
3597.jpg
3598.jpg
3599.jpg
3600.jpg
3601.jpg
3602.jpg
3603.jpg
3604.jpg
3605.jpg
3606.jpg
3607.jpg
3608.jpg
3609.jpg
3610.jpg
3611.jpg
3612.jpg
3613.jpg
3614.jpg
3615.jpg
3616.jpg
3617.jpg
3618.jpg
3619.jpg
3620.jpg
3621.jpg


In [5]:
dataset.shape

(1907, 17)

In [6]:
type(dataset)

pandas.core.frame.DataFrame

In [7]:
dataset.to_csv("Flavia_features.csv")