# Preprocess and Feature Extraction - Flavia dataset

Extracted features are saved in file named "Flavia_features.csv"

In [2]:
!pip install opencv-python
!pip install mahotas
!pip install matplotlib

Collecting opencv-python
  Downloading opencv_python-4.3.0.36-cp37-cp37m-win_amd64.whl (33.4 MB)
Installing collected packages: opencv-python
Successfully installed opencv-python-4.3.0.36
Collecting mahotas
  Downloading mahotas-1.4.10-cp37-cp37m-win_amd64.whl (1.7 MB)
Installing collected packages: mahotas
Successfully installed mahotas-1.4.10


In [3]:
import os
import cv2
import numpy as np
import pandas as pd
import mahotas as mt
from matplotlib import pyplot as plt
%matplotlib inline

In [15]:
ds_path = r"Leaves"
img_files = os.listdir(ds_path)

In [20]:
def create_dataset():
    names = ['area','perimeter','physiological_length','physiological_width','aspect_ratio','rectangularity','circularity', \
             'mean_r','mean_g','mean_b','stddev_r','stddev_g','stddev_b', \
             'contrast','correlation','inverse_difference_moments','entropy'
            ]
    df = pd.DataFrame([], columns=names)
    for file in img_files:
        imgpath = ds_path + "\\" + file
        print(imgpath)
        main_img = cv2.imread(imgpath)
        
        #Preprocessing
        img = cv2.cvtColor(main_img, cv2.COLOR_BGR2RGB)
        gs = cv2.cvtColor(img,cv2.COLOR_RGB2GRAY)
        blur = cv2.GaussianBlur(gs, (25,25),0)
        ret_otsu,im_bw_otsu = cv2.threshold(blur,0,255,cv2.THRESH_BINARY_INV+cv2.THRESH_OTSU)
        kernel = np.ones((50,50),np.uint8)
        closing = cv2.morphologyEx(im_bw_otsu, cv2.MORPH_CLOSE, kernel)
        
        #Shape features
        contours, image = cv2.findContours(closing,cv2.RETR_TREE,cv2.CHAIN_APPROX_SIMPLE)
        cnt = contours[0]
        M = cv2.moments(cnt)
        area = cv2.contourArea(cnt)
        perimeter = cv2.arcLength(cnt,True)
        x,y,w,h = cv2.boundingRect(cnt)
        aspect_ratio = float(w)/h
        rectangularity = w*h/area
        circularity = ((perimeter)**2)/area
        
        #Color features
        red_channel = img[:,:,0]
        green_channel = img[:,:,1]
        blue_channel = img[:,:,2]
        blue_channel[blue_channel == 255] = 0
        green_channel[green_channel == 255] = 0
        red_channel[red_channel == 255] = 0
        
        red_mean = np.mean(red_channel)
        green_mean = np.mean(green_channel)
        blue_mean = np.mean(blue_channel)
        
        red_std = np.std(red_channel)
        green_std = np.std(green_channel)
        blue_std = np.std(blue_channel)
        
        #Texture features
        textures = mt.features.haralick(gs)
        ht_mean = textures.mean(axis=0)
        contrast = ht_mean[1]
        correlation = ht_mean[2]
        inverse_diff_moments = ht_mean[4]
        entropy = ht_mean[8]
        
        vector = [area,perimeter,w,h,aspect_ratio,rectangularity,circularity,\
                  red_mean,green_mean,blue_mean,red_std,green_std,blue_std,\
                  contrast,correlation,inverse_diff_moments,entropy
                 ]
        
        df_temp = pd.DataFrame([vector],columns=names)
        df = df.append(df_temp)
        print(file)
    return df

In [21]:
dataset = create_dataset()

Leaves\1001.jpg
1001.jpg
Leaves\1002.jpg
1002.jpg
Leaves\1003.jpg
1003.jpg
Leaves\1004.jpg
1004.jpg
Leaves\1005.jpg
1005.jpg
Leaves\1006.jpg
1006.jpg
Leaves\1007.jpg
1007.jpg
Leaves\1008.jpg
1008.jpg
Leaves\1009.jpg
1009.jpg
Leaves\1010.jpg
1010.jpg
Leaves\1011.jpg
1011.jpg
Leaves\1012.jpg
1012.jpg
Leaves\1013.jpg
1013.jpg
Leaves\1014.jpg
1014.jpg
Leaves\1015.jpg
1015.jpg
Leaves\1016.jpg
1016.jpg
Leaves\1017.jpg
1017.jpg
Leaves\1018.jpg
1018.jpg
Leaves\1019.jpg
1019.jpg
Leaves\1020.jpg
1020.jpg
Leaves\1021.jpg
1021.jpg
Leaves\1022.jpg
1022.jpg
Leaves\1023.jpg
1023.jpg
Leaves\1024.jpg
1024.jpg
Leaves\1025.jpg
1025.jpg
Leaves\1026.jpg
1026.jpg
Leaves\1027.jpg
1027.jpg
Leaves\1028.jpg
1028.jpg
Leaves\1029.jpg
1029.jpg
Leaves\1030.jpg
1030.jpg
Leaves\1031.jpg
1031.jpg
Leaves\1032.jpg
1032.jpg
Leaves\1033.jpg
1033.jpg
Leaves\1034.jpg
1034.jpg
Leaves\1035.jpg
1035.jpg
Leaves\1036.jpg
1036.jpg
Leaves\1037.jpg
1037.jpg
Leaves\1038.jpg
1038.jpg
Leaves\1039.jpg
1039.jpg
Leaves\1040.jpg
1040.jpg


1329.jpg
Leaves\1330.jpg
1330.jpg
Leaves\1331.jpg
1331.jpg
Leaves\1332.jpg
1332.jpg
Leaves\1333.jpg
1333.jpg
Leaves\1334.jpg
1334.jpg
Leaves\1335.jpg
1335.jpg
Leaves\1336.jpg
1336.jpg
Leaves\1337.jpg
1337.jpg
Leaves\1338.jpg
1338.jpg
Leaves\1339.jpg
1339.jpg
Leaves\1340.jpg
1340.jpg
Leaves\1341.jpg
1341.jpg
Leaves\1342.jpg
1342.jpg
Leaves\1343.jpg
1343.jpg
Leaves\1344.jpg
1344.jpg
Leaves\1345.jpg
1345.jpg
Leaves\1346.jpg
1346.jpg
Leaves\1347.jpg
1347.jpg
Leaves\1348.jpg
1348.jpg
Leaves\1349.jpg
1349.jpg
Leaves\1350.jpg
1350.jpg
Leaves\1351.jpg
1351.jpg
Leaves\1352.jpg
1352.jpg
Leaves\1353.jpg
1353.jpg
Leaves\1354.jpg
1354.jpg
Leaves\1355.jpg
1355.jpg
Leaves\1356.jpg
1356.jpg
Leaves\1357.jpg
1357.jpg
Leaves\1358.jpg
1358.jpg
Leaves\1359.jpg
1359.jpg
Leaves\1360.jpg
1360.jpg
Leaves\1361.jpg
1361.jpg
Leaves\1362.jpg
1362.jpg
Leaves\1363.jpg
1363.jpg
Leaves\1364.jpg
1364.jpg
Leaves\1365.jpg
1365.jpg
Leaves\1366.jpg
1366.jpg
Leaves\1367.jpg
1367.jpg
Leaves\1368.jpg
1368.jpg
Leaves\1369.jpg


2041.jpg
Leaves\2042.jpg
2042.jpg
Leaves\2043.jpg
2043.jpg
Leaves\2044.jpg
2044.jpg
Leaves\2045.jpg
2045.jpg
Leaves\2046.jpg
2046.jpg
Leaves\2047.jpg
2047.jpg
Leaves\2048.jpg
2048.jpg
Leaves\2049.jpg
2049.jpg
Leaves\2050.jpg
2050.jpg
Leaves\2051.jpg
2051.jpg
Leaves\2052.jpg
2052.jpg
Leaves\2053.jpg
2053.jpg
Leaves\2054.jpg
2054.jpg
Leaves\2055.jpg
2055.jpg
Leaves\2056.jpg
2056.jpg
Leaves\2057.jpg
2057.jpg
Leaves\2058.jpg
2058.jpg
Leaves\2059.jpg
2059.jpg
Leaves\2060.jpg
2060.jpg
Leaves\2061.jpg
2061.jpg
Leaves\2062.jpg
2062.jpg
Leaves\2063.jpg
2063.jpg
Leaves\2064.jpg
2064.jpg
Leaves\2065.jpg
2065.jpg
Leaves\2066.jpg
2066.jpg
Leaves\2067.jpg
2067.jpg
Leaves\2068.jpg
2068.jpg
Leaves\2069.jpg
2069.jpg
Leaves\2070.jpg
2070.jpg
Leaves\2071.jpg
2071.jpg
Leaves\2072.jpg
2072.jpg
Leaves\2073.jpg
2073.jpg
Leaves\2074.jpg
2074.jpg
Leaves\2075.jpg
2075.jpg
Leaves\2076.jpg
2076.jpg
Leaves\2077.jpg
2077.jpg
Leaves\2078.jpg
2078.jpg
Leaves\2079.jpg
2079.jpg
Leaves\2080.jpg
2080.jpg
Leaves\2081.jpg


2370.jpg
Leaves\2371.jpg
2371.jpg
Leaves\2372.jpg
2372.jpg
Leaves\2373.jpg
2373.jpg
Leaves\2374.jpg
2374.jpg
Leaves\2375.jpg
2375.jpg
Leaves\2376.jpg
2376.jpg
Leaves\2377.jpg
2377.jpg
Leaves\2378.jpg
2378.jpg
Leaves\2379.jpg
2379.jpg
Leaves\2380.jpg
2380.jpg
Leaves\2381.jpg
2381.jpg
Leaves\2382.jpg
2382.jpg
Leaves\2383.jpg
2383.jpg
Leaves\2384.jpg
2384.jpg
Leaves\2385.jpg
2385.jpg
Leaves\2386.jpg
2386.jpg
Leaves\2387.jpg
2387.jpg
Leaves\2388.jpg
2388.jpg
Leaves\2389.jpg
2389.jpg
Leaves\2390.jpg
2390.jpg
Leaves\2391.jpg
2391.jpg
Leaves\2392.jpg
2392.jpg
Leaves\2393.jpg
2393.jpg
Leaves\2394.jpg
2394.jpg
Leaves\2395.jpg
2395.jpg
Leaves\2396.jpg
2396.jpg
Leaves\2397.jpg
2397.jpg
Leaves\2398.jpg
2398.jpg
Leaves\2399.jpg
2399.jpg
Leaves\2400.jpg
2400.jpg
Leaves\2401.jpg
2401.jpg
Leaves\2402.jpg
2402.jpg
Leaves\2403.jpg
2403.jpg
Leaves\2404.jpg
2404.jpg
Leaves\2405.jpg
2405.jpg
Leaves\2406.jpg
2406.jpg
Leaves\2407.jpg
2407.jpg
Leaves\2408.jpg
2408.jpg
Leaves\2409.jpg
2409.jpg
Leaves\2410.jpg


3026.jpg
Leaves\3027.jpg
3027.jpg
Leaves\3028.jpg
3028.jpg
Leaves\3029.jpg
3029.jpg
Leaves\3030.jpg
3030.jpg
Leaves\3031.jpg
3031.jpg
Leaves\3032.jpg
3032.jpg
Leaves\3033.jpg
3033.jpg
Leaves\3034.jpg
3034.jpg
Leaves\3035.jpg
3035.jpg
Leaves\3036.jpg
3036.jpg
Leaves\3037.jpg
3037.jpg
Leaves\3038.jpg
3038.jpg
Leaves\3039.jpg
3039.jpg
Leaves\3040.jpg
3040.jpg
Leaves\3041.jpg
3041.jpg
Leaves\3042.jpg
3042.jpg
Leaves\3043.jpg
3043.jpg
Leaves\3044.jpg
3044.jpg
Leaves\3045.jpg
3045.jpg
Leaves\3046.jpg
3046.jpg
Leaves\3047.jpg
3047.jpg
Leaves\3048.jpg
3048.jpg
Leaves\3049.jpg
3049.jpg
Leaves\3050.jpg
3050.jpg
Leaves\3051.jpg
3051.jpg
Leaves\3052.jpg
3052.jpg
Leaves\3053.jpg
3053.jpg
Leaves\3054.jpg
3054.jpg
Leaves\3055.jpg
3055.jpg
Leaves\3056.jpg
3056.jpg
Leaves\3057.jpg
3057.jpg
Leaves\3058.jpg
3058.jpg
Leaves\3059.jpg
3059.jpg
Leaves\3060.jpg
3060.jpg
Leaves\3061.jpg
3061.jpg
Leaves\3062.jpg
3062.jpg
Leaves\3063.jpg
3063.jpg
Leaves\3064.jpg
3064.jpg
Leaves\3065.jpg
3065.jpg
Leaves\3066.jpg


3354.jpg
Leaves\3355.jpg
3355.jpg
Leaves\3356.jpg
3356.jpg
Leaves\3357.jpg
3357.jpg
Leaves\3358.jpg
3358.jpg
Leaves\3359.jpg
3359.jpg
Leaves\3360.jpg
3360.jpg
Leaves\3361.jpg
3361.jpg
Leaves\3362.jpg
3362.jpg
Leaves\3363.jpg
3363.jpg
Leaves\3364.jpg
3364.jpg
Leaves\3365.jpg
3365.jpg
Leaves\3366.jpg
3366.jpg
Leaves\3367.jpg
3367.jpg
Leaves\3368.jpg
3368.jpg
Leaves\3369.jpg
3369.jpg
Leaves\3370.jpg
3370.jpg
Leaves\3371.jpg
3371.jpg
Leaves\3372.jpg
3372.jpg
Leaves\3373.jpg
3373.jpg
Leaves\3374.jpg
3374.jpg
Leaves\3375.jpg
3375.jpg
Leaves\3376.jpg
3376.jpg
Leaves\3377.jpg
3377.jpg
Leaves\3378.jpg
3378.jpg
Leaves\3379.jpg
3379.jpg
Leaves\3380.jpg
3380.jpg
Leaves\3381.jpg
3381.jpg
Leaves\3382.jpg
3382.jpg
Leaves\3383.jpg
3383.jpg
Leaves\3384.jpg
3384.jpg
Leaves\3385.jpg
3385.jpg
Leaves\3386.jpg
3386.jpg
Leaves\3387.jpg
3387.jpg
Leaves\3388.jpg
3388.jpg
Leaves\3389.jpg
3389.jpg
Leaves\3390.jpg
3390.jpg
Leaves\3391.jpg
3391.jpg
Leaves\3392.jpg
3392.jpg
Leaves\3393.jpg
3393.jpg
Leaves\3394.jpg


In [22]:
dataset.shape

(1907, 17)

In [23]:
type(dataset)

pandas.core.frame.DataFrame

In [24]:
dataset.to_csv("Flavia_features.csv")