# Preprocess and Feature Extraction 

Extracted features are saved in file named "leaf_features.csv"

In [1]:
import os
import cv2
import numpy as np
import pandas as pd
import mahotas as mt
from matplotlib import pyplot as plt
%matplotlib inline

In [4]:
ds_path = r"C:\Users\RAJEEV\Desktop\DataScience\Majorproject\Project\code\Train"
img_files = os.listdir(ds_path)

In [5]:
def create_dataset():
    names = ['area','perimeter','physiological_length','physiological_width','aspect_ratio','rectangularity','circularity', \
             'mean_r','mean_g','mean_b','stddev_r','stddev_g','stddev_b', \
             'contrast','correlation','inverse_difference_moments','entropy'
            ]
    df = pd.DataFrame([], columns=names)
    for file in img_files:
        imgpath = ds_path + "\\" + file
        main_img = cv2.imread(imgpath)
        
        #Preprocessing
        img = cv2.cvtColor(main_img, cv2.COLOR_BGR2RGB)
        gs = cv2.cvtColor(img,cv2.COLOR_RGB2GRAY)
        blur = cv2.GaussianBlur(gs, (25,25),0)
        ret_otsu,im_bw_otsu = cv2.threshold(blur,0,255,cv2.THRESH_BINARY_INV+cv2.THRESH_OTSU)
        kernel = np.ones((50,50),np.uint8)
        closing = cv2.morphologyEx(im_bw_otsu, cv2.MORPH_CLOSE, kernel)
        
        #Shape features
        contours, hierarchy = cv2.findContours(closing,cv2.RETR_TREE,cv2.CHAIN_APPROX_SIMPLE)
        cnt = contours[0]
        M = cv2.moments(cnt)
        area = cv2.contourArea(cnt)
        perimeter = cv2.arcLength(cnt,True)
        x,y,w,h = cv2.boundingRect(cnt)
        aspect_ratio = float(w)/h
        rectangularity = w*h/area
        circularity = ((perimeter)**2)/area
        
        #Color features
        red_channel = img[:,:,0]
        green_channel = img[:,:,1]
        blue_channel = img[:,:,2]
        blue_channel[blue_channel == 255] = 0
        green_channel[green_channel == 255] = 0
        red_channel[red_channel == 255] = 0
        
        red_mean = np.mean(red_channel)
        green_mean = np.mean(green_channel)
        blue_mean = np.mean(blue_channel)
        
        red_std = np.std(red_channel)
        green_std = np.std(green_channel)
        blue_std = np.std(blue_channel)
        
        #Texture features
        textures = mt.features.haralick(gs)
        ht_mean = textures.mean(axis=0)
        contrast = ht_mean[1]
        correlation = ht_mean[2]
        inverse_diff_moments = ht_mean[4]
        entropy = ht_mean[8]
        
        vector = [area,perimeter,w,h,aspect_ratio,rectangularity,circularity,\
                  red_mean,green_mean,blue_mean,red_std,green_std,blue_std,\
                  contrast,correlation,inverse_diff_moments,entropy
                 ]
        
        df_temp = pd.DataFrame([vector],columns=names)
        df = df.append(df_temp)
        print(file)
    return df

In [6]:
dataset = create_dataset()

AG-S-001.jpg
AG-S-002.jpg
AG-S-003.jpg
AG-S-004.jpg
AG-S-005.jpg
AG-S-006.jpg
AG-S-007.jpg
AG-S-008.jpg
AG-S-009.jpg
AG-S-010.jpg
AG-S-011.jpg
AG-S-012.jpg
AG-S-013.jpg
AG-S-015.jpg
AG-S-016.jpg
AG-S-017.jpg
AG-S-018.jpg
AG-S-019.jpg
AG-S-020.jpg
AG-S-021.jpg
AG-S-022.jpg
AG-S-023.jpg
AG-S-024.jpg
AG-S-026.jpg
AG-S-027.jpg
AG-S-028.jpg
AG-S-029.jpg
AG-S-030.jpg
AG-S-031.jpg
AG-S-032.jpg
AG-S-033.jpg
AG-S-034.jpg
AG-S-035.jpg
AG-S-036.jpg
AG-S-037.jpg
AG-S-038.jpg
AG-S-039.jpg
AG-S-040.jpg
AG-S-041.jpg
AG-S-043.jpg
AG-S-044.jpg
AG-S-045.jpg
AG-S-046.jpg
AG-S-047.jpg
AG-S-048.jpg
AG-S-049.jpg
AG-S-050.jpg
AH-S-001.jpg
AH-S-002.jpg
AH-S-003.jpg
AH-S-004.jpg
AH-S-005.jpg
AH-S-006.jpg
AH-S-007.jpg
AH-S-008.jpg
AH-S-009.jpg
AH-S-010.jpg
AH-S-011.jpg
AH-S-012.jpg
AH-S-014.jpg
AH-S-015.jpg
AH-S-016.jpg
AH-S-017.jpg
AH-S-018.jpg
AH-S-019.jpg
AH-S-020.jpg
AH-S-021.jpg
AH-S-022.jpg
AH-S-023.jpg
AH-S-024.jpg
AH-S-025.jpg
AH-S-026.jpg
AH-S-028.jpg
AH-S-029.jpg
AH-S-030.jpg
AH-S-031.jpg
AH-S-032.jpg

J-S-047.jpg
J-S-048.jpg
J-S-049.jpg
J-S-051.jpg
J-S-052.jpg
J-S-053.jpg
J-S-054.jpg
J-S-055.jpg
J-S-056.jpg
J-S-057.jpg
J-S-058.jpg
J-S-059.jpg
J-S-060.jpg
J-S-061.jpg
J-S-062.jpg
J-S-064.jpg
J-S-065.jpg
J-S-066.jpg
J-S-067.jpg
J-S-068.jpg
J-S-069.jpg
J-S-070.jpg
J-S-071.jpg
M-S-001.jpg
M-S-002.jpg
M-S-003.jpg
M-S-004.jpg
M-S-005.jpg
M-S-006.jpg
M-S-007.jpg
M-S-008.jpg
M-S-009.jpg
M-S-010.jpg
M-S-011.jpg
M-S-012.jpg
M-S-013.jpg
M-S-014.jpg
M-S-017.jpg
M-S-018.jpg
M-S-019.jpg
M-S-020.jpg
M-S-021.jpg
M-S-022.jpg
M-S-023.jpg
M-S-024.jpg
M-S-025.jpg
M-S-026.jpg
M-S-028.jpg
M-S-029.jpg
M-S-030.jpg
M-S-031.jpg
M-S-032.jpg
M-S-033.jpg
M-S-034.jpg
M-S-035.jpg
M-S-036.jpg
M-S-037.jpg
M-S-038.jpg
M-S-039.jpg
M-S-040.jpg
M-S-041.jpg
M-S-042.jpg
M-S-043.jpg
M-S-044.jpg
M-S-045.jpg
M-S-046.jpg
M-S-047.jpg
M-S-048.jpg
M-S-049.jpg
M-S-050.jpg
M-S-051.jpg
M-S-052.jpg
M-S-053.jpg
M-S-054.jpg
M-S-055.jpg
M-S-056.jpg
M-S-057.jpg
M-S-058.jpg
M-S-060.jpg
M-S-061.jpg
M-S-062.jpg
M-S-063.jpg
M-S-064.jpg
M-S-

In [7]:
dataset.shape

(1184, 17)

In [8]:
type(dataset)

pandas.core.frame.DataFrame

In [9]:
dataset.to_csv("leaf_features.csv")