In [119]:
import cv2                                          #Importando as bibliotecas necessárias
import numpy as np
import pandas as pd
import statistics
import os
import time

In [112]:
def gabor_filter(img, angle):
    
    '''
    Função que aplica o gabor filter em uma determinada direção 'angle'.
    
    Como o objetivo é detecção de estruturas e não textura, a imagem é convertida em binária, com um treshold de 180,
    visto que a qualidade da imagem é alta e este valor separa bem o background da letra.
    
    A ideia em aplicar o gabor é isolar estruturas em determinas direções, dessa forma conseguimos analisar as diferenças
    entre as assinaturas em cada direção, o que confere uma maior robustez a análise.
    
    Foram escolhidas as 4 direções tradicionais: horizontal(pi), vertical(pi/2), 
    diagonal positiva(pi/4) e diagonal negativa (-pi/4)
    '''
    
    #contruindo o filtro com uma máscara 20x20
    g_kernel = cv2.getGaborKernel((20, 20), 8.0, angle, 10.0, 0.5, 0, ktype=cv2.CV_32F) 
    
    ret, img = cv2.threshold(img,180,255,cv2.THRESH_BINARY) #convertendo a imagem em binária
    filtered_img = cv2.filter2D(img, cv2.CV_8UC3, g_kernel) #Aplicando o filtro
    
    return filtered_img #retorna a imagem filtrada

In [113]:
def convex_hull(img):
    
    '''
    Função que detecta os contornos da imagem através da função 'findContours' e aplica o convex hull.
    
    A ideia por trás do algoritmo é detectar estrutuas e extrair atributos das mesmas, supostamente assinaturas diferentes
    terão estruturas diferentes e seus atributos serão usados como a base da classificação.
    
    A função findContours detecta os contornos da imagem, tais contornos são usados pelo convex hull para gerar poligonos
    em volta deles, então são extraidos atributos destes poligonos. 
    
    Como pretendemos classificar a imagem e não os polígonos, é feita então uma média para cada atributo
    de todos os poligonos detectados.
    
    '''
    
    blur = cv2.blur(img, (3, 3)) #Gerando um blur na imagem (recomendado pelo algoritmo)
    ret, thresh = cv2.threshold(blur, 180, 255, cv2.THRESH_BINARY)
    contours, hierarchy = cv2.findContours(thresh, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE) #achando os contornos
    
    hulls = []
    val_vector = []

    # Encontrando os poligonos para cada contorno encontrado
    for i in range(len(contours)):
        #Armazenando em um vetor de resultado
        hulls.append(cv2.convexHull(contours[i], False))
        
    drawing = np.zeros((thresh.shape[0], thresh.shape[1], 3), np.uint8)
        
    for i in range(len(contours)):
        color_contours = (0, 255, 0) # green - color for contours
        color = (255, 0, 0) # blue - color for convex hull
        # draw ith contour
        cv2.drawContours(drawing, contours, i, color_contours, 1, 8, hierarchy)
        # draw ith convex hull object
        if(cv2.contourArea(hulls[i])>200):
            cv2.drawContours(drawing, hulls, i, color, 1, 8)

    
    return hulls #retorna os poligonos encontrados

In [114]:
def features_extractor(hulls):
    
    '''
    Função que extrai os atributos dos poligonos encontrados, sendo eles:
    
    cx: Corresponde a coordenada x do centroid do poligono
    cy_vector: Corresponde a coordenada x do centroid do poligono
    area: Area total do poligono
    perimeter: Perimetro total do poligono
    total_hull: Quantidade total de poligonos detectados
    
    Como são detectados diversos poligonos, muitos deles de tamanho bastante reduzido, foi definido um threshold
    e só serão analisados polígonos com área superior a 200
    
    além dos atributos, nessa função é incluida também a classe da imagem: G, F ou D
    '''
    
    #vetores que armazenam os valores de cada poligono
    cx_vector = []
    cy_vector = []
    area_vector =[]
    perim_vector = []
    total_hull = 0
    
    #Analisando cada poligono detectado
    for k in range(1,len(hulls)):  #O primeiro é ignorado pois corresponde ao contorno da imagem toda
    
        if(cv2.contourArea(hulls[k])>200): #Filtrando os poligonos pela área
            
            M = cv2.moments(hulls[k])          #determinando o momento para calcular os centrois
            cx = int(M['m10']/M['m00'])
            cy = int(M['m01']/M['m00'])
            
            cx_vector.append(cx)
            cy_vector.append(cy) 
            area_vector.append(cv2.contourArea(hulls[k]))       #calculando os atributos
            perim_vector.append(cv2.arcLength(hulls[k],True))
            total_hull += 1
    
    # Calculando as médias e atribuindo ao vetor de retorno  
    val_vector = [float('%.4f' % statistics.mean(cx_vector)),
                  float('%.4f' % statistics.mean(cy_vector)),
                  float('%.4f' % statistics.mean(area_vector)),
                  float('%.4f' % statistics.mean(perim_vector)), 
                  total_hull]
   
  
    return val_vector #retornando os valores dos atributos extraidos

In [115]:
def csv_writer(val_vector, output_path):
    
    '''
    Função que armazena os atributos em um .csv
    Caso o arquivo não exista, o mesmo é criado e incluido um cabeçalho com o nome dos atributos    
    '''
    
    path = output_path
    key_vector = ['cx_img','cy_img','area_img','perim_img','hulls_img','cx_g1','cy_g1','area_g1','perim_g1','hulls_g1',
                  'cx_g2','cy_g2','area_g2','perim_g2','hulls_g2', 'cx_g3','cy_g3','area_g3','perim_g3','hulls_g3',
                  'cx_g4','cy_g4','area_g4','perim_g4','hulls_g4', 'class']
        
    if not os.path.exists(path):
        with open(path, 'w+') as f:
            for i in range(len(key_vector)):
                aux_escrita = str(i)+'_'+str(key_vector[i])
                f.write(str(aux_escrita))
                if i == len(key_vector)-1:
                    #f.write('\t')
                    #f.write('Class')
                    f.write('\n')
                else:
                    f.write('\t')
            for i in range(len(val_vector)):
                f.write(str(val_vector[i]))
                if i == len(val_vector)-1:
                    f.write('\n')
                else:
                    f.write('\t')
    else:
        with open(path, 'a') as f:
            for i in range(len(val_vector)):
                f.write(str(val_vector[i]))
                if i == len(val_vector)-1:
                    f.write('\n')
                else:
                    f.write('\t')

In [124]:
def run_extraction(input_path, output_path):
    
    
    '''
    Por fim são extraidos mesmos atribuitos de uma mesma imagem em 5 situações:
    
        1) Da imagem original
        2) De cada imagem passada pelo gabor filter em cada uma das 4 direções
        
        
    A princpio haveria o grupo de treino/teste e um outro de validação, porém o grupo de validação só será utilizado
    pelos avaliadores. Então tomei a liberdade de alterar um pouco a estrutura dos dados que me foram enviados.
    
    Deixei como estavam os grupos Disguised e Simulated (Forged)
    Porém uni os grupos de Reference e Genuine como sendo ambos Genuine
    
    Sendo assim, optei por uma classificação multi-class entre Genuine, Forged e Disguised utilizando todas as imagens
    como treino/teste, fazendo um cross-validation e tendo como parametro de avaliação a acurácia.
    '''
    begin = time.time()
    
    folders = os.listdir(input_path)
    
    for fd in folders:
        
        files = os.listdir(input_path+'\\'+fd)
        
        if(fd == 'Genuine' or fd == 'Reference'):
            img_class = 'G'
        elif(fd == 'Simulated'):
            img_class = 'F'
        elif(fd == 'Disguise'):
            img_class = 'D'
        else:
            print('Unavailable image folder')
           
        for fl in files:
    
            output_path = output_path
            original_img = cv2.imread(input_path+'\\'+fd+'\\'+fl)
            gray = cv2.cvtColor(original_img, cv2.COLOR_BGR2GRAY) # convertendo para niveis de cinza

            gabor_1 = gabor_filter(gray, np.pi)
            gabor_2 = gabor_filter(gray, np.pi/2)
            gabor_3 = gabor_filter(gray, np.pi/4)          #Aplicando o gabor filter em cada direção
            gabor_4 = gabor_filter(gray, (np.pi/4)*-1)

            original_img_features = features_extractor(convex_hull(gray))
            gabor_1_features = features_extractor(convex_hull(gabor_1))
            gabor_2_features = features_extractor(convex_hull(gabor_2))    #Extraindo os atributos de cada uma das 5 imagens
            gabor_3_features = features_extractor(convex_hull(gabor_3))
            gabor_4_features = features_extractor(convex_hull(gabor_4))

            features = original_img_features+gabor_1_features+gabor_2_features+gabor_3_features+gabor_4_features+[img_class]
            csv_writer(features, output_path)
    
    end = time.time()
    
    print("Extraction complete in ", end-begin, " seconds")

In [126]:
if __name__ == '__main__':
    
    
    #caminho onde estão as pastas com as imagens
    roth_input_path = r'C:\Users\Administrator\Desktop\Final 2\02-FraudDetection\TrainingSet'
    #caminho onde o csv de atributos será salvo
    output_path = r'C:\Users\Administrator\Desktop\Final 2\features.csv'
    
    run_extraction(roth_input_path, output_path)
    
    
    

Extraction complete in  346.057510137558  seconds
