In [2]:
from keras.models import Sequential                     #Importing necessary packages
from keras.utils import np_utils
from keras.layers.core import Dense, Activation, Dropout
from keras.models import load_model
from sklearn.utils import shuffle

import pandas as pd
import numpy as np
import cv2
import os
import math

Using TensorFlow backend.


In [4]:
training_input_path = r'~\DocumentCleanup\data\training_features.csv' #confirmar se o csv foi salvo com esse nome
testing_input_path = r'~\DocumentCleanup\data\01-DocumentCleanup\noisy_data'
model_output_path = r'~\DocumentCleanup\data\model.h5' #confirmar se o modelo foi salvo com esse nome
output_path = r'~\DocumentCleanup\Binary_Images'

'''
training_input_path - onde se encontra o csv resultante da extração de atributos para treino
testing_input_path - onde se encontram as imagens a serem binarizadas
model_output_path - onde será salvo ou carregado o modelo da rede
output_path - onde serão armazenadas as imagens resultantes da binarização
'''

In [20]:
'''
Função que extrai os atributos, tais atributos foram calculados pelo próprio Opencv em metódos já implementados

foram extraídos 11 atributos: 
1 - média da vizinhança menor
2 - máximo da vizinhança menor
3 - mínimo da vizinhança menor
4 - desvio padrão da vizinhança menor
5 - valor do pixel central
6 - desvio padrão local (média local - valor do pixel central) da vizinhança menor
7 - média da vizinhança maior
8 - máximo da vizinhança maior
9 - mínimo da vizinhança maior
10 - desvio padrão da vizinhança maior
11 - desvio padrão local (média local - valor do pixel central) da vizinhança maior

** Implementada por mim **

Foram extraídas informações de duas vizinhanças diferentes, umas de tamanho 9x9 e outra de tamanho 27x27, dessa forma
é consigo extrair caracteristicas locais e regionais a respeito do pixel
'''


def extractor(img, x, y):

    roi_sizes = [4,13]
    
    val_vector = []
    roi1 = roi_treatment(img, x, y, roi_sizes[0])
    roi2 = roi_treatment(img, x, y, roi_sizes[1])

    val_vector.append(roi1.mean())                    
    val_vector.append(roi1.max())       
    val_vector.append(roi1.min())                    
    val_vector.append(roi1.std())
    val_vector.append(img[y,x])
    val_vector.append(roi1.mean() - img[y,x])

    val_vector.append(roi2.mean())
    val_vector.append(roi2.max())
    val_vector.append(roi2.min())
    val_vector.append(roi2.std())
    val_vector.append(roi2.mean() - img[y,x])  #Armazeno os resltados em uma lista e retorno
                
    return val_vector

In [21]:
'''
Função que retorna as regiões de interesse, já com o tratamento das bordas

** Implementada por mim **
'''

def roi_treatment(img, x, y, roi_size):    
    
    w = img.shape[1]
    h = img.shape[0]
    
    if(x-roi_size <= 0):
        x1 = 0
    else:
        x1 = x-roi_size
        
    if(x+roi_size >= w-1):
        x2 = w-1
    else:
        x2 = x+roi_size
    
    
    if(y-roi_size <= 0):
        y1 = 0
    else:
        y1 = y-roi_size
        
    if(y+roi_size >= h-1):
        y2 = h-1
    else:
        y2 = y+roi_size
        
    roi = img[y1:y2+1, x1:x2+1]    
    
    return roi  #Retorna a Região de interesse

In [22]:
'''
Função que treina a rede e faz a predição.

*** Adaptada do código:
https://www.kaggle.com/fchollet/simple-deep-mlp-with-keras ***
'''


def training_and_pred(val_vector):
    
    '''
    A fim de reduzir o precessamento, nem todos os pixels foram utilizados para treino. O data set foi
    embaralhado e foram selecionados aleatoriamente 300 mil pixels. O fator aleatório foi fixado para que haja
    consistencia no resultado toda vez que o código for executado    
    '''
    
    train = pd.read_csv(training_input_path, sep='\t')
    train = shuffle(train, random_state=12345)
    train = train.reset_index().drop('index', axis=1)      #preparando o dataset de treino
    train = train.loc[0:300000]
    
    labels = train["11_Label"].values.astype('int32')
    X_train = (train.ix[:,:-1].values).astype('float32')  #separando atributos das classes
    
    y_train = np_utils.to_categorical(labels)
    
    scale = np.max(X_train)
    X_train /= scale                      #Normalização

    mean = np.std(X_train)
    X_train -= mean

    input_dim = X_train.shape[1]
    nb_classes = y_train.shape[1]
    
    '''
    #A rede foi treinada com 4 hidden layers e 300 épocas. O treino levou cerca de 4 horas em um i7 quarta geração
    #e 8gb de ram, para um novo treino é só descomentar

    model = Sequential()
    model.add(Dense(64, input_dim=input_dim))
    model.add(Activation('relu'))
    model.add(Dropout(0.20))
    model.add(Dense(128, input_dim=input_dim))
    model.add(Activation('relu'))
    model.add(Dropout(0.20))
    model.add(Dense(256, input_dim=input_dim))
    model.add(Activation('relu'))
    model.add(Dropout(0.20))
    model.add(Dense(256))
    model.add(Activation('relu'))
    model.add(Dropout(0.20))
    model.add(Dense(nb_classes))
    model.add(Activation('softmax'))

    model.compile(loss='binary_crossentropy', optimizer='rmsprop', metrics=['accuracy'])

    print("Training...")
    model.fit(X_train, y_train, nb_epoch=200, batch_size=16, validation_split=0.1, verbose=2)

    model.save(model_output_path)

    '''
    model = load_model(model_output_path) #Carregando o modelo
    
    X_test = val_vector
    X_test /= scale
    X_test -= mean
    
    print("Generating test predictions...")
    preds = model.predict_classes(X_test, verbose=0) #predizendo cada pixel e armazenando em um vetor

    return preds
    


In [23]:
'''

Função de rotação

*** Adaptada do código: https://www.pyimagesearch.com/2017/02/20/text-skew-correction-opencv-python/ ***
'''

def rotate(img):
    
    blur = cv2.medianBlur(img,3)
    ret,th1 = cv2.threshold(blur,170,255,cv2.THRESH_BINARY)
    
    img_edges = cv2.Canny(th1, 100, 100, apertureSize=3)
    lines = cv2.HoughLinesP(img_edges, 1, math.pi / 180.0, 100, minLineLength=10, maxLineGap=20)
    angles = []

    for x1, y1, x2, y2 in lines[0]:
        cv2.line(th1, (x1, y1), (x2, y2), (255, 0, 0), 3)
        angle = math.degrees(math.atan2(y2 - y1, x2 - x1))
        angles.append(angle)

    median_angle = np.median(angles)
    
    (h, w) = img.shape[:2]
    center = (w // 2, h // 2)

    M = cv2.getRotationMatrix2D(center, median_angle, 1.0)
    rotated = cv2.warpAffine(img, M, (w, h), flags=cv2.INTER_CUBIC, borderMode=cv2.BORDER_REPLICATE)
    
    return rotated

In [24]:
'''
Função que cria uma imagem em branco e monta a nova imagem de acordo com a classifcação obtida.

*** Implementada por mim ***

'''
def create_img(preds, w, h, sample_name):
    
    blank_image = np.zeros(shape=[h, w], dtype=np.uint8)
    aux = 0
    
    for y in range(0, h):
        for x in range(0, w):

            if(preds[aux]==0):
                blank_image[y][x] = 0
            else:
                blank_image[y][x] = 255

            aux = aux + 1
            
    binary_image = rotate(blank_image)
    cv2.imwrite(output_path+'\\'+sample_name, binary_image)
    cv2.waitKey(0)
    
    

In [25]:
'''
Função de auxílio, que invoca todas as outras funções

*** Implementada por mim ***
'''

def pre_process(img, sample_name):
    
    (h, w) = img.shape[:2]
    full_val_vector = []
    
    print('Extracting features')
    for y in range(0,h):         
        for x in range(0,w):
            
            val_vector = extractor(img, x, y)
            full_val_vector.append(val_vector)
    print('Extraction complete')
    
    print('Starting predicitons')
    preds = training_and_pred(full_val_vector)
    print('Predictions complete')
    
    print('Creating binary images')
    create_img(preds, w, h, sample_name)
            

In [5]:
'''
Deixei o main apenas para carregar imagem por imagem do diretório
'''

if __name__ == "__main__":
    
    
    
    files = os.listdir(testing_input_path)
    
    for fl in files:
        
        img = cv2.imread(testing_input_path+'\\'+fl, 0)
        pre_process(img, fl)