# Atividade 1 - Redes Neurais Convolucionais

## Visão Computacional

Visão computacional é a ciência e tecnologia das máquinas que enxergam. Ela desenvolve teoria e tecnologia para a construção de sistemas artificiais que obtém informação de imagens ou quaisquer dados multidimensionais. Exemplos de aplicações incluem o controle de processos (como robôs industriais ou veículos autônomos), detecção de eventos, organização de informação, modelagem de objetos ou ambientes e interação (atrelado a interação humano-computador).

A visão computacional também pode ser descrita como um complemento da visão biológica. Na visão biológica, a percepção visual dos humanos e outros animais é estudada, resultando em modelos em como tais sistemas operam em termos de processos fisiológicos. Por outro lado, a visão computacional estuda e descreve sistemas de visão artificial implementados por hardware ou software.

Subcampos de pesquisa incluem reconstrução de cena, detecção de eventos, reconhecimento de objetos, aprendizagem de máquina e restauração de imagens.

[Fonte - Wikipedia](https://pt.wikipedia.org/wiki/Vis%C3%A3o_computacional)

### Literatura recomendada

Para aqueles que tem interesse em um domínio maior em visão computacional, recomendo a leitura do livro [Processamento Digital de Imagens - Digital Image Processing (Gonzalez, Woods)](https://www.amazon.com.br/Digital-Image-Processing-Rafael-Gonzalez/dp/0133356728/ref=pd_lpo_sbs_14_img_0?_encoding=UTF8&psc=1&refRID=VNRJ5DV5YG8BHZF77FGT) muito utilizado como livro texto nas disciplinas de computação gráfica em cursos de ciências da computação.

In [None]:
from IPython.lib.display import YouTubeVideo

### Exemplos de aplicação

#### Detecção de veículos e cálculo de velocidade através de câmeras de monitoramento.

In [None]:
YouTubeVideo('inCUJ0JM5ng')

In [None]:
YouTubeVideo('HLs_0obPh74')

#### Aplicação de redes neurais para detecção de entidades

Exemplo abaixo mostra aplicação de uma rede conhecida [YOLO](https://pjreddie.com/darknet/yolo/) aplicada para detecção de objetos em tempo real.

Yolo é conhecida por ser uma rede eficiente e performática, permitindo sua utilização através de dispositivos como uma [Raspberry Pi](https://www.raspberrypi.org/products/raspberry-pi-3-model-b/).

In [None]:
YouTubeVideo('MPU2HistivI')

In [None]:
!wget "https://github.com/pgiaeinstein/aula-09/raw/master/img1.dcm"
!wget "https://github.com/pgiaeinstein/aula-09/raw/master/img2.dcm"
!wget "https://github.com/pgiaeinstein/cnn/raw/master/imagens/castelo.png"
!wget "https://github.com/pgiaeinstein/cnn/raw/master/imagens/estrada.jpg"
!wget "https://github.com/pgiaeinstein/cnn/raw/master/imagens/lenna.png"
!wget "https://github.com/pgiaeinstein/cnn/raw/master/imagens/moedas.jpg"
!wget "https://github.com/pgiaeinstein/cnn/raw/master/imagens/noguchi.jpg"
!wget "https://github.com/pgiaeinstein/cnn/raw/master/imagens/oy.png"

In [None]:
# DICOM
dicom_img_1 = './img1.dcm'
dicom_img_2 = './img2.dcm'
# Imagens
img_castelo = './castelo.png'
img_estrada = './estrada.jpg'
img_lenna   = './lenna.png'
img_moedas  = './moedas.jpg'
img_noguchi = './noguchi.jpg'

In [None]:
import matplotlib, cv2
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

#### Lib OpenCV

OpenCV (Open Source Computer Vision Library). Originalmente, desenvolvida pela Intel, em 2000, é uma biblioteca multiplataforma, totalmente livre ao uso acadêmico e comercial, para o desenvolvimento de aplicativos na área de Visão computacional, bastando seguir o modelo de licença BSD Intel. O OpenCV possui módulos de Processamento de Imagens e Video I/O, Estrutura de dados, Álgebra Linear, GUI (Interface Gráfica do Usuário) Básica com sistema de janelas independentes, Controle de mouse e teclado, além de mais de 350 algoritmos de Visão computacional como: Filtros de imagem, calibração de câmera, reconhecimento de objetos, análise estrutural e outros. O seu processamento é em tempo real de imagens.

[Fonte - Wikipedia](https://pt.wikipedia.org/wiki/OpenCV)

#### Python-OpenCV

OpenCV possui uma biblioteca dedicada em [Python](https://pypi.org/project/opencv-python/) sua documentação pode ser consultada neste [link](https://docs.opencv.org/3.0-beta/doc/py_tutorials/py_tutorials.html).

In [None]:
# Lendo um arquivo de imagem utilizando opencv
img = cv2.imread(img_lenna, 4)

In [None]:
img

O resultado da operação de leitura é uma matriz de dimensão (linha, coluna). Por padrão, `cv2` carrega vetores em BGR mas podemos modificar para RGB.

In [None]:
# Uma imagem de 512x512 pixel em 3 canais de informação
img.shape

In [None]:
# Utilizando matplotlib, a função imshow permite o plot de imagens
# a configuração off em axis remove os eixos do gráfico padrão
plt.axis('off')
plt.imshow(img)

Por exemplo, a imagem carregada possui 512x512 px onde cada pixel tem 3 canais (BGR).

#### Convertendo BGR para RGB

In [None]:
# O método cvtColor permite modificar o esquema de cores entre os 3 canais da estrutura de dados
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)

plt.axis('off')
plt.imshow(img_rgb)

#### RGB para GrayScale

Essa transformação vai atacar os 3 canais condensando sua informação em apenas um canal variando em preto e branco.

In [None]:
# Por exemplo modificando os canais para que todos sejam equalizados em um
# range de 0 - 255 (0 - preto; 255 - branco) tornando a imagem preto e branco
img_pb = cv2.cvtColor(img_rgb, cv2.COLOR_RGB2GRAY)

In [None]:
# Uma imagem de 512x512 pixel com 1 canal de informação
img_pb

In [None]:
# Uma imagem de 512x512 pixel com 1 canal de informação
img_pb.shape

In [None]:
plt.axis('off')
plt.imshow(img_pb)

In [None]:
# imshow espera 3 uma estrutura de dados com 3 canais de informação, podemos resolver o
# problema com uma nova transformação, voltando a estrutura para RGB
plt.axis('off')
plt.imshow(cv2.cvtColor(img_pb, cv2.COLOR_GRAY2RGB))

#### Máscaras por filtro de banda

Podemos criar um filtro que resulta em uma máscara binária de informação, vejamos a imagem de exemplo:

In [None]:
estrada = cv2.imread(img_estrada)
# Repare que vamos utilizar uma outra representação de domínio de cores, no
# caso o HSV (hue, saturation, value)
estrada_hsv = cv2.cvtColor(estrada, cv2.COLOR_BGR2HSV)

plt.figure(figsize=(15,15))
plt.axis('off')
plt.imshow(cv2.cvtColor(estrada_hsv, cv2.COLOR_HSV2RGB))
# plt.imshow(estrada_hsv)

Verifique que fizemos uma operação para transformar o sistema de cores para seu representativo HSV (**H**ue [matriz], **S**aturation [saturação] e **V**alue [valor]).

Se os limites superior e inferior forem conhecidos, podemos criar um filtro capaz de segmentar a imagem da forma que desejamos, por exemplo:

In [None]:
# Os limítes inferior e superior para encontrar nossa região de interesse
azul_inferior = np.array([85, 60, 60], np.uint8)
azul_superior = np.array([150, 255, 255], np.uint8)

In [None]:
# inRange varre a estrutura buscando por pixels dentro de um certo limite de busca
# em nosso exemplo, executa um filtro de passa banda na imagem
mask_inverse = cv2.inRange(estrada_hsv, azul_inferior, azul_superior)
# Operação bit-a-bit na estrutura de dado
mask = cv2.bitwise_not(mask_inverse)

plt.figure(figsize=(15,15))
plt.axis('off')
plt.imshow(cv2.cvtColor(mask, cv2.COLOR_GRAY2RGB))

Podemos então realizar a subtração dos elementos que não compreendem a máscara criada, veja exemplo:

In [None]:
mask_rgb = cv2.cvtColor(mask, cv2.COLOR_GRAY2RGB)
masked_estrada = cv2.bitwise_and(estrada, mask_rgb)

plt.figure(figsize=(15,15))
plt.axis('off')
plt.imshow(cv2.cvtColor(masked_estrada, cv2.COLOR_BGR2RGB))

In [None]:
# Faz a imagem "sangrar" trocando os pixels [0, 0, 0] por seu relativo [1, 1, 1]
masked_replace_branco = cv2.addWeighted(masked_estrada, 1, cv2.cvtColor(mask_inverse, cv2.COLOR_GRAY2RGB), 1, 0)

plt.figure(figsize=(15,15))
plt.axis('off')
plt.imshow(cv2.cvtColor(masked_replace_branco, cv2.COLOR_BGR2RGB))

### Filtro Sobel

In [None]:
def aplica_sobel(imagem):
  
    img = cv2.imread(imagem, 0)

    # Aplica o kernel sobel em x e y na imagem original, calculando a magnitude
    # no final da operação
    sobel_x = cv2.Sobel(img, cv2.CV_64F, 1, 0)
    sobel_y = cv2.Sobel(img, cv2.CV_64F, 0, 1)
    sobel_g = np.sqrt(sobel_x**2 + sobel_y**2)
    sobel_g *= 255.0 / np.max(sobel_g)

    # Cria uma figura para 4 plots, plota em cada posição o resultado de cada
    # etapa do processamento acima
    plt.figure(1, figsize = (15, 15))
    plt.subplot(221),plt.imshow(img, cmap = 'gray')
    plt.title('Input Image'), plt.xticks([]), plt.yticks([])
    plt.subplot(222),plt.imshow(sobel_x, cmap = 'gray')
    plt.title('Sobel X'), plt.xticks([]), plt.yticks([])
    plt.subplot(223),plt.imshow(sobel_y, cmap = 'gray')
    plt.title('Sobel Y'), plt.xticks([]), plt.yticks([])
    plt.subplot(224),plt.imshow(sobel_g, cmap = 'gray')
    plt.title('Sobel G'), plt.xticks([]), plt.yticks([])
    plt.show()

In [None]:
aplica_sobel(img_lenna)

In [None]:
aplica_sobel(img_castelo)

### Desafio rápido

Aplique a função `aplica_sobel(img_entrada)` nas outras imagens carregadas, vamos discutir os resultados obtidos.

# Trabalhando com arquivos DICOM

## O que é DICOM?

- DICOM - Digital Imaging and Communications in Medicine;

- Conjunto de normas para tratamento, armazenamento e transmissão de informação médica (PROTOCOLO);
 - Padroniza a formatação das imagens diagnósticas como tomografias, ressonâncias magnéticas, radiografias, ultrassonografias, etc...;
  - Permite que imagens médicas e informações associadas sejam trocadas entre equipamentos de diagnóstico geradores de imagens, computadores e hospitais, ou seja, estabelece uma linguagem comum entre os equipamentos de diferentes marcas.

[Wikipedia](https://pt.wikipedia.org/wiki/DICOM)

## Protocolo?

- Convenção que controla e possibilita uma conexão, comunicação, transferência de dados entre dois sistemas computacionais.

- Define regras de sintaxe, semântica e sincronização da comunicação.

---

| Protocolo | Descrição |
|--|--|
| IP | [Internet Protocol](https://pt.wikipedia.org/wiki/Internet_Protocol "Internet Protocol") |
| HTTP | [Hypertext Transfer Protocol](https://pt.wikipedia.org/wiki/HTTP "HTTP") |
| POP3 | [Post Office Protocol](https://pt.wikipedia.org/wiki/Post_Office_Protocol "Post Office Protocol") |
| SMTP | [Simple Mail Transfer Protocol](https://pt.wikipedia.org/wiki/Simple_Mail_Transfer_Protocol "Simple Mail Transfer Protocol") |


## PyDICOM

In [None]:
# É necessário instalar o pacote pydicom pelo gerenciador de pacotes pip
!pip install pydicom

In [None]:
# Após isso, podemos importar o pacote
import pydicom
import pylab

In [None]:
# O método read_file permite carregar a estrutura de um arquivo em formato dicom (dcm)
dcmdata = pydicom.read_file('./img1.dcm')
print(dcmdata)

In [None]:
# pixel_array é a forma de consultar a posição onde na estrutura
# encontramos a imagem no arquivo dicom (campo Pixel Data da estrutura)
# Lembrando que o domínio de cores desta estrutura é descrito em (Photometric Interpretation)
dcmimg = dcmdata.pixel_array
print(dcmimg.dtype)
print(dcmimg.shape)

In [None]:
plt.figure(figsize=(20,10))
# plt.imshow(dcmimg)
plt.imshow(dcmimg, cmap='bone')
plt.axis('off')

### Desafio

Repita o processo acima para o arquivo img2.dcm

# Hello Word CNN - MNIST

O objetivo desta atividade é familiarizar o aluno com uma CNN. Utilizaremos  o dataset __MNIST__ para treinar uma CNN para classificar números manuscritos.

In [None]:
!pip uninstall tensorflow
!pip install tensorflow==1.15

In [None]:
from tensorflow.keras.models import Sequential, Model
from tensorflow.keras.layers import Dense, Activation, Dropout, Flatten, MaxPooling2D, Conv2D
from tensorflow.python.keras.utils import np_utils
from tensorflow.keras import backend as K
from tensorflow.keras.callbacks import ModelCheckpoint

from tensorflow.keras.datasets import mnist

import matplotlib.pyplot as plt
import cv2
import numpy as np

In [None]:
# Recebe os dados para treino e teste do dataset
(X_train, y_train), (X_test, y_test) = mnist.load_data()
nb_classes = 10

# Asseguro que a informação é do tipo float
X_train = X_train.astype('float32')
X_test = X_test.astype('float32')
# Modifico os limites da informação para respeitar um range entre 0...1
X_train /= 255
X_test /= 255

Y_train = np_utils.to_categorical(y_train, nb_classes)
Y_test = np_utils.to_categorical(y_test, nb_classes)

Vamos exibir algumas imagens deste dataset:

In [None]:
# plot simples de 10 exemplos de imagens no dataset
plt.figure(figsize=(10, 10))

for i in range(10):

    plt.subplot(1, 10, i + 1)
    plt.axis('off')
    plt.imshow(cv2.cvtColor(X_train[i], cv2.COLOR_GRAY2RGB))

plt.show()

In [None]:
img_rows, img_cols = 28, 28

# Asseguro que todas as estruturas respeitam o formato (28, 28, 1)
X_train = X_train.reshape(X_train.shape[0], img_rows, img_cols, 1)
X_test = X_test.reshape(X_test.shape[0], img_rows, img_cols, 1)
input_shape = (img_rows, img_cols, 1)

In [None]:
nb_filters = 32
kernel_size = (3, 3)
pool_size = (2, 2)

model = Sequential()

model.add(Conv2D(nb_filters, kernel_size, padding='same', input_shape=input_shape, activation='relu', name='Conv2DLayer1'))
model.add(Conv2D(nb_filters, kernel_size, padding='same',activation='relu', name='Conv2DLayer2'))
model.add(MaxPooling2D(pool_size=pool_size, padding="same", name='MaxPoolLayer3'))
model.add(Dropout(0.25))

model.add(Flatten())
model.add(Dense(units=128, activation='relu', name='DenseLayer4'))
model.add(Dropout(0.5))
model.add(Dense(units=nb_classes, activation='softmax', name='OutputLayer4'))

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

model.summary()

In [None]:
epochs = 5

checkpoint = ModelCheckpoint(filepath='model.hdf5', monitor='val_acc', verbose=True, save_best_only=True)

history = model.fit(X_train, Y_train, epochs=epochs, batch_size=128, validation_split=0.1, verbose=1, callbacks=[checkpoint])

In [None]:
model.load_weights('model.hdf5')

In [None]:
model.layers[:3]

In [None]:
output_camadas = [camada.output for camada in model.layers[:3]]

In [None]:
activations = Model(inputs=model.input, outputs=output_camadas)

In [None]:
# Código adaptado de Deep Learning With Python; François Chollet; Pg 164
def model_layers_output(imagem):

    activations_output = activations.predict([[imagem]])
    
    layers = list()
    
    for layer in model.layers[:3]:
        layers.append(layer.name)

    grid_imgs = 16

    for layer_name, activation_output in zip(layers, activations_output):
        features = activation_output.shape[-1]
        activation_size = activation_output.shape[1]
        numb_cols = features // grid_imgs
        display_grid = np.zeros((activation_size * numb_cols, grid_imgs * activation_size))
        
        for col in range(numb_cols):
            for row in range(grid_imgs):
                heatmap = activation_output[0, :, :, col * grid_imgs + row]
                heatmap -= heatmap.mean()
                heatmap /= heatmap.std()
                heatmap *= 64
                heatmap += 128
                heatmap = np.clip(heatmap, 0, 255)
                display_grid[col * activation_size : (col + 1) * activation_size, row * activation_size : (row + 1) * activation_size] = heatmap
                
        scale = 1. / activation_size
        plt.figure(figsize=(scale * display_grid.shape[1], scale * display_grid.shape[0]))
        plt.title(layer_name)
        plt.axis('off')
        plt.imshow(display_grid, aspect='auto')

In [None]:
model_layers_output(X_test[0])

In [None]:
model_layers_output(X_test[10])

In [None]:
model_layers_output(X_test[90])

In [None]:
model_layers_output(X_test[100])

In [None]:
# Função plota imagens onde a rede teve como output uma classificação errada
def mostrar_erros(predictions, trueclass=None, predictedclass=None, maxtoshow=10):
   
    rounded = np.argmax(predictions, axis=1)
    errors = rounded!=y_test

    ii = 0
    plt.figure(figsize=(maxtoshow, 1))
    for i in range(X_test.shape[0]):
        if ii>=maxtoshow:
            break
        if errors[i]:
            if trueclass is not None and y_test[i] != trueclass:
                continue
            if predictedclass is not None and predictions[i] != predictedclass:
                continue
            plt.subplot(1, maxtoshow, ii+1)
            plt.axis('off')
            plt.imshow(X_test[i,:,:,0], cmap="gray")
            # informando [classificação (saída correta)]
            plt.title("%d (%d)" % (rounded[i], y_test[i]))
            ii = ii + 1

In [None]:
preds = model.predict(X_test)

mostrar_erros(preds)

In [None]:
mostrar_erros(preds, trueclass = 0)

# Kmeans

Em nossa próxima atividade, vamos tentar segmentar uma imagem utilizando uma U-Net.

Para possibilitar o treinamento desta rede, precisamos criar máscaras de segmentação, ou seja, o que esperamos que a rede responda quando receber uma imagem para analisar.

Uma forma simples de fazer isso é aplicar K-means.

## Kmeans um exemplo

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from time import time
import cv2
import urllib

In [None]:
# Função cria estrutura de retorno da imagem, substituindo cada classe por seu
# valor relativo ao pixel dominante do cluster
def label_para_pixel(bloco, labels, l, a):
    dimensao = bloco.shape[1]
    imagem = np.zeros((l, a, dimensao))
    index = 0
    for i in range(l):
        for j in range(a):
            imagem[i][j] = bloco[labels[index]]
            index += 1
    return imagem

# Função aplica o modelo K-means na imagem com K número de pixel
def retorna_kmeans(n_cores, img_input):
    
    # Carrega a imagem, normaliza a estrutura para o range 0...1
    img = cv2.imread(img_input)
    img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    img = np.array(img, dtype = np.float64) / 255

    # assegura que todas as imagens têm 3 canais e modifica sua estrutura
    # para uma lista de vetores com 3 posições
    w, h, d = tuple(img.shape)
    assert d == 3
    image_array = np.reshape(img, (w * h, d))
    print(image_array.shape)

    # Treina um modelo K-means para encontrar os pixels mais dominantes na imagem
    # Label recebe a lista de outputs do modelo
    kmeans = KMeans(n_clusters = n_cores, random_state = 0).fit(image_array)
    labels = kmeans.predict(image_array)
 
    plt.figure(1, figsize = (15, 15))
    ax1 = plt.subplot(121)
    ax1.axis('off')
    ax1.set_title('Imagem original')
    ax1.imshow(img)

    ax2 = plt.subplot(122)
    ax2.axis('off')
    ax2.set_title('Imagem K-Means')
    ax2.imshow(label_para_pixel(kmeans.cluster_centers_, labels, w, h))

In [None]:
k_cores = 4

retorna_kmeans(k_cores, img_castelo)

In [None]:
YouTubeVideo('yR7k19YBqiw')

### Desafio

Repita o processo acima variando o número de k-clusters com as imagens carregadas nos exemplos anteriores.

In [None]:
!wget "https://github.com/pgiaeinstein/aula-10/raw/master/original_imgs.zip"
!unzip original_imgs.zip
!pip install tqdm

### Kmeans aplicado

Vamos aplicar a técnica demonstrada acima para gerar máscaras de uma série de imagens de células sanguíneas, veja que modificamos um pouco a função `label_para_pixel()` para que o output seja um resultante binário.

In [None]:
from sklearn.cluster import KMeans
import cv2

def label_para_pixel(bloco, labels, l, a):
    dimensao = bloco.shape[1]
    imagem = np.zeros((l, a, dimensao))
    index = 0
        
    if bloco[0][0] > bloco[1][0]:
        cor_cell = [1., 1., 1.]
        cor_fundo = [0., 0., 0.]
    else:
        cor_cell = [0., 0., 0.]
        cor_fundo = [1., 1., 1.]
    
    for i in range(l):
        for j in range(a):
            if labels[index] == 0:
                imagem[i][j] = cor_fundo
            else:
                imagem[i][j] = cor_cell
            index += 1
    return imagem

def retorna_kmeans(n_cores, img_path):
    
    img = cv2.imread(img_path)
    img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)

    img = np.array(img, dtype = np.float64) / 255

    w, h, d = tuple(img.shape)
    assert d == 3
    image_array = np.reshape(img, (w * h, d))

    kmeans = KMeans(n_clusters = n_cores, random_state = 0).fit(image_array)
    labels = kmeans.predict(image_array)
    img_mask = label_para_pixel(kmeans.cluster_centers_, labels, w, h)
    return img, img_rgb, img_mask
    
    
def plota_imagens(img, img_mask):
    plt.figure(1, figsize = (15, 15))
    ax1 = plt.subplot(121)
    ax1.axis('off')
    ax1.set_title('Imagem original')
    ax1.imshow(img)

    ax2 = plt.subplot(122)
    ax2.axis('off')
    ax2.set_title('Imagem K-Means')
    ax2.imshow(img_mask)

Vamos imprimir o resultado da clusterização de uma imagem:

In [None]:
img = './original_imgs/BloodImage_00002.jpg'

img, img_rgb, img_mask = retorna_kmeans(2, img)
plota_imagens(img_rgb, img_mask)

Vamos automatizar a criação de nossa base de treino e teste.

A função abaixo percorrerá todo o conteúdo da pasta de imagens original e aplicará o processo de clusterização separando em imagem original e máscara criada em duas pastas distintas para facilitar o _import_ dos dados no exercício futuro.

In [None]:
import os
import errno
from tqdm import tqdm

IMAGENS_PATH = './imgs_originais'
MASKS_PATH = './masks_lab'

WORK_PATH = './original_imgs'

try:
    os.makedirs(IMAGENS_PATH)
    os.makedirs(MASKS_PATH)
except OSError as e:
    if e.errno != errno.EEXIST:
        raise
        
lista_imagens = os.listdir(WORK_PATH)

for imagem in tqdm(lista_imagens):
    img_nome = imagem.replace('.jpg', '')
    img, _, img_mask = retorna_kmeans(2, os.path.join(WORK_PATH, imagem))
    cv2.imwrite(os.path.join(IMAGENS_PATH, '{0}.jpg'.format(img_nome)), img * 255)
    cv2.imwrite(os.path.join(MASKS_PATH, '{0}_mask.jpg'.format(img_nome)), img_mask * 255)

# CNN

Vamos implementar uma U-Net e nosso objetivo é conseguir segmentar as imagens de células sanguíneas que processamos no exemplo anterior.

In [None]:
!wget "https://github.com/pgiaeinstein/cnn/raw/master/imagens/bc.zip"
!unzip bc.zip

In [None]:
import os
import glob
import zipfile
import functools

import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import matplotlib as mpl

mpl.rcParams['axes.grid'] = False
mpl.rcParams['figure.figsize'] = (12,12)
mpl.style.use('fivethirtyeight')

from sklearn.model_selection import train_test_split
import matplotlib.image as mpimg
from PIL import Image

In [None]:
import os
import numpy as np
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
from PIL import Image
import functools

import tensorflow as tf
import tensorflow.contrib as tfcontrib
from tensorflow.python.keras import layers
from tensorflow.python.keras import losses
from tensorflow.python.keras import models
from tensorflow.python.keras import backend as K  

## Preparando os arquivos de entrada

Disponibilizamos um _zip_ contendo duas pastas (`imgs` e `masks`) uma contendo as imagens originais e outra as máscaras geradas pelo processo descrito acima.

O objetivo desta etapa é verificar se os diretórios foram carregados da maneira correta.

In [None]:
img_dir = './imgs'
label_dir = './masks'

In [None]:
X_train_imgs = os.listdir(img_dir)
y_train_filenames = os.listdir(label_dir)

In [None]:
X_train_imgs.sort()
y_train_filenames.sort()

In [None]:
X_train_imgs[:5]

In [None]:
y_train_filenames[:5]

In [None]:
for index, img_path in enumerate(X_train_imgs):
    X_train_imgs[index] = os.path.join(img_dir, img_path)
    
for index, img_path in enumerate(y_train_filenames):
    y_train_filenames[index] = os.path.join(label_dir, img_path)    

In [None]:
X_train_imgs, x_val_filenames, y_train_filenames, y_val_filenames = train_test_split(X_train_imgs, y_train_filenames, test_size=0.2, random_state=42)

In [None]:
X_train_imgs[:5]

In [None]:
y_train_filenames[:5]

Para verificar se as imagens estão sendo carregadas de forma correta, vamos mostrar 5 exemplos. A imagem original deve ser exibida ao lado de sua máscara correspondente.

In [None]:
num_train_examples = len(X_train_imgs)
num_val_examples = len(x_val_filenames)

In [None]:
display_num = 5

r_choices = np.random.choice(num_train_examples, display_num)

plt.figure(figsize=(10, 20))

for i in range(0, display_num * 2, 2):
    
    img_num = r_choices[i // 2]
    x_pathname = X_train_imgs[img_num]
    y_pathname = y_train_filenames[img_num]

    plt.subplot(display_num, 2, i + 1)
    plt.axis('off')
    plt.imshow(mpimg.imread(x_pathname))
    plt.title("Imagem original")

    example_labels = Image.open(y_pathname)
    label_vals = np.unique(example_labels)

    plt.subplot(display_num, 2, i + 2)
    plt.axis('off')
    plt.imshow(example_labels)
    plt.title("Máscara da imagem")  

plt.show()

### Configurações

Vamos definir como nossa rede será treinada.

1. `img_shape` configura qual é o shape do vetor de entrada da rede, as imagens fora deste padrão serão manipuladas.
2. `batch_size` configura o tamanho do batch para cada processamento realizado.
3. `epochs` configura o número de épocas de nossa rede.

In [None]:
img_shape = (256, 256, 3)
batch_size = 3
epochs = 5

Aqui iniciamos nossas funções auxiliares para realizar as operações de data _augmentation_.

O processo que será feito respeita a seguinte ordem:

1. A imagem é carregada junto de sua máscara. Uma verificação é realizada para garantir que a máscara possui conteúdo binário onde `0` representa "nada" e `1` identifica uma célula sanguínea.

2. A imagem é decodificada para uma matriz.

3. O processo de _augmentation_ é realizado:
    * `resize` configura qual a dimensão de input, caso a imagem esteja fora deste padrão, um redimensionamento será feito.
    * `hue_delta` ajusta o _hue_ das imagens em rgb utilizando um fator variante de 0 a 0.5. Apenas a imagem original sofre a modificação.
    * `horizontal_flip` rotaciona a imagem original em seu eixo central com uma probabilidade de 50%. Este processo deve ser aplicado tanto para a imagem original como para sua máscara.
    * `width_shift_range` e `height_shift_range` são as medidas (fração em altura e largura) que as imagens serão movimentadas de seu eixo central original. Este processo também deve ser realizado tanto na imagem original quanto em sua máscara.
    * `rescale` fator de redimensionamento da imagem.
    
4. Ordena os batchs de informação para garantir que a mesma sequência será utilizada nas épocas de processamento.

Esse pipeline ocorre para cada batch processado, isso é importante para garantir performance na utilização de recurso computacional.

In [None]:
# Este exemplo de pipeline pode ser encontrado na própria documentação do framework
def _process_pathnames(fname, label_path):
    
    img_str = tf.read_file(fname)
    img = tf.image.decode_jpeg(img_str, channels = 3)

    label_img_str = tf.read_file(label_path)
    label_img = tf.image.decode_gif(label_img_str)[0]
    label_img = label_img[:, :, 0]
    label_img = tf.expand_dims(label_img, axis = -1)
    
    return img, label_img

In [None]:
def shift_img(output_img, label_img, width_shift_range, height_shift_range):
    if width_shift_range or height_shift_range:
        if width_shift_range:
            width_shift_range = tf.random_uniform([], -width_shift_range * img_shape[1],
                                                  width_shift_range * img_shape[1])
        if height_shift_range:
            height_shift_range = tf.random_uniform([], -height_shift_range * img_shape[0],
                                                   height_shift_range * img_shape[0])
        output_img = tfcontrib.image.translate(output_img, [width_shift_range, height_shift_range])
        label_img = tfcontrib.image.translate(label_img, [width_shift_range, height_shift_range])
    
    return output_img, label_img

In [None]:
def flip_img(horizontal_flip, tr_img, label_img):
    if horizontal_flip:
        flip_prob = tf.random_uniform([], 0.0, 1.0)
        tr_img, label_img = tf.cond(tf.less(flip_prob, 0.5),
                                lambda: (tf.image.flip_left_right(tr_img), tf.image.flip_left_right(label_img)),
                                lambda: (tr_img, label_img))
    return tr_img, label_img

In [None]:
def _augment(img, label_img, resize = None, scale = 1, hue_delta = 0, horizontal_flip = False,
             width_shift_range = 0, height_shift_range = 0):
    
    if resize is not None:
        label_img = tf.image.resize_images(label_img, resize)
        img = tf.image.resize_images(img, resize)

    if hue_delta:
        img = tf.image.random_hue(img, hue_delta)

    img, label_img = flip_img(horizontal_flip, img, label_img)
    img, label_img = shift_img(img, label_img, width_shift_range, height_shift_range)
    label_img = tf.to_float(label_img) * scale
    img = tf.to_float(img) * scale
    
    return img, label_img

In [None]:
def get_baseline_dataset(filenames, labels, preproc_fn = functools.partial(_augment), threads = 5, 
                         batch_size = batch_size, shuffle = True):           
    num_x = len(filenames)
    dataset = tf.data.Dataset.from_tensor_slices((filenames, labels))
    dataset = dataset.map(_process_pathnames, num_parallel_calls=threads)
    if preproc_fn.keywords is not None and 'resize' not in preproc_fn.keywords:
        assert batch_size == 1, "Imagens no batch não respeitam as mesmas dimensões"

    dataset = dataset.map(preproc_fn, num_parallel_calls=threads)

    if shuffle:
        dataset = dataset.shuffle(num_x)


    dataset = dataset.repeat().batch(batch_size)
    return dataset

In [None]:
tr_cfg = {
    'resize': [img_shape[0], img_shape[1]],
    'scale': 1 / 255.,
    'hue_delta': 0.1,
    'horizontal_flip': True,
    'width_shift_range': 0.1,
    'height_shift_range': 0.1
}
tr_preprocessing_fn = functools.partial(_augment, **tr_cfg)

In [None]:
val_cfg = {
    'resize': [img_shape[0], img_shape[1]],
    'scale': 1 / 255.,
}
val_preprocessing_fn = functools.partial(_augment, **val_cfg)

In [None]:
train_ds = get_baseline_dataset(X_train_imgs, y_train_filenames,
                                preproc_fn = tr_preprocessing_fn, batch_size = batch_size)

val_ds = get_baseline_dataset(x_val_filenames, y_val_filenames, 
                              preproc_fn = val_preprocessing_fn, batch_size = batch_size)

Podemos verificar se o processo está funcionando de maneira adequada verificando o processamento de um primeiro batch:

In [None]:
temp_ds = get_baseline_dataset(X_train_imgs, y_train_filenames, preproc_fn = tr_preprocessing_fn,
                               batch_size = 1, shuffle = False)

data_aug_iter = temp_ds.make_one_shot_iterator()
next_element = data_aug_iter.get_next()

with tf.Session() as sess: 
    batch_of_imgs, label = sess.run(next_element)

    plt.figure(figsize=(10, 10))
    img = batch_of_imgs[0]

    plt.subplot(1, 2, 1)
    plt.axis('off')
    plt.imshow(img)

    plt.subplot(1, 2, 2)
    plt.axis('off')
    plt.imshow(label[0, :, :, 0])
    plt.show()

### CNN U-Net

Vamos criar nossa U-Net:

In [None]:
def conv_block(input_tensor, num_filters):
    encoder = layers.Conv2D(num_filters, (3, 3), padding = 'same')(input_tensor)
    encoder = layers.BatchNormalization()(encoder)
    encoder = layers.Activation('relu')(encoder)
    encoder = layers.Conv2D(num_filters, (3, 3), padding = 'same')(encoder)
    encoder = layers.BatchNormalization()(encoder)
    encoder = layers.Activation('relu')(encoder)
    return encoder

def encoder_block(input_tensor, num_filters):
    encoder = conv_block(input_tensor, num_filters)
    encoder_pool = layers.MaxPooling2D((2, 2), strides=(2, 2))(encoder)

    return encoder_pool, encoder

def decoder_block(input_tensor, concat_tensor, num_filters):
    decoder = layers.Conv2DTranspose(num_filters, (2, 2), strides=(2, 2), padding = 'same')(input_tensor)
    decoder = layers.concatenate([concat_tensor, decoder], axis=-1)
    decoder = layers.BatchNormalization()(decoder)
    decoder = layers.Activation('relu')(decoder)
    decoder = layers.Conv2D(num_filters, (3, 3), padding = 'same')(decoder)
    decoder = layers.BatchNormalization()(decoder)
    decoder = layers.Activation('relu')(decoder)
    decoder = layers.Conv2D(num_filters, (3, 3), padding = 'same')(decoder)
    decoder = layers.BatchNormalization()(decoder)
    decoder = layers.Activation('relu')(decoder)
    return decoder

In [None]:
inputs = layers.Input(shape = img_shape)
encoder0_pool, encoder0 = encoder_block(inputs, 32)
encoder1_pool, encoder1 = encoder_block(encoder0_pool, 64)
encoder2_pool, encoder2 = encoder_block(encoder1_pool, 128)
encoder3_pool, encoder3 = encoder_block(encoder2_pool, 256)
encoder4_pool, encoder4 = encoder_block(encoder3_pool, 512)
center = conv_block(encoder4_pool, 1024)
decoder4 = decoder_block(center, encoder4, 512)
decoder3 = decoder_block(decoder4, encoder3, 256)
decoder2 = decoder_block(decoder3, encoder2, 128)
decoder1 = decoder_block(decoder2, encoder1, 64)
decoder0 = decoder_block(decoder1, encoder0, 32)
outputs = layers.Conv2D(1, (1, 1), activation = 'sigmoid')(decoder0)

In [None]:
model = models.Model(inputs = [inputs], outputs = [outputs])

### Definindo métricas de loss

Aqui precisamos definir nossas funções para contabilizar o erro de saída. Vamos utilizar uma métrica conhecida como Dice Loss.

Dice Loss é uma métrica que mede qual é a sobreposição da máscara gerada pela máscara real. Para uma visão mais detalhada da métrica veja [este trabalho](http://campar.in.tum.de/pub/milletari2016Vnet/milletari2016Vnet.pdf) sobre segmentação volumétrica em imagens médicas.

In [None]:
def dice_coeff(y_true, y_pred):
    smooth = 1.0
    y_true_f = tf.reshape(y_true, [-1])
    y_pred_f = tf.reshape(y_pred, [-1])
    intersection = tf.reduce_sum(y_true_f * y_pred_f)
    score = (2. * intersection + smooth) / (tf.reduce_sum(y_true_f) + tf.reduce_sum(y_pred_f) + smooth)
    return score

In [None]:
def dice_loss(y_true, y_pred):
    loss = 1 - dice_coeff(y_true, y_pred)
    return loss

In [None]:
def bce_dice_loss(y_true, y_pred):
    loss = losses.binary_crossentropy(y_true, y_pred) + dice_loss(y_true, y_pred)
    return loss

In [None]:
model.compile(optimizer = 'adam', loss = bce_dice_loss, metrics = [dice_loss])
model.summary()

### Treinamento

Por ser um processo lento, vamos configurar um arquivo onde o melhor resultado obtido será salvo, desta maneira, podemos carregar este modelo num futuro para realizar novos testes caso necessário.

In [None]:
model_path = './modelo_bc_V1.hdf5'

cp = tf.keras.callbacks.ModelCheckpoint(filepath = model_path, 
                                        monitor = 'val_dice_loss', 
                                        save_best_only = True, 
                                        verbose = True)

In [None]:
history = model.fit(train_ds, 
                    steps_per_epoch = int(np.ceil(num_train_examples / float(batch_size))),
                    epochs = epochs,
                    validation_data = val_ds,
                    validation_steps = int(np.ceil(num_val_examples / float(batch_size))),
                    callbacks = [cp])

In [None]:
dice = history.history['dice_loss']
val_dice = history.history['val_dice_loss']

loss = history.history['loss']
val_loss = history.history['val_loss']

epochs_range = range(epochs)

plt.figure(figsize = (16, 8))
plt.subplot(1, 2, 1)
plt.plot(epochs_range, dice, label = 'Dice Loss - Treinamento')
plt.plot(epochs_range, val_dice, label = 'Dice Loss - Validação')
plt.legend(loc='upper right')
plt.title('Dice Loss - Treino e Validação')

plt.subplot(1, 2, 2)
plt.plot(epochs_range, loss, label = 'Loss - Treinamento')
plt.plot(epochs_range, val_loss, label = 'Loss - Validação')
plt.legend(loc='upper right')
plt.title('Loss - Treino e Validação')

plt.show()

In [None]:
model = models.load_model(model_path, custom_objects={'bce_dice_loss': bce_dice_loss,
                                                      'dice_loss': dice_loss})

### Resultados

Podemos agora verificar qual é o resultado de saída da rede.

Vamos plotar a imagem original, sua máscara original e a máscara de saída da rede para comparar os resultados.

In [None]:
data_aug_iter = val_ds.make_one_shot_iterator()
next_element = data_aug_iter.get_next()

plt.figure(figsize=(20, 20))
for i in range(6):
    batch_of_imgs, label = tf.keras.backend.get_session().run(next_element)
    img = batch_of_imgs[0]
    predicted_label = model.predict(batch_of_imgs)[0]

    plt.subplot(6, 3, 3 * i + 1)
    plt.imshow(img)
    plt.axis('off')
    plt.title("Imagem de entrada")

    plt.subplot(6, 3, 3 * i + 2)
    plt.imshow(label[0, :, :, 0])
    plt.axis('off')
    plt.title("Máscara real")
    plt.subplot(6, 3, 3 * i + 3)
    plt.imshow(predicted_label[:, :, 0])
    plt.axis('off')
    plt.title("Output do modelo")
plt.show()