# Universidade Federal do ABC - UFABC
## Centro de Matemática, Computação e Cognição - CMCC

## Disciplina: Visão Computacional e Processamento de Imagens

Responsável: Prof. Dr. Francisco Zampirolli

Estudante: [Bruno Aristimunha](https://github.com/bruAristimunha).

Santo André, Terceiro Quadrimestre de 2019

### Projeto Final da Disciplina

#### Classificação de Grão de Pólen.

## Definição do Problema

Os grãos de pólen são importantes marcadores geológicos e geográficos presentes em todo o globo. Suas aplicações são diversas, mas dentre as mais comuns podemos citar o uso para a perícia investigativa, o mapeamento do clima em função de milhares de anos e estudos alérgicos, além da produção de alimentos à base de mel. Em todas as áreas citadas, para que se obtenha resultados significativos de análises robustas, faz-se necessário o levantamento estatístico da distribuição dos tipos de pólen presentes em uma amostra.

Considerando a diversidade, as semelhanças interespécies e características microscópicas, o reconhecimento de cada espécie demanda uma ampla e longa formação botânica. O processo de aquisição está exposto a seguir na Figura 1.
![aquisicao](https://raw.githubusercontent.com/bruAristimunha/pollenData/master/figs/capture-pipeline.png)

#### Figura 01: Processo de aquisição dos grãos de pólen. Inicialmente a amostra é capturada em uma lâmina, há ampliação da imagem no microscópio posteriormente, busca-se focalizar o grão e estudar sua morfologia, classificando a espécie.

O processo não trivial de aquisição da imagem demanda tempo, custos em materiais, além de técnica e anos de experiência para classificação. Ademais, dependendo do material usado para aquisição pode haver visualizações distintas para a mesma espécie de pólen. A Figura 2 mostra a diferença entre metodologias de captura de imagens.

In [1]:
from skimage import io
import matplotlib.pyplot as plt
url1 = "https://raw.githubusercontent.com/bruAristimunha/pollenData/master/figs/solvent2.png"
url2 = "https://raw.githubusercontent.com/bruAristimunha/pollenData/master/figs/solvent1.png"

fig = plt.figure(figsize=(20,20))

image1 = io.imread(url1)
image2 = io.imread(url2)

plt.subplot(221).imshow(image1)
plt.subplot(222).imshow(image2)
plt.show()


<Figure size 2000x2000 with 2 Axes>

#### Figura 02: A diferença entre solventes gera uma coloração totalmente distinta quando visualizada no microscópio, empecilhos como esses dificultam a generalização da classificação do biólogo.


O aprendizado profundo é o conjunto de técnicas comumente utilizadas em visão computacional para busca de
representações hierárquicas de dados. Métodos de camadas convolucionais, permitem solucionar inúmeros problemas da visão computacional pela sua invariância translacional e conectividade local. Em outras palavras, empregamos esse conjunto de técnicas para buscar padrões de formação desconhecidos a priori pelo classificador, que só será descoberto durante o aprendizado.

## Dados/imagens

Será utilizado um banco de imagens de polens nativos do Mato Grosso do Sul. Por se tratar de um objeto de geometria tridimensional, as diferentes angulações influenciam tanto na classificação do especialista quanto em algoritmos tradicionais de classificação, portanto cada grão possui 35 imagens distintas.

O conjunto de dados possui [23](http://palinovic.weebly.com/bancos-de-imagens.html) classes balanceadas, com um total de 805 imagens. Técnicas de aumento de dados nas imagens serão largamente empregadas. Optou-se pelo aumento de dados empregando rotações de 45º, traçando um paralelo com a literatura botânica, que emprega rotações de 45º na captura de imagens. Por se tratar de um objeto de geometria tridimensional levantou-se a hipótese de que essas rotações auxiliariam na generalização dos métodos. Será considerada a divisão: treino, validação e teste, sendo 60, 20 e 20 a porcentagem de cada uma de acordo com a quantidade de imagens. 


## Processamento de imagens


In [8]:
per_train = 0.6
per_test = 0.2
per_validation = 0.2
seed_split_folder = 42


#model
img_width, img_height = 299, 299
train_data_dir = "../data/pollen23e_split/train"
validation_data_dir = "../data/pollen23e_split/validation"
batch_size = 64
epochs = 10
#otim
lr=0.0001
momentum=0.9

#data_generate
seed = 42



#indice do modelo testado
indice = 3

Nesse primeiro momento realizando uma separação do conjunto de dados em 

In [3]:
import split_folders

# Split with a ratio.
# To only split into training and validation set, set a tuple to `ratio`, i.e, `(.8, .2)`.
split_folders.ratio('../data/pollen23e/', output="../data/pollen23e_split", seed=seed_split_folder, ratio=(per_train, per_test, per_validation)) # default values


Copying files: 801 files [00:01, 657.94 files/s]


In [4]:
#Bibliotecas empregadas na análise

from tensorflow.keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras import optimizers
from tensorflow.keras.models import Sequential, Model
from tensorflow.keras.layers import Dropout, Flatten, Dense, GlobalAveragePooling2D
from tensorflow.keras import backend as k
from tensorflow.keras.callbacks import ModelCheckpoint, LearningRateScheduler, TensorBoard, EarlyStopping


In [5]:
#Biblioteca para impressão do versionamento das bibliotecas importadas. Importante para reprodutibilidade do trabalho
%load_ext watermark
print("\nSistema\n")
%watermark
print("\nBibliotecas\n")
%watermark --iversions


Sistema

2019-11-26T02:33:06-03:00

CPython 3.7.4
IPython 7.9.0

compiler   : GCC 9.2.0
system     : Linux
release    : 5.3.8-3-MANJARO
machine    : x86_64
processor  : 
CPU cores  : 8
interpreter: 64bit

Bibliotecas




In [6]:
from tensorflow.keras.applications import DenseNet121, DenseNet169, DenseNet201, InceptionResNetV2, InceptionV3, MobileNet, MobileNetV2, NASNetLarge, NASNetMobile, ResNet101, ResNet101V2, ResNet152, ResNet152V2, ResNet50, ResNet50V2, VGG16, VGG19, Xception

from tensorflow.keras.layers import Dense

models       = [DenseNet121, DenseNet169, DenseNet201, InceptionResNetV2, InceptionV3, MobileNet, MobileNetV2, NASNetLarge, NASNetMobile, ResNet101, ResNet101V2, ResNet152, ResNet152V2, ResNet50, ResNet50V2, VGG16, VGG19, Xception]
models_name =  ['DenseNet121','DenseNet169','DenseNet201','InceptionResNetV2','InceptionV3','MobileNet','MobileNetV2','NASNetLarge','NASNetMobile','ResNet101','ResNet101V2','ResNet152','ResNet152V2','ResNet50','ResNet50V2','VGG16','VGG19','Xception']


In [7]:
from keras import backend as K

K.tensorflow_backend._get_available_gpus()

Using TensorFlow backend.


[]

In [9]:
train_datagen = ImageDataGenerator(
           rotation_range=45,
           width_shift_range=0.1,
           height_shift_range=0.1,
           shear_range=0.01,
           zoom_range=[0.9,1.25],
           horizontal_flip=True,
           vertical_flip=True,
           fill_mode='reflect',
           data_format='channels_last',
           brightness_range=[0.5, 1.5])

test_datagen = ImageDataGenerator()

train_generator = train_datagen.flow_from_directory(
                        '../data/pollen23e_split/train',
                        target_size = (img_height, img_width),
                        batch_size = batch_size,
                        save_to_dir = '../data/pollen23e_aug/train',
                        save_prefix='aug', 
                        save_format='png',
                        class_mode = "categorical",
                        follow_links = True,
                        seed = seed)

validation_generator = train_datagen.flow_from_directory(
                        '../data/pollen23e_split/val',
                        target_size = (img_height, img_width),
                        batch_size = batch_size,
                        class_mode = "categorical",
                        save_to_dir = '../data/pollen23e_aug/valid',
                        save_prefix='aug', 
                        save_format='png',
                        follow_links = True,
                        seed = seed)

test_generator = test_datagen.flow_from_directory(
                        '../data/pollen23e_split/test',
                        target_size = (img_height, img_width),
                        batch_size = batch_size,
                        class_mode = 'categorical',
                        save_to_dir = '../data/pollen23e_aug/test',
                        save_prefix='aug', 
                        save_format='png',
                        follow_links = True,
                        seed = seed)




Found 480 images belonging to 23 classes.
Found 160 images belonging to 23 classes.
Found 161 images belonging to 23 classes.


In [17]:
#!ls ../data/
!rm ../data/pollen23e_aug/train/*


pollen23e  pollen23e_aug  pollen23e_split


In [None]:
for enum, model in enumerate(models[:1]):
    
    # Save the model according to the conditions
    checkpoint = ModelCheckpoint("checkpoints/"+models_name[enum], 
                                 monitor='val_loss', verbose=1, save_best_only=True, 
                                 save_weights_only=False, mode='auto', save_freq=1)
    
    model = models[enum](weights     = "imagenet", 
                         include_top = False, 
                         input_shape = (img_width, img_height, 3))
    #Adicionando um camada adicional
    
    
    x = model.output
    x = Flatten()(x)
    predictions = Dense(23, activation="softmax",use_bias=False)(x)
    
    # Camada final
    model = Model(model.input,predictions)
    # compile the model
    model.compile(loss = "categorical_crossentropy", 
                  optimizer = optimizers.SGD(lr=lr, momentum=momentum), 
                  metrics=["accuracy"])

    
    history_acc = model.fit_generator(
                train_generator,
                steps_per_epoch = train_generator.samples/batch_size,
                epochs = epochs,
                callbacks = [checkpoint],
                validation_data = validation_generator,
                validation_steps = validation_generator.samples/batch_size)
    
    model.save("checkpoint_"+models_name[enum]+".h5")
    


https://www.google.com/search?q=reprodutibility+in+computer+science+jupyter&oq=reprodutibility+in+computer+science+jupyter&aqs=chrome..69i57j33.9207j0j7&sourceid=chrome&ie=UTF-8


https://keras.io/applications/#resnet

https://github.com/jupyter-guide/ten-rules-jupyter/blob/e7b184c4949d164ce12eb5fdfbc8c8cd487b8a23/example2/0-Workflow.ipynb

https://github.com/nteract/papermill



### Referências

- Gonçalves, Ariadne Barbosa, et al. ["Feature extraction and machine learning for the classification of Brazilian Savannah pollen grains."](https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0157044) PloS one 11.6 (2016): e0157044.

- Navares, Ricardo, and José Luis Aznarte. ["Geographical Imputation of Missing Poaceae Pollen Data via Convolutional Neural Networks."](https://www.mdpi.com/2073-4433/10/11/717) Atmosphere 10.11 (2019): 717.

- Menad, Hanane, Farah Ben-Naoum, and Abdelmalek Amine. ["A Thresholding Approach for Pollen Detection in Images Based on Simulated Annealing Algorithm."](https://www.igi-global.com/article/a-thresholding-approach-for-pollen-detection-in-images-based-on-simulated-annealing-algorithm/237182) International Journal of Agricultural and Environmental Information Systems (IJAEIS) 10.4 (2019): 18-36.

- Gallardo-Caballero, Ramón, et al. ["Precise Pollen Grain Detection in Bright Field Microscopy Using Deep Learning Techniques."](https://www.mdpi.com/1424-8220/19/16/3583) Sensors 19.16 (2019): 3583.

- Vizgarra, Cristian G., Informaticas Avanzadas, and Jorge Gotay Sardiñas. ["Advances in the Classification of Pollen Grains Images Obtained from Honey Samples of Tetragonisca angustula in the Province of Chaco, Argentina."](https://ijisrt.com/wp-content/uploads/2019/07/IJISRT19JU564.pdf)

- de Geus, André R., et al. ["Large-scale Pollen Recognition with Deep Learning."](https://ieeexplore.ieee.org/abstract/document/8902735) 2019 27th European Signal Processing Conference (EUSIPCO). IEEE, 2019.

- Allen, G. P., et al. ["Machine vision for automated optical recognition and classification of pollen grains or other singulated microscopic objects."](https://ieeexplore.ieee.org/abstract/document/4749537/) 2008 15th International Conference on Mechatronics and Machine Vision in Practice. IEEE, 2008.

- Menad, Hanane, Ben-Naoum, Farah, & Amine, Abdelmalek (2019). ["Deep Convolutional Neural Network for Pollen Grains Classification"](http://ceur-ws.org/Vol-2351/paper_34.pdf). In _JERI_.

- Nguyen, Nhat Rich, Matina Donalson-Matasci, and Min C. Shin. ["Improving pollen classification with less training effort."](https://ieeexplore.ieee.org/abstract/document/6475049/) 2013 IEEE Workshop on Applications of Computer Vision (WACV). IEEE, 2013.

- Sevillano, Víctor, and José L. Aznarte. ["Improving classification of pollen grain images of the POLEN23E dataset through three different applications of deep learning convolutional neural networks."](https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0201807) PloS one 13.9 (2018): e0201807.

- Oteros, J., et al. ["Year clustering analysis for modelling olive flowering phenology."](https://link.springer.com/article/10.1007/s00484-012-0581-3) International journal of biometeorology 57.4 (2013): 545-555.

- Holt, K., et al. ["Progress towards an automated trainable pollen location and classifier system for use in the palynology laboratory."](https://www.sciencedirect.com/science/article/pii/S0034666711001205) Review of Palaeobotany and Palynology 167.3-4 (2011): 175-183.

- Valan, Miroslav, et al. ["Automated Taxonomic Identification of Insects with Expert-Level Accuracy Using Effective Feature Transfer from Convolutional Networks."](https://academic.oup.com/sysbio/article/68/6/876/5368535) Systematic biology (2019).