# QUESTÃO 3 - CATS-DOGS BINARY CLASSIFICATION 
### Caio Lucas Mesquita de Moraes

A classificação binária proposta será resolvida usando o algoritmo de CNN (Convolutional Neural Networks). Devido as limitações de hardware do meu laptop (Lenovo i3, 4gb RAM), usei a VM do _Google Colab_ para compilar o código. Lá podemos usar GPUs de forma gratuita, desde que o uso seja feito com bom senso.

O dataset original utilizado pode ser obtido no link **www.kaggle.com/c/dogs-vs-cats/data** (dataset de uma competição). As imagens do dataset são JPEGs coloridos de resolução média.  Para fins de maior velocidade na compilação do código, apenas um subconjunto do dataset foi utilizado. O dataset original possui 25000 imagens de gatos e cachorros (12500 de cada classe), mas usaremos apenas 2000 imagens (2000 de cada classe para treino +  1000 para validation). Cada divisão tem o mesmo número de amostras de cada classe. Por ser um dataset "balanceado", a acurácia será uma boa medida de sucesso da classificação.

O subconjunto das imagens também foi obtido por meio da internet e o download pode ser feito por meio do link **https://storage.googleapis.com/mledu-datasets/cats_and_dogs_filtered.zip**.  

### PREPROCESSING DATA

Antes de alimentarmos a rede convolucional, os dados precisam ser formatados de forma apropriada em tensores (multi-arrays). Isso consiste em decodificar as imagens em JPEG para grids de pixels do padrão RGB, convertê-los em tensores de ponto flutuante e re-escalar os valores dos pixels (0-255) para o intervalo [0, 1], devido as redes neurais tratarem melhor dados de entrada com valores pequenos.

Outro pré-processamento se dá através do que é chamado _Data Augmentation_. Esse processo é usado para fazer com que o modelo convolucional possa ser exposto a mais aspectos variados do dataset, realizando modificações angulares, _flips_ horizontais e verticais, entre outras transformações. O que resulta disso é que o modelo se "encaixa" ( _fit_ ) melhor nos dados de treino e generaliza melhor para novos dados ainda não vistos pela rede, evitando o que é chamado de _overfitting_ , que é quando o modelo é complexo demais, tem alta variância, e acaba sendo impreciso com dados não-vistos.     

Para tanto, podemos usar a Keras, que possui um módulo com ferramentas para o pré-processamento de imagens localizado em _keras.preprocessing.image_. com a classe _ImageDataGenerator_ que vai tornar as imagens em _batches_ de tensores pré-processados.    

### Obtenção do dataset filtrado e definição dos diretórios

Com a célula abaixo faz-se o 'mount' do Google Drive, do qual você pode usar a pasta que contém o dataset (pasta chamada "cats_dogs_dataset", já dividida em train, validation e test). Na célula seguinte a esta, organizamos os diretórios de treino e validação. 

In [None]:
from google.colab import drive, files
drive.mount('/content/drive')

In [None]:
import os


base_dir = '/content/drive/My Drive/cats_dogs_dataset/'  
train_dir = os.path.join(base_dir, 'train')
validation_dir = os.path.join(base_dir, 'validation')
test_dir = os.path.join(base_dir, 'teste/test_folder')


# Diretório com gatos para etapa de treino
train_cats_dir = os.path.join(train_dir, 'cats')

# Diretório com cachorros para etapa de treino
train_dogs_dir = os.path.join(train_dir, 'dogs')

# Diretório com gatos para etapa de validação
validation_cats_dir = os.path.join(validation_dir, 'cats')

# Diretório com cachorros para etapa de validação
validation_dogs_dir = os.path.join(validation_dir, 'dogs')

train_cat_fnames = os.listdir(train_cats_dir)
train_dog_fnames = os.listdir(train_dogs_dir)

### DATA AUGMENTATION PARA CONFIGURAÇÃO DOS DADOS PRÉ-PROCESSADOS

In [None]:
# Re-escala, rotaciona, translaciona, transformação 'shear'
# zoom e 'flip' horizontal 
train_datagen = ImageDataGenerator(
    rescale=1./255,
    rotation_range=40,
    width_shift_range=0.2,
    height_shift_range=0.2,
    shear_range=0.2,
    zoom_range=0.2,
    horizontal_flip=True,)

val_datagen = ImageDataGenerator(rescale=1./255)

# Imagens de treino em 32 batches de 20 samples cada, usando o gerador train_datagen
train_generator = train_datagen.flow_from_directory(
        train_dir,  # Fonte do diretório para training examples
        target_size=(150, 150),  # Imagens formatadas para 150x150
        batch_size=20,
        # Since we use binary_crossentropy loss, we need binary labels
        class_mode='binary')

# Imagens de validação em 32 batches de 20 samples cada, usando o gerador val_datagen
validation_generator = val_datagen.flow_from_directory(
        validation_dir,
        target_size=(150, 150),
        batch_size=20,
        class_mode='binary')


### IMPLEMENTAÇÃO DO MODELO

O modelo utilizado possui 3 _conv layers_ , 3 _max pooling_ layers, uma camada _fully connected_ com ativação por ReLU e a última camada de resultado softmax, que gera as probabilidades estimadas de classe.
Foi adicionado um _dropout_ também no modelo com o objetivo de evitar _overfitting_ ( _dropout_ se compara com a regularização L2).

In [None]:
from tensorflow.keras import layers
from tensorflow.keras import Model
from tensorflow.keras.optimizers import RMSprop

# Feature map de entrada com dimensões 150x150x3: 150x150 para pixels das imagens, e 3 para os 3 canais de cor: R, G e B
img_input = layers.Input(shape=(150, 150, 3))

# Primeira convolução extrai 16 filtros que são 3x3
# Convolução é seguida por camada max-pooling com uma janela 2x2 
x = layers.Conv2D(16, 3, activation='relu')(img_input)
x = layers.MaxPooling2D(2)(x)

# Segunda convolução extrai 32 filtros que são 3x3
# Convolução é seguida por camada max-pooling com uma janela 2x2 
x = layers.Conv2D(32, 3, activation='relu')(x)
x = layers.MaxPooling2D(2)(x)

# Terceira convolução extrai 64 filtros que são 3x3
# Convolução é seguida por camada max-pooling com uma janela 2x2 
x = layers.Convolution2D(64, 3, activation='relu')(x)
x = layers.MaxPooling2D(2)(x)

# Nivela o feature map em tensor unidimensional 
x = layers.Flatten()(x)

# Cria camada fully connected com ativação ReLU e 512 hidden units
x = layers.Dense(512, activation='relu')(x)

# Adiciona o dropout
x = layers.Dropout(0.5)(x)

# Cria camada de saída com 1 nó apenas e ativação com função sigmoid
# Usa-se a sigmoid devido o problema ser binário 
output = layers.Dense(1, activation='sigmoid')(x)

# Configura e compila o modelo
model = Model(img_input, output)
model.compile(loss='binary_crossentropy',
              optimizer=RMSprop(lr=0.001),       # Usa o método de otimização RMSprop com learning rate de 0.001  
              metrics=['acc'])   # métrica: acurácia

### FIT DO MODELO NOS DADOS

Para treinar o modelo convolucional, usamos o método _fit_generator_. Nele configuramos a quantidade de _epochs_ (número de iterações pelo dataset inteiro) e a quantidade de _batches_ (conjuntos de samples a partir da divisão do dataset, uma vez que não se costuma passar todo o dataset de uma vez para a rede). 

Nota: o número de epochs (valor atual = 30) pode ser aumentado ou diminuído para um melhor ou menor desempenho do modelo, respectivamente. 

In [None]:
history = model.fit_generator(
      train_generator,
      steps_per_epoch=100,   # batches
      epochs=60,
      validation_data=validation_generator,   # dados de validação
      validation_steps=50,    # batches dos dados de validação
      verbose=2)

In [None]:
model.save('cats_dogs_model.h5')  # salva o modelo

### AVALIAÇÃO DOS RESULTADOS

Como já foi dito, para o problema proposto a acurácia é uma boa medida de sucesso do modelo. A função de perda (loss function) também é usada como parâmetro de sucesso para os modelos. Neste caso, ela precisa ser minimizada. Na célula abaixo está o código que plota as medidas de treino para o modelo. 

O modelo implementado não obteve uma grande precisão (~ 75%) devido a pouca quantidade de dados e também porque não foram usadas as outras técnicas que podem melhorar o desempenho da rede. Na técninca e.g. de _feature extraction_ se usa redes que já foram treinadas em outros datasets bem maiores e que foram aplicadas em problemas correlacionados com o problema que você está tentando solucionar; por sua vez, é executada adicionando uma rede customizada na rede já treinada, depois "congelando" a rede-base (não atualizando os pesos) e treinando a parte que foi adicionada. A técnica complementar a _feature extraction_ é a de _fine tuning_ que consiste em "descongelar" as camadas na rede-base e treinar as duas redes: rede-base e rede customizada que foi adicionada. 

In [None]:
# Lista de resultados sobre dados de treinamento e validação
# para cada 'epoch' de treino
acc = history.history['acc']
val_acc = history.history['val_acc']

loss = history.history['loss']
val_loss = history.history['val_loss']

# Número de epochs
epochs = range(len(acc))

# Plota precisão de treino e validação por epoch
plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.title('Training and validation accuracy')

plt.figure()

# Plota 'loss' de treino e validação por epoch
plt.plot(epochs, loss, 'bo', label='Training loss')
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title('Training and validation loss')

### TESTE COM DADOS NOVOS 


In [None]:
from PIL import Image
from keras.preprocessing.image import load_img
from keras.preprocessing.image import img_to_array, array_to_img
import matplotlib.pyplot as plt
import numpy as np
import os


test_images_fnames = os.listdir(test_dir)    # nome dos diretórios das imagens usadas no teste 
img_path = [] 

for i in range(len(test_images_fnames)):
    
    img_path = os.path.join(test_dir, test_images_fnames[i])
    img = load_img(img_path, target_size=(150, 150))  # imagem PIL 

    plt.figure()
    plt.imshow(img)
    plt.tick_params(top=False, bottom=False, left=False, right=False, labelleft=False, labelbottom=False)

    x = img_to_array(img)  # Numpy array com formato (150, 150, 3)
    x = x.reshape((1,) + x.shape)  # Numpy array com formato (1, 150, 150, 3)
    p = model.predict(x)
    p = np.array(p)
    
    if p < 1:
        plt.title('cat')
    else:
        plt.title('dog')
        
        
                                                                                                                        #SDG