## Convolução

um diferencial da CNN é que eles assumem explicitamente que as entradas são imagens, o que nos permite codificar certas propriedades na arquitetura para reconhecer elementos específicos nas imagens.

Fontes: 
* http://cs231n.github.io/convolutional-networks/
* https://towardsdatascience.com/convolutional-neural-networks-for-beginners-practical-guide-with-python-and-keras-dc688ea90dca
* https://towardsdatascience.com/basic-concepts-of-neural-networks-1a18a7aa2bd2

### Processo de convolução

* camadas densas aprendem padrões globais em seu espaço de features de entrada (por exemplo, para um dígito MNIST, padrões envolvendo todos os pixels)
* camadas de convolução aprendem padrões locais: no caso de imagens, padrões encontrados em pequenas janelas 2D das entradas. 

* Os padrões que aprendem são invariantes à translação. Depois de aprender um determinado padrão no canto inferior direito da imagem, uma convnet pode reconhecê-lo em qualquer lugar: por exemplo, no canto superior esquerdo. 

* Uma rede densamente conectada teria que aprender o padrão novamente se aparecesse em um novo local. Isso torna os dados de convolução eficientes no processamento de imagens (porque o mundo visual é fundamentalmente invariável na tradução): 

* eles precisam de menos amostras de treinamento para aprender representações que têm poder de generalização.


CNNs aprendem hierarquias espaciais de padrões. 
* Uma primeira camada de convolução aprenderá pequenos padrões locais, como arestas, uma segunda camada de convolução aprenderá padrões maiores feitos dos recursos das primeiras camadas, e assim por diante. 

* Isso permite que os convnets aprendam com eficiência conceitos visuais cada vez mais complexos e abstratos (porque o mundo visual é fundamentalmente espacialmente hierárquico).


As convoluções operam sobre tensores 3D, chamados feature maps, com dois eixos espaciais (altura e largura) e um eixo de profundidade (também chamado de eixo de canais). 
* Para uma imagem RGB, a dimensão do eixo de profundidade é 3, porque a imagem possui três canais de cores: vermelho, verde e azul. 

* Para uma imagem em preto e branco, a profundidade é 1 (níveis de cinza). 

* A operação de convolução extrai patches de seu mapa de recursos de entrada e aplica a mesma transformação a todos esses patches, produzindo um mapa de recursos de saída. 

* Esse mapa de recursos de saída ainda é um tensor 3D: possui largura e altura. Sua profundidade pode ser arbitrária, porque a profundidade de saída é um parâmetro da camada e os diferentes canais nesse eixo de profundidade não representam mais cores específicas como na entrada RGB; em vez disso, eles representam filtros. 

* Os filtros codificam aspectos específicos dos dados de entrada: em um nível alto, um único filtro pode codificar o conceito "presença de uma face na entrada", por exemplo.


### As convoluções são definidas por dois parâmetros principais:

* Tamanho das amostras extraídas das entradas - geralmente são 3 × 3 ou 5 × 5. (3 × 3 é uma escolha comum).
* Profundidade do mapa de features de saída - O número de filtros calculados pela convolução. 

* Uma convolução funciona deslizando essas janelas de tamanho 3 × 3 ou 5 × 5 sobre o mapa de features de entrada 3D, parando em todos os locais possíveis e extraindo o patch 3D de recursos circundantes (forma (altura da janela, largura da janela, profundidade da entrada)). 

* Cada uma dessas formas 3D são transformadas (por meio de um produto tensorial com a mesma matriz de pesos aprendida, chamada de núcleo de convolução) em um vetor de forma 1D (profundidade_de_ saída). 

* Todos esses vetores são remontados espacialmente em um mapa de saída 3D da forma (altura, largura, profundidade_de_ saída). 

* Cada localização espacial no mapa de recursos de saída corresponde ao mesmo local no mapa de recursos de entrada

Efeitos de borda e padding (preenchimento)

## Normalmente após uma operação de convolução é comum ser realizada uma operação de pooling

* as camadas de pool simplificam as informações coletadas pela camada convolucional e criam uma versão condensada das informações nelas contidas.
  * Para uma janelas de pontos no espaço 2d é gerado um único ponto
    * Valor máximo da janela (Maxpooling)
    * Valor médio da janela (MaxAverage)
    



## Arquitetura Básica de uma rede convolucional
* Utilizando camadas Conv e maxpool


In [66]:
!pip install -U PIL

Defaulting to user installation because normal site-packages is not writeable
[31mERROR: Could not find a version that satisfies the requirement PIL (from versions: none)[0m
[31mERROR: No matching distribution found for PIL[0m


In [63]:
!pip search pil

hangar-pil (0.3.2)               - PIL plugin for hangar
Pillow-PIL (0.1dev)              - Pillow wrapper for PIL compatibility
pil-compat (1.0.0)               - Compatibility modules, bridging PIL ->
                                   Pillow
segno-pil (0.1.6)                - PIL/Pillow plugin for the Segno (Micro) QR
                                   Code generator
SSIM-PIL (1.0.10)                - Comparison of two images using the
                                   structural similarity algorithm (SSIM).
                                   It's compatible with the PIL.
PIL (1.1.6)                      - Python Imaging Library
pidi-display-pil (0.1.0)         - pidi plugin for display output using PIL.
Pil-Lite (0.1.1)                 - Python Imaging Library Lite
m3-PIL (1.1.7)                   - Python Imaging Library
django-media-pil (1.0.0)         - Simple widget for image manipulations by
                                   pillow in the Django Admin
large-image-source-pil 

In [9]:
import pathlib

import tensorflow as tf
import numpy as np

import IPython.display as display
#from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
import os
import pathlib


from tensorflow.keras import layers
from tensorflow.keras import models

from tensorflow.keras.datasets import mnist
from tensorflow.keras.utils import to_categorical

from tensorflow.keras.preprocessing.image import ImageDataGenerator

print(tf.test.gpu_device_name())
print(tf.__version__)

/device:GPU:0
2.2.0-dev20200325


## Exemplo de CNN

In [None]:
model = models.Sequential()
model.add(layers.Conv2D(32,(5,5),activation='relu',
                                 input_shape=(28, 28,1)))
model.add(layers.MaxPooling2D((2, 2)))
model.summary()

## Segundo modelo com mais camadas

In [None]:
model = models.Sequential()
model.add(layers.Conv2D(32,(5,5),activation='relu', input_shape=(28,28,1)))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(64, (5, 5), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))
model.summary()

## Normalmente, redes CNNs são compostas por uma sequência de camadas de comvolução e pooling
* Após esse sequência é normal uma camada densa com ativação softmax para classificação

In [None]:
model = models.Sequential()
model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(64, (3, 3), activation='relu'))

In [None]:
model.add(layers.Flatten())
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dense(10, activation='softmax'))

In [None]:
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()

train_images = train_images.reshape((60000, 28, 28, 1))
train_images = train_images.astype('float32') / 255

test_images = test_images.reshape((10000, 28, 28, 1))
test_images = test_images.astype('float32') / 255

train_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)

In [None]:
model.compile(optimizer='rmsprop',
              loss='categorical_crossentropy',
              metrics=['accuracy'])
model.fit(train_images, train_labels, epochs=5, batch_size=64)

In [None]:
test_loss, test_acc = model.evaluate(test_images, test_labels)

In [None]:
test_acc

## Obtendo dados de entrada a partir de arquivos

In [30]:
#!ls ../dogsCatsDB/cats/train
!ls ../dogsCatsDB/cats/train

cat.10447.jpg  cat.10627.jpg  cat.10807.jpg  cat.10988.jpg  cat.11167.jpg
cat.10448.jpg  cat.10628.jpg  cat.10808.jpg  cat.10989.jpg  cat.11168.jpg
cat.10449.jpg  cat.10629.jpg  cat.10809.jpg  cat.1099.jpg   cat.11169.jpg
cat.1045.jpg   cat.1063.jpg   cat.1081.jpg   cat.10990.jpg  cat.1117.jpg
cat.10450.jpg  cat.10630.jpg  cat.10810.jpg  cat.10991.jpg  cat.11170.jpg
cat.10451.jpg  cat.10631.jpg  cat.10811.jpg  cat.10992.jpg  cat.11171.jpg
cat.10452.jpg  cat.10632.jpg  cat.10812.jpg  cat.10993.jpg  cat.11172.jpg
cat.10453.jpg  cat.10633.jpg  cat.10813.jpg  cat.10994.jpg  cat.11173.jpg
cat.10454.jpg  cat.10634.jpg  cat.10814.jpg  cat.10995.jpg  cat.11174.jpg
cat.10455.jpg  cat.10635.jpg  cat.10815.jpg  cat.10996.jpg  cat.11175.jpg
cat.10456.jpg  cat.10636.jpg  cat.10816.jpg  cat.10997.jpg  cat.11176.jpg
cat.10457.jpg  cat.10637.jpg  cat.10817.jpg  cat.10998.jpg  cat.11177.jpg
cat.10458.jpg  cat.10638.jpg  cat.10818.jpg  cat.10999.jpg  cat.11178.jpg
cat.10459.jpg  cat.10639.j

In [36]:
# All images will be rescaled by 1./255
train_datagen = ImageDataGenerator(rescale=1./255)
test_datagen = ImageDataGenerator(rescale=1./255)

#train_dir='../dogsCatsDB/cats/train'
#validation_dir='../dogsCatsDB/cats/validation'

base_dir = '../dogsCatsDB/'
train_dir = os.path.join(base_dir, 'train')
print(train_dir)
print('total training cat images:', len(os.listdir(train_dir)))

train_generator = train_datagen.flow_from_directory(
        train_dir, # This is the target directory
        target_size=(150, 150), # All images will be resized to 150x150
        batch_size=20,
        class_mode='binary') # Since we use binary_crossentropy loss, we need binary labels

#validation_generator = test_datagen.flow_from_directory(
#        validation_dir,
#        target_size=(150, 150),
#        batch_size=20,
#        class_mode='binary')

../dogsCatsDB/train
total training cat images: 21000
Found 0 images belonging to 0 classes.


5.2 - Usando convnets com pequenos conjuntos de dados

Treinar redes convolucionais com poucos dados é comum, desde que seja uma amostra significativa

Treino do modelo com uma convnet simples Treino usando data augmentation (para resolver problema de overfit)

Na próxima seção

feature extraction com uma rede pré-treinada
fine-tuning com uma rede pré-treinada
Dataset para Deep Learning

Normalmente são executados com base em grandes conjuntos de dados
Para processamento de imagens, em muitos casos, alguns exemplos podem ser suficientes para generalizar um problema
Porque convnets aprendem features locais que são translation-invariant, portanto são eficientes em generalizar um problema
Outro aspecto das redes neurais, é que devido a capacidade de generalização, em alguns casos, é comum que uma rede seja reutilizada para que seja feito aprofundamento em outros domínios


In [37]:

data_dir = tf.keras.utils.get_file(origin='https://storage.googleapis.com/download.tensorflow.org/example_images/flower_photos.tgz',
                                         fname='flower_photos', untar=True)
data_dir = pathlib.Path(data_dir)

image_count = len(list(data_dir.glob('*/*.jpg')))
print("Quantidade de imagens no diretório",image_count)

CLASS_NAMES = np.array([item.name for item in data_dir.glob('*') if item.name != "LICENSE.txt"])
print("Quantidade de classes",  CLASS_NAMES)

image_generator = tf.keras.preprocessing.image.ImageDataGenerator(rescale=1./255)

BATCH_SIZE = 32
IMG_HEIGHT = 224
IMG_WIDTH = 224
STEPS_PER_EPOCH = np.ceil(image_count/BATCH_SIZE)

train_data_gen = image_generator.flow_from_directory(directory=str(data_dir),
                                                     batch_size=BATCH_SIZE,
                                                     shuffle=True,
                                                     target_size=(IMG_HEIGHT, IMG_WIDTH),
                                                     classes = list(CLASS_NAMES))

Quantidade de imagens no diretório 3670
Quantidade de classes ['daisy' 'tulips' 'dandelion' 'sunflowers' 'roses']
Found 3670 images belonging to 5 classes.


In [38]:
print(type(train_data_gen))

<class 'keras_preprocessing.image.directory_iterator.DirectoryIterator'>


In [39]:
def show_batch(image_batch, label_batch):
  plt.figure(figsize=(10,10))
  for n in range(25):
      ax = plt.subplot(5,5,n+1)
      plt.imshow(image_batch[n])
      plt.title(CLASS_NAMES[label_batch[n]==1][0].title())
      plt.axis('off')
      #print(image_batch[n])

In [40]:
image_batch, label_batch = next(train_data_gen)
#print(image_batch.shape )
#print(label_batch.shape)
show_batch(image_batch, label_batch)

ImportError: Could not import PIL.Image. The use of `load_img` requires PIL.

In [41]:
list_ds = tf.data.Dataset.list_files(str(data_dir/'*/*'))
for f in list_ds.take(5):
  print(f.numpy())

b'/tmp/.keras/datasets/flower_photos/tulips/486896118_bcc7b8e1d6.jpg'
b'/tmp/.keras/datasets/flower_photos/daisy/14921511479_7b0a647795.jpg'
b'/tmp/.keras/datasets/flower_photos/roses/5717319579_190e85c7d1_m.jpg'
b'/tmp/.keras/datasets/flower_photos/roses/2265579414_2e00a8f265_n.jpg'
b'/tmp/.keras/datasets/flower_photos/daisy/10437754174_22ec990b77_m.jpg'


In [42]:
def get_label(file_path):
  # convert the path to a list of path components
  parts = tf.strings.split(file_path, os.path.sep)
  # The second to last is the class-directory
  return parts[-2] == CLASS_NAMES

def decode_img(img):
  # convert the compressed string to a 3D uint8 tensor
  img = tf.image.decode_jpeg(img, channels=3)
  # Use `convert_image_dtype` to convert to floats in the [0,1] range.
  img = tf.image.convert_image_dtype(img, tf.float32)
  # resize the image to the desired size.
  return tf.image.resize(img, [IMG_WIDTH, IMG_HEIGHT])

def process_path(file_path):
  label = get_label(file_path)
  # load the raw data from the file as a string
  img = tf.io.read_file(file_path)
  img = decode_img(img)
  return img, label

In [43]:
AUTOTUNE = tf.data.experimental.AUTOTUNE
print(AUTOTUNE)

-1


In [44]:
labeled_ds = list_ds.map(process_path, num_parallel_calls=AUTOTUNE)

In [19]:
type(labeled_ds)

tensorflow.python.data.ops.dataset_ops.ParallelMapDataset

**Preparando** dataset em arquivos para treino

In [45]:
def prepare_for_training(ds, cache=True, shuffle_buffer_size=1000):
  # This is a small dataset, only load it once, and keep it in memory.
  # use `.cache(filename)` to cache preprocessing work for datasets that don't
  # fit in memory.
  if cache:
    if isinstance(cache, str):
      ds = ds.cache(cache)
    else:
      ds = ds.cache()

  ds = ds.shuffle(buffer_size=shuffle_buffer_size)

  # Repeat forever
  ds = ds.repeat()

  ds = ds.batch(BATCH_SIZE)

  # `prefetch` lets the dataset fetch batches in the background while the model
  # is training.
  ds = ds.prefetch(buffer_size=AUTOTUNE)

  return ds

In [46]:
filecache_ds = prepare_for_training(labeled_ds, cache="./flowers.tfcache")

In [47]:

data_dir = tf.keras.utils.get_file(origin='https://storage.googleapis.com/download.tensorflow.org/example_images/flower_photos.tgz',
                                         fname='flower_photos', untar=True)
data_dir = pathlib.Path(data_dir)

In [50]:
from tensorflow.keras import optimizers

model = models.Sequential()
model.add(layers.Conv2D(32, (3, 3), activation='relu',
                        input_shape=(150, 150, 3)))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(128, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(128, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Flatten())
model.add(layers.Dense(512, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))



model.compile(loss='binary_crossentropy',
              optimizer=optimizers.RMSprop(lr=1e-4),
              metrics=['acc'])



In [52]:
history = model.fit_generator(
      train_data_gen, #train_generator,
      steps_per_epoch=100,
      epochs=30) #,
      #validation_data=validation_generator,
      #validation_steps=50)

ImportError: Could not import PIL.Image. The use of `load_img` requires PIL.

In [None]:
image_count = len(list(data_dir.glob('*/*.jpg')))
image_count

In [None]:
import numpy as np
CLASS_NAMES = np.array([item.name for item in data_dir.glob('*') if item.name != "LICENSE.txt"])
CLASS_NAMES

In [None]:
roses = list(data_dir.glob('roses/*'))

for image_path in roses[:3]:
    display.display(Image.open(str(image_path)))

In [None]:
# The 1./255 is to convert from uint8 to float32 in range [0,1].
image_generator = tf.keras.preprocessing.image.ImageDataGenerator(rescale=1./255)

In [None]:
BATCH_SIZE = 32
IMG_HEIGHT = 224
IMG_WIDTH = 224
STEPS_PER_EPOCH = np.ceil(image_count/BATCH_SIZE)

In [None]:
train_data_gen = image_generator.flow_from_directory(directory=str(data_dir),
                                                     batch_size=BATCH_SIZE,
                                                     shuffle=True,
                                                     target_size=(IMG_HEIGHT, IMG_WIDTH),
                                                     classes = list(CLASS_NAMES))

In [None]:
def show_batch(image_batch, label_batch):
  plt.figure(figsize=(10,10))
  for n in range(25):
      ax = plt.subplot(5,5,n+1)
      plt.imshow(image_batch[n])
      plt.title(CLASS_NAMES[label_batch[n]==1][0].title())
      plt.axis('off')

In [None]:
image_batch, label_batch = next(train_data_gen)
show_batch(image_batch, label_batch)

In [None]:
list_ds = tf.data.Dataset.list_files(str(data_dir/'*/*'))

In [None]:
for f in list_ds.take(5):
  print(f.numpy())

In [None]:
def get_label(file_path):
  # convert the path to a list of path components
  parts = tf.strings.split(file_path, os.path.sep)
  # The second to last is the class-directory
  return parts[-2] == CLASS_NAMES

In [None]:
def decode_img(img):
  # convert the compressed string to a 3D uint8 tensor
  img = tf.image.decode_jpeg(img, channels=3)
  # Use `convert_image_dtype` to convert to floats in the [0,1] range.
  img = tf.image.convert_image_dtype(img, tf.float32)
  # resize the image to the desired size.
  return tf.image.resize(img, [IMG_WIDTH, IMG_HEIGHT])

In [None]:
def process_path(file_path):
  label = get_label(file_path)
  # load the raw data from the file as a string
  img = tf.io.read_file(file_path)
  img = decode_img(img)
  return img, label

In [None]:
from __future__ import absolute_import, division, print_function, unicode_literals
import tensorflow as tf
AUTOTUNE = tf.data.experimental.AUTOTUNE

In [None]:
# Set `num_parallel_calls` so multiple images are loaded/processed in parallel.
labeled_ds = list_ds.map(process_path, num_parallel_calls=AUTOTUNE)