# Melhorando o modelo

Nesta seção vamos ver como refinar os parâmetros do osso modelo, de forma que ele atinja melhor generalização. Note que as técnicas que vamos ver aqui dão resultados mais visiveis com problemas mais complexos que nmist. Contudo, vamos focar no nmist para manter os experimentos em tempos razoáveis.

## Nosso baseline: rede convolutiva em Keras

Tipicamente, o projeto de uma rede neural começa com projetos que já foram mostrados bem sucedidos em problemas similares e com parâmetros que, em geral, funcionam bem. A ideia é obter um desempenho razoável para um baseline e, então, melhorá-lo até conseguir o máximo possível.

Nós vamos começar com a arquitetura abaixo, implementada com o Keras.

In [1]:
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets('MNIST_data', one_hot = True)

Extracting MNIST_data/train-images-idx3-ubyte.gz
Extracting MNIST_data/train-labels-idx1-ubyte.gz
Extracting MNIST_data/t10k-images-idx3-ubyte.gz
Extracting MNIST_data/t10k-labels-idx1-ubyte.gz


In [3]:
# basic class for specifying and training a neural network
from keras.models import Model 
from keras.layers import Input, Dense, Flatten, \
    Convolution2D, MaxPooling2D, Dropout

batch_size = 128 # 128 training examples at once per iter
num_epochs = 12 # we iterate twelve times over the entire training set
kernel_size = 3 # we will use 3x3 kernels throughout
pool_size = 2 # we will use 2x2 pooling throughout
conv_depth = 32 # use 32 kernels in both convolutional layers
drop_prob_1 = 0.25 # dropout after pooling with probability 0.25
drop_prob_2 = 0.5 # dropout in the FC layer with probability 0.5
hidden_size = 128 # there will be 128 neurons in both hidden layers

num_train = 55000 # there are 55000 training examples in MNIST
num_test = 10000 # there are 10000 test examples in MNIST

height, width, depth = 28, 28, 1 # MNIST images are 28x28 and greyscale
num_classes = 10 # there are 10 classes (1 per digit)

# fetch MNIST data
X_train = mnist.train.images
Y_train = mnist.train.labels
X_test  = mnist.test.images
Y_test  = mnist.test.labels

X_train = X_train.reshape(X_train.shape[0], depth, height, width)
X_test = X_test.reshape(X_test.shape[0], depth, height, width)
X_train = X_train.astype('float32')
X_test = X_test.astype('float32')

# Using theano ordering -- channel dimension first
inp = Input(shape=(depth, height, width)) 
# Conv [32] -> Conv [32] -> Pool (with dropout on the pooling layer)
conv_1 = Convolution2D(conv_depth, kernel_size, kernel_size, 
                       border_mode='same', activation='relu')(inp)
conv_2 = Convolution2D(conv_depth, kernel_size, kernel_size, 
                       border_mode='same', activation='relu')(conv_1)
pool_1 = MaxPooling2D(pool_size=(pool_size, pool_size), 
                      dim_ordering="th")(conv_2)
drop_1 = Dropout(drop_prob_1)(pool_1)
flat = Flatten()(drop_1)
# Hidden ReLU layer
hidden = Dense(hidden_size, activation='relu')(flat) 
drop = Dropout(drop_prob_2)(hidden)
# Output softmax layer
out = Dense(num_classes, activation='softmax')(drop) 

# To define a model, just specify its input and output layers
model = Model(input=inp, output=out) 

# using the cross-entropy loss function
model.compile(loss='categorical_crossentropy', 
              optimizer='adam', # using the Adam optimiser
              metrics=['accuracy']) # reporting the accuracy

# Train the model using the training set...
# ...holding out 10% of the data for validation
model.fit(X_train, Y_train, 
          batch_size=batch_size, nb_epoch=num_epochs,
          verbose=1, validation_split=0.1)
# Evaluate the trained model on the test set!
model.evaluate(X_test, Y_test, verbose=1) 

Train on 49500 samples, validate on 5500 samples
Epoch 1/12
Epoch 2/12
Epoch 3/12
Epoch 4/12
Epoch 5/12
Epoch 6/12
Epoch 7/12
Epoch 8/12
Epoch 9/12
Epoch 10/12
Epoch 11/12
Epoch 12/12

[0.043455511234607551, 0.98499999999999999]

Como podemos ver, esse modelo atingiu um desempenho próximo a 99%. Nós vamos ver agora várias estratégias que, em geral, são usadas para melhorar este resultado.

## Regularização $L_2$

Na tentativa de reduzir o erro no treino, o método pode sofrer de **overfitting**, como ilustrado na figura a seguir. 

![](images/plotsin.png)

Anteriormente, vimos como usar *dropout* para minimizar overfitting. Entre vários outros regularizadores, um muito usado é o $L_2$ ou _decaimento de peso_.

A ideia do $L_2$ é tirar complexidade do modelo ao penalizar pesos que atingem valores muito altos. Para tanto, ele minimiza a norma $L_2$ do peso usando um hiperparâmetro $\lambda$ que especifica a importância da minimização da norma.

Para introduzir esse regularizador, nós adicionamos à função de custo o fator $\frac{\lambda}{2}||\vec{w}||^2 = \frac{\lambda}{2}\sum_{i=0}^{W} {w_i^2}$ (o valor $1/2$ é usado apenas para facilitar o cálculo da derivada durante as atualizações do backpropagation). A função passa a ser algo como $\mathcal{L}(\vec{\hat{y}}, \vec{y}) + \frac{\lambda}{2}\sum_{i=0}^{W} {w_i^2}$ (em nosso caso, $\mathcal{L}$ corresponde à entropia cruzada). 

O valor de $\lambda$ é importante. Para valores muito baixos, o regularizador não opera; para muitos altos, o modelo ótimo irá ter todos os pesos = 0. Vamos usar $\lambda = 0.0001$ em nosso caso; adicionamos ele ao modelo importanto l2 e setando o parâmetro `W_regularizer` na camda desejada:

In [4]:
from keras.regularizers import l2 # L2-regularisation
# ...
l2_lambda = 0.0001
# ...
# This is how to add L2-regularisation to any Keras 
# layer with weights (e.g. Convolution2D/Dense)
conv_1 = Convolution2D(conv_depth, kernel_size, 
                       kernel_size, border_mode='same', 
                       W_regularizer=l2(l2_lambda), activation='relu')(inp)

## Inicialização da rede

Um dos aspectos mais importantes de aprendizagem profunda, em geral, são os valores iniciais dos pesos. Às vezes, a escolha apropriada de pesos é a diferença entre desempenho magnífico e nem conseguir convergir. De fato, se iniciarmos os pesos todos com zero, não há aprendizado já que provalvelmente nenhum peso vai ficar ativo. Inicialização uniforme entre $\pm 1$ também não é normalmente o melhor a fazer.  

Entre os esquemas existentes, vamos discutir dois muito usados:
- [*Xavier*](http://jmlr.org/proceedings/papers/v9/glorot10a/glorot10a.pdf) (também chamado *Glorot*): A ideia chave aqui é facilitar a passagem do sinal pela camada tanto na ida quanto na volta, **quando a ativação for linear** (este método funciona bem também para *sigmoid* porque o intervalo em que ela é *não saturada* é quase linear). Os pesos são obtidos de uma distribuição de probabilidade (uniforme ou normal) com variância igual a: $\mathrm{Var}(W) = \frac{2}{n_{\mathrm{in}} + n_{\mathrm{out}}}$, onde $n_{\mathrm{in}}$ e $n_{\mathrm{out}}$ são o número de neurônios na camada anterior e seguinte, respectivamente.
- [*He*](https://arxiv.org/pdf/1502.01852.pdf): Esta é uma adaptação do esquema anterior especificamente para a função **ReLU**. Ele compensa o fato de que esta ativação é zero para metade do espaço de entrada possível. Assim, $\mathrm{Var}(W) = \frac{2}{n_{\mathrm{in}}}$ nesse caso.

Para derivar a variância para inicialização de Xavier basta observar o que ocorre com a variância da saída de um neurônio linear (ignorando o bias), baseado na variância das suas entradas, assumingo que pesso e entradas _não são correlacionados_ e e ambos são _média zero_:

$$\mathrm{Var}\left(\sum_{i=1}^n w_i x_i\right) = \sum_{i=1}^{n_\mathrm{in}} \mathrm{Var}(w_ix_i) = \sum_{i=1}^{n_\mathrm{in}} \mathrm{Var}(W)\mathrm{Var}(X) = n_\mathrm{in}\mathrm{Var}(W)\mathrm{Var}(X)$$

Ou seja, para preservar a variância da entrada depois de passar pela camada, $\mathrm{Var}(W) = \frac{1}{n_\mathrm{in}}$. Se aplicarmos o mesmo argumento no caso da atualização durante a backpropagation obtemos que $\mathrm{Var}(W) = \frac{1}{n_\mathrm{out}}$. Como estas duas restrições não podem ser satisfeitas ao mesmo tempo, nós definimos a variância como a média das duas, ou seja, $\mathrm{Var}(W) = \frac{2}{n_\mathrm{in} + n_\mathrm{out}}$, o que funciona normalmente muito bem na prática.

Estes dois esquemas funcionam bem para quase todas as redes, exceto as recorrentes, onde é melhor considerar uma inicialização [*ortogonal*](http://arxiv.org/pdf/1312.6120v3.pdf). 

Para incluir uma inicialização particular para uma camada em Keras, você deve especificar um parâmetro `init` para ela. Em nosso exemplo, vamos usar o esquema He (`he_uniform`) para as camadas ReLU e o Xavier uniforme (`glorot_uniform`) para a camada softmax (já que ela é apenas uma generalização da função logística para múltiplas entradas).

In [None]:
# Add He initialisation to a layer
conv_1 = Convolution2D(conv_depth, kernel_size, kernel_size, 
                       border_mode='same', 
                       init='he_uniform', W_regularizer=l2(l2_lambda), 
                       activation='relu')(inp)
# Add Xavier initialisation to a layer
out = Dense(num_classes, init='glorot_uniform', 
            W_regularizer=l2(l2_lambda), activation='softmax')(drop)

## Batch normalisation

De todas as técnicas descritas aqui, a mais importante é a **batch normalisation**, um método descrito por [Ioffe and Szegedy](https://arxiv.org/abs/1502.03167) para acelerar o treinamento de redes neurais. Ela é baseada num simples modo de falha que atrapalha o treinamento de redes neurais: _à medida que o sinal se propaga pela rede, mesmo se normalizado na entrada, ele pode acabar completamente enviesado em alguma camada oculta, tanto em termos de variância quanto média_ (efeito conhecido como *deriva interna da covariância*). Isto resulta em grandes discrepâncias entre as atualizações de gradientes ao longo de diferentes camadas. Como resultado, somos mais conservadores com a taxa de aprendizado e aplicamos regularizadores mais fortes, o que desacelera o treino.

Batch normalisation propõe a normalização das ativações de uma camada para média zero e variância 1, através do batch de dados passando pela rede (ou seja, no treino, nós normalizamos pelos `batch_size` exemplos e, no teste, normalizamos considerando estatísticas derivadas do _treino todo_---uma vez que não conhecemos os dados de teste com antecedência). Nós calculamos a média e a variância para um batch particular de ativações $\mathcal{B} = \{x_1, \dots, x_m\}$ assim:

$$\begin{align*}\mu_{\mathcal{B}} &= \frac{1}{m}\sum_{i=1}^{m}x_i \\ \sigma_\mathcal{B}^2 &= \frac{1}{m}\sum_{i=1}^{m}\left(x_i - \mu_\mathcal{B}\right)^2\end{align*}$$

Nós então usamos estas estatísticas para transformar as ativações de forma que elas tenham média zero e variância um:

$$\hat{x}_i = \frac{x_i - \mu_\mathcal{B}}{\sqrt{\sigma_\mathcal{B}^2 + \varepsilon}}$$

onde $\varepsilon > 0$ é um pequeno valor que nos protege de divisão por zero (no caso do desvio padrão do batch ser muito pequeno ou mesmo zero). Finalmente, para obter a ativação final $y$, precisamos estar certos que nenhuma propriedade de generalizaçao foi perdida ao executar a normalização---e desde que as operações feitas foram um deslocamento (média) e um escalonamento (desvio), nós permitimos um deslocamento e um escalonamento arbitrários dos valores normalizados para obter o valor final (isso permite a rede, por exemplo, voltar aos valores originais se ela os considerar mais úteis):

$$y_i = \gamma\hat{x}_i + \beta$$

onde $\beta$ e $\gamma$ são parâmetros *treináveis* da operação de batch normalization (otimizáveis via gradiente descendente nos dados de treino). Esta generalização significa que batch normalisation pode se aplicada diretamente às _entradas_ da rede neural (dado que a presença desses parâmetros permite à rede assumir uma estatística de entrada diferente da que nós selecionamos através do processamento manual dos dados).

Este método, quando aplicado às camadas de uma rede convolutiva quase sempre levam a maior velocidade do aprendizado. Eles também agem como ótimos regularizadores, nos permitindo um cuidado maior na escolha da taxa de aprendizado, na importância do $L_2$ e uso do dropout (tornando-o muitas vezes completamente desnecessário). Esta regularização ocorre como consequência do fato de que a saída de um único exemplo *não é mais determinística* (já que ela depende do batch inteiro a qual ela pertence), ajudando a rede a generalizar melhor.

Note que no artigo original, os autores usam batch normalisation *antes* de aplicar a função de ativação do neurônio (nas combinações lineares computadas dos dados de entrada). Contudo, [em resultados recentes](http://arxiv.org/abs/1511.06422) observou-se que poderia ser mais benéfico (e, no mínimo, tao bom quanto) aplicá-la *depois*, o que é feito aqui.

Em Keras, batch normalisation corresponde a uma camada: `BatchNormalization`, para a qual podemos fornecer alguns parâmetros. O mais importante deles é o `axis` (sobre que eixo dos dados as estatísticas deveriam ser computadas). Em particular, quando trabalhando com camadas de convolução, queremos normalizar através dos canais individuais, logo `axis = 1`.

In [None]:
# batch normalisation
from keras.layers.normalization import BatchNormalization 
# ...
# apply BN to the input (N.B. need to rename here)
inp_norm = BatchNormalization(axis=1)(inp) 
# conv_1 = Convolution2D(...)(inp_norm)
# apply BN to the first conv layer
conv_1 = BatchNormalization(axis=1)(conv_1) 

## Enriquecimento de dados

Algumas vezes, é importante também refinar a coleção de treino, especialmente em tarefas de reconhecimento.

Em geral, esperamos que o modelo permaneça invariante diante de possíveis níveis de distorção, tais como deslocamentos, rotações e redimensionamentos. Como o modelo é aprendido do treino que fornecemos para ele, pode ser útil introduzir tais distorções nos dados de treino, mesmo que _artificialmente_.

Assim, antes de dar um exemplo para a rede, nós podemos tranformá-lo de forma apropriada, dando oportunidade para rede ver estes exemplos distorcidos e, assim, lidar melhor com eles se encontrados em coleções reais. A figura abaixo mostra exemplos de distorções aplicadas a dígitos na coleção MNIST:

deslocado  |  deslocado | esticado | deslocado & aumentado | rotacionado & reduzido
:-------------------------:|:-------------------------:|:-------------------------:|:-------------------------:|:-------------------------:
![](images/t_4_1.bmp) | ![](images/t_4_2.bmp) | ![](images/t_4_3.bmp) | ![](images/t_4_4.bmp) | ![](images/t_4_5.bmp)

Keras fornece uma interface para enriquecimento de imagens:  `ImageDataGenerator`. Nós iniciamos esta classe com os tipos de transformações que queremos e então passamos os dados de treino pelo gerador, chamando o método `fit` seguido do método `flow`, que retorna um iterator infinito sobre os batches enriquecidos. Keras também oferece um método `model.fit_generator` que permite treinar diretamente o modelo usando este iterador, simplificando significativamente o código. Neste caso, como não há o parâmetro `validation_split`, é necessário separar o conjunto de validação manualmente.

Em nosso exemplo, vamos aplicar deslocamentos aleatórios horizontais e verticais nos dados. `ImageDataGenerator` também suporta rotações, mudanças de tamanho, espelhamentos e esticamentos/achatamentos. Com exceção dos espelhamentos, todas estas seriam mudanças esperadas em um processo de reconhecimento de caracteres.

In [None]:
# data augmentation
from keras.preprocessing.image import ImageDataGenerator 
# ... after model.compile(...)
# Explicitly split the training and validation sets
X_val = X_train[54000:]
Y_val = Y_train[54000:]
X_train = X_train[:54000]
Y_train = Y_train[:54000]

datagen = ImageDataGenerator(
    # randomly shift images horizontally (fraction of total width)
    width_shift_range=0.1, 
    # randomly shift images vertically (fraction of total height)
    height_shift_range=0.1) 
datagen.fit(X_train)

# fit the model on the batches generated by datagen.flow()
# ---most parameters similar to model.fit
model.fit_generator(datagen.flow(X_train, Y_train,
                        batch_size=batch_size),
                        samples_per_epoch=X_train.shape[0],
                        nb_epoch=num_epochs,
                        validation_data=(X_val, Y_val),
                        verbose=1)

## Ensembles

Um aspecto interessante de redes neurais é que, treinadas sob diferentes condições inciais, elas podem exibir _propriedades discriminativas_ diferentes para diferentes classes: ou seja, classificam melhor certas classes; se confundem mais com outras. No caso de MNIST, uma rede poderia ser muito boa em diferenciar o 3 e o 5; mas ao mesmo tempo ruim em diferenciar 1 e 7; outra rede, poderia ter o comportamento inverso.

Estas discrepâncias podem ser exploradas por **ensembles** na própria arquitetura! Em lugar de criar um modelo, vários com diferentes condições iniciais são combinados para termos a resposta no fim. Neste exemplo, vamos fazer isso com três modelos diferentes. As diferenças entre as arquiteturas podem ser vistas na figura a seguir ([fonte: Keras](https://keras.io/visualization/)):

Baseline (with BN)                     |  Ensemble
:-------------------------:|:-------------------------:
![](images/base.png)  |  ![](images/ens.png)

O Keras fornece uma maneira fácil de combinar modelos - nós podemos colocar os modelos em um laço, extraindo deles as saídas para uma camada final que os combina usando `merge`.

In [None]:
from keras.layers import merge # for merging predictions in an ensemble
# ...
ens_models = 3 # we will train three separate models on the data
# ...
# Apply BN to the input (N.B. need to rename here)
inp_norm = BatchNormalization(axis=1)(inp) 

outs = [] # the list of ensemble outputs
for i in range(ens_models):
    # conv_1 = Convolution2D(...)(inp_norm)
    # ...
    outs.append(Dense(num_classes, init='glorot_uniform', 
                      W_regularizer=l2(l2_lambda), 
                      activation='softmax')(drop)) # Output softmax layer

# average the predictions to obtain the final output
out = merge(outs, mode='ave') 

## Parar antes...

Nós vamos ver agora um exemplo de otimização de hiperparâmetro. Até agora usamos a coleção de validação meramente para monitorar o progresso do treino, o que é um desperdício de tempo, uma vez que não fazemos nada útil com isso. Na verdade, o conjunto de validação serve para avaliar os hiperparâmtros da rede, como a profundidade, o número de neurônios, os fatores de regularização, etc. A ideia é verficar o desempenho do modelo com diferentes parametrizações na validação e escolher a melhor combinação para avaliar no teste. Nunca esqueça que **não podemos usar o teste para melhorar o modelo. Ele serve apenas para avaliá-lo ao fim de tudo**.

O uso mais simples da validação é definir o *número de épocas*, um procedimento conhecido como **early stopping**; simplesmente, pare o treino assim que o erro na validação não tiver diminuido por um certo número seguido de épocas (um pârametro chamado *paciência*). Como MNIST satura bem cedo, vamos usar uma paciência de 5 épocas para um total de 50 épocas (que provavelmente não vai ser alcançado).

Keras suporta _early stopping_ via o _callback_ `EarlyStopping`. Callbacks são métodos que são chamados ao fim de cada época de treino, uma vez que você o forneça para os métodos `fit` ou `fit_generator`:

In [None]:
from keras.callbacks import EarlyStopping
# ...
# we iterate at most fifty times over the entire training set
num_epochs = 50 
# ...
# fit the model on the batches generated by datagen.flow()
# ---most parameters similar to model.fit
model.fit_generator(datagen.flow(X_train, Y_train,
                        batch_size=batch_size),
                        samples_per_epoch=X_train.shape[0],
                        nb_epoch=num_epochs,
                        validation_data=(X_val, Y_val),
                        verbose=1,
                        # adding early stopping
                        callbacks=[EarlyStopping(monitor='val_loss', 
                                                 patience=5)]) 

## O método completo!

A seguir, temos a arquitetura com as técnica descritas aplicadas.

In [6]:
# basic class for specifying and training a neural network
from keras.models import Model 
from keras.layers import Input, Dense, Flatten, \
    Convolution2D, MaxPooling2D, Dropout, merge
# L2-regularisation
from keras.regularizers import l2 
# batch normalisation
from keras.layers.normalization import BatchNormalization
# data augmentation
from keras.preprocessing.image import ImageDataGenerator 
# early stopping
from keras.callbacks import EarlyStopping 

batch_size = 128 # 128 training examples per iter
num_epochs = 50 # max of fifty iters over the training 
kernel_size = 3 # we will use 3x3 kernels throughout
pool_size = 2 # we will use 2x2 pooling throughout
conv_depth = 32 # 32 kernels in both convolutional layers
drop_prob_1 = 0.25 # dropout after pooling - probability 0.25
drop_prob_2 = 0.5 # dropout in the FC layer - probability 0.5
hidden_size = 128 # 128 neurons in both hidden layers
l2_lambda = 0.0001 # L2-regularisation factor
ens_models = 3 # three-models ensamble

num_train = 55000 # 55000 training examples in MNIST
num_test = 10000 # 10000 test examples in MNIST

# MNIST images are 28x28 and greyscale
height, width, depth = 28, 28, 1 
num_classes = 10 # 10 classes (1 per digit)

# fetch data
X_train = mnist.train.images
Y_train = mnist.train.labels
X_test  = mnist.test.images
Y_test  = mnist.test.labels

X_train = X_train.reshape(X_train.shape[0], depth, height, width)
X_test = X_test.reshape(X_test.shape[0], depth, height, width)
X_train = X_train.astype('float32')
X_test = X_test.astype('float32')

# Explicitly split the training and validation sets
X_val = X_train[50000:]
Y_val = Y_train[50000:]
X_train = X_train[:50000]
Y_train = Y_train[:50000]

# N.B. Keras expects channel dimension first
inp = Input(shape=(depth, height, width)) 
# Apply BN to the input (N.B. need to rename here)
inp_norm = BatchNormalization(axis=1)(inp) 

outs = [] # the list of ensemble outputs
for i in range(ens_models):
    # Conv [32] -> Conv [32] -> Pool (with dropout on the 
    # pooling layer), applying BN in between
    conv_1 = Convolution2D(conv_depth, kernel_size, 
                           kernel_size, border_mode='same', 
                           init='he_uniform', 
                           W_regularizer=l2(l2_lambda), 
                           activation='relu')(inp_norm)
    conv_1 = BatchNormalization(axis=1)(conv_1)
    conv_2 = Convolution2D(conv_depth, kernel_size, 
                           kernel_size, border_mode='same', 
                           init='he_uniform', 
                           W_regularizer=l2(l2_lambda), 
                           activation='relu')(conv_1)
    conv_2 = BatchNormalization(axis=1)(conv_2)
    pool_1 = MaxPooling2D(pool_size=(pool_size, pool_size), 
                          dim_ordering="th")(conv_2)
    drop_1 = Dropout(drop_prob_1)(pool_1)
    flat = Flatten()(drop_1)
    # Hidden ReLU layer
    hidden = Dense(hidden_size, init='he_uniform', 
                   W_regularizer=l2(l2_lambda), 
                   activation='relu')(flat) 
    hidden = BatchNormalization(axis=1)(hidden)
    drop = Dropout(drop_prob_2)(hidden)
    # Output softmax layer
    outs.append(Dense(num_classes, init='glorot_uniform', 
                      W_regularizer=l2(l2_lambda), 
                      activation='softmax')(drop)) 

# average the predictions to obtain the final output
out = merge(outs, mode='ave') 

# To define a model, just specify its input and output layers
model = Model(input=inp, output=out) 

# using the cross-entropy loss function
model.compile(loss='categorical_crossentropy', 
              optimizer='adam', # Adam optimiser
              metrics=['accuracy']) # accuracy

# randomly shift images horizontally (fraction of total width)
# randomly shift images vertically (fraction of total height)
datagen = ImageDataGenerator(
        width_shift_range=0.1,
        height_shift_range=0.1, dim_ordering="th")  
datagen.fit(X_train)

# fit the model on the batches generated by datagen.flow()
# ---most parameters similar to model.fit
# adding early stopping
model.fit_generator(datagen.flow(X_train, Y_train,
                        batch_size=batch_size),
                        samples_per_epoch=X_train.shape[0],
                        nb_epoch=num_epochs,
                        validation_data=(X_val, Y_val),
                        verbose=1,
                        callbacks=[EarlyStopping(monitor='val_loss', 
                                                 patience=5)]) 

# Evaluate the trained model on the test set!
model.evaluate(X_test, Y_test, verbose=1) 

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50

[0.079195528954267499, 0.99070000000000003]

Embora nosso modelo tenha conseguido melhorar nosso baseline, o ganho parece pequeno em MNIST. O benefícios, contudo, são bem mais óbvios quando aplicados a problemas mais complexos como a classificação de imagens em CIFAR-10, mas você tem que ter mais hardware e/ou paciência.

## Observações sobre transferência de aprendizagem

É comum que muitas vezes dispomos de uma coleção pequena para treinar. Ela raramente pode ser usada com redes muito complexas, com sucesso. Neste caso, podemos usar os pesos aprendidos em uma rede complexa como ponto inicial de nosso treino. Este é um tipo especial de refinamento com redes neurais conhecido como _transferência de aprendizagem_ (TA).

Entre os vários fatores importantes para TA, dois a considerar são o tamanho da base a treinar (base nova -- BN) e a similaridade com a base treinada (base original -- BO). Supondo que as duas bases foram criadas para tarefas similares (ex: classificação de imagens naturais), temos quatro cenários:

* BN < BO com conteudo similar: se a BN é pequena, a tuning de parâmetros vai levar a overfitting. Como elas são similares, os atributos de alto nível da BO servem para a BN. Logo, é melhor treinar um classificador linear nos atributos (de alto nível) aprendidos pela BO.

* BN ~< BO com conteúdo similar: comece com pesos da BO e depois de treinar BN, faça tuning dos parâmetros.

* BN < BO com conteúdo distinto: treine um classificador linear usando atributos de baixo nível da BO.

* BN ~< BO com conteúdo distinto: use os pesos da BO (partir de uma rede pre-treinada pode ser sempre útil), treine a BN e faça tuning de todos os parâmetros da arquitetura.

Para maiores detalhes, vejam http://blog.revolutionanalytics.com/2016/08/deep-learning-part-2.html.

De material de *Petar Veličković* e *Anusua Trivedi*.