In [None]:
from PIL import Image
pil_im = Image.open('../input/logocanal/LOGO PNG.png')
pil_im

Tradução do trabalho https://www.kaggle.com/ilyamich/kannada-mnist-choosing-the-right-optimizer

Nem todos os otimizadores nascem iguais. Eles  são implementados com diferentes equações e complexidades, mas têm uma coisa em comum: estão todos lá para ajudá-lo a treinar sua rede. Não importa se você está trabalhando em tarefas de previsão, classificação ou mesmo segmentação, eles sempre tentarão fazer o melhor!

Cada otimizador tem seus próprios pontos fortes e fracos e todo desenvolvedor deve estar familiarizado com eles. Todo o objetivo dos otimizadores é o mesmo, reduzir a perda tanto quanto possível à sua própria maneira, manipulando os parâmetros do modelo.



### Introdução aos Otimizadores

Todos os otimizadores têm a mesma linha de base, onde os gradientes da função de custo são calculados por toda a cadeia do modelo e, em seguida, subtraem esses gradientes dos parâmetros do modelo. Nós subtraímos porque estamos tentando encontrar o ponto mais baixo no plano da função de custo e os gradientes "apontam" para cima na inclinação. O que define os otimizadores é como eles regularizam o processo de atualização dos parâmetros, como veremos mais tarde.

<img src="https://miro.medium.com/max/875/1*47skUygd3tWf3yB9A10QHg.gif">


### SGD (Stochastic Gradient Descent)

O primeiro otimizador a ser estudado é o  GD (Gradient Descent). Na verdade, existem três tipos de GDs e Keras implementa todos eles em uma função. Vamos dar uma olhada neles.


#### BGD (Batch Gradient Descent))


O primeiro tipo de GD é denominado BGD e é o otimizador mais simples de entender. Mas não se deixe enganar, pois em grandes conjuntos de dados ele é o mais complexo computacionalmente. Isso ocorre porque no BGD todo o detaset precisa ser alimentado na rede para apenas uma "etapa". Além disso, em conjuntos de dados muito grandes, pode não haver RAM suficiente para armazenar todo o conjunto de dados. Por outro lado, o BGD teoricamente sempre terá como objetivo o ponto mais baixo no plano da função de perda.

A equação para BGD pega o gradiente da função de custo e o subtrai do parâmetro. Normalmente, um hiperparâmetro de regularização é adicionado, chamado de "taxa de aprendizado", para regular a convergência. A "taxa de aprendizagem" está geralmente na faixa de (1e-3, 1e-2). Abaixo está a equação para BGD

\begin{align}
\theta = \theta - \eta \cdot \nabla_\theta J( \theta)
\end{align}

* θ: peso
* η: taxa de aprendizado
* ∇<span class="mjx-sub" style="font-size: 70.7%; vertical-align: -0.23em; padding-right: 0.071em;">θ</span>J(θ): derivada da função de custo 


#### SGD (Stochastic Gradient Descent)


O segundo tipo é SGD, que é exatamente o oposto do BGD, o modelo utiliza apenas uma amostra do conjunto de dados por vez. Esta técnica é muito mais rápida que o BGD e mais prática, pois você não precisa armazenar o conjunto de dados inteiro na RAM. Em vez disso, os dados relevantes podem ser carregados conforme a necessidade. Essas vantagens têm um preço, pois o SGD sofre de alta variação e os "passos" nem sempre serão em direção à convergência. Há uma maneira de contornar isso, reduzindo cuidadosamente a taxa de aprendizado em cada época. Isso pode melhorar o desempenho do SGD tanto quanto ser igual ao do BGD. Praticamente SGD é preferível a BGD para aplicações onde o conjunto de dados não é pequeno.



\begin{align}
\theta = \theta - \eta \cdot \nabla_\theta J( \theta; x^{(i)}; y^{(i)})
\end{align}


* θ: pesos
* η: taxa de aprendizado
* ∇<span class="mjx-sub" style="font-size: 70.7%; vertical-align: -0.23em; padding-right: 0.071em;">θ</span>J(θ; X<span class="mjx-sup" style="font-size: 70.7%; vertical-align: 0.513em; padding-left: 0px; padding-right: 0.071em;">(i)</span>; Y<span class="mjx-sup" style="font-size: 70.7%; vertical-align: 0.513em; padding-left: 0px; padding-right: 0.071em;">(i)</span>): derivada da função de custo de um exemplo
* X<span class="mjx-sup" style="font-size: 70.7%; vertical-align: 0.513em; padding-left: 0px; padding-right: 0.071em;">(i)</span>: features do exemplo i
* Y<span class="mjx-sup" style="font-size: 70.7%; vertical-align: 0.513em; padding-left: 0px; padding-right: 0.071em;">(i)</span>: ground truth do exemplo i


#### MBGD (Mini-Batch Gradient Descent))


O terceiro tipo é MBGD e é um meio-termo entre SGD e BGD, onde o modelo aprende com um lote  de exemplos a cada "etapa". Sendo um meio-termo, sua variância é menor do que SGD, o que o torna mais estável.

Abaixo está a equação de MBGD e é a mesma que SGD, exceto que a derivada depende de um lote de exemplos.

\begin{align}
\theta = \theta - \eta \cdot \nabla_\theta J( \theta; x^{(i:i+n)}; y^{(i:i+n)})
\end{align}

* θ: pesos
* η: learning rate
* ∇<span class="mjx-sub" style="font-size: 70.7%; vertical-align: -0.23em; padding-right: 0.071em;">θ</span>J(θ; X<span class="mjx-sup" style="font-size: 70.7%; vertical-align: 0.513em; padding-left: 0px; padding-right: 0.071em;">(i)</span>; Y<span class="mjx-sup" style="font-size: 70.7%; vertical-align: 0.513em; padding-left: 0px; padding-right: 0.071em;">(i)</span>): derivada da função de custo
* X<span class="mjx-sup" style="font-size: 70.7%; vertical-align: 0.513em; padding-left: 0px; padding-right: 0.071em;">(i:i+n)</span>: features dos exemplos i a n
* Y<span class="mjx-sup" style="font-size: 70.7%; vertical-align: 0.513em; padding-left: 0px; padding-right: 0.071em;">(i:i+n)</span>: ground truth dos exemplos i a n


#### Conclusão

No Keras, você pode controlar o tamanho do lote, o que lhe dá a opção de transformar o otimizador em BGD, definindo o tamanho do lote para o comprimento dos dados. Ou torne-o SGD definindo o tamanho do lote para 1. Ou você pode definir o tamanho do lote para qualquer outro número entre 1 e o tamanho do conjunto de dados para obter MBGD. 


### Adagrad (Adaptive Gradient )


O Adagrad difere do SGD pelo cálculo da taxa de aprendizagem diferente para cada parâmetro que muda a cada etapa. Definindo g como a derivada parcial em relação a θ:

\begin{align}
g_{t, i} = \nabla_\theta J( \theta_{t, i} )
\end{align}

A equação do Adagrad tem dois novos parâmetros:

\begin{align}
\theta_{t+1, i} = \theta_{t, i} - \dfrac{\eta}{\sqrt{G_{t, ii} + \epsilon}} \cdot g_{t, i}
\end{align}

* G<span class="mjx-sub" style="font-size: 70.7%; vertical-align: -0.212em; padding-right: 0.071em;">t</span>: soma do quadrado dos gradientes previos
* ϵ: pequeno número para evitar divisão por zero (usualmente 1e-8)

Embora o Adagrad reduza automaticamente a taxa de aprendizado de maneira diferente para cada parâmetro, ele tem uma grande desvantagem. Ao somar quadrados de gradientes (que sempre são números positivos), eventualmente produzirá um grande número que fará com que o gradiente "desapareça" (fique próximo de zero).




### Adadelta (ADAPTIVE LEARNING RATE METHOD)

Adadelta tenta resolver as desvantagens do Adagrad e é uma extensão direta. Em vez de somar todos os gradientes anteriores, o Adadelta restringe o número de gradientes anteriores dos quais depende, calcula-se uma média de execução. 

\begin{align}
E[g^2]_t = \gamma E[g^2]_{t-1} + (1 - \gamma) g^2_t
\end{align}

\begin{align}
RMS[g]_{t} = \sqrt{E[g^2]_t + \epsilon}
\end{align}

\begin{align}
RMS[\Delta \theta]_{t} = \sqrt{E[\Delta \theta^2]_t + \epsilon}
\end{align}

\begin{align} 
\begin{split}
\Delta \theta_t &= - \dfrac{RMS[\Delta \theta]_{t-1}}{RMS[g]_{t}} g_{t} \\ 
\theta_{t+1} &= \theta_t + \Delta \theta_t 
\end{split} 
\end{align}

* E[g<span class="mjx-sup" style="font-size: 70.7%; vertical-align: 0.513em; padding-left: 0px; padding-right: 0.071em;">2</span>]<span class="mjx-sub" style="font-size: 70.7%; vertical-align: -0.212em; padding-right: 0.071em;">t</span>: média de execução
* γ: decaimento constante. geralmente em torno de  0.9





### RMSprop

O RMSprop é na verdade um algoritmo não publicado. Foi proposto no curso Coursera. O algoritmo é uma extensão do Adagrad e muito semelhante ao Adadelta. RMSpror muda apenas o denominador para a mesma equação de Adadelta e define γ = 0,9:

\begin{align} 
\begin{split} 
E[g^2]_t &= 0.9 E[g^2]_{t-1} + 0.1 g^2_t \\ 
\theta_{t+1} &= \theta_{t} - \dfrac{\eta}{\sqrt{E[g^2]_t + \epsilon}} g_{t} 
\end{split} 
\end{align}


### Adam (Adaptive Moment Estimation)

O otimizador Adam é uma extensão de dois otimizadores, RMSpror e Momentum. O Adam usa o Momentum para corrigir o primeiro momento e o RMSprop para corrigir o segundo momento.

\begin{align} 
\begin{split} 
m_t &= \beta_1 m_{t-1} + (1 - \beta_1) g_t \\ 
v_t &= \beta_2 v_{t-1} + (1 - \beta_2) g_t^2 
\end{split} 
\end{align}

* m<span class="mjx-sub" style="font-size: 70.7%; vertical-align: -0.212em; padding-right: 0.071em;">t</span>: exponentially decaying average (first momentum)
* v<span class="mjx-sub" style="font-size: 70.7%; vertical-align: -0.212em; padding-right: 0.071em;">t</span>: exponentially decaying average of past squared gradients (second momentum)

No estágio inicial m<span class="mjx-sub" style="font-size: 70.7%; vertical-align: -0.212em; padding-right: 0.071em;">t</span> and v<span class="mjx-sub" style="font-size: 70.7%; vertical-align: -0.212em; padding-right: 0.071em;">t</span> deve ser inicializado com vetores zero. Essa inicialização cria um problema de polarização do gradiente para zero. Para superar esse problema, o autor adiciona equações de correção de viés::

\begin{align} 
\begin{split} 
\hat{m}_t &= \dfrac{m_t}{1 - \beta^t_1} \\ 
\hat{v}_t &= \dfrac{v_t}{1 - \beta^t_2} 
\end{split} 
\end{align}


Finalmente, para atualizar os parâmetros,o otimizador usa a seguinte equação:

\begin{align} 
\theta_{t+1} = \theta_{t} - \dfrac{\eta}{\sqrt{\hat{v}_t} + \epsilon} \hat{m}_t
\end{align}

The author suggests to use the following hyper parameter values:
* β<span class="mjx-sub" style="font-size: 70.7%; vertical-align: -0.212em; padding-right: 0.071em;">1</span> = 0.9
* β<span class="mjx-sub" style="font-size: 70.7%; vertical-align: -0.212em; padding-right: 0.071em;">2</span> = 0.999
* γ = 1e-8


Adam é um dos otimizadores mais usados ​​em ML, pois é estável e geralmente produz os melhores resultados.




## Importando Bibliotecas

In [None]:
import time
import pandas as pd
import numpy as np

import seaborn as sns
import matplotlib.pyplot as plt
plt.style.use('ggplot')
%matplotlib inline

from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix

from tensorflow.keras.utils import to_categorical
from tensorflow.keras.models import Sequential, Model
from tensorflow.keras.layers import Dense, Dropout, Flatten, Conv2D, MaxPool2D, Input, BatchNormalization
from tensorflow.keras.callbacks import ReduceLROnPlateau, ModelCheckpoint
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras.models import model_from_json

In [None]:
# random seed
seed = 33
np.random.RandomState(seed)

# validation to training split ration
valid_size = 0.1

# use data augmentation i nthe first part of training
to_augment = False

## Carregando e preparando os dados


In [None]:
data_path = '../input/Kannada-MNIST/'

train_path = data_path + 'train.csv'
test_path = data_path + 'test.csv'
dig_path = data_path + 'Dig-MNIST.csv'
sample_path = data_path + 'sample_submission.csv'

save_path = ''
load_path = '../input/kennada-mnist-pretrained-model/'

# Carregando os Datasets

In [None]:
train_df = pd.read_csv(train_path)
test_df = pd.read_csv(test_path)
dig_df = pd.read_csv(dig_path)
sample_df = pd.read_csv(sample_path)

In [None]:
# convert dataframes to numpy matricies
X = train_df.drop('label', axis=1).to_numpy()
y = train_df['label'].to_numpy()
X_dig = dig_df.drop('label', axis=1).to_numpy()
y_dig = dig_df['label'].to_numpy()
X_test = test_df.drop('id', axis=1).to_numpy()

# reshape X's for keras and encode y using one-hot-vector-encoding
X = X.reshape(-1, 28, 28, 1)
y = to_categorical(y)
X_dig = X_dig.reshape(-1, 28, 28, 1)
X_test = X_test.reshape(-1, 28, 28, 1)

# normalize the data to range(0, 1)
X = X / 255
X_dig = X_dig / 255
X_test = X_test / 255



# Separando em treino e teste

In [None]:
# split to train and validation sets
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=valid_size, random_state=seed) 

print('X_train shape = {}'.format(X_train.shape))
print('Y_train shape = {}'.format(y_train.shape))
print('X_valid shape = {}'.format(X_valid.shape))
print('Y_valid shape = {}'.format(y_valid.shape))

##  Criando modelo



In [None]:
# model builder
def build_model(optimizer):
    model = Sequential()
    
    model.add(Conv2D(filters=32, kernel_size=(5,5), padding='Same', activation='relu', input_shape=(28,28,1)))
    model.add(Conv2D(filters=32, kernel_size=(5,5), padding='Same', activation='relu'))
    model.add(MaxPool2D(pool_size=(2,2)))
    model.add(Dropout(0.25))

    model.add(Conv2D(filters=64, kernel_size=(3,3), padding='Same', activation='relu'))
    model.add(Conv2D(filters=64, kernel_size=(3,3), padding='Same', activation='relu'))
    model.add(MaxPool2D(pool_size=(2,2), strides=(2,2)))
    model.add(Dropout(0.25))

    model.add(Flatten())
    model.add(Dense(256, activation='relu'))
    model.add(Dropout(0.5))
    model.add(Dense(10, activation='softmax'))
    
    model.compile(optimizer=optimizer, loss='categorical_crossentropy', metrics=['accuracy'])
    
    return model

In [None]:
# save model
def save_trained_model(model, save_path, optimizer):
    # serialize model to JSON
    model_json = model.to_json()
    with open('{}Kennada MNIST with {}.json'.format(save_path, optimizer), "w") as json_file:
        json_file.write(model_json)

    # serialize weights to HDF5
    model.save_weights('{}Kennada MNIST with {}.h5'.format(save_path, optimizer))

    
# load pretrained model
def load_trained_model(optimizers, optimizer, load_path):
    # load json and create model
    json_file = open('{}Kennada MNIST with {}.json'.format(load_path, optimizers[optimizer]), 'r')
    loaded_model_json = json_file.read()
    json_file.close()
    model = model_from_json(loaded_model_json)

    # load weights into new model
    model.load_weights('{}Kennada MNIST with {}.h5'.format(load_path, optimizers[optimizer]))
    
    # compile the model
    model.compile(optimizer=optimizer, loss='categorical_crossentropy', metrics=['accuracy'])
    
    return model

In [None]:
def load_history(load_path, optimizer):
    history = pd.read_csv('{}Kennada MNIST with {}.csv'.format(load_path, optimizer))
    
    return history.to_dict('list')

def save_history(history, save_path, optimizer):
    hist_df = pd.DataFrame(history)
    hist_df.to_csv('{}Kennada MNIST with {}.csv'.format(save_path, optimizer), index=False)

## Treinando a Rede Neural

In [None]:
# integer or None. Number of samples per gradient update. If unspecified, batch_size will default to 32
batch_size = 1024
# integer. 0, 1, or 2. Verbosity mode. 0 = silent, 1 = progress bar, 2 = one line per epoch
verbose = 0
# integer. Number of epochs to train the model. An epoch is an iteration over the entire x and y data provided
epochs = 30

# Definindo otimizadores a serem comparados

In [None]:
# every optimizer has a name
optimizers = {
    'sgd':        'SGD',
    'rmsprop':    'RMSprop',
    'adagrad':    'Adagrad',
    'adadelta':   'Adadelta',
    'adam':       'Adam',
    'adamax':     'Adamax',
    'nadam':      'Nadam',
}

# and default learning rate
learning_rates = {
    'sgd':        1e-2,
    'rmsprop':    1e-3,
    'adagrad':    1e-2,
    'adadelta':   1.0,
    'adam':       1e-3,
    'adamax':     2e-3,
    'nadam':      2e-3,
}

In [None]:
# create learning rate decay callback borrowed from here: https://www.kaggle.com/cdeotte/25-million-images-0-99757-mnist
learning_rate_reduction = ReduceLROnPlateau(monitor='val_accuracy', 
                                            patience=3, 
                                            verbose=0, 
                                            factor=0.5, 
                                            min_lr=0.00001)

# artificially increase training set
train_datagen = ImageDataGenerator(rescale=1.0,
                                   rotation_range=10,
                                   width_shift_range=0.25,
                                   height_shift_range=0.25,
                                   shear_range=0.1,
                                   zoom_range=0.25,
                                   horizontal_flip=False)

# artificially increase validation set
valid_datagen = ImageDataGenerator(rescale=1.0)

# Comparando otimizadores

In [None]:
# prepare empty dictionaries
history = {}
model = {}

for n, optimizer in enumerate(optimizers):
    # build model for every optimizer
    model[optimizer] = build_model(optimizer)

    # measure training time
    start = time.time()

    # train model
    if to_augment:
        h = model[optimizer].fit_generator(train_datagen.flow(X_train, y_train, batch_size=batch_size),
                                           steps_per_epoch=100,
                                           epochs=epochs,
                                           validation_data=valid_datagen.flow(X_valid, y_valid),
                                           callbacks=[learning_rate_reduction],
                                           verbose=verbose)
    else:
        h = model[optimizer].fit(X_train,
                                 y_train,
                                 batch_size=batch_size,
                                 epochs=epochs,
                                 validation_data=(X_valid,y_valid),
                                 callbacks=[learning_rate_reduction],
                                 verbose=verbose)

    history[optimizer] = h.history

    # print results
    print("{0} Optimizer: ".format(optimizers[optimizer]))
    print("Epochs={0:d}, Train accuracy={1:.5f}, Validation accuracy={2:.5f}, Training time={3:.2f} minutes"
              .format(epochs, 
                      max(history[optimizer]['accuracy']), 
                      max(history[optimizer]['val_accuracy']), 
                      (time.time()-start)/60))

In [None]:
# apply smoothing filter
def smoothing_filter(data, filter_n=3):
    # filter_n should be odd number
    # extend the end for better accuracy at the end
    data = np.concatenate((data, [data[-1]]*filter_n))
    
    # apply filter
    data = np.convolve(data, [1/filter_n]*filter_n)
    
    # remove filter delay and padding
    return data[int(np.ceil(filter_n/2)) : -filter_n]


# plot training accuracy helper function
def plot_training_accuracy(history, names, epochs, to_smooth=False, filter_n=3, styles=[':','-.','--','-',':','-.','--','-',':','-.','--','-']):
    # filter_n should be odd number
    plt.figure(figsize=(15, 5))
    
    for n, h in enumerate(history.values()):
        # get validation accuracy history
        val_acc = h['val_accuracy']
        
        # smooth on request
        if to_smooth:
            val_acc = smoothing_filter(val_acc, filter_n)
        
        # plot history
        plt.plot(val_acc, linestyle=styles[n])
    
    plt.title('Model validation accuracy')
    plt.ylabel('accuracy')
    plt.xlabel('epoch')
    plt.legend(names, loc='upper left')
    axes = plt.gca()
    axes.set_ylim([0.99, 0.997])
    axes.set_xlim([0, epochs-1])

In [None]:
# plot learning hystory for all optimizers
plot_training_accuracy(history, optimizers.values(), epochs)