<h1 style='font-size:40px'> Introduction to Artificial Neural Networks With Keras</h1>

<h2 style='font-size:30px'> The Perceptron</h2>

<h3 style='font-size:30px;font-style:italic'> TLU</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Uma Threshold Logic Unit (TLU) é uma estrututa que simula um neurônio. Ela recebe uma série de features e computa a soma ponderada delas (assim como um algoritmo de regressão simples). Mas após o cálculo, a equação é utilizada como argumento de uma função conhecida como step function.
        </li>
        <li> 
            Pode ser utilizada para tarefas de classificação binária. Assim como na Regressão Logística, caso o resultado obtido esteja acima de um threshold, a instância é designada à classe positiva; senão, à classe negativa.
        </li>
    </ul>
</div>
<center> 
    <h1> Estrutura de uma TLU</h1>
    <img src='tlu1.png'>
</center>

<center> 
    <h1> As step functions mais comuns da TLU</h1>
    <img src='tlu2.png'>
</center>

<h3 style='font-size:30px;font-style:italic'> Perceptron</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Um Perceptron consiste em uma camada de várias TLU's. Caso os neurônios sejam conectados com todos os inputs provenientes do nível anterior, dizemos que a camada em questão é uma <em>fully connected layer.</em>
        </li>
    </ul>
</div>
<center> 
    <h1> Um Perceptron de 3 TLU's</h1>
    <img src='perceptron1.png'>
</center>

<div> 
    <ul style='font-size:20px'> 
        <li> 
            O Perceptron acima pode realizar 3 classificações binárias distintas, tornando-o um modelo multioutput.
        </li>
        <li> 
            Observe que, além das features, um termo bias (nesse caso, 1) também pode ser inserido como input.
        </li>
    </ul>
</div>
<center> 
    <img src='perceptron2.png'>
</center>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Note como a função de previsão para uma fully conneted layer é muito similar à função afim. A letra $\phi$ é a função de ativação - no contexto do TLU's, ela é chamada de step function.
        </li>
    </ul>
</div>

<div> 
    <ul style='font-size:20px'> 
        <li> 
            Durante a fase de treino, os neurônios de input que melhor contribuírem para previsões corretas recebem um maior peso ao alimentarem o TLU de output.
        </li>
    </ul>
</div>

In [52]:
# As fronteiras de decisão do objeto Perceptron são lineares. Portanto, não espere grandes resultados em datasets complexos!
from sklearn.linear_model import Perceptron
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import numpy as np

X,y = load_iris(return_X_y=True)
X, y = X[:, [2,3]], (y==0).astype(int)
X_train, X_test, y_train, y_test = train_test_split(X,y, random_state=42)

In [53]:
# O objeto 'Perceptron' admite Early Stopping!
from sklearn.metrics import roc_auc_score
per_clf = Perceptron(early_stopping=True, n_iter_no_change=8).fit(X_train, y_train)
roc_auc_score(y_test, per_clf.predict(X_test))

1.0

<h2 style='font-size:30px'> Multi-Layer Perceptron and Backpropagation</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Considerando o desempenho limitado dos Perceptrons, foram criados os Multi-Layer Perceptrons. Eles possuem uma ou mais camadas de TLU's, conhecidas como hidden layers responsáveis por abastecerem a output layer - que possui o(s) TLU(s) que farão as previsões finais.
        </li>
        <li> 
            Todas as camadas dos MLP's são fully connected layers e, com exceção do nível de output, contam com um neurônio de bias.
        </li>
        <li> 
            Como os valores são transmitidos das camadas inferiores às superiores (e não vice-versa), a arquitetura de um MLP é classificada como uma Feedforward Neural Network (FNN).
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> Treinando um MLP</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            O fitting de um Multi-Layer Perceptron ocorre de maneira iterativa com mini-batches do set de treino.
        </li>
        <li> 
            Cada instância do subconjunto alimenta as hidden layers até que o TLU de output faça uma previsão. O valor lançado é comparado com o verdadeiro rótulo/número, sendo o nível de erro avaliado por uma loss function.
        </li>
        <li> 
            Em seguida, é analisado o impacto de cada neurônio nas hidden layers para o erro. Com isso, os pesos de cada conexão são atualizados para a próxima instância.
        </li>
        <li> 
            É importante ressaltar que os pesos de cada conexão sejam inicializados de maneira aleatória, sem isso, o processo de treinamento pode não convergir a uma solução aleatória.
        </li>
    </ul>
</div>

<h2 style='font-size:30px'> Regression MLP's</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            O autor oferece aqui algumas dicas de montagem de MLP's em regressões.
        </li>
        <li>
            Colocar uma função de ativação nos neurônios de output não é algo comum, mas caso queira que os valores previstos sejam sempre positivos, podemos recorrer ao uso da ReLU ou softplus. Se desejar que os outputs caiam dentro de um certo intervalo numérico, use a Logistic Function ou Hyperbolic Tangent Function (não se esqueça de atualizar os valores-alvo dentro do intervalo requerido [0-1] para logística e [-1,1] para hiperbólica).
        </li>
        <li> 
            Com relação à loss function, busque usar o Mean Absolute Error caso o dataset tenha outliers. Além disso, a Hubber Loss pode ser uma opção intermediária entre o MAE e o MSE, tendo menor sensibilidade a outliers, uma alta taxa de precisão e de convergência.
        </li>
    </ul>
</div>

<h2 style='font-size:30px'> Classification MLP's</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Com relação a classificações, os neurônios de output recebem uma Regressão Logística (binárias uni ou multiouput), ou uma softmax (multi-class uni ou multioutput) para computar as probabilidades de classe.
        </li>
        <li> 
            Em classificações binárias, um neurônio de output para cada condição deve existir; para as multi-classe, um neurônio terá que existir para cada categoria.
        </li>
    </ul>
</div>

<h2 style='font-size:30px'> Installing TensorFlow 2</h2>

In [54]:
import tensorflow as tf
from tensorflow import keras
tf.__version__, keras.__version__

('2.9.1', '2.9.0')

<h2 style='font-size:30px'> Building an Image Classifier Using the Sequential API</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Iremos aqui utilizar um dataset para classificação de imagens mais sofisticado do que o MNIST. Esse, o Fashion MNIST, contém imagens sobre peças de vestuário.
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> Using Keras to Load the Dataset</h3>

In [55]:
# Carregando o dataset.
fashion_mnist = keras.datasets.fashion_mnist

# Segregando os dados de treino e teste (é importante que os X's e y's estejam entre parênteses).
(X_train_full, y_train_full), (X_test, y_test) = fashion_mnist.load_data()

# Agora, iremos criar o set de validação. Vamos aproveitar e normalizar os dados.
X_valid, X_train = X_train_full[:5000]/255, X_train_full[5000:]/255
y_valid, y_train = y_train_full[:5000], y_train_full[5000:]

# Agora, daremos um nome inteligível às classes-alvo.
class_names = ['T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat', 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle Boot']

<h3 style='font-size:30px;font-style:italic'> Creating the Model Using the Sequential API</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Nosso primeiro modelo no TensorFlow será um MLP de duas hidden layers.
        </li>
    </ul>
</div>

In [56]:
# A API Sequential permitirá empilharmos as camadas de TLU's.
model = keras.models.Sequential()

# Agora, adionaremos as camadas de TLU's.

# A camada 'Flatten' basicamente planifica o array dos dados (de 28x28 para 784x1).
# Alternativamente, poderíamos ter adicionado um 'keras.layers.InputLayer(input_shape=[28,28])'.
model.add(keras.layers.Flatten(input_shape=[28,28]))

# Nossa rede neural terá duas hidden layers de tamanhos distintos; ambas com uma relu como activation function.
model.add(keras.layers.Dense(300, activation='relu'))
model.add(keras.layers.Dense(100, activation='relu'))

# Por se tratar de uma tarefa para classificação múltipla, teremos que criar 10 TLU's e definir 'softmax' como função de 
# ativação na camada para outputs.
model.add(keras.layers.Dense(10, activation='softmax'))

# Nota: poderíamos ter definido activation=keras.activations.relu, por exemplo.

In [57]:
# Também conseguiríamos construir a rede neural por meio de uma lista de camadas.
model = keras.models.Sequential([
    keras.layers.Flatten(input_shape=[28,28]),
    keras.layers.Dense(300, activation=keras.activations.relu),
    keras.layers.Dense(100, activation = keras.activations.relu),
    keras.layers.Dense(10, activation=keras.activations.softmax)
])

In [58]:
# 'summary' lança um relatório sobre as camadas do modelo e seus parâmetros.
model.summary()

Model: "sequential_8"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 flatten_4 (Flatten)         (None, 784)               0         
                                                                 
 dense_21 (Dense)            (None, 300)               235500    
                                                                 
 dense_22 (Dense)            (None, 100)               30100     
                                                                 
 dense_23 (Dense)            (None, 10)                1010      
                                                                 
Total params: 266,610
Trainable params: 266,610
Non-trainable params: 0
_________________________________________________________________


<div> 
    <ul style='font-size:20px'> 
        <li> 
            Note a tremenda quantidade de parâmetros que nosso modelo tem. Apesar de isso conferir bastante flexibilidade no seu treinamento, ele pode sofrer overfitting.
        </li>
    </ul>
</div>

In [70]:
# O atributo 'layers' menciona todas as camadas do modelo.
print(model.layers[0].name)

# Para obter uma camada em específico, use 'get_layer'.
dense_21 = model.get_layer('dense_21')
dense_21

flatten_4


<keras.layers.core.dense.Dense at 0x7f919d1554c0>

In [63]:
# É possível visualizar a nossa rede com o seguinte método
keras.utils.plot_model(model)

You must install pydot (`pip install pydot`) and install graphviz (see instructions at https://graphviz.gitlab.io/download/) for plot_model/model_to_dot to work.


<h4 style='font-size:30px;font-style:italic;text-decoration:underline'> Weights e Biases</h4>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Como já espeficiamos o formato do input na primeira camada, o modelo já inicializou os pesos de conexões e os termos de bias.
        </li>
        <li> 
            Caso queira uma outra estratégia na inicialização, procure explorar os argumentos <em> kernel_initializer</em> e <em> bias_initializer</em>, que serão ensinados no próximo capítulo!
        </li>
    </ul>
</div>

In [71]:
# Como já espeficiamos o formato do input na primeira camada, o modelo já inicializou os pesos de conexões e os termos de bias.

# Quais são os weights e biases da camada 'dense_21'?
weights, bias = dense_21.get_weights()
print(weights)

# Veja que todos os biases foram criados como 0.
bias

[[ 0.0552734  -0.01370593  0.00293531 ...  0.05770957  0.01238564
   0.02020808]
 [-0.05668053  0.07336296 -0.0106301  ... -0.06688693 -0.04526081
  -0.02096421]
 [ 0.01877947  0.02175879 -0.01822219 ... -0.04045416  0.03780955
  -0.07247542]
 ...
 [-0.0512436  -0.07093383 -0.06993344 ... -0.0512969  -0.00860279
   0.00362902]
 [-0.02233877  0.04725705 -0.04704604 ...  0.05243443  0.04636137
   0.0721141 ]
 [ 0.0703267   0.05418946  0.02972484 ... -0.04649205  0.02327072
  -0.06621653]]


array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0.

<h3 style='font-size:30px;font-style:italic'> Compiling the Model</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Está na hora de definirmos certas configurações voltadas à fase de treino.
        </li>
    </ul>
</div>

In [79]:
model.compile(optimizer='sgd', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

<h4 style='font-size:30px;font-style:italic;text-decoration:underline'> Dicas de Compiling</h4>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Para classificações multi-classe com um único output, defina a 'loss' como <em> sparse_categorical_crossentropy</em>; caso o output da classificação multi-classe seja as probabilidades dos rótulos (ex: [0, 0, 0, 1]), 'loss' deverá ser <em> categorical_crossentropy</em>; por último, em classificações binárias (sejam elas uni ou multioutput), 'loss' será <em> binary_crossentropy</em>.
        </li>
        <li> 
            Se quiser aplicar um One-Hot Encoding na coluna de target-variables, use <em> keras.utils.to_categorical()</em>.
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> Training and Evaluating the Model</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            O treinamento se assemelha com o do Scikit-Learn, mas como o Keras é uma arquitetura voltada exclusivamente a redes neurais, seu método fit contém alguna parâmetros com foco nesse tipo de modelo.
        </li>
        <li> 
            Epochs consiste no treinamento do modelo com uma certa quantidade de batches. Podemos definir quantos desses batches participarão de cada epoch com "steps_per_epoch". É possível, ainda, escolher a quantidade de instâncias contidas em cada batch.
        </li>
        <li> 
            Importante! Caso "epoch" não seja definido, ele será setado a 1, o que não é benéfico para o desempenho do modelo.
        </li>
    </ul>
</div>

In [80]:
# Finalmente: treinando a rede neural!
model.fit(X_train, y_train, batch_size=250, steps_per_epoch=5, 
          epochs=50, validation_data=(X_valid, y_valid))

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


<keras.callbacks.History at 0x7f919b5b8d90>

In [None]:
! mv /Users/felipeveiga/Desktop/Screen\ Shot\ 2022-07-26\ at\ 08.44.52.png ./perceptron2.png

<p style='color:red'> Trecho grifado página (p.300).</p>