<h1 style='font-size:40px'> Custom Models and Training with TensorFlow</h1>

<div> 
    <ul style='font-size:20px'> 
        <li> 
            Exploraremos as outras funcionalidades contidas no TensorFlow. Seu ecossistema possui módulos para tratar os mais diversos problemas do Machine Learning. Segue o diagrama apresentado pelo livro:
            <center style='margin-top:10px'> 
                <img src='tf_diag.png'>
            </center>
        </li>
    </ul>
</div>

<h2 style='font-size:30px'> Using TensorFlow Like Numpy</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            O TensorFlow contém funcionalidades muito próximas das do numpy. No caso, somos capazes de criar tensores (espécies de matrizes) e executar certas operações matemáticas.
        </li>
    </ul>
</div>

In [1]:
# Criando um tensor com `tf.constant`.

# A particularidade desse objeto é a sua imutabilidade (não pode ser alterado in-place).
import tensorflow as tf
tf.constant(range(6), shape=(3,2))

2023-01-21 13:23:06.964082: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /u01/app/oracle/product/11.2.0/xe/lib:/lib:/usr/local/lib:
2023-01-21 13:23:06.964116: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.
2023-01-21 13:23:10.910066: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcuda.so.1'; dlerror: libcuda.so.1: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /u01/app/oracle/product/11.2.0/xe/lib:/lib:/usr/local/lib:
2023-01-21 13:23:10.910093: W tensorflow/stream_executor/cuda/cuda_driver.cc:269] failed call to cuInit: UNKNOWN ERROR (303)
2023-01-21 13:23:10.910119: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:156] kernel driver does not app

<tf.Tensor: shape=(3, 2), dtype=int32, numpy=
array([[0, 1],
       [2, 3],
       [4, 5]], dtype=int32)>

In [2]:
# Os tensores admitem receberem números soltos também.
tf.constant(23)

<tf.Tensor: shape=(), dtype=int32, numpy=23>

In [3]:
# A maior parte das funções do Numpy também são encontradas no TF. Essas podem ter nomes um pouco distintos, ou ainda estarem
# dentro do módulo `tensorflow.math`.
t = tf.constant(range(12), dtype=tf.float16, shape=(4,3))
print(f'tf.sqrt: {tf.sqrt(t)}', end='\n\n')

# A norma l-2 é encontrada no em `math`.
from tensorflow.math import reduce_euclidean_norm
print(f'L2: {reduce_euclidean_norm(t, axis=0)}')

tf.sqrt: [[0.    1.    1.414]
 [1.732 2.    2.236]
 [2.45  2.646 2.828]
 [3.    3.162 3.316]]

L2: [11.23  12.88  14.625]


<h3 style='font-size:30px;font-style:italic'> Keras' Low-Level API</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
             O Keras também contém certas funcionalidades voltadas à manipulação de matrizes em <em> keras.backend</em>. É útil usá-lo quando queremos que haja portabilidade de nosso código com outras implementações Keras.
        </li>
    </ul>
</div>

In [4]:
# É costumaz se referir ao módulo como 'K'.
import tensorflow.keras.backend as K
K.square(t)

<tf.Tensor: shape=(4, 3), dtype=float16, numpy=
array([[  0.,   1.,   4.],
       [  9.,  16.,  25.],
       [ 36.,  49.,  64.],
       [ 81., 100., 121.]], dtype=float16)>

<h3 style='font-size:30px;font-style:italic'> Tensors and NumPy</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Tensores TF podem se originar a partir de arrays do numpy e vice-versa.
        </li>
    </ul>
</div>

In [5]:
# Conseguimos, inclusive, aplicar funções do numpy diretamente em tensores!
import numpy as np
np.linalg.norm(t)

22.5

In [6]:
# Criando um tensor com um array.
a = np.arange(10)
tf.constant(a)

<tf.Tensor: shape=(10,), dtype=int64, numpy=array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])>

<h3 style='font-size:30px;font-style:italic'> Type Conversions</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Diferentemente do numpy, o TensorFlow não faz adaptações de data types em seus procedimentos. Isso significa que manipular um array de integer com um de float, por exemplo, resultará em erro.
        </li>
    </ul>
</div>

In [7]:
t2 = tf.constant(range(10, 22), shape=(4,3), dtype=tf.float32)

# 'float16'+ 'float32'.
t+t2

InvalidArgumentError: cannot compute AddV2 as input #1(zero-based) was expected to be a half tensor but is a float tensor [Op:AddV2]

In [8]:
# Use `cast` para alterar o data type do tensor.
t + tf.cast(t2, tf.float16)

<tf.Tensor: shape=(4, 3), dtype=float16, numpy=
array([[10., 12., 14.],
       [16., 18., 20.],
       [22., 24., 26.],
       [28., 30., 32.]], dtype=float16)>

<h3 style='font-size:30px;font-style:italic'> Variables</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            <em>tf.variable</em> é também um tensor, mas que admite alterações in-place.
        </li>
    </ul>
</div>

In [9]:
# Criando uma variável.
v = tf.Variable([[i*a for i in range(1,5)] for a in range(1,5)], dtype=tf.float32)
v

<tf.Variable 'Variable:0' shape=(4, 4) dtype=float32, numpy=
array([[ 1.,  2.,  3.,  4.],
       [ 2.,  4.,  6.,  8.],
       [ 3.,  6.,  9., 12.],
       [ 4.,  8., 12., 16.]], dtype=float32)>

In [10]:
# Usando `assign` para modificar a posição [0,1].
v[0,1].assign(20)
v

<tf.Variable 'Variable:0' shape=(4, 4) dtype=float32, numpy=
array([[ 1., 20.,  3.,  4.],
       [ 2.,  4.,  6.,  8.],
       [ 3.,  6.,  9., 12.],
       [ 4.,  8., 12., 16.]], dtype=float32)>

In [11]:
# `scatter_nd_update` modifica múltiplos elementos de uma só vez.
v.scatter_nd_update(indices=[[1,1], [3,2]], updates=[100, 200])

<tf.Variable 'UnreadVariable' shape=(4, 4) dtype=float32, numpy=
array([[  1.,  20.,   3.,   4.],
       [  2., 100.,   6.,   8.],
       [  3.,   6.,   9.,  12.],
       [  4.,   8., 200.,  16.]], dtype=float32)>

<h3 style='font-size:30px;font-style:italic'> Other Data Structures</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
             Veremos por aqui outros objetos de ordenação importantes para a biblioteca:
        </li>
    </ul>
</div>

<h4 style='font-size:30px;font-style:italic;text-decoration:underline'> SparseTensor</h4>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Equivalente a uma matriz esparsa do scipy. O módulo <em> tf.sparse</em> contém funções próprias para esse obejto.
        </li>
    </ul>
</div>

In [12]:
# Criando uma matriz identidade. Bastante apropriada para ser armazenada como um SparseTensor.
sparse = tf.SparseTensor(indices=[[i,i] for i in range(5)], values=[1 for i in range(5)], dense_shape=[5,5])
sparse

<tensorflow.python.framework.sparse_tensor.SparseTensor at 0x7facbdb04850>

In [13]:
# Tornando o tensor denso.
tf.sparse.to_dense(sparse)

<tf.Tensor: shape=(5, 5), dtype=int32, numpy=
array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 0, 1]], dtype=int32)>

<h4 style='font-size:30px;font-style:italic;text-decoration:underline'> TensorArray</h4>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Listas de Tensores que podem ter um tamanho dinâmico.
        </li>
    </ul>
</div>

In [14]:
ta = tf.TensorArray(dtype=tf.float32, size=0, dynamic_size=True)
ta

<tensorflow.python.ops.tensor_array_ops.TensorArray at 0x7facbdb04df0>

<h4 style='font-size:30px;font-style:italic;text-decoration:underline'> RaggedTensor</h4>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Listas de listas Tensores. Esses devem ter tamanho e data type únicos.
        </li>
    </ul>
</div>

In [15]:
ragged = tf.RaggedTensor()

TypeError: __init__() missing 2 required positional arguments: 'values' and 'row_partition'

<h4 style='font-size:30px;font-style:italic;text-decoration:underline'> String Tensors</h4>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Tensores de strings. Por padrão, são por código byte, e não Unicode.
        </li>
    </ul>
</div>

In [16]:
# Veja como 'ô' é escrito.
tf.Variable('ônibus')

<tf.Variable 'Variable:0' shape=() dtype=string, numpy=b'\xc3\xb4nibus'>

<h4 style='font-size:30px;font-style:italic;text-decoration:underline'> Sets</h4>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            São tensores tratados como os objetos `set` do Python. O TF contém operações específicas a esses em `tf.sets`.
        </li>
    </ul>
</div>

<h4 style='font-size:30px;font-style:italic;text-decoration:underline'> Queues</h4>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Funcionam como os Queues built-in do Python, com o acréscimo de algumas classes apresentarem características particulares que podem ser úteis.
        </li>
    </ul>
</div>

<h2 style='font-size:30px'> Customizing Models and Training Algorithms</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Entendendo o básico sobre a manipulação de tensores, podemos começar a criar nossas próprias utilidades no TensorFlow.
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> Custom Loss Functions</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            O aconselhável é criarmos subclasses do objeto `keras.losses.Loss`. Isso facilitará o carregamento do modelo em usos posteriores.
        </li>
    </ul>
</div>

In [27]:
# Criando uma Huber Loss (ver capítulo 10). 
import tensorflow.keras as keras
import tensorflow as tf
class HuberLoss(keras.losses.Loss):
    def __init__(self, threshold, **kwargs):
        self.threshold = threshold
        super().__init__(**kwargs)
        
    def call(self, y_true, y_pred):
        error = tf.abs(y_true - y_pred) # Erro absoluto.
        is_small_error = error < self.threshold # Array booleano (o erro é maior do que o threshold).
        
        # Ambas as losses são computadas para uma mesma instância;
        squared_loss = tf.square(error) / 2
        linear_loss = self.threshold * error - (self.threshold**2)/2
        return tf.where(is_small_error, squared_loss, linear_loss) #error>thresold retorna loss linear; caso o contrário, ao quadrado.
    
    # `get_config` lida com o salvamento das configurações de argumentos para usos futuros da classe.
    # Ou seja, caso eu defina `threshold`=2, esse valor será lembrado pelo algoritmo na próxima vez que eu for treiná-lo.
    def get_config(self):
        base_config = super().get_config()
        return {**base_config, 'threshold':self.threshold}

In [18]:
from tensorflow.keras.datasets import boston_housing
from sklearn.preprocessing import Normalizer

# Carregando e tratando os dados.
(x_train, y_train), (x_test, y_test) = boston_housing.load_data()
norm = Normalizer()
X_train_norm = norm.fit_transform(x_train)
X_test_norm = norm.transform(x_test)

In [19]:
# Montando uma rede neural rapidamente.
from functools import partial
DenseLayer = partial(keras.layers.Dense, activation='elu', use_bias=True, 
                     kernel_initializer=keras.initializers.LecunNormal(seed=42))

# Função de montagem.
def make_regnn(dense_layer:DenseLayer=DenseLayer, n_layers:int=4):
    global X_train_norm
    # Camada de input.
    model = keras.models.Sequential([
        keras.layers.Input(shape=X_train_norm.shape[1])
                                    ])
    # Hidden Layers.
    for _ in range(n_layers):
        model.add(DenseLayer(units=np.random.randint(low=20, high=40, size=1)))
        model.add(keras.layers.BatchNormalization())
        
    # Camada de previsão.
    model.add(keras.layers.Dense(1))
    return model

# Criando o modelo.
model = make_regnn()

# Compilando o modelo.
model.compile(optimizer=keras.optimizers.Nadam(learning_rate=10e-3), loss=HuberLoss(2))

In [20]:
# Finalmente, treinando a rede.
early_stopping = keras.callbacks.EarlyStopping(patience=5, restore_best_weights=True)
model.fit(X_train_norm, y_train, epochs=50, validation_data=(X_test_norm, y_test), steps_per_epoch=1, 
         callbacks=[early_stopping])

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


<keras.callbacks.History at 0x7facb6a773d0>

In [25]:
# Salvando o modelo.
model.save('models/hubber_nn.h5')

In [29]:
# Ao carregar o modelo, precisaremos apenas mapear o nome do otimizador com sua respectiva classe.
keras.models.load_model('models/hubber_nn.h5', 
                        custom_objects={'HuberLoss':HuberLoss})

<keras.engine.sequential.Sequential at 0x7fac81bd8220>

<h3 style='font-size:30px;font-style:italic'> Custom Activation Functions, Initializers, Regularizers and Constraints</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            A montagem desses outros objetos é praticamente a mesma. Crie uma classe herdeira de um objeto base e defina a operação dessa no método `call`.
        </li>
    </ul>
</div>

In [30]:
# Um regularizador L1.
class L1Reg(keras.regularizers.Regularizer):
    def __init__(self, factor):
        self.factor = factor
    
    # Norma L-1 dos coeficientes multiplicados por `self.factor`.
    def __call__(self, weights):
        return tf.reduce_sum(tf.abs(self.factor * weights))
    
    # Método que garantirá que o `factor` definido pelo usuário seja lembrado para quando o modelo for carregado.
    def get_config(self):
        return {'factor':self.factor}

In [42]:
# Montando um outro modelo.
DenseLayer = partial(keras.layers.Dense, activation='elu', use_bias=True, 
                     kernel_initializer=keras.initializers.LecunNormal(seed=42),
                    kernel_regularizer=L1Reg(10e-4))

model_l1 = make_regnn(DenseLayer, n_layers=5)

model_l1.compile(optimizer=keras.optimizers.Adam(learning_rate=10e-3), loss=HuberLoss(2))

model_l1.fit(X_train_norm, y_train, epochs=50, validation_data=(X_test_norm, y_test), steps_per_epoch=1, 
         callbacks=[early_stopping])

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


<keras.callbacks.History at 0x7fac80303fa0>

<h2 style='font-size:30px;color:red'> Um Fato Relevante</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Ao montar essa última NN, comecei com $\eta=10^{-2}$; a 'val_loss' ficou instável. Depois, parti para $\eta=10^{-4}$; a loss se estabilizou em um valor alto. Por último, tentei $\eta=10^{-3}$; finalmente, houve conversão!
        </li>
        <li> 
            Por isso, na ausência de uma descida efetiva de gradiente, experimente outras learning rates antes de duvidar do tratamento dos dados!
        </li>
    </ul>
</div>

In [44]:
# Agora, salvando carregando o algoritmo.
model_l1.save('models/l1_nn.h5')

# `custom_objects` deverá receber dois itens com a criação de `L1Reg`.   
keras.models.load_model('models/l1_nn.h5', custom_objects={'HuberLoss':HuberLoss, 'L1Reg':L1Reg})

<keras.engine.sequential.Sequential at 0x7fac80569fd0>

<h3 style='font-size:30px;font-style:italic'> Custom Metrics</h3>

<h3 style='font-size:30px;font-style:italic'> Custom Layers</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            É possível montar um tipo de camada exótico para a rede neural. Para isso, não há nenhuma novidade: apenas crie uma classe herdeira. 
        </li>
        <li> 
            Mas, ainda mais interessante, é que conseguimos gerar uma camada-envelope contendo várias camadas. Isso é útil quando utilizamos as classes `BatchNormalization` e `Dropout` juntamente com a `Dense`.
        </li>
    </ul>
</div>

In [60]:
# Um outro fato: caso queira usar uma função de ativação customizável, use a classe `Lambda`, do keras.layers.

# Usando a derivada da tangente inversa.
keras.layers.Lambda(lambda x: 1/(1+tf.square(x)))

<keras.layers.core.lambda_layer.Lambda at 0x7fac53caebb0>

In [103]:
# Uma Dense Layer customizável.
class MyDense(keras.layers.Layer):
    def __init__(self, units:int, activation:str, **kwargs):
        # Configurações do usuário.
        self.units = units
        self.activation = keras.activations.get(activation)
        
    def build(self, batch_input_shape):
        # A camada possuirá tanto um kernel, quanto um vetor de bias.
        self.kernel = self.add_weight(name='kernel', shape=(batch_input_shape[-1], self.units), initializer='he_normal')
        self.bias = self.add_weight(name='bias', shape=[self.units], initializer='ones')
        super().build(batch_input_shape) # Usando `super` para invocar o método build da classe-parente (`Layer`).
    
    # `call` apenas efetua a conta que desejamos fazer: multiplicar as features pelos weights e somar o produto com o vetor de bias.
    def call(self, X):
        return self.activation(X @ self.kernel + self.bias)
    
    # Função que computa o shape da camada.
    def compute_output_shape(self, batch_input_shape):
        return tf.TensorShape(batch_input_shape.as_list()[:-1] + [self.units])
    
    # Mesma funcionalidade que nos últimos casos.
    def get_config(self):
        base_config = super().get_config()
        # `serialize` é o inverso do método `get`. Ou seja, retorna a string identificadora da função, dado o seu objeto.
        return {**base_config, 'units':self.units, 'activation':keras.activations.serialize(self.activation)}

In [104]:
# Podemos também montar uma camada de múltiplos inputs e outputs.
class MultiLayer(keras.layers.Layer):
    # Nossa `MultiLayer` admitirá uma tupla com dois inputs.
    def call(self, X):
        X1, X2 = X
        # A camada retornará 3 outputs.
        return [X1+X2, X1*X2, tf.square(X1+X2)/2]
    
    # Método que retorna o shape de cada output
    def compute_output_shape(self, batch_input_shape):
        b1, b2 = batch_input_shape
        return [b1, b1, b1]

<div> 
    <ul style='font-size:20px'> 
        <li> 
            Como vimos com Dropout, uma camada pode demonstrar comportamentos distintos a depender se estamos em fase de treino ou teste. Se quisermos que nossa camada apresente tais nuances, crie um argumento 'training' em `call`.
        </li>
    </ul>
</div>

In [107]:
# Classe para adição de noise Gaussiano.
class MyGaussianNoise(keras.layers.Layer):
    def __init__(self, stddev, **kwargs):
        super().__init__(**kwargs)
        self.stddev = stddev # Desvio-Padrão da Distribuição Normal.
        
    def call(self, X, training=False):
        # Se 'training' for True, retornar X acrescido de 'noise'.
        if training:
            noise = tf.random.normal(shape=tf.shape(X), stddev=self.stddev)
            return X + noise
        else:
            return X
        
    def compute_output_shape(batch_input_shape):
        return batch_input_shape

In [191]:
# Por último, uma camada-envelope com uma Dense, Batch e Dropout.
from typing import List
class MyWrapper(keras.layers.Layer):
    def __init__(self, dense_units:int, trainable:bool=True,**kwargs):
        super().__init__()
        self.dense_units= dense_units
        self.trainable = trainable
        self.hidden = [keras.layers.Dense(units=self.dense_units, **kwargs),
                       keras.layers.Dropout(.5, trainable=self.trainable),
                      keras.layers.BatchNormalization()]
        
    def call(self, inputs):
        Z = inputs
        for layer in self.hidden:
            Z = layer(Z)
        return Z
    
    def get_config(self):
        base_config = super().get_config()
        return {**base_config, 'units':self.dense_units, 'trainable':self.trainable}
        
        
MyWrapper(50, activation='elu', kernel_initializer='lecun_normal', use_bias=True)

<__main__.MyWrapper at 0x7fac49ec9f40>

In [188]:
# Inicialização com input layer.
model = keras.models.Sequential([
    keras.layers.Input(shape=X_train_norm.shape[1])
])

# Hidden Layers.
for _ in range(4):
    model.add(MyWrapper(50, activation = 'elu', bias_initializer='ones', kernel_initializer='lecun_normal', use_bias=True))
       
# Camada de Output.
model.add(keras.layers.Dense(1))

In [190]:
# Compilação do modelo.
model.compile(optimizer=keras.optimizers.Nadam(learning_rate=10e-3), loss=keras.losses.MeanSquaredError())

early_stopping = keras.callbacks.EarlyStopping(patience=5, restore_best_weights=True)
model.fit(X_train_norm, y_train, epochs=50, validation_data=(X_test_norm, y_test), steps_per_epoch=1, 
         callbacks=[early_stopping], use_multiprocessing=True)

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50


<keras.callbacks.History at 0x7fac4db79670>

<h3 style='font-size:30px;font-style:italic'> Custom Models</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Se precisarmos, podemos criar modelo personalizados facilmente.
        </li>
    </ul>
</div>

In [224]:
# O último modelo poderia ser facilmente montado como um objeto.
class MySequential(keras.Model): 
    
    # Montagem da estrutura.
    @staticmethod
    def add_layers():
        layout = [keras.layers.Input(shape=X_train_norm.shape[1])]
        for _ in range(4):
            layout.append(MyWrapper(50, activation = 'elu', bias_initializer='ones', kernel_initializer='lecun_normal', use_bias=True))
        # Camada de output.
        layout.append(keras.layers.Dense(1))
        return layout
        
    
    def __init__(self, n_layers,**kwargs):
        super().__init__()
        self.n_layers = n_layers
        self.layout = MySequential.add_layers()
    
    # `call` é chamado na realização das previsões.
    def call(self, inputs):
        Z = inputs
        for layer in self.layers:
            Z = layer(Z)
        return Z
my_sequential = MySequential(4)

In [228]:
# Compilando e treinando o nosso próprio modelo!
my_sequential.compile(optimizer='nadam', loss='mse')
my_sequential.fit(X_train_norm, y_train, epochs=100, callbacks=[early_stopping], validation_data=(X_test_norm, y_test),
               workers=-1, use_multiprocessing=True)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100


<keras.callbacks.History at 0x7fac4d7082b0>

In [234]:
# Salvando modelo e weights.
keras.models.save_model(my_sequential, 'models/my_sequential.tf')

#! mkdir weights
my_sequential.save_weights('weights/my_sequential_weights.h5')



INFO:tensorflow:Assets written to: models/my_sequential.tf/assets


INFO:tensorflow:Assets written to: models/my_sequential.tf/assets


In [243]:
# Agora, simulando o carregamento do modelo com seus weights.
my_loaded_sequential = keras.models.load_model('models/my_sequential.tf')

# Fiz um teste e, aparentemente, o `load_model` deu conta de carregar os coeficientes automaticamente.
# De qualquer maneira, usar o `load_weights` não afeta absolutamente nada.
my_loaded_sequential.load_weights('weights/my_sequential_weights.h5')

In [244]:
# Avaliando o modelo.
my_loaded_sequential.evaluate(X_test_norm, y_test)



65.9991455078125

<h3 style='font-size:30px;font-style:italic'> Losses and Metrics Based on Model Internals</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Esta seção apresenta como fazemos para acrescentar novas losses ao modelo, é só passar self.add_loss em `call`. Não vou reproduzir toda a classe criada no livro. 
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> Computing Gradients with Autodiff</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Como vimos em otimizadores, a computação dos gradientes é a tarefa essencial do treinamento. O TensorFlow providencia o objeto GradientTape, que é capaz de calcular as parciais de uma função.
        </li>
    </ul>
</div>

In [264]:
# Criando uma função a sofrer diferenciação.
def f(w1, w2):
    return 3*w1**2  + 2*w1*w2

# Declarando as coordenadas de onde o gradiente será mensurado. Os números devem ser float!
w1, w2 = tf.Variable(5.), tf.Variable(3.)

with tf.GradientTape() as tape:
    z = f(w1, w2)
    
tape.gradient(z, [w1, w2])

[<tf.Tensor: shape=(), dtype=float32, numpy=36.0>,
 <tf.Tensor: shape=(), dtype=float32, numpy=10.0>]

In [261]:
# O uso das funções da classe ocorre apenas uma vez, por padrão.
tape.gradient(z, [w1, w2])

RuntimeError: A non-persistent GradientTape can only be used to compute one set of gradients (or jacobians)

In [267]:
# Caso queira utilizar o objeto várias vezes, defina `persistent`=True
with tf.GradientTape(persistent=True) as tape:
    z = f(w1, w2)
    
tape.gradient(z, [w1, w2])

# Usando `tape` uma segunda vez para obter a parcial de `w1`.
tape.gradient(z, w1)

# Para desativar a classe, use 'del'.
del tape

<div> 
    <ul style='font-size:20px'> 
        <li> 
            O objeto `GradientTape` está configurado para apenas lidar com `tf.Variable`. Mas, se desejar usar outros objetos, use o método  'watch'.
        </li>
    </ul>
</div>

In [270]:
# Trocando Variables por constantes.
c1, c2 = tf.constant(5.), tf.constant(3.)

with tf.GradientTape() as tape:
    # Solicitando `tape` para monitorar as constantes.
    tape.watch(c1)
    tape.watch(c2)
    z = f(c1, c2)
    
tape.gradient(z, [c1, c2])

[<tf.Tensor: shape=(), dtype=float32, numpy=36.0>,
 <tf.Tensor: shape=(), dtype=float32, numpy=10.0>]

<div> 
    <ul style='font-size:20px'> 
        <li> 
                 O `tf.GradientTape` ainda pode cair em indeterminações. Um caso disso seria com a função softplus. A classe provavelmente considera a sua derivada como $\frac{e^{x}}{e^{x}+1}$, caindo na indeterminação $\frac{\infty}{\infty}$ quando $x \to \infty$.
        </li>
    </ul>
</div>

In [276]:
def softplus(w1):
    return tf.math.log(tf.exp(w1) + 1)

# Pondo um argumento bastante alto.
w1 = tf.Variable(10e10)
with tf.GradientTape() as tape:
    z = softplus(w1)

# Veja, a classe retorna um NaN.
tape.gradient(z, [w1])

[<tf.Tensor: shape=(), dtype=float32, numpy=nan>]

In [286]:
# A derivada da softplus, no entanto, pode ser escrita como 1/1( 1+ 1/exp).
@tf.custom_gradient
def my_better_softplus(z):
    exp = tf.exp(z)
    def my_softplus_gradients(grad):
        return grad / (1+1/exp)
    return tf.math.log(exp+1), my_softplus_gradients

# Usando o mesmo valor que na última célula.
v1 = tf.Variable(10e10)
with tf.GradientTape() as tape:
    f = my_better_softplus(v1)
    
tape.gradient(f, [v1])

[<tf.Tensor: shape=(), dtype=float32, numpy=1.0>]

<h2 style='font-size:30px;'> TensorFlow Functions and Graphs</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Converter funções ordinárias em funções TensorFlow pode causar um ganho de eficiência nas computações realizadas.
        </li>
        <li> 
            Curiosidade: Toda função ou classe customizável (métrica, loss, camada) é convertida a uma tf.function.
        </li>
    </ul>
</div>

In [301]:
# Para realizar essa transformaçõa, use o decorador @tf.function acima de seu método.
@tf.function
def cube(x):
    return x**3

# Observe, o valor retornado vem dentro de um tensor.
cube(3.)





<tf.Tensor: shape=(), dtype=float32, numpy=27.0>

<div> 
    <ul style='font-size:20px'> 
        <li> 
            A vantagem de gerar tf.function's é a flexibilidade dessas em lidar com tensores de diferentes shapes e data types. No entanto, para cada input de propriedades distintas, um novo grafo computacional é armazenado na memória do computador, consumindo-a.
        </li>
        <li> 
            Por outro lado, esse não é exatamente o mesmo caso para valores Python. Um grafo novo é criado a cada input diferente!
        </li>
    </ul>
</div>

In [300]:
# As funções TF podem ser usadas com tensores de qualquer shape e data type.
cube(tf.Variable([[1,2], [5,6]], dtype=tf.float16))

<tf.Tensor: shape=(2, 2), dtype=float16, numpy=
array([[  1.,   8.],
       [125., 216.]], dtype=float16)>

In [296]:
# O TensorFlow vai gerar dois grafos para o código abaixo. Portanto, evite manipular tf.function's com valores Python.
cube(1.), cube(2.)

(<tf.Tensor: shape=(), dtype=float32, numpy=1.0>,
 <tf.Tensor: shape=(), dtype=float32, numpy=8.0>)

<h3 style='font-size:30px;font-style:italic'> AutoGraph and Tracing</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Essa seção mostra um pouco como a otimização de funções é feita ao se invocar @tf.function.
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> TF Function Rules</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Evite usar funções de outros módulos (numpy, scipy) ao montar uma tf.function. Isso pode comprometer a performance do código, além de produzir resultados indesejados ao próprio desenvolvedor.
        </li>
        <li> 
            Ao criar tf.function's, sempre verifique se existe uma função do TensorFlow que realiza o procedimento que você pretende implantar!
        </li>
    </ul>
</div>

<p style='color:red'> Chapter 13</p>