# Customizing Models and training algorithms

## Loss Function
En algunos casos quizás por las características de los datos, sea necesario utilizar funciones de costo alternativas, como en este ejemplo donde se simula la implementación de Huber loss function a pesar de que keras contiene tf.keras.losses.Huber. 

En un caso hipotético donde se entrena un modelo de regresión, y luego de realizar la limpieza de outliers de los datos, aún mantienen cierto ruido, por lo cual el error cuadratico medio puede penalizar demasiado a errores largos y generar un modelo impreciso. El error absoluto medio quizás no penaliza tanto a los outliers, pero el entrenamiento pueden demorar en converger, y el modelo entrenado puede ser impreciso también. Por lo tanto se procede a usar una función de pérdida custom en lugar de MSE.


```Python
import tensorflow as tf
import keras

def huber_fn(y_true, y_pred):
    error = y_true - y_pred
    max_error = 1
    is_small_error = tf.abs(error) < max_error
    squared_loss = tf.square(error)
    linear_loss = tf.abs(error) - 0.5
    return tf.where(is_small_error, squared_loss, linear_loss)
```

Para mejor performance se debe utilizar únicamente una implementación vectorial, para beneficiarse de la optimización de TensorFlow solo se deben usar operaciones de TensorFlow

In [5]:
import tensorflow as tf
import keras

tf.random.set_seed(42)

@tf.function
def huber_fn(y_true, y_pred, delta=1.0):
    error = y_true - y_pred
    abs_error = tf.abs(error)
    quadratic = 0.5 * tf.square(error)
    linear = delta * (abs_error - 0.5 * delta)
    return tf.where(abs_error <= delta, quadratic, linear)

- Vectorización total: todo opera sobre tensores, sin bucles.
- Multiplica por delta en la parte lineal (más general y matemáticamente correcto).
- Decorador @tf.function: compila la función en una graph function, mejorando performance al ser usado en entrenamiento o producción.

Se utilizará el dataset de Housing para simular un problema de regresión

In [6]:
from tensorflow.keras.datasets import boston_housing
from sklearn.preprocessing import StandardScaler

(x_train, y_train), (x_test, y_test) = boston_housing.load_data()
scaler = StandardScaler()
x_train = scaler.fit_transform(x_train)
x_test = scaler.transform(x_test)

x_train.shape

(404, 13)

404 muestras con 13 atributos

In [7]:
model = keras.Sequential(
    [
        keras.layers.Dense(32, activation="relu", input_shape=(x_train.shape[1],)),
        keras.layers.Dropout(0.4),
        keras.layers.Dense(16, activation="relu"),
        keras.layers.Dropout(0.3),
        keras.layers.Dense(1)
    ])

optimizer = keras.optimizers.Adam(learning_rate=0.0005)

model.compile(
    loss=huber_fn, 
    optimizer=optimizer,
    metrics=["mae", "mse"]  # Métricas apropiadas para regresión, mean absolute error y mean squared error
    #metrics=["accuracy"] Aqui se uso accuracy, pero es para clasificación, en regresión se usa mae o mse
)

early_stopping = tf.keras.callbacks.EarlyStopping(
    monitor='val_loss',
    patience=10,
    restore_best_weights=True
)

checkpoint_cb = tf.keras.callbacks.ModelCheckpoint("custom_model_loss_function.h5", save_best_only=True)

model.fit(
    x_train, 
    y_train, 
    epochs=200, 
    validation_data=(x_test, y_test),
    callbacks=[checkpoint_cb, early_stopping]
)



Epoch 1/200
Epoch 2/200
Epoch 3/200
Epoch 4/200
Epoch 5/200
Epoch 6/200
Epoch 7/200
 1/13 [=>............................] - ETA: 0s - loss: 20.9431 - mae: 21.4431 - mse: 509.3153

  saving_api.save_model(


Epoch 8/200
Epoch 9/200
Epoch 10/200
Epoch 11/200
Epoch 12/200
Epoch 13/200
Epoch 14/200
Epoch 15/200
Epoch 16/200
Epoch 17/200
Epoch 18/200
Epoch 19/200
Epoch 20/200
Epoch 21/200
Epoch 22/200
Epoch 23/200
Epoch 24/200
Epoch 25/200
Epoch 26/200
Epoch 27/200
Epoch 28/200
Epoch 29/200
Epoch 30/200
Epoch 31/200
Epoch 32/200
Epoch 33/200
Epoch 34/200
Epoch 35/200
Epoch 36/200
Epoch 37/200
Epoch 38/200
Epoch 39/200
Epoch 40/200
Epoch 41/200
Epoch 42/200
Epoch 43/200
Epoch 44/200
Epoch 45/200
Epoch 46/200
Epoch 47/200
Epoch 48/200
Epoch 49/200
Epoch 50/200
Epoch 51/200
Epoch 52/200
Epoch 53/200
Epoch 54/200
Epoch 55/200
Epoch 56/200
Epoch 57/200
Epoch 58/200
Epoch 59/200
Epoch 60/200
Epoch 61/200
Epoch 62/200
Epoch 63/200
Epoch 64/200
Epoch 65/200
Epoch 66/200
Epoch 67/200
Epoch 68/200
Epoch 69/200
Epoch 70/200
Epoch 71/200
Epoch 72/200
Epoch 73/200
Epoch 74/200
Epoch 75/200
Epoch 76/200
Epoch 77/200
Epoch 78/200
Epoch 79/200
Epoch 80/200
Epoch 81/200
Epoch 82/200
Epoch 83/200
Epoch 84/200
E

<keras.src.callbacks.History at 0x16ac3b550>

### Saving and loading models containing custom components

Con una función costo hay que proveer un diccionario que mapea el nombre de la función a la función en si cuando cargás la misma.

In [9]:
model = tf.keras.models.load_model("custom_model_loss_function.h5",
                            custom_objects={"huber_fn": huber_fn})



Con esta implementación, cualquier error entre -1 y 1 es considerado chico, Pero como configurar un treshold distinto? Una solución es modificar la función custom

In [14]:
def create_huber(treshold=1.0): #Implementacion distinta de la primera, a modo de ejemplo
    def huber_fn(y_true, y_predicted):
        error = y_true - y_pred
        abs_error = tf.abs(error)
        quadratic = 0.5 * tf.square(error)
        linear = treshold * (abs_error - 0.5 * delta)
        return tf.where(abs_error <= treshold, quadratic, linear)
    return huber_fn

model.compile(loss=create_huber(2.0), optimizer="nadam")
model.save("custom_model_loss_function_2.h5")

model = tf.keras.models.load_model("custom_model_loss_function_2.h5",
                                  custom_objects={"huber_fn": create_huber(2.0)})

Cuando se guarda el modelo, el umbral no se va a guardar, esto significa que hay que especificarlo cuando se carga el modelo. También es notable que el nombre de funcion que se le da a keras es huber_fn, no create_huber

Esto se puede resolver creando una subclase de una clase tf.keras.losses.Loss e implementando su método get_config()

In [20]:
class HuberLoss(tf.keras.losses.Loss):
    def __init__(self, threshold=1.0, **kwargs):
        self.threshold = threshold
        super().__init__(**kwargs)

    def call(self, y_true, y_pred):
        error = y_true - y_pred
        is_small_error = tf.abs(error) < self.threshold
        abs_error = tf.abs(error)
        squared_loss = tf.square(error) / 2
        linear_loss = self.threshold * abs_error - self.threshold**2/2
        return tf.where(is_small_error, squared_loss, linear_loss)

    def get_config(self):
        base_config = super().get_config()
        return {**base_config, "threshold": self.threshold}


model.compile(loss=HuberLoss(2.), optimizer="nadam")
model.save("custom_class_loss_function.h5")

model = tf.keras.models.load_model("custom_class_loss_function.h5",
                                   custom_objects={"HuberLoss": HuberLoss})

El constructor acepta **kwargs y lo pasa al padre cuando hace super(**kwargs), esto es para gestionar los hyperparámetros standard, como el nombre de la perdida y el algoritmo de reducción para usar instancias de perdidad individual. Por defecto esto es auto, que es equivalente a "SUM_OVER_BATCH_SIZE". La perdida sera la suma de las perdidas de la instancia, ponderada por los pesos de las muestras, si este valor existe. Luego se lo divide por el tamaño del batch (no por la suma de pesos, no es un promedio ponderado). Otro posible valor es "SUM" o "NONE"

El método call(), toma las etiquetas y las predicciones, computa las pérdidas de la instancia y las retorna.

El método get_config() retorna un diccionario con cada hyperparámetro y su valor, primero llama al get_config() de la clase padre

Ahora cuando se guarda el modelo, keras llama al método get_config() de la instancia de la clase y guarda la configuración en el SavedModel. Cuando se carga el modelo, llama al método from_config(), que de la clase HuberLoss, crea una instancia de la clase y le pasa **config al constructor. Y con esto se implementan las funciones de pérdida.