## Actividad 1: Fundamentos de deep learning
En el presente notebook se muestran algunos conceptos importantes dentro de las redes neuronales y el deep learning.

TensorFlow es una biblioteca de programación numérica de código abierto desarrollada por Google. Su nombre se deriva de los "tensores", que son arreglos multidimensionales que se utilizan para representar datos.

En TensorFlow, los tensores son el objeto principal que se utiliza para realizar operaciones matemáticas. Los tensores son similares a los arreglos de NumPy, pero se optimizan para el procesamiento en GPU.

In [30]:
import tensorflow as tf
import numpy as np

import matplotlib.pyplot as plt

Por ejemplo una multiplicación entre dos tensores:

In [32]:
x = tf.constant([[1, 2, 3], [4, 5, 6]], dtype=tf.int32)

In [33]:
y = tf.constant([[7, 8], [9, 0], [1, 2]], dtype=tf.int32)

In [34]:
z = tf.matmul(x,y)

In [None]:
z.numpy()

¿Cómo se define una red neuronal en TensorFlow?\
En TensorFlow, se define una red neuronal utilizando la clase Sequential y agregando capas con el método add(). Cada capa tiene una función de activación y un número de neuronas que determina su complejidad.

In [36]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

model = Sequential()
model.add(Dense(16, input_shape=(8,)))
model.add(Dense(1))

En este caso se tendria una red neuronal con 8 neuronas en la capa de entrada, con una capa oculta de 16 neuronas y una neurona en la capa de salida. 


In [None]:
model.summary()

La función de pérdida o función de costo es una función que mide qué tan bien está funcionando el modelo en los datos de entrenamiento, comparando la salida predicha con la salida esperada. Al entrenar un modelo, el objetivo es minimizar el valor que entrega el la funcion de costo mediainte algun algoritmo de optimización

Para problemas de regresión es común utilizar función de error cuadrático medio (MSE, por sus siglas en inglés), que mide la diferencia promedio al cuadrado entre la salida predicha por el modelo y la salida esperada.

$MSE = (\frac{1}{n}) * ∑(y_{pred} - y_{real})^2$


In [None]:
# Suponiendo que los valores predichos son todos 0
y_true = [0, 1, 2, 3, 4, 5]
y_pred = [0, 0, 0, 0, 0, 0]
mse = tf.keras.losses.MeanSquaredError()
print(f'MSE = {mse(y_true, y_pred).numpy()}')

In [None]:
# Suponiendo que los valores predichos son la mitad del real
y_true = [0, 1, 2, 3, 4, 5]
y_pred = [0, 0.5, 1, 1.5, 2.0, 2.5]
mse = tf.keras.losses.MeanSquaredError()
print(f'MSE = {mse(y_true, y_pred).numpy()}')

In [None]:
# Suponiendo que los valores predichos son iguales a los reales
y_true = [0, 1, 2, 3, 4, 5]
y_pred = [0, 1, 2, 3, 4, 5]
mse = tf.keras.losses.MeanSquaredError()
print(f'MSE = {mse(y_true, y_pred).numpy()}')

El entrenamiento consiste en iterar, ajustando los parámetros (pesos y bias) de forma adecuada hasta llegar a un valor de MSE mínimo 

Para problemas de clasiicación no se suele utilizar el MSE cómo funcion de costo, la función de pérdida comúnmente utilizada para problemas de clasificación binaria en redes neuronales es la Entropía Cruzada Binaria (Binary Cross Entropy en inglés), también conocida como BCE.

La BCE mide la diferencia entre la probabilidad predicha por la red neuronal para una clase positiva y la probabilidad real. La fórmula matemática de la BCE es la siguiente:

$BCE = -\frac{1}{n} * ∑(y_{real} * log(y_{pred}) + (1 - y_{real}) * log(1 - y_{pred}))$

En un problema de clasiicación binaria, el modelo entrega probabilidades entre 0 y 1, el BCE penaliza el error de manera drastica:

In [None]:
# Suponiendo que solo hay una muestra y es totalmente erronea
y_true = [0.0]
y_pred = [1.0]
bce = tf.keras.losses.BinaryCrossentropy(from_logits=False)
print(f'BCE = {bce(y_true, y_pred).numpy()}')

In [None]:
# Suponiendo que solo hay una muestra y el valor predicho se acerca al real
y_true = [0.0]
y_pred = [0.1]
bce = tf.keras.losses.BinaryCrossentropy(from_logits=False)
print(f'BCE = {bce(y_true, y_pred).numpy()}')

In [None]:
# Si hay varias muestras:
y_true = [0.0, 1.0, 1.0, 0.0]
y_pred = [0.1, 0.6, 0.7, 0.2]
bce = tf.keras.losses.BinaryCrossentropy(from_logits=False)
print(f'BCE = {bce(y_true, y_pred).numpy()}')

El optimizador es el que se encarga de ajustar los pesos y bias buscando minimizar la funcion de costo, un optimizador muy conocido y sencillo de aplicar es el SGD (Stochastic Gradient Descent). Tiene un hyperparámetro muy importante que es la taza de aprendizaje o learning rate en ingles. La elección del valor puede hacer que el entrenamiento se demore mucho, o peor, que la funcion de costo nunca converja a un valo mínimo.

En tensor flow, los pesos y los bias se tratan como variables, supongamos que tenemos un funcion de costo de la forma:

$f(x) = \frac{1}{2}x^2$

Y queremos encontrar su mínimo (sabemos que el mínimo es 0) utilizando SGD, en este caso el peso a ajustar sería $x$, por ahora vamos a decir que cada vez que se ajustan los pesos lo vamos a llamar una epoca: 



In [44]:
# Creamos el optimizador
learning_rate=0.05
opt = tf.keras.optimizers.legacy.SGD(learning_rate=learning_rate)
var = tf.Variable(1.0)
loss = lambda: (var ** 2)/2.0 
step_count = []
epochs = []
for epoch in range(100):
  epochs.append(epoch)
  opt.minimize(loss, [var]).numpy()
  step_count.append(var.numpy()) 

In [None]:
plt.plot(epochs, step_count)
plt.grid(color='r', linestyle='-', linewidth=1)

El optimizador Adam es una variante del Descenso de Gradiente Estocástico (SGD) que se utiliza comúnmente en la optimización de redes neuronales. La principal razón por la que se prefiere Adam sobre el SGD es que es más eficiente y eficaz en la convergencia a mínimos locales y la búsqueda de parámetros óptimos.

In [46]:
# Creamos el optimizador
learning_rate=0.05
opt = tf.keras.optimizers.Adam(learning_rate=learning_rate)
var = tf.Variable(1.0)
loss = lambda: (var ** 2)/2.0 
step_count = []
epochs = []
for epoch in range(100):
  epochs.append(epoch)
  opt.minimize(loss, [var])
  step_count.append(var.numpy()) 

In [None]:
plt.plot(epochs, step_count)
plt.grid(color='r', linestyle='-', linewidth=1)

Veamos ahora funciones de activación

En una red neuronal, las funciones de activación se aplican a los resultados de las operaciones de la capa anterior y determinan la salida de cada neurona. Estas funciones son no lineales y se utilizan para agregar no linealidad al modelo y permitir que la red neuronal pueda aproximar funciones más complejas.

Algunos ejemplos de funciones de activación utilizadas en redes neuronales son la función sigmoide, la función ReLU (Rectified Linear Unit), la función tanh (tangente hiperbólica) y la función softmax. Cada una de estas funciones tiene características diferentes y es útil para diferentes tipos de tareas. Por ejemplo, la función ReLU se utiliza comúnmente en redes neuronales convolucionales para procesamiento de imágenes, mientras que la función softmax se utiliza a menudo en la capa de salida para clasificación de múltiples clases

unciones de activación con tf

In [56]:
# Sigmoide
inputs = np.linspace(-20, 20, 100)
outputs = tf.keras.activations.sigmoid(inputs)

In [None]:
plt.plot(inputs, outputs)
plt.grid(color='r', linestyle='-', linewidth=1)

Para un clasiicador binario, o sea una sola neurona en la capa de salida, normalmente se utiliza en esa última capa la función sigmoid, entrega valores entre 0 y 1

In [58]:
# thanh
inputs = np.linspace(-20, 20, 100)
outputs = tf.keras.activations.tanh(inputs)

In [None]:
plt.plot(inputs, outputs)
plt.grid(color='r', linestyle='-', linewidth=1)

Se suele utilizar en las capas ocultas

In [62]:
# Relu
inputs = np.linspace(-20, 20, 100)
outputs = tf.keras.activations.relu(inputs)

In [None]:
plt.plot(inputs, outputs)
plt.grid(color='r', linestyle='-', linewidth=1)

Al igual que tanh, se suele utilizar en las capas ocultas

## Softmax
Utilizada comúnmente en la capa de salida de una red neuronal multiclase. La red debe determinar la probabilidad de que una entrada pertenezca a una de varias categorías. La suma de las probabilidaddes de cada clase debe ser 1.

In [102]:
# softmax
caballo = 0.5
perro = -0.4
gato = 1.72
input = tf.constant([[caballo, perro, gato]], dtype=tf.float32)
outputs = tf.keras.activations.softmax(input)

En keras, al momento de crear una capa, se puede decir que función de activación se va a utilizar para esa capa:

In [106]:
model = Sequential()
model.add(Dense(16, input_shape=(8,), activation = 'relu'))
model.add(Dense(1, activation='sigmoid'))

Tambien al momento de construir el modelo, se le dice, que función de costo utilizar, y que optimizador.

In [107]:
model.compile(optimizer='sgd', loss='mse')

En este momento, tendriamos lista la red neuronal para el entrenamiento