In [13]:
import torch
import torch.nn as nn
import torch.nn.functional as F

## Formula basica
 output = w*x + b
 
 output = activation_function(output)
 
 ### Antes de emprezar tenes que tner en cuenta que:
 
 **nn.ReLU()** crea un **nn.Module** que puede agregar, por ejemplo, a un modelo nn.Sequential.
 
 **torch.relu** en el otro lado es solo la llamada API funcional a la función relu,
 para que pueda agregarlo, por ejemplo, en su método de avance usted mismo.

In [14]:
x = torch.tensor([-1.0, 1.0, 2.0, 3.0])

## Linear: 
Una función de línea recta donde la activación es proporcional a la entrada (que es la suma ponderada de la neurona).

**Fomula matematica de la derivada(codigo):**

`def linear_prime(z,m):
	return m`

![imagen.png](https://ml-cheatsheet.readthedocs.io/en/latest/_images/linear_prime.png)

**Fomula matematica de la funcion(codigo):**

`def linear(z,m):
	return m*z`

![imagen.png](https://ml-cheatsheet.readthedocs.io/en/latest/_images/linear.png)


**Ventajas:**
 - Da un rango de activaciones, por lo que no es una activación binaria. 
 - Definitivamente podemos conectar algunas neuronas juntas y si se dispara más de 1, podríamos tomar el máximo (o softmax) y decidir en base a eso. 

**Desventajas:**
 - Para esta función, la derivada es una constante. Eso significa que el gradiente no tiene relación con X. 
 - Es una pendiente constante y el descenso va a ser en pendiente constante.
 - Si hay un error en la predicción, los cambios realizados por la retropropagación son constantes y no dependen del cambio en la entrada delta(x). 




In [92]:
# Si quisieramos una sola salida "torch.randn(4, 4"
weight = torch.randn(4, 4) # Calculamos un peso aleatorio
output = F.linear(input=x, weight=weight, bias=None) #Las salidas dependeran de las filas del peso(4filas = 4salidas)
print(output)

# Si quisieramos una sola salida "L = nn.Linear(4, 1)"
L = nn.Linear(4, 4)
output = L(x)
print(output)

#Los resultados son diferentes por que los pesos son randon

tensor([ 7.2715, -0.6989, -0.1908,  0.5789])
tensor([0.1956, 0.6300, 2.4629, 1.0383], grad_fn=<AddBackward0>)


## sofmax

La función Softmax calcula la distribución de probabilidades del evento sobre 'n' eventos diferentes. En términos generales, esta función calculará las probabilidades de cada clase objetivo sobre todas las clases objetivo posibles. Posteriormente, las probabilidades calculadas serán útiles para determinar la clase objetivo para las entradas dadas. 

In [5]:
output = torch.softmax(x, dim=0)
print(output)
sm = nn.Softmax(dim=0)
output = sm(x)
print(output)

tensor([0.0120, 0.0889, 0.2418, 0.6572])
tensor([0.0120, 0.0889, 0.2418, 0.6572])


## sigmoid 

Sigmoid toma un valor real como entrada y genera otro valor entre 0 y 1. Es fácil trabajar con él y tiene todas las buenas propiedades de las funciones de activación: no es lineal, continuamente diferenciable, monótono y tiene un rango de salida fijo.

**Formula Matematica de la derivada(codigo):**

`def sigmoid_prime(z):
  return sigmoid(z) * (1-sigmoid(z))`

![imagen.png](https://ml-cheatsheet.readthedocs.io/en/latest/_images/sigmoid_prime.png)

**Formula Matematica de la funcion(codigo):**

`def sigmoid(z):
  return 1.0 / (1 + np.exp(-z))`

![imagen.png](https://ml-cheatsheet.readthedocs.io/en/latest/_images/sigmoid.png)

**Ventajas:**
 - Es de naturaleza no lineal. ¡Las combinaciones de esta función también son no lineales! 
 - Dará una activación analógica a diferencia de la función de paso.
 - También tiene un degradado suave.
 - Es bueno para un clasificador.
 - La salida de la función de activación siempre estará en el rango (0,1) en comparación con (-inf, inf) de la función lineal. Entonces tenemos nuestras activaciones limitadas en un rango. Genial, entonces no explotará las activaciones. 

**Desventajas:**
 - Hacia cualquier extremo de la función sigmoidea, los valores de Y tienden a responder mucho menos a los cambios en X. 
 - Da lugar a un problema de “gradientes que se desvanecen”. 
 - Su salida no está centrada en cero. Hace que las actualizaciones de gradiente vayan demasiado lejos en diferentes direcciones. 0 <salida <1, y dificulta la optimización. 
 - Los sigmoides saturan y eliminan los gradientes. 
 - La red se niega a seguir aprendiendo o es drásticamente lenta (dependiendo del caso de uso y hasta que el gradiente/cálculo se vea afectado por los límites de valor de coma flotante). 

In [6]:
output = torch.sigmoid(x)
print(output)
s = nn.Sigmoid()
output = s(x)
print(output)

tensor([0.2689, 0.7311, 0.8808, 0.9526])
tensor([0.2689, 0.7311, 0.8808, 0.9526])


## tanh

Tanh reduce un número de valor real al rango [-1, 1]. No es lineal. Pero a diferencia de Sigmoid, su salida está centrada en cero. Por lo tanto, en la práctica siempre se prefiere la no linealidad tanh a la no linealidad sigmoidea.

**Formula Matematica de la derivada(codigo):**

`def tanh_prime(z):
	return 1 - np.power(tanh(z), 2)`

![imagen.png](https://ml-cheatsheet.readthedocs.io/en/latest/_images/tanh_prime.png)

**Formula Matematica de la funcion(codigo):**

`def tanh(z):
	return (np.exp(z) - np.exp(-z)) / (np.exp(z) + np.exp(-z))`

![imagen.png](https://ml-cheatsheet.readthedocs.io/en/latest/_images/tanh.png)

**Ventajas:**
 - El gradiente es más fuerte para tanh que sigmoide (los derivados son más pronunciados).

**Desventajas:**
 - Tanh también tiene el problema del gradiente de fuga.

In [7]:
output = torch.tanh(x)
print(output)
t = nn.Tanh()
output = t(x)
print(output)

tensor([-0.7616,  0.7616,  0.9640,  0.9951])
tensor([-0.7616,  0.7616,  0.9640,  0.9951])


## relu

Un invento reciente que significa Unidades Lineales Rectificadas. La fórmula es engañosamente simple: max(0,z). A pesar de su nombre y apariencia, no es lineal y brinda los mismos beneficios que Sigmoid (es decir, la capacidad de aprender funciones no lineales), pero con un mejor rendimiento.

**Formula Matematica de la derivada(codigo):**

`def relu_prime(z):
  return 1 if z > 0 else 0`

![imagen.png](https://ml-cheatsheet.readthedocs.io/en/latest/_images/relu_prime.png)

**Formula Matematica de la funcion(codigo):**

`def relu(z):
  return max(0, z)`

![imagen.png](https://ml-cheatsheet.readthedocs.io/en/latest/_images/relu.png)

**Ventajas:**
 - Evita y corrige el problema del gradiente de fuga. 
 - ReLu es menos costoso computacionalmente que tanh y sigmoid porque involucra operaciones matemáticas más simples. 

**Desventajas:**
 - Una de sus limitaciones es que solo debe usarse dentro de capas ocultas de un modelo de red neuronal.
 - Algunos gradientes pueden ser frágiles durante el entrenamiento y pueden morir. Puede causar una actualización de peso que hará que nunca más se active en ningún punto de datos. En otras palabras, ReLu puede resultar en neuronas muertas. 
 - En otras palabras, para activaciones en la región (x<0) de ReLu, el gradiente será 0 por lo que los pesos no se ajustarán durante el descenso. Eso significa que aquellas neuronas que entren en ese estado dejarán de responder a las variaciones en el error/entrada (simplemente porque el 
 - El rango de ReLu es [0,∞). Esto significa que puede explotar la activación. 

In [94]:
output = torch.relu(x)
print(output)
relu = nn.ReLU()
output = relu(x)
print(output)

tensor([0., 1., 2., 3.])
tensor([0., 1., 2., 3.])


## leaky relu

LeakyRelu es una variante de ReLU. En lugar de ser 0 cuando z<0, 
una ReLU con fugas permite un gradiente pequeño, distinto de cero y constante α(Normalmente, α=0.01). Sin embargo, la consistencia del beneficio entre tareas no está clara actualmente.

**Formula Matematica de la derivada(codigo):**

`def leakyrelu_prime(z, alpha):
	return 1 if z > 0 else alpha`

![imagen.png](https://ml-cheatsheet.readthedocs.io/en/latest/_images/leakyrelu_prime.png)

**Formula Matematica de la funcion(codigo):**

`def leakyrelu(z, alpha):
	return max(alpha * z, z`

![imagen.png](https://ml-cheatsheet.readthedocs.io/en/latest/_images/leakyrelu.png)

**Ventajas:**
 - Las ReLU con fugas son un intento de solucionar el problema de la "ReLU moribunda" al tener una pequeña pendiente negativa (de 0,01, más o menos).  

**Desventajas:**
 - Como posee linealidad, no puede ser utilizado para la Clasificación compleja. Va a la zaga de Sigmoid y Tanh en algunos de los casos de uso.


In [9]:
output = F.leaky_relu(x)
print(output)
lrelu = nn.LeakyReLU()
output = lrelu(x)
print(output)

tensor([-0.0100,  1.0000,  2.0000,  3.0000])
tensor([-0.0100,  1.0000,  2.0000,  3.0000])


## ELU

La unidad lineal exponencial o su nombre ampliamente conocido ELU es una función que tiende a hacer converger el costo a cero más rápido y produce resultados más precisos. A diferencia de otras funciones de activación, ELU tiene una constante alfa adicional que debería ser un número positivo.

ELU es muy similar a RELU excepto entradas negativas. Ambos están en forma de función de identidad para entradas no negativas. Por otro lado, ELU se suaviza lentamente hasta que su salida es igual a -α mientras que RELU se suaviza bruscamente.

**Formula Matematica de la derivada(codigo):**
![imagen.png](https://ml-cheatsheet.readthedocs.io/en/latest/_images/elu_prime.png)

`def elu_prime(z,alpha):
	return 1 if z > 0 else alpha*np.exp(z)`

**Formula Matematica de la funcion(codigo):**

`def elu(z,alpha):
	return z if z >= 0 else alpha*(e^z -1)`

![imagen.png](https://ml-cheatsheet.readthedocs.io/en/latest/_images/elu.png)

**Ventajas:**
 - ELU se suaviza lentamente hasta que su salida es igual a -α mientras que RELU se suaviza bruscamente.
 - ELU es una fuerte alternativa a ReLU. 
 - A diferencia de ReLU, ELU puede producir salidas negativas.

**Desventajas:**
 - Para x > 0, puede explotar la activación con el rango de salida de [0, inf].

In [93]:
output = F.elu(x)
print(output)

el = nn.ELU()
output = el(x)
print(output)

tensor([-0.6321,  1.0000,  2.0000,  3.0000])
tensor([-0.6321,  1.0000,  2.0000,  3.0000])


In [None]:
# option 1 (create nn modules)
class NeuralNet(nn.Module):
    def __init__(self, input_size, hidden_size):
        super(NeuralNet, self).__init__()
        self.linear1 = nn.Linear(input_size, hidden_size)
        self.relu = nn.ReLU()
        self.linear2 = nn.Linear(hidden_size, 1)
        self.sigmoid = nn.Sigmoid()
    
    def forward(self, x):
        out = self.linear1(x)
        out = self.relu(out)
        out = self.linear2(out)
        out = self.sigmoid(out)
        return out

# option 2 (use activation functions directly in forward pass)
class NeuralNet(nn.Module):
    def __init__(self, input_size, hidden_size):
        super(NeuralNet, self).__init__()
        self.linear1 = nn.Linear(input_size, hidden_size)
        self.linear2 = nn.Linear(hidden_size, 1)
    
    def forward(self, x):
        out = torch.relu(self.linear1(x))
        out = torch.sigmoid(self.linear2(out))
        return out