# Descenso por gradiente

En este notebook implementaremos un paso del método de descenso por gradiente. Este método nos sirve para encontrar los parámetros de la red de tal forma que la salida se asemeje a el valor objetivo.

![gradiente](files/gradient_descent_1n_notebook.png)

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/irvingvasquez/cv2course_intro_nn/blob/master/03_descenso_unpaso.ipynb)

@juan1rving

In [10]:
# importamos paquetes
import numpy as np

## Definimos la red neuronal

In [11]:
# función de activación
def sigmoid(x):
    return 1/(1+np.exp(-x))

# Derivada de f
def sigmoid_prime(x):
    return sigmoid(x) * (1 - sigmoid(x))

# función h lineal
def function_h(X, W, b):
    return np.dot(W, X) + b

# Salida de la RN
def output_y(X,W,b):
    return sigmoid(function_h(X,W,b))

## Término de error

Escribe una función que calcule el término de error

$$\delta= (y-\hat{y})f' (h) = (y-\hat{y})f' (\sum_i w_i x_i)$$

In [12]:
# TODO: implementar el cálculo del término de error

def error_term(y,W,X,b):
    error = y - output_y(X, W, b)
    delta = error * sigmoid_prime(output_y(X, W, b))
    return delta

## Incremento

Escribe una función para determinar el incremento a uno de los pesos
$$\Delta w_i= \eta \delta x_i$$


In [13]:
# TODO: implementar el cálculo del incremento

# Gradient descent is the derivative of the error function with respect to the weights.

# calculus chain rule:
# dE/dw = dE/dy * dy/dh * dh/dw
# where dE = error term
# dE/dy = y - y_hat
# dy/dh = sigmoid_prime(h)
# dh/dw = x

def increment(W, X, b, eta, i, y):
    w = eta * error_term(y, W, X, b) * X[i] 
    return w

## Verificar funcionamiento

A continuación implementemos una red de ejemplo y verificaremos que está funcionando almenos un paso del método de descenso por gradiente.

In [14]:
# valores de ejemplo
learning_rate = 0.1
x = np.array([1,1])
y = 5

# Initial weights
w = np.array([0.1,0.2])
b = 0

In [15]:
# Calcular la salida de la red
salida = output_y(x, w, b)
print('Salida:', salida)

# Calcula el error residual de la red
residual = y - salida
print('Error:', residual)

# Calcula el incremento de los pesos
incremento = [increment(w, x, b, learning_rate, 0, y), increment(w, x, b, learning_rate, 1, y)]
print('Incremento:', incremento)

# Calcula el nuevo valor del los pesos
n_w = w + incremento
print('Nuevos pesos:', n_w)

# Calcula el nuevo error
n_error = y - output_y(x, n_w, b)
print('Nuevo error:', n_error)


Salida: 0.574442516811659
Error: 4.425557483188341
Incremento: [0.10199114047268941, 0.10199114047268941]
Nuevos pesos: [0.20199114 0.30199114]
Nuevo error: 4.376605275390046




Si el nuevo error es menor que el primer error de la red entonces nuesto método de descenso está funcionando.





