# Descenso por gradiente

(Ejercicio, 3 puntos)

En este notebook implementaremos un solo paso del método de descenso por gradiente en una neurona. El método es una técnica de optimización utilizada para encontrar el mínimo de una función de manera iterativa. En el contexto de redes neuronales, se utiliza para minimizar la función de costo, que mide el error entre las predicciones del modelo y los valores reales. El proceso comienza con una estimación inicial para los parámetros del modelo, y luego, en cada paso, ajusta estos parámetros en la dirección opuesta al gradiente de la función de costo, que indica la dirección de mayor aumento. La magnitud del ajuste en cada paso se determina por un parámetro llamado tasa de aprendizaje. El proceso se repite hasta alcanzar un mínimo local o hasta que el cambio en la función de costo entre iteraciones sea insignificante, indicando que el modelo ha convergido a una solución.

![gradiente](files/gradient_descent_1n_notebook.png)

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/irvingvasquez/cv2course_intro_nn/blob/master/03_descenso_unpaso.ipynb)

@juan1rving

In [None]:
# importamos paquetes
import numpy as np

### Definimos la red neuronal

Definiremos una red simple, una sola neurona. Es decir,

$$
\hat{y} = f(\sum w_i \cdot x_i + b)
$$

Y utilizaremos la función sigmoide:

$$
f(h) = \sigma(h)
$$

In [None]:
# función de activación
def sigmoid(x):
    return 1/(1+np.exp(-x))

# Derivada de f
def sigmoid_prime(h):
    return sigmoid(h) * (1 - sigmoid(h))

# clase Neurona
class Neurona:
    def __init__(self, W, b, activacion):
        self.W = W
        self.b = b
        self.activacion = activacion

    def combinacion_lineal(self, X):
        h = np.dot(self.W, X) + self.b
        return h

    def forward(self, X):
        h = self.combinacion_lineal(X)
        return self.activacion(h)

### Término de error

Escribe una función que calcule el término de error

$$\delta= (y-\hat{y})f' (h) = (y-\hat{y})f' (\sum_i w_i x_i)$$

In [None]:
# TODO (1 punto): implementar el cálculo del término de error

def error_term(y, x, neurona):
    h = neurona.combinacion_lineal(x)
    return (y - neurona.forward(x)) * sigmoid_prime(h)



### Incremento

Escribe una función para determinar el incremento a uno de los pesos
$$\Delta w_i= \eta \delta x_i$$


In [None]:
# TODO (1 punto): implementar el cálculo del incremento
def incremento(eta, error_term, X):
    return None

## Actualización

Escribe una función para actualizar los pesos en la red

In [None]:
# TODO (1 punto): implementar la actualización de los pesos
def actualizacion(neurona, incremento_W, incremento_b):
    neurona.W = None
    neurona.b = None
    return neurona


### Verificar funcionamiento

A continuación implementemos una neurona de ejemplo y verificaremos que está funcionando almenos un paso del método de descenso por gradiente.

In [None]:
# valores de ejemplo
tasa_aprendizaje = 2.0
x = np.array([1, 1])
y = 1.0

# Valores iniciales de los pesos
w = np.array([0.1,0.2])
b = 0

Utiliza las funciones previamente definidas para calcular lo siguiente:

In [None]:
# TODO Calcular la salida de la red
neurona = Neurona(w, b, sigmoid)
salida = None
print('Salida:', salida)

# ---- Descenso por gradiente ---------------

# Calcula el término de error
error_t = error_term(y, x, neurona)
print('Término de error:', error_t)

# Calcula el incremento de los pesos
inc_w = incremento(tasa_aprendizaje, error_t, x)
print('Incremento:', inc_w)

# Calcula el incremento del sesgo
inc_b = incremento(tasa_aprendizaje, error_t, 1)
print('Incremento del sesgo:', inc_b)

# Actualiza los pesos
neurona = actualizacion(neurona, inc_w, inc_b)
print('Pesos actualizados:', neurona.W)

(1 punto) Vuelve a realizar la inferencia y verifica que se está disminuyendo la pérdida.