* **Sánchez Martínez Felipe** 6BM1



# Descenso por gradiente

En este notebook implementaremos un solo paso del método de descenso por gradiente. El método es una técnica de optimización utilizada para encontrar el mínimo de una función de manera iterativa. En el contexto de redes neuronales, se utiliza para minimizar la función de costo, que mide el error entre las predicciones del modelo y los valores reales. El proceso comienza con una estimación inicial para los parámetros del modelo, y luego, en cada paso, ajusta estos parámetros en la dirección opuesta al gradiente de la función de costo, que indica la dirección de mayor aumento. La magnitud del ajuste en cada paso se determina por un parámetro llamado tasa de aprendizaje. El proceso se repite hasta alcanzar un mínimo local o hasta que el cambio en la función de costo entre iteraciones sea insignificante, indicando que el modelo ha convergido a una solución.


![image.png](attachment:a1a3f638-fbba-4df8-a18e-a55b57a4590b.png)


@juan1rving

In [1]:
# importamos paquetes
import numpy as np

### Definimos la red neuronal

In [2]:
# función de activación
def sigmoid(x):
    return 1/(1+np.exp(-x))

# Derivada de f
def sigmoid_prime(x):
    return sigmoid(x) * (1 - sigmoid(x))

# función h lineal
def combinacion_lineal (X , W , b):
    h = np.dot(W,X) + b
    return h

# Neurona
def neurona(X,W,b):
    return sigmoid(combinacion_lineal(X,W,b))

### Término de error

Escribe una función que calcule el término de error

$$\delta= (y-\hat{y})f' (h) = (y-\hat{y})f' (\sum_i w_i x_i)$$

In [3]:
# TODO: implementar el cálculo del término de error
def error_term(y,W,X,b):
    out = neurona(X, W, b)
    e = y - out
    f_prime = sigmoid_prime(combinacion_lineal(X,W,b))
    return e * f_prime

### Incremento

Escribe una función para determinar el incremento a uno de los pesos
$$\Delta w_i= \eta \delta x_i$$


In [10]:
# TODO: implementar el cálculo del incremento
def increment(W, X, b, eta, i, y):
    error = error_term(y,W,X,b)
    return eta * error * X
    
    

### Verificar funcionamiento

A continuación implementemos una red de ejemplo y verificaremos que está funcionando almenos un paso del método de descenso por gradiente.

In [11]:
# valores de ejemplo
learning_rate = 1.0
x = np.array([1,1])
y = 1.0

# Valores iniciales de los pesos
w = np.array([0.1,0.2])
b = 0

In [12]:
# TODO Calcular la salida de la red
salida = neurona(x, w, b)
print('Salida:', salida)

# TODO Calcula el error residual de la red
residual = (y - salida)
print('Error:', residual)

# Calcula el incremento de los pesos
incremento = increment(w, x, b, learning_rate, 0, y)
print('Incremento:', incremento)

# Calcula el nuevo valor del los pesos
nw = w + incremento
print('Nuevos pesos:', nw)

# Calcula el nuevo error
nuevo_error = y  - neurona(x, nw, b)
print('Nuevo error:', nuevo_error)


Salida: 0.574442516811659
Error: 4.425557483188341
Incremento: [1.08186431 1.08186431]
Nuevos pesos: [1.18186431 1.28186431]
Nuevo error: 4.078440380493933


Si el nuevo error es menor que el primer error de la red entonces nuesto método de descenso está funcionando.

Escribe tus conclusiones


## Conclusión:
El descenso por gradiente genera un gran avance en la búsqueda de un mínimo local en el comportamiento de las neuronas, mostrando que el proceso de ajustar los pesos de las neuronas se puede realizar por sí solo mediante iteraciones hasta encontrar una salida que cumpla con el mínimo error de nuestra salida definida. Además, sigue siendo un proceso matemático encontrar el error mínimo mediante el gradiente.

Una vez más, se puede observar el comportamiento de las derivadas en la búsqueda de un mínimo, lo cual nos ayuda a optimizar la función. Con la ayuda del gradiente, encontramos datos como el incremento que se debe dar en los pesos y la dirección de dicho incremento, ajustándolo hasta llegar al punto de mínimo global o loca Entonces una vez calculamos el incremento, podemos volver a repetir el proceso de forma iterativa y deberiamos minimizar el error residual en cada iteración.
l.