In [1]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib qt
from mpl_toolkits.mplot3d import Axes3D

*Código para impresión de gráficas 3D:*

In [2]:
fig = plt.figure()
ax = plt.axes(projection = "3d")

x = np.linspace(-20,20,num=500)
y = np.linspace(-20,20,num=500)

def funcion_3D(var_X, var_Y):
    
    #funcion = (var_X - var_Y)**2
    funcion = var_X**2 + var_Y**2
    
    return funcion

X, Y = np.meshgrid(x, y)
Z = funcion_3D(X, Y)

ax.plot_surface(X,Y,Z, cmap="viridis")
ax.set_xlabel("X", fontsize=18, color="blue")
ax.set_ylabel("Y", fontsize=18, color="blue")
ax.set_zlabel("Z", fontsize=18, color="blue")

plt.tight_layout()
plt.show()

*** 
*Flechas de los gradientes:*

In [10]:
np.random.seed(0)

x = np.linspace(-20,20,num=500)
y = np.linspace(-20,20,num=500)

plt.xlabel("X", fontsize=18, color="blue")
plt.ylabel("Y", fontsize=18, color="blue")
#plt.plot(x,y)

plt.xticks(range(-20,20+1,2))
plt.yticks(range(-20,20+1,2))

porcentaje_a_tomar_de_la_maginitud_del_gradiente = 0.26  # 0.5 para x^2 + y^2.

pnts_x, pnts_y = np.random.normal(0,6,size=(250,)), np.random.normal(0,6,size=(250,))

##################################################################################################
# Función (x-y)^2 :

x_grad_coord = lambda x,y: ((2 * (x-y) * 1)*-1)*porcentaje_a_tomar_de_la_maginitud_del_gradiente
y_grad_coord = lambda x,y: ((2 * (x-y) * -1)*-1)*porcentaje_a_tomar_de_la_maginitud_del_gradiente

x_vector_coords = [x_grad_coord(x,y) for x,y in zip(pnts_x,pnts_y)]
y_vector_coords = [y_grad_coord(x,y) for x,y in zip(pnts_x,pnts_y)]

##################################################################################################
# Función x^2 + y^2 :

# x_grad_coord = lambda x: ((2*x)*-1)*porcentaje_a_tomar_de_la_maginitud_del_gradiente
# y_grad_coord = lambda y: ((2*y)*-1)*porcentaje_a_tomar_de_la_maginitud_del_gradiente

# x_vector_coords = [x_grad_coord(x) for x in pnts_x]
# y_vector_coords = [x_grad_coord(y) for y in pnts_y]

##################################################################################################

for pnts_x_single, pnts_y_single, x_vector_coord_single, y_vector_coord_single in zip(pnts_x, pnts_y, x_vector_coords, y_vector_coords):
    plt.arrow(pnts_x_single, pnts_y_single, x_vector_coord_single, y_vector_coord_single, head_width=0.6, facecolor="cyan", length_includes_head=True)

plt.grid()
plt.tight_layout()
plt.show()

*Gráfica de la función $f(x,y) = x^2 + y^2$:*

In [4]:
def funcion_3D(var_X, var_Y):
    funcion = var_X**2 + var_Y**2
    return funcion

def derivada_funcion3D(var_X, var_Y):
    dp_X = 2*var_X  # Derivada parcial respecto de X.
    dp_Y = 2*var_Y  # Derivada parcial respecto de Y.
    return [dp_X, dp_Y]

def actualizar_variables(lr, var_X, var_Y, gradiente_X, gradiente_Y):
    var_X -= lr * gradiente_X  # var_X = var_X - lr * gradiente_X
    var_Y -= lr * gradiente_Y  # var_Y = var_Y - lr * gradiente_Y
    return [var_X, var_Y]

# Inicializamos valores para poder tabular nuestra función 3D:

x = np.linspace(-20,20,num=500)
y = np.linspace(-20,20,num=500)

X, Y = np.meshgrid(x, y)  # Creamos un grid para gráficar la función 3D.
Z = funcion_3D(X, Y)

# Aplicamos el descenso del gradiente sobre un punto (x,y,z):

x_var, y_var = (20,-20)
x_y_z_coords = (x_var, y_var, funcion_3D(x_var,y_var))  # Inicializamos nuestro punto.
lr = 0.5
point_updates = list()
for iteration in range(10):
    print("Point Coord: ", x_y_z_coords)
    point_updates.append(x_y_z_coords)
    dp_X, dp_Y = derivada_funcion3D(x_var, y_var)
    x_var, y_var = actualizar_variables(lr, x_var, y_var, dp_X, dp_Y)
    x_y_z_coords = (x_var, y_var, funcion_3D(x_var,y_var))

# Finalmente, imprimimos el plano 3D en conjunto con el avance en el descenso del gradiente para cada gráfica:

fig, axes = plt.subplots(nrows=4, ncols=2, figsize=(10,20))
#fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(10,20))
#axes.resize(1,axes.shape[0])
grafica = 1
for i in range(axes.shape[0]):
    for j in range(axes.shape[1]):
        axes[i,j] = fig.add_subplot(int(str(axes.shape[0])+str(axes.shape[1])+str(grafica)),projection="3d")
        axes[i,j].plot_surface(X,Y,Z, cmap="viridis", alpha=0.4)  # Imprimimos el plano 3D.
        # Inicializamos las etiquetas para nuestros ejes X, Y y Z:
        axes[i,j].set_xlabel("X",fontsize=13,color="blue")
        axes[i,j].set_ylabel("Y",fontsize=13,color="blue")
        axes[i,j].set_zlabel("Z",fontsize=13,color="blue")
        axes[i,j].text(-20,-20,1000, f"Iteración número '{grafica-1}'", fontsize=10, color="red")
        # Indicamos el avance en el descenso del gradiente con un punto rojo:
        x_coord, y_coord, z_coord = point_updates[grafica-1]
        etiqueta = '(' + str(np.around(x_coord,3)) + ', ' + str(np.around(y_coord,3)) + ', ' + str(np.around(z_coord,3)) + ')'
        axes[i,j].plot([x_coord],[y_coord],[z_coord], color="green", marker='o', ms=10, label=f"Punto: {etiqueta}")
        axes[i,j].legend(fontsize=13)
        axes[i,j].view_init(45,0)
        grafica += 1
        
plt.tight_layout()
plt.show()

Point Coord:  (20, -20, 800)
Point Coord:  (0.0, 0.0, 0.0)
Point Coord:  (0.0, 0.0, 0.0)
Point Coord:  (0.0, 0.0, 0.0)
Point Coord:  (0.0, 0.0, 0.0)
Point Coord:  (0.0, 0.0, 0.0)
Point Coord:  (0.0, 0.0, 0.0)
Point Coord:  (0.0, 0.0, 0.0)
Point Coord:  (0.0, 0.0, 0.0)
Point Coord:  (0.0, 0.0, 0.0)


***

In [5]:
def squared_function(X):
    Y = (X)**2
    return Y

def gradient_descent(point):
    partial_derivative = 2*(point)
    return partial_derivative

def update_point(point, lr, gradient):
    return point - lr*gradient

**Varias gráficas para mostrar el proceso del descenso del gradiente:**

In [6]:
# fig, axes = plt.subplots(nrows=2, ncols=5, figsize=(20,8))  # Horizontal.
fig, axes = plt.subplots(nrows=5, ncols=2, figsize=(8,20))  # Vertical.

x_points = np.linspace(start=-10, stop=10)
Y = squared_function(x_points)

point = 10
lr = 0.75

point_updates = list()
for iteration in range(10):
    print("Point: ", point)
    point_updates.append(point)
    pd = gradient_descent(point)
    point = update_point(point, lr, pd)

P = [squared_function(p) for p in point_updates]  # Pasamos los puntos actualizados por la función.

pc = 0  # "pc" stands for "point counter".
for i in range(axes.shape[0]):
    for j in range(axes.shape[1]):
        # Trazamos la gráfica de la función, previo gráficar nuestro punto:
        axes[i,j].plot(x_points, Y)
        # Imprimos el número de iteración en la gráfica:
        axes[i,j].text(-4,60, f"Iteración número '{pc}'", fontsize=10)
        punto_rojo = (np.around(point_updates[pc], decimals=5), np.around(P[pc], decimals=5))
        axes[i,j].plot(point_updates[pc], P[pc], "ro", label=str(punto_rojo), ms=8, lw=3)
        # Realizamos ciertos ajustes a nuestra gráfica para que se aprecie mejor:
        axes[i,j].set_ylabel("Y")
        axes[i,j].set_xlabel("X")
        axes[i,j].legend(fontsize=10)
        axes[i,j].set_xticks(range(-10,10+1,2))
        pc += 1

plt.tight_layout()

Point:  10
Point:  -5.0
Point:  2.5
Point:  -1.25
Point:  0.625
Point:  -0.3125
Point:  0.15625
Point:  -0.078125
Point:  0.0390625
Point:  -0.01953125


**Una sola gráfica:**

In [7]:
x_points = np.linspace(start=-10, stop=10)
Y = squared_function(x_points)
plt.plot(x_points, Y)
plt.xlabel("X")
plt.ylabel("Y")
plt.xticks(range(-10,10+1,2))

point = 10
lr = 0.4

point_updates = list()
for iteration in range(10):
    print("Point: ", point)
    point_updates.append(point)
    pd = gradient_descent(point)
    point = update_point(point, lr, pd)

P = [squared_function(p) for p in point_updates]
plt.plot(point_updates,P,marker='o')
plt.xticks(range(-10,10+1))

plt.show()

Point:  10
Point:  2.0
Point:  0.3999999999999999
Point:  0.07999999999999996
Point:  0.015999999999999986
Point:  0.0031999999999999963
Point:  0.0006399999999999991
Point:  0.00012799999999999975
Point:  2.5599999999999945e-05
Point:  5.119999999999988e-06


***  
**Aplicación del descenso del gradiente a una función en 3D:**

In [8]:
def funcion_3D(var_X, var_Y):
    funcion = (var_X - var_Y)**2
    return funcion

def derivada_funcion3D(var_X, var_Y):
    dp_X = 2*(var_X - var_Y)*1  # Derivada parcial respecto de X.
    dp_Y = 2*(var_X - var_Y)*-1  # Derivada parcial respecto de Y.
    return [dp_X, dp_Y]

def actualizar_variables(lr, var_X, var_Y, gradiente_X, gradiente_Y):
    var_X -= lr * gradiente_X  # var_X = var_X - lr * gradiente_X
    var_Y -= lr * gradiente_Y  # var_Y = var_Y - lr * gradiente_Y
    return [var_X, var_Y]


In [17]:
# Inicializamos valores para poder tabular nuestra función 3D:

x = np.linspace(-20,20,num=500)
y = np.linspace(-20,20,num=500)

X, Y = np.meshgrid(x, y)  # Creamos un grid para gráficar la función 3D.
Z = funcion_3D(X, Y)

# Aplicamos el descenso del gradiente sobre un punto (x,y,z):

x_var, y_var = 10,-10
x_y_z_coords = (x_var, y_var, funcion_3D(x_var,y_var))  # Inicializamos nuestro punto.
lr = 0.26  # Tasa de aprendizaje optima obtenida visualmente al imprimir los vectores gradientes.
point_updates = list()
for iteration in range(10):
    print(f"Iteración: {iteration}; ", "Point Coord: ", x_y_z_coords)
    point_updates.append(x_y_z_coords)
    dp_X, dp_Y = derivada_funcion3D(x_var, y_var)
    x_var, y_var = actualizar_variables(lr, x_var, y_var, dp_X, dp_Y)
    x_y_z_coords = (x_var, y_var, funcion_3D(x_var,y_var))

# Finalmente, imprimimos el plano 3D en conjunto con el avance en el descenso del gradiente para cada gráfica:

fig, axes = plt.subplots(nrows=4, ncols=2, figsize=(10,20))
grafica = 1
for i in range(axes.shape[0]):
    for j in range(axes.shape[1]):
        axes[i,j] = fig.add_subplot(int(str(axes.shape[0])+str(axes.shape[1])+str(grafica)),projection="3d")
        axes[i,j].plot_surface(X,Y,Z, cmap="viridis", alpha=0.4)  # Imprimimos el plano 3D.
        # Inicializamos las etiquetas para nuestros ejes X, Y y Z:
        axes[i,j].set_xlabel("X",fontsize=13,color="blue")
        axes[i,j].set_ylabel("Y",fontsize=13,color="blue")
        axes[i,j].set_zlabel("Z",fontsize=13,color="blue")
        axes[i,j].text(-20,-20,1000, f"Iteración número '{grafica-1}'", fontsize=10, color="red")
        # Indicamos el avance en el descenso del gradiente con un punto rojo:
        x_coord, y_coord, z_coord = point_updates[grafica-1]
        etiqueta = '(' + str(np.around(x_coord,3)) + ', ' + str(np.around(y_coord,3)) + ', ' + str(np.around(z_coord,3)) + ')'
        axes[i,j].plot([x_coord],[y_coord],[z_coord], color="green", marker='o', ms=10, label=f"Punto: {etiqueta}")
        axes[i,j].legend(fontsize=13)
        axes[i,j].view_init(45,0)
        grafica += 1
        
plt.tight_layout()
plt.show()

Iteración: 0;  Point Coord:  (10, -10, 400)
Iteración: 1;  Point Coord:  (-0.40000000000000036, 0.40000000000000036, 0.6400000000000011)
Iteración: 2;  Point Coord:  (0.016000000000000014, -0.016000000000000014, 0.001024000000000002)
Iteración: 3;  Point Coord:  (-0.0006400000000000017, 0.0006400000000000017, 1.6384000000000085e-06)
Iteración: 4;  Point Coord:  (2.560000000000008e-05, -2.560000000000008e-05, 2.6214400000000165e-09)
Iteración: 5;  Point Coord:  (-1.0240000000000058e-06, 1.0240000000000058e-06, 4.194304000000047e-12)
Iteración: 6;  Point Coord:  (4.096000000000028e-08, -4.096000000000028e-08, 6.710886400000093e-15)
Iteración: 7;  Point Coord:  (-1.6384000000000129e-09, 1.6384000000000129e-09, 1.0737418240000168e-17)
Iteración: 8;  Point Coord:  (6.553600000000055e-11, -6.553600000000055e-11, 1.7179869184000287e-20)
Iteración: 9;  Point Coord:  (-2.6214400000000297e-12, 2.6214400000000297e-12, 2.748779069440062e-23)


### **Conclusión, podemos apoyarnos de las flechas gradientes para darnos una idea de la tasa de aprendizaje más optima a tomar (al menos de manera visual). Siempre y cuando la función no exceda las 3 dimensiona, ya que no es posible visualizar una función >= 4 dimensiones en un plano cartesiano.**