In [1]:
import torch
import numpy as np
import math
from mpl_toolkits import mplot3d
import matplotlib.pyplot as plt
from ipywidgets import interact
import ipywidgets as ipw
import itertools

## El gradiente

Para calcular el gradiente se hace uso de la liberia pytorch. Cuando se define una función con tensores que requieren el gradiente se crea una gráfica de procesamiento, la cual es usada para representar la función donde los nodo hoja son las variables respecto a las cuales se va a sacar la derivada de la función. 

In [2]:
#Función f(x1,x2) = 418.9829*2 - x1*sin(sqrt(abs(x1))) - x2*sin(sqrt(abs(x2)))
def f2(x_1,x_2, grad=False):
    if grad:
        x1 = torch.tensor(float(x_1), requires_grad=True)
        x2 = torch.tensor(float(x_2), requires_grad=True)
        a = torch.tensor(418.9829*2)
        f = a - x1*torch.sin(torch.sqrt(torch.abs(x1))) - x2*torch.sin(torch.sqrt(torch.abs(x2)))
        f.backward()
        return f, np.array([x1.grad, x2.grad])
    else:
        x1 = torch.tensor(x_1)
        x2 = torch.tensor(x_2)
        a = torch.tensor(418.9829*2)
        
        f = a - x1*torch.sin(torch.sqrt(torch.abs(x1))) - x2*torch.sin(torch.sqrt(torch.abs(x2)))
        return f

#Función f1(x1,x2) = x1^2+x2^2
def f1(x_1,x_2, grad=False):
    if grad:
        x1 = torch.tensor(float(x_1), requires_grad=True)
        x2 = torch.tensor(float(x_2), requires_grad=True)
        f = x1**2+x2**2
        f.backward()
        return f, np.array([x1.grad, x2.grad])
    else:
        x1 = torch.tensor(x_1)
        x2 = torch.tensor(x_2)
        f = x1**2+x2**2
        return f

#Algoritmo de backtracking para obtener el valor óptimo de alpha (tasa de descenso en la función)
def get_paso(f,xk,pk, alpha, rho=0.5, c=10**-4):
    n=0
    x_ = xk + alpha*pk
    
    while not (f(x_[0], x_[1]) <= f(xk[0], xk[1]) + c*alpha*np.dot((-1*pk),pk)) and n < 1000:
        x_ = xk + alpha*pk
        alpha = rho*alpha
        n+=1
    return alpha

## Algoritmo de gradiente descendente


En la siguiente celda se muestra el código del gradiente descendente. Dicho código crea una gráfica interactiva en la cual se observa el comportamiento del gradiente descendente. 

El menu `f` se elige la función, `f1` es la función `f1(x1,x2) = x1^2+x2^2` y `f2` es `f(x1,x2) = 418.9829*2 - x1*sin(sqrt(abs(x1))) - x2*sin(sqrt(abs(x2)))`.
El slider `giro1` y `giro2` se usan para girar la gráfica y poder observar la función desde otro ángulo.
Los campos de texto `x0` y `y0` sirven para elegir el punto inicial.
El campo `àlpha` es para ingresar la tasa de descenso inicial.


In [3]:
@interact(f=["f1","f2"], giro1=(-360,360,), giro2=(-360,360), x0="-300", y0="300", alpha="0.2")
def gradient(f="f1",giro1=-15.0,giro2=38, x0="-300", y0="300", alpha="0.2"):
    
    rangeX = [-500,500]
    rangeY = [-500,500]
    n_points=40 #numero de puntos de la grafica n_points*n_points
    f_name = f
    f = globals()[f] #Funcion a usar
    
    #número de iteraciones límite
    n_iter = 500
    n = 0
    #alpha inicial
    alpha = float(alpha)
    
    #graph
    fig=plt.figure(figsize=(18,6))
    axes=fig.add_subplot(111, projection='3d')
    axes.view_init(giro1,giro2)
    axes.set_title("Funcion ",fontsize=14,fontweight="bold")
    axes.set_xlabel("X")
    axes.set_ylabel("Y")
    axes.set_zlabel("Z")
    x,y = np.meshgrid(np.linspace(rangeX[0], rangeX[1], n_points), np.linspace(rangeY[0], rangeY[1], n_points))
    z=np.array(f(x,y))
    
    #valor inicial X0
    xk = np.array([float(x0), float(y0)])
    
    history_point = np.empty([0,3])
    history_alpha = []
    
    #Se calcula el valor de la función junto con el gradiente en el punto f(xk)
    aux = f(xk[0],xk[1], grad=True)
    fk = aux[0] #valor de la función
    pk = -1*aux[1] #gradiente
    point = np.array([float(xk[0]), float(xk[1]), float(fk)])#punto azul de la gráfica
    history_point = np.concatenate((history_point, [point]))

    #Gradiente descendente
    while n < n_iter and not (pk[0] == 0 and pk[1] == 0):#Condición de paro
        #tamaño de paso
        alpha = get_paso(f,xk,pk,alpha)
        history_alpha.append(alpha)
        #Siguiente punto en el gradiente descendente
        xk=xk+alpha*pk
        
        #Se calcula el valor de la función junto con el gradiente en el punto f(xk)
        aux = f(xk[0],xk[1], grad=True)
        fk = aux[0] #valor de la función
        pk = -1*aux[1] #gradiente
        point = np.array([float(xk[0]), float(xk[1]), float(fk)])#punto azul de la gráfica
        history_point = np.concatenate((history_point, [point]))
        
        n+=1
     
    #resultados del gradiente
    axes.cla()
    plt.title("Funcion "+f_name)
    axes.plot_surface(x,y,z, color=(0.1, 0.2, 0.5, 0.3))
    axes.scatter3D(history_point[:,0],history_point[:,1], history_point[:,2],s=80 ,color="red")
    plt.show()
    
    print("Resultados finales\nPunto:",point,"Gradiente:",pk,"Alpha:",alpha)
    
    #grafica de alpha
    plt.figure(figsize=(13,3))
    x = np.arange(1,len(history_alpha)+1)
    plt.scatter(x,history_alpha)
    plt.title("Aplha")
    plt.show()


interactive(children=(Dropdown(description='f', options=('f1', 'f2'), value='f1'), IntSlider(value=-15, descri…

Probando con distintos valores se puede observar que es importante elejir el alpha inicial. Si se elejige un valor de alpha mayor que 0.5 en la función f1() el gradiente descendente salta entre un lado y otro del paraboloide, dirigiéndose al mínimo global pero sin llegar exactamente a él, se usan 500 iteraciones. Si alpha es igual a 0.5, con un solo paso se llega exactamente al mínimo global. Cuando es menor a 0.5 baja sobre una curva hacia el mínimo global, al igual cuando alpha es mayor que 0.5 se acerca el punto del gradiente descendente al mínimo global pero sin llegar exactamente a él.
Sin importar cuál sea el punto inicial la función siempre se dirije al mínimo global.

La función f2() tiene muchos mínimos locales, el resultado final depende del punto inicial pues el gradiente descendente se dirigíra al mínimo local más cercano. Al igual que en f1() se aproxima al mínimo local y entre más cercano se encuentre el valor de alpha tiende a cero, lo cual suena congruente a los observaciones pues al estar cerca del mínimo la derivada tiende a cero.


# Algoritmo Genético

In [4]:
from numpy.random import randint
from numpy.random import rand
from codecs import decode
import struct

In [58]:
#limita los valores de los genes a su rango
def constrain(val, bounds):
    for i in range(len(val)):
        
        if val[i] < bounds[i][0]:
            val[i] = bounds[i][0]
        else:
            if val[i] > bounds[i][1]:
                val[i] = bounds[i][1]

# Selección por torneo binario (cuando k = 2)
def selection(pop, scores, k=2):
    # Se selecciona aleatoriamente a un individuo
    selec_ind = randint(len(pop))
    
    for selec_ind_2 in randint(0, len(pop), k-1):
    
        # Se verifica cual individuo tiene un valor mayor en la función fitness
        if scores[selec_ind_2] < scores[selec_ind]:
            selec_ind = selec_ind_2
            
    return pop[selec_ind]

def crossover_sbx(p1,p2, nc=None):
    #nc aleatorio
    if nc == None:
        nc = randint(0,2,1)
        
    #número aleatorio
    u = np.random.rand()
    
    #beta
    if u <= 0.5:
        beta = (2*u)**(1/(nc+1))
    else:
        beta = (1/(2*(1-u)))**(1/(nc+1))
        
    #producir hijos
    h1 = 0.5*((p1+p2) - beta*abs(p2-p1))
    h2 = 0.5*((p1+p2) + beta*abs(p2-p1))
    
    #hijos en su representación binaria
    return h1, h2

# mutacion
def mutation(p, bounds, n_generacion, nc=1):
    nm = 100 + n_generacion
    
    #número aleatorio
    u = np.random.rand()

    #delta
    if u <= 0.5:
        delta = (2*u)**(1/(nc+1)) - 1
    else:
        delta = 1 - 2*(1-u)**(1/(nc+1))

    if u <= 0.5:
        deltaQ = (2*u + (1-2*u) + (1-delta)**(nm+1) )**(1/(nm+1)) - 1
    else:
        deltaQ = 1- (2*(1-u) + 2*(u-0.5)*(1-delta)**(nm+1) )**(1/(nm+1))
    
    p_ = p+(bounds[:,1]-bounds[:,0])*deltaQ
    
    constrain(p_, bounds)
    
    return p_
    
# genetic algorithm
def genetic_algorithm(fitness, bounds, n_bits, n_iter, n_pop):
    # población inicial en cadenas binarias
    pop = []
    for i in range(n_pop):
        cromosoma = list()
        #se codifican las variables
        for lim in bounds:
            #número aleatorio dentro de su rango
            n = lim[0] +  np.random.rand()*(lim[1]-lim[0])
            #se concatena el gen al cromosoma
            cromosoma.append(n)
        pop.append(cromosoma)
    pop = np.array(pop)
    
    #primer mejor solución
    best, best_eval = pop[0], fitness(pop[0][0], pop[0][1])
    
    #historial de los mejores puntos
    history_best_ind = np.array([[best[0], best[1], best_eval]])

    # Generaciones
    for gen in range(n_iter):
        
        # Se evaluan los miembros de la población
        scores = [fitness(d[0], d[1]) for d in pop]
        
        # Se busca la mejor solución
        for i in range(n_pop):
            if scores[i] < best_eval:
                best, best_eval = pop[i], scores[i]
                point = [float(best[0]), float(best[1]), float(best_eval)]
                history_best_ind = np.concatenate((history_best_ind, [point]))
                
        #Selección de los padres por torneo binario
        selected = [selection(pop, scores, k=2) for _ in range(n_pop)]
        
        # Creación de la siguiente generación
        children = list()
        for i in range(0, n_pop, 2):
            p1, p2 = selected[i], selected[i+1]
            
            #crossover
            for c in crossover_sbx(p1, p2, nc=1):
                # mutación
                m = mutation(c, bounds, gen)
                
                children.append(m)
                
        # replace population
        pop = np.array(children)
        
    return best, history_best_ind



En la siguiente celda se crea el algoritmo evolutivo de manera interactiva. Con el menú f se elije la función fitness a usar, con n_iter se se ingresa el número de iteraciones, con n_pop el número de individuos en la poblacón y; giro1 y giro se usan para rotar la gráfica.

In [59]:
@interact(f=["f1", "f2"] ,n_iter = "100", n_pop = "100", giro1=(-360,360,), giro2=(-360,360))
def evolutive(f="f2", n_iter = "100", n_pop = "100", giro1=-15.0,giro2=38):
    #funcion a usar
    f_name = f
    f = globals()[f]
    
    #numero de ietraciones
    n_iter = int(n_iter)
    #numero de individuos en la población
    n_pop = int(n_pop)

    # Rango de los genes
    bounds = np.array([[-500, 500], [-500, 500]])
    #Tamaño de los genes
    n_bits = 64
    
    #graph
    fig_=plt.figure(figsize=(18,6))
    ax=fig_.add_subplot(111, projection='3d')
    ax.view_init(giro1,giro2)
    ax.set_title("Funcion ",fontsize=14,fontweight="bold")
    ax.set_xlabel("X")
    ax.set_ylabel("Y")
    ax.set_zlabel("Z")
    
    n_points = 40
    x,y = np.meshgrid(np.linspace(bounds[0][0], bounds[0][1], n_points), np.linspace(bounds[1][0], bounds[1][1], n_points))
    z=np.array(f(x,y))
    ax.plot_surface(x,y,z, color=(0.1, 0.2, 0.5, 0.3))
    
    #alritmo genetico
    best, history_best = genetic_algorithm(f, bounds, n_bits, n_iter, n_pop)

    #resultados 
    ax.scatter3D(history_best[:,0], history_best[:,1], history_best[:,2],s=80 ,color="red")
    plt.show()
    
    #print(history_best.shape)
    print("Resultados finales\npoint:",best)

interactive(children=(Dropdown(description='f', index=1, options=('f1', 'f2'), value='f2'), Text(value='100', …

En la gráfica de los resultados del algoritmo evolutivo se muestran los individuos que tuvieron el valor mas bajo en la función fitnes durante todas las iteraciones. Si se cambia algun valor de los controles interactivos se hace una corrida del algoritmo evlutivo.

Se puede observar que los individuos tienden hacer una busqueda más variada, a diferencia del gradiente descendente el algoritmo evolutivo no depende del punto inicial. Dependiendo cual sea el punto inicial el gradiente descendente se dirigirá al mínimo local más cercano, mientras que en el algoritmo evolutivo debido a las operadores pueden crearse soluciones que se acercen a mínimos locales lejanos a los puntos inciales además, habrá n_pop individuos que intentarán hacercarse a un mínimo local. 

El inconveniente del algoritmo evolutivo es que no se asegura a que se llegue a un mínimo, en el gradiente descendente descendente sí, como el gradiente negativo esta compuesto por las derivadas parciales de la función entonces siempre nos dirijimos en la dirección del mínimo mas cercano. 