# Optimización

Una tarea importante es la **optimización**, es decir, encontrar máximos y mínimos de funciones. Representa una aplicación de suma importancia de derivadas, como aprendimos en Cálculo 1 y 3.

[1] Escribe una función que toma una función $f:\mathbb{R} \to \mathbb{R}$ lisa (es decir, suficientemente diferenciable), y utiliza el método de Newton para encontrar:
(i) los valores de $x$ en los cuales la función toma su valor máximo y mínimo;
(ii) el valor ahí;
(iii) si es un máximo o un mínimo.

[Pista: ¿Cuáles son las condiciones matemáticas que se deben cumplir para (i) y (iii)?]

Para saber esto, como hemos visto en todos los cursos de la carrera, podemos utilizar la primera derivada e igualarla a cero para saber si es un valor extremo local de la función (o un punto de inflexión) $f'(x_0) = 0$, y para saber qué tipo de extremo utilizamos la segunda derivada y vemos su signo si: $f''(x_0) > 0$ ent. $x_0$ es un mínimo, $f''(x_0) < 0 $ ent. $x_0$ es un máximo, $f''(x_0) = 0$ ent. $x_0$ es un punto de inflexión.

In [1]:
function df(f:: Function, x0:: Number, h:: Real = 1e-10)
   df = (f(x0 + h) - f(x0 - h) )/ 2h #centrada
    return df
end

function d2f(f:: Function, x0:: Number, h:: Real = 1e-10) #segunda derivada centrada
    d2f = (f(big(x0 + h)) + f(big(x0 - h)) - 2f(big(x0))) /(h^2) #da -Inf sin big
   return d2f
end

function valores_extremos(f, x0) #newton para la primera derivada
    i = 0
    while abs(df(f,x0)) > 1e-15
        i += 1
        x0 -= df(f,x0)/d2f(f,x0)
        if i == 1000
            error("Número límite de iteraciones")
        end
    end
    
    if d2f(f,x0) < 0 && abs(d2f(f,x0)) > 1e-15 #ver que no sea demasiado cercano a cero
        return "máximo en $(convert(Float64,x0)), f(x0) = $(convert(Float64,f(x0)))"
    elseif d2f(f,x0) > 0 && abs(d2f(f,x0)) > 1e-15
        return "mínimo en $(convert(Float64,x0)), f(x0) = $(convert(Float64,f(x0)))"
    elseif abs(d2f(f,x0)) < 1e-15 || abs(d2f(f,x0)) == 0
        return "punto de inflexión en $(convert(Float64,x0)), f(x0) = $(convert(Float64,f(x0)))"
    end
end

valores_extremos (generic function with 1 method)

In [2]:
valores_extremos(x -> x^3  + 1, 0.)

"punto de inflexión en 0.0, f(x0) = 1.0"

In [3]:
valores_extremos(x -> x^3  + 1, 1.)

"mínimo en 1.490108786130225e-8, f(x0) = 1.0"

In [4]:
valores_extremos(x -> x^3  + 1, -1.)

"máximo en -1.490108786130225e-8, f(x0) = 1.0"


[2] Otro método para optimizar es darse cuenta de que la función misma te puede dar información sobre por dónde buscar. 

(i) Considerando una función $f:\mathbb{R} \to \mathbb{R}$, si empezamos en una posición inicial $x_0$, ¿en cuál dirección nos podríamos desplazar (por un paso chiquito) para ir hacia un mínimo?

(ii) Impleméntalo, y dibuja la evolución en el tiempo del algoritmo, pintando la función como si fuera una colina, para distintas funciones.

Este método se llama **descenso de gradiente**.

Si nos movemos en la dirección opuesta al gradiente de la función, ya que el gradiente es la dirección en la que la función incrementa más rápidamente, nos dirigiremos eficientemente hacia un mínimo de la función; si decidimos movernos en dirección del gradiente iremos hacia un máximo.

In [5]:
function descenso_gradiente(f:: Function, x0:: Number, pasito:: Real = 0.1 )
    i = 1
    datos = Number[x0]
    #push!(datos, x0)
    while abs(df(f,datos[i])) > 1e-6
        if i == 1000
            error("Límite de iteraciones.")
        end
        x0 = datos[i] - pasito*df(f,datos[i])
        push!(datos, x0)
        i += 1
    end
    return datos
end

descenso_gradiente (generic function with 2 methods)

In [6]:
descenso_gradiente(x -> (x-1)^2, 0.1)

66-element Array{Number,1}:
 0.1     
 0.28    
 0.424   
 0.5392  
 0.63136 
 0.705088
 0.76407 
 0.811256
 0.849005
 0.879204
 0.903363
 0.922691
 0.938152
 ⋮       
 0.999995
 0.999996
 0.999997
 0.999997
 0.999998
 0.999998
 0.999999
 0.999999
 0.999999
 0.999999
 0.999999
 1.0     

In [7]:
using Plots
gr()

Plots.GRBackend()

In [8]:
function graficar_descenso(f :: Function, x0:: Number)
    puntos = descenso_gradiente(f, x0)
    xx = linspace(minimum(puntos)-.1,maximum(puntos)+.1,250)
    p = plot(xx,[f(x) for x in xx])
    for i in 1:length(puntos)
        p = plot!(xx,[f(x) for x in xx])
        scatter!([puntos[i]], [f(puntos[i])])
    end
    return p
end

graficar_descenso (generic function with 1 method)

In [9]:
graficar_descenso(x->(x-1)^2, 0.1)

In [10]:
graficar_descenso(x->sin(x), 0.1)

In [11]:
graficar_descenso(x->(x-2)^4 - (x-2)^2, 2.1)

[3] Podemos utilizar el descenso de gradiente también para buscar mínimos de funciones $f:\mathbb{R^n} \to \mathbb{R}$. Hazlo para algunas funciones $f:\mathbb{R}^2 \to \mathbb{R}$ y dibuja la evolución.

Una versión estocástica del descenso de gradiente se utiliza mucho hoy día en aplicaciones de aprendizaje automático ("machine learning").

In [12]:
function gradiente(f :: Function, XY:: Vector{Float64}, h:: Real = 1e-8)
    gf = [(f( XY + [h,0]) - f(XY)) /h , (f(XY + [0,h]) - f(XY)) /h]
    return gf
end

function descenso_gradiente2(f:: Function, x0y0:: Vector{Float64}, pasito:: Real = 0.1 )
    i = 1
    datos = [x0y0]
    #push!(datos, x0)
    while norm(gradiente(f, datos[i])) > 1e-6
        if i == 1000
            error("Límite de iteraciones.")

        end
        x0y0 = datos[i] - pasito*gradiente(f,datos[i])
        push!(datos, x0y0)
        i += 1
    end
    return datos
end

descenso_gradiente2 (generic function with 2 methods)

In [13]:
g(XY) = (XY[1] - 1)^2 + sin(XY[2])

g (generic function with 1 method)

In [14]:
descenso_gradiente2(g, [0.1,2.])

155-element Array{Array{Float64,1},1}:
 [0.1,2.0]         
 [0.28,2.04161]    
 [0.424,2.08698]   
 [0.5392,2.13633]  
 [0.63136,2.18992] 
 [0.705088,2.24795]
 [0.76407,2.31061] 
 [0.811256,2.37802]
 [0.849005,2.45026]
 [0.879204,2.5273] 
 [0.903363,2.60902]
 [0.922691,2.69517]
 [0.938152,2.78537]
 ⋮                 
 [1.0,4.71239]     
 [1.0,4.71239]     
 [1.0,4.71239]     
 [1.0,4.71239]     
 [1.0,4.71239]     
 [1.0,4.71239]     
 [1.0,4.71239]     
 [1.0,4.71239]     
 [1.0,4.71239]     
 [1.0,4.71239]     
 [1.0,4.71239]     
 [1.0,4.71239]     

In [15]:
function graficar_descenso2(f :: Function, x0y0:: Vector{Float64})
    puntos = descenso_gradiente2(g, x0y0)
    M = zeros(length(puntos), 3)
    for i in 1:length(puntos)
        M[i,1] = puntos[i][1]
        M[i,2] = puntos[i][2]
        M[i,3] = g(puntos[i])
    end
    XX = linspace(minimum(M[:,1])-.1,maximum(M[:,1])+.1,100)
    YY = linspace(minimum(M[:,2])-.1,maximum(M[:,2])+.1,100)
    ZZ = [g([x,y]) for x in XX, y in YY]
    p = surface(XX,YY,ZZ)
    for i in 1:length(puntos)
        scatter3d!([M[i,1]],[M[i,2]],[M[i,3]])
    end
    return p
end

graficar_descenso2(g, [0.1,2.])

## Mínimos cuadrados

La optimización es muy imporante en la estadística. Por ejemplo, podemos utilizar optimización para resolver el problema de mínimos cuadrados, como sigue.

[4] Genera unos datos artificiales $(x_i, y_i)$ cerca de una recta, utilizando `rand()` para generar números aleatorios.

In [16]:
function datos_rand(m:: Real,b:: Real, n::Int64)
    datos = zeros(2,n)
    for i in 1:n
        datos[1,i] = (rand() - 0.5) #x_i
        datos[2,i] = m*datos[1,i] + (b + (rand() - 0.5)) #y_i
    end
    return datos
end

datos_rand (generic function with 1 method)

In [17]:
xy = datos_rand(5,1,20)
plot(x -> 5*x + 1, xlims=(-0.5,0.5))
scatter!(xy[1,:], xy[2,:])

[5] Queremos ajustar una recta $\ell(x)$ a los datos. 

(i) ¿Cuántos parámetros necesitaremos ajustar. Escribe una fórmula para $\ell$ en términos de estos parámetros.

(ii) En mínimos cuadrados, para cada punto $(x_i, y_i)$ calculamos la distancia cuadrada vertical desde la recta $\ell$. La suma de todos ellos nos da una **función de costo** o **función de pérdida**, la cual queremos minimizar con respecto a las variables de la recta.

Formula esto matemáticamente: ¿cuál función queremos minimizar, y qué satisface el mínimo?

Queremos minimizar la función $S$, que nos da la suma de la distancia de cada punto (en términos de $(x,y)$) a la recta.

$$ S = \sum_{i=1}^{n} r_{i}^2 $$,

con

$$r_i = (y_i - (m x_i +b))$$.

Donde $y_i$ y $x_i$ son conocidos y $m,b$ son variables. Para esto necesitamos los valores de $m$ y $b$ tales que:

$$\frac{\partial S}{\partial m}= 0$$ y $$\frac{\partial S}{\partial b}= 0$$.

https://en.wikipedia.org/wiki/Least_squares .

[6] Utiliza el método de descenso de gradiente para resolver el problema. Dibuja el resultado - ¿es razonable? [Pista: Nota que tendrás que utilizar vectores (arreglos uni-dimensionales). En Julia, puedes operar con vectores utilizando operadores aritméticos, como si fueran vectores matemáticos.]

In [18]:
function minimos_cuadrados(datos:: Array)
    function S(recta:: Vector) #función de m y b
        suma = 0.0
        for i in 1:size(datos)[1]
            suma += (datos[2,i] -(recta[1]*datos[1,i] + recta[2]))^2
        end
        return suma
    end
    return recta_opt = descenso_gradiente2(S, rand(2))[end]
end

minimos_cuadrados (generic function with 1 method)

In [19]:
xy = datos_rand(5,1,20)
@show minimos_cuadrados(xy)
plot(x -> 5*x + 1, xlims=(-0.5,0.5), label="recta original")
scatter!(xy[1,:], xy[2,:], label="datos aleatorios")
plot!(x-> minimos_cuadrados(xy)[1]*x + minimos_cuadrados(xy)[2], label="recta ajustada")

minimos_cuadrados(xy) = [5.27901,1.42056]


Es suficientemente razonable.

## Optimización con restricciones

[7] Utiliza un multiplicador de Lagrange para minimizar la función
$f(x,y) = 2x+y$, sujeta a la **restricción** $x^2 + y^2 = 1$.

Dibuja gráficamente lo que está pasando.

In [20]:
#:( 