In [1]:
using Plots, Interact
gr()

Plots.GRBackend()

# Tarea 5: Optimización

## Para entregarse el jueves 16 marzo 2017, antes de las 15:00

Una tarea importante en la ciencia computacional es la **optimización**, es decir, encontrar máximos y mínimos de funciones. Representa una aplicación de suma importancia de derivadas, como aprendimos en Cálculo 1 y 3 y en el notebook 7.

[1] Escribe una función que toma una función $f:\mathbb{R} \to \mathbb{R}$ lisa (es decir, suficientemente diferenciable), y utiliza el método de Newton para encontrar:
(i) los valores de $x$ en los cuales la función toma su valor máximo y mínimo;
(ii) el valor ahí;
(iii) si es un máximo o un mínimo.

[Pista: ¿Cuáles son las condiciones matemáticas que se deben cumplir para (i) y (iii)?]

### [1]

Sabemos que, para una función $f: \mathbb{R} \to \mathbb{R}$, la condición de un punto $x_0$ para ser mínimo o máximo es que $f'(x_0) = 0 $ Esto es conocido como el **criterio de la primera derivada** Si ahora queremos saber que clase de extremo es, es decir, si es un máximo o mínimo, podemos encontrarlo con el **criterio de la segunda derivada**, el cual dice que $f(x_0) > 0 \implies x_0 = min(f(x))$ y $f(x_0) \implies x_0 = max(f(x))$. Así, podemos utilizar el método de newton encontrándole raíces a la primera derivada de la función y evaluándolos después en la segunda derivada de la función, también aproximándola

In [2]:
function derv1(f :: Function, a :: Number, h :: Number = 1e-8)
    return (f(a+h)-f(a-h))/(2h)
end
function derv2(f :: Function, a :: Number, h :: Number =1e-8)
    return (f(big(a+h))+f(big(a-h)) - 2f(big(a)))/((h^2))
end
function extremos(f :: Function;test=false)
    x=rand()
    i=1
    while abs(derv1(f,x))>1e-15
        if i==1000
            return "fail"
        end
        if test==true
            @show (x,f(x),derv1(f,x))
        end
        i+=1
        x=x-(derv1(f,x)/derv2(f,x))
    end
    if derv2(f,x) > 0
        return "min = $(convert(Float64,f(x))), x = $(convert(Float64,x))"
    elseif derv2(f,x) < 0
        return "max = $(convert(Float64,f(x))), x = $(convert(Float64,x))"
    end
end     

extremos (generic function with 1 method)

In [3]:
extremos(x -> (sin(x)))

"max = 1.0, x = 1.5707963267948966"

[2] Otro método para optimizar es darse cuenta de que la función misma te puede dar información sobre por dónde buscar. 

(i) Considerando una función $f:\mathbb{R} \to \mathbb{R}$, si empezamos en una posición inicial $x_0$, ¿en cuál dirección nos podríamos desplazar (por un paso chiquito) para ir hacia un mínimo?

(ii) Impleméntalo, y dibuja la evolución en el tiempo del algoritmo, pintando la función como si fuera una colina, para distintas funciones.

Este método se llama **descenso de gradiente**.

In [4]:
function descenso(f :: Function,paso=1e-1;test=false,list=false)
    x=[]
    push!(x,rand())
    i=1
    while abs(derv1(f,x[i]))>1e-5
        if i==10000
            return "fail"
        end
        if test==true
            @show (x[i],f(x[i]),derv1(f,x[i]))
        end
        push!(x,x[i]-paso*derv1(f,x[i]))
        i=i+1
    end
    if list==true
        return x
    else
        return x[end]
    end
end

descenso (generic function with 2 methods)

In [5]:
descenso(x->(x-3)^2,list=true)

60-element Array{Any,1}:
 0.783507
 1.22681 
 1.58144 
 1.86516 
 2.09212 
 2.2737  
 2.41896 
 2.53517 
 2.62813 
 2.70251 
 2.76201 
 2.8096  
 2.84768 
 ⋮       
 2.99995 
 2.99996 
 2.99997 
 2.99997 
 2.99998 
 2.99998 
 2.99999 
 2.99999 
 2.99999 
 2.99999 
 2.99999 
 3.0     

In [6]:
function descensov(f :: Function)
    B=descenso(f,list=true)
    A=linspace(minimum(B)-.1,maximum(B)+.1,250)
    @manipulate for i in 1:length(B)
        plot(A,[f(x) for x in A],xlabel="x",ylabel="f(x)",title="Descenso de gradiente",label="f(x)")
        scatter!([B[i]],[f(B[i])],markersize=6,label="n \=$i")
    end
end

descensov (generic function with 1 method)

In [7]:
descensov(sin)

[3] Podemos utilizar el descenso de gradiente también para buscar mínimos de funciones $f:\mathbb{R^n} \to \mathbb{R}$. Hazlo para algunas funciones $f:\mathbb{R}^2 \to \mathbb{R}$ y dibuja la evolución.

Una versión estocástica del descenso de gradiente se utiliza mucho hoy día en aplicaciones de aprendizaje automático ("machine learning").

In [8]:
#[3]
function gradiente(f::Function,A,h=1e-8)
    return [(f(A+[h,0])-f(A))/h,(f(A+[0,h])-f(A))/h]
end
function descenso2(f :: Function,paso=1e-1;test=false,list=false)
    x=[]
    push!(x,rand(2))
    i=1
    while norm(gradiente(f,x[i]))>1e-5
        if i==10000
            return "fail"
        end
        if test==true
            @show (x[i],f(x[i]),gradiente(f,x[i]))
        end
        push!(x,x[i]-paso*gradiente(f,x[i]))
        i=i+1
    end
    if list==true
        return x
    else
        return x[end]
    end
end
g(A)=sin(A[1])+cos(A[2])

g (generic function with 1 method)

In [9]:
gradiente(g,[1,1])

2-element Array{Float64,1}:
  0.540302
 -0.841471

In [10]:
function descenso2v(g :: Function)
    A=descenso2(g,list=true)
    M=zeros(length(A),3)
    for i in 1:length(A)
        M[i,1]=A[i][1]
        M[i,2]=A[i][2]
        M[i,3]=g(A[i])
    end
    X=linspace(minimum(M[:,1])-.1,maximum(M[:,1])+.1,100)
    Y=linspace(minimum(M[:,2])-.1,maximum(M[:,2])+.1,100)
    Z=[g([x,y]) for x in X, y in Y]
    @manipulate for i in 1:length(A)
        surface(X,Y,Z, alpha=.3,title="descenso de gradiente",label="f(x,y)",ylabel="y",xlabel="x",zlabel="f(x,y)")
        scatter3d!([M[i,1]],[M[i,2]],[M[i,3]],label="n = $i",color=:blues,markersize=8)
    end
end
descenso2v(g)

## Mínimos cuadrados

La optimización es muy imporante en la estadística. Por ejemplo, podemos utilizar optimización para resolver el problema de mínimos cuadrados, como sigue.

[4] Genera unos datos artificiales $(x_i, y_i)$ cerca de una recta, utilizando `rand()` para generar números aleatorios.

In [11]:
#[4]
function datos(m :: Number,b :: Number,n::Int64 = 20)
    M=zeros(2,n)
    for i in 1:n
        M[1,i]=rand()*2
        M[2,i]=(m + rand())*M[1,i]+(b+rand())
    end
    return M
end
M=datos(5,9)
scatter(M[1,:],M[2,:],title="datos generados de manera arbitraria para m=5, b=9")

[5] Queremos ajustar una recta $\ell(x)$ a los datos. 

(i) ¿Cuántos parámetros necesitaremos ajustar. Escribe una fórmula para $\ell$ en términos de estos parámetros.

(ii) En mínimos cuadrados, para cada punto $(x_i, y_i)$ calculamos la distancia cuadrada vertical desde la recta $\ell$. La suma de todos ellos nos da una **función de costo** o **función de pérdida**, la cual queremos minimizar con respecto a las variables de la recta.

Formula esto matemáticamente: ¿cuál función queremos minimizar, y qué satisface el mínimo?

### [5]
Sabemos que una recta en $\mathbb{R}^2$ se puede expresar como $(x,mx+b)$. Así, slo debemos ajustar dos parámetros para encontrar una recta que pase por los puntos deseados: $m$ y $b$. Así, para la colección de puntos $(x_i,y_i)$ que deseamos ajustar, la fórmula de la suma de la distancia al cuadrado vertical, es decir, de la segunda coordenada de todos estos puntos con respecto a la recta es:

$$R^2 = \sum_{i=1}^{n} (y_i - (m x_i +b))^2$$

Claramente, al sustituir los respectivos valores de $x_i$ y $y_i$, $R^2$ se volverá una función de $m$ y $b$. Así, debemos de minimizar esta función para obtener los parámetros de la recta que ajusta mejor esos datos. Es decir, obtener los valores de $m$ y $b$ tales que 

$$\frac{\partial(R^2)}{\partial m}= 0$$

$$\frac{\partial(R^2)}{\partial b}= 0$$

[6] Utiliza el método de descenso de gradiente para resolver el problema. Dibuja el resultado - ¿es razonable? [Pista: Nota que tendrás que utilizar vectores (arreglos uni-dimensionales). En Julia, puedes operar con vectores utilizando operadores aritméticos, como si fueran vectores matemáticos.]

In [12]:
function minimoscuadrados(M)
    function rsquare(P)
        total=0
        for i in 1:size(M)[2]
            total=total+(M[2,i]-(P[1]*M[1,i]+P[2]))^2
        end
        return total
    end
    return descenso2(rsquare,1e-3)
end

minimoscuadrados (generic function with 1 method)

In [13]:
P=minimoscuadrados(M)
scatter(M[1,:],M[2,:],label="Datos originales",xlabel="x",ylabel="y",title="Ajuste por minimos cuadrados")
A=linspace(minimum(M[1,:]),maximum(M[1,:]),100)
plot!(A,[(P[1]*x +P[2]) for x in A],label="Ajuste")

## Optimización con restricciones

[7] Utiliza un multiplicador de Lagrange para minimizar la función
$f(x,y) = 2x+y$, sujeta a la **restricción** $x^2 + y^2 = 1$.

Dibuja gráficamente lo que está pasando.

In [70]:
#[3]
function gradiente3(f::Function,A,h=1e-8)
    return [(f(A+[h,0,0])-f(A))/h,(f(A+[0,h,0])-f(A))/h,(f(A+[0,0,h])-f(A))/h]
end
function jacobiano3(f::Array{Function,1},A,h=1e-8)
    return [gradiente3(f[1],A,h)[1] gradiente3(f[1],A,h)[2] gradiente3(f[1],A,h)[3]; gradiente3(f[2],A,h)[1] gradiente3(f[2],A,h)[2] gradiente3(f[2],A,h)[3]; gradiente3(f[3],A,h)[1] gradiente3(f[3],A,h)[2] gradiente3(f[3],A,h)[3]]
end   
function newton3(f::Array{Function,1},x0=rand(3);tol=1e-5,test=false,list=false)
    x=[]
    push!(x,x0)
    i=1
    while norm([f[1](x[i]),f[2](x[i]),f[3](x[i])])>tol
        if test==true
            @show (x[i],[f[1](x[i]),f[2](x[i]),f[3](x[i])],jacobiano3(f,x[i]))
        end
        if i==100
            return "fail"
        end
        push!(x,x[i]-inv(jacobiano3(f,x[i]))*([f[1](x[i]),f[2](x[i]),f[3](x[i])]))
        i+=1
    end
    if list==true
        return x
    else
        return x[end]
    end
end
#definimos el gradiente del lagrangiano asociado a la función deseada
to=[g1(A)= 2 + 2*A[3]*A[1], g2(A)= 1 + 2*A[3]*A[2] , g3(A) = ((A[1])^2 + (A[2])^2 -1) ]



3-element Array{Function,1}:
 g1
 g2
 g3

, Any) in module Main at In[68]:3 overwritten at In[70]:3.


In [73]:
A=newton3(to,tol=1e-8)
println("La solución al problema se da en x=$(A[1]), y=$(A[2])")

La solución al problema se da en x=0.8944271915156737, y=0.4472135952874264


1