#U-TAD - PEDS 2015 (2ª Edición)
#12 - Práctica de Técnicas de Optimización
## Autor: Rafael Enríquez Herrador (rafael.enriquez@live.u-tad.com)

In [1]:
import matplotlib.pyplot as plt
import numpy as np
import cvxpy

#### Ejercicio 1 (3 ptos.)

A partir de los siguientes ejemplos de funciones convexas:

&nbsp;&nbsp;&nbsp;**1. Función constante**: $f:\mathbb R ^n \rightarrow \mathbb R$ tal que $f(x)=b$

&nbsp;&nbsp;&nbsp;**2. Función afín**: $f:\mathbb R ^n \rightarrow \mathbb R$ tal que $f(x)=a^Tx+b$

&nbsp;&nbsp;&nbsp;**3. Función cuadrática**: $f:\mathbb R ^n \rightarrow \mathbb R$ tal que  $f(x) = \frac{1}{2} x^T A x + b^T x + c$, siempre y cuando A sea semidefinida positiva.

&nbsp;&nbsp;&nbsp;**4. Normas**: $f:\mathbb R^n \rightarrow \mathbb R$ tal que $f(x)=l(x)$, siendo $l$ una norma. 
<br/>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Ejemplos de norma: 
<br/>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;$l_2 (x) = \sqrt{x_{1}^2+...+x_{n}^2}$
<br/>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;$l_1 (x) = |x_1|+...+|x_n|$
<br/>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;$l_\inf (x) = max(|x_1|,...,|x_n|)$

&nbsp;&nbsp;&nbsp;**5. Exponencial**: $f:\mathbb R \rightarrow \mathbb R$ tal que $f(x)=e^x$

&nbsp;&nbsp;&nbsp;**6. Logaritmo negado**: $f:\mathbb R^+ \rightarrow \mathbb R$ tal que $f(x)=-ln(x)$

&nbsp;&nbsp;&nbsp;**7. Suma de exponenciales**: $f:\mathbb R^n \rightarrow \mathbb R$ tal que $f(x_1,...,x_n)=e^{x_1}+...+e^{x_n}$


Y de las siguientes propiedades:

&nbsp;&nbsp;&nbsp;**1. Adición**: Si $f_1$ y $f_2$ son convexas, entonces $f_1+f_2$ también es convexa.

&nbsp;&nbsp;&nbsp;**2. Escalado**: Si $f$ es convexa, entonces $\alpha f$ es convexa para $\alpha > 0$, $\alpha \in \mathbb R$.

&nbsp;&nbsp;&nbsp;**3. Transformación afín**: Si $f:\mathbb R^n \rightarrow \mathbb R$  es convexa, entonces $g(x)=f(Ax+b)$ es convexa para cualquier $A \in \mathbb R^{n \times m}$ y $b \in \mathbb R^n$.

&nbsp;&nbsp;&nbsp;**4. Sumar una función lineal**: Si $f$ es convexa, entonces $g(x) = f(x) + a^T x$ también es convexa para cualquier $a \in \mathbb R^n$.

&nbsp;&nbsp;&nbsp;**5. Restar una función lineal**: Si $f$ es convexa, entonces $g(x) = f(x) - a^T x$ también es convexa para cualquier $a \in \mathbb R^n$.

&nbsp;&nbsp;&nbsp;**6. Maximo punto a punto**: Si $f_1$ y $f_2$ son convexas, entonces $g(x) = max(f_1(x), f_2(x))$ también es convexa.

&nbsp;&nbsp;&nbsp;**7. Negación**: Si $f$ es cóncava, entonces $g(x) = -f(x)$ es convexa.

&nbsp;&nbsp;&nbsp;**8. Composición escalar**: Sean $f:\mathbb R ^n \rightarrow \mathbb R$ y $h:\mathbb R \rightarrow \mathbb R$ entonces $g(x) = h(f(x))$ será convexa si:
<br/>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**a)** $f$ es convexa y $h$ es convexa y no decreciente.
<br/>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**b)** $f$ es concava y $h$ es convexa y no creciente.

Demuestra que las siguientes funciones son convexas. Para ello sólo es necesario indicar qué ejemplos y qué propiedades es necesario utilizar en la demostración y en qué orden.

**Ejemplo resuelto:** $f(x_1, x_2)= max(\sqrt{x_1^2+x_2^2}, 1)$

La demostración utilzaría en este orden el ejemplo 4, ejemplo 1 y la propiedad 6. 

**a)** $f(x_1,x_2)= -ln(-e^{x_1} - e^{x_2})$

* $f: \mathbb R^2 \rightarrow \mathbb R$ tal que $f(x_1, x_2) = e^x_1  + e^x_2$ entonces $f$ es convexa puesto que se trata de una **suma de exponenciales** (**ejemplo 7**).
* Si $f$ es convexa, entonces $g(x_1,x_2) = -f(x_1,x_2) = -(e^x_1  + e^x_2) = -e^x_1  - e^x_2$ es cóncava  puesto que se trata de la **negación** de una función convexa (**propiedad 7**).
* Por otro lado sea $h: \mathbb R \rightarrow \mathbb R$ tal que $h(x) = -ln(x)$, entonces $h$ es convexa puesto que se trata del **logaritmo negado** (**ejemplo 6**) y, además es decreciente ya que $h'(x) = -1/x$ (derivada de $h$) es negativo en todo su dominio.
* Finalmente, por **composicion escalar** (**propiedad 8b**) tenemos que $h(g(x_1, x_2)) = -ln(-e^x_1  - e^x_2)$ será convexa.

**b)** $f(x_1, x_2) = e^{(-2x_1 + 2x_2 + 8)}$

* Por un lado, tenemos que, sea $f: \mathbb R^2 \rightarrow \mathbb R$ tal que $f(x_1, x_2) = -2x_1 + 2x_2 + 8$ entonces $f$ es convexa puesto que se trata de una **función afín** (**ejemplo 2**).
* Por otro lado, sea $h: \mathbb R \rightarrow \mathbb R$ tal que $h(x) = e^x$, entonces $h$ es convexa, puesto que se trata de la **función exponencial** (**ejemplo 5**) y además es creciente, puesto que su derivada $h'(x) = e^x$ es positiva en todo su dominio.
* Aplicando la **composición escalar** (**propiedad 8a**), siendo $f$ convexa y $h$ convexa y no decreciente, tenemos que $h(f(x_1, x_2)) = h(-2x_1 + 2x_2 + 8) = e^{(-2x_1 + 2x_2 + 8)}$ será convexa.

**c)** $f(x_1, x_2) = 3|x_1| - 9x_1 + 3|x_2|$

* Sea $f_1: \mathbb R^2 \rightarrow \mathbb R$ tal que $f_1(x_1, x_2) = |x_1| + |x_2|$, por tratarse de la **norma** con $p = 1$ (**ejemplo 4**), entonces $f_1$ es convexa.
* Sea $f_2 = 3f_1$, aplicando la **propiedad de escalado** (**propiedad 2**), entonces $f_2(x_1, x_2) = 3f(x_1, x_2) = 3(|x_1| + |x_2|) = 3|x_1| + 3|x_2|$ es convexa.
* Por otro lado, sea $g: \mathbb R^2 \rightarrow \mathbb R$ tal que $g(x_1, x_2) = -9x_1 + 0x_2$, por tratarse de la **función afín** (**ejemplo 2**), es convexa.
* Aplicando la **propiedad de adición** (**propiedad 1**), tendremos que $f_2 + g = 3|x_1| + 3|x_2| + (-9)x_1 + 0x_2 = 3|x_1| - 9x_1 + 3|x_2|$ es convexa.

#### Ejercicio 2 (3,5 ptos.)

Resuelva el siguiente problema de optimización convexa utilizando CVXPY:

<i>minimizar</i> $f(x_1,x_2)=x_1^2+9x_2^2$

<i>sujeto a</i>

&nbsp;&nbsp;&nbsp;$2x_1+x_2 \ge 1$

&nbsp;&nbsp;&nbsp;$x_1+3x_2 \ge 1$

&nbsp;&nbsp;&nbsp;$x_1 \ge 0$, $x_2 \ge 0$

In [2]:
# Creamos las variables escalares de optimización
x = cvxpy.Variable()
y = cvxpy.Variable()

# Creamos las restricciones del problema
constraints = [2*x + y >= 1,
               x + 3*y >= 1,
               x >= 0,
               y >= 0]

# Ajustamos nuestra función objetivo
obj = cvxpy.Minimize(cvxpy.square(x) + 9*cvxpy.square(y))

# Solucionamos el problema
prob = cvxpy.Problem(obj, constraints)
prob.solve()

# Imprimimos los resultados por pantalla
print "Status:", prob.status
print "Optimal value:", prob.value
print "Optimal vars:", x.value, y.value

Status: optimal
Optimal value: 0.499999999149
Optimal vars: 0.499996068212 0.166667977283


#### Ejercicio 3 (3,5 ptos.)

En clase vimos un ejemplo de implementación de descenso estocástico de gradiente para regresión lineal en el caso de dos dimensiones. En este ejercicio, se pide escribir una implementación de este algoritmo que funcione para cualquier número de dimensiones.

In [7]:
def descenso_estocastico_gradiente(x, y, theta_ini, pasadas, eta):
    """
    Implementa el algoritmo de descenso estocástico de gradiente
    para regresión lineal por mínimos cuadrados.
    
    Parámetros:
    x         variable independiente de la regresión lineal. Array de dimensiones mxn
    y         variable dependiente de la regresión lineal. Array unidimensional de m elementos
    theta_ini valor inicial de los parámetros a optimizar. Array unidimensional de n elementos.
    pasadas   número de veces que recorreremos cada uno de los m elementos del conjunto de datos
    eta       longitud de paso
    
    Valor devuelto:
    Array con los valores óptimos de theta. Array unidimensional de n elementos.
    """
    
    #TODO: implementar esta función
    
    # Numero de puntos que vamos a estudiar en cada pasada
    ## A ELECCION DEL USUARIO (con k = 4 nos acercamos bastante al valor esperado)
    k = 4
    
    # Obtenemos el numero de dimensiones de nuestra funcion (numero de variables)
    n = x.shape[1]
    # Obtenemos el numero de puntos de nuestra muestra
    m = x.shape[0]
    # Creamos un vector con los indices de cada uno de los puntos que vamos a
    # encontrar en nuestro data set
    indexes = np.arange(m)
    # y lo ordenamos de forma aleatoria, de forma que los puntos no se evaluen
    # secuencialmente.
    np.random.shuffle(indexes)
    # Definimos el valor de theta inicial, como un vector de 0s
    theta = theta_ini
    # Definimos la funcion f(theta, x_i) como el sumatorio de cada elemento del vector
    # theta, por el elemento del punto que estemos estudiando.
    f = lambda theta,x_i: np.sum(theta * x_i)
    # Definimos la funcion de coste
    cost = lambda theta, x_i, y_i: ((f(theta, x_i)-y_i)**2) / n
    
    for i in range(pasadas):
        sum_cost = 0
        sample = np.take(indexes, np.random.randint(0, m, k))
        # Obtenemos un subconjunto de indices aleatorio
        for index in sample:
            # Calculamos f(theta, x_i) para el punto estudiado
            f_i = f(theta, x[index])
            # Actualizamos el valor de theta
            theta = theta - eta * (f_i - y[index]) * x[index]
            # Incrementamos el coste
            sum_cost = sum_cost + cost(theta, x[index], y[index])
        # Almacenamos el coste y lo imprimimos por pantalla
        # para la pasada actual
        cost_list.append(sum_cost / m)
        #print("Iteration %d | Cost: %f" % (i, sum_cost))
    
    # Mostramos los valores de theta obtenidos
    print theta

El siguiente código te servirá para comprobar que tu algoritmo funciona correctamente. Genera un conjunto de 100.000 datos, que siguen la función lineal $f(x_1,x_2,x_3,x_4)=-17+2x_1-8x_2+10x_3+9x_4$ pero añadiendo un ruido gaussiano a los valores de $y$.

Los valores de $\theta$ devueltos por la función que has implementado deberían ser cercanos a $(-17, 2, -8, 10, 9)$

In [8]:
m = 100000
n = 5
f = lambda x: 2*x[:,1]-8*x[:,2]+10*x[:,3]+9*x[:,4]-17+np.random.randn(x.shape[0])*10
x = np.hstack((np.ones((m, 1)),np.random.random((m,n-1))*100))
y = f(x)
theta_ini = np.zeros(n)
cost_list = []
descenso_estocastico_gradiente(x, y, theta_ini, 100000, 0.0001)

[-16.41915367   1.88284685  -8.09575089  10.10493886   8.81134596]
