# **710077 - Optimización Numérica**
# Parte # 1. Optimización sin Restricciones

<img style="float: right; padding-right: 10px;" height="220" src="http://mafalda.univalle.edu.co/simbolos/logos/imagenes/univalle-wrc.gif"> <br>

**Universidad del Valle** <br>
**Escuela de Ingeniería Eléctrica y Electrónica** <br>
**Área de Informática Industrial** <br>

**Profesor:** Wilfredo Alfonso Morales, Ph.D. <br>

# 1. Introducción ([Bertsekas, 2008](http://venus.unive.it/~fasano/Nonlinear_Programming_IIed.pdf))

Los modelos matemáticos de optimización pueden ser generalmente representados por:

* El conjunto de restricciones $X$
* Una función de costo $f$ (mapea los elementos de $X$ dentro de los números reales)

Lo que se busca es encontrar una decisión óptima, es decir, un $x^{*} \in X$ tal que:

$f\left(x^{*}\right)\leq f\left(x\right)$, $\forall x \in X$

El problema de optimización entonces se define como:

$minimizar ~ f\left(x \right)$

$s.t. ~ x \in X$

$x$ es un vector $n$-dimensional, o una $n$-tupla de números reales $\left(x_{1},x_{2},\ldots,x_{n}\right)$. El conjunto de restricciones $X$ es un subconjunto de $\mathbb{R}^{n}$, es decir el espacio Euclideano $n$-dimensional.

La función $f:\mathbb{R}^{n} \to \mathbb{R}$ que deseamos minimizar es una función de valor real llamada *función de costo* o *función objetivo*. El valor $x \in \mathbb{R}^{n}$ es un vector columna:

$x = \left[ x_{1},x_{2},\ldots,x_{n}\right] ^{T}$

donde cada elemento del vector es conocido como *variable de decisión*.

$X$ es un subconjunto de $\mathbb{R}^{n}$ es llamado *conjunto de restricciones* o *conjuto factible*.

<center>
<table>
<th><img src="https://www.researchgate.net/profile/Jean-Bernard_Lasserre/publication/4006246/figure/fig1/AS:654096461742081@1532960157285/Six-hump-camel-back-function_W640.jpg" height="350"></th>
<th><img src="https://nlopt.readthedocs.io/en/latest/images/NLopt-example-constraints.png" height="350"></th>
</center>

<center>
<img src="https://i.stack.imgur.com/BUT7I.png" height="500">
</center>

El problema de optimización puede ser visto como un problema de decisión que involucra hallar el mejor vector $x$ de las variables de decisión de todos los posibles vectores en $X$. Por *"el mejor"* se entiende que uno da como resultado el valor más pequeño (grande) de la función objetivo. Este vector es llamado el **minimizador (maximizador) de $f$ sobfre $X$**. Es posible que haya muchos minimizadores. En este caso hallar alguno de los minimizadores será suficiente. Minimizadores o maximizadores son llamados también **extremizadores** y depende del problema lo que se desea hallar.

En general, cualquiera sea el problema se cumple que:

$\min f = \max -f$

Por lo tanto, todos los problemas se pueden tratar como problemas de minimización sin perder generalidad.

La definición del optimización hasta este momento ha sido presentada de manera general como un **problema de optimización con restricciones** porque las variables de decisión están restringidas a estar dentro del conjunto $X$. Un problema de optimización donde no hay restricciones se puede entender como $X=\mathbb{R}^{n}$.


# 2. Optimización sin Restricciones 

Primero es importante identificar cuales son las condiciones para identificar un mínimo.

<center>
<img src="https://drive.google.com/uc?id=12uLQwHcMqisXDuknDLRH6BMWrUjj1oSq" height="350">
</center>

Del gráfico podemos identificar tres tipos de minimizadores:

* $x_{1}$ Es estrictamente un minimizador global.
* $x_{2}$ Es estrictamente un minimizador local.
* $x_{3}$ Es un minimizador local (no-estricto) **Por qué?** 

## 2.1. Mínimo Global sin Restricciones

Si $x^{*} \in \mathbb{R}^{n}$ cumple que:

$f\left(x^{*}\right) \leq f\left(x\right) ~ \forall x \in \mathbb{R}^{n}$

Por otro lado, si se reemplaza el símbolo "$\leq$" por "$<$" la solución es estrictamente un mínimo global o minimizador global estricto $\forall x \neq x^{*}$

## 2.2. Mínimo Local sin Restricciones

En este caso se define:

$\exists \epsilon > 0$ tal que:

$f\left(x^{*}\right) \leq f\left(x\right) ~ \forall x \in \mathbb{R}^{n} ~ \text{y además,} ~ \|x-x^{*}\| < \epsilon$

($\|y\|$ significa la norma (base 2) de $y \in \mathbb{R}^{n}$ = $\sqrt{y^{T}\cdot y}$)

Fácilmente podemos convertir un problema de optimización sin restricciones a uno con restricciones, si consideramos que el conjunto de soluciones esta restringido por el conjunto $X$. En el sentido contrario, es decir para un problema sin restricciones, tomamos lo que presentamos anteriormente: $X=\mathbb{R}^{n}$.

Así cualquier problema sin restricciones pasa a ser uno con restricciones cuando $x^{*} \in \mathbb{R}^{n}$ se reemplaza por $x^{*} \in X$ o se puede representar también como $\forall x \in \mathbb{R}^{n}$ reemplazandose por $\forall x \in X$.

<center>
<img src="https://www.mathworks.com/help/examples/optim/win64/tutdemo_01.png" height="350">
</center>

Si $x^{*}$ es un minimizador global de $f$ en $X$, entonces:

| Funciones &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; | Definición                                        |
|------------------------------------------------------------------------------------------------------------------------------ | ----------------------------- |
| <ul><li>$f\left(x^{*}\right) = \min_{x \in X} f\left(x\right)$</li><li>$x^{*} = arg \min_{x \in X} f\left(x\right)$</li></ul> | minimizador con restricciones |
| <ul><li>$f\left(x^{*}\right) = \min_{x} f\left(x\right)$</li><li>$x^{*} = arg \min_{x} f\left(x\right)$</li></ul>       | minimizador sin restricciones |

donde $arg \min$ significa: "el argumento que minimiza la función $f$; es decir un puntoen el dominio de $f$"

In [None]:
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

### Ejemplo No. 1

Calcule el argumento que minimiza la función $f\left(x\right)$, (determine el resultado de manera gráfica):

$f\left(x\right) = \left(x+1\right)^{2} + 3$

In [None]:
# Primero se define la función, tener en cuenta que en python es posible desarrollar funciones lambda
# El doble multiplicador "**" significa elevar a la potencia
# Se ha usado funciones de numpy para hacer una distribución de 100 puntos entre -3 y 1 para este ejercicio

f = lambda x: (x+1)**2+3
x = np.linspace(-3.0, 1.0, 101)

In [None]:
# Los siguientes comandos se encargarán de obtener la gráfica
fig, ax = plt.subplots(1, 1, figsize=(10,10))
ax.plot(x, f(x), lw=4)
ax.set_xlabel(r'$x$', fontsize=24)
ax.set_ylabel(r'$f\left(x\right)$', fontsize=24)
ax.set_title('Ejemplo No.1', fontsize=24)
ax.grid(True, lw=1.5, ls='--', alpha=0.75) # Suaviza la intensidad de la grilla
ax.set_xlim(x.min(), x.max())
ax.set_ylim(0, f(x).max())
ax.tick_params(labelsize=24)

### Ejemplo No. 2

Calcule $arg \min_{x \in X} f\left(x\right)$:

$f\left(x\right) = \left(x+1\right)^{2}+3$

$s.t. ~ \forall x \geq 0$

In [None]:
f = lambda x: (x+1)**2+3
x = np.linspace(-3.0, 1.0, 101)

In [None]:
# Los siguientes comandos se encargarán de obtener la gráfica
fig, ax = plt.subplots(1, 1, figsize=(10,10))
ax.plot(x, f(x), lw=4)
ax.fill_between(x, 8, where= x >= 0, facecolor='green', alpha=0.25)
ax.set_xlabel(r'$x$', fontsize=24)
ax.set_ylabel(r'$f\left(x\right)$', fontsize=24)
ax.set_title('Ejemplo No.2', fontsize=24)
ax.grid(True, lw=1.5, ls='--', alpha=0.75) # Suaviza la intensidad de la grilla
ax.set_xlim(x.min(), x.max())
ax.set_ylim(0, f(x).max())
ax.tick_params(labelsize=24)

### Observaciones

Estrictamente hablando, un problema de optimización es resuelto solo cuando un minimizador global es encontrado. Sin embargo, hallar el minimizador global es difícil de encontrar, por lo que en la práctica se puede dar por cumplido cuando se encuentra un mínimo local.

## 2.3. Condiciones para Minimizadores Locales

Primero, es necesario saber como derivar una función y también calcular su segunda derivada.

La derivada de un función $f\left(x\right)$ por definición es:

$\nabla f\left(x\right) \triangleq \left[ \frac{\partial f\left(x\right)}{\partial x_{1}}, \frac{\partial f\left(x\right)}{\partial x_{2}}, \ldots, \frac{\partial f\left(x\right)}{\partial x_{n}}\right]^{T} $

Esto representa al **GRADIENTE**.

La segunda derivada de $f: \mathbb{R}^{n}\to \mathbb{R}$, llamada la **HESSIANA** de $f\left(x\right)$ es:

$\nabla^{2} f\left(x\right) =
    \begin{bmatrix}
    \frac{\partial^{2} f\left(x\right)}{\partial x_{1}^{2}} & \cdots & \frac{\partial^{2} f\left(x\right)}{\partial x_{n} \partial x_{1}} \\
    \vdots & & \vdots \\
    \frac{\partial^{2} f\left(x\right)}{\partial x_{1} \partial x_{n}} & \cdots & \frac{\partial^{2} f\left(x\right)}{\partial x_{n}^{2}}
    \end{bmatrix}$

$\nabla^{2} f\left(x\right) = \nabla^{2} f\left(x\right)^{T}$

### Ejemplo No. 3

Calcule el gradiente y la hessiana de la función:

$f\left(x_{1},x_{2}\right)=5x_{1}+8x_{2}+x_{1}x_{2}-x_{1}^{2}-2x_{2}^2$

### Solución Ejemplo No. 3

Indique los valores para $a_{1}$, $b_{1}$, $c_{1}$, $a_{2}$, $b_{2}$, $c_{2}$, $d_{1,1}$, $d_{1,2}$, $d_{2,1}$, $d_{2,2}$:  

$\nabla f\left(x\right) = \left[a_{1}+b_{1}x_{1}+c_{1}x_{2},~ a_{2}+b_{2}x_{1}+c_{2}x_{2}\right]^{T}$

$\nabla^{2} f\left(x\right) = \begin{bmatrix} d_{1,1} & d_{1,2}\\ d_{2,1} & d_{2,2} \end{bmatrix}$

Dado un problema de optimización con un conjunto de restricción $\Omega$, el minimizador podría estar ubicado en el interior o sobre los límites de $\Omega$. Para estudiar el caso donde este cae sobre el límite, es necesario conocer la noción de *direcciones factibles*.

<center>
<img src="https://drive.google.com/uc?id=12xuefP0mFW88s0-nJbHxmVQvbjRTPI-8" height="350"><br>
</center>

En la figura, $d_{1}$ es una dirección factible; $d_{2}$ es una dirección no factible.

**Definición:** Un vector $d \in \mathbb{R}^{n}$, $d\neq 0$, es una dirección factible de $x \in \Omega$ si existe un $\alpha_{0}>0$, tal que $x+\alpha d \in \Omega$ para todo $\alpha \in \left[0,~ \alpha_{0}\right]$

Sea $f:\mathbb{R}^{n}\to \mathbb{R}$ una función y $d$ una dirección factible de $x \in \Omega$, la derivada direccional de $f\left(x\right)$ en la dirección $d$, denotada como $\frac{\partial f\left(x\right)}{\partial d}$, es una función definida por:

$\frac{\partial f}{\partial d} \left(x\right) = \lim_{\alpha \to 0} \frac{f\left(x+\alpha d\right)-f\left(x\right)}{\alpha}$

Si $\| d \|=1$, entonces $\frac{\partial f}{\partial d}$ es la tasa de incremento de $f$ en $x$ en la dirección $d$. Para calcular la derivada direccional, suponga que $x$ y $d$ están dados, por lo que se simplifica a la forma:

$\frac{\partial f}{\partial d}\left(x\right) =\left. {\frac{\delta}{\delta \alpha} f\left(x+\alpha d\right)}\right| _{\alpha=0} $

Aplicando la regla de la cadena produce:

$\frac{\partial f}{\partial d} \left(x\right) = \left.{\frac{\delta}{\delta \alpha} f\left(x+\alpha d\right)}\right|_{\alpha=0} = \nabla f\left(x\right)^{T} d = \langle \nabla f\left(x\right), d \rangle = d^{T}\nabla f\left(x\right)$

En resumen, si $d$ es un vector unitario (\|d\|=1), entonces $\langle \nabla f\left(x\right), d\rangle$ es la tasa de incremento de $f$ en el punto $x$ en la dirección $d$.

### Ejemplo No. 4

Siendo $f:\mathbb{R}^{3}\to \mathbb{R}$ una función definida como:

$f\left(x\right) = x_{1}x_{2}x_{3}$ 

y sea:

$d = \left[\frac{1}{2},~ \frac{1}{2},~ \frac{1}{\sqrt{2}},\right]^{T}$

Calcule la derivada direccional de $f$ en la dirección $d$

### Solución al Ejemplo No. 4

$\frac{\partial f}{\partial d} \left(x\right) = \nabla f\left(x\right)^{T} d = \left[\frac{\partial f\left(x\right)}{\partial x_{1}} ,\frac{\partial f\left(x\right)}{\partial x_{2}} ,\frac{\partial f\left(x\right)}{\partial x_{3}} \right] \cdot \begin{bmatrix} \frac{1}{2} \\ \frac{1}{2} \\ \frac{1}{\sqrt{2}} \end{bmatrix} = $

Note que $\|d\| = 1$, por lo tanto este valor corresponde también a la tasa de incremento de $f$ en $x$ en la dirección $d$.

# 3. Condiciones de Optimalidad

## 3.1. Condiciones Necesarias para Optimalidad

Si la función de costo es diferenciable, nosotros podemos usar gradientes y expansiones de la serie de Taylor para comparar el costo de un vector con el costo de sus vecinos más cercanos.

Usando una aproximación de primer orden, se produce una variación en la función de costo:

$f\left(x^{*}+\Delta x\right)-f\left(x^{*}\right) \approx \nabla f\left(x^{*}\right)^{T} \Delta x$

y con la aproximación de segundo orden, se produce una variación:

$f\left(x^{*}+\Delta x\right)-f\left(x^{*}\right) \approx \nabla f\left(x^{*}\right)^{T} \Delta x + \frac{1}{2}\Delta x^{T} \nabla^{2} f\left(x^{*}\right) \Delta x$

Esperamos que si $x^{*}$ es un mínimo local sin restricciones, *la variación de la función de costo de primer orden* debido a una pequeña variación $\Delta x$ es **no-negativa**:

$\nabla f\left(x^{*}\right)^{T}\Delta X = \sum_{i=1}^{n} \frac{\partial f\left(x^{*}\right)}{\partial x_{i}}\Delta x_{i} \geq 0$

Note que el resultado anterior se deriva de la dirección factible calculada anteriormente:

$d^{T}\nabla f\left(x^{*}\right) \geq 0$

Básicamente se puede identificar un minimizador local $x^{*}$ de $f$ si para cualquier dirección $d$ su resultado es *no-negativo*.

Supongamos que $\Delta x = e_{k}$. Sea $e_{k} = \left[0,~ 0, \cdots,~ 1, \cdots, 0\right]^{T} \in \mathbb{R}^{n}$

1. $\nabla f\left(x^{*}\right)^{T}e_{k} \geq 0 \Rightarrow \frac{\partial f\left(x\right)}{\partial x} \geq 0$
2. $\nabla f\left(x^{*}\right)^{T}\left(-e_{k}\right) \geq 0 \Rightarrow \frac{\partial f\left(x\right)}{\partial x} < 0$

De lo anterior se deduce que **la condición necesaria de primer orden** sólo se cumple cuando:

$\nabla f\left(x^{*}\right) = 0$

También esperamos que la variación de la función de costo de segundo orden debido a pequeñas variaciones de $\Delta x$ deben ser no-negativas:

$f\left(x^{*}+\Delta x\right)-f\left(x^{*}\right) \approx \nabla f\left(x^{*}\right)^{T} \Delta x + \frac{1}{2}\Delta x^{T} \nabla^{2} f\left(x^{*}\right) \Delta x \geq 0$

Ya que $\nabla f\left(x^{*}\right)^{T}\Delta x = 0$, nosotros obtenemos:

$\Delta x^{T} \nabla^{2} f\left(x^{*}\right) \Delta x \geq 0$

Lo cual implica que $\nabla^{2} f\left(x^{*}\right)$ es una matriz positiva semidefinida. Por lo tanto, si $x^{*}$ es un mínimo local, se debe cumplir esta condición, que se reconoce como **la condición necesaria de segundo orden**.

**Matriz Positiva Definida**

$x^{T}Ax > 0 ~ \forall x\in \mathbb{R}^{n},~ x \neq 0$ 

**Matriz No-negativa definida o Positiva semi-definida**

$x^{T}Ax \geq 0 ~ \forall x\in \mathbb{R}^{n}$

Adicionalmente, una matriz simétrica cuadrada es no-negativa definida (positiva definida) *sí y solo sí* todos sus valores propios (eigen-values) son no-negativos (positivos)

Para que $\lambda$ sea un valor propio es necesario y suficiente que la matriz:

$\lambda \mathbb{I}-A$ sea singular (no-invertible)

esto es,

$|\lambda \mathbb{I}-A| = 0$, que denota al determinante de la matriz e $\mathbb{I}$ representa la matriz identidad.


## 3.2. Condiciones Suficientes de Optimalidad (Parte I)

Suponga que tenemos un vector $x^{*}$ que satisface la condición necesaria de optimalidad de primer orden:

$\nabla f\left(x^{*}\right)=0$

y satisface la forma fortalecida de la condición necesaria de optimalidad de segundo orden, es decir:

$\nabla^{2} f\left(x^{*}\right) |\ \text{sea positiva definida} ~ \forall x,~ \Delta x \neq 0$

$\Delta x^{T} \nabla^{2} f\left(x^{*}\right) \Delta x >0$

Lo que indica que para $x^{*}$ la variación de segundo orden de $f$ debido a pequeñas variaciones (no cero) de $\Delta x$ son siempre positivas. Lo anterior, también sugiere que son **condiciones suficientes para optimalidad local de $x^{*}$**.

Los mínimos locales que no satisfacen las condiciones suficientes son llamados **singulares**. En otro caso estos son llamados **no singulares**.

Los mínimos locales *singulares* son más difíciles de tratar por dos razones:

1. En la ausencia de convexidad de $f$, su optimalidad no puede ser comprobada usando las condiciones suficientes.
2. En su vecindad, los algoritmos comunmente usados de optimización tienden a ser lentos y/o erráticos.

## 3.3.(*) Conjuntos y Funciones Convexas

### Conjunto Convexo

**Definición:** $\mathbb{C} \subset \mathbb{R}^{n}$ es un conjunto convexo, si existe un segmento de línea entre dos puntos $u,~ v \in \mathbb{R}^{n}$, tal que:

$\left\lbrace w\in\mathbb{R}^{n}:\ w= \alpha u + \left(1-\alpha\right)v,~ \alpha\in \left[0,~ 1\right]\right\rbrace$

Un punto $w$ es llamado una combinación convexa de los puntos $u$ y $v$ si:

$w,~u,~v\in \mathbb{C}$

Ejemplos de conjuntos convexos:

- [x] El conjunto vacío
- [x] Un conjunto de un solo punto
- [x] Una línea o un segmento de línea
- [x] Un sub-espacio
- [x] Un hiperplano
- [x] Una variación lineal
- [x] Un espacio medio
- [x] $\mathbb{R}^{n}$

<center>
<img src="https://qph.fs.quoracdn.net/main-qimg-c0536bfb956599d4ed4b6ef375c0ae4b.webp" height="350">
</center>

### Función Convexa

Cuando una función de costo es convexa, se cumple que no existe distinción entre mínimo local y mínimo global; es decir, cada mínimo local es también un mínimo global.

Otro aspecto importante es que la condición de primer orden $\nabla f\left(x^{*}\right)=0$ es también una condición suficiente para optimalidad si $f$ es convexa.

En general, una función de costo convexa se puede representar así:

<center>
<img src="https://upload.wikimedia.org/wikipedia/commons/d/d6/Convex_Function.png" height="350">
</center>

$f\left(tx+\left(1-t\right)y\right) \leq t\cdot f\left(x\right)+(1-t)\cdot f\left(y\right)<f\left(y\right),~ \forall x,~y \in \mathbb{X},~ \text{y}~ \forall t \in\left[0,~1\right] $

De hecho, $f$ es convexa sobre $\mathbb{X}$ *sí y solo sí*:

$f\left(y\right)\geq f\left(x\right)+ \nabla f\left(x\right)^{T}\left(y-x\right),~ \forall x,~y \in \mathbb{X}$

Esto último se conoce como la aproximación lineal de un punto $x$ basado en el gradiente (Serie de Taylor de primer orden).

**Propiedades**

> 1. Si $f$ es convexa, entonces un mínimo local es también un mínimo global. Por qué? Sin importar el tipo de función, se puede afirmar que todo mínimo global es también un mínimo local, pero **un mínimo local es también un mínimo global?**
>>
>> Para demostrar este punto, se propone el siguiente contra ejemplo:
>>
>> $\neg global_{min} \Rightarrow \neg local_{min}$
>>
>> $x^{*} \neg global \Rightarrow \exists \hat{x}\ |\ f\left(\hat{x}\right) < f\left(x^{*}\right)$
>>
>> Usando el principio de convexidad de las funciones:
>>
>> $f\left(tx^{*}+\left(1-t\right)\hat{x}\right) \leq t\cdot f\left(x^{*}\right)+(1-t)\cdot f\left(\hat{x}\right),~ \forall t \in\left[0,~1\right] $
>>
>> Sin embargo,
>>
>> $f\left(tx^{*}+\left(1-t\right)\hat{x}\right) \leq t\cdot f\left(x^{*}\right)+(1-t)\cdot f\left(\hat{x}\right) < t\cdot f\left(x^{*}\right)+\left(1-t\right)\cdot f\left(x^{*}\right)$
>>
>> $f\left(tx^{*}+\left(1-t\right)\hat{x}\right) \leq t\cdot f\left(x^{*}\right)+(1-t)\cdot f\left(\hat{x}\right) < f\left(x^{*}\right)$
>>
>> Cada punto muy cercano a $x^{*}$ tiene valores menores que $f\left(x^{*}\right)$, por lo tanto, $x^{*} \neg local_{min}$.

> 2. Si $f$ es estrictamente convexa, entonces a lo sumo son mínimos globales.
>>
>> Asuma que $x,~y,~x\neq y$, $y$ es un mínimo global.
>>
>> Se demuestra con un contra ejemplo que:
>>
>> Sea $t =\frac{1}{2} \Rightarrow tx+\left(1-t\right)y=\frac{1}{2}\left(x+y\right)$
>>
>> $f\left(\frac{1}{2}\left(x+y\right)\right)\leq \frac{1}{2}\left[f\left(x\right)+f\left(y\right)\right]<f\left(y\right)$
>>
>> Ya que $x\in \mathbb{R}^{n}$ es un mínimo global y $f\left(x\right)\leq f\left(y\right)$. Por lo que el punto de la ecuación más a la izquierda es estrictamente más bajo que el punto más a la derecha de la ecuación. Además tenga en cuenta que la condición de desigualda "$\leq$" puede cambiar a "<" cuando la función es estrictamente convexa.

> 3. Existe una función $f: \mathbb{X} \to \mathbb{R}$ donde $f$ es convexa y $\mathbb{X}$ es un conjunto convexo y abierto. Por lo tanto,
>>
>> $\nabla f\left(x^{*}\right) = 0  ~\iff x^{*}\in \mathbb{X}$ es un mínimo global de $\mathbb{X}$.
>>
>> Por convexidad y usando la aproximación lineal basada en el gradiente:
>>
>> $f\left(x\right)\geq f\left(x^{*}\right)+\nabla f\left(x^{*}\right)^{T}\left(x-x^{*}\right),~ \forall x \in \mathbb{X}$
>>
>> Si $\nabla f\left(x^{*}\right) = 0 \Rightarrow f\left(x\right)\geq f\left(x^{*}\right),~\forall x \in \mathbb{X}$ y por lo tanto $x^{*}$ es un mínimo global.
>>
>> Así, se concluye que si $x^{*} \in \mathbb{X}$ es un mínimo global, entonces $x^{*}$ es también un mínimo local.
>>
>> **Por qué el conjunto $\mathbb{X}$ necesita estar abierto?**
>>
>> Considere el ejemplo:
<center>
<img src="https://d20khd7ddkh5ls.cloudfront.net/linear_graph.jpg" height="350">
</center>
>>
>> Con $\mathbb{X}$ cerrado la derivada no puede ser cero.
>>
>> Con $\mathbb{X}$ abierto la derivada es cero en el infinito negativo.

## 3.4. Condiciones Suficientes de Optimalidad (Parte II)

Suponga que tenemos un vector $x^{*}$ tal que:

$x^{*}\in \mathbb{R}^{n}$ que satisface:

$\nabla f\left(x^{*}\right)=0$
$\nabla^{2} f\left(x^{*}\right)>0,~\forall \Delta x \neq 0$ (Positiva definida)

$\Delta x^{T} \nabla^{2} f\left(x^{*}\right) \Delta x > 0 $, esto implica que las variaciones de segundo orden de $f$ debido a la pequeñas variaciones de $\Delta x$, que no son cero, **son positivas**.

$f\left(x^{*}+\Delta x\right) \approx f\left(x^{*}\right)+\nabla f\left(x^{*}\right)^{T}\Delta x+\frac{1}{2}\Delta x^{T} \nabla^{2} f\left(x^{*}\right) \Delta x$

Entonces si,

$f\left(x^{*}+\Delta x\right)>f\left(x^{*}\right) \Rightarrow x^{*}$ es un mínimo local.

Si en un conjunto abierto $\mathbb{X}$ con $x^{*}\in \mathbb{X}$ se tiene que $\nabla f\left(x^{*}\right)=0$ y $\nabla^{2} f\left(x^{*}\right)>0$ se dice que $x^{*}$ es un mínimo local.

### Ejemplos de Funciones:


| Figura                   | Condiciones de Optimalidad  |
| ------------------------ | --------------------------- |
|  ![example][cell-image01]  | <ul><li> $f\left(x\right) = x^{2}$ </li><li>$\nabla f\left(x^{*}\right)=0$</li><li>$\nabla^{2}f\left(x^{*}\right)>0$</li></ul> |
|  ![example][cell-image02]  | <ul><li>$\nabla f\left(x^{*}\right)=0$</li><li>$\nabla^{2}f\left(x^{*}\right)<0$</li></ul> |
|  ![example][cell-image03]  | <ul><li>$\nabla f\left(x^{*}\right)=0$</li><li>$\Delta x^{T} \nabla^{2}f\left(x^{*}\right)\Delta x ??0$</li></ul> |


[cell-image01]: https://www.lindo.com/doc/online_help/lingo17_0/bmp00196.png
[cell-image02]: https://www.lindo.com/doc/online_help/lingo17_0/bmp00197.png
[cell-image03]: https://iitutor.com/wp-content/uploads/2019/03/P050501.png

## 3.5. Funciones de Costo Cuadrático

$f\left(x\right)=\frac{1}{2}x^{T}Qx-b^{T}x$

donde $Q$ es simétrica $Q=Q^{T}$ y $b \in \mathbb{R}^{n}$

Si $x^{*}$ es un mínimo local de $f$ entonces $\nabla f\left(x^{*}\right)=Qx^{*}-b$ y $\nabla^{2} f\left(x^{*}\right)=Q$ es semi-definida positiva $Q\geq0$

* Por lo tanto, si $Q$ es NO semi-definida positiva, $f$ no tiene mínimos locales.
* Si $Q$ es semi-definida positiva $Q\geq 0$, entonces $f$ es convexa.
* Si $Q>0$, $f$ es convexa y por lo tanto el mínimo local es igual al mínimo global.

Sin embargo, podría no existir una solución si:

$\nabla f\left(x^{*}\right) = Qx^{*}-b=0$ y se detecta que $Q$ es no invertible ($Q$ es singular, o |Q|=0)

Pero si $Q>0$, entonces $Q^{-1}$ existe y $x^{*}=Q^{-1}\cdot b$ es un mínimo global ($Q$ es definida positiva).

### Ejemplo Conceptual

Evalúe los distintos casos para la función:

$f\left(x,~y\right) = \frac{1}{2}\left(\alpha x^{2} + \beta y^{2}\right) - x$

1. Reconstruya la función en su representación cuadrática.
2. Verifique su comportamiento para los casos:
- $\alpha>0,~\beta>0$
- $\alpha=0$
- $\alpha>0,~\beta=0$
- $\alpha>0,~\beta<0$
3. Asigne valores aleatorios que cumplan con los casos y presente los gráficos de cada caso.

* (Estudie el Teorema de Rouché-Fröbenius - disponible en el Campus Virtual)