# 15 Funciones diferenciables. Aplicaciones

---

### Formas cuadráticas

Para la resolución de problemas de optimización es necesario conocer previamente el concepto de forma cuadrática y manejar ciertos resultados asociados al mismo. Esta sección se presenta como un pequeño apéndice necesario para la comprensión de varios resultados fundamentales de optimización en varias variables. Comenzamos con la definición de forma cuadrática.

#### Definición 15.1

Una forma cuadrática es una aplicación $Q:\mathbb{R}^k\to\mathbb{R}$ definida por

$$
Q(x_1,x_2,\dots,x_k)=\sum_{i,j=1,\ i\leq j}^{k}\alpha_{ij}x_ix_j
$$

Veamos algunos ejemplos de formas cuadráticas.

---

#### Ejemplo 15.1

Para el caso de $k=1$ variable, la función $Q:\mathbb{R}\to\mathbb{R}$ definida por
$$
Q(x)=2x^2
$$
es un ejemplo de forma cuadrática, donde $\alpha_{11}=2$.

Para el caso de $k=2$ variables, la función $Q:\mathbb{R}^2\to\mathbb{R}$ definida por
$$
Q(x_1,x_2)=2x_1^2+3x_1x_2-x_2^2
$$
es un ejemplo de forma cuadrática definida en $\mathbb{R}^2$, donde $\alpha_{11}=2$, $\alpha_{12}=3$, $\alpha_{22}=-1$.

Para el caso de $k=3$ variables, la función $Q:\mathbb{R}^3\to\mathbb{R}$ definida por
$$
Q(x_1,x_2,x_3)=x_1^2+2x_1x_3+3x_2^2-4x_2x_3
$$
es una forma cuadrática definida en $\mathbb{R}^3$, siendo en este caso $\alpha_{11}=1$, $\alpha_{12}=0$, $\alpha_{13}=2$, $\alpha_{22}=3$, $\alpha_{23}=-4$, $\alpha_{33}=0$.

---

Una forma cuadrática $Q:\mathbb{R}^k\to\mathbb{R}$,

$$
Q(x_1,x_2,\dots,x_k)=\sum_{i,j=1,\ i\leq j}^{k}\alpha_{ij}x_ix_j
$$

se puede expresar matricialmente de la forma

$$
Q(x_1,x_2,\dots,x_k)=
\begin{pmatrix}
x_1 & x_2 & \dots & x_k
\end{pmatrix}
A
\begin{pmatrix}
x_1 \\ x_2 \\ \vdots \\ x_k
\end{pmatrix}
$$

donde $A=(a_{ij})\in\mathcal{M}_k$ es una matriz cuadrada simétrica de orden $k$ definida por

$$
\begin{aligned}
a_{ii} & = \alpha_{ii}, \quad i\in\{1,2,\dots,k\} \\
a_{ij} & = a_{ji} = \frac{\alpha_{ij}}{2}, \quad i,j\in\{1,2,\dots,k\},\ i<j
\end{aligned}
$$

---

### Ejemplo 15.2

Consideremos las formas cuadráticas del ejemplo anterior. En el caso de la forma cuadrática
$$
Q(x_1,x_2)=2x_1^2+3x_1x_2-x_2^2
$$
la matriz simétrica asociada es
$$
A=\begin{pmatrix}
2 & \frac{3}{2}\\
\frac{3}{2} & -1
\end{pmatrix}
$$
En efecto,
$$
\begin{pmatrix}
x_1 & x_2
\end{pmatrix}
\begin{pmatrix}
2 & \frac{3}{2}\\
\frac{3}{2} & -1
\end{pmatrix}
\begin{pmatrix}
x_1\\
x_2
\end{pmatrix}
=
\begin{pmatrix}
x_1 & x_2
\end{pmatrix}
\begin{pmatrix}
2x_1+\frac{3}{2}x_2\\
\frac{3}{2}x_1-x_2
\end{pmatrix}
=
2x_1^2+3x_1x_2-x_2^2
$$

De igual manera, para la forma cuadrática
$$
Q(x_1,x_2,x_3)=x_1^2+2x_1x_3+3x_2^2-4x_2x_3
$$
su matriz simétrica asociada es
$$
A=\begin{pmatrix}
1 & 0 & 1\\
0 & 3 & -2\\
1 & -2 & 0
\end{pmatrix}
$$
y se cumple que
$$
\begin{aligned}
Q(x_1,x_2,x_3)
&=
\begin{pmatrix}
x_1 & x_2 & x_3
\end{pmatrix}
\begin{pmatrix}
1 & 0 & 1\\
0 & 3 & -2\\
1 & -2 & 0
\end{pmatrix}
\begin{pmatrix}
x_1\\
x_2\\
x_3
\end{pmatrix} \\
&=
\begin{pmatrix}
x_1 & x_2 & x_3
\end{pmatrix}
\begin{pmatrix}
x_1+x_3\\
3x_2-2x_3\\
x_1-2x_2
\end{pmatrix}
=
x_1(x_1+x_3)+x_2(3x_2-2x_3)+x_3(x_1-2x_2) \\
&=
x_1^2+2x_1x_3+3x_2^2-4x_2x_3
\end{aligned}
$$

---

Como veremos, es importante el signo que toma una forma cuadrática, en particular en optimización de funciones de varias variables. Atendiendo a su signo, las formas cuadráticas se clasifican del siguiente modo.

### Definición 15.2

Sea $Q:\mathbb{R}^k\to\mathbb{R}$ una forma cuadrática. Se dice que $Q$ es

- **Definida positiva** si $Q(x)>0$ para todo $x\in\mathbb{R}^k$, $x\neq 0$.
- **Definida negativa** si $Q(x)<0$ para todo $x\in\mathbb{R}^k$, $x\neq 0$.
- **Semidefinida positiva** si $Q(x)\geq 0$ para todo $x\in\mathbb{R}^k$.
- **Semidefinida negativa** si $Q(x)\leq 0$ para todo $x\in\mathbb{R}^k$.
- **Indefinida** si $Q$ toma valores positivos y negativos.

Habitualmente, diremos que la matriz $A$ que representa la forma cuadrática $Q$ es definida positiva (respectivamente, definida negativa, semidefinida positiva, semidefinida negativa o indefinida) si la forma cuadrática $Q$ lo es.

---

A continuación, damos dos criterios de clasificación de las formas cuadráticas. En el primero de ellos se establecen condiciones para clasificar la forma cuadrática en base a los signos de los autovalores de la matriz simétrica, y en el segundo se proporcionan condiciones en base al signo de los determinantes de ciertas submatrices de $A$.

En primer lugar, es importante resaltar que toda matriz simétrica es diagonalizable, por lo que, en particular, existen autovalores y éstos son números reales.

>### Teorema 15.1
>
>Sea $Q:\mathbb{R}^k\to\mathbb{R}$ una forma cuadrática y $A$ su matriz simétrica asociada. Denotemos por $\lambda_i$, $i=1,2,\dots,k$, los autovalores de $A$ (algunos de ellos pueden coincidir). Se cumplen los siguientes criterios:
>
>1. Los autovalores son todos estrictamente positivos, $\lambda_i>0$ para $i=1,2,\dots,k$, si y solamente si $Q$ es definida positiva.
>2. Los autovalores son todos estrictamente negativos, $\lambda_i<0$ para $i=1,2,\dots,k$, si y solamente si $Q$ es definida negativa.
>3. Los autovalores son todos no negativos, $\lambda_i\geq 0$ para $i=1,2,\dots,k$, si y solamente si $Q$ es semidefinida positiva.
>4. Los autovalores son todos no positivos, $\lambda_i\leq 0$ para $i=1,2,\dots,k$, si y solamente si $Q$ es semidefinida negativa.
>5. Si algunos autovalores son negativos y otros son positivos, entonces $Q$ es indefinida.

---

### Ejemplo 15.3

Clasifique la forma cuadrática
$$
Q(x_1,x_2)=2x_1^2+3x_1x_2-x_2^2
$$
Como vimos en el ejemplo anterior, la matriz simétrica asociada a $Q$ viene dada por
$$
A=\begin{pmatrix}
2 & \frac{3}{2}\\
\frac{3}{2} & -1
\end{pmatrix}
$$
Los autovalores de $A$ son las raíces del polinomio característico
$$
p(\lambda)=\det(A-\lambda I)
=
\begin{vmatrix}
2-\lambda & \frac{3}{2}\\
\frac{3}{2} & -1-\lambda
\end{vmatrix}
=(2-\lambda)(-1-\lambda)-\frac{9}{4}
=\lambda^2-\lambda-\frac{17}{4}
$$
Sus raíces son
$$
\lambda_1=\frac{1+3\sqrt{2}}{2}>0,
\qquad
\lambda_2=\frac{1-3\sqrt{2}}{2}<0
$$
Como existe un autovalor positivo y otro negativo, por el criterio de clasificación anterior, $Q$ es indefinida.

En efecto, se puede comprobar que $Q$ es indefinida buscando dos puntos en los que $Q$ cambie de signo. Observemos que
$$
Q(1,0)=2>0
$$
y
$$
Q(0,1)=-1<0
$$

---

### Ejemplo 15.4

Clasifique la forma cuadrática
$$
Q(x_1,x_2,x_3)=3x_1^2+2x_1x_3+x_2^2+5x_3^2
$$

Su matriz simétrica asociada es
$$
A=
\begin{pmatrix}
3 & 0 & 1 \\
0 & 1 & 0 \\
1 & 0 & 5
\end{pmatrix}
$$

El polinomio característico viene dado por
$$
p(\lambda)=\det(A-\lambda I)=
\begin{vmatrix}
3-\lambda & 0 & 1 \\
0 & 1-\lambda & 0 \\
1 & 0 & 5-\lambda
\end{vmatrix}
=(1-\lambda)\bigl((3-\lambda)(5-\lambda)-1\bigr)
=(1-\lambda)(\lambda^2-8\lambda+14)
$$

Sus raíces se obtienen de
$$
(1-\lambda)(\lambda^2-8\lambda+14)=0
$$
y, por tanto, los autovalores son
$$
\lambda_1=1,\qquad \lambda_2=4+\sqrt{2},\qquad \lambda_3=4-\sqrt{2}
$$
Como $\lambda_1>0$, $\lambda_2>0$ y $\lambda_3>0$, se deduce que $Q$ es definida positiva.

---

Para el siguiente criterio de clasificación, consideramos los determinantes de las submatrices principales, que no son más que las submatrices de $A$ obtenidas tomando las $i$ primeras filas y las $i$ primeras columnas de $A$. Denotamos dichos determinantes por
$$
\Delta_i=
\begin{vmatrix}
a_{11} & \cdots & a_{1i} \\
\vdots & \ddots & \vdots \\
a_{i1} & \cdots & a_{ii}
\end{vmatrix}
$$
para $i=1,\dots,k$.

Por ejemplo, si
$$
A=
\begin{pmatrix}
1 & 2 & 5 \\
2 & 2 & 0 \\
5 & 0 & 3
\end{pmatrix}
$$
entonces
$$
\Delta_1=1,\qquad
\Delta_2=
\begin{vmatrix}
1 & 2 \\
2 & 2
\end{vmatrix},\qquad
\Delta_3=\det(A)=-56
$$

>### Teorema 15.2
>
>Sea $Q:\mathbb{R}^k\to\mathbb{R}$ una forma cuadrática y sea $A$ su matriz simétrica asociada. Supongamos que $\Delta_i\neq 0$ para todo $i=1,2,\dots,k$. Entonces se verifican los siguientes criterios:
>
>1. $\Delta_i>0$ para todo $i=1,2,\dots,k$ si y sólo si $Q$ es definida positiva.
>
>2. $(-1)^i\Delta_i>0$ para todo $i=1,2,\dots,k$ (es decir, $\Delta_1<0$, $\Delta_2>0$, $\Delta_3<0$, $\dots$) si y sólo si $Q$ es definida negativa.

---

### Ejemplo 15.5

Consideremos la forma cuadrática del Ejemplo 15.3. Se tiene que
$$
\Delta_1=2>0
$$
y
$$
\Delta_2=-\frac{17}{4}<0
$$
Por tanto, $Q$ no es ni definida positiva ni definida negativa (obsérvese que, para que sea definida negativa, los signos de los determinantes deben alternar de la forma $<0$, $>0$, $<0$, ...).

---

### Ejemplo 15.6

Consideremos ahora la forma cuadrática del Ejemplo 15.4. Se tiene que
$$
\Delta_1=3>0
$$
y
$$
\Delta_2=
\begin{vmatrix}
3 & 0 \\
0 & 1
\end{vmatrix}
=3>0
$$
y
$$
\Delta_3=\det(A)=14>0
$$
Por tanto, por el segundo criterio de clasificación se deduce que $Q$ es definida positiva, como ya sabíamos.

---

### Observación 15.2

Como hemos visto, toda forma cuadrática determina una matriz simétrica. Del mismo modo, toda matriz simétrica determina una forma cuadrática. Nuestra aplicación principal de las formas cuadráticas surge en Optimización; en particular, la forma cuadrática $Q$ asociada a la matriz hessiana y definida por
$$
Q(\mathbf{x})=\mathbf{x}^T\nabla^2 f(\mathbf{a})\mathbf{x}
$$
Recordemos que la hessiana $\nabla^2 f(\mathbf{a})$ es una matriz simétrica bajo condiciones de regularidad suficiente. Como veremos en el siguiente apartado, la clasificación de los puntos críticos en máximos y mínimos locales depende del signo de la forma cuadrática $Q$.

---

## Teorema de Taylor para varias variables

En esta sección extendemos el Teorema de Taylor a funciones de varias variables. La idea consiste en reducir el problema al caso de una variable proyectando la función sobre rectas y aplicando el resultado conocido en una dimensión.

Recordemos que, para una función de una variable $f:\mathbb{R}\to\mathbb{R}$ y un punto $a\in\mathbb{R}$, el Teorema de Taylor asegura la existencia de un escalar $\theta$ perteneciente al intervalo de extremos $a$ y $x$ tal que
$$
f(x)=f(a)+f'(a)(x-a)+\frac{f''(a)}{2!}(x-a)^2+\dots+\frac{f^{(n)}(a)}{n!}(x-a)^n+\frac{f^{(n+1)}(\theta)}{(n+1)!}(x-a)^{n+1}
$$
Si denotamos $h=x-a$, podemos reescribir la expresión anterior de forma equivalente como
$$
f(a+h)=f(a)+f'(a)h+\frac{f''(a)}{2!}h^2+\dots+\frac{f^{(n)}(a)}{n!}h^n+\frac{f^{(n+1)}(\theta)}{(n+1)!}h^{n+1}
$$
Recordemos también que el polinomio de Taylor de orden $n$ de $f$ en $a$ viene dado por
$$
p_n(x)=f(a)+f'(a)(x-a)+\frac{f''(a)}{2!}(x-a)^2+\dots+\frac{f^{(n)}(a)}{n!}(x-a)^n
$$

### Extensión a varias variables

Sea $f:\mathbb{R}^k\to\mathbb{R}$ una función suficientemente regular, sea $\mathbf{a}=(a_1,\dots,a_k)$ un punto fijo y sea $\mathbf{h}=(h_1,\dots,h_k)\in\mathbb{R}^k$ una dirección. Consideramos la recta $r$ definida por
$$
r=\mathbf{a}+t\mathbf{h}
=\left\lbrace (a_1+th_1,\dots,a_k+th_k):t\in\mathbb{R}\right\rbrace
$$
Definimos la función $f_{\mathbf{h}}:\mathbb{R}\to\mathbb{R}$ como la restricción de $f$ a dicha recta, es decir,
$$
f_{\mathbf{h}}(t)=f(\mathbf{a}+t\mathbf{h})
$$
Esta función se obtiene como composición de las aplicaciones
$$
\begin{array}{cccccc}
f_{\mathbf{h}}: & \mathbb{R} & \longrightarrow & \mathbb{R}^k              & \longrightarrow & \mathbb{R} \\
                & t          & \longmapsto     & \mathbf{a}+t\mathbf{h}    & \longmapsto     & f(\mathbf{a}+t\mathbf{h})
\end{array}
$$
Aplicando el Teorema de Taylor de una variable al caso $a=0$ y $t=1$, obtenemos
$$
f_{\mathbf{h}}(1)=f_{\mathbf{h}}(0)+f'_{\mathbf{h}}(0)+\frac{f''_{\mathbf{h}}(0)}{2!}
+\dots+\frac{f^{(n)}_{\mathbf{h}}(0)}{n!}
+\frac{f^{(n+1)}_{\mathbf{h}}(\theta)}{(n+1)!}
$$
donde $\theta\in(0,1)$. Esta expresión determina el Teorema de Taylor para varias variables una vez que se calculan las derivadas $f^{(i)}_{\mathbf{h}}(0)$ mediante la regla de la cadena. En lo que sigue nos centraremos en los polinomios de Taylor de orden $1$ y $2$.

### Polinomios de Taylor

Construimos ahora explícitamente los polinomios de Taylor de la función $f$. En primer lugar, consideramos la aproximación dada por los dos primeros sumandos de la expresión anterior,
$$
f_{\mathbf{h}}(1)\approx f_{\mathbf{h}}(0)+f'_{\mathbf{h}}(0)
$$
Calculemos cada término. Por definición,
$$
f_{\mathbf{h}}(1)=f(\mathbf{a}+\mathbf{h})
$$
y
$$
f_{\mathbf{h}}(0)=f(\mathbf{a})
$$
Aplicando la regla de la cadena obtenemos
$$
f'_{\mathbf{h}}(0)=
\begin{pmatrix}
D_1f(\mathbf{a}) & \dots & D_kf(\mathbf{a})
\end{pmatrix}
\begin{pmatrix}
h_1\\
\vdots\\
h_k
\end{pmatrix}
=\nabla f(\mathbf{a})^T\mathbf{h}
$$
donde utilizamos la convención de vectores columna, de modo que $\nabla f(\mathbf{a})$ es un vector columna. Por tanto,
$$
f(\mathbf{a}+\mathbf{h})\approx f(\mathbf{a})+\nabla f(\mathbf{a})^T\mathbf{h}
$$
Si denotamos $\mathbf{x}=\mathbf{a}+\mathbf{h}$, esta expresión es equivalente a
$$
f(\mathbf{x})\approx f(\mathbf{a})+\nabla f(\mathbf{a})^T(\mathbf{x}-\mathbf{a})
$$
que determina el polinomio de Taylor de orden $1$ de $f$ en el punto $\mathbf{a}$.

---

### Definición 15.3

Sea $f:\mathbb{R}^k\to\mathbb{R}$. El polinomio
$$
P_1(\mathbf{x})=f(\mathbf{a})+\nabla f(\mathbf{a})^T(\mathbf{x}-\mathbf{a})
$$
recibe el nombre de polinomio de Taylor de orden $1$ de $f$ en el punto $\mathbf{a}$.

---

De igual forma, los tres primeros sumandos,
$$
f_{\mathbf{h}}(0)+f'_{\mathbf{h}}(0)+\frac{f''_{\mathbf{h}}(0)}{2!},
$$
proporcionan el polinomio de Taylor de orden $2$. Como ya hemos visto,
$$
\begin{aligned}
f_{\mathbf{h}}(0)  & = f(\mathbf{a}), \\
f'_{\mathbf{h}}(0) & = \nabla f(\mathbf{a})^T\mathbf{h},
\end{aligned}
$$
nos resta calcular la derivada segunda $f''_{\mathbf{h}}(0)$.

Esta se obtiene aplicando nuevamente la regla de la cadena. En efecto,
$$
f''_{\mathbf{h}}(0)
= \frac{d}{dt}\left(
D_1f(\mathbf{a}+t\mathbf{h})h_1+\dots+D_kf(\mathbf{a}+t\mathbf{h})h_k
\right)\Bigg|_{t=0}
= \sum_{j=1}^k \frac{d}{dt}\left(D_jf(\mathbf{a}+t\mathbf{h})h_j\right)\Bigg|_{t=0}
$$
Aplicando la regla de la cadena a cada término,
$$
\frac{d}{dt}\left(D_jf(\mathbf{a}+t\mathbf{h})h_j\right)
= \sum_{i=1}^k D_{ij}f(\mathbf{a}+t\mathbf{h})h_ih_j
$$
Teniendo en cuenta la simetría del Hessiano, $D_{ij}f=D_{ji}f$, se obtiene
$$
\begin{aligned}
f''_{\mathbf{h}}(t)= {} & D_{11}f(\mathbf{a}+t\mathbf{h})h_1^2
+ D_{21}f(\mathbf{a}+t\mathbf{h})h_2h_1
+ \cdots
+ D_{k1}f(\mathbf{a}+t\mathbf{h})h_kh_1 \\
& + D_{12}f(\mathbf{a}+t\mathbf{h})h_1h_2
+ D_{22}f(\mathbf{a}+t\mathbf{h})h_2^2
+ \cdots
+ D_{k2}f(\mathbf{a}+t\mathbf{h})h_kh_2 \\
& \cdots \\
& + D_{1k}f(\mathbf{a}+t\mathbf{h})h_1h_k
+ D_{2k}f(\mathbf{a}+t\mathbf{h})h_2h_k
+ \cdots
+ D_{kk}f(\mathbf{a}+t\mathbf{h})h_k^2 \\
= {} & \sum_{i=1}^k D_{ii}f(\mathbf{a}+t\mathbf{h})h_i^2
+ \sum_{i<j} 2\,D_{ij}f(\mathbf{a}+t\mathbf{h})h_ih_j \\
= {} & \mathbf{h}^T\nabla^2 f(\mathbf{a}+t\mathbf{h})\mathbf{h}
\end{aligned}
$$
En particular, evaluando en $t=0$, se concluye que $f''_{\mathbf{h}}(0)$ coincide con la forma cuadrática asociada a la matriz hessiana $\nabla^2 f(\mathbf{a})$.

---

### Definición 15.4

Sea $f:\mathbb{R}^k\to\mathbb{R}$. El polinomio
$$
P_2(\mathbf{x})
= f(\mathbf{a})
+ \nabla f(\mathbf{a})^T(\mathbf{x}-\mathbf{a})
+ \frac{1}{2}(\mathbf{x}-\mathbf{a})^T\nabla^2 f(\mathbf{a})(\mathbf{x}-\mathbf{a})
$$
recibe el nombre de polinomio de Taylor de orden $2$ de $f$ en el punto $\mathbf{a}$.

---

### Observación 15.3

Como ya se indicó en la Observación 15.2 al final del apartado referente a formas cuadráticas, obsérvese que el término
$$
\frac{1}{2}(\mathbf{x}-\mathbf{a})^T\nabla^2 f(\mathbf{a})(\mathbf{x}-\mathbf{a})
$$
corresponde a una forma cuadrática cuya matriz asociada viene determinada por la hessiana de la función $f$ en el punto $\mathbf{x}=\mathbf{a}$.

Este término constituye la extensión a varias variables del término de segundo orden del polinomio de Taylor para una función $f:\mathbb{R}\to\mathbb{R}$ de una variable. En efecto, puede expresarse de manera análoga como
$$
\frac{f''(a)}{2!}(x-a)^2=\frac{1}{2}(x-a)f''(a)(x-a)
$$

---

### Ejemplo 15.7

Sea la función $f:\mathbb{R}^k\to\mathbb{R}$ definida por
$$
f(\mathbf{x})=e^{-\lVert \mathbf{x}\rVert^2}=e^{-(x_1^2+\cdots+x_k^2)}
$$
Calcular sus polinomios de Taylor de orden $1$ y $2$ en el punto $\mathbf{a}=\mathbf{0}$ para $k\in\left\lbrace 2,3\right\rbrace$.

Los polinomios de Taylor de orden $1$ y $2$ de $f$ en $\mathbf{0}$ vienen dados por
$$
P_1(\mathbf{x})=f(\mathbf{0})+(\nabla f(\mathbf{0}))^T\mathbf{x}
$$
y
$$
P_2(\mathbf{x})=f(\mathbf{0})+(\nabla f(\mathbf{0}))^T\mathbf{x}
+\frac{1}{2}\mathbf{x}^T\nabla^2 f(\mathbf{0})\,\mathbf{x}
$$

### Caso $k=2$

La función es
$$
f(x_1,x_2)=e^{-(x_1^2+x_2^2)}
$$
Se tiene
$$
f(0,0)=1
$$
El gradiente viene dado por
$$
(\nabla f(x_1,x_2))^T=
\begin{pmatrix}
-2x_1e^{-(x_1^2+x_2^2)} & -2x_2e^{-(x_1^2+x_2^2)}
\end{pmatrix}
$$
y, evaluando en $(0,0)$,
$$
(\nabla f(0,0))^T=\begin{pmatrix}0&0\end{pmatrix}
$$
La matriz hessiana es
$$
\nabla^2 f(x_1,x_2)=
\begin{pmatrix}
(4x_1^2-2)e^{-(x_1^2+x_2^2)} & 4x_1x_2e^{-(x_1^2+x_2^2)} \\
4x_1x_2e^{-(x_1^2+x_2^2)} & (4x_2^2-2)e^{-(x_1^2+x_2^2)}
\end{pmatrix}
$$
y
$$
\nabla^2 f(0,0)=
\begin{pmatrix}
-2 & 0 \\
0 & -2
\end{pmatrix}
$$
Por tanto,
$$
P_1(x_1,x_2)=1
$$
y
$$
P_2(x_1,x_2)=
1+\frac{1}{2}
\begin{pmatrix}x_1&x_2\end{pmatrix}
\begin{pmatrix}-2&0\\0&-2\end{pmatrix}
\begin{pmatrix}x_1\\x_2\end{pmatrix}
=1-x_1^2-x_2^2
$$

### Caso $k=3$

La función es
$$
f(x_1,x_2,x_3)=e^{-(x_1^2+x_2^2+x_3^2)}
$$
Se cumple
$$
f(\mathbf{0})=1
$$
y
$$
\nabla f(\mathbf{x})=-2\mathbf{x}\,e^{-\lVert\mathbf{x}\rVert^2},
\qquad
\nabla f(\mathbf{0})=\mathbf{0}
$$
La hessiana viene dada por
$$
\nabla^2 f(x_1,x_2,x_3)=
e^{-(x_1^2+x_2^2+x_3^2)}
\begin{pmatrix}
4x_1^2-2 & 4x_1x_2 & 4x_1x_3 \\
4x_1x_2 & 4x_2^2-2 & 4x_2x_3 \\
4x_1x_3 & 4x_2x_3 & 4x_3^2-2
\end{pmatrix}
$$
y
$$
\nabla^2 f(0,0,0)=
\begin{pmatrix}
-2 & 0 & 0 \\
0 & -2 & 0 \\
0 & 0 & -2
\end{pmatrix}
=-2I
$$
Por tanto,
$$
P_1(\mathbf{x})=1
$$
y
$$
P_2(\mathbf{x})=
1+\frac{1}{2}\mathbf{x}^T(-2I)\mathbf{x}
=1-\mathbf{x}^T\mathbf{x}
=1-\lVert\mathbf{x}\rVert^2
$$

---

### Observación 15.4

En el caso de dos variables, el polinomio de Taylor de orden $1$ de una función $f:\mathbb{R}^2\to\mathbb{R}$ en el punto $\mathbf{a}=(a_1,a_2)$ coincide geométricamente con el plano tangente al grafo de $f$ en el punto
$$
(\mathbf{a},f(\mathbf{a}))=(a_1,a_2,f(a_1,a_2))
$$
En efecto, la ecuación del plano tangente viene dada por
$$
z=f(a_1,a_2)+D_1f(a_1,a_2)(x-a_1)+D_2f(a_1,a_2)(y-a_2)
$$

---

### Observación 15.5

Otra regla nemotécnica para recordar el desarrollo de la parte cuadrática del polinomio de Taylor de orden $2$ es la siguiente. Los términos de orden $2$ de la Hessiana se corresponden con los del desarrollo de
$$
(x_1 + x_2 + \dots + x_k)^2
$$

Por ejemplo, si $k=3$, la forma cuadrática asociada a la matriz Hessiana viene dada por
$$
\begin{aligned}
\begin{pmatrix}
x_1 & x_2 & x_3
\end{pmatrix}
\begin{pmatrix}
D_{11}f(\mathbf{a}) & D_{12}f(\mathbf{a}) & D_{13}f(\mathbf{a}) \\
D_{21}f(\mathbf{a}) & D_{22}f(\mathbf{a}) & D_{23}f(\mathbf{a}) \\
D_{31}f(\mathbf{a}) & D_{32}f(\mathbf{a}) & D_{33}f(\mathbf{a})
\end{pmatrix}
\begin{pmatrix}
x_1 \\
x_2 \\
x_3
\end{pmatrix}
&= x_1^2 D_{11}f(\mathbf{a}) + x_1x_2 D_{21}f(\mathbf{a}) + x_1x_3 D_{31}f(\mathbf{a}) \\
&\quad + x_2x_1 D_{12}f(\mathbf{a}) + x_2^2 D_{22}f(\mathbf{a}) + x_2x_3 D_{32}f(\mathbf{a}) \\
&\quad + x_3x_1 D_{13}f(\mathbf{a}) + x_3x_2 D_{23}f(\mathbf{a}) + x_3^2 D_{33}f(\mathbf{a}) \\
&= x_1^2 D_{11}f(\mathbf{a}) + x_2^2 D_{22}f(\mathbf{a}) + x_3^2 D_{33}f(\mathbf{a}) \\
&\quad + 2x_1x_2 D_{12}f(\mathbf{a}) + 2x_1x_3 D_{13}f(\mathbf{a}) + 2x_2x_3 D_{23}f(\mathbf{a})
\end{aligned}
$$

donde cada uno de los monomios se corresponde con los términos del desarrollo
$$
(x_1 + x_2 + x_3)^2 = x_1^2 + x_2^2 + x_3^2 + 2x_1x_2 + 2x_1x_3 + 2x_2x_3
$$
multiplicados por el correspondiente elemento de la matriz Hessiana. Así, por ejemplo, un monomio del tipo $2x_i x_j$ se corresponde con el término $2x_i x_j D_{ij}f(\mathbf{a})$.

---

### Ejemplo 15.8

Calcule los polinomios de Taylor hasta el orden $2$ de la función
$$
f(x,y)=x^4-y^3
$$
en el punto $\mathbf{a}=(1,1)$.

En primer lugar, se tiene que $f(1,1)=0$. Las derivadas parciales primeras vienen dadas por
$$
D_1f(x,y)=4x^3, \qquad D_1f(1,1)=4
$$
$$
D_2f(x,y)=-3y^2, \qquad D_2f(1,1)=-3
$$
y las derivadas parciales segundas por
$$
D_{11}f(x,y)=12x^2, \qquad D_{11}f(1,1)=12
$$
$$
D_{12}f(x,y)=0, \qquad D_{12}f(1,1)=0
$$
$$
D_{22}f(x,y)=-6y, \qquad D_{22}f(1,1)=-6
$$

Por tanto, el polinomio de Taylor $P_1$ de orden $1$ de $f$ en $\mathbf{a}=(1,1)$ viene dado por
$$
P_1(x,y)=f(1,1)+D_1f(1,1)(x-1)+D_2f(1,1)(y-1)
=4(x-1)-3(y-1)
$$

De igual manera, el polinomio de Taylor $P_2$ de orden $2$ viene dado por
$$
P_2(x,y)=4(x-1)-3(y-1)+6(x-1)^2-3(y-1)^2
$$

---

## Extremos relativos de una función de varias variables

### Extremos de funciones de varias variables

Esta sección está dedicada a establecer las condiciones necesarias y suficientes de extremo para funciones de varias variables. Como en casos anteriores, es posible obtener dichas condiciones reduciendo el problema a uno de una sola variable. Dada una función escalar de varias variables $f:\mathbb{R}^k\to\mathbb{R}$ suficientemente regular, consideramos el problema de optimizar dicha función sobre un subconjunto $D\subset\mathbb{R}^k$,
$$
\text{(P): optimizar } f(\mathbf{x}) \text{ sujeto a } \mathbf{x}\in D
$$

### Definición 15.5

Se dice que $\mathbf{a}$ es un mínimo global (resp. máximo global) de (P) si
$$
f(\mathbf{a})\leq f(\mathbf{x})
$$
(resp. $f(\mathbf{a})\geq f(\mathbf{x})$) para todo $\mathbf{x}\in D$.

### Definición 15.6

Se dice que $\mathbf{a}$ es un mínimo local (resp. máximo local) de (P) si existe $\epsilon>0$ tal que
$$
f(\mathbf{a})\leq f(\mathbf{x})
$$
(resp. $f(\mathbf{a})\geq f(\mathbf{x})$) para todo $\mathbf{x}\in B(\mathbf{a},\epsilon)\cap D
=\left\lbrace \mathbf{x}\in D:\lVert \mathbf{x}-\mathbf{a}\rVert<\epsilon\right\rbrace$.

De igual manera, se dice que dicho mínimo local (resp. máximo local) es estricto si
$$
f(\mathbf{a})< f(\mathbf{x})
$$
(resp. $f(\mathbf{a})> f(\mathbf{x})$) para todo $\mathbf{x}\in B(\mathbf{a},\epsilon)\cap D
=\left\lbrace \mathbf{x}\in D:\lVert \mathbf{x}-\mathbf{a}\rVert<\epsilon\right\rbrace$,
con $\mathbf{x}\neq \mathbf{a}$.

---

### Condición necesaria de extremo local en $k$ variables

Para obtener condiciones de optimalidad de una función $f:\mathbb{R}^k\to\mathbb{R}$ diferenciable, razonamos de nuevo restringiendo la función $f$ a rectas y aplicando resultados del caso de una variable. Sea $\mathbf{a}=(a_1,\dots,a_k)$ un punto fijo y sea $\mathbf{v}=(v_1,\dots,v_k)\in\mathbb{R}^k$, $\mathbf{v}\neq\mathbf{0}$, una dirección no nula. Consideramos la función
$$
\begin{array}{cccccc}
f_{\mathbf{v}}: & \mathbb{R} & \longrightarrow & \mathbb{R}^k           & \longrightarrow & \mathbb{R} \\
                & t          & \longmapsto     & \mathbf{a}+t\mathbf{v} & \longmapsto     & f(\mathbf{a}+t\mathbf{v})
\end{array}
$$

Si $\mathbf{a}$ es un mínimo local de $f$, entonces existe $\epsilon>0$ tal que
$$
f(\mathbf{a})\leq f(\mathbf{x}), \quad \text{para todo }\mathbf{x}\in B(\mathbf{a},\epsilon)
$$
lo cual implica, en particular, que $\mathbf{a}$ es un mínimo local de $f$ restringida a la recta $r=\{\mathbf{a}+t\mathbf{v}:t\in\mathbb{R}\}$. Es decir, existe $\alpha>0$ tal que
$$
f_{\mathbf{v}}(0)=f(\mathbf{a})\leq f(\mathbf{a}+t\mathbf{v})=f_{\mathbf{v}}(t),
\quad \text{para todo }t\in(-\alpha,\alpha)
$$

Por tanto, si $\mathbf{a}=(a_1,\dots,a_k)\in\mathbb{R}^k$ es un mínimo local de $f$, entonces $t=0$ es un mínimo local de la función $f_{\mathbf{v}}$. En consecuencia, su derivada se anula en dicho punto,
$$
f'_{\mathbf{v}}(0)=0
$$

Como
$$
f'_{\mathbf{v}}(0)=\nabla f(\mathbf{a})^T\mathbf{v},
$$
se obtiene
$$
D_1f(\mathbf{a})v_1+\dots+D_kf(\mathbf{a})v_k=0
$$

Este razonamiento es válido para cualquier vector $\mathbf{v}\in\mathbb{R}^k$. En particular, tomando $\mathbf{v}=\mathbf{e}_1=(1,0,\dots,0)$ se obtiene
$$
D_1f(\mathbf{a})\cdot 1+\dots+D_kf(\mathbf{a})\cdot 0=0
\quad\Rightarrow\quad
D_1f(\mathbf{a})=0
$$
De manera análoga, tomando $\mathbf{v}=\mathbf{e}_k=(0,\dots,0,1)$ se deduce
$$
D_1f(\mathbf{a})\cdot 0+\dots+D_kf(\mathbf{a})\cdot 1=0
\quad\Rightarrow\quad
D_kf(\mathbf{a})=0
$$

Este razonamiento proporciona la condición necesaria de extremo local para $f$, válida tanto para mínimos como para máximos locales.

>### Proposición 15.1
>
>Supóngase que $f:\mathbb{R}^k\to\mathbb{R}$ es diferenciable en $\mathbf{a}=(a_1,\dots,a_k)\in\mathbb{R}^k$. Si $\mathbf{a}$ es un extremo local de $f$, entonces
>$$
>\begin{cases}
>D_1f(\mathbf{a})=0 \\
>\vdots \\
>D_kf(\mathbf{a})=0
>\end{cases}
>$$

### Observación 15.6

De forma vectorial, la condición de extremo puede expresarse como la anulación del gradiente,
$$
\nabla f(\mathbf{a})=\mathbf{0}
$$
es decir,
$$
(D_1f(\mathbf{a}),\dots,D_kf(\mathbf{a}))=(0,\dots,0)
$$
En general, a los puntos que anulan el gradiente se les denomina puntos críticos de la función $f$.

---

Al igual que en el caso de una variable, existen puntos críticos que no son extremos relativos (mínimos o máximos). A esta clase de puntos se les denomina puntos de silla.

### Ejemplo 15.9

Calcule los puntos críticos de la función
$$
f(x,y)=(x^2+2y^2)e^{-(x^2+y^2)}
$$

Los puntos críticos se obtienen resolviendo el sistema
$$
\begin{cases}
D_1f(x,y)=0 \\
D_2f(x,y)=0
\end{cases}
$$

En este caso,
$$
\begin{cases}
2x e^{-(x^2+y^2)}+(x^2+2y^2)(-2x)e^{-(x^2+y^2)}=0 \\
4y e^{-(x^2+y^2)}+(x^2+2y^2)(-2y)e^{-(x^2+y^2)}=0
\end{cases}
$$
es decir,
$$
\begin{cases}
2x e^{-(x^2+y^2)}(1-x^2-2y^2)=0 \\
2y e^{-(x^2+y^2)}(2-x^2-2y^2)=0
\end{cases}
$$

El sistema anterior es equivalente a
$$
\begin{cases}
x(1-x^2-2y^2)=0 \\
y(2-x^2-2y^2)=0
\end{cases}
$$

Procedemos a resolver dicho sistema. De la primera ecuación se deduce que o bien $x=0$, o bien $1-x^2-2y^2=0$. Analizamos ambos casos.

* Si $x=0$, al sustituir en la segunda ecuación se obtiene
$$
y(2-2y^2)=0
$$
cuyas soluciones son $y=0$ y $y=\pm 1$. En este caso se obtienen los puntos críticos $(0,0)$, $(0,1)$ y $(0,-1)$.

* Si $1-x^2-2y^2=0$, entonces $x^2+2y^2=1$. Sustituyendo en la segunda ecuación se obtiene
$$
y(2-x^2-2y^2)=y(2-1)=y=0
$$
Por tanto, $y=0$ y se sigue que $1-x^2=0$, luego $x=\pm 1$. En este caso se obtienen los puntos críticos $(1,0)$ y $(-1,0)$.

En consecuencia, los puntos críticos de la función son
$$
\mathbf{a}_1=(1,0),\quad
\mathbf{a}_2=(-1,0),\quad
\mathbf{a}_3=(0,1),\quad
\mathbf{a}_4=(0,-1),\quad
\mathbf{a}_5=(0,0)
$$

---

## Condición suficiente de extremo local en $k$ variables

En este apartado se proporcionan condiciones suficientes de extremo relativo, es decir, condiciones que permiten determinar si un punto crítico es un máximo relativo, un mínimo relativo o un punto de silla.

Recordemos que, dada una función $f$ suficientemente regular de una variable, si $x=a$ es un punto crítico de $f$ y $f''(a)>0$ (respectivamente, $f''(a)<0$), entonces $f$ alcanza en $x=a$ un mínimo relativo estricto (respectivamente, un máximo relativo estricto). Es decir,
$$
f''(a)>0 \Rightarrow a \text{ es un mínimo local estricto}
$$

La generalización de este resultado al caso de una función $f:\mathbb{R}^k\to\mathbb{R}$ de varias variables y un punto $\mathbf{a}\in\mathbb{R}^k$ es la siguiente:
$$
\nabla^2 f(\mathbf{a}) \text{ definida positiva } \Rightarrow \mathbf{a} \text{ es un mínimo local estricto}
$$
De igual forma,
$$
\nabla^2 f(\mathbf{a}) \text{ definida negativa } \Rightarrow \mathbf{a} \text{ es un máximo local estricto}
$$

Este resultado puede razonarse de manera análoga al caso de la condición necesaria, considerando la restricción $f_{\mathbf{v}}$ de $f$ a una recta de la forma $\mathbf{a}+t\mathbf{v}$ y observando que
$$
f_{\mathbf{v}}''(0)=\mathbf{v}^T\nabla^2 f(\mathbf{a})\mathbf{v}
$$

Formalmente, se tiene el siguiente resultado. En lo que sigue se considera siempre una función $f:\mathbb{R}^k\to\mathbb{R}$ con derivadas parciales continuas hasta orden dos.

>### Teorema 15.3
>
>Sea $f:\mathbb{R}^k\to\mathbb{R}$ y sea $\mathbf{a}\in\mathbb{R}^k$ un punto crítico de $f$, es decir,
>$$
>\nabla f(\mathbf{a})=\mathbf{0}
>$$
>
>* Si $\nabla^2 f(\mathbf{a})$ es definida positiva, entonces $\mathbf{a}=(a_1,\dots,a_k)\in\mathbb{R}^k$ es un mínimo local estricto de $f$.
>* Si $\nabla^2 f(\mathbf{a})$ es definida negativa, entonces $\mathbf{a}=(a_1,\dots,a_k)\in\mathbb{R}^k$ es un máximo local estricto de $f$.
>* Si $\nabla^2 f(\mathbf{a})$ es indefinida, entonces $\mathbf{a}=(a_1,\dots,a_k)\in\mathbb{R}^k$ es un punto de silla.

---

### Ejemplo 15.10

Estúdiese el carácter de los puntos críticos de la función
$$
f(x,y)=(x^2+2y^2)e^{-(x^2+y^2)}.
$$

En apartados anteriores se calcularon los puntos críticos de la función $f$. Para clasificarlos, se calculan ahora las derivadas parciales de segundo orden.

$$
\begin{aligned}
D_{11}f(x,y)
&=2\left[-2x e^{-(x^2+y^2)}(x-x^3-2xy^2)+e^{-(x^2+y^2)}(1-3x^2-2y^2)\right] \\
&=2e^{-(x^2+y^2)}(-2x^2+2x^4+4x^2y^2+1-3x^2-2y^2) \\
&=2e^{-(x^2+y^2)}(2x^4+4x^2y^2-5x^2-2y^2+1)
\end{aligned}
$$

$$
\begin{aligned}
D_{21}f(x,y)
&=2x\left[-2y e^{-(x^2+y^2)}(1-x^2-2y^2)+e^{-(x^2+y^2)}(-4y)\right] \\
&=2x e^{-(x^2+y^2)}(-2y+2x^2y+4y^3-4y) \\
&=4x e^{-(x^2+y^2)}(2y^3+x^2y-3y) \\
&=4xy e^{-(x^2+y^2)}(2y^2+x^2-3)
\end{aligned}
$$

$$
\begin{aligned}
D_{22}f(x,y)
&=2\left[-2y e^{-(x^2+y^2)}(2y-x^2y-2y^3)+e^{-(x^2+y^2)}(2-x^2-6y^2)\right] \\
&=2e^{-(x^2+y^2)}(-4y^2+2x^2y^2+4y^4+2-x^2-6y^2) \\
&=2e^{-(x^2+y^2)}(4y^4+2x^2y^2-10y^2-x^2+2)
\end{aligned}
$$

* Por el Teorema 15.3, el punto $\mathbf{a}_5=(0,0)$ es un mínimo local estricto, ya que la matriz Hessiana
$$
\nabla^2 f(0,0)=
\begin{pmatrix}
2 & 0 \\
0 & 4
\end{pmatrix}
$$
es definida positiva. En efecto, al ser diagonal, sus autovalores son $\lambda_1=2>0$ y $\lambda_2=4>0$. Equivalentemente, los menores principales cumplen $\Delta_1=2>0$ y $\Delta_2=8>0$.

* En los puntos críticos $\mathbf{a}_3=(0,1)$ y $\mathbf{a}_4=(0,-1)$ las matrices Hessianas coinciden:
$$
\nabla^2 f(0,1)=\nabla^2 f(0,-1)=
e^{-1}
\begin{pmatrix}
-2 & 0 \\
0 & -8
\end{pmatrix}
$$
Esta matriz es definida negativa, por lo que $\mathbf{a}_3$ y $\mathbf{a}_4$ son máximos locales estrictos de $f$.

* Finalmente, las matrices Hessianas asociadas a los puntos $\mathbf{a}_1=(1,0)$ y $\mathbf{a}_2=(-1,0)$ coinciden:
$$
\nabla^2 f(1,0)=\nabla^2 f(-1,0)=
e^{-1}
\begin{pmatrix}
-4 & 0 \\
0 & 2
\end{pmatrix}
$$
En este caso la matriz Hessiana es indefinida, por lo que estos puntos son puntos de silla. En ellos, la función es creciente en algunas direcciones y decreciente en otras.

---

Por otro lado, merece la pena reflexionar sobre lo siguiente. Sea $\mathbf{a}\in\mathbb{R}^k$ un punto crítico de $f$, es decir,
$$
\nabla f(\mathbf{a})=\mathbf{0}
$$
El polinomio de Taylor de orden $2$ de $f$ en dicho punto viene dado por
$$
\begin{aligned}
P_2(\mathbf{x})
&=f(\mathbf{a})+\nabla f(\mathbf{a})^T(\mathbf{x}-\mathbf{a})
+\frac{1}{2}(\mathbf{x}-\mathbf{a})^T\nabla^2 f(\mathbf{a})(\mathbf{x}-\mathbf{a}) \\
&=f(\mathbf{a})+\frac{1}{2}(\mathbf{x}-\mathbf{a})^T\nabla^2 f(\mathbf{a})(\mathbf{x}-\mathbf{a})
\end{aligned}
$$
donde se ha utilizado que $\nabla f(\mathbf{a})=\mathbf{0}$.

Es claro que $P_2(\mathbf{a})=f(\mathbf{a})$. Así pues, denotando
$$
Q(\mathbf{z})=\mathbf{z}^T\nabla^2 f(\mathbf{a})\mathbf{z}
$$
lo anterior es equivalente a
$$
P_2(\mathbf{x})=P_2(\mathbf{a})+\frac{1}{2}Q(\mathbf{x}-\mathbf{a})
$$

Sabemos que $Q$ es la forma cuadrática asociada a la matriz Hessiana de $f$ en el punto $\mathbf{a}$. Supongamos que la matriz Hessiana en $\mathbf{a}$ es definida positiva. Entonces se sabe que $\mathbf{a}$ es un mínimo relativo de $f$.

Por otro lado, el hecho de que la matriz Hessiana en $\mathbf{a}$ sea definida positiva es equivalente a que
$$
Q(\mathbf{z})>0 \quad \text{para todo }\mathbf{z}\neq\mathbf{0}
$$
y, por tanto,
$$
Q(\mathbf{x}-\mathbf{a})>0 \quad \text{para todo }\mathbf{x}\neq\mathbf{a}
$$
De aquí se deduce que
$$
P_2(\mathbf{x})>P_2(\mathbf{a}), \quad \text{para todo }\mathbf{x}\in\mathbb{R}^k,\ \mathbf{x}\neq\mathbf{a}
$$
lo que implica que $\mathbf{a}$ es también un mínimo relativo del polinomio de Taylor de segundo orden de $f$ en $\mathbf{a}$. Es decir, si la matriz Hessiana en $\mathbf{a}$ es definida positiva, entonces $\mathbf{a}$ es un mínimo relativo tanto de $f$ como de su polinomio de Taylor de segundo orden en $\mathbf{a}$.

De lo anterior se deduce el siguiente resultado.

>### Proposición 15.2
>
>Sea $\mathbf{a}\in\mathbb{R}^k$ un punto crítico de $f$.
>
>* Si la matriz Hessiana en $\mathbf{a}$ es definida positiva, entonces $\mathbf{a}$ es un mínimo relativo de $f$ y del polinomio de Taylor de segundo orden de $f$ en $\mathbf{a}$.
>* Si la matriz Hessiana en $\mathbf{a}$ es definida negativa, entonces $\mathbf{a}$ es un máximo relativo de $f$ y del polinomio de Taylor de segundo orden de $f$ en $\mathbf{a}$.
>* Si la matriz Hessiana en $\mathbf{a}$ es indefinida, entonces $\mathbf{a}$ es un punto de silla de $f$ y del polinomio de Taylor de segundo orden de $f$ en $\mathbf{a}$.

---

### Ejemplo 15.11

Consideremos de nuevo la función $f$ del ejemplo anterior. En dicho ejemplo se demostró lo siguiente.

* La matriz Hessiana en $\mathbf{a}_5=(0,0)$ es definida positiva. Por tanto, el polinomio de Taylor de orden $2$ de $f$ en $(0,0)$ tiene un mínimo estricto en dicho punto. En efecto,
$$
\begin{aligned}
P_2(x,y)
&=f(0,0)+\nabla f(0,0)^T
\begin{pmatrix}
x \\
y
\end{pmatrix}
+\frac{1}{2}
\begin{pmatrix}
x & y
\end{pmatrix}
\nabla^2 f(0,0)
\begin{pmatrix}
x \\
y
\end{pmatrix} \\
&=\frac{1}{2}
\begin{pmatrix}
x & y
\end{pmatrix}
\begin{pmatrix}
2 & 0 \\
0 & 4
\end{pmatrix}
\begin{pmatrix}
x \\
y
\end{pmatrix}
= x^2+2y^2
\end{aligned}
$$
La gráfica de este polinomio es un paraboloide.

* La matriz Hessiana en los puntos $\mathbf{a}_3=(0,1)$ y $\mathbf{a}_4=(0,-1)$ es definida negativa. Por tanto, el polinomio de Taylor de orden $2$ de $f$ en $(0,1)$ (respectivamente, en $(0,-1)$) tiene un máximo local en dichos puntos. Por ejemplo, el polinomio de Taylor de orden $2$ en el punto $\mathbf{a}_3=(0,1)$ viene dado por
$$
\begin{aligned}
P_2(x,y)
&=f(0,1)+\nabla f(0,1)^T
\begin{pmatrix}
x \\
y-1
\end{pmatrix}
+\frac{1}{2}
\begin{pmatrix}
x & y-1
\end{pmatrix}
\nabla^2 f(0,1)
\begin{pmatrix}
x \\
y-1
\end{pmatrix} \\
&=2e^{-1}+\frac{e^{-1}}{2}
\begin{pmatrix}
x & y-1
\end{pmatrix}
\begin{pmatrix}
-2 & 0 \\
0 & -8
\end{pmatrix}
\begin{pmatrix}
x \\
y-1
\end{pmatrix} \\
&=2e^{-1}+e^{-1}\bigl(-x^2-4(y-1)^2\bigr) \\
&=e^{-1}(2-x^2-4y^2+8y-4) \\
&=e^{-1}(-2+8y-x^2-4y^2)
\end{aligned}
$$

* Finalmente, los puntos $\mathbf{a}_1=(1,0)$ y $\mathbf{a}_2=(-1,0)$ tienen la misma matriz Hessiana, la cual es indefinida. Por tanto, son puntos de silla, y el polinomio de Taylor de orden $2$ de $f$ en dichos puntos también presenta un punto de silla. En particular, el polinomio de Taylor de orden $2$ en el punto $\mathbf{a}_2=(-1,0)$ viene dado por
$$
\begin{aligned}
P_2(x,y)
&=f(-1,0)+\nabla f(-1,0)^T
\begin{pmatrix}
x+1 \\
y
\end{pmatrix}
+\frac{1}{2}
\begin{pmatrix}
x+1 & y
\end{pmatrix}
\nabla^2 f(-1,0)
\begin{pmatrix}
x+1 \\
y
\end{pmatrix} \\
&=e^{-1}+\frac{e^{-1}}{2}
\begin{pmatrix}
x+1 & y
\end{pmatrix}
\begin{pmatrix}
-4 & 0 \\
0 & 2
\end{pmatrix}
\begin{pmatrix}
x+1 \\
y
\end{pmatrix} \\
&=e^{-1}+e^{-1}\bigl(-2(x+1)^2+y^2\bigr) \\
&=e^{-1}(1-2x^2-4x-2+y^2) \\
&=e^{-1}(-1-4x-2x^2+y^2)
\end{aligned}
$$
La gráfica de este polinomio tiene forma de silla de montar.

---

En general, cuando la matriz Hessiana $\nabla^2 f(\mathbf{a})$ es semidefinida (positiva o negativa), se está ante un caso dudoso en la clasificación del punto crítico, y no es posible asegurar si el punto $\mathbf{a}$ es un extremo o no mediante el criterio de la Hessiana.

Es fácil comprobar, por ejemplo, que la función
$$
f(x,y)=x^4+y^4
$$
tiene matriz Hessiana nula en el punto $\mathbf{a}=(0,0)$ y, sin embargo, dicho punto es un mínimo absoluto de la función. Veamos ahora otro ejemplo.

### Ejemplo 15.12

Estúdiese el carácter de los extremos relativos de la función
$$
f(x,y)=yx^2+y^2
$$

Se calculan las derivadas parciales y se igualan a cero para determinar los puntos críticos:
$$
\begin{cases}
D_1 f(x,y)=2xy=0, \\
D_2 f(x,y)=x^2+2y=0
\end{cases}
$$

Es claro que el único punto crítico es $\mathbf{a}=(0,0)$. La matriz Hessiana viene dada por
$$
\nabla^2 f(x,y)=
\begin{pmatrix}
2y & 2x \\
2x & 2
\end{pmatrix},
\qquad
\nabla^2 f(0,0)=
\begin{pmatrix}
0 & 0 \\
0 & 2
\end{pmatrix}
$$

Esta matriz es semidefinida positiva, ya que sus autovalores son $\lambda_1=0$ y $\lambda_2=2$. Por tanto, no se puede aplicar el Teorema 15.3, al no ser ni definida positiva, ni definida negativa, ni indefinida, y es necesario utilizar un razonamiento alternativo para clasificar el punto crítico.

Considerando sucesiones, se verá que $(0,0)$ es un punto de silla. En efecto, tomando la sucesión
$$
\mathbf{a}_n=\left(0,\frac{1}{n}\right)
$$
se tiene que $\{\mathbf{a}_n\}\to(0,0)$ y
$$
f(\mathbf{a}_n)=f\left(0,\frac{1}{n}\right)=\frac{1}{n^2}>0=f(0,0)
$$
lo que descarta que $\mathbf{a}=(0,0)$ sea un máximo relativo.

De igual forma, tomando la sucesión
$$
\mathbf{b}_n=\left(\frac{1}{\sqrt[4]{n}},-\frac{1}{n}\right)
$$
se tiene que $\{\mathbf{b}_n\}\to(0,0)$ y
$$
f(\mathbf{b}_n)
=f\left(\frac{1}{\sqrt[4]{n}},-\frac{1}{n}\right)
=-\frac{1}{n\sqrt{n}}+\frac{1}{n^2}
=\frac{1}{n^2}(1-\sqrt{n})<0=f(0,0)
$$
lo que descarta que $\mathbf{a}=(0,0)$ sea un mínimo relativo.

En consecuencia, el punto $\mathbf{a}=(0,0)$ es un punto crítico que no es ni mínimo ni máximo relativo y, por tanto, es un punto de silla.

---

## Concavidad y convexidad de una función de varias variables

### Extremos globales. Propiedades de convexidad para funciones de varias variables

En general, al igual que en el caso de una variable, las condiciones anteriores en términos de derivadas únicamente garantizan la existencia de extremos locales. Para asegurar que los mínimos (o máximos) sean globales es necesario recurrir a nociones de convexidad. Afortunadamente, los conceptos de convexidad y, de manera análoga, los de concavidad se generalizan de forma natural a funciones de varias variables, y muchas de sus propiedades, en particular las relacionadas con la optimización, se mantienen. En este sentido, se introducen los siguientes conceptos y resultados.

### Definición 15.7

Una función $f:\mathbb{R}^k\to\mathbb{R}$ se dice convexa si
$$
f(\alpha \mathbf{x}+(1-\alpha)\mathbf{y})
\leq
\alpha f(\mathbf{x})+(1-\alpha)f(\mathbf{y})
$$
para todo $\mathbf{x},\mathbf{y}\in\mathbb{R}^k$ y todo $\alpha\in[0,1]$.

Asimismo, se dice que $f:\mathbb{R}^k\to\mathbb{R}$ es cóncava si su función opuesta $-f$ es convexa, es decir, si se cumple
$$
f(\alpha \mathbf{x}+(1-\alpha)\mathbf{y})
\geq
\alpha f(\mathbf{x})+(1-\alpha)f(\mathbf{y})
$$
para todo $\mathbf{x},\mathbf{y}\in\mathbb{R}^k$ y todo $\alpha\in[0,1]$.

A continuación se presenta una caracterización de la convexidad para funciones derivables.

>### Proposición 15.3
>
>Sea $f$ una función suficientemente regular, es decir, con derivadas parciales continuas hasta segundo orden. Son equivalentes los siguientes enunciados:
>
>1. $f$ es convexa.
>
>2. Se cumple
>$$
>f(\mathbf{y})
>\geq
>f(\mathbf{x})+\nabla f(\mathbf{x})^T(\mathbf{y}-\mathbf{x})
>$$
>para todo $\mathbf{x},\mathbf{y}\in\mathbb{R}^k$.
>
>3. Para todo $\mathbf{x}\in\mathbb{R}^k$, la matriz Hessiana $\nabla^2 f(\mathbf{x})$ es semidefinida positiva.

Para funciones cóncavas se obtiene el resultado análogo.

>### Proposición 15.4
>
>Sea $f$ una función suficientemente regular, es decir, con derivadas parciales continuas hasta segundo orden. Son equivalentes los siguientes enunciados:
>
>1. $f$ es cóncava.
>
>2. Se cumple
>$$
>f(\mathbf{y})
>\leq
>f(\mathbf{x})+\nabla f(\mathbf{x})^T(\mathbf{y}-\mathbf{x})
>$$
>para todo $\mathbf{x},\mathbf{y}\in\mathbb{R}^k$.
>
>3. Para todo $\mathbf{x}\in\mathbb{R}^k$, la matriz Hessiana $\nabla^2 f(\mathbf{x})$ es semidefinida negativa.

Aplicando la Proposición 15.3, es inmediato ver que si $f$ es convexa, todo punto crítico es un mínimo global. En efecto, sea $\mathbf{a}\in\mathbb{R}^k$ un punto crítico de $f$. Entonces $\nabla f(\mathbf{a})=\mathbf{0}$ y, por tanto,
$$
f(\mathbf{y})
\geq
f(\mathbf{a})+\nabla f(\mathbf{a})^T(\mathbf{y}-\mathbf{a})
=
f(\mathbf{a})
$$
para todo $\mathbf{y}\in\mathbb{R}^k$. De aquí se deduce que $\mathbf{a}$ es un mínimo global de $f$. Formalmente, se obtiene el siguiente resultado.

>### Proposición 15.5
>
>Sea $f:\mathbb{R}^k\to\mathbb{R}$ una función diferenciable. Se cumplen los siguientes enunciados:
>
>1. Si $f$ es convexa, todos sus puntos críticos son mínimos globales.
>
>2. Si $f$ es cóncava, todos sus puntos críticos son máximos globales.

---

### Ejemplo 15.13

Consideremos la función
$$
f(x,y)=e^{x^2+y^2}
$$

Su gradiente viene dado por
$$
\nabla f(x,y)^T
=
2e^{x^2+y^2}
\begin{pmatrix}
x & y
\end{pmatrix}
$$
y su matriz Hessiana por
$$
\nabla^2 f(x,y)
=
e^{x^2+y^2}
\begin{pmatrix}
2+4x^2 & 4xy \\
4xy    & 2+4y^2
\end{pmatrix}
$$

Los menores principales $\Delta_1$ y $\Delta_2$ asociados a la matriz Hessiana son estrictamente positivos:
$$
\begin{aligned}
\Delta_1
&=
e^{x^2+y^2}(2+4x^2) \\
\Delta_2
&=
e^{x^2+y^2}\left[(2+4x^2)(2+4y^2)-16x^2y^2\right]
=
e^{x^2+y^2}(4+8x^2+8y^2)>0
\end{aligned}
$$

Por tanto, la matriz Hessiana es definida positiva en todo punto y, en particular, semidefinida positiva. En consecuencia, por los resultados anteriores, la función $f$ es convexa. Geométricamente, la gráfica de $f$ se encuentra siempre por encima de cualquiera de sus planos tangentes.

El único punto crítico de la función es $(0,0)$, el cual es un mínimo global de $f$. Además, dicho mínimo es estricto, ya que la matriz Hessiana $\nabla^2 f(0,0)$ es definida positiva.