```{admonition} Notas para contenedor de docker:

Comando de docker para ejecución de la nota de forma local:

nota: cambiar `<ruta a mi directorio>` por la ruta de directorio que se desea mapear a `/datos` dentro del contenedor de docker.

`docker run --rm -v <ruta a mi directorio>:/datos --name jupyterlab_optimizacion -p 8888:8888 -d palmoreck/jupyterlab_optimizacion:2.1.4`

password para jupyterlab: `qwerty`

Detener el contenedor de docker:

`docker stop jupyterlab_optimizacion`

Documentación de la imagen de docker `palmoreck/jupyterlab_optimizacion:2.1.4` en [liga](https://github.com/palmoreck/dockerfiles/tree/master/jupyterlab/optimizacion).

```

---

Nota generada a partir de la [liga1](https://www.dropbox.com/s/jfrxanjls8kndjp/Diferenciacion_e_Integracion.pdf?dl=0), [liga2](https://www.dropbox.com/s/mmd1uzvwhdwsyiu/4.3.2.Teoria_de_convexidad_Funciones_convexas.pdf?dl=0) e inicio de [liga3](https://www.dropbox.com/s/ko86cce1olbtsbk/4.3.1.Teoria_de_convexidad_Conjuntos_convexos.pdf?dl=0).

(DFDF)=

# 1.5 Definición de función y derivada de una función

Notación: $f: A \rightarrow B$ es una función de un conjunto $\text{dom}f \subseteq A$ en un conjunto $B$.

```{admonition} Observación
:class: tip
$\text{dom}f$ (el dominio de $f$) podría ser un subconjunto propio de $A$, esto es, algunos elementos de $A$ y otros no, son mapeados a elementos de $B$.
```

```{margin}
El interior es el conjunto de **puntos interiores**: un punto $x$ de un conjunto $X$ se llama interior si existe una **vecindad** de $x$ (conjunto abierto\* que contiene a $x$) contenida en $X$.

\*Un conjunto $X$ se dice que es **abierto** si $\forall x \in X$ existe una bola abierta\* centrada en $x$ y contenida en $X$. Es equivalente escribir que $X$ es **abierto** si su complemento $\mathbb{R}^n \ X$ es cerrado.

\*Una **bola abierta** con radio $\epsilon>0$ y centrada en $x$ es el conjunto: $B_\epsilon(x) =\{y \in \mathbb{R}^n : ||y-x|| < \epsilon\}$.
```

En lo que sigue se considera al espacio $\mathbb{R}^n$ y se asume que conjuntos y subconjuntos están en este espacio.

Un punto $x$ se nombra **punto límite** de un conjunto $X$, si existe una sucesión $\{x_k\} \subset X$ que converge a $x$. El conjunto de puntos límites se nombra **cerradura** o *closure* de $X$ y se denota como $\text{cl}X$. 

Un conjunto $X$ se nombra **cerrado** si es igual a su cerradura.

En lo siguiente $\text{intdom}f$ es el **interior** del dominio de $f$. 

## Continuidad

$f: \mathbb{R}^n \rightarrow \mathbb{R}^m$ es continua en $x \in \text{dom}f$ si $\forall \epsilon >0 \exists \delta > 0$ tal que:

$$y \in \text{dom}f, ||y-x||_2 \leq \delta \implies ||f(y)-f(x)||_2 \leq \epsilon$$

```{admonition} Comentarios

* $f$ continua en un punto $x$ del dominio de $f$ entonces $f(y)$ es arbitrariamente cercana a $f(x)$ para $y$ en el dominio de $f$ cercana a $x$.

* Otra forma de definir que $f$ sea continua en $x \in \text{dom}f$ es con sucesiones y límites: si $\{x_i\}_{i \in \mathbb{N}} \subseteq \text{dom}f$ es una sucesión de puntos en el dominio de $f$ que converge a $x \in \text{dom}f$, $\displaystyle \lim_{i \rightarrow \infty}x_i = x$, y $f$ es continua en $x$ entonces la sucesión $\{f(x_i)\}_{i \in \mathbb{N}}$ converge a $f(x)$: $\displaystyle \lim_{i \rightarrow \infty}f(x_i) = f(x) = f \left(\displaystyle \lim_{i \rightarrow \infty} x_i \right )$.
```

```{admonition} Notación
$\mathcal{C}([a,b])=\{\text{funciones } f:\mathbb{R} \rightarrow \mathbb{R} \text{ continuas en el intervalo [a,b]}\}$ y $\mathcal{C}(\text{dom}f) = \{\text{funciones } f:\mathbb{R}^n \rightarrow \mathbb{R}^m \text{ continuas en su dominio}\}$.
```

## Función Diferenciable

### Caso $f: \mathbb{R} \rightarrow \mathbb{R}$

$f$ es diferenciable en $x_0 \in (a,b)$ si $\displaystyle \lim_{x \rightarrow x_0} \frac{f(x)-f(x_0)}{x-x_0}$ existe y escribimos:

$$f^{(1)}(x_0) = \displaystyle \lim_{x \rightarrow x_0} \frac{f(x)-f(x_0)}{x-x_0}.$$

$f$ es diferenciable en $[a,b]$ si es diferenciable en cada punto de $[a,b]$. Análogamente definiendo la variable $h=x-x_0$ se tiene:


$f^{(1)}(x_0) = \displaystyle \lim_{h \rightarrow 0} \frac{f(x_0+h)-f(x_0)}{h}$ que típicamente se escribe como:

$$f^{(1)}(x) = \displaystyle \lim_{h \rightarrow 0} \frac{f(x+h)-f(x)}{h}.$$

```{admonition} Comentario
Si $f$ es diferenciable en $x_0$ entonces $f(x) \approx f(x_0) + f^{(1)}(x_0)(x-x_0)$. Gráficamente:

<img src="https://dl.dropboxusercontent.com/s/3t13ku6pk1pjwxo/f_diferenciable.png?dl=0" heigth="500" width="500">
```

Como las derivadas también son funciones tenemos una notación para las derivadas que son continuas:

```{admonition} Notación
$\mathcal{C}^n([a,b])=\{\text{funciones } f:\mathbb{R} \rightarrow \mathbb{R} \text{ con } n \text{ derivadas continuas en el intervalo [a,b]}\}$.
```

```{admonition} Ejemplo

En Python podemos utilizar el paquete [SymPy](https://www.sympy.org/en/index.html) para calcular límites y derivadas (ver [sympy/calculus](https://docs.sympy.org/latest/tutorial/calculus.html)).
```

In [1]:
import sympy

**Límite de $\frac{\cos(x+h) - \cos(x)}{h}$ para $h \rightarrow 0$:**

In [2]:
x, h = sympy.symbols("x, h")

In [3]:
quotient = (sympy.cos(x+h) - sympy.cos(x))/h

In [4]:
sympy.limit(quotient, h, 0)

-sin(x)

Lo anterior corresponde a la **derivada de $\cos(x)$**:

In [5]:
x = sympy.Symbol("x")

In [6]:
sympy.cos(x).diff(x)

-sin(x)

**Si queremos evaluar la derivada podemos usar:**

In [7]:
sympy.cos(x).diff(x).subs(x,sympy.pi/2)

-1

In [8]:
sympy.Derivative(sympy.cos(x), x).doit_numerically(sympy.pi/2)

-1.00000000000000

### Caso $f: \mathbb{R}^n \rightarrow \mathbb{R}^m$

$f$ es diferenciable en $x \in \text{intdom}f$ si existe una matriz $Df(x) \in \mathbb{R}^{m\times n}$ tal que:

$$\displaystyle \lim_{z \rightarrow x, z \neq x} \frac{||f(z)-f(x)-Df(x)(z-x)||_2}{||z-x||_2} = 0, z \in \text{dom}f$$

en este caso $Df(x)$ se llama la derivada de $f$ en $x$.


```{admonition} Observación
:class: tip
Sólo puede existir a lo más una matriz que satisfaga el límite anterior.
```


```{admonition} Comentarios:

* $Df(x)$ también es llamada la **Jacobiana** de $f$.

* Se dice que $f$ es diferenciable si $\text{dom}f$ es abierto y es diferenciable en cada punto de $domf.$

* La función: $f(x) + Df(x)(z-x)$ es afín y se le llama **aproximación de orden $1$** de $f$ en $x$ (o también cerca de $x$). Para $z$ cercana a $x$ ésta aproximación es cercana a $f(z)$.

* $Df(x)$ puede encontrarse con la definición de límite anterior o con las derivadas parciales: $Df(x)_{ij} = \frac{\partial f_i(x)}{\partial x_j}, i=1,\dots,m, j=1,\dots,n$ definidas como:

$$\frac{\partial f_i(x)}{\partial x_j} = \displaystyle \lim_{h \rightarrow 0} \frac{f_i(x+he_j)-f_i(x)}{h}$$

donde: $f_i : \mathbb{R}^n \rightarrow \mathbb{R}$, $i=1,\dots,m,j=1,\dots,n$ y $e_j$ $j$-ésimo vector canónico que tiene un número $1$ en la posición $j$ y $0$ en las entradas restantes.

* Si $f: \mathbb{R}^n \rightarrow \mathbb{R}, Df(x) \in \mathbb{R}^{1\times n}$, su transpuesta se llama **gradiente**, el cual es un vector columna, se denota $\nabla f(x)$ y sus componentes son derivadas parciales: 

$$\nabla f(x) = Df(x)^T = 
    \left[ \begin{array}{c}
    \frac{\partial f(x)}{\partial x_1}\\
    \vdots\\
    \frac{\partial f(x)}{\partial x_n}
    \end{array}
    \right] = \left[ 
    \begin{array}{c} 
    \displaystyle \lim_{h \rightarrow 0} \frac{f(x+he_1) - f(x)}{h}\\
    \vdots\\
    \displaystyle \lim_{h \rightarrow 0} \frac{f(x+he_n) - f(x)}{h}
    \end{array}
    \right] \in \mathbb{R}^{n\times 1}.$$
    
* En este contexto, la aproximación de primer orden a $f$ en $x$ es: $f(x) + \nabla f(x)^T(z-x)$ para $z$ cercana a $x$.
```

```{admonition} Notación
$\mathcal{C}^n(\text{dom}f) = \{\text{funciones } f:\mathbb{R}^n \rightarrow \mathbb{R}^m \text{ con } n \text{ derivadas continuas en su dominio}\}$.
```

```{admonition} Ejemplo

$f : \mathbb{R}^2 \rightarrow \mathbb{R}^2$ dada por:

$$f(x) = 
\left [ 
\begin{array}{c}
x_1x_2 + x_2^2\\
x_1^2 + 2x_1x_2 + x_2^2\\
\end{array}
\right ]
$$

con $x = (x_1, x_2)^T$. Calcular la derivada de $f$.
```

In [9]:
x1, x2 = sympy.symbols("x1, x2")

**Definimos funciones $f_1, f_2$ que son componentes del vector $f(x)$**.

In [10]:
f1 = x1*x2 + x2**2

In [11]:
f1

x1*x2 + x2**2

In [12]:
f2 = x1**2 + x2**2 + 2*x1*x2

In [13]:
f2

x1**2 + 2*x1*x2 + x2**2

**Derivadas parciales:**

Para $f_1(x) = x_1x_2 + x_2^2$:

```{margin}
**Derivada parcial de $f_1$ respecto a $x_1$.**
```

In [14]:
df1_x1 = f1.diff(x1)

In [15]:
df1_x1

x2

```{margin}
**Derivada parcial de $f_1$ respecto a $x_2$.**
```

In [16]:
df1_x2 = f1.diff(x2)

In [17]:
df1_x2

x1 + 2*x2

Para $f_2(x) = x_1^2 + 2x_1 x_2 + x_2^2$:

```{margin}
**Derivada parcial de $f_2$ respecto a $x_1$.**
```

In [18]:
df2_x1 = f2.diff(x1)

In [19]:
df2_x1

2*x1 + 2*x2

```{margin}
**Derivada parcial de $f_2$ respecto a $x_2$.**
```

In [20]:
df2_x2 = f2.diff(x2)

In [21]:
df2_x2

2*x1 + 2*x2

**Entonces la derivada es:**

$$Df(x) = 
\left [
\begin{array}{cc}
x_2 & x_1+2x_2\\
2x_1 + 2x_2 & 2x_1+2x_2
\end{array}
\right ]
$$

**Otra opción más fácil es utilizando [Matrices](https://docs.sympy.org/latest/tutorial/matrices.html):**

In [22]:
f = sympy.Matrix([f1, f2])

In [23]:
f

Matrix([
[          x1*x2 + x2**2],
[x1**2 + 2*x1*x2 + x2**2]])

In [24]:
f.jacobian([x1, x2])

Matrix([
[         x2,   x1 + 2*x2],
[2*x1 + 2*x2, 2*x1 + 2*x2]])

**Para evaluar por ejemplo en $(x_1, x_2)^T = (0, 1)^T$:**

In [25]:
d = f.jacobian([x1, x2])

In [26]:
d.subs([(x1, 0), (x2, 1)])

Matrix([
[1, 2],
[2, 2]])

### Regla de la cadena

Si $f:\mathbb{R}^n \rightarrow \mathbb{R}^m$ es diferenciable en $x\in \text{intdom}f$ y $g:\mathbb{R}^m \rightarrow \mathbb{R}^p$ es diferenciable en $f(x)\in \text{intdom}g$, se define la composición $h:\mathbb{R}^n \rightarrow \mathbb{R}^p$ por $h(z) = g(f(z))$, la cual es diferenciable en $x$, con derivada:

$$Dh(x)=Dg(f(x))Df(x)\in \mathbb{R}^{p\times n}.$$

```{admonition} Ejemplo

Sean $g:\mathbb{R} \rightarrow \mathbb{R}$, $f:\mathbb{R}^n \rightarrow \mathbb{R}$, $h:\mathbb{R}^n \rightarrow \mathbb{R}$ con $h(z) = g(f(z))$ entonces: 

$$Dh(x) = Dg(f(x))Df(x) = \frac{dg(f(x))}{dx}(\nabla f(x))^T \in \mathbb{R}^{1\times n}$$

y la transpuesta de $Dh(x)$ es: $\nabla h(x) = (Dh(x))^T = \frac{dg(f(x))}{dx} \nabla f(x) \in \mathbb{R}^{n\times 1}$.
```

```{admonition} Ejemplo
$f(x) = \cos(x), g(x)=\sin(x)$ por lo que $h(x) = \sin(\cos(x))$. Calcular la derivada de $h$.
```

In [27]:
x = sympy.Symbol("x")

In [28]:
f = sympy.cos(x)

In [29]:
f

cos(x)

In [30]:
g = sympy.sin(x)

In [31]:
g

sin(x)

In [32]:
h = g.subs(x, f)

In [33]:
h

sin(cos(x))

In [34]:
h.diff(x)

-sin(x)*cos(cos(x))

**Otras formas para calcular la derivada de la composición $h$:**

In [35]:
g = sympy.sin

In [36]:
h = g(f)

In [37]:
h.diff(x)

-sin(x)*cos(cos(x))

In [38]:
h = sympy.sin(f)

In [39]:
h.diff(x)

-sin(x)*cos(cos(x))

```{admonition} Ejemplo
$f(x) = x_1 + \frac{1}{x_2}, g(x) = e^x$ por lo que $h(x) = e^{x_1 + \frac{1}{x_2}}$. Calcular la derivada de $h$.
```

In [40]:
x1, x2 = sympy.symbols("x1, x2")

In [41]:
f = x1 + 1/x2

In [42]:
f

x1 + 1/x2

In [43]:
g = sympy.exp

In [44]:
g

exp

In [45]:
h = g(f)

In [46]:
h

exp(x1 + 1/x2)

```{margin}
**Derivada parcial de $f$ respecto a $x_1$.**
```

In [47]:
h.diff(x1)

exp(x1 + 1/x2)

```{margin}
**Derivada parcial de $f$ respecto a $x_2$.**
```

In [48]:
h.diff(x2)

-exp(x1 + 1/x2)/x2**2

**Otra forma para calcular el gradiente de $h$ (derivada de $h$) es utilizando [how-to-get-the-gradient-and-hessian-sympy](https://stackoverflow.com/questions/39558515/how-to-get-the-gradient-and-hessian-sympy):**

In [49]:
from sympy.tensor.array import derive_by_array

In [50]:
derive_by_array(h, (x1, x2))

[exp(x1 + 1/x2), -exp(x1 + 1/x2)/x2**2]

### Caso particular:

Si:

* $f: \mathbb{R}^n \rightarrow \mathbb{R}^m$, $f(x) = Ax +b$ con $A \in \mathbb{R}^{m\times n},b \in \mathbb{R}^m$,

* $g:\mathbb{R}^m \rightarrow \mathbb{R}^p$, 

* $h(z)=g(f(z))=g(Az+b)$ con $\text{dom}h=\{x \in \mathbb{R}^n | Ax+b \in \text{dom}g\}$ entonces 

la derivada de $h$ en $x$ es: $Dh(x) = Dg(f(x))Df(x)=Dg(Ax+b)A$

```{margin}
El escalar $\hat{g}^{(1)}(0) = (\nabla g(x))^Tv$ se llama **derivada direccional** de $g$ en $x$ en la dirección $v$.
```

```{admonition} Observación
:class: tip
Si $f:\mathbb{R}^n \rightarrow \mathbb{R}^m, g:\mathbb{R}^m \rightarrow \mathbb{R}, h:\mathbb{R}^n \rightarrow \mathbb{R}$ entonces: $\nabla h(x) = (Dh(x))^T = A^T(Dg(Ax+b))^T=A^T\nabla g(Ax+b) \in \mathbb{R}^{n\times 1}$.
```{admonition} Ejemplo
Sean $g:\mathbb{R}^n \rightarrow \mathbb{R}, x, v \in \mathbb{R}^n$ y $\hat{g}: \mathbb{R} \rightarrow \mathbb{R}$ con $\hat{g}(t)=g(x+tv)$, esto es, $\hat{g}$ es $g$ **restringida a la línea** $\{x+tv |t \in \mathbb{R} \}$, entonces:

$$(\nabla \hat{g}(t))^T = D\hat{g}(t) = \hat{g}^{(1)}(t) = (\nabla g(x+tv))^Tv.$$
```
```

```{admonition} Ejemplo

Sea $h: \mathbb{R}^n \rightarrow \mathbb{R}, h(x) = \log \left( \displaystyle \sum_{i=1}^m \exp(a_i^Tx+b_i) \right)$ con $x\in \mathbb{R}^n,a_i\in \mathbb{R}^n \forall i=1,\dots,m$ y $b_i \in \mathbb{R} \forall i=1,\dots,m$ entonces: $Dh(x)=Dg(f(x))Df(x)$ con $g: \mathbb{R}^m \rightarrow \mathbb{R}$ dada por $g(y)=\log \left( \displaystyle \sum_{i=1}^m \exp(y_i) \right ), f(x)=Ax+b, A=(a_i)_{i=1}^m \in \mathbb{R}^{m\times n}, b \in \mathbb{R}^m.$ y $h(x)=g(f(x))$. 
```

Entonces:

$$
Dh(x)=\left(\displaystyle \sum_{i=1}^m\exp(a_i^Tx+b_i) \right)^{-1}\left[ \begin{array}{c}
    \exp(a_1^Tx+b_1)\\
    \vdots\\
    \exp(a_m^Tx+b_m)
    \end{array}
    \right]A=(1^Tz)^{-1}z^TA
$$

donde: $z=\left[ \begin{array}{c}
    \exp(a_1^Tx+b_1)\\
    \vdots\\
    \exp(a_m^Tx+b_m)
    \end{array}\right]$. Por lo tanto $\nabla h(x) = (1^Tz)^{-1}A^Tz$.

## Segunda derivada de una función $f: \mathbb{R}^n \rightarrow \mathbb{R}$.

Sea $f:\mathbb{R}^n \rightarrow \mathbb{R}$. La segunda derivada o matriz **Hessiana** de $f$ en $x \in \text{intdom}f$ existe si $f$ es dos veces diferenciable en $x$, se denota $\nabla^2f(x)$ y sus componentes son segundas derivadas parciales:

$$\nabla^2f(x) = \left[\begin{array}{cccc}
\frac{\partial^2f(x)}{\partial x_1^2} &\frac{\partial^2f(x)}{\partial x_2 \partial x_1}&\dots&\frac{\partial^2f(x)}{\partial x_n \partial x_1}\\
\frac{\partial^2f(x)}{\partial x_1 \partial x_2} &\frac{\partial^2f(x)}{\partial x_2^2} &\dots&\frac{\partial^2f(x)}{\partial x_n \partial x_2}\\
\vdots &\vdots& \ddots&\vdots\\
\frac{\partial^2f(x)}{\partial x_1 \partial x_n} &\frac{\partial^2f(x)}{\partial x_2 \partial x_n}&\dots&\frac{\partial^2f(x)}{\partial x_n^2} \\
\end{array}
\right]
$$

**Comentarios:**

* La aproximación de segundo orden a $f$ en $x$ (o también para puntos cercanos a $x$) es la función cuadrática:

$$f(x) + (\nabla f(x))^T(z-x)+\frac{1}{2}(z-x)^T\nabla^2f(x)(z-x)$$

la cual es una función de $z$.

* Se cumple:

$$\displaystyle \lim_{z \rightarrow x, z \neq x} \frac{|f(z)-[f(x)+(\nabla f(x))^T(z-x)+\frac{1}{2}(z-x)^T\nabla^2f(x)(z-x)]|}{||z-x||_2} = 0, z \in \text{dom}f$$

* Se tiene lo siguiente:

    * $\nabla f$ es una función llamada gradient mapping (o simplemente gradiente).

    * $\nabla f:\mathbb{R}^n \rightarrow \mathbb{R}^n$ tiene regla de correspondencia $\nabla f(x)$ (evaluar en $x$ la matriz $(Df(\cdot))^T$).

    * Si $f$ es dos veces diferenciable entonces: $D\nabla f(x) = \nabla^2f(x)$.
    
    * **Importante:** si $f \in \mathcal{C}^2(\text{dom}f)$ entonces la Hessiana es una matriz simétrica.

### Regla de la cadena para la segunda derivada

**Caso 1:** Sean $f:\mathbb{R}^n \rightarrow \mathbb{R}, g:\mathbb{R} \rightarrow \mathbb{R}, h:\mathbb{R}^n \rightarrow \mathbb{R}$ con  $h(x) = g(f(x))$, entonces: $\nabla^2h(x) = D\nabla h(x)$ y $\nabla h(x)=(Dh(x))^T = (Dg(f(x))Df(x))^T=\frac{dg(x)}{dx}\nabla f(x)$ por lo que:

$\nabla^2 h(x) = D\nabla h(x)=D \left(\frac{dg(f(x))}{dx}\nabla f(x)\right) = \frac{dg(f(x))}{dx}\nabla^2 f(x)+\left(\frac{d^2g(f(x))}{dx}\nabla f(x) (\nabla f(x))^T \right)^T=\frac{dg(f(x))}{dx}\nabla^2 f(x)+\frac{d^2g(f(x))}{dx} \nabla f(x) (\nabla f(x))^T$


**Caso 2:** Sean $f:\mathbb{R}^n \rightarrow \mathbb{R}^m, f(x) = Ax+b, A \in \mathbb{R}^{m\times n}, b \in \mathbb{R}^m$ y $h(x) = g(f(x))$ con $g:\mathbb{R}^m \rightarrow \mathbb{R}^p, h:\mathbb{R}^n \rightarrow \mathbb{R}^p$, entonces:



$$\nabla h(x) = (Dh(x))^T = (Dg(f(x))Df(x))^T = (Dg(Ax+b)A)^T = A^TDg(Ax+b).$$

**Obs:** si $p=1$ se tiene: $\nabla^2h(x) = D \nabla h(x) = A^T \nabla^2g(Ax+b)A.$

**Ejemplos:**

* Sea $\hat{g}(t) = g(x+tv)$ con $x,v \in \mathbb{R}^n, t \in \mathbb{R}$ y $g:\mathbb{R}^n \rightarrow \mathbb{R}$, $\hat{g}: \mathbb{R} \rightarrow \mathbb{R}$ es decir, $\hat{g}$ es $g$ restringida a la línea $\{x+tv|t \in \mathbb{R}\}$, entonces:

$$(\nabla \hat{g}(t))^T = D\hat{g}(t) = \frac{\hat{g}(t)}{dt} = Dg(x+tv)v = \nabla g(x+tv)^Tv$$

y:

$$\nabla^2 \hat{g}(t) = \frac{d^2\hat{g}(t)}{dt^2} = D\nabla g(x+tv)v=v^T\nabla^2g(x+tv)v.$$

* Sean $h: \mathbb{R}^n \rightarrow \mathbb{R}, h(x) = \log \left( \displaystyle \sum_{i=1}^m \exp(a_i^Tx+b_i)\right)$ con $x \in \mathbb{R}^n, a_i \in \mathbb{R}^n \forall i=1,\dots,m$ y $b_i \in \mathbb{R} \forall i=1,\dots,m$. Entonces: $Dh(x)=Dg(f(x))Df(x)$ con $g(y) = \log \left( \displaystyle \sum_{i=1}^m \exp(y_i)\right ), f(x) = Ax+b, A=(a_i)_{i=1}^m \in \mathbb{R}^{m\times n}, b \in \mathbb{R}^m, h(x) = g(f(x))$.

Como se desarrolló anteriormente $\nabla h(x) = (1^Tz)^{-1}A^Tz$ con $z=\left[ \begin{array}{c}
    \exp(a_1^Tx+b_1)\\
    \vdots\\
    \exp(a_m^Tx+b_m)
    \end{array}\right]$.

$$\therefore \nabla^2 h(x) = D\nabla h(x) = A^T \nabla^2g(Ax+b)A\text{ (por caso }2)$$ 

donde: $\nabla^2g(y)=(1^Ty)^{-1}\text{diag}(y)-(1^Ty)^{-2}yy^T $ (por caso $1$ tomando $\log:\mathbb{R} \rightarrow \mathbb{R}, \sum \exp: \mathbb{R}^m \rightarrow \mathbb{R}$)
    
    

$$\therefore  \nabla^2 h(x) = A^T\left[(1^Tz)^{-1}\text{diag}(z)-(1^Tz)^{-2}zz^T \right]A$$

con $\text{diag}(c)$ matriz diagonal con elementos en su diagonal iguales a las entradas del vector $c$.

**Referencias**

1. S. P. Boyd, L. Vandenberghe, Convex Optimization. Cambridge University Press, 2004.
