# MUM 2023-24 Pochodne funkcji wielu zmiennych

## Uwaga

Wszędzie zakładamy, że rozważane funkcje są różniczkowalne.

## Materiały uzupełniające

Bardzo dobre wizualizacje:
https://www.khanacademy.org/math/multivariable-calculus/multivariable-derivatives

## Pochodna cząstkowa

Niech

$$f: \mathbb{R}^M \to \mathbb{R}^N$$

Funkcję $f$ możemy zapisać jako

$$ f = (f_1, \ldots, f_N) $$

Taki zapis oznacza, że, z definicji, dla dowolnego $n\in\{1, \ldots, N\}$ funkcja $f_n:\mathbb{R}^M \to \mathbb{R}$ opisuje $n$-tą współrzędną funkcji $f$.

Niech $\mathbf{x}\in\mathbb{R}^M$ oznacza argument funkcji $f$. Dla dowolnych $n\in\{1, \ldots, N\}, m\in\{1, \ldots, M\}$ pochodną cząstkową $\dfrac{\partial f_n}{\partial x_m}$ liczymy w następujący sposób: bierzemy tylko $n$-tą współrzędną funkcji $f$, funkcję $f_n$, i traktujemy $x_m$ jako zmienną, a pozostałe współrzędne $\mathbf{x}$ jako stałe.

![pc1](../ml_figures/Pochodna_funkcji_wielu_zmiennych_pc1.png)

Pochodna cząstkowa jest __funkcją__, która prowadzi z $\mathbb{R}^M$ w $\mathbb{R}$ - oznacza to, że jej wartość zależy od całego $\mathbf{x}$, a nie tylko od $x_m$. Jeśli więc mówimy o pochodnej cząstkowej jako o konkretnej liczbie rzeczywistej, to trzeba napisać $\dfrac{\partial f_n}{\partial x_m}(\mathbf{x})$.

Wartość pochodnej cząstkowej mówi nam o lokalnym zachowaniu funkcji. Niech $\epsilon=(\epsilon_1,\ldots,\epsilon_M)$ będzie "bardzo krótkim" wektorem. Niech $proj_m$ oznacza projekcję na $m$-tą współrzędną, tzn. $proj_m(\epsilon)=(0, \ldots,\epsilon_m,\ldots,0)$ też jest wektorem (w przeciwieństwie do $\epsilon_m$, które jest liczbą). Wtedy

$$ f_n(\mathbf{x}+proj_m(\epsilon)) = f_n(\mathbf{x}) + \dfrac{\partial f_n}{\partial x_m}(\mathbf{x})\cdot \epsilon_m + o(\epsilon_m)$$

$$ f_n(\mathbf{x}+proj_m(\epsilon)) - f_n(\mathbf{x}) \simeq \dfrac{\partial f_n}{\partial x_m}(\mathbf{x})\cdot \epsilon_m$$

czyli mała zmiana inputu powoduje w przybliżeniu $\dfrac{\partial f_n}{\partial x_m}(\mathbf{x})$ razy większą zmianę outputu. Przybliżenie jest dobre w tym sensie, że błąd __względny__ dąży do zera, jeśli $\epsilon_m$ dąży do zera.

Jeśli $M = N = 1$, to pochodna cząstkowa odpowiada zwykłej pochodnej.

#### Materiały uzupełniające

https://www.khanacademy.org/math/multivariable-calculus/multivariable-derivatives/modal/v/partial-derivatives-and-graphs


## Jakobian

Zastanówmy się teraz, jak zmieni się wartość funkcji $f$, jeśli dodamy do inputu pełny wektor $\epsilon$. Każdą ze współrzędnych $f_n$ możemy rozważyć niezależnie. Natomiast jeśli ustalimy $f_n$, to trzeba rozważyć __łącznie__ wpływ wszystkich zmian $m$-tej współrzędnej $\epsilon$.

![jakobian1](../ml_figures/Pochodna_funkcji_wielu_zmiennych_jakobian1.png)

W takim razie spodziewamy się, że

$$ f_n(\mathbf{x}+\epsilon) - f_n(\mathbf{x}) \simeq \dfrac{\partial f_n}{\partial x_1}(\mathbf{x})\cdot \epsilon_1 + \ldots + \dfrac{\partial f_n}{\partial x_M}(\mathbf{x})\cdot \epsilon_M = \sum_{m=1}^M \dfrac{\partial f_n}{\partial x_m}(\mathbf{x})\cdot \epsilon_m$$

"Oszustwo" polega na tym, że wszędzie bierzemy pochodną w punkcie $\mathbf{x}$, zamiast np. wziąć najpierw $\dfrac{\partial f_n}{\partial x_1}(\mathbf{x})$, ale potem już $\dfrac{\partial f_n}{\partial x_2}(\mathbf{x}+proj_1(\epsilon))$, bo w pierwszym kroku przesunęliśmy się o $proj_1(\epsilon)$. Na szczęście da się formalnie wykazać, że to przybliżenie jest poprawne (powinno być zrobione na analizie, nie będziemy tego powtarzać).

Aby zapisać teraz zmianę wszystkich współrzędnych funkcji $f$, wygodnie jest użyć macierzy zwanej __Jakobianem__:

$$\mathbf{J}_f(\mathbf{x}) = \begin{bmatrix}
    \dfrac{\partial f_1}{\partial x_1}(\mathbf{x}) & \dfrac{\partial f_1}{\partial x_2}(\mathbf{x}) & \ldots & \dfrac{\partial f_1}{\partial x_M}(\mathbf{x}) \\
    \dfrac{\partial f_2}{\partial x_1}(\mathbf{x}) & \dfrac{\partial f_2}{\partial x_2}(\mathbf{x}) & \ldots & \dfrac{\partial f_2}{\partial x_M}(\mathbf{x}) \\
    \vdots & \vdots & \ddots & \vdots \\
    \dfrac{\partial f_N}{\partial x_1}(\mathbf{x}) & \dfrac{\partial f_N}{\partial x_2}(\mathbf{x}) & \ldots & \dfrac{\partial f_N}{\partial x_M}(\mathbf{x}) \end{bmatrix}$$

Wygodnie, ponieważ (wektory traktujemy jako macierze jednokolumnowe):

$$\mathbf{J}_f(\mathbf{x}) \cdot \epsilon = (\sum_{m=1}^M \dfrac{\partial f_1}{\partial x_m}(\mathbf{x})\cdot \epsilon_m, \ldots, \sum_{m=1}^M \dfrac{\partial f_N}{\partial x_m}(\mathbf{x})\cdot \epsilon_m)$$

a więc dokładnie to, o co nam chodziło

$$ f(\mathbf{x}+\epsilon) - f(\mathbf{x}) \simeq \mathbf{J}_f(\mathbf{x}) \cdot \epsilon$$

W tym wzorze zmienną jest $\epsilon$, a $\mathbf{x}$ jest ustalony.

Macierz $\mathbf{J}_f(\mathbf{x})$ definiuje odwzorowanie liniowe, które, z dokładnością do stałej, jest najlepszym liniowym przybliżeniem funkcji $f$ w okolicy $\mathbf{x}$ - dlatego wymiary tej macierzy muszą się zgadzać z wymiarami dziedziny i przeciwdziedziny funkcji $f$. Należy pamiętać, że $\mathbf{J}_f$ również jest funkcją, która dla dowolnego wektora $\mathbf{x}$ zwraca macierz konkretnych liczb $\mathbf{J}_f(\mathbf{x})$ - dla różnych $\mathbf{x}$ oczywiście otrzymujemy różne lokalne przybliżenia, podobnie jak w wypadku zwykłej pochodnej.

#### Materiały uzupełniające

https://www.khanacademy.org/math/multivariable-calculus/multivariable-derivatives/modal/v/local-linearity-for-a-multivariable-function

## Gradient

W przypadku $f: \mathbb{R}^M \to \mathbb{R}$ pochodna jest macierzą o wymiarach $1 \times M$. Pochodną takiej funkcji oznacza się specjalnym symbolem $\nabla$. Interpretujemy tę macierz jako wektor i mówimy na niego __gradient__.

Napiszmy

$$ f(\mathbf{x}+\epsilon) - f(\mathbf{x}) \simeq \nabla f(\mathbf{x}) \cdot \epsilon = \sum_{m=1}^M f(\mathbf{x})_m \epsilon_m =\, <\nabla f(\mathbf{x}), \epsilon>$$

Wiemy, że $<\nabla f(\mathbf{x}), \epsilon>$ to iloczyn $\|\nabla f(\mathbf{x})\|$ oraz długości rzutu prostopadłego $\epsilon$ na $\nabla f(\mathbf{x})$. W takim razie jeśli rozważamy zbiór wektorów $\epsilon$ o stałej długości, to iloczyn ten jest największy dla $\epsilon$ równoległego do $\nabla f(\mathbf{x})$, najmniejszy dla $\epsilon$ antyrównoległego, a także jego wartość jest wprost proporcjonalna do $\|\nabla f(\mathbf{x})\|$.

W związku z tym:
* gradient wyznacza lokalnie kierunek najszybszego wzrostu funkcji $f$
* norma gradientu określa szybkość tego wzrostu

#### Materiały uzupełniające

https://www.khanacademy.org/math/multivariable-calculus/multivariable-derivatives/modal/v/why-the-gradient-is-the-direction-of-steepest-ascent


In [1]:
%matplotlib notebook
from src.pochodna_funkcji_wielu_zmiennych import draw_gradients
draw_gradients(n=43, scale=.02)

<IPython.core.display.Javascript object>

## Optymalizacja gradientowa

Jeśli $f: \mathbb{R}^M \to \mathbb{R}$ i naszym zadaniem jest znalezienie takiego $\mathbf{x}$, żeby zminimalizować lub zmaksymalizować wartość $f(\mathbf{x})$, to możemy zastosować następującą procedurę:

1. Wylosuj początkowe $\mathbf{x}$.
2. Powtórz wiele razy:
    1. Oblicz $\nabla f(\mathbf{x})$.
    2. Dobierz $\epsilon$ (jak? o tym za chwilę)
    3. $\mathbf{x} \leftarrow \mathbf{x} + \epsilon$.

#### Dobór $\epsilon$

Skoro $\nabla f(\mathbf{x})$ wyznacza kierunek najszybszego wzrostu funkcji $f$, to aby najefektywniej zwiększyć jej wartość należy wybrać $\epsilon$ wskazujący właśnie ten kierunek. W ogólnym przypadku jeśli pomiędzy $\nabla f(\mathbf{x})$ i $\epsilon$ jest kąt ostry, to spodziewamy się, że wartość $f$ ulegnie zwiększeniu. Jeśli natomiast kąt jest rozwarty, to wartość funkcji powinna się zmniejszyć, a najefektywniejsze zmniejszenie powinno spowodować dobranie $\epsilon$ wskazującego kierunek przeciwny do $\nabla f(\mathbf{x})$.

Niestety w praktyce pojawia się wiele problemów. Więcej na ten temat opowiemy w dziale _Optimizery_.

## Pochodna funkcji złożonej

Pamiętamy wzór na pochodną złożenia funkcji $f, g: \mathbb{R}\to\mathbb{R}$

$$[(f\circ g)(x)]' = f'(g(x))\cdot g'(x)$$

Rozważmy teraz przypadek wielowymiarowy. Niech
$$g: \mathbb{R}^K \to \mathbb{R}^M, \,\, f: \mathbb{R}^M \to \mathbb{R}^N$$
$$f\circ g: \mathbb{R}^K \to \mathbb{R}^N$$

Weźmy też dowolny wektor $\mathbf{x}\in\mathbb{R}^K$ i ustalmy pewne $k\in\{1,\ldots, K\}$ oraz $n\in\{1,\ldots, N\}$. $(f\circ g)_n$ oznacza, jak zwykle, $n$-tą współrzędną funkcji $f\circ g$.

![pfz1](../ml_figures/Pochodna_funkcji_wielu_zmiennych_pfz1.png)

Chcielibyśmy teraz policzyć pochodną cząstkową $\dfrac{\partial (f\circ g)_n}{\partial x_k}(\mathbf{x})$. Pytamy się więc, w jaki sposób mała zmiana $k$-tej współrzędnej inputu $\mathbf{x}$ wpłynie na $n$-tą współrzędną outputu funkcji $f\circ g$. Zróbmy to na raty:
* najpierw sprawdźmy, jak mała zmiana $k$-tej współrzędnej inputu $\mathbf{x}$ wpłynie na __każdą__ współrzędną $g(\mathbf{x})$
* potem potraktujmy $g(\mathbf{x})$ jako input do funkcji $f$ i zastanówmy się, jak te zmiany wpłyną __łącznie__ na $n$-tą współrzędną funkcji $f$

![pfz2](../ml_figures/Pochodna_funkcji_wielu_zmiennych_pfz2.png)

Wprowadżmy jeszcze jedno konieczne oznaczenie, mianowicie $\mathbf{y}:= g(\mathbf{x})$. Zapisując dwa powyższe kroki wzorami otrzymamy

$$\dfrac{\partial (f\circ g)_n}{\partial x_k}(\mathbf{x}) = \dfrac{\partial f_n}{\partial y_1}(\mathbf{y}) \cdot \dfrac{\partial g_1}{\partial x_k}(\mathbf{x}) + \ldots + \dfrac{\partial f_n}{\partial y_M}(\mathbf{y}) \cdot \dfrac{\partial g_M}{\partial x_k}(\mathbf{x}) = \sum_{m=1}^M \dfrac{\partial f_n}{\partial y_m}(\mathbf{y}) \cdot \dfrac{\partial g_m}{\partial x_k}(\mathbf{x})$$

A w takim razie korzystając z definicji mnożenia macierzy (zadanie na ćwiczeniach) mamy, analogicznie do przypadku jednowymiarowego, wzór:

$$\mathbf{J}_{f\circ g}(\mathbf{x}) = \mathbf{J}_{f}(g(\mathbf{x}))\cdot \mathbf{J}_{g}(\mathbf{x})$$

Taki wynik nie jest przypadkowy. Jeśli $\mathbf{J}_{g}(\mathbf{x})$ dobrze przybliża funkcję $g$, a $\mathbf{J}_{f}(g(\mathbf{x}))$ funkcję $f$, to nie powinno być zaskoczeniem, że dobrym przybliżeniem złożenia tych funkcji jest złożenie przybliżeń (przypominam - złożenie odwzorowań liniowych to mnożenie macierzy).