# Matematicka analiza

## Izvod funkcije

Za funkciju $f: R \rightarrow R$ izvod funkcije $f^\prime$ u tacki $x$ definisemo sa 
$$f^\prime (x) =  lim_{\Delta x \rightarrow 0} \frac{f(x+\Delta x) - f(x)}{\Delta x}$$

Graficki, izvod funkcije u $f$ u tacki $x$ predstavlja koeficijent pravca tangente u tacki $x$. <img src='assets/derivate.png'>

#### Primer.

Izvod funkcije $f(x) = 2\cdot x^2 - x$ po definiciji mozemo izracunati na sledeci nacin: 
$$f^\prime (x) =  lim_{\Delta x \rightarrow 0} \frac{f(x+\Delta x) - f(x)}{\Delta x} = $$
$$lim_{\Delta x \rightarrow 0} \frac{ (2\cdot(x+\Delta x)^2 - (x + \Delta x)) - (2\cdot x^2 - x)}{\Delta x} = $$
$$lim_{\Delta x \rightarrow 0} \frac{ 4x\Delta x + 2\Delta^2 x  - \Delta x }{\Delta x} = $$
$$lim_{\Delta x \rightarrow 0} {( 4x + 2\Delta x  - 1)} = $$
$$ 4x - 1 $$

Izvodi nekih funkcija: 
* $(x^n)^\prime = n x^{n-1}$
* $sin(x)^\prime = cos(x)$
* $cos(x)^\prime = -sin(x)$
* $(e^x)^\prime = e^x$

Pravila koja vaze prilikom izracunavanja izvoda: 
* aditivnost: $(f+g)^\prime = f^\prime + g^\prime$
* proizvod: $(f \cdot g)^\prime = f^\prime \cdot g + f \cdot g^\prime$
* kompozicija: $ (g \circ f)^ \prime (x) = (g(f(x))^\prime = g^\prime(f(x))\cdot f^\prime(x)$

U kontekstu masinskog ucenja, izvodi su od sustinskog znacaja kod gradijentnih metoda optimizacije. Njih koristimo za obucavanje modela. 

## Parcijalni izvod funkcije

Za funkciju $f: R^n \rightarrow R$ vise promenljivih, uvodimo pojam parcijalnog izvoda $$\frac{\partial f(x_1, x_2, \ldots x_n)}{\partial {x_i}} = lim_{h \rightarrow 0} \frac{f(x_1, x_2, \ldots, x_{i-1}, x_i + h, x_{i+1},\ldots, x_n) - f(x_1, \ldots, x_{i-1}, x_i, x_{i+1}, \ldots, x_n)}{h}\$$

#### Primer.

Parcijalni izvodi funkcije $f(x_1, x_2) = e^{x_1} + x_2$ su 
$f^\prime_{x_1} = \frac{\partial f(x_1, x_2)}{\partial x_1} = e^{x_1}$
$f^\prime_{x_2} = \frac{\partial f(x_1, x_2)}{\partial x_2} = 1$


#### Primer.

Parcijalni izvodi funkcije $f(x_1, x_2) = e^{x_1^2 + sin(x_2)}$ su 
$\frac{\partial f(x_1, x_2)}{\partial x_1} = e^{x_1^2 + sin(x_2)} \cdot 2\cdot x_1$ i 
$\frac{\partial f(x_1, x_2)}{\partial x_2} = e^{x_1^2 + sin(x_2)} \cdot cos(x_2)$

##  Gradijent

Gradijent funkcije $f: R^n \rightarrow R$ je vektor svih parcijalnih izvoda $\nabla f(x_1, \ldots, x_n) = [\frac{\partial f}{\partial x_1}, \ldots, \frac{\partial f}{\partial x_n}] $. 

#### Primer:
Gradijent funkcije $f(x_1, x_2) = e^{x_1^2 + sin(x_2)}$ je $\nabla f = [2\cdot x_1 \cdot e^{x_1^2 + sin(x_2)},  cos(x_2) \cdot e^{x_1^2 + sin(x_2)} ] $ 

<img src='assets/gradient.png' style='width: 500px'>

## Hesijan

Hesijan funkcije $f: R^n \rightarrow R$ je matrica svih drugih parcijalnih izvoda funkcije $\nabla^2 f(x_1, \ldots, x_n) = [\frac{\partial^2 f}{\partial x_i \partial x_j}]$.

#### Primer. 

Za funkciju $f(x_1, x_2) = e^{x_1} + x_2$ izracunali smo parcijalne izvode prvog reda: $\frac{\partial f(x_1, x_2)}{\partial x_1} = e^{x_1}$ i $\frac{\partial f(x_1, x_2)}{\partial x_2} = 1$.

Parcijalni izvodi drugog reda su: 
$\frac{\partial^2 f(x_1, x_2)}{\partial x_1\partial x_1} = e^{x_1}$
$\frac{\partial^2 f(x_1, x_2)}{\partial x_1\partial x_2} = 0$
$\frac{\partial^ f(x_1, x_2)}{\partial x_2 \partial x_1} = 0$
$\frac{\partial^ f(x_1, x_2)}{\partial x_2 \partial x_2} = 0$

Stoga je Hesijan $\nabla^2 f = 
\begin{bmatrix} 
\frac{\partial^2 f(x_1, x_2)}{\partial x_1\partial x_1} & \frac{\partial^2 f(x_1, x_2)}{\partial x_1\partial x_2} \\
\frac{\partial^ f(x_1, x_2)}{\partial x_2 \partial x_1} & \frac{\partial^ f(x_1, x_2)}{\partial x_2 \partial x_2} 
\end{bmatrix}
=
\begin{bmatrix} 
e^{x_1} & 0 \\
0 & 0 
\end{bmatrix}$

## Konveksnost

Neka je X konveksan skup i neka je $f$ realna funkcija definisana na njemu. Za funkciju $f$ kazemo da je **konveksna** ukoliko za svako $\alpha \in [0, 1]$ i svako $x_1, x_2 \in X$ vazi $ f(\alpha x_1+ (1-\alpha) x_2) \le \alpha f(x_1) + (1-\alpha) f(x_2)$.

Realna funkcija $f$ je **konkavna** ukoliko je funkcija $-f$ konveksna.

Ukoliko u nejednakostima koje definisu konveksnosti i konkavnosti vazi stroga nejednakost, govorimo o **strogo konveksnim** i **strogo konkavnim** funkcijama.

#### Teorema.

Za funkciju $f: R^n \rightarrow R$ koja je diferencijabilna u tacki $x$ vazi f je konveksna akko postoji okolina tacke $x$ takva da za svako $y$ iz te okoline vazi $f(y) \ge f(x) + \nabla f(x)^T \cdot (y-x)$. 

Geometrijska interpretacija ove teoreme je:  grafik funkcije je iznad tangentne ravni.  

Dva puta diferencijabilna funkcija $f$ je strogo konveksna u nekoj tacki $x$ ukoliko je hesijan $\nabla^2f(x)$ pozitivno definitan u nekoj okoline te tacke. Takodje, hesijan funkcije koja je konveksna u nekoj tacki ima pozitivnu vrednost u nekoj okolini te tacke.

Konveksne funkcije karakterisu i sledeca svojstva:
- linearna kombinacija konveksnih funkcija je konveksna funkcija
- ako je $f$ konveksna funkcija onda je i $f(Ax+b)$ za proizvoljnu matricu $A$ i vektor $b$ odgovarajucih dimenzija konveksna funkcija
- $max \{f_1, \ldots, f_n\}$ je konveksna funkcija

### Jaka konveksnost

Funkcija $f$ koja je diferencijabilna u tacki $x$ je jako konveksna ukoliko za svako $y$ iz okoline tacke $x$ vazi: $f(y) \ge f(x) + \nabla f(x)^T \cdot (y-x) + \frac{m}{2}||x-y||$ za neko $m \gt 0$.

Funkcije koje imaju svojstvo jake konveksnosti se bolje ponasaju prilikom primene algoritama optimizacije baziranim na gradijentoj metodi.

#### Teorema. 

Dva puta diferencijabilna funkcija $f$ je jako konveksna u tacki $x$ ako je matrica $\nabla^2f(x) - mI$ pozitivno semidefinitna za neko $m \gt 0$.

Ukoliko u praksi treba proveriti da li je funkcija konveksna, obicno: 

1) proveravamo uslov definicije konveksnosti

2) proveravamo uslove koji vaze sa hesijan

3) utvrdjujemo da je funkcija dobijena operacijama koje cuvaju konveksnost

## Lokalni i globalni optimum

Za funkciju $f$ kazemo da ima **lokalni minimum** u tacki $x$ ukoliko u nekoj okolini te tacke uzima vrednosti vece od $f(x)$.

Za funkciju $f$ kazemo da ima **strogi lokalni minimum** u tacki $x$ ukoliko u nekoj okolini te tacke uzima vrednosti strogo vece od $f(x)$.

Analogno uvodimo pojmove **lokalni maksimum** i **strogi lokalni maksimum**. 

**Globalni minimum** funkcije je minimum svih lokalnih minimuma, a **globalni maksimum** maksimum svih lokalnih maksimuma.

<img src='assets/global_and_local_optima.png' style='width: 500px'>

Minimum i maksimum funkcije jednim imenom zovemo **optimumima** funkcije.

#### Teorema.

Ako je $x_0$ optimum funkcije $f$ i funkcije $f$ je diferencijabilna u tacki $x_0$, tada vazi $\nabla f(x_0)=0$. 

Pritom vazi i: 
- ako je $f(x_0)$ minimum, onda je funkcija konveksna u tacki $x_0$
- ako je $f(x_0)$ maksimum, onda je funckija konkavna u tacki $x_0$