# Podsetnik: Linearna algebra 

### Vektorski prostor

Vektorski prostor $(V, +, \cdot)$ je algebarska struktura sa jednom binarnom operacijom, u oznaci $+$, i jednom spoljnom $K$-operacijom, u oznaci $\cdot$, nad skupom skalara $K$ za koju važi:
- zatvorenost u odnosu na sabiranje tj. ako $u,v \in V \text{tada je i } u+v \in V$
- zatvorenost u odnosu na množenje skalarom tj. ako $u \in V$ i $\alpha \in K$, tada $\alpha \cdot u \in V$

Neki primeri vektorskih prostora su: 
* prostor geometrijskih vektora
* prostor polinoma u odnosu na sabiranje i množenje skalarom
* prostor svih kvadratnih matrica u odnosu na sabiranje i množenje skalarom
* prostor svih uređenih parova $(x_1, x_2, \ldots, x_n)$ u odnosu na sabiranje i množenje skalarom. 

### Linearna zavisnost

Vektori $v_1,v_2,v_3,\ldots,v_n$ su **linearno zavisni** ako postoje skalari $\alpha_1, \alpha_2, \alpha_2, ..., \alpha_n$ od kojih je bar jedan različit od nule takvi da je $\alpha_1v_1 + \alpha_2v_2 + \ldots + \alpha_nv_n = 0$. 

Vektori $v_1, v_2, v_3, \ldots , v_n$ su **linearno nezavisni** ako iz $\alpha_1v_1 + \alpha_2v_2 + \ldots + \alpha_nv_n = 0$ sledi $\alpha_1 = \alpha_2 = \alpha_2 = \ldots = \alpha_n = 0$.

### Sopstveni vektori

Za matricu $A \in R^{n \times n}$, vektor $x \in R^{n}, x \neq 0$ je (desni) **sopstveni vektor** ukoliko važi $Ax=\lambda x$ za neko $\lambda \in R$. Vrednost $\lambda$ se naziva **sopstvena vrednost** matrice $A$ koja odgovara sopstvenom vektoru $x$.

Smisao sopstvenih vektora možemo objasniti grafički: to su vektori koji u transformaciji određenoj matricom $A$ ne menjaju svoj pravac; mogu se izdužiti, skratiti ili promeniti smer, ali uvek zadržavaju svoj pravac. Na slici ispod, ljubičasti i plavi vektor predstavljaju sopstvene vektore. <img src='./assets/eigenvectors.gif'> 

Sopstvene vrednosti i njima odgovarajući sopstveni vektori se mogu odrediti pomoću nula karakterističnog polinoma matrice $A$ tj. rešavanjem matrične jednačine $det(A-\lambda I)=0$

#### Primer. 

Za datu matricu
$A =\begin{bmatrix} 
2 & 1 \\
1 & 2
\end{bmatrix}$ sopstvene vektore možemo odrediti rešavajuci jednačinu:
<br> 

$ det (A-\lambda I) = \begin{vmatrix}
2-\lambda  & 1 \\
1 & 2-\lambda
\end{vmatrix} = (2-\lambda)^2 -1 = \lambda^2 - 4\lambda +3$ 

Rešenja ove kvadratne jednačine su $\lambda_1 = 1$ i $\lambda_2 = 3$.

Sopstvenoj vrednosti $\lambda_1 = 1$ odgovara sopstveni vektor $x_1 = \begin{bmatrix} 1 \\ -1 \end{bmatrix}$ dobijen rešavanjem sistema $\begin{bmatrix} 
1 & 1 \\
1 & 1
\end{bmatrix} \cdot \begin{bmatrix} v_1 \\ v_2 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \end{bmatrix} $.

Sopstvenoj vrednost $\lambda_2 = 3$ odgovara sopstveni vektor $x_2 = \begin{bmatrix} 1 \\ 1 \end{bmatrix}$ dobijen rešavanjem sistema $\begin{bmatrix} 
-1 & 1 \\
1 & -1
\end{bmatrix} \cdot \begin{bmatrix} v_1 \\ v_2 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \end{bmatrix} $.



U programskom jeziku Python sopstvene vrednosti i odgovarajuće (normirane) sopstvene vektore možemo dobiti korisćenjem funkcije `eig` paketa `linalg` biblioteke `numpy`. 

In [1]:
import numpy as np

In [2]:
A = np.array([[2, 1], [1, 2]])
A

array([[2, 1],
       [1, 2]])

In [3]:
values, vectors = np.linalg.eig(A)

In [4]:
print('Sopstvene vrednosti matrice A su: ', values)

Sopstvene vrednosti matrice A su:  [3. 1.]


In [5]:
print('Normirani sopstveni vektori matrice A su kolone rezultujuće matrice: ', vectors[:, 0], vectors[:, 1])

Normirani sopstveni vektori matrice A su kolone rezultujuće matrice:  [0.70710678 0.70710678] [-0.70710678  0.70710678]


Sopstveni vektori imaju mnoga zanimljiva matematička svojstva.

**Teorema.**  

Sopstveni vektori koji odgovaraju različitim sopstvenim vrednostima su linearno nezavisni. 

**Teorema.** 

Neka je $V_i$ skup svih sopstvenih vektora $x$ koji odgovaraju sopstvenoj vrednosti $\lambda_i$ tj. za koje važi $Ax=\lambda_ix$. Ovakav skup obrazuje sopstveni podprostor.

**Teorema.** 

Ako je zbir dimenzija podprostora koji odgovaraju sopstvenim vrednostima matrice $A$ jednak dimenziji matrice $A$, tada se $A$ može svesti na dijagonalnu matricu oblika 
$ D = \begin{bmatrix} 
\lambda_1 & & & & \\
& ... & & & \\
& & \lambda_2 & & \\
& & & ... &  \\
& & & & \lambda_n \\
\end{bmatrix}$ tj. važi $AX = DX$ gde je $X$ matrica svih sopstvenih vektora matrice $A$ (po kolonama).  

Iz prethodnog sledi da je $D = X^{-1}AX$ tj. da je $X$ matrica transformacija. 

Matrica $A$ je **ortogonalna** ako važi $AA^T = I$ tj. $A^{-1} = A^T$.

**Teorema.** 

Ako je $A$ realna simetrična matrica, matrica njenih sopstvenih vektora je ortogonalna. 

Sledećom Python funkcijom se može proveriti da li je matrica, do na određenu tačnost, simetrična.

In [6]:
def is_symmetric(A):
    return np.allclose(A, A.T)

In [7]:
A = np.array([
    [1, 2, 3],
    [2, 5, 10.0001],
    [3, 10, 4]
])

In [8]:
is_symmetric(A)

True

### Definitnost matrica

Za kvadratnu matricu $A \in R^{n \times n}$ kažemo da je **pozitivno semidefinitna** ako važi $x^TAx\geq0$ za sve $x \in R^n$.

#### Primer. 

Matrica $A =\begin{bmatrix} 
1 & 1 \\
1 & 1
\end{bmatrix}$ je pozitivno semidefinitna jer za proizvoljno $\begin{bmatrix} x_1 \\ x_2 \end{bmatrix}$ važi: 
$ \begin{bmatrix} x_1 x_2 \end{bmatrix} \cdot \begin{bmatrix} 
1 & 1 \\
1 & 1
\end{bmatrix} \cdot \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = (x_1 + x_2)^2 \geq 0$. 

Za kvadratnu matricu $A \in R^{n \times n}$ kažemo da je **pozitivno definitna** ako važi $x^TAx > 0$ za sve $x \in R^n$ tj. ako je $x^TAx=0$ tada je $x=0$.

#### Primer. 

Matrica $A =\begin{bmatrix} 
1 & 2 \\
-2 & 1
\end{bmatrix}$ je pozitivno definitna jer za proizvoljno $\begin{bmatrix} x_1 \\ x_2 \end{bmatrix}$ vazi: 
$ \begin{bmatrix} x_1 x_2 \end{bmatrix} \cdot \begin{bmatrix} 
1 & 2 \\
-2 & 1
\end{bmatrix} \cdot \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = x_1^2 + x_2^2 \geq 0$.

Važi $x_1^2 + x_2^2 = 0$ samo ako je $x_1$=$x_2$=0 tj. ako je $x$ nula vektor. 

Smisao definitnosti, takođe, možemo objasniti geometrijski: ako je matrica $M$ koja definiše preslikavanje pozitivno semidefinitna, novi smer polaznog vektora će se promeniti za najviše $\frac{\pi}{2}$.  
<img src='assets/positive_semidefinitness.png' style='width: 400px'>

Definitnost matrice se može proveriti na par načina.

**Teorema (Silvestrov kriterijum).** 

Matrica $Q$ je pozitivno definitna akko je determinanta svih kvadratnih podmatrica koje uključuju element $q_{11}$ pozitivna.  <img src='assets/sylvester_criterion.jpg' style='width: 300px'>

Možemo napisati i Python funkciju koja proverava da li matrica zadovoljava Silvestrov kriterijum.

In [9]:
def silvester(A):
    assert A.ndim == 2, 'Fatal Error: invalid dimension.'
    assert A.shape[0] == A.shape[1], 'Fatal Error: invalid shape.'
    
    n = A.shape[0]
    for i in range(1, n+1):
        tmp_A = A[:i, :i]
        if np.linalg.det(tmp_A) <= 0:
            return False
    return True

In [10]:
A = np.array([[1, 0, 0], [0, 3, 0], [0, 0, 5]])

In [11]:
A

array([[1, 0, 0],
       [0, 3, 0],
       [0, 0, 5]])

In [12]:
silvester(A)

True

Matrica A je **dijagonalno dominantna** ako važi $|a_{ii}| \geq \sum_{i \neq j}{|a_{ij}|}$ za sve $i$ tj. ako je apsolutna vrednost svakog elementa na glavnoj dijagonali veća od zbira preostalih elemenata vrste kojoj pripada.  

Sledi funkcija koja proverava da li je matrica dijagonalno dominantna.

In [13]:
def diagonal_dominance(A):
    assert A.ndim == 2, 'Fatal Error: invalid dimension.'
    assert A.shape[0] == A.shape[1], 'Fatal Error: invalid shape.'

    n = A.shape[0]
    for i in range(n):
        if 2*np.abs(A[i,i]) < np.sum(np.abs(A[i, :])):
            return False
        
    return True

In [14]:
A = np.array([
    [-4, 20, 1], 
    [1, 6, 2], 
    [1, -2, 5]
])

In [15]:
A

array([[-4, 20,  1],
       [ 1,  6,  2],
       [ 1, -2,  5]])

In [16]:
diagonal_dominance(A)

False

In [17]:
A = np.array([
    [4, -1, 1],
    [4, -8, 1],
    [-2, 1, 5]
])

In [18]:
diagonal_dominance(A)

True

**Teorema.** 

Ako je matrica $A$ dijagonalno dominantna i ako su dijagonalni elementi nenegativni, onda je $A$ pozitivno semidefinitna. 

**Teorema.** 

Kvadratna simetrična matrica je pozitivno definitna akko ima pozitivne sopstvene vrednosti. 

**Teorema (Coleski dekompozicija).** 

Kvadratna matrica je pozitivno definitna akko postoji gornje trougaona matrica L takva da je $A=LL^T$.

### Norma

Neka je $X \subset R^n$. **Norma** je svako preslikavanje $||\cdot||: X \to R^+$ za koje važi: 

1) $||x|| = 0$ akko $x=0$

2) $||\lambda x|| = |\lambda|||x||$, $\lambda \in R$

3) $||x+y|| \leq ||x||+||y||$


Intuitivno, normu povezujemo sa intenzitetom tj. dužinom vektora.

#### Primer: $l_p$ norme  

$||x||_p = \sqrt[p]{\sum_{i=1}^{n}{|x_i|^p}}$, $1\leq p < +\infty$

$||x||_{\infty} = max(|x_1|, ..., |x_n|)$


$l_1$ norma (taxicab, Menhetn norma): $||x||_1 = \sum_{i=1}^{n}{|x_i|}$

$l_2$ norma: $||x||_2 = \sqrt{\sum_{i=1}^{n}{x_i^2}}$

**Teorema o ekvivalentnosti p-normi:** 

Za svake dve p-norme $||\cdot||_a$ i $||\cdot||_b$ postoje konstante $0<c_1<c_2$ takve da važi $c_1||x||_a \leq ||x||_b \leq c_2||x||_a$.

Ova teorema ukazuje da ako ostvarimo konvergenciju u jednoj p-normi, onda imamo konvergenciju i u drugim p-normama. 

Vektor $ x \in X$ je **normiran** ako vazi $||x||=1$. 

**Normiranjem** nazivamo korak $\frac{x}{||x||}$ kojim se dobija normirani vektor.

**Primer.**  Skupovi vektora jedinične norme iz $R^2$ . 

<img src='./assets/vector_norms.svg'>

Norme pronalaze primene u zadacima regularizacije. Regularizacija je vid popravljanja loše uslovljenih problema.

Za računanje normi se može koristiti funkcija `norm` paketa `linalg` biblioteke `numpy`. 

Na primer, $l_2$ norma vektora $v$ sa koordinatama (4, 1, -2, 2) se može dobiti na sledeći način:

In [19]:
v = np.array([4, 1, -2, 2])

In [20]:
v_norm = np.linalg.norm(v)

In [21]:
v_norm

5.0

Normirani vektor vektora $v$ se može dobiti deljenjem vektora $v$ i izračunate $v_{norm}$ vrednosti.

In [22]:
v = v/v_norm

In [23]:
v

array([ 0.8,  0.2, -0.4,  0.4])

### Skalarni proizvod 

Neka je: 
* $X \subset R^n$
* $<>: X \times X \rightarrow R^{+}$
* $\alpha \in R$ 
* $+$ operacija sabiranja
* $\cdot$ operacija množenja skalarom


Ako važi: 
* $<a, b> = <b, a>$
* $<a, b+c> = <a, b> + <a, c> $
* $<a, \alpha b> = \alpha <a, b>$
* $<a, a> \ge 0$
* $<a, a> = 0$ akko $a=0$

preslikavanje $<>$ nazivamo **skalarni proizvod**.

Ugao $\gamma$ između vektora $a$ i $b$ je u vezi sa skalarnim proizvodom: $<a, b> = ||a||\cdot||b||\cdot cos(\gamma)$

Ako je $||a||=||b||=1$ tada je $<a, b> = cos(\gamma)$

Vežbe radi, možemo izračunati ugao između vektora $v_1=(1, 3, 0.5, 2)$ i $v_2=(0.5, 2, 0.5, 1)$.

In [24]:
v1 = np.array([1, 3, 0.5, 2])
v2 = np.array([0.5, 2, 0.5, 1])

In [25]:
cos_gamma = np.sum(v1*v2)/(np.linalg.norm(v1)*np.linalg.norm(v2))

In [26]:
gamma = np.arccos(cos_gamma)

In [27]:
gamma

0.15266466319075117

Trigonometrijske funkcije podrazumevano operišu nad radijanima i izračunaju vrednosti u radijanima. Za konverziju vrednosti iz radijana u stepene može se koristiti funkcija `degrees`. Slično, za konverziju stepena u radijane može se koristiti funkcija `radians`.

In [28]:
np.degrees(gamma)

8.747040881616254

### Kerneli 

Neka su dati podskup $X \subset R^n$ i preslikavanje $K: X \times X \rightarrow R$. Ako je matrica čiji su elementi vrednosti $K(x_i, x_j)$ pozitivno semidefinitna za sve izbore $x_1, ..., x_k \in X$ i prozvoljnu dimenziju $k \in R^{+}$, preslikavanje $K$ zovemo **pozitivno semidefinitni kernel**.  

Intuitivno, kerneli predstavljaju meru sličnosti vektora zato što svakom kernelu odgovara neki skalarni proizvod $<>$ takav da važi $K(x, y) = <\phi(x), \phi(y)>$ gde $\phi$ predstavlja funkciju preslikavanja u neki novi prostor atributa. Često nam nije ni potrebna eksplicitna forma ovog preslikavanja.

#### Primeri poznatih kernela su: 
    
* linearni kernel: $K(x, y) = x^Ty +c$
* polinomijalni kernel: $K(x, y) = (\alpha x^T y + c)^d$
* Gausov kernel: $K(x, y) = e ^{-\frac{||x-y||^2}{2\sigma^2}}$


U mašinskom učenju je poznat takozvani kernel trik čija se jedna primena u zadatku klasifikacije (razdvajanju tačaka na crvene i plave) može videti na slici. 

<img src = 'assets/kernel_example.png'>

Funkcije koje računaju vrednost linearnog i Gausovog kernela su navedene u nastavku.

In [29]:
def linear_kernel(x, y, c):
    assert x.shape == y.shape, 'Fatal Error: invalid dimension'
    
    return sum(x.T * y) + c

In [30]:
def gaussian_kernel(x, y, sigma):
    assert x.shape == y.shape, 'Fatal Error: invalid dimension'
    
    return np.exp(-np.sum((x - y)**2) / (2 * (sigma**2)))

In [31]:
x = np.array([1, 2, 3])
y = np.array([4, 2, 2])

In [32]:
linear_kernel(x, y, 10)

24

In [33]:
gaussian_kernel(x, y, 0.5)

2.061153622438558e-09