## Liniowa analiza dyskryminacyjna Fishera


Idea - maksymalizacja stosunku wariancji:


$$ \frac{\sigma_b^2}{\sigma_w^2}$$


Niech $S_b$ będzie macierzą kowariancji (lub scatter matrix) pomiędzy klasami

$$S_b= \sum_c N_c \left(\mu_c-\mu\right) \left(\mu_c-\mu\right)^T$$

gdzie $\mu_c$ oznacza średni wektor cech w obrębie jednej klasy $c$ o liczebności $N_c$.


Niech $S_{wc}$ będzie macierzą kowariancji (lub scatter matrix) wewnątrz  klasy:

$$S_{wc}= \frac{1}{N_c-1}\sum_{i\in c} \left(x_i-\mu_c\right) \left(x_i-\mu_c\right)^T$$

gdzie $\mu_i$ oznacza średni wektor cech w obrębie jednej klasy o liczebności $N_c$.

Interesuje nas suma takich macierzy:

$$S_w= \sum_c S_{wc}  = \sum_c\frac{1}{N_c-1}\sum_{i\in c} \left(x_i-\mu_c\right) \left(x_i-\mu_c\right)^T$$


Analiza dyskryminacyjna Fishera poszukuje takich wektorów $\mathbf{w}$, które maksymalizują:

$$ J = \frac{\mathbf{w}^T S_b\mathbf{w}}{\mathbf{w}^T S_w\mathbf{w}}.$$

Ponieważ $J$ jest niezmiennicze względem skalowania $\mathbf{w}\to\alpha\mathbf{w}$, to możemy ograniczyć się do takich $\mathbf{w}$, że $\mathbf{w}^T S_w\mathbf{w}=1$. Wtedy mamy zagadnienie minimalizacyjne:

$$  \mathrm{min}_\mathbf{w}  -\mathbf{w}^T S_b\mathbf{w} \\
  \mathbf{w}^T S_w\mathbf{w} = 1 $$

Stosując mnożniki Lagrange'a mamy:

$$L = -\frac{1}{2} \mathbf{w}^T S_b\mathbf{w} + \frac{1}{2} \lambda \left(\mathbf{w}^T S_w\mathbf{w} - 1\right)  $$

$$
\frac{\partial L}{\partial \mathbf{w}} = -S_b\mathbf{w} + \lambda  S_w\mathbf{w} = 0
$$

czyli:

$$
 S_b\mathbf{w} = \lambda  S_w\mathbf{w} 
$$

Powyższe wyrażenie jest tzw. uogólnionym zagadnieniem własnym. Jeśli istnieje macierz odwrotna $S_w^{-1}$ to można je sprowadzić do:


$$
 S_w^{-1} S_b\mathbf{w} = \lambda  \mathbf{w} 
$$




## Fisher's Linear Discriminant Analysis


Idea - maximizing the ratio of variance:


$$ \frac{\sigma_b^2}{\sigma_w^2}$$


Let $S_b$ be the covariance matrix (or scatter matrix) between classes

$$S_b= \sum_c N_c \left(\mu_c-\mu\right) \left(\mu_c-\mu\right)^T$$

where $\mu_c$ is the average vector of traits within one $c$ class with the number $N_c$.


Let $S_{wc}$ be a covariance matrix (or scatter matrix) within the class:

$$S_{wc}= \frac{1}{N_c-1}\sum_{i\in c} \left(x_i-\mu_c\right) \left(x_i-\mu_c\right)^T$$

where $\mu_i$ is the average vector of traits within one class of $N_c$.

We are interested in the sum of such matrices:

$$S_w= \sum_c S_{wc}  = \sum_c\frac{1}{N_c-1}\sum_{i\in c} \left(x_i-\mu_c\right) \left(x_i-\mu_c\right)^T$$


Fisher's discriminant analysis looks for such $\mathbf{w}$ vectors that maximize:

$$ J = \frac{\mathbf{w}^T S_b\mathbf{w}}{\mathbf{w}^T S_w\mathbf{w}}.$$

Since $J$ is invariant with respect to $\mathbf{w}\to\alpha\mathbf{w}$ scaling, we can limit ourselves to such $\mathbf{w}$ that $\mathbf{w}^T S_w\mathbf{w}=1$. Then we have the minimizing issue:

$$  \mathrm{min}_\mathbf{w}  -\mathbf{w}^T S_b\mathbf{w} \\
  \mathbf{w}^T S_w\mathbf{w} = 1 $$

Using Lagrange multipliers we have:

$$L = -\frac{1}{2} \mathbf{w}^T S_b\mathbf{w} + \frac{1}{2} \lambda \left(\mathbf{w}^T S_w\mathbf{w} - 1\right)  $$

$$
\frac{\partial L}{\partial \mathbf{w}} = -S_b\mathbf{w} + \lambda  S_w\mathbf{w} = 0
$$

or:

$$
 S_b\mathbf{w} = \lambda  S_w\mathbf{w} 
$$

The above expression is called generalized own issue. If the inverse of $S_w^{-1}$ exists, it can be reduced to:


$$
 S_w^{-1} S_b\mathbf{w} = \lambda  \mathbf{w} 
$$

In [None]:
%matplotlib inline 
import matplotlib.pyplot as plt
import numpy as np 

In [None]:
from sklearn.datasets import load_wine
data = load_wine()
X = data.data
y = data.target

### Wyznacz liczbę klas 

### Determine the number of classes

In [None]:
classes = [2,3,4,5,6] # niepoprawne 

### BEGIN SOLUTION
classes = np.unique(y)
### END SOLUTION


In [None]:
assert len(classes) == 3

### Oblicz macierze kowariancji wewnątrzklasowe

Oblicz dla przykładów z każdej klasy macierz kowariancji (np. użyj `np.cov`) a nastęmnie ich sumę $S_w$.

$$S_w= \sum_c\underbrace{\frac{1}{N_c-1}\sum_{i\in c} \left(x_i-\mu_c\right) \left(x_i-\mu_c\right)^T}_{\mathrm{np.cov}}$$



### Calculate in-class covariance matrices

Calculate the covariance matrix for the examples from each class (e.g. use `e.g. cov`) and then their sum $S_w$.

$$S_w= \sum_c\underbrace{\frac{1}{N_c-1}\sum_{i\in c} \left(x_i-\mu_c\right) \left(x_i-\mu_c\right)^T}_{\mathrm{np.cov}}$$

In [None]:
Sw = None
### BEGIN SOLUTION
Sw = sum([ np.cov(X[y==c_].T) for c_ in classes] )
### END SOLUTION

In [None]:
assert Sw.shape == (13,13)
np.testing.assert_allclose(Sw[1,2],0.055372, rtol=1e-3)

### Oblicz macierz kowariancji pomiędzy klasami


Niech $S_b$ będzie macierzą kowariancji (lub  scatter matrix) pomiędzy klasami

$$S_b= \sum_c N_c \left(\mu_c-\mu\right) \left(\mu_c-\mu\right)^T$$

gdzie $\mu_c$ oznacza średni wektor cech w obrębie jednej klasy $c$ o liczebności $N_c$.



### Calculate the covariance matrix between classes


Let $S_b$ be the covariance matrix (or scatter matrix) between classes

$$S_b= \sum_c N_c \left(\mu_c-\mu\right) \left(\mu_c-\mu\right)^T$$

where $\mu_c$ is the average feature vector within one $c$ class with $N_c$ abundance.

In [None]:
#mu_c = [np.mean(X[y==c_], axis=0) for c_ in classes] 

In [None]:
mu = np.mean(X, axis=0)
mu

In [None]:
mu = np.mean(X, axis=0)
Sc = None 
### BEGIN SOLUTION
Sc = sum( 
    np.sum(y==c_) * np.outer(np.mean(X[y==c_],axis=0)-mu,
                             np.mean(X[y==c_],axis=0)-mu) 
    for c_ in classes)
 ### END SOLUTION                                     
                                                                      
                                      

In [None]:
np.testing.assert_allclose(Sc[3,1],117.92843036,rtol=1e-3)
assert Sc.shape == (13,13)


### Wartości własne

Oblicz wartości własne macierzy:  

$$
 S_w^{-1} S_b
$$

i odpowiadające im wektory własne.

1. Zastosuj ` np.linalg.eig`, oraz `np.linalg.inv`.
2. Otrzymane wartości mogą zawierać część urojoną, użyj np. `np.real_if_close` by wyzerować części urojone.


### Eigenvalues

Calculate the eigenvalues ​​of the matrix:

$$
 S_w^{-1} S_b
$$

and corresponding eigenvectors.

1. Use `e.g. linalg.eig` and` e.g. linalg.inv`.
2. The resulting values ​​may contain an imaginary part, use e.g. `realreal _if_ close` to reset the imaginary parts.

In [None]:
lam, v = None, None
### BEGIN SOLUTION

lam, v = np.linalg.eig(np.linalg.inv(Sw).dot(Sc))
                           
lam = np.real_if_close(lam)

### END SOLUTION                                     

lam

In [None]:
assert lam.shape ==(13,)
np.testing.assert_allclose(np.max(lam), 546, rtol=1e-2 )

### Operator rzutowania na podprzestrzeń


Posortuj wektory własne według malejących wartości własnych. 

Zbuduj operator $W$ będący macierzą $(2,13)$ składający się z dwóch wektorów własnych odpowiadających największym wartościom własnym.

### Subspace projection operator


Sort eigenvectors by decreasing eigenvalues.

Build the $W$ operator, which is the $(2,13)$ matrix, consisting of two eigenvectors corresponding to the largest eigenvalues.

In [None]:
idx = [1,2] # niepoprawne 
### BEGIN SOLUTION

idx = np.argsort(lam)[-2:][::-1]

### END SOLUTION                                     


In [None]:
np.testing.assert_allclose(lam[idx],[546.41649425, 243.23261924],rtol=1e-2)

In [None]:
W = None 

### BEGIN SOLUTION
W = np.real_if_close(v[:,idx]).astype(np.float)
W = W.T
### END SOLUTION                                     



In [None]:
np.testing.assert_allclose(np.abs(W[:,:3]),[[0.13138292,  0.05322257, 0.12283844],[0.24550374, 0.07699549, 0.67155662]], rtol=1e-2)

assert W.shape == (2,13)

### Wizualizacja wyniku

Operacja rzutowania może być w numpy zapisana jako `X.dot(W.T)`, więc w zredukowanej przestrzeni mamy:

### Result visualization

The cast operation can be written as `X.dot (W.T)` in numpy, so in a reduced space we have:

In [None]:
plt.scatter( X.dot(W.T)[:,0],X.dot(W.T)[:,1],c=y)

### Porównaj wynik z `sklearn`

### Compare the result with `sklearn`

In [None]:
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

lda = LinearDiscriminantAnalysis(n_components=2, solver='eigen')
X_r2 = lda.fit(X, y).transform(X)
plt.scatter( X_r2[:,0],X_r2[:,1],c=y)