# Kovarianz

In [None]:
%matplotlib inline
from IPython.display import display, Markdown
import matplotlib.pyplot as plt
import numpy as np

def plot(X, fig, ax):
    ax.scatter(X[:,0], X[:,1], alpha=0.5)
    ax.set_xlabel(r'$x_1$', fontsize=14)
    ax.set_ylabel(r'$x_2$', fontsize=14)
    ax.axis('equal');
    
def draw_vector(v0, v1, ax, c):
    arrowprops=dict(arrowstyle='|-|',
                    linewidth=2,
                    shrinkA=0, shrinkB=0,
                    color=c
                   )
    ax.annotate('', v1, v0, arrowprops=arrowprops)


Wir erzeugen uns zunächst ein paar zufällige Punkte und schauen uns Mittelwert und Ranges an.

In [None]:
m = 10

rng = np.random.default_rng(50)
X = rng.standard_normal(size=(m, 2))

mean_vec = np.mean(X, axis=0)
min_vec = np.min(X, axis=0)
max_vec = np.max(X, axis=0)

display(Markdown(r'Mittelwert: $(\bar{x}_1, \bar{x}_2)=($' + f'{mean_vec[0]:.3f}, {mean_vec[1]:.3f}' + r'$)$'))
display(Markdown(r'Range: $x_1=[$' + f'{min_vec[0]:.3f}, {max_vec[0]:.3f}' + r'$]$'))
display(Markdown(r'Range: $x_2=[$' + f'{min_vec[1]:.3f}, {max_vec[1]:.3f}' + r'$]$'))

In [None]:
fig, ax = plt.subplots(1, figsize=(10,10))
plot(X, fig, ax);

ax.scatter(mean_vec[0], mean_vec[1], s=100, c='violet', label='Mean')
ax.legend()

ax.axvline(mean_vec[0], linestyle='dashed', c='grey')
ax.axhline(mean_vec[1], linestyle='dashed', c='grey' )
ax.text(0.8,1.5, 'Quadrant I', fontsize=18, c='grey')
ax.text(0.8,1.3, r'$x_1^{(i)} - \bar{x}_1 > 0$', fontsize=14, c='grey')
ax.text(0.8,1.1, r'$x_2^{(i)} - \bar{x}_2 > 0$', fontsize=14, c='grey')
ax.text(0.8,-2, 'Quadrant II', fontsize=18, c='grey')
ax.text(0.8,-2.2, r'$x_1^{(i)} - \bar{x}_1 > 0$', fontsize=14, c='grey')
ax.text(0.8,-2.4, r'$x_2^{(i)} - \bar{x}_2 < 0$', fontsize=14, c='grey')
ax.text(-2.5,-2, 'Quadrant III', fontsize=18, c='grey')
ax.text(-2.5,-2.2, r'$x_1^{(i)} - \bar{x}_1 < 0$', fontsize=14, c='grey')
ax.text(-2.5,-2.4, r'$x_2^{(i)} - \bar{x}_2 < 0$', fontsize=14, c='grey')
ax.text(-2.5,1.5, 'Quadrant IV', fontsize=18, c='grey');
ax.text(-2.5,1.3, r'$x_1^{(i)} - \bar{x}_1 < 0$', fontsize=14, c='grey')
ax.text(-2.5,1.1, r'$x_2^{(i)} - \bar{x}_2 > 0$', fontsize=14, c='grey')
draw_vector([min_vec[0], -2.73], [max_vec[0], -2.73], ax, c='r')
draw_vector([-2.9, min_vec[1]], [-2.9, max_vec[1]], ax, c='b')

ax.set_title('''
Scatterplot

Der Mittelwert unterteilt die Ebene in Quadranten. 
Quadrant I und III haben positiven Einfluss auf die Kovarianz, II und IV negativen.

An den Axen ist die Range des jeweiligen Features abgetragen.
''');

Wir wollen uns im folgenden die Kovarianz anschauen, diese ist definiert durch

$$\sigma_{j,k} = \frac{1}{m-1}\sum\limits_{i=1}^m{(x_j^{(i)} - \bar{x}_j)(x_k^{(i)} - \bar{x}_k)}$$

In [None]:
cov_mat = (X - mean_vec).T.dot((X - mean_vec)) / (X.shape[0]-1)
display(Markdown('Kovarianz Matrix: \n\n' + r'$Cov(x_1, x_2)= \begin{bmatrix} \sigma_{1,1}\;\sigma_{1,2} \\ \sigma_{2,1}\;\sigma_{2,2} \end{bmatrix}= \begin{bmatrix}' + '{:.3f}'.format(cov_mat[0,0]) + '\;' + '{:.3f}'.format(cov_mat[0,1]) + r' \\ ' + '{:.3f}'.format(cov_mat[1,0]) + '\,' + '{:.3f}'.format(cov_mat[1,1]) + ' \end{bmatrix}$' % cov_mat))

**Beachte:** $Cov(x,x)=Var(x)$ und $Cov(x,y)=Cov(y,x)$

D.h. die Kovarianzmatrix gibt uns einen Eindruck von der Streuung der Daten in den jeweiligen Achsen-Richtungen und der Stärke der Korrelation zwischen den Daten.