In [82]:
import numpy as np
import matplotlib.pyplot as plt

# Aufgabe 2: Singulärwerte berechnen
<img src="assets/Bildschirmfoto 2022-05-10 um 14.43.03.png"/>

__Note:__
Jede $(I \times J)$ Matrix $A$ mit Rang $K$ kann gemäß der Singulärwertzerlegug wie folgt zerlegt werden: $$A = UDV' $$
wobei
- $D$ eine Diagonalmatrix ist mit Einträgen $\alpha_1 ≥ \alpha_2 ≥ ... ≥ \alpha_K > 0$ ist
- Die Matrizen $U$ und $V$ bestehen aus orthonormalen Vektoren $u_k$ und $v_k$ mit $k = 1, ..., K$. Ihre Spalten bilden jeweils eine (normierte) Basis eines $K$-dimensionalen Unterraums des $\mathbb{R}^I$ bzw. $\mathbb{R}^J$.
- Es gilt $U'U = V'V = I_K$

Definiert man $$F = UD \text{ und } G = DV'$$ so erhält man die Koordinaten der Zeilen (bzw. Spalten) von $A$ bezüglich der Basisvektoren in $V$ (bzw. $U$). Der Ausdruck ganz oben, lässt sich auch schreiben als: $$A=\sum_{k=1}^K \alpha_k u_k v_k' $$

In [83]:
# Gegebene Matrix:
A = np.array([
    [1, 2],
    [2, 1]
])

# Compute Single Value Decomposition:
## u = unitary/orthogonale matrix
## s = Vector with the singular values
## v = unitary/orthogonale matrix
u, s, v = np.linalg.svd(a = A)
# Invert sign (so its still correct)
u = (-1) * u
v = (-1) * v
# Put s as diagonal matrix
d = np.diag(s)
print(f"Orthogonale matrix u = \n{u}")
print(f"Diagonalmatrix der Singularwerte = \n{d}")
print(f"Orthogonale Matrix v = \n{v}")

print("Berechnung A = USV'")
print(u @ d @ v)

Orthogonale matrix u = 
[[ 0.70710678  0.70710678]
 [ 0.70710678 -0.70710678]]
Diagonalmatrix der Singularwerte = 
[[3. 0.]
 [0. 1.]]
Orthogonale Matrix v = 
[[ 0.70710678  0.70710678]
 [-0.70710678  0.70710678]]
Berechnung A = USV'
[[1. 2.]
 [2. 1.]]


U und V sind orthogonale Matrizen bestehend aus orthonormalen Vektoren $u_k$ bzw. $v_k$ mit $k=1, ..., K$.

In [84]:
# u und v sind orthogonale matrizen, d.h. u'u = 0 = uu')
res = np.around(u.T @ u, 0)
print(res)

# A = UDV'
A_RES = u @ d @ v.T
print(A_RES)

B = A @ A.T
print(B)
eigenvalue, eigenvector = np.linalg.eig(B)
print(eigenvalue)
print(eigenvector)

[[1. 0.]
 [0. 1.]]
[[ 2. -1.]
 [ 1. -2.]]
[[5 4]
 [4 5]]
[9. 1.]
[[ 0.70710678 -0.70710678]
 [ 0.70710678  0.70710678]]


## Approximiere A
__Theorem 5.1.__ Wähle ein $K^* < K$. Dann minimiert die Matrix:
$$ A_{[K^*]} := \sum_{k=1}^{K^*} \alpha_k u_k v_k' $$
den Ausdruck
$$ ||A - X||^2 = \sum_i \sum_j (a_{ij}-x_{ij})^2 $$
unter allen $(I \times J)$-Matrizen $X$ mit einem Rang von maximalen $K^*$.

$A_{[K^*]}$ ist also die bestmöglichste Approximation von $A$ mit $Rang(K^*)$.

In [85]:
# Wähle K* = 1
K_STAR = 2
A_K = 0
for i in range(0, K_STAR):
    A_K += s[i] + u[:, i] + v.T[:, i]
A_K

array([5.41421356, 5.41421356])

# (Singularvalue decomposition (SVD) example from Standford University, see [youtube](https://www.youtube.com/watch?v=P5mlg91as1c).)

In [86]:
B = np.array([
    [1, 1, 1, 0, 0],
    [3, 3, 3, 0, 0],
    [4, 4, 4, 0, 0],
    [5, 5, 5, 0, 0],
    [0, 2, 0, 4, 4],
    [0, 0, 0, 5, 5],
    [0, 1, 0, 2, 2]
])

# Do SVD and round to 4 decimal places
u, s, v = np.linalg.svd(B)
u = np.around(u, 4)
s = np.around(s, 4)
v = np.around(v, 4)

# B is User - Movie Rating Matrix. Row: User, Column: Movie, Entry: Rating
# Each column in Matrix U represent a "concept". Every entry in column u how much a given user corresponds to a specific "concept". U is "user-to-concept" similarity matrix.
# Singular values in s represent the "strenghts" of every "concept"
# Matrix V is a "movie-to-concept" similarity matrix

# SVD is used to learn "concepts" in our data. In the example from Stanford we identified the "Sci-Fi Concepts" and "Romance Concept", i.e. two movie categories. We can use that for recommendation.

# Aufgabe 2: Berechne die Totale Intertia einer gegebenen Häufigkeitstabelle
<img height="100" src="assets/Bildschirmfoto 2022-05-10 um 15.26.53.png" width="300"/>

__Standardised Matrix Z:__
$$ z_{ij} = \frac{p_{ij}-\hat{e}_{ij}}{\sqrt{\hat{e}_{ij}}} $$

with $p_{ij} = \frac{n_{ij}}{n}$ and $ \hat{e}_{ij} = p_{i\cdot} \cdot p_{\cdot j} $

In [102]:
# Given Data
N = 20
X = np.array([
    [1, 4, 5],
    [4, 4, 2]
])

# Transform X with absolut probability to relative probability, i.e. element wise division with N=20
X = X / N

# Compute relative feature occurence (relative Merkmalshäufigkeit)
p_1x = np.sum(X[0, :])
p_2x = np.sum(X[1, :])
p_x1 = np.sum(X[:, 0])
p_x2 = np.sum(X[:, 1])
p_x3 = np.sum(X[:, 2])

# Compute expected relative value matrix E
E = np.array([
    [p_1x * p_x1, p_1x * p_x2, p_x1 * p_x3],
    [p_2x * p_x1, p_2x * p_x2, p_2x * p_x3]
])

# Standardize X
Z = (X - E)/np.sqrt(E)

# Preview
Z

array([[-0.21213203,  0.        ,  0.54935027],
       [ 0.21213203,  0.        , -0.17928429]])

## Compute Total Inertia

In [104]:
# Compute Total Intertia T from standardised Matrix X, i.e. Z
T = np.sum(Z)
print(f"Total Inertia T = {T}")

Total Inertia T = 0.37006597417337683


# MISC

In [88]:
ONES = np.ones(shape=(4, 1))
ONES = ONES @ ONES.T
ONES = (1/4) * ONES
ONES

IDENTITY = np.identity(4)

Centering_Matrix_4 = IDENTITY - ONES
Centering_Matrix_4

array([[ 0.75, -0.25, -0.25, -0.25],
       [-0.25,  0.75, -0.25, -0.25],
       [-0.25, -0.25,  0.75, -0.25],
       [-0.25, -0.25, -0.25,  0.75]])