# ML/DL Mathematik – kompakter Spickzettel

KaTeX/LaTeX-Formeln für zentrale Konzepte mit kurzen Demos.


## Lineare Regression & MSE

Loss: $$\mathcal{L}(w) = rac{1}{N}\sum_{i=1}^N (y_i - \hat y_i)^2, \quad \hat y = Xw$$
Gradient: $$
abla_w \mathcal{L} = -rac{2}{N} X^	op (y - Xw)$$
Closed Form: $$w = (X^	op X)^{-1} X^	op y$$
Regularisierung (Ridge): $$\mathcal{L}_{ridge} = 	ext{MSE} + \lambda \|w\|_2^2$$


In [None]:
import numpy as np
np.random.seed(0)
X = np.random.randn(200, 1)
y = 3 * X[:,0] + 0.5 + 0.3 * np.random.randn(200)
Xb = np.c_[np.ones_like(X), X]

w = np.zeros(2)
alpha = 0.1
for _ in range(200):
    y_hat = Xb @ w
    grad = -(2/len(Xb)) * Xb.T @ (y - y_hat)
    w -= alpha * grad
w


## Logistische Regression & Cross-Entropy

Sigmoid: $$\sigma(z) = rac{1}{1 + e^{-z}}$$
Vorhersage: $$\hat y = \sigma(Xw)$$
Loss: $$\mathcal{L} = -rac{1}{N}\sum_i ig[y_i \log \hat y_i + (1-y_i) \log(1-\hat y_i)ig]$$
Gradient: $$
abla_w \mathcal{L} = rac{1}{N} X^	op (\hat y - y)$$


## Optimierung

- Gradient Descent: $$w_{t+1} = w_t - \eta 
abla_w \mathcal{L}$$
- Momentum: $$v_{t+1} = eta v_t + (1-eta) 
abla_w \mathcal{L}, \quad w_{t+1} = w_t - \eta v_{t+1}$$
- Adam (vereinfacht): $$m_t=eta_1 m_{t-1} + (1-eta_1)g_t, \ v_t=eta_2 v_{t-1} + (1-eta_2)g_t^2, \ w_{t+1} = w_t - \eta rac{m_t}{\sqrt{v_t}+\epsilon}$$


## Regularisierung

- L2 (Ridge): $$\lambda \|w\|_2^2$$
- L1 (Lasso): $$\lambda \|w\|_1$$
- Dropout: zufälliges Nullsetzen von Neuronen im Training.
- Early Stopping: Stop bei steigendem Val-Loss.


## Entscheidungsbäume & Ensemble-Signale

- Entropie: $$H = -\sum_k p_k \log p_k$$
- Gini: $$G = 1 - \sum_k p_k^2$$
- Informationsgewinn: $$IG = H(parent) - \sum_j rac{N_j}{N} H(j)$$
- Bagging/Boosting: viele schwache Modelle, gemittelt/gewichtet.


## Bias-Variance

Bias = systematischer Fehler (Unteranpassung), Varianz = Sensitivität auf Rauschen (Überanpassung). Regularisierung/mehr Daten/Ensembles balancieren Bias/Varianz.


## Deep Learning Basics

Dense-Forward: $$h = f(Wx + b)$$
Backprop (vereinfacht): $$rac{\partial L}{\partial W} = \delta x^T, \ \delta = rac{\partial L}{\partial h} \cdot f'(z)$$
Softmax: $$	ext{softmax}(z_i) = rac{e^{z_i}}{\sum_j e^{z_j}}$$
Init: Xavier/Glorot (tanh/sigmoid), He (ReLU/GELU). BatchNorm: $$\hat x = rac{x-\mu}{\sqrt{\sigma^2+\epsilon}}, \ y = \gamma \hat x + eta$$


## CNNs: Shapes

Output: $$	ext{out} = \left\lfloor rac{n + 2p - k}{s} ightfloor + 1$$ (Kernel k, Stride s, Padding p). Pooling analog. Transfer Learning: Pretrained Backbone + kleiner Head.


## Attention

$$	ext{Att}(Q,K,V) = 	ext{softmax}\left(rac{QK^	op}{\sqrt{d_k}}ight) V$$
Multi-Head: mehrere Projektionen von Q/K/V, concat, linear.


## Metriken

- Klassifikation: Accuracy, Precision/Recall/F1, ROC-AUC, PR-AUC, Confusion Matrix.
- Regression: MAE, MSE/RMSE, R².
- Calibration: ECE/Brier.
- Monitoring: Drift (Feature/Prediction), Latenz, Fehlerraten.


In [None]:
import numpy as np
z = np.array([2.0, 1.0, 0.1])
softmax = np.exp(z) / np.exp(z).sum()
softmax
