# Non-Linear Transformation

在 linear hypotheses 下，可以確保 $ d_{VC} $ 在控制下，使得 $ E_{in}(w) \approx E_{out}(w) $

但如果 D 不是線性可分 (如中心圓+, 外-) 導致樣本資料上的錯誤 $ E_{in} $ 總是很大，該如何？

How to **break the limit** of linear hypotheses?

例如 圓圈區分的資料，半徑為 $ \sqrt{0.6} $，可以用以下 hypotheses:

$$ h_{SEP}(x) = sign \big( 0.6 - x_1^2 - x_2^2 \big) $$

用另一種方式來看這個 hypothesis:

$$ h_{SEP}(x) = sign \big( 
\ \underbrace{0.6}_{\tilde{w_0}}   \  \underbrace{1}_{z_0} 
\ \underbrace{ - 1 }_{\tilde{w_1}} \  \underbrace{ x_1^2 }_{z_1}  
\ \underbrace{ - 1 }_{\tilde{w_2}} \  \underbrace{ x_2^2 }_{z_2} \big) = sign \big( \tilde{w}^T \ z \big) $$ 

將 h 從圓圈可分的資料 x,  Transform 成 線性可分的資料 z。  
{$ (x_n, y_n) $} : circular separable.  
{$ (z_n, y_n) $} : linear separable.

(non linear) **Feature Transform** $ \Phi, x \in \mathcal{X} \to z \in \mathcal{Z} $

圓圈可分的資料 x，可以轉化成線性可分的資料 z。  

反過來，線性可分的資料 z，是否也可轉換成圓圈可分？

### Linear Hypotheses in Z-Space

$ (z_0, z_1, z_2) = z = \Phi(x) = (1, x_1^2, x_2^2) $

$ h(x) = \tilde{h}(z) = sign \big( \tilde{w}^T \Phi(x) \big) = sign \big( \tilde{w_0} + \tilde{w_1} x_1^2 + \tilde{w_2} x_2^2 \big) $

```
Circle    裡是 + : w = ( 0.6, -1, -1)
Circle    裡是 - : w = (-0.6, +1, +1)
Ellipse   裡是 + : w = ( 0.6, -1, -2)
Hyperbola        : w = ( 0.6, -1, +2)
Constant       + : w = ( 0.6, +1, +2)
```

因此在 Z-Space 中的 lines, 可以對應成 X-Space 中的 圓，橢圓，雙曲... 等二次方程式。限於特殊的二次曲線:圓心在原點，因為沒有平移項。

### General Quadratic Hypothesis Set

Z-Space with $ \Phi_2(x) = \big( 1,\ x_1,\ x_2,\ x_1^2,\ x_1 x_2,\ x_2^2 \big) $

Z空間 中的 Perceptron 就對應到 X空間 中的 二次式假設

$ \mathcal{H}_{\Phi_2} = \Big\{ h(x): \ h(x) \ = \ \tilde{h}\big( \Phi_2(x) \big) \Big\} $, for some linear $ \tilde{h} $ on Z-Space.

如此可以實現所有可能的 二次曲線 作為假設的邊界，如: Circle, Ellipse, Rotated Ellipse, Hyperbola, Parabola,...

Good Quadratic Hypothesis g = 將資料轉換到 Z-Space 後，獲得的 Good Perceptron Hypothesis.

### Nonlinear Transform Steps

STEP 1. Transform original data $ \Big\{ ( x_n, y_n ) \Big\} $ to $ \Big\{ \big( z_n = \Phi(x_n), y_n \big) \Big\} $

STEP 2. Get a good perceptron $ \tilde{w} $ using $ \Big\{ ( z_n, y_n ) \Big\} $, with any linear classification algorithm A.

STEP 3. return $ g(x) = sign \big( \ \tilde{w}^T \ \Phi (x) \ \big) $

### Feature Transform

not just for polynomial,

using domain knowledge:  
raw (pixels) -->> concrete(intensity, symmetry)

### Computation and Storage Price

Q<sup>th</sup> order polynomial transform: 

$
\begin{align}
\Phi_Q (x) = \big( \ \ & 1, \\
& x_1, x_2, \cdots, x_d, \\
& x_1^2, x_1 x_2, \cdots, x_d^2, \\
& \vdots \\
& x_1^Q, x_1^{Q-1} x_2, \cdots, x_d^Q \ \ \big )
\end{align}
$

$ \underbrace{1}_{\tilde{w}_0} + \underbrace{\tilde{d}}_{\text{others}} $ dimensions

= # ways of $ \le $ Q-combination from d kinds with repetitions

= $ \binom{Q+d}{Q} = \binom{Q+d}{d} = O( Q^d ) $

= efforts needed for computing / storing $ z = \Phi_Q (x) $ and $ \tilde{w} $

If Q is large, it's difficult to compute/store.

### Model Complexity Price

$ 1 + \tilde{d} \text{ dimensions } = O(Q^d) $

number of free parameters $ \tilde{w}_i = \tilde{d} + 1 \approx d_{VC} \big( \mathcal{H}_{\Phi_Q} \big) $

$ d_{VC} \big( \mathcal{H}_{\Phi_Q} \big) \le \tilde{d} + 1 $, because:  
$ \tilde{d} + 2 $ inputs not shattered in Z  
$ \tilde{d} + 2 $ inputs not shattered in X

### Polynomial Transform Revisited

$
\begin{align}
\Phi_0(x) = \big( &            & 1                     & \big) \\
\Phi_1(x) = \big( & \Phi_0(x), & x_1, x_2, \cdots, x_d & \big) \\
\Phi_2(x) = \big( & \Phi_1(x), & x_1^2, x_1 x_2, \cdots, x_d^2 & \big) \\
\Phi_3(x) = \big( & \Phi_2(x), & x_1^3, x_1^2 x_2, \cdots, x_d^3 & \big) \\
\cdots \\
\Phi_Q(x) = \big( & \Phi_{Q-1}(x), & x_1^Q, x_1^{Q-1} x_2, \cdots, x_d^Q & \big) \\
\end{align}
$

$ \mathcal{H}_{\Phi_0} \subset \underbrace{\mathcal{H}_{\Phi_1}}_{H_1} \subset \cdots \subset \mathcal{H}_{\Phi_Q} $

H2 可以 shatter 的點比 H1 多..., 以此類推。

$ d_{VC}(H_0) \le d_{VC}(H_1) \le \cdots \le d_{VC}(H_Q) $

對每一個 Hypothesis Set 也去找到最小的 $ E_{in}(g_i) $

$ E_{in}(g_0) \ge E_{in}(g_1) \ge \cdots \ge E_{in}(g_Q) $

所以不應該一開始就用 高維度,高複雜度 的 $ H_1126 $，這樣雖然可以得到一個非常低的 $ E_{in} (g_{1126}) $，但是無法保證 $ E_{out}(g_{1126}) $ 也非常小。

我們的目的是找到 g 使得 $ E_{out}(g) $ 最小。

安全的作法是從 $ H_1 $ 開始，如果就可以獲得夠小的 $ E_{in} (g_{1}) $，就可以了。

如果 $ E_{in} (g_{1}) $ 不夠好，那麼再嘗試 $ H_2, H_3, \cdots $

![img](imgs/c12-ein-eout-dvc.png)