# L1 vs. L2
## 머신러닝 문제: L1, L2 정규화에 대해 설명해주세요.

### Norm
- Norm: 벡터의 크기/길이를 측정하는 방법/함수, 두 벡터 사이의 거리를 측정하는 방법

$$\lVert \mathbf x \rVert_p := (\sum ^n_{i=1} \left\vert x_i \right\vert^p)^{\frac{1}{p}}$$

p: Norm의 차수, p=1이면 L1 Norm, p=2이면 L2 Norm    
n: 해당 벡터의 원소 수

Norm 계산의 결과로 나오는 수치는 원점에서 벡터 좌표까지의 거리이며 Magnitude라고도 부른다.

#### L1 Norm 

$$d_1(p, q) = \lVert \mathbf {p- q}\rVert_1 = \sum^n_{i=1}\left\vert p_i-q_1\right\vert$$ 

$(\mathbf p, \mathbf q)$: 벡터, $(\mathbf p = (p_1, ..., p_n)$, $(\mathbf q = (q_1, ..., q_n)$

- 예: 벡터 p=(1, 1, -1), q=(2, 3, 0)이면 p, q의 L1 Norm=$\left\vert 1-2\right\vert + \left\vert 1-3\right\vert + \left\vert -1-0\right\vert=4$

- Mahattan Distance, 혹은 Taxicab geometry라고 불리기도 한다. 

#### L2 Norm

$$\lVert \mathbf x \rVert_2 := \sqrt{{x_1}^2+...+{x_n}^2}$$

위의 식은 Euclidean Norm의 수식이다. L2 Norm은 벡터 p, q의 유클리디안 거리(직선 거리)이다. 그러나 $\lVert \mathbf x \rVert$처럼 차수가 표시되어 있지 않으면 일반적으로 L2 Norm을 의미하며, 고등수학에서의 거리 정의 역시 일반적으로 L2 Norm이다. 즉 벡터(점) 사이의 직선거리이다. 

#### L1 Norm vs. L2 Norm
![Screenshot%20from%202021-05-09%2021-36-08.png](attachment:Screenshot%20from%202021-05-09%2021-36-08.png)

검정색 두 점 사이의 L1 Norm은 빨간색, 파란색, 노란색 선, L2 Norm은 초록색 선으로 표현된다. __L1 Norm은 같은 길이의 여러 가지 경로__ 를 가지지만 __L2 Norm은 유일하면서도 가장 짧은 경로__를 가진다. 따라서 L2 Norm의 계산이 효율적이다.  

![Screenshot%20from%202021-05-09%2021-43-15.png](attachment:Screenshot%20from%202021-05-09%2021-43-15.png)

L1 norm은 (1,0), (-1,0), (0,1), (0,-1)에서 미분가능하지 않다. 

### Loss
- $y_i$: 실제값, $f(x_i)$: 예측치
- 오차: 실제값과 예측치 사이의 차이

#### L1 Loss

$$L=\sum^n_{i=1}\left\vert {y_i-f(x_i)}\right\vert$$

- __오차의 절대값의 합__ 을 최소화하는 방향으로 Loss를 구한다.
- LAD(Least Absolute Deviations), LAE(Least Absolute Errors), LAV(Least Absolute Value), LAR(Least Absolute Residual), Sum of absolute deviations라고 불린다.

#### L2 Loss

$$L=\sum^n_{i=1}(y_i-f(x_i))^2$$

- 오차의 제곱의 합
- LSE(Least Squares Error)라고 불린다. 

#### L1 Loss vs. L2 Loss
1. Robustness: L1 > L2    
Robustness는 outlier(이상치)가 등장헀을 때 loss function이 얼마나 영향을 받는지를 뜻하는 용어이다. L2 Loss는 오차의 제곱을 더하므로 Outlier에 더 큰 영향을 받고, L1 Loss는 L2 Loss 보다 Outlier에 대해 더 Robust(덜 민감/둔감)하다. 따라서 Outlier가 적당히 무시되기 원하면 L1 Loss를 사용하고, outlier에 신경을 써야 하면 L2 Loss를 사용한다. 

2. Stability: L1 < L2    
Stability는 모델이 비슷한 데이터에 대해 얼마나 일관적인 예측을 할 수 있는가를 알려준다. 

![Screenshot%20from%202021-05-09%2022-25-53.png](attachment:Screenshot%20from%202021-05-09%2022-25-53.png)

위 그래프는 실제 데이터(검은 점)와 Outlier point인 주황색 점이 움직임에 따라서 어떻게 그 예측 모델이 달라지는지 실제로 실험을 해 본 결과이다. 초록색 그래프는 L1 loss function, 빨간색 그래프는 L2 loss function이다.

Outlier point가 검은 점들과 비교적 비슷한 위치에 위치하면  L1 loss 그래프는 outlier가 없는 그래프와 큰 차이가 있지만, L2 loss 그래프는 outlier가 없는 그래프와 큰 차이가 없다. 그러나 outlier point가 검은 점들과 멀어질수록 L1 Loss 그래프와 L2 Loss 그래프는 outlier가 없는 그래프와 점점 멀어지지만(차이가 커짐) L1 loss 그래프가 더 크게 변화함을 볼 수 있다. 따라서 L1이 L2보다 Unstable함을 알 수 있다.

>위의 그림을 애니메이션으로 보면 Robustness도 관찰할 수 있다. Outlier point가 검은 점들이 구성하는 보이지 않는 선을 기준으로 왼쪽에서 오른쪽으로 이동할 때, L2 error line이 먼저 반응함을 알 수 있다. 즉 L1보다 L2가 먼저 반응하므로 L1이 robust하다.
(https://www.stand-firm-peter.me/2018/09/24/l1l2/ 에서 애니메이션을 볼 수 있음)

3. The number of solutions       

L2 Loss function은 언제나 1개의 답을 가지나 L1 Loss fucntion은 여러 개의 답을 가질 수도 있다. 

>딥러닝 모델의 과적합을 막는 방법    
> - Batch Normalization
> - Weight Regularization
> - Dropout
> - 모델이 훈련하는 데이터의 양을 늘린다. (시간과 비용이 많이 든다.)
> - Data Augmentation
> - 모델의 feature 수를 줄인다. (model selection 알고리즘 이용 또는 종속 변수와 상관이 낮은 feature를 직접 제거한다.)
> - Ensemble Model
> - Dropconnect
> - Early stopping
> - Weight Decay
> - Multi-Task learning

### Regularization 정규화, 일반화
딥러닝 모델의 과적합을 막는 방법 중 하나이다. 모델의 오버피팅을 줄이고, 일반화시키는 방법이다. 모델이 학습되면서 모델의 Weight matrix가 좋은 방향으로 업데이트되는데, Weight 중 일부가 학습 중 과도하게 커진다면 몇 개의 input에 극단적으로 의존하는 상황이 발생한다. 이 경우 모델의 일반화 성능은 감소한다. (모델의 weight matrix size가 너무 작을 때 이런 일이 발생할 수 있다. 따라서 NN을 설계할 때 충분히 sparse하도록 구축해야 한다.) 이처럼 특정 weight가 과도하게 커지지 않도록 하는 것이 Regularization이다. 
 
모델을 구성하는 계수(coefficients)들이 학습 데이터에 overfitting되지 않도록 Loss function에 정규화 요소(regularization term)을 더해주어 penalty를 부여한다. 이 정규화요소가 커질수록 아래의 식은 일반화(Generalization)된다.

#### L1 Regularization

$$cost(W,b) = \frac{1}{m} \sum^m_i L(\hat y_i, y_i) + \lambda \frac {1}{2} \left\vert {w}\right\vert$$

- 기존의 cost function에 가중치의 크기(절대값)가 포함되면서 가중치가 너무 크지 않은 방향으로 학습되도록 한다. 
- 편미분을 하면 w값은 상수가 되고, 그 부호에 따라 +, - 가 결정된다. 가중치가 너무 작으면 상수값에 의해 가중치가 0이 된다.
- Sparse feature에 의존한 모델에 L1 Regularization을 사용하면, 불필요한 Feature에 대응하는 Weight를 정확히 0으로 만들어버려, Feature selection의 효과를 낸다.

#### L2 Regularization

$$cost(W,b) = \frac{1}{m} \sum^m_i L(\hat y_i, y_i) + \lambda \frac {1}{2} \left\vert {w}\right\vert^2$$

- 기존의 cost function에 가중치의 제곱이 포함되면서 가중치가 너무 크지 않은 방향으로 학습되도록 한다. (weight decay)
- 편미분을 통해 backpropagation을 할 때 cost 뿐 아니라 가중치도 줄어드는 방식으로 학습한다. 특정 가중치가 비이상적으로 커지는 상황을 방지하고 Weight decay가 가능해진다. 즉 전체적으로 가중치를 작게 하여 과적합을 방지한다. 
- 불필요한 Feature(이상치)에 대응하는 Weight를 0에 가깝게 만들 뿐, 0으로 만들지는 않는다. 이런 특성 때문에 L2 정규화는 선형 모델의 일반화 능력을 항상 개선시킨다. 

정규화 요소로 절대값을 사용하면 L1 정규화, 제곱합을 사용하면 L2 정규화이다. 여기서 $\lambda$는 얼마나 비중을 줄 것인지 정하는 계수이고, 0에 가까울수록 정규화의 효과는 사라진다. 적절한 $\lambda$의 값은 k-fold cross validation 등을 사용해 찾을 수 있다. 

Regularization의 의미에서 가중치 w가 작아지도록 학습한다는 것은 local noise에 영향을 덜 받도록 한다는 것이며 이는 outlier에 영향을 덜 받도록 하겠다는 의미이다. 

![Screenshot%20from%202021-05-09%2022-55-05.png](attachment:Screenshot%20from%202021-05-09%2022-55-05.png)

위의 그림에서 actual function이 target function이라고 할 때 model은 overfitting 되었다. (모델의 loss function을 너무 작게 해서 특정 가중치가 너무 큰 값을 가진다.)

![Screenshot%20from%202021-05-09%2022-55-11.png](attachment:Screenshot%20from%202021-05-09%2022-55-11.png)

만약 loss function에 Regularization term을 주면 특정 가중치가 과도하게 커지지 않게 하여 모델을 위의 그래프와 같이 일반화시킬 수 있다. 

참고로 L1 Regularization을 사용하는 Regression model을 Lasso(Least Absolute Shrinkage and Selection Operator)라고 부르고, L2 Regularization을 사용하는 Regression Model을 Ridge Regression이라고 부른다. 

### Sparsity 
두 벡터 a = (0.25, 0.25, 0.25, 0.25), b = (-0.5, 0.5, 0.0, 0.0)가 존재한다고 하자. 이 두 벡터의 각각의 L1 Norm, L2 Norm을 구하면 아래와 같다.

- L1 Norm    
  - $\lVert \mathbf a \rVert_1= \left\vert 0.25\right\vert + \left\vert 0.25\right\vert+ \left\vert 0.25\right\vert+ \left\vert 0.25\right\vert = 1$
  - $\lVert \mathbf b \rVert_1= \left\vert (-0.5)\right\vert + \left\vert 0.5\right\vert+ \left\vert 0.0\right\vert+ \left\vert 0.0\right\vert = 1$
  - L1 Norm은 모두 같은 숫자 1이 나온다.
  
- L2 Norm
  - $\lVert \mathbf a \rVert_2 := \sqrt{{0.25}^2+{0.25}^2+{0.25}^2+{0.25}^2}=0.5$
  - $\lVert \mathbf b \rVert_2 := \sqrt{{(-0.5)}^2+{0.5}^2+{0}^2+{0}^2}=0.707$
  
L1과 L2의 차이점은 L2가 유일한 경로를 가지기 때문에 생긴다. 따라서 L2는 각 벡터에 대해 유일한 값이 나오지만 L1은 경우에 따라 특정 feature(벡터의 요소) 없이도 같은 값을 낼 수 있다.(벡터 b에서 세 번째, 네 번째 요소가 없지만 벡터 a와 같은 값을 가진다는 의미인 것 같다.) 

![Screenshot%20from%202021-05-09%2021-36-08.png](attachment:Screenshot%20from%202021-05-09%2021-36-08.png)

즉 L1 Norm은 파란색 선 대신 빨간색 선을 사용해 특정 feature를 0으로 처리할 수 있다. 따라서 L1 Norm은 feature selection이 가능하고, 이 특징이 L1 Regularization에도 적용된다. 이런 특징 때문에 L1은 Sparse model(coding)에 적합하며, convex optimization에 유용하게 사용된다.



이런 특징 때문에 L1 Norm은 feature selection에 사용 가능하고, 특정 feature를 0으로 처리할 수 있어서 해당 계수(coefficient)들이 sparse한 형태를 가질 수 있게 된다. 만약 $\beta=[{\beta}_0, {\beta}_1]$이라는 벡터가 있고, L1, L2 Norm의 값이 모두 1이라면 L1과 L2에서 가능한 영역은 아래와 같이 표시 가능하다. 


![Screenshot%20from%202021-05-09%2022-01-36.png](attachment:Screenshot%20from%202021-05-09%2022-01-36.png)

- 위의 그림에서 L2의 원을 Unit Circle이라고 한다. 
- L1 Norm의 경우기 $\beta$의 요소 중 0이 들어갈 수 있는 가능성이 더 높다. 
- L1 정규화는 상수값을 빼주므로 작은 가중치가 거의 0으로 수렴되어 몇 개의 중요한 가중치만 남는다. (sparse feature에 의존한 모델에 L1 Regularization을 사용하면 불필요한 feature에 대응하는 가중치를 0으로 만들어 feature selection 효과를 낸다.)
- 이런 특징이 L1의 Sparcity(Feature Selection)이라는 개념을 가질 수 있게 해 준다. Feature가 너무 많은 데이터셋을 다룰 때 (Feature selection은 의미 있는 몇 개의 값만 사용함) 유용하게 사용되며, L1 Norm은 이 특징 때문에 convex optimization에서 유용하게 사용된다. 
- 하지만 L1 Norm은 미분 불가능한 점이 있기 때문에 gradient-based Learning을 할 때는 주의해야 한다. 

![Screenshot%20from%202021-05-09%2023-28-54.png](attachment:Screenshot%20from%202021-05-09%2023-28-54.png)

|제약식|L1 Norm|L2 Norm|L1 + L2 Norm(elasticnet)|
|:--:|:--:|:--:|:--:|
|변수 선택|가능|불가능|가능|
|solution|여러 개의 해(명시해 없음)|유일한 해(closed form)|여러 개의 해(명시해 없음)|
|장점|변수간 상관관계가 높으면 성능이 떨어진다.|변수간 상관관계가 높아도 좋은 성능|변수간 상관관계를 반영한 정규화|
|특징|비중요 변수를 우선적으로 줄임|크기가 큰 변수를 우선적으로 줄임|상관관계가 큰 변수를 동시에 선택 또는 배제|

- 참고   
http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/    
https://seongkyun.github.io/study/2019/04/18/l1_l2/   
https://junklee.tistory.com/29    
https://www.stand-firm-peter.me/2018/09/24/l1l2/
https://huidea.tistory.com/154   
https://light-tree.tistory.com/125

