# 기계학습(Machine Learning) 알고리즘

## 정규화 회귀분석(Regularized Method, Penalized Method, Contrained Least Squares)

> **"선형회귀 계수(Weight)에 대한 제약 조건을 추가함으로써 모형이 과도하게 최적화되는 현상, 즉 과최적화를 막는 방법"**  
> **"과최적화는 계수 크기를 과도하게 증가하는 경향이 있기에, 정규화 방법에서의 제약 조건은 일반적으로 계수의 크기를 제한하는 방법"**  

**0) Standard Regression:** 

<center>
$\hat{\beta} = arg\underset{\hat{\beta}}{min} \Biggl[\displaystyle \sum_{j=1}^t \Bigl(y_j - \displaystyle \sum_{i=0}^k \beta_i x_{ij}\Bigr)^2\Biggr]$
</center>


**1) Ridge Regression:**  

<center>
$\hat{\beta} = arg\underset{\hat{\beta}}{min} \Biggl[\displaystyle \sum_{j=1}^t \Bigl(y_j - \displaystyle \sum_{i=0}^k \beta_i x_{ij}\Bigr)^2 + \lambda \displaystyle \sum_{i=0}^k \beta_i^2\Biggr] \\ where~\lambda~is~hyper~parameter(given~by~human)$
</center>


**2) Lasso(Least Absolute Shrinkage and Selection Operator) Regression:**  

<center>
$\hat{\beta} = arg\underset{\hat{\beta}}{min} \Biggl[\displaystyle \sum_{j=1}^t \Bigl(y_j - \displaystyle \sum_{i=0}^k \beta_i x_{ij}\Bigr)^2 + \lambda \displaystyle \sum_{i=0}^k \left|\beta_i \right|\Biggr] \\ where~\lambda~is~hyper~parameter(given~by~human)$
</center>

<center><img src='Image/Ridge_Lasso.png' width='600'></center> 


**3) Elastic Net:**  

<center>
$\hat{\beta} = arg\underset{\hat{\beta}}{min} \Biggl[\displaystyle \sum_{j=1}^t \Bigl(y_j - \displaystyle \sum_{i=0}^k \beta_i x_{ij}\Bigr)^2 + \lambda_1 \displaystyle \sum_{i=0}^k \left|\beta_i \right| + \lambda_2 \displaystyle \sum_{i=0}^k \beta_i^2\Biggr] \\ where~\lambda_1~and~\lambda_2~are~hyper~parameters(given~by~human)$
</center>


**4) Summary**  

> - **Standard:** 
    <center><img src='Image/Regression_Result_Standard.png' width='400'></center>  
> - **Ridge:** 
    - 알고리즘이 모든 변수들을 포함하려 하기 때문에 계수의 크기가 작아지고 모형의 복잡도가 줄어듬  
    - 모든 변수들을 포함하려 하므로 변수의 수가 많은 경우 효과가 좋지 않으나 과적합(Overfitting)을 방지하는데 효과적  
    - 다중공선성이 존재할 경우, 변수 간 상관관계에 따라 계수로 다중공선성이 분산되기에 효과가 높음  
    <center><img src='Image/Regression_Result_Ridge1.png' width='400'><img src='Image/Regression_Result_Ridge2.png' width='400'></center>   
> - **LASSO:**  
    - 알고리즘이 최소한의 변수를 포함하여 하기 때문의 나머지 변수들의 계수는 0이됨 (Feature Selection 기능)  
    - 변수선택 기능이 있기에 일반적으로 많이 사용되는 이점이 있지만 특정변수에 대한 계수가 커지는 단점 존재  
    - 다중공선성이 존재할 경우, 특정 변수만을 선택하는 방식이라 **Ridge**에 비해 다중공선성 문제에 효과가 낮음  
    <center><img src='Image/Regression_Result_Lasso1.png' width='400'><img src='Image/Regression_Result_Lasso2.png' width='400'></center>
> - **Elastic Net:**  
    - 큰 데이터셋에서 Ridge와 LASSO의 효과를 모두 반영하기에 효과가 좋음 (적은 데이터셋은 효과 낮음)  
    <center><img src='Image/Regression_Result_EN.png' width='400'></center>  
    
- **파라미터 세팅**  
    > [**1) "statsmodels"**](https://datascienceschool.net/view-notebook/83d5e4fff7d64cb2aecfd7e42e1ece5e/)
    - **Ridge:** 
    <center>
    $\lambda_1 = 0,~~0 < \lambda_2 < 1 \\ => L_1 = 0,~~alpha \ne 0$
    </center>
    - **LASSO:** 
    <center>
    $0 < \lambda_1 < 1,~~\lambda_2 = 0 \\ => L_1 = 1,~~alpha \ne 0$
    </center>
    - **Elastic Net:** 
    <center>
    $0 < (\lambda_1, \lambda_2) < 1 \\ => 0 < L_1 < 1,~~alpha \ne 0$
    </center>
    
    > **2) "sklearn"**
    - [**Ridge:**](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html)
    <center>
    $0 < (\lambda = alpha) < 1$
    </center>
    - [**LASSO:**](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html)
    <center>
    $0 < (\lambda = alpha) < 1$
    </center>
    - [**Elastic Net:**](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.ElasticNet.html)
    <center>
    $0 < (\lambda_1, \lambda_2) < 1 \\ => 0 < L_1 < 1,~~alpha \ne 0$
    </center>
    
~~~
# Ridge
fit = Ridge(alpha=0.5, fit_intercept=True, normalize=True, random_state=123).fit(X_train, Y_train)
pred_tr = fit.predict(X_train)
pred_te = fit.predict(X_test)

# LASSO
fit = Lasso(alpha=0.5, fit_intercept=True, normalize=True, random_state=123).fit(X_train, Y_train)
pred_tr = fit.predict(X_train)
pred_te = fit.predict(X_test)

# Elastic Net
fit = ElasticNet(alpha=0.01, l1_ratio=1, fit_intercept=True, normalize=True, random_state=123).fit(X_train, Y_train)
pred_tr = fit.predict(X_train)
pred_te = fit.predict(X_test)
~~~

## 회귀분석 알고리즘 정리

- **변수 세팅에 따른 분류:**

<center><img src='Image/Regression-Algorithms-Tree1.png' width='800'></center> 

- **문제 해결에 따른 분류:**

<center><img src='Image/Regression-Algorithms-Tree2.png' width='800'></center> 

## Bagging and Boosting 모델

- **Bagging과 Boosting 차이**

<center><img src='Image/Bagging_Boosting.png' width='700'></center> 

### Bagging 알고리즘

- **의사결정나무(Decision Tree):**  

<center><img src='Image/Bagging_DT.png' width='700'></center> 

- **렌덤포레스트(Random Forest):** 의사결정나무의 CLT버전

<center><img src='Image/Bagging_RF.jpg' width='700'></center> 

~~~
# DecisionTree
fit = DecisionTreeRegressor().fit(X_train, Y_train)
pred_tr = fit.predict(X_train)
pred_te = fit.predict(X_test)

# RandomForestRegressor
fit = RandomForestRegressor(n_estimators=100, random_state=123).fit(X_train, Y_train)
pred_tr = fit.predict(X_train)
pred_te = fit.predict(X_test)
~~~

### Boosting 알고리즘

- **Gradient Boosting Machine(GBM):** 정규화된 GBM이라고하며, GMB보다 10배 빠른 알고리즘  

<center><img src='Image/Boosting_GBM.jpg' width='600'></center> 

- **XGBoost(eXtreme Gradient Boosting):** 높은 예측력으로 많은 양의 데이터를 다룰 때 사용되는 부스팅 알고리즘  

<center><img src='Image/Boosting_XGBoost.png' width='600'></center> 

- **LightGBM:** 현존하는 부스팅 알고리즘 중 가장 빠르고 높은 예측력 제공

<center><img src='Image/Boosting_LightGBM.png' width='600'></center> 

| Algorithms | Specification | Others |
|------------|-------------------------------------------------------------------------------------------------------------------------------------------|-------------|
| AdaBoost | 다수결을 통한 정답분류 및 오답에 가중치 부여 | - |
| GBM | 손실함수(검증지표)의 Gradient로 오답에 가중치 부여 | - |
| XGBoost | GMB대비 성능향상<br/>시스템(CPU, Mem.) 자원 효율적 사용 | 2014년 공개 |
| LightGBM | XGBoost대비 성능향상 및 자원소모 최소화<br/>XGBoost가 처리하지 못하는 대용량 데이터 학습가능<br/>근사치분할(Approximates the Split)을 통한 성능향상 | 2016년 공개 |

~~~
# GradientBoostingRegression
fit = GradientBoostingRegressor(alpha=0.1, learning_rate=0.05, loss='huber', criterion='friedman_mse',
                                           n_estimators=1000, random_state=123).fit(X_train, Y_train)
pred_tr = fit.predict(X_train)
pred_te = fit.predict(X_test)

# XGBoost
fit = XGBRegressor(learning_rate=0.05, n_estimators=100, random_state=123).fit(X_train, Y_train)
pred_tr = fit.predict(X_train)
pred_te = fit.predict(X_test)

# LightGMB
fit = LGBMRegressor(learning_rate=0.05, n_estimators=100, random_state=123).fit(X_train, Y_train)
pred_tr = fit.predict(X_train)
pred_te = fit.predict(X_test)
~~~