# 지도학습  
선형회귀 (리니어 리그레이션)  
1. 선형회귀   

단순 선형회귀와 다중 선형회귀가 있지만 흔히 사용하는 것은 다중 선형회귀입니다.  
Feature가 한 개인 경우가 드물기 때문에 보통 feature가 두 개 이상인 다중 선형회귀를 만들게 됩니다.  

2. 비용함수  

데이터와 모델 간의 거리를 계산합니다.  
비용함수(cost function) 또는 손실함수, 목적함수라 부르기도 합니다.  
오차(error)를 계산합니다. (실제 값과 예측값의 차이)  
평균 제곱 오차를 최소화하는 파라미터를 찾습니다.  

3. 경사하강법  

오차를 찾아 나가는 방식  
비용함수의 기울기 절대값이 가장 작은 지점을 찾아서 오차가 작은 모델을 만듭니다.  

In [1]:
# 라이브러리 불러오기
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

In [2]:
# 데이터 생성
from sklearn.datasets import load_diabetes # 당뇨병 환자 데이터

def make_dataset():
    dataset = load_diabetes()
    df = pd.DataFrame(dataset.data, columns=dataset.feature_names)
    df['target'] = dataset.target
    X_train, X_test, y_train, y_test = train_test_split(
        df.drop('target', axis=1), df['target'], test_size=0.2, random_state=1004)
    return X_train, X_test, y_train, y_test

X_train, X_test, y_train, y_test = make_dataset()
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((353, 10), (89, 10), (353,), (89,))

In [3]:
# 선형 회귀
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)
pred = model.predict(X_test)
mean_squared_error(y_test, pred)

2707.6236708320466

In [4]:
# 선형 회귀
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)
pred = model.predict(X_test)
mean_squared_error(y_test, pred)

2707.6236708320466

## 릿지회귀  
오버피팅을 방지하기 위해 L2규제 (규제를 해!!)  
파라미터 알파(alpha)값으로 조정. (릿지회귀 계수)  
(리니어 모델 안에 있다.)  
from sklearn.linear_model import Ridge  


In [5]:
# 릿지 회귀
from sklearn.linear_model import Ridge
model = Ridge(alpha=1)
model.fit(X_train, y_train)
pred = model.predict(X_test)
mean_squared_error(y_test, pred)

3522.1129142470336

In [6]:
# 회귀 계수
coef = pd.DataFrame(data=model.coef_, index=X_train.columns, columns=['alpha1'])
coef

Unnamed: 0,alpha1
age,31.293287
sex,-71.44958
bmi,267.605153
bp,197.364745
s1,14.613106
s2,-13.88479
s3,-124.649955
s4,106.212968
s5,221.068052
s6,101.202651


 회귀 계수란 : 회귀분석에서 독립변수가 한 단위 변화함에 따라 종속변수에 미치는 영향력 크기를 회귀계수 (regression coefficient) 라 한다. 일반적으로 두 변수 사이에 상관관계가 거의 없을 때 회귀계수는 의미가 없게 된다.

## 라쏘회귀  
오버피팅 문제로 규제(regularization)를 적용한 모델  
규제 방식: L1 규제 (중요한 피처만 선택하는 특성)  
L2에 비해 회귀 계수를 급격히 감소시켜 중요하다고 생각하는 피처만 선택하고 나머지는 0으로 만듦   

릿지 회귀 : L2 규제 방식  
라쏘 회귀 : L1 규제 방식 (중요한 피처만 선택하는 특성)  

In [7]:
# 라쏘 회귀
from sklearn.linear_model import Lasso
model = Lasso(alpha=1)
model.fit(X_train, y_train)
pred = model.predict(X_test)
mean_squared_error(y_test, pred)

4179.146884323723

In [8]:
# 회귀 계수
coef = pd.DataFrame(data=model.coef_, index=X_train.columns, columns=['alpha1'])
coef

Unnamed: 0,alpha1
age,0.0
sex,-0.0
bmi,343.58837
bp,46.375388
s1,0.0
s2,0.0
s3,-0.0
s4,0.0
s5,245.16766
s6,0.0


In [9]:
# 라쏘 회귀 (alpha=2)
model = Lasso(alpha=2)
model.fit(X_train, y_train)
pred = model.predict(X_test)
mean_squared_error(y_test, pred)

6398.637179448666

In [10]:
# 회귀 계수 (alpha=2)
coef['alpha2'] = model.coef_
coef

Unnamed: 0,alpha1,alpha2
age,0.0,0.0
sex,-0.0,0.0
bmi,343.58837,42.963888
bp,46.375388,0.0
s1,0.0,0.0
s2,0.0,0.0
s3,-0.0,-0.0
s4,0.0,0.0
s5,245.16766,0.0
s6,0.0,0.0


In [11]:
# 라쏘 회귀 (alpha=0.05)
model = Lasso(alpha=0.05)
model.fit(X_train, y_train)
pred = model.predict(X_test)
mean_squared_error(y_test, pred)

2703.4553190372917

In [12]:
# 회귀 계수 (alpha=0.05)
coef['alpha0.05'] = model.coef_
coef

Unnamed: 0,alpha1,alpha2,alpha0.05
age,0.0,0.0,-0.0
sex,-0.0,0.0,-198.953867
bmi,343.58837,42.963888,487.192794
bp,46.375388,0.0,340.49959
s1,0.0,0.0,-95.57863
s2,0.0,0.0,-0.0
s3,-0.0,-0.0,-189.868586
s4,0.0,0.0,10.489156
s5,245.16766,0.0,457.331482
s6,0.0,0.0,39.292945


## 엘라스틱넷 회귀  
오버피팅 문제로 규제(regularization)를 적용한 모델  
규제 방식: L2 규제와 L1 규제 (중요한 피처만 선택하는 특성) 결합  
시간이 상대적으로 오래 걸림   

*규제방식 비교*  

릿지 회귀 : L2 규제 방식  
라쏘 회귀 : L1 규제 방식 (중요한 피처만 선택하는 특성)  
엘라스틱넷 회귀 : L2+L1 규제 결합 방식  

In [13]:
# 엘라스틱넷 회귀
from sklearn.linear_model import ElasticNet
model = ElasticNet(alpha=1)
model.fit(X_train, y_train)
pred = model.predict(X_test)
mean_squared_error(y_test, pred)

6539.270795233337

In [14]:
# 엘라스틱넷 회귀
from sklearn.linear_model import ElasticNet
model = ElasticNet(alpha=0.0001, l1_ratio=0.6)
model.fit(X_train, y_train)
pred = model.predict(X_test)
mean_squared_error(y_test, pred)

2675.6005929972935

## 회귀 방법으로서의 랜덤포레스트 &XGBoost  
1. 랜덤포레스트  


여러 개의 의사결정 트리로 구성  
앙상블 방법 중 배깅(bagging) 방식  
부트스트랩 샘플링 (데이터셋 중복 허용)  
최종 다수결 투표  

2. XGBoost  


트리 앙상블 중 성능이 좋은 알고리즘  
eXtreme Gradient Boosting을 줄여서 XGBoost라고 한다.  
약한 학습기가 계속해서 업데이트를 하며 좋은 모델을 만들어 간다.  


In [15]:
# 랜덤포레스트
from sklearn.ensemble import RandomForestRegressor
model = RandomForestRegressor()
model.fit(X_train, y_train)
pred = model.predict(X_test)
mean_squared_error(y_test, pred)

3151.198969662921

In [16]:
# Xgboost
from xgboost import XGBRegressor
model = XGBRegressor()
model.fit(X_train, y_train)
pred = model.predict(X_test)
mean_squared_error(y_test, pred)



4028.2455020344587

## 하이퍼파라미터 튜닝  

그리드 서치와 랜덤 서치를 활용해서 파라미터 값을 찾는 방법을 숙지하자.  

모델의 성능 향상을 위해 하이퍼파라미터 튜닝을 진행하며 사이킷런의 model_selection에서 제공하는 GridSearchCV와 RandomizedSearchCV를 이용하여 최적화할 수 있습니다.  

1. GridSearchCV

grid search를 통해 최적의 하이퍼파라미터를 찾음 (시간 오래 걸림)  

2. RandomizedSearchCV

RandomizedSearchCV 는 GridSearchCV와 달리 랜덤으로 N개의 조합만 탐색함  
(시간 내 최적의 하이퍼파라미터 탐색) 


In [17]:
# 라이브러리 불러오기
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV

In [18]:
# 하이퍼파라미터
params={'learning_rate':[0.07, 0.05], 
        'max_depth':[3, 5, 7], 
        'n_estimators':[100, 200],
        'subsample':[0.9, 0.8, 0.7]
        }

In [19]:
# 데이터셋 로드
def make_dataset2():
    dataset = load_diabetes()
    df = pd.DataFrame(dataset.data, columns=dataset.feature_names)
    df['target'] = dataset.target
    return df.drop('target', axis=1), df['target']
X, y = make_dataset2()

그리드서치

In [20]:
# GridSearchCV
xgb = XGBRegressor()
grid = GridSearchCV(xgb, params, cv=3, n_jobs=-1)
grid.fit(X, y)



GridSearchCV(cv=3,
             estimator=XGBRegressor(base_score=None, booster=None,
                                    colsample_bylevel=None,
                                    colsample_bynode=None,
                                    colsample_bytree=None, gamma=None,
                                    gpu_id=None, importance_type='gain',
                                    interaction_constraints=None,
                                    learning_rate=None, max_delta_step=None,
                                    max_depth=None, min_child_weight=None,
                                    missing=nan, monotone_constraints=None,
                                    n_estimators=100, n_jobs=None,
                                    num_parallel_tree=None, random_state=None,
                                    reg_alpha=None, reg_lambda=None,
                                    scale_pos_weight=None, subsample=None,
                                    tree_method=None, validate_para

In [21]:
# 최적의 하이퍼파라미터를 찾음
grid.best_params_

{'learning_rate': 0.05, 'max_depth': 3, 'n_estimators': 100, 'subsample': 0.7}

In [22]:
# 하이퍼파라미터 튜닝
xgb = XGBRegressor(
    learning_rate = 0.05,
    max_depth = 3,
    n_estimators = 100,
    subsample =0.7
)
xgb.fit(X_train, y_train)
pred = xgb.predict(X_test)
mean_squared_error(y_test, pred)

3173.045180496539

랜덤서치cv  
RandomizedSearchCV는 GridSearchCV와 달리 랜덤으로 N개의 조합만 탐색함  
(시간 내 최적의 하이퍼파라미터 탐색)


In [23]:
#  Randomized Search
xgb = XGBRegressor()
grid = RandomizedSearchCV(xgb, params, cv=3, n_iter=10, n_jobs=-1)
grid.fit(X, y)

RandomizedSearchCV(cv=3,
                   estimator=XGBRegressor(base_score=None, booster=None,
                                          colsample_bylevel=None,
                                          colsample_bynode=None,
                                          colsample_bytree=None, gamma=None,
                                          gpu_id=None, importance_type='gain',
                                          interaction_constraints=None,
                                          learning_rate=None,
                                          max_delta_step=None, max_depth=None,
                                          min_child_weight=None, missing=nan,
                                          monotone_constraints=None,
                                          n_estimators=100, n_jobs=None,
                                          num_parallel_tree=None,
                                          random_state=None, reg_alpha=None,
                                       

In [24]:
# 최적의 하이퍼파라미터를 찾음
grid.best_params_

{'subsample': 0.9, 'n_estimators': 100, 'max_depth': 3, 'learning_rate': 0.05}

### 회귀 평가 지표  


In [25]:
# MAE
from sklearn.metrics import mean_absolute_error
mean_absolute_error(y_test, pred)

47.57186281011346

In [26]:
# MSE
from sklearn.metrics import mean_squared_error
mean_squared_error(y_test, pred)

3173.045180496539

In [27]:
# RMSE
import numpy as np
np.sqrt(mean_squared_error(y_test, pred))

56.32978945901129

In [28]:
# RMSLE
from sklearn.metrics import mean_squared_log_error
np.sqrt(mean_squared_log_error(y_test, pred))


0.4359462312673838

In [29]:
# R2
from sklearn.metrics import r2_score
r2_score(y_test, pred)

0.5153820583895429