<span style="color:grey"> By Seongchan Kang </span>

<span style="color:grey"> Version : Python 3.10.1 in Window </span>

- 출처 1 : (교재) 머신러닝 교과서 with 파이썬, 사이킷런, 텐서플로 
- 출처 2 : (교재) 비즈니스 애널리틱스를 위한 데이터 마이닝 R
- 출처 3 : (URL) <span> https://hyemin-kim.github.io/2020/08/04/S-Python-sklearn4/#4-%EC%95%99%EC%83%81%EB%B8%94-ensemble-%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98 </span>

# 앙상블(Ensemble) 학습이란

여러 분류기를 하나의 분류기로 연결하여 개별 분류기보다 더 좋은 성능을 만드는 것을 목표로 하는 학습

결국 더 훌륭한 모델을 만들기 위한 방법

앙상블의 방법을 여러가지 존재, 아래에서 계속 소개


In [1]:
# 공통적으로 필요한 라이브러리
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [2]:
# 파일 불러오기
data = pd.read_csv("titanic_df.csv")
data = data.drop(labels = "Unnamed: 0", axis = 1)
data

Unnamed: 0,Sex,Embarked,ToH,Survived,Pclass,Age,Fare,Family
0,0,0,2,0,3,22,7.2500,0
1,1,1,3,1,1,38,71.2833,0
2,1,0,1,1,3,26,7.9250,0
3,1,0,3,1,1,35,53.1000,0
4,0,0,2,0,3,35,8.0500,0
...,...,...,...,...,...,...,...,...
886,0,0,4,0,2,27,13.0000,0
887,1,0,1,1,1,19,30.0000,0
888,1,0,1,0,3,21,23.4500,1
889,0,1,2,1,1,26,30.0000,0


In [3]:
# X, Y로 변수를 나누기(독립괴 종속 변수)
X = data[['Sex', 'Embarked', 'ToH', 'Pclass', 'Age', 'Fare', 'Family']]
Y = data['Survived']

# 훈련과 테스트로 변수 다시 한번더 나누기
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.3)

## 투표(Voting)

- 투표를 통해 최종 결과를 결정하는 방식
- 동일한 훈련 세트
- 여러가지 알고리즘을 사용
- 샘플을 뽑을 때 중복은 없음
- 싱글 모델은 튜플 형태로 정의
- 우선적으로 여러 모델을 쓰기 때문 여러 모델을 모델링하는 과정이 필요

### 투표(회귀) 실습

In [4]:
# 라이브러리 불러오기
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import ElasticNet
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import PolynomialFeatures

from sklearn.ensemble import VotingRegressor

In [5]:
# LinearRegression #
linear_reg = LinearRegression(n_jobs=-1)
linear_reg.fit(X_train, Y_train)

print("모델 < LinearRegression >")
print("Train Set Score1 : {}".format(linear_reg.score(X_train, Y_train)))
print("Test  Set Score1 : {}".format(linear_reg.score(X_test, Y_test)))


# Ridge #
ridge = Ridge(alpha=1)
ridge.fit(X_train, Y_train)

print("\n모델 < Ridge >")
print("Train Set Score1 : {}".format(ridge.score(X_train, Y_train)))
print("Test  Set Score1 : {}".format(ridge.score(X_test, Y_test)))


# Lasso #
lasso = Lasso(alpha=0.01)
lasso.fit(X_train, Y_train)

print("\n모델 < Lasso >")
print("Train Set Score1 : {}".format(lasso.score(X_train, Y_train)))
print("Test  Set Score1 : {}".format(lasso.score(X_test, Y_test)))


# Elasticnet #
elasticnet = ElasticNet(alpha=0.5, l1_ratio=0.2)
elasticnet.fit(X_train, Y_train)

print("\n모델 < Elasticnet >")
print("Train Set Score1 : {}".format(elasticnet.score(X_train, Y_train)))
print("Test  Set Score1 : {}".format(elasticnet.score(X_test, Y_test)))


# With Standard Scaling #
standard_elasticnet = make_pipeline(
    StandardScaler(),
    ElasticNet(alpha=0.5, l1_ratio=0.2)
)

standard_elasticnet.fit(X_train, Y_train).predict(X_test)

print("\n모델 < Standard Scaling >")
print("Train Set Score1 : {}".format(standard_elasticnet.score(X_train, Y_train)))
print("Test  Set Score1 : {}".format(standard_elasticnet.score(X_test, Y_test)))


# 2-Degree Polynomial Features + Standard Scaling #
poly_elasticnet = make_pipeline(
    PolynomialFeatures(degree=2, include_bias=False),
    StandardScaler(),
    ElasticNet(alpha=0.5, l1_ratio=0.2)
)

poly_elasticnet.fit(X_train, Y_train).predict(X_test)

print("\n모델 < Polynomial Features >")
print("Train Set Score1 : {}".format(standard_elasticnet.score(X_train, Y_train)))
print("Test  Set Score1 : {}".format(standard_elasticnet.score(X_test, Y_test)))

모델 < LinearRegression >
Train Set Score1 : 0.43237295263658804
Test  Set Score1 : 0.3955905643323824

모델 < Ridge >
Train Set Score1 : 0.43235438832466333
Test  Set Score1 : 0.3962116091921126

모델 < Lasso >
Train Set Score1 : 0.42657672613646636
Test  Set Score1 : 0.3919094273696194

모델 < Elasticnet >
Train Set Score1 : 0.09862019094502661
Test  Set Score1 : 0.08810424342016188

모델 < Standard Scaling >
Train Set Score1 : 0.25354549284009287
Test  Set Score1 : 0.2260653048152066

모델 < Polynomial Features >
Train Set Score1 : 0.25354549284009287
Test  Set Score1 : 0.2260653048152066


In [6]:
# 보팅에 참여한 single models 지정
single_models = [
    ('linear_reg', linear_reg),
    ('ridge', ridge),
    ('lasso', lasso),
    ('elasticnet', elasticnet),
    ('standard_elasticnet', standard_elasticnet),
    ('poly_elasticnet', poly_elasticnet)
]

In [7]:
# voting regressor 만들기
voting_regressor = VotingRegressor(single_models, n_jobs=-1)

# 적합 = 학습
voting_regressor.fit(X_train, Y_train)

In [8]:
# 테스트 #
print("모델 < Ensemble_Voting >")
print("Train Set Score1 : {}".format(voting_regressor.score(X_train, Y_train)))
print("Test  Set Score1 : {}".format(voting_regressor.score(X_test, Y_test)))

## 단일의 모델보다는 결과가 좋긴함
## 하지만 몇몇의 단일 모델이 성능이 더 좋아보임 

모델 < Ensemble_Voting >
Train Set Score1 : 0.37767467820538503
Test  Set Score1 : 0.35659586611463534


### 투표(분류) 실습

- 투표에 분률 할 때는 투표 방식을 soft로 할것인지, hard로 할 것 인지도 중요
- voting ='soft', 'hard'

In [9]:
# 라이브러리 불러오기
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import VotingClassifier

In [10]:
# 함수 선언 #
def min_max_normalize(lst):
    normalized = []
    
    for value in lst:
        normalized_num = (value - min(lst)) / (max(lst) - min(lst))
        normalized.append(normalized_num)
    
    return normalized

def z_score_normalize(lst):
    normalized = []
    for value in lst:
        normalized_num = (value - np.mean(lst)) / np.std(lst)
        normalized.append(normalized_num)
    return normalized

In [11]:
# 정규화
data["Age"] = min_max_normalize(data["Age"])
data["Fare"] = z_score_normalize(data["Fare"])

# X, Y로 변수를 나누기(독립괴 종속 변수)
X = data[['Sex', 'Embarked', 'ToH', 'Pclass', 'Age', 'Fare', 'Family']]
Y = data['Survived']

# 훈련과 테스트로 변수 다시 한번더 나누기
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.3)

In [12]:
# 모델링 및 적합 #

# LogisticRegression
lr_model = LogisticRegression(random_state = 5)
lr_model.fit(X_train, Y_train)

print("모델 < LogisticRegression >")
print("Train Set Score1 : {}".format(lr_model.score(X_train, Y_train)))
print("Test  Set Score1 : {}".format(lr_model.score(X_test, Y_test)))


# DecisionTreeClassifier
dTree = DecisionTreeClassifier(random_state = 5, max_depth = 3, min_samples_split = 8)
dTree.fit(X_train, Y_train)

print("\n모델 < DecisionTreeClassifier >")
print("Train Set Score1 : {}".format(dTree.score(X_train, Y_train)))
print("Test  Set Score1 : {}".format(dTree.score(X_test, Y_test)))


# KNeighborsClassifier
## 정규화를 어떻게 적용시키는게 좋을지 고민이 들어
## 잘못 건들기보다는 정규화를 안하는 방법을 선택
knn_model = KNeighborsClassifier(n_neighbors = 10, metric = 'euclidean')
knn_model.fit(X_train, Y_train)

print("\n모델 < KNeighborsClassifier >")
print("Train Set Score1 : {}".format(knn_model.score(X_train, Y_train)))
print("Test  Set Score1 : {}".format(knn_model.score(X_test, Y_test)))

모델 < LogisticRegression >
Train Set Score1 : 0.8234349919743178
Test  Set Score1 : 0.835820895522388

모델 < DecisionTreeClassifier >
Train Set Score1 : 0.8298555377207063
Test  Set Score1 : 0.8395522388059702

모델 < KNeighborsClassifier >
Train Set Score1 : 0.8459069020866774
Test  Set Score1 : 0.7947761194029851


In [13]:
models = [
    ('Logit', lr_model),
    ('DecisionTree', dTree),
    ('KNN', knn_model) 
]

# 모델링
vc = VotingClassifier(models, voting='soft')

# 적합 = 학습
vc.fit(X_train, Y_train)

In [19]:
# 테스트 #
print("모델 < VotingClassifier >")
print("Train Set Score1 : {}".format(vc.score(X_train, Y_train)))
print("Test  Set Score1 : {}".format(vc.score(X_test, Y_test)))

## 몇몇개의 모델보다는 안정적인 모델이 됨

모델 < VotingClassifier >
Train Set Score1 : 0.8426966292134831
Test  Set Score1 : 0.8134328358208955


## 배깅 (Bagging)

- 배깅은 Bootstrap Aggregating의 줄임말
- Bootstrap이란 여러 개의 dataset을 중복을 허용(복원 추출)하여 샘플링하여 분할하는 방식
- Voting은 여러 알고리즘의 조합에 대한 앙상블
- Bagging은 하나의 단일 알고리즘에 대하여 여러 개의 샘플 조합으로 앙상블
- 대표적인 방법 : Random Forest, Bagging


### 배깅 실습

In [16]:
# 라이브러리 불러오기
from sklearn.ensemble import BaggingClassifier

In [22]:
# 이미 위에서 여러가지 모델을 돌려놓음
# 배깅 모델링
tree_model = DecisionTreeClassifier(random_state = 5)

bagging = BaggingClassifier(
  base_estimator = tree_model, 
  n_estimators = 500, 
  max_samples = 1.0, 
  max_features = 1.0, 
  bootstrap = True, 
  bootstrap_features = False,
  n_jobs = 1,
  random_state = 5  
)

clf_labels = ["Decision Tree", "Bagging"]

all_clf = [dTree, bagging]

In [29]:
# 평가 #
from sklearn.model_selection import cross_val_score

for clf, label in zip(all_clf, clf_labels) :
  scores = cross_val_score(estimator = clf, X = X_train, y = Y_train, cv = 5, scoring = "roc_auc")
  print("[{}] Roc_Auc : {} (+/- {})".format(label, scores.mean(), scores.std()))

[Decision Tree] Roc_Auc : 0.8705097650576373 (+/- 0.026279988664538935)
[Bagging] Roc_Auc : 0.8704800075810715 (+/- 0.03388863062816359)


In [30]:
# 이미 위에서 여러가지 모델을 돌려놓음
# 배깅 모델링
lr_model = LogisticRegression(random_state = 5)

bagging = BaggingClassifier(
  base_estimator = lr_model, 
  n_estimators = 500, 
  max_samples = 1.0, 
  max_features = 1.0, 
  bootstrap = True, 
  bootstrap_features = False,
  n_jobs = 1,
  random_state = 5  
)

clf_labels = ["LR", "Bagging"]

all_clf = [lr_model, bagging]

In [31]:
for clf, label in zip(all_clf, clf_labels) :
  scores = cross_val_score(estimator = clf, X = X_train, y = Y_train, cv = 5, scoring = "roc_auc")
  print("[{}] Roc_Auc : {} (+/- {})".format(label, scores.mean(), scores.std()))

[LR] Roc_Auc : 0.8625997229720633 (+/- 0.030733463040745326)
[Bagging] Roc_Auc : 0.8626579980303385 (+/- 0.030764284163544525)


### 랜덤포레스트(Random Forest) 실습

- Decision Tree 기반 Bagging 앙상블
- 굉장히 인기있는 앙상블 모델
- 사용성이 쉽고, 성능도 우수
- 단일 분류 알고리즘(DT) 사용
- 무작위로 예측변수 선택하여 모델 구축
- 결과 결합 : 투표(분류), 평균화(예측)
- 나무구조로 표현(X) => 변수의 중요도 제공
- 주요 파라미터
 > - random_state : random seed 고정 값
 > - n_jobs : CPU 사용 갯수
 > - max_depth : 깊어질 수 있는 최대 깊이. 과대적합 방지용
 > - n_estimators : 암상블하는 트리의 갯수
 > - max_features : best split을 판단할 때 최대로 사용할 feature의 갯수 {‘auto’, ‘sqrt’, ‘log2’}. 과대적합 방지용
 > - min_samples_split : 트리가 분할할 때 최소 샘플의 갯수. default=2. 과대적합 방지용


In [33]:
# 랜덤 포레스트 라이브러리 #
from sklearn.ensemble import RandomForestRegressor

rfr = RandomForestRegressor(random_state=5)
rfr.fit(X_train, Y_train)

In [34]:
# 테스트 #
print("모델 < RandomForestRegressor >")
print("Train Set Score1 : {}".format(rfr.score(X_train, Y_train)))
print("Test  Set Score1 : {}".format(rfr.score(X_test, Y_test)))

모델 < RandomForestRegressor >
Train Set Score1 : 0.9019348459896986
Test  Set Score1 : 0.40508043615422573


## 부스팅

- 이전 학습에 대하여 잘못 예측된 데이터에 가중치를 부여해 오차를 보완해 나가는 방식
- 성능이 매우 우수
- 잘못된 레이블링이나 아웃라이어에 필요 이상으로 민감
- 학습 시간이 오래걸림
- 대표적인 기법 : AdaBoost, GradientBoost, LightGBM, XGBoost

### AdaBoost