<a href="https://colab.research.google.com/github/NoahLee99/ML-DL-studylog/blob/main/Chapter%2005-3%20-%20%ED%8A%B8%EB%A6%AC%EC%9D%98%20%EC%95%99%EC%83%81%EB%B8%94.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
'''
앙상블 학습은 정형 데이터에서 가장 뛰어는 성능을 내는 머신러닝 알고리즘 중 하나이다.
대표적인 앙상블 학습은 다음과 같다.
# 사이킷런
  랜덤 포레스트: 부트스트랩 샘플 사용, 대표적 앙상블 학습 알고리즘
  엑스트라 트리: 결정 트리의 노드를 랜덤하게 분할함
  그레이디언트 부스팅: 이전 트리의 손실을 보완하는 식으로 얕은 결정 트리를 연속하여 추가함
  히스토그램 기반 그레이디언트 부스팅: 훈련 데이터를 256개 정수 구간으로 나누어 빠르고 높은 성능을 냄
# 그외 라이브러리
  XGBoost
  LightGBM

키워드: [앙상블 학습, 랜덤 포레스트, 엑스트라 트리, 그레이디언트 부스팅, 히스토그램 기반 그레이디언트 부스팅]

핵심 패키지 및 함수: [RandomForestClassifier, ExtraTreesClassifier. GradientBoostingClassifier. HistGradientBoostingClassifier]
                          n_estimators 매개변수는 앙상블을 구성할 트리의 개수를 지정한다.(기본값은 100)
                          criterion 매개변수는 불순도를 지정하며 기본값은 지니 불순도를 의미하는 'gini'이고 'entropy'를 선택하여 엔트로피 불순도를 사용 가능하다.
                          max_depth는 트리가 성장할 최대 깊이를 지정한다. 기본값은 None으로 지정하면 리프 노드를 순수하거나 min_samples_split보다 샘플 개수가 적을 때까지 성장한다.
                          min_samples_split은 노드를 나누기 위한 최소 샘플의 개수이다.(기본값은 2)
                          max_features 매개변수는 최적의 분할을 위해 탐색할 특성의 개수를 지정한다. 기본값은 auto로 특성 개수의 제곱근이다.
                          bootstrap 매개변수는 부트스트랩 샘플을 사용할지 지정한다.(기본값은 True)
                          oob_score는 OOB 샘플을 사용하여 훈련한 모델을 평가할지 지정한다.(기본값은 False)
                          n_jobs 매개변수는 병령 실행에 사용할 CPU 코어 수를 지정한다. 기본값은 1로 하나의 코어를 사용한다. -1로 지정하면 시스템의 모든 코어를 사용한다.
                          loss 매개변수는 손실 함수를 지정한다. 기본값은 로지스틱 손실 함수를 의미하는 'deviance'이다.
                          learning_rate 매개변수는 트리가 앙상블에 기여하는 정도를 조절한다.(기본값은 0.1)
                          (히스토그램 기반 그레이디언트 부스팅에서는 학습률 또는 감쇠율이라 함)
                          subsample 매개변수는 사용할 훈련 세트의 샘플 비율을 지정한다.(기본값은 1.0)
                          max_iter는 부스팅 단계를 수행하는 트리의 개수이다.(기본값은 100)
                          max_bins는 입력 데이터를 나눌 구간의 개수이다. 기본값은 255이며 이보다 크게 지정할 수 없다. 여기에 1개의 구간이 누락된 값을 위해 추가된다.


In [None]:
'''
지금까지 나는 k-최근접 이웃, 선형 회귀, 릿지, 라쏘, 다항 회귀, 로지스틱 회귀를 배웠고
확률적 경사 하강법 알고리즘을 사용한 분류기와 결정 트리 모델까지 섭렵했다.
최근에는 테스트 세트의 사용 없이 모델의 성능을 평가하는 교차 검증과 하이퍼파라미터 튜닝까지 배웠다.

이번 장에서는 "랜덤 포레스트(Random Forest)"라는 알고리즘을 배울 예쩡이다.
이에 대해 배우기 전에 잠시 내가 다루었던 데이터를 되돌아보자.
4장까지는 생선의 길이, 높이, 무게 등을 데이터로 사용했다.
이 데이터는 CSV 파일에 가지런히 정리되어 있었다.
또한 이전 장에서 사용한 와인 데이터도 CSV파일이었다.

이러한 형태의 데이터를 "정형 데이터(structured data)"라고 부른다.
쉽게 말해 어떤 구조로 되어 있다는 뜻이다.
이런 데이터는 CSV나 데이터베이스, 혹은 엑셀에 저장하기 쉽다.
프로그래머가 다루는 대부분의 데이터가 정형 데이터이다.

이와 반대되는 데이터는 "비정형 데이터(unstructured data)"라고 부른다.
비정형 데이터는 데이터베이스나 엑셀로 표현하기 어려운 것들이다.
우리 주위의 책과 같은 텍스트 데이터, 디카로 찍은 사진, 핸드폰으로 듣는 디지털 음악 등이 그 예시들이다.

지금까지 배운 머신러닝 알고리즘은 정형 데이터에 잘 맞는다.
그중 정형 데이터를 다루는 데 가장 뛰어난 성과를 내는 알고리즘이 "앙상블 학습(ensemble learning)"이다.
이 알고리즘은 대부분 결정 트리를 기반으로 만들어져 있다.
이번 장에서 배울 알고리즘들이 앙상블 학습에 속한다.

그렇다면 비정형 데이터는 어떤 알고리즘을 사용해야 할까?
바로 7장에서 배울 신경망 알고리즘이다.
비정형 데이터는 규칙성을 찾기 어려워 전통적인 머신러닝 방법으로는 모델을 만들기 까다롭다.
하지만 신경망 알고리즘의 놀라운 발전 덕에 사진을 인식하고 텍스트를 이해하는 모델을 만들 수 있다.

이제 사이킷런에서 제공하는 정형 데이터의 끝판왕인 앙상블 학습 알고리즘을 알아보자.
'''

'\n지금까지 나는 k-최근접 이웃, 선형 회귀, 릿지, 라쏘, 다항 회귀, 로지스틱 회귀를 배웠고\n확률적 경사 하강법 알고리즘을 사용한 분류기와 결정 트리 모델까지 섭렵했다.\n최근에는 테스트 세트의 사용 없이 모델의 성능을 평가하는 교차 검증과 하이퍼파라미터 튜닝까지 배웠다.\n\n이번 장에서는 "랜덤 포레스트(Random Forest)"라는 알고리즘을 배울 예쩡이다.\n이에 대해 배우기 전에 잠시 내가 다루었던 데이터를 되돌아보자.\n4장까지는 생선의 길이, 높이, 무게 등을 데이터로 사용했다.\n이 데이터는 CSV 파일에 가지런히 정리되어 있었다.\n또한 이전 장에서 사용한 와인 데이터도 CSV파일이었다.\n\n이러한 형태의 데이터를 "정형 데이터(structured data)"라고 부른다.\n쉽게 말해 어떤 구조로 되어 있다는 뜻이다.\n이런 데이터는 CSV나 데이터베이스, 혹은 엑셀에 저장하기 쉽다.\n프로그래머가 다루는 대부분의 데이터가 정형 데이터이다.\n\n이와 반대되는 데이터는 "비정형 데이터(unstructured data)"라고 부른다.\n비정형 데이터는 데이터베이스나 엑셀로 표현하기 어려운 것들이다.\n우리 주위의 책과 같은 텍스트 데이터, 디카로 찍은 사진, 핸드폰으로 듣는 디지털 음악 등이 그 예시들이다.\n\n지금까지 배운 머신러닝 알고리즘은 정형 데이터에 잘 맞는다.\n그중 정형 데이터를 다루는 데 가장 뛰어난 성과를 내는 알고리즘이 "앙상블 학습(ensemble learning)"이다.\n이 알고리즘은 대부분 결정 트리를 기반으로 만들어져 있다.\n이번 장에서 배울 알고리즘들이 앙상블 학습에 속한다.\n\n그렇다면 비정형 데이터는 어떤 알고리즘을 사용해야 할까?\n바로 7장에서 배울 신경망 알고리즘이다.\n비정형 데이터는 규칙성을 찾기 어려워 전통적인 머신러닝 방법으로는 모델을 만들기 까다롭다.\n하지만 신경망 알고리즘의 놀라운 발전 덕에 사진을 인식하고 텍스트를 이해하는 모델을 만들 수 있다.\n\n이제 사이킷런에서 제공하는

In [None]:
'''
랜덤 포레스트는 앙상블 학습의 대표 주자 중 하나로 안정적인 성능 덕에 널리 사용되고 있다.
이름 자체로 유추 가능하듯이, 랜덤 포레스트는 결정 트리를 랜덤하게 만들어 결정 트리(나무)의 "숲"을 만든다.
그리고 각 결정 트리의 예측을 사용해 최종 예측을 만든다.
그럼 랜덤 포레스트가 어떻게 숲을 구성하는지 알아보자.

먼저 랜덤 포레스트는 각 트리를 훈련하기 위한 데이터를 랜덤하게 만드는데,
이 데이터를 만드는 방법이 독특하다.
우리가 입력한 훈련 데이터에서 랜덤하게 샘플을 추출하여 훈련 데이터를 만든다.
이때 한 샘플이 중복되어 추출될 수도 있다.

예를 들어, 1000개의 샘플이 들어있는 가방에서 100개의 샘플을 뽑는다면
먼저 1개를 뽑고, 뽑았던 1개를 다시 가방에 넣는다.
이런 식으로 계속해서 100개를 가방에서 뽑으면 중복된 샘플을 뽑을 수 있다.
이렇게 만들어진 샘플을 "부트스트랩 샘플(bootstrap sample)"이라고 부른다.
기본적으로 부트스트랩 샘플은 훈련 세트의 크기와 같게 만든다.
1000개의 샘플이 들어있는 가방에서 중복하여 1000개의 샘플을 뽑는다.

(부트스트랩이란?
데이터 세트에서 중복을 허용하여 데이터를 샘플링하는 방식을 의미한다.)

또한 각 노드를 분할할 때 전체 특성 중에서 일부 특성을 무작위로 고른 다음
이중에서 최선의 분할을 찾는다.
분류 모델인 RandomForestClassifier는 기본적으로 전체 특성 개수의 제곱근만큼의 특성을 선택한다.
즉 4개의 특성이 있다면 노드마다 2개를 랜덤하게 선택하여 사용한다.
다만 회귀 모델인 RandomForestRegressor는 전체 특성을 사용한다.

사이킷런의 랜덤 포레스트는 기본적으로 100개의 결정 트리를 이런 방식으로 훈련한다.
그다음 분류일 때는 각 트리의 클래스별 확률을 평균하여 가장 높은 확률을 가진 클래스를 예측으로 삼는다.
회귀일 때는 단순히 각 트리의 예측을 평균한다.

랜덤 포레스트는 랜덤하게 선택한 샘플과 특성을 사용하기 때문에 훈련 세트에 과댖거합되는 것을 막아주고,
검증 세트와 테스트 세트에서 안정적인 성능을 얻을 수 있다.
종종 기본 매개변수 설정만으로도 아주 좋은 결과를 낸다.

그럼 이제 사이킷런의 RandomForestCalssifier 클래스를 화이트 와인을 분류하는 문제에 적용해 보자.
먼저 이전 장에서 했던 것처럼 와인 데이터셋을 판다스로 불러오고 훈련 세트와 테스트 세트로 나누자.
'''

'\n랜덤 포레스트는 앙상블 학습의 대표 주자 중 하나로 안정적인 성능 덕에 널리 사용되고 있다.\n이름 자체로 유추 가능하듯이, 랜덤 포레스트는 결정 트리를 랜덤하게 만들어 결정 트리(나무)의 "숲"을 만든다.\n그리고 각 결정 트리의 예측을 사용해 최종 예측을 만든다.\n그럼 랜덤 포레스트가 어떻게 숲을 구성하는지 알아보자.\n\n먼저 랜덤 포레스트는 각 트리를 훈련하기 위한 데이터를 랜덤하게 만드는데,\n이 데이터를 만드는 방법이 독특하다.\n우리가 입력한 훈련 데이터에서 랜덤하게 샘플을 추출하여 훈련 데이터를 만든다.\n이때 한 샘플이 중복되어 추출될 수도 있다.\n\n예를 들어, 1000개의 샘플이 들어있는 가방에서 100개의 샘플을 뽑는다면\n먼저 1개를 뽑고, 뽑았던 1개를 다시 가방에 넣는다.\n이런 식으로 계속해서 100개를 가방에서 뽑으면 중복된 샘플을 뽑을 수 있다.\n이렇게 만들어진 샘플을 "부트스트랩 샘플(bootstrap sample)"이라고 부른다.\n기본적으로 부트스트랩 샘플은 훈련 세트의 크기와 같게 만든다.\n1000개의 샘플이 들어있는 가방에서 중복하여 1000개의 샘플을 뽑는다.\n\n(부트스트랩이란?\n데이터 세트에서 중복을 허용하여 데이터를 샘플링하는 방식을 의미한다.)\n\n또한 각 노드를 분할할 때 전체 특성 중에서 일부 특성을 무작위로 고른 다음\n이중에서 최선의 분할을 찾는다.\n분류 모델인 RandomForestClassifier는 기본적으로 전체 특성 개수의 제곱근만큼의 특성을 선택한다.\n즉 4개의 특성이 있다면 노드마다 2개를 랜덤하게 선택하여 사용한다.\n다만 회귀 모델인 RandomForestRegressor는 전체 특성을 사용한다.\n\n사이킷런의 랜덤 포레스트는 기본적으로 100개의 결정 트리를 이런 방식으로 훈련한다.\n그다음 분류일 때는 각 트리의 클래스별 확률을 평균하여 가장 높은 확률을 가진 클래스를 예측으로 삼는다.\n회귀일 때는 단순히 각 트리의 예측을 평균한다.\n\n랜덤 포레스트는 랜덤

In [None]:
# 데이터셋 업로드 및 훈련 세트와 테스트 세트 분할
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

wine = pd.read_csv('https://bit.ly/wine_csv_data')

data = wine[['alcohol', 'sugar', 'pH']].to_numpy()
target = wine['class'].to_numpy()

train_input, test_input, train_target, test_target = train_test_split(
    data, target, test_size=0.2, random_state=42)

In [None]:
# 교차 검증 수행
from sklearn.model_selection import cross_validate
from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier(n_jobs=-1, random_state=42)
scores = cross_validate(rf, train_input, train_target, return_train_score=True, n_jobs=-1)

print(np.mean(scores['train_score']), np.mean(scores['test_score']))

# return_train_score 매개변수를 True로 지정하면, 훈련 세트에 대한 점수도 같이 반환하여 과대적합을 파악하는 데 용이함

0.9973541965122431 0.8905151032797809


In [None]:
'''
랜덤 포레스트는 결정 트리의 앙상블이기 때문에 DecisionTreeClassifier가 제공하는 중요한 매개변수를 모두 제공한다.
criterion, max_depth, max_features, min_samples_split, min_impurity_decrease, min_samples_leaf 등이다.
또한 결정 트리의 큰 장점 중 하나인 특성 중요도를 계산해준다.
랜덤 포레스트의 특성 중요도는 각 결정 트리의 특성 중요도를 취합한 것이다.
앞의 랜덤 포레스트 모델을 훈련 세트에 훈련한 후 특성 중요도를 출력해 보자.
'''

'\n랜덤 포레스트는 결정 트리의 앙상블이기 때문에 DecisionTreeClassifier가 제공하는 중요한 매개변수를 모두 제공한다.\ncriterion, max_depth, max_features, min_samples_split, min_impurity_decrease, min_samples_leaf 등이다.\n또한 결정 트리의 큰 장점 중 하나인 특성 중요도를 계산해준다.\n랜덤 포레스트의 특성 중요도는 각 결정 트리의 특성 중요도를 취합한 것이다.\n앞의 랜덤 포레스트 모델을 훈련 세트에 훈련한 후 특성 중요도를 출력해 보자.\n'

In [None]:
# 랜덤 포레스트 모델을 훈련 세트에 훈련 후 특성 중요도 출력
rf.fit(train_input, train_target)

print(rf.feature_importances_)

[0.23167441 0.50039841 0.26792718]


In [None]:
'''
5-1장에서 만든 특성 중요도와 비교해보면,
두 번째 특성인 당도(sugar)의 중요도가 감소하고 알코올 도수와 pH 특성의 중요도가 상승했다.
이러한 이유는 랜덤 포레스트가 특성의 일부를 랜덤하게 선택하여 결정 트리를 훈련하기 때문이다.
그 결과 하나의 특성에 과도하게 집중하지 않고 좀 더 많은 특성이 훈련에 기여할 기회를 얻는다.
이는 과대적합을 줄이고 일반화 성능을 높이는 데 유용하다.

RandomForestCalssifier에는 재미있는 기능이 하나 더 있는데, 자체적으로 모델을 평가하는 점수를 얻을 수 있다.
랜덤 포레스트는 부트스트랩 샘플을 만들어 결정 트리를 훈련한다고 했다.
이때 부트스트랩 샘플에 포함되지 않고 남는 샘플이 있다.
이런 샘플을 "OOB(out of bag) 샘플"이라고 한다.
이 남는 샘플을 사용하여 부트스트랩 샘플로 훈련한 결정 트리를 평가할 수 있다.
마치 검증 세트의 역할을 하는 셈이다!

이 점수를 얻으려면 RandomForestClassifier 클래스의 oob_score 매개변수를 True로 지정해야 한다.
이렇게 하면 랜덤 포레스트는 각 결정 트리의 OOB 점수를 평균하여 출력한다.
oob_score=True로 지정하고 모델을 훈련하여 OOB 점수를 출력해 보자.
'''

'\n5-1장에서 만든 특성 중요도와 비교해보면,\n두 번째 특성인 당도(sugar)의 중요도가 감소하고 알코올 도수와 pH 특성의 중요도가 상승했다.\n이러한 이유는 랜덤 포레스트가 특성의 일부를 랜덤하게 선택하여 결정 트리를 훈련하기 때문이다.\n그 결과 하나의 특성에 과도하게 집중하지 않고 좀 더 많은 특성이 훈련에 기여할 기회를 얻는다.\n이는 과대적합을 줄이고 일반화 성능을 높이는 데 유용하다.\n\nRandomForestCalssifier에는 재미있는 기능이 하나 더 있는데, 자체적으로 모델을 평가하는 점수를 얻을 수 있다.\n랜덤 포레스트는 부트스트랩 샘플을 만들어 결정 트리를 훈련한다고 했다.\n이때 부트스트랩 샘플에 포함되지 않고 남는 샘플이 있다.\n이런 샘플을 "OOB(out of bag) 샘플"이라고 한다.\n이 남는 샘플을 사용하여 부트스트랩 샘플로 훈련한 결정 트리를 평가할 수 있다.\n마치 검증 세트의 역할을 하는 셈이다!\n\n이 점수를 얻으려면 RandomForestClassifier 클래스의 oob_score 매개변수를 True로 지정해야 한다.\n이렇게 하면 랜덤 포레스트는 각 결정 트리의 OOB 점수를 평균하여 출력한다.\noob_score=True로 지정하고 모델을 훈련하여 OOB 점수를 출력해 보자.\n'

In [None]:
# OOB 점수 출력
rf = RandomForestClassifier(oob_score=True, n_jobs=-1, random_state=42)
rf.fit(train_input, train_target)

print(rf.oob_score_)

0.8934000384837406


In [None]:
'''
교차 검증에서 얻은 점수와 매우 비슷한 결과를 얻었다.
OOB 점수를 사용하면 교차 검증을 대신할 수 있어서
결과적으로 훈련 세트에 더 많은 샘플을 사용할 수 있다.

다음에 알아볼 앙상블 학습은 랜덤 포레스트와 아주 비슷한 엑스트라 트리이다.
"엑스트라 트리(Extra Trees)"는 랜덤 포레스트와 매우 비슷하게 동작한다.
기본적으로 100개의 결정 트리를 훈련한다.
랜덤 포레스트와 동일하게 결정 트리가 제공하는 대부분의 매개변수를 지원한다.
또한 전체 특성 중에 일부 특성을 랜덤하게 선택하여 노드를 분할하는 데 사용한다.

차이점은 부트스트랩 샘플을 사용하지 않는다는 점이다.
즉 각 결정 트리를 맏늘 때 전체 훈련 세트를 사용한다.
대신 노드를 분할할 때 가장 좋은 분할을 찾는 것이 아니라 무작위로 분할한다!
5-2장의 확인 문제에서 DecisionTreeClassifier의 splitter 매개변수를 'random'으로 지정한 바 있다.
엑스트라 트리가 사용하는 결정 트리가 바로 splitter='random'인 결정 트리이다.
하나의 결정 트리에서 특성을 무작위로 분할한다면 성능이 낮아지겠지만
많은 트리를 앙상블 하기 때문에 과대적합을 막고 검증 세트의 점수를 높이는 효과가 있다.
사이킷런에서 제공하는 엑스트라 트리는 ExtraTreesClassifier이다.
이 모델의 교차 검증 점수를 확인해 보자.
'''

'\n교차 검증에서 얻은 점수와 매우 비슷한 결과를 얻었다.\nOOB 점수를 사용하면 교차 검증을 대신할 수 있어서\n결과적으로 훈련 세트에 더 많은 샘플을 사용할 수 있다.\n\n다음에 알아볼 앙상블 학습은 랜덤 포레스트와 아주 비슷한 엑스트라 트리이다.\n"엑스트라 트리(Extra Trees)"는 랜덤 포레스트와 매우 비슷하게 동작한다.\n기본적으로 100개의 결정 트리를 훈련한다.\n랜덤 포레스트와 동일하게 결정 트리가 제공하는 대부분의 매개변수를 지원한다.\n또한 전체 특성 중에 일부 특성을 랜덤하게 선택하여 노드를 분할하는 데 사용한다.\n\n차이점은 부트스트랩 샘플을 사용하지 않는다는 점이다.\n즉 각 결정 트리를 맏늘 때 전체 훈련 세트를 사용한다.\n대신 노드를 분할할 때 가장 좋은 분할을 찾는 것이 아니라 무작위로 분할한다!\n5-2장의 확인 문제에서 DecisionTreeClassifier의 splitter 매개변수를 \'random\'으로 지정한 바 있다.\n엑스트라 트리가 사용하는 결정 트리가 바로 splitter=\'random\'인 결정 트리이다.\n하나의 결정 트리에서 특성을 무작위로 분할한다면 성능이 낮아지겠지만\n많은 트리를 앙상블 하기 때문에 과대적합을 막고 검증 세트의 점수를 높이는 효과가 있다.\n사이킷런에서 제공하는 엑스트라 트리는 ExtraTreesClassifier이다.\n이 모델의 교차 검증 점수를 확인해 보자.\n'

In [None]:
# 엑스트라 트리 모델의 교차 검증 점수 확인
from sklearn.ensemble import ExtraTreesClassifier

et = ExtraTreesClassifier(n_jobs=-1, random_state=42)
scores = cross_validate(et, train_input, train_target,
                        return_train_score=True, n_jobs=-1)

print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.9974503966084433 0.8887848893166506


In [None]:
'''
랜덤 포레스트와 비슷한 결과를 얻었다.
이 예제는 특성이 많지 않아 두 모델의 차이가 크지 않다.
보통 엑스트라 트리가 무작위성이 좀 더 크기 때문에 랜덤 포레스트보다 더 많은 결정트리를 훈련해야 한다.
하지만 랜덤하게 노드를 분할하기 때문에 빠른 계산 속도가 엑스트라 트리의 장점이다.

(결정 트리는 최적의 분할을 찾는 데 시간을 많이 소모한다.
특히 고려해야 할 특성의 개수가 많을 때 더 그렇다.)

엑스트라 트리도 랜덤 포레스트와 마찬가지로 특성 중요도를 제공한다.
순서는 [알코올 도수, 당도, pH]인데, 결과를 보면 엑스트라 트리도 결정 트리보다 당도에 대한 의존성이 작다.

엑스트라 트리의 회귀 버전은 ExtraTreesRegressor 클래스이다.

지금까지 2개의 앙상블 학습을 알아보았다.
이제 이 둘과 다른 방식을 사용하는 앙상블 학습을 알아보겠다.
먼저 그레이디언트 부스팅이다.
'''

'\n랜덤 포레스트와 비슷한 결과를 얻었다.\n이 예제는 특성이 많지 않아 두 모델의 차이가 크지 않다.\n보통 엑스트라 트리가 무작위성이 좀 더 크기 때문에 랜덤 포레스트보다 더 많은 결정트리를 훈련해야 한다.\n하지만 랜덤하게 노드를 분할하기 때문에 빠른 계산 속도가 엑스트라 트리의 장점이다.\n\n(결정 트리는 최적의 분할을 찾는 데 시간을 많이 소모한다.\n특히 고려해야 할 특성의 개수가 많을 때 더 그렇다.)\n\n엑스트라 트리도 랜덤 포레스트와 마찬가지로 특성 중요도를 제공한다.\n순서는 [알코올 도수, 당도, pH]인데, 결과를 보면 엑스트라 트리도 결정 트리보다 당도에 대한 의존성이 작다.\n\n엑스트라 트리의 회귀 버전은 ExtraTreesRegressor 클래스이다.\n\n지금까지 2개의 앙상블 학습을 알아보았다.\n이제 이 둘과 다른 방식을 사용하는 앙상블 학습을 알아보겠다.\n먼저 그레이디언트 부스팅이다.\n'

In [None]:
# 특성 중요도 출력
et.fit(train_input, train_target)

print(et.feature_importances_)

[0.20183568 0.52242907 0.27573525]


In [None]:
'''
"그레이디언트 부스팅(gradient boosting)"은 깊이가 얕은 결정 트리를 사용하여
이전 트리의 오차를 보완하는 방식으로 앙상블 하는 방법이다.
사이킷런의 GradientBoostingClassifier는 기본적으로 깊이가 3인 결정 트리를 100개 사용한다.
깊이가 얕은 결정 트리를 사용하기 때문에 과대적합에 강하고 일반적으로 높은 일반화 성능을 기대할 수 있다.

그레이디언트란 이름답게 4장에서 배웠던 "경사 하강법"을 사용하여 트리를 앙상블에 추가한다.
분류에서는 로지스틱 손실 함수를 사용하고, 회귀에서는 평균 제곱 오차 함수를 사용한다.

4장에서 경사 하강법은 손실 함수를 산으로 정의하고 가장 낮은 곳을 찾아 내려오는 과정으로 설명했다.
이때 가장 낮은 곳을 찾아 내려오는 방법은 모델의 가중치와 절편을 조금씩 바꾸는 것이다.
그레이디언트 부스팅은 결정 트리를 계속 추가하면서 가장 낮은 곳을 찾아 이동한다.
손실 함수의 낮은 곳으로 천천히 조금씩 이동해야 하는 것처럼 그레이디언트 부스팅도 마찬가지이다.
그래서 깊이가 얕은 트리를 사용하는 것이다!
또한 학습률 매개변수(learning rate)로 속도를 조절한다.

사이킷런에서 제공하는 GradientBoostingClassifier을 사용해 와인 데이터셋의 교차 검증 점수를 확인해 보자.
'''

'\n"그레이디언트 부스팅(gradient boosting)"은 깊이가 얕은 결정 트리를 사용하여\n이전 트리의 오차를 보완하는 방식으로 앙상블 하는 방법이다.\n사이킷런의 GradientBoostingClassifier는 기본적으로 깊이가 3인 결정 트리를 100개 사용한다.\n깊이가 얕은 결정 트리를 사용하기 때문에 과대적합에 강하고 일반적으로 높은 일반화 성능을 기대할 수 있다.\n\n그레이디언트란 이름답게 4장에서 배웠던 "경사 하강법"을 사용하여 트리를 앙상블에 추가한다.\n분류에서는 로지스틱 손실 함수를 사용하고, 회귀에서는 평균 제곱 오차 함수를 사용한다.\n\n4장에서 경사 하강법은 손실 함수를 산으로 정의하고 가장 낮은 곳을 찾아 내려오는 과정으로 설명했다.\n이때 가장 낮은 곳을 찾아 내려오는 방법은 모델의 가중치와 절편을 조금씩 바꾸는 것이다.\n그레이디언트 부스팅은 결정 트리를 계속 추가하면서 가장 낮은 곳을 찾아 이동한다.\n손실 함수의 낮은 곳으로 천천히 조금씩 이동해야 하는 것처럼 그레이디언트 부스팅도 마찬가지이다.\n그래서 깊이가 얕은 트리를 사용하는 것이다!\n또한 학습률 매개변수(learning rate)로 속도를 조절한다.\n\n사이킷런에서 제공하는 GradientBoostingClassifier을 사용해 와인 데이터셋의 교차 검증 점수를 확인해 보자.\n'

In [None]:
# 와인 데이터셋 교차 검증 점수 확인
from sklearn.ensemble import GradientBoostingClassifier

gb = GradientBoostingClassifier(random_state=42)
scores = cross_validate(gb, train_input, train_target,
                        return_train_score=True, n_jobs=-1)

print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.8881086892152563 0.8720430147331015


In [None]:
'''
교차 검증 점수를 확인한 결과, 거의 과대적합이 되지 않는 것을 확인할 수 있따.
그레이디언트 부스팅은 결정 트리의 개수를 늘려도 과대적합에 매우 강하다.
학습률을 증가시키고 트리의 개수를 늘리면 조금 더 성능이 향상될 수 있다.
'''

'\n교차 검증 점수를 확인한 결과, 거의 과대적합이 되지 않는 것을 확인할 수 있따.\n그레이디언트 부스팅은 결정 트리의 개수를 늘려도 과대적합에 매우 강하다.\n학습률을 증가시키고 트리의 개수를 늘리면 조금 더 성능이 향상될 수 있다.\n'

In [None]:
# 학습률 증가 및 트리 개수 증가
gb = GradientBoostingClassifier(n_estimators=500, learning_rate=0.2, random_state=42)

scores = cross_validate(gb, train_input, train_target,
                        return_train_score=True, n_jobs=-1)

print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.9464595437171814 0.8780082549788999


In [None]:
'''
결정 트리 개수를 500개로 5개나 늘렸지만 과대적합을 잘 억제하고 있다.
학습률 learning_rate의 기본값은 0.1이다.
그레이디언트 부스팅도 특성 중요도를 제공한다.
결과에서 볼 수 있듯이 그레이디언트 부스팅이 랜덤 포레스트보다 일부 특성(당도)에 더 집중한다.
'''

'\n결정 트리 개수를 500개로 5개나 늘렸지만 과대적합을 잘 억제하고 있다.\n학습률 learning_rate의 기본값은 0.1이다.\n그레이디언트 부스팅도 특성 중요도를 제공한다.\n결과에서 볼 수 있듯이 그레이디언트 부스팅이 랜덤 포레스트보다 일부 특성(당도)에 더 집중한다.\n'

In [None]:
# 특성 중요도 확인
gb.fit(train_input, train_target)

print(gb.feature_importances_)

[0.15887763 0.6799705  0.16115187]


In [None]:
'''
흥미로운 매개변수가 하나 있다.
트리 훈련에 사용할 훈련 세트의 비율을 정하는 subsample이다.
이 매개변수의 기본값은 1.0으로 전체 훈련 세트를 사용한다.
하지만 subsample이 1보다 작으면 훈련 세트의 일부를 사용한다.
이는 마치 경사 하강법 단계마다 일부 샘플을 랜덤하게 선택하여 진행하는
확률적 경사 하강법이나 미니배치 경사 하강법과 비슷하다.

일반적으로 그레이디언트 부스팅이 랜덤 포레스트보다 조금 더 높은 성능을 얻을 수 있다.
하지만 순서대로 트리를 추가하기 때문에 훈련 속도가 느리다는 단점이 있다.
즉 GradientBoostingClassifier에는 n_jobs 매개변수가 없다.
그레이디언트 부스팅의 회귀 버전은 GradientBoostingRegressor이다.
그레이디언트 부스팅의 속도와 성능을 더욱 개선한 것이 다음에 살펴볼 히스토그램 기반 그레이디언트 부스팅이다.
'''

'\n흥미로운 매개변수가 하나 있다.\n트리 훈련에 사용할 훈련 세트의 비율을 정하는 subsample이다.\n이 매개변수의 기본값은 1.0으로 전체 훈련 세트를 사용한다.\n하지만 subsample이 1보다 작으면 훈련 세트의 일부를 사용한다.\n이는 마치 경사 하강법 단계마다 일부 샘플을 랜덤하게 선택하여 진행하는\n확률적 경사 하강법이나 미니배치 경사 하강법과 비슷하다.\n\n일반적으로 그레이디언트 부스팅이 랜덤 포레스트보다 조금 더 높은 성능을 얻을 수 있다.\n하지만 순서대로 트리를 추가하기 때문에 훈련 속도가 느리다는 단점이 있다.\n즉 GradientBoostingClassifier에는 n_jobs 매개변수가 없다.\n그레이디언트 부스팅의 회귀 버전은 GradientBoostingRegressor이다.\n그레이디언트 부스팅의 속도와 성능을 더욱 개선한 것이 다음에 살펴볼 히스토그램 기반 그레이디언트 부스팅이다.\n'

In [None]:
'''
"히스토그램 기반 그레이디언트 부스팅(Histogram-based Gradient Boosting)"은
정형 데이터를 다루는 머신러닝 알고리즘 중 가장 인기가 높은 알고리즘이다.
히스토그램 기반 그레이디언트 부스팅은 먼저 특성을 256개의 구간으로 나눈다.
따라서 노드를 분할할 때 최적의 분할을 매우 빠르게 찾을 수 있다.
히스토그램 기반 그레이디언트 부스팅은 256개의 구간 중 하나를 떼어 놓고 누락된 값을 위해 사용한다.
따라서 입력에 누락된 특성이 있더라도 이를 따로 전처리할 필요가 없다!

사이킷런의 히스토그램 기반 그레이디언트 부스팅 클래스는 HistGradientBoostingClassifier이다.
일반적으로 이 클래스는 기본 매개변수에서 안정적인 성능을 얻을 수 있다.
이 클래스에는 트리의 개수를 지정하는데, n_estimators 대신에 부스팅 반복 횟수를 지정하는 max_iter를 사용한다.
성능을 높이려면 max_iter 매개변수를 테스트해 보라.

그럼 와인 데이터셋에 HistGradientBoostingClassifier 클래스를 적용해 보자.
사이킷런의 히스토그램 기반 그레이디언트 부스팅은 아직 테스트 과정에 있다.
이 클래스를 사용하려면 sklearn.experimental 패키지 아래에 있는 enable_hist_gradient_boosting 모듈을 임포트 해야 한다.

(사이킷런 1.0에서 히스토그램 기반 부스팅이 테스트 과정에서 벗어남)
'''

'\n"히스토그램 기반 그레이디언트 부스팅(Histogram-based Gradient Boosting)"은\n정형 데이터를 다루는 머신러닝 알고리즘 중 가장 인기가 높은 알고리즘이다.\n히스토그램 기반 그레이디언트 부스팅은 먼저 특성을 256개의 구간으로 나눈다.\n따라서 노드를 분할할 때 최적의 분할을 매우 빠르게 찾을 수 있다.\n히스토그램 기반 그레이디언트 부스팅은 256개의 구간 중 하나를 떼어 놓고 누락된 값을 위해 사용한다.\n따라서 입력에 누락된 특성이 있더라도 이를 따로 전처리할 필요가 없다!\n\n사이킷런의 히스토그램 기반 그레이디언트 부스팅 클래스는 HistGradientBoostingClassifier이다.\n일반적으로 이 클래스는 기본 매개변수에서 안정적인 성능을 얻을 수 있다.\n이 클래스에는 트리의 개수를 지정하는데, n_estimators 대신에 부스팅 반복 횟수를 지정하는 max_iter를 사용한다.\n성능을 높이려면 max_iter 매개변수를 테스트해 보라.\n\n그럼 와인 데이터셋에 HistGradientBoostingClassifier 클래스를 적용해 보자.\n사이킷런의 히스토그램 기반 그레이디언트 부스팅은 아직 테스트 과정에 있다.\n이 클래스를 사용하려면 sklearn.experimental 패키지 아래에 있는 enable_hist_gradient_boosting 모듈을 임포트 해야 한다.\n\n(사이킷런 1.0에서 히스토그램 기반 부스팅이 테스트 과정에서 벗어남)\n'

In [None]:
from sklearn.ensemble import HistGradientBoostingClassifier

hgb = HistGradientBoostingClassifier(random_state=42)
scores = cross_validate(hgb, train_input, train_target, return_train_score=True, n_jobs=-1)

print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.9321723946453317 0.8801241948619236


In [None]:
'''
과대적합을 잘 억제하면서 그레이디언트 부스팅보다 조금 더 높은 성능을 제공하는 것을 확인할 수 있다.
특성 중요도를 확인해 보자.

히스토그램 기반 그레이디언트 부스팅의 특성 중요도를 계산하기 위해
permutation_importance() 함수를 사용할 것이다.
이 함수는 특성을 하나씩 랜덤하게 섞어서 모델의 성능이 변화하는지를 관찰하여
어떤 특성이 중요한지를 계산한다.
훈련 세트뿐만 아니라 테스트 세트에도 적용할 수 있고 사이킷런에서 제공하는 추정기 모델에 모두 사용할 수 있다.

먼저 히스토그램 기반 그레이디언트 부스팅 모델을 훈련 후 훈련 세트에서 특성 중요도를 계산해 보겠다.
n_repeats 매개변수는 랜덤하게 섞을 횟수를 지정한다.
여기서는 10으로 지정하겠다.
기본값은 5이다.
'''

'\n과대적합을 잘 억제하면서 그레이디언트 부스팅보다 조금 더 높은 성능을 제공하는 것을 확인할 수 있다.\n특성 중요도를 확인해 보자.\n\n히스토그램 기반 그레이디언트 부스팅의 특성 중요도를 계산하기 위해 \npermutation_importance() 함수를 사용할 것이다.\n이 함수는 특성을 하나씩 랜덤하게 섞어서 모델의 성능이 변화하는지를 관찰하여\n어떤 특성이 중요한지를 계산한다.\n훈련 세트뿐만 아니라 테스트 세트에도 적용할 수 있고 사이킷런에서 제공하는 추정기 모델에 모두 사용할 수 있다.\n\n먼저 히스토그램 기반 그레이디언트 부스팅 모델을 훈련 후 훈련 세트에서 특성 중요도를 계산해 보겠다.\nn_repeats 매개변수는 랜덤하게 섞을 횟수를 지정한다.\n여기서는 10으로 지정하겠다.\n기본값은 5이다.\n'

In [None]:
# 히스토그램 모델 훈련 후 훈련 세트에서 특성 중요도 확인
from sklearn.inspection import permutation_importance

hgb.fit(train_input, train_target)

result = permutation_importance(hgb, train_input, train_target,
                                n_repeats=10, random_state=42, n_jobs=-1)

print(result.importances_mean)

[0.08876275 0.23438522 0.08027708]


In [None]:
'''
permutation_importance() 함수가 반환하는 객체는 반복하여 얻은
특성 중요도(importances), 평균(importances_mean), 표준 편차(importances_std)를 담고 있다.
평균을 출력해 보면 랜덤 포레스트와 비슷한 비율임을 알 수 있다.
이번에는 테스트 세트에서 특성 중요도를 계산해 보겠다.
'''

'\npermutation_importance() 함수가 반환하는 객체는 반복하여 얻은\n특성 중요도(importances), 평균(importances_mean), 표준 편차(importances_std)를 담고 있다.\n평균을 출력해 보면 랜덤 포레스트와 비슷한 비율임을 알 수 있다.\n이번에는 테스트 세트에서 특성 중요도를 계산해 보겠다.\n'

In [None]:
# 테스트 세트에서 특성 중요도 확인
result = permutation_importance(hgb, test_input, test_target,
                                n_repeats=10, random_state=42, n_jobs=-1)

print(result.importances_mean)

[0.05969231 0.20238462 0.049     ]


In [None]:
'''
테스트 세트의 결과를 보면 그레이디언트 부스팅과 비슷하게 조금 더 당도에 집중하고 있다는 것을 알 수 있다.
이런 분석을 통해 모델을 실전에 투입했을 때 어떤 특성에 관심을 둘지 예상할 수 있다.

그럼 HistGradientBoostingClassifier을 사용해 테스트 세트에서의 성능을 최종 확인해 보자.
'''

'\n테스트 세트의 결과를 보면 그레이디언트 부스팅과 비슷하게 조금 더 당도에 집중하고 있다는 것을 알 수 있다.\n이런 분석을 통해 모델을 실전에 투입했을 때 어떤 특성에 관심을 둘지 예상할 수 있다.\n\n그럼 HistGradientBoostingClassifier을 사용해 테스트 세트에서의 성능을 최종 확인해 보자.\n'

In [None]:
hgb.score(test_input, test_target)

0.8723076923076923

In [None]:
'''
테스트 세트에서는 약 87% 정확도를 얻었다.
실전에 투입하면 성능은 이보다는 조금 더 낮을 것이다.
앙상블 모델은 확실히 단일 결정 트리보다 좋은 결과를 얻을 수 있다!
(5-2 장 랜덤 서치에서의 테스트 정확도는 86%였음)

히스토 그램 기반 그레이디언트 부스팅의 회귀 버전은 HistGradientBoostingRegressor 클래스이다.
사이킷런 말고도 그레이디언트 부스팅 알고리즘을 구현한 라이브러리가 여럿 존재한다.

가장 대표적인 것은 XGBoost이다.
이 라이브러리도 코랩에서 사용 가능하며 사이킷런의 cross_validate() 함수와 함께 사용 가능하다.
XGBoost는 다양한 부스팅 알고리즘을 지원한다.
tree_method 매개변수를 'hist'로 지정하면 히스토그램 기반 그레이디언트 부스팅을 사용할 수 있다.
그럼 XGBoost를 사용해 와인 데이터의 교차 검증 점수를 확인해 보자.
'''

"\n테스트 세트에서는 약 87% 정확도를 얻었다.\n실전에 투입하면 성능은 이보다는 조금 더 낮을 것이다.\n앙상블 모델은 확실히 단일 결정 트리보다 좋은 결과를 얻을 수 있다!\n(5-2 장 랜덤 서치에서의 테스트 정확도는 86%였음)\n\n히스토 그램 기반 그레이디언트 부스팅의 회귀 버전은 HistGradientBoostingRegressor 클래스이다.\n사이킷런 말고도 그레이디언트 부스팅 알고리즘을 구현한 라이브러리가 여럿 존재한다.\n\n가장 대표적인 것은 XGBoost이다. \n이 라이브러리도 코랩에서 사용 가능하며 사이킷런의 cross_validate() 함수와 함께 사용 가능하다.\nXGBoost는 다양한 부스팅 알고리즘을 지원한다.\ntree_method 매개변수를 'hist'로 지정하면 히스토그램 기반 그레이디언트 부스팅을 사용할 수 있다.\n그럼 XGBoost를 사용해 와인 데이터의 교차 검증 점수를 확인해 보자.\n"

In [None]:
!pip install scikit-learn==1.5.2  # Or an earlier compatible version
!pip install --upgrade skorch imbalanced-learn  # Example
from xgboost import XGBClassifier

xgb = XGBClassifier(tree_method='hist', random_state=42)
scores = cross_validate(xgb, train_input, train_target, return_train_score=True, n_jobs=-1)

print(np.mean(scores['train_score']), np.mean(scores['test_score']))

Collecting skorch
  Downloading skorch-1.0.0-py3-none-any.whl.metadata (11 kB)
Collecting imbalanced-learn
  Downloading imbalanced_learn-0.13.0-py3-none-any.whl.metadata (8.8 kB)
Collecting sklearn-compat<1,>=0.1 (from imbalanced-learn)
  Downloading sklearn_compat-0.1.3-py3-none-any.whl.metadata (18 kB)
Downloading skorch-1.0.0-py3-none-any.whl (239 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m239.4/239.4 kB[0m [31m6.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading imbalanced_learn-0.13.0-py3-none-any.whl (238 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m238.4/238.4 kB[0m [31m18.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading sklearn_compat-0.1.3-py3-none-any.whl (18 kB)
Installing collected packages: skorch, sklearn-compat, imbalanced-learn
  Attempting uninstall: imbalanced-learn
    Found existing installation: imbalanced-learn 0.12.4
    Uninstalling imbalanced-learn-0.12.4:
      Successfully uninstalled imbalanced-learn-0.12.4
Su

AttributeError: 'super' object has no attribute '__sklearn_tags__'

In [None]:
'''
널리 사용하는 또 다른 히스토그램 기반 그레이디언트 부스팅 라이브러리는 마이크로소프트에서 만든 LightGBM이다.
LightGBM은 빠르고 최신 기술을 많이 적용하고 있어 인기가 매우 높다.
LightGBM도 코랩에 이미 설치되어 있다.

사이킷런의 히스토그램 기반 그레이디언트 부스팅이 LightGBM에서 영향을 많이 받았다.
이제 히스토그램 기반 그레이디언트 부스팅까지 4개의 앙상블을 모두 다루어 보았다!
'''

'\n널리 사용하는 또 다른 히스토그램 기반 그레이디언트 부스팅 라이브러리는 마이크로소프트에서 만든 LightGBM이다.\nLightGBM은 빠르고 최신 기술을 많이 적용하고 있어 인기가 매우 높다.\nLightGBM도 코랩에 이미 설치되어 있다.\n\n사이킷런의 히스토그램 기반 그레이디언트 부스팅이 LightGBM에서 영향을 많이 받았다.\n이제 히스토그램 기반 그레이디언트 부스팅까지 4개의 앙상블을 모두 다루어 보았다!\n'

In [None]:
from lightgbm import LGBMClassifier

lgb = LGBMClassifier(random_state=42)
scores = cross_validate(lgb, train_input, train_target, return_train_score=True, n_jobs=-1)

print(np.mean(scores['train_score']), np.mean(scores['test_score']))

Dask dataframe query planning is disabled because dask-expr is not installed.

You can install it with `pip install dask[dataframe]` or `conda install dask`.
This will raise in a future version.



0.935828414851749 0.8801251203079884
