In [1]:
# Warning 생략
import warnings
warnings.filterwarnings('ignore')
# Pandas
import pandas as pd
# Numpy
import numpy as np
# ML 저장
import joblib
# 그래프
import matplotlib.pyplot as plt
# Seaborn
import seaborn as sns

# ML Data 나누기
from sklearn.model_selection import train_test_split
# Decision Tree
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree
# Random Forest
from sklearn.ensemble import RandomForestClassifier
# SVM
from sklearn import svm
from sklearn.svm import SVC
# Neural Net
from sklearn.neural_network import MLPClassifier
# QDA
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
# Naive Bayes
from sklearn.naive_bayes import GaussianNB
# AdaBoost
from sklearn.ensemble import AdaBoostClassifier
# Gaussian Process
from sklearn.gaussian_process import GaussianProcessClassifier
# KNN
from sklearn.neighbors import KNeighborsClassifier
# 회귀모델
from sklearn.neighbors import KNeighborsRegressor
# 선형회귀
from sklearn.linear_model import LinearRegression
# 표준화
from sklearn.preprocessing import StandardScaler
# 로지스틱 회귀 모델
from sklearn.linear_model import LogisticRegression
# KFold
from sklearn.model_selection import StratifiedKFold
# Gradient Boosting
from sklearn.ensemble import GradientBoostingClassifier
# 히스토그램기반 gradient boosting
from sklearn.experimental import enable_hist_gradient_boosting
from sklearn.ensemble import HistGradientBoostingClassifier
# xgboost classifier
from xgboost import XGBClassifier

# 평균 절대값 오차
from sklearn.metrics import mean_absolute_error

from sklearn.model_selection import cross_val_score

# 확률적 경사하강법의 분류 알고리즘 적용
from sklearn.linear_model import SGDClassifier

# 교차 검증
from sklearn.model_selection import cross_validate


# Cluster
from sklearn.cluster import KMeans
# Voting
from sklearn.ensemble import VotingClassifier
# 정확도 측정
from sklearn.metrics import accuracy_score

# 한글 폰트 문제 해결 
# matplotlib은 한글 폰트를 지원하지 않음
# os정보
import platform

# font_manager : 폰트 관리 모듈
# rc : 폰트 변경 모듈
from matplotlib import font_manager, rc
# unicode 설정
plt.rcParams['axes.unicode_minus'] = False

if platform.system() == 'Darwin':
    rc('font', family='AppleGothic') # os가 macos
elif platform.system() == 'Windows':
    path = 'c:/Windows/Fonts/malgun.ttf' # os가 windows
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)
else:
    print("Unknown System")

### 앙상블(Ensemble)
- 여러개의 분류 모델을 조합해서 더 나은 성능을 내는 방법
- Decision Tree 모델을 증가시켜 나온 RandomForest가 대표적임.

- bootstrap: 첫 번째 트리에서 데이터 뽑아서 사용하고 또 집어넣고 뽑아 쓰는 방식

#### RandomForest       
- 부트스트랩 샘플을 사용합니다. 부트스트랩 샘플링은 중복을 허용하는 샘플링 방법     
- 샘플링 후에 샘플을 다시 복구하고 다시 샘플링하는 방법입니다.      
- 이와 같이 진행하는 이유는 결정트리에서 과대적합을 방지할 수 있기 때문이다.       
- 각 결정트리에서 나오는 확률의 합을 트리개수로 나누어 결정짓는 모델        
- 특성의 개수를 제곱근으로 합니다. (데이터 뽑을 때 개수: 루트를 씌워서 해당 개수만큼 뽑는다.)       

In [2]:
wine = pd.read_csv("../Data/wine.csv")
wine.head()

Unnamed: 0,alcohol,sugar,pH,class
0,9.4,1.9,3.51,0.0
1,9.8,2.6,3.2,0.0
2,9.8,2.3,3.26,0.0
3,9.8,1.9,3.16,0.0
4,9.4,1.9,3.51,0.0


In [3]:
# feature, target
data = wine[['alcohol', 'sugar', 'pH']].to_numpy()
target = wine['class'].to_numpy()

In [4]:
# Train, Test
train_input, test_input, train_target, test_target = \
    train_test_split(data, target, test_size=0.2, random_state=42)

In [6]:
rf = RandomForestClassifier(n_jobs=-1, random_state=42)
scores = cross_validate(rf, train_input, train_target, return_train_score=True, n_jobs=-1)
print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.9973541965122431 0.8905151032797809


In [7]:
# 주요 Feature 확인
rf.fit(train_input, train_target)
print(rf.feature_importances_)      # sugar가 중요하다.(중간, 슈가 값이 높음)

[0.23167441 0.50039841 0.26792718]


In [8]:
# 부트스트랩 결정 시 남는 샘플(oob: out of back)도 특성으로 구분할 수 있다.
# 만약 샘플 100개 중 10개를 뽑아서 사용했다면 나머지 90개 가지고도 예측할 수 있다.
# 검증세트, valid 역할 할 수 있다.
rf = RandomForestClassifier(oob_score=True, n_jobs=-1, random_state=42)
rf.fit(train_input, train_target)
rf.oob_score_

0.8934000384837406

> oob를 사용해도 90%의 예측이 나온다        
> 따로 검증셋을 구성하지 않아도 oob로 검증세트의 역할을 대신할 수 있다.

> RandomForest는 기본값 만으로도 높은 성능을 발휘하므로 자주 사용되는 모델(알고리즘) 중 하나이다.

---
### Extra Tree
- 기본적으로 100개의 트리를 사용        
- 노드 분할 시 특성의 제곱근을 개수로 사용      
- 특성의 선택을 랜덤하게 선택한다.      
- 특성의 선택을 랜덤하게 하므로 속도는 랜덤포레스트보다 빠르다.     

In [9]:
from sklearn.ensemble import ExtraTreesClassifier

et = ExtraTreesClassifier(n_jobs=-1, random_state=42)
scores = cross_validate(et, train_input, train_target, return_train_score=True, n_jobs=-1)
print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.9974503966084433 0.8887848893166506


In [10]:
et.fit(train_input, train_target)
et.feature_importances_     # 역시 설탕이 높다

array([0.20183568, 0.52242907, 0.27573525])

---
### Gradient Boostring
- 가장 유명한 알고리즘 중 하나이다.     
- 경사하강법처럼 손실함수를 사용.       
- 손실함수를 보고 트리를 추가하여 최적의 값 도출하는 방법       
- 경사를 이동하면서 경사의 이동거리를 제어하는 learning-rate(default: 0.1)를 사용한다.     *learning-rate: 경사 이동률(증가율)
- max depth를 3으로 제어하여 깊이가 낮으므로 과대적합 방지
- 단점은 손실함수를 보고 트리를 추가하면서 진행하는 모델이므로 병렬처리를 할 수 없다.(multi-processing 못함)

In [11]:
from sklearn.ensemble import GradientBoostingClassifier
gb = GradientBoostingClassifier(random_state=42)
scores = cross_validate(gb, train_input, train_target, return_train_score=True, n_jobs=-1)
print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.8881086892152563 0.8720430147331015


tree 추가를 500개까지하고 learning rate를 0.2로 변경

In [12]:
gb = GradientBoostingClassifier(n_estimators=500, learning_rate=0.2, random_state=42)
scores = cross_validate(gb, train_input, train_target, return_train_score=True, n_jobs=-1)
print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.9464595437171814 0.8780082549788999


In [13]:
gb.fit(train_input, train_target)
gb.feature_importances_     # 역시 설탕이 높다

array([0.15872278, 0.68010884, 0.16116839])

---
### 히스토그램 기반 그래디언트 부스팅(Histogram gradient boosting)
- 훈련데이터를 256개 구간으로 나누어서 훈련시키는 방법.
- 특성의 범위가 제한되어 있어 빠른 속도를 제공한다.
- 제한된 구간이므로 과대적합을 방지한다.
- 아직은 실험단계인 모델이다.

In [16]:
# from sklearn.experimental import enable_hist_gradient_boosting
# from sklearn.ensemble import HistGradientBoostingClassifier

hgb = HistGradientBoostingClassifier(random_state=42)
scores = cross_validate(hgb, train_input, train_target, return_train_score=True, n_jobs=-1)
print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.9321723946453317 0.8801241948619236


### XGBoost
- kaggle에서 많이 사용
- 왠만한 xgboost는 랜덤포레스트 이김 

In [17]:
# !pip install xgboost

Collecting xgboost
  Downloading xgboost-1.7.3-py3-none-macosx_12_0_arm64.whl (1.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.6/1.6 MB[0m [31m13.7 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Installing collected packages: xgboost
Successfully installed xgboost-1.7.3


In [19]:
from xgboost import XGBClassifier

xgb = XGBClassifier(
    tree_method = 'hist',
    random_state = 42,
    use_label_encoder = False,
    eval_metrics = 'logloss',   #히스토그램 모듈(히스토그램 그레디언트 부스팅) 가져다 쓰겠다. 
)
scores = cross_validate(xgb, train_input, train_target, return_train_score=True, n_jobs=-1)
print(np.mean(scores['train_score']), np.mean(scores['test_score']))

Parameters: { "eval_metrics" } are not used.
Parameters: { "eval_metrics" } are not used.


Parameters: { "eval_metrics" } are not used.

Parameters: { "eval_metrics" } are not used.

Parameters: { "eval_metrics" } are not used.

0.9555033709953124 0.8799326275264677


---
# 번외 기능 - feature 컬럼 선택할 때 사용하면 좋다.
#### Permutation Importance(치환 중요도)
- 어느 Feature 컬럼이 중요한 지 파악하는 것이 중요하다.
- 각 Feature별 Sample을 섞어서 계산을 한 후에 원래 Sample들과의 차이를 계산해서 차이가 많이 나는 Feature가 중요하다고 판단.
- 즉, 어느 Feature가 중요한 지 파악하는 방법
- 어떤 모델에도 사용가능하며 특성을 파악하는 주요 기준으로 사용된다. (권장사항)


In [22]:
from sklearn.inspection import permutation_importance

xgb.fit(train_input, train_target)
result = permutation_importance(xgb, train_input, train_target, n_repeats=10, random_state=42, n_jobs=-1)
result.importances_mean

Parameters: { "eval_metrics" } are not used.



array([0.11306523, 0.25508947, 0.10696556])

In [23]:
gb.fit(train_input, train_target)
result = permutation_importance(gb, train_input, train_target, n_repeats=10, random_state=42, n_jobs=-1)
result.importances_mean

array([0.09661343, 0.24265923, 0.09120647])

---
# 앙상블 정리
- 앙상블 학습은 정형데이터에서 가장 뛰어난 성능을 내는 머신러닝 알고리즘 중 하나입니다.
        
#### 랜덤포레스트
: 부트스트랩 샘플 사용, 대표 앙상블 학습 알고리즘   

#### 엑스트라 트리
: 결정트리의 노드를 랜덤하게 분할함.    

#### 그레디언트 부스팅
: 트리의 손실을 보완하는 식으로 얕은 결정트리를 연속하여 추가함.

#### 히스토그램 기반 그레디언트 부스팅
: 훈련 데이터를 256개 정수 구간으로 나누어 빠르고 높은 성능을 냄.

#### 기타
- XGBoost