In [1]:
# 1) 앙상블 분석
# - 여러 개의 학습 모형을 만든 후 학습 모형을 조합하여 하나의 최종 모형 생성
# - 보다 높은 신뢰성 확보
# - 정확도 상승
# - 이상값에 대응력 상승
# - 분산 감소
# - 원인 분석에 부적합

In [2]:
# 보팅
# - 기법: 다양한 종류의 모델 사용
# - 데이터 : 동일한 학습 데이터 사용
# 배깅
# - 기법: 하나의 모델에 학습 데이터를 다르게 하여 사용
# - 데이터 : 모델 수행 마다 서로 다른 학습 데이터 샘플링
#            병렬적 처리
#            랜덤 포레스트
# 부스팅
# - 데이터 : 이전 모델의 오분류된 데이터를 재학습에 사용(가중치)
#            순차적 처리

In [3]:
# 배깅 분류
# sklearn.ensemble.BaggingClassifier()
# base_estimator : 분류기(default = DecisionTreeClassifier)
# n_estimator : 분류기의 수 (default = 10)
# max_samples : 학습을 위해 추출할 샘플의 수 (default = 1.0)
# max_features : 학습을 위해 사용할 컬럼의 수(default = 1.0)

In [4]:
from sklearn.ensemble import BaggingClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

In [5]:
iris = load_iris()
X_train,X_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size = 0.2, random_state=1234, stratify = iris.target)

In [6]:
bag_C_1= BaggingClassifier(n_estimators= 30, random_state = 1234)
model_bag_C_1 = bag_C_1.fit(X_train,y_train)

In [7]:
from sklearn.metrics import f1_score
y_pred_1 = model_bag_C_1.predict(X_test)

In [8]:
macro_f1_1 = f1_score(y_test,y_pred_1,average = 'macro')
print(macro_f1_1)

0.9333333333333332


In [9]:
# 배깅 회귀
# sklearn.ensemble.BaggingRegressor()
# base_estimator : 분류기(default = DecisionTreeClassifier)
# n_estimator : 분류기의 수 (default = 10)
# max_samples : 학습을 위해 추출할 샘플의 수 (default = 1.0)
# max_features : 학습을 위해 사용할 컬럼의 수(default = 1.0)

In [10]:
from sklearn.ensemble import BaggingRegressor
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_diabetes

In [11]:
diabetes = load_diabetes()
X_train,X_test,y_train,y_test = train_test_split(diabetes.data,diabetes.target,test_size = 0.2, random_state = 1234)

In [12]:
bag_R_1 = BaggingRegressor(n_estimators = 30, random_state = 1234)
model_bag_R_1 = bag_R_1.fit(X_train,y_train)

In [13]:
bag_R_2 = BaggingRegressor(n_estimators = 100, random_state =1234)
model_bag_R_2 = bag_R_2.fit(X_train,y_train)

In [14]:
from sklearn.metrics import mean_absolute_error
y_pred_1 = model_bag_R_1.predict(X_test)
y_pred_2 = model_bag_R_2.predict(X_test)

In [15]:
mae_1 = mean_absolute_error(y_test,y_pred_1)
mae_2 = mean_absolute_error(y_test,y_pred_2)
print(mae_1,mae_2)

47.651685393258425 45.66876404494382


In [16]:
# 랜덤포레스트 분류
# sklearn.ensemble_RandomForestClassifier()
# - n_estimators : 트리의 수(default = 100)
# - criterion : 분할 기준(default = 'gini')
# - max_depth : 트리의 깊이(default = None)
# - max_features : 학습을 위해 사용할 컬럼의 수(default = 'sqrt')
# - min_sample_leaf : 리프 노드에 있어야 하는 최소 샘플 수(default = 1)

In [17]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

In [18]:
iris = load_iris()
X_train,X_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size = 0.2, random_state = 1234, stratify = iris.target)

In [19]:
rf_C_1 = RandomForestClassifier()
model_rf_C_1 = rf_C_1.fit(X_train,y_train)

In [20]:
rf_C_2 = RandomForestClassifier(n_estimators = 100, max_depth = 3, min_samples_leaf =10, random_state=1111)
model_rf_C_2 = rf_C_2.fit(X_train,y_train)

In [21]:
from sklearn.metrics import f1_score
y_pred_1 = model_rf_C_1.predict(X_test)
y_pred_2 = model_rf_C_2.predict(X_test)

In [22]:
macro_f1_1 = f1_score(y_test,y_pred_1, average = 'macro')
macro_f1_2 = f1_score(y_test,y_pred_2, average = 'macro')
print(macro_f1_1,macro_f1_2)

0.9333333333333332 0.8653198653198654


In [23]:
# 랜덤포레스트 회귀
# sklearn.ensemble.RandomForestRegressor()
# - n_estimators : 트리의 수(default = 100)
# - criterion : 분할 기준(default = 'gini')
# - max_depth : 트리의 깊이(default = None)
# - max_features : 학습을 위해 사용할 컬럼의 수(default = 'sqrt')
# - min_sample_leaf : 리프 노드에 있어야 하는 최소 샘플 수(default = 1)

In [24]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_diabetes

In [25]:
diabetes = load_diabetes()
X_train,X_test,y_train,y_test = train_test_split(diabetes.data,diabetes.target,test_size = 0.2, random_state = 1234)

In [26]:
rf_R_1 = RandomForestRegressor()
model_rf_R_1 = rf_R_1.fit(X_train,y_train)

In [28]:
rf_R_2 = RandomForestRegressor(n_estimators = 300, max_depth = 3, min_samples_leaf = 10, max_features = 'log2', random_state = 1111)
model_rf_R_2 = rf_R_2.fit(X_train,y_train)

In [29]:
from sklearn.metrics import mean_absolute_error
y_pred_1 = model_rf_R_1.predict(X_test)
y_pred_2 = model_rf_R_2.predict(X_test)

In [30]:
mae_1 = mean_absolute_error(y_test,y_pred_1)
mae_2 = mean_absolute_error(y_test,y_pred_2)
print(mae_1,mae_2)

46.94179775280899 45.32192264891654


In [31]:
# AdaBoost 분류
# sklearn.ensemble.AdaBoostClassifier()
# estimator : 분류기(default = 'DecisionTreeClassifier)
# n_estimators : 분류기의 수(default = 50)
# learning_rate : 분류기에 적용되는 가중치(default = 1.0)

In [32]:
# AdaBoost 회귀
# sklearn.ensemble.AdaBoostRegressor()
# estimator : 분류기(default = 'DecisionTreeClassifier)
# n_estimators : 분류기의 수(default = 50)
# learning_rate : 분류기에 적용되는 가중치(default = 1.0)
# loss : 손실함수(default = 'linear')

In [33]:
# LightGBM 분류
# lightgbm.LGBMClassifier()
# max_depth : 트리의 최대 깊이, <=0(default = -1)
# n_estimators : 수행할 부스팅 단계의 수(default = 100)
# boosting_type : 부스팅 종류(default = 'gbdt')
#                 'gbdf','rf'
# learning_rate : 부스팅 시 적용되는 가중치(default = 0.1)
# objective : 'binary', 'multiclass'

In [34]:
from lightgbm import LGBMClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

In [35]:
iris = load_iris()
X_train,X_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.2,random_state = 1234, stratify = iris.target)

In [36]:
lgb_C_1 = LGBMClassifier(n_estimators = 500, max_depth = 8, n_jobs= 5, min_child_weight = 10, objective = 'multiclass', random_state = 1111)
model_lgb_C_1 = lgb_C_1.fit(X_train,y_train)

[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.000026 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 88
[LightGBM] [Info] Number of data points in the train set: 120, number of used features: 4
[LightGBM] [Info] Start training from score -1.098612
[LightGBM] [Info] Start training from score -1.098612
[LightGBM] [Info] Start training from score -1.098612


In [37]:
lgb_C_2 = LGBMClassifier(n_estimators = 300, max_depth = 5, n_jobs = 5, min_child_weight= 10 ,learning_rate = 1.0, objective= 'multiclass',random_state=2222)
model_lgb_C_2 = lgb_C_2.fit(X_train,y_train)

[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000017 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 88
[LightGBM] [Info] Number of data points in the train set: 120, number of used features: 4
[LightGBM] [Info] Start training from score -1.098612
[LightGBM] [Info] Start training from score -1.098612
[LightGBM] [Info] Start training from score -1.098612


In [38]:
from sklearn.metrics import f1_score
y_pred_1 = model_lgb_C_1.predict(X_test)
y_pred_2 = model_lgb_C_2.predict(X_test)

In [40]:
macro_f1_1 = f1_score(y_test,y_pred_1,average = 'macro')
macro_f1_2 = f1_score(y_test,y_pred_2,average = 'macro')
print(macro_f1_1,macro_f1_2)

0.9333333333333332 0.8288613691090472
