<a href="https://colab.research.google.com/github/selfhiam/Machine-Learning-Homework/blob/main/%EB%B6%80%EC%8A%A4%ED%8C%85%2B%EC%8A%A4%ED%83%9C%ED%82%B9.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. 부스팅(Boosting)
* 여러 개의 약한 학습기(Weak Learners)를 순차적으로 학습시켜, 각각의 예측을 결합하여 더 강력한 최종 모델을 만드는 기법
* 초기 전체 데이터에 대한 학습을 진행. 이후 생성되는 학습기는 이전 학습기가 잘못 예측한 데이터에 대해 더 많은 가중치를 두고 학습을 진행.
* 해당 과정을 반복하면서 모델은 점점 더 정확성이 높아짐

### 1-1. 부스팅의 예제

* AdaBoost
    * 간단한 결정 트리를 기반으로 하여, 각각의 반복에서 데이터 포인트에 가중치를 적용.
    * 잘못 분류된 데이터 포인트에 더 높은 가중치를 부여하고, 이를 바탕으로 새로운 학습기를 훈련.
    * 해당 과정이 반복될수록 모델은 점점 더 복잡하고 정확해 진다.

* XGBoost
    * 기울기 부스팅(Gradient Boosting)의 한 형태로, 효율적인 계산과 높은 예측 성능을 자랑
    * 각 단계에서 손실 함수의 기울기를 사용하여 모델을 업데이트
    * 병렬처리, 트리 가지치기, 교차 검증 등의 기능을 포함함.

### 1-2. AdaBoost 예제

In [None]:
from sklearn.datasets import load_iris
from sklearn.ensemble import AdaBoostClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# iris 데이터
iris = load_iris()
X, y  = iris.data, iris.target

# 데이터를 교육용 train, 테스트용 test를 생성함.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=2024)

# AdaBoost 모델 생성
# n_estimators는 사용할 약한 학습기의 수를 지정함.
ada = AdaBoostClassifier(n_estimators=100, random_state=2024)
ada.fit(X_train, y_train)

# 예측값 및 정확도 확인
pred = ada.predict(X_test)
print('정확도 : ', accuracy_score(y_test, pred))

정확도 :  0.8666666666666667


### 1-3. XGBoost 예제

In [None]:
import xgboost as xgb
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# iris 데이터
iris = load_iris()
X, y = iris.data, iris.target

# 데이터를 교육용 train, 테스트용 test를 생성함.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=2024)

# XGBoost 모델 생성
xgb_data = xgb.XGBClassifier()
xgb_data.fit(X_train, y_train)

# 예측 및 정확도 확인
pred1 = xgb_data.predict(X_test)
print("정확도 : ", accuracy_score(y_test, pred1))

정확도 :  0.8333333333333334


# 2. 스태킹(Stac king)
* 스태킹은 여러 가지 다른 모델을 조합하여 새로운 모델을 생성하는 기법.
* 기본 모델(base models)의 예측 결과를 새로운 데이터 세트로 사용하여, 최종 결정을 내리는 메타 모델(meta-model)을 훈련.
* 다양한 종류의 모델들이 초기 예측을 수행, 해당 예측들을 입력 데이터로 하여금 최종 모델이 최종 예측을 수행

### 2-2. 스태킹의 예제
* 기본 모델의 훈련
    * 여러 다른 종류의 모델들을 별도로 훈련시킵니다. 해당 모델은 동일한 데이터 세트에 대해 학습을 수행하지만, 다른 접근 방식을 이용하여 훈련을 진행함.

* 메타 모델의 훈련
    * 기본 모델들의 예측을 새로운 '메타'데이터 세트로 사용하고, 이를 기반으로 메타 모델을 훈련함. 메타모델은 기본 모델들의 예측을 종합하여 최종 예측을 결정함.


### 2-3. 기본 모델의 훈련 예제
* ex) 결정 트리, 랜덤 포레스트, 서포트 벡터 머신(SVM)을 사용하여 학습을 진행함.

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 데이터 로드 및 분할
iris = load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=2024)

des = DecisionTreeClassifier(random_state=2024)
ran = RandomForestClassifier(random_state=2024)
svm = SVC(random_state=2024)

des.fit(X_train, y_train)
ran.fit(X_train, y_train)
svm.fit(X_train, y_train)

des_pred = des.predict(X_test)
print("DecisionTree정확도 : ", accuracy_score(y_test, des_pred))

ran_pred = ran.predict(X_test)
print("RandomForest정확도 : ", accuracy_score(y_test, ran_pred))

svm_pred = svm.predict(X_test)
print("SVC정확도 : ", accuracy_score(y_test, svm_pred))

DecisionTree정확도 :  0.8666666666666667
RandomForest정확도 :  0.9
SVC정확도 :  0.8666666666666667


### 2-4. 메타 모델 예제

In [None]:
import numpy as np
from sklearn.linear_model import LogisticRegression

# 기본 모델의 예측 결과를 새로운 특성으로 사용
meta_X_train = np.column_stack([
    des.predict(X_train),
    ran.predict(X_train),
    svm.predict(X_train)
])

# 메타 모델 정의 및 훈련
meta_model = LogisticRegression(random_state=2024)
meta_model.fit(meta_X_train, y_train)

# 테스트 데이터에 대한 최종 예측
meta_X_test = np.column_stack([
    des.predict(X_test),
    ran.predict(X_test),
    svm.predict(X_test)
])

meta_pred = meta_model.predict(meta_X_test)
print("meta 정확도 : ", accuracy_score(y_test, meta_pred))

meta 정확도 :  0.8666666666666667
