## **Ensemble 과제**

1. noise=0.4인 1000개의 데이터셋을 생성합니다.
2. train_test_split() 을 사용해 훈련 셋과 테스트 셋으로 나눕니다.
3. 간접 투표 방식으로 Logistic Regression, Decision tree classifier를 사용한 bagging classification (#50, #100, #200), SVM 모델을 이용하여 여러 조합의 앙상블 학습을 시도하세요.
4. 가장 좋은 성능을 보이는 조합을 텍스트 셀을 추가하여 작성하세요.

In [20]:
from sklearn.datasets import make_moons
from sklearn.ensemble import  BaggingClassifier, RandomForestClassifier, VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC

In [21]:
X, y= make_moons(n_samples=1000, noise=0.4, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

### **실험 1. DT의 n_estimator를 50으로 설정**

- LogisticRegression
- SVM
- Bagging을 적용한 Decision Tree
  - n_estimator : 50
  - 랜덤 패치 방식으로 특성 샘플링 진행
    - max_samples : 0.8
    - max_features : 0.8

In [37]:
# Bagging으로 결정 트리 설정 (OOB 평가 활성화)
bagged_dt = BaggingClassifier(
    DecisionTreeClassifier(random_state=42),
    n_estimators=50,
    max_samples=0.8, max_features=0.8,
    oob_score=True,
    random_state=42)

# 간접 투표 방식의 앙상블 모델
voting_clf = VotingClassifier(
    estimators=[
        ('lr', LogisticRegression(random_state=42)),
        ('svc', SVC(probability=True, random_state=42)),
        ('bag_dt', bagged_dt)
    ],
    voting = 'soft'
)

voting_clf.fit(X_train, y_train)

In [45]:
# 전체 테스트 세트에 대한 앙상블 모델의 정확도
print(f'Ensemble test accuracy: {voting_clf.score(X_test, y_test):.2f}')

Ensemble test accuracy: 0.85


In [48]:
# 개별 모델의 테스트 세트에 대한 정확도 확인
for name, clf in voting_clf.named_estimators_.items():
  if name == 'bag_dt':
    print(f"{name} OOB accuracy: {clf.oob_score_:.2f}")  # OOB 평가 결과 출력
  print(f'{name} accuracy: {clf.score(X_test, y_test):.2f}')

lr accuracy: 0.84
svc accuracy: 0.86
bag_dt OOB accuracy: 0.75
bag_dt accuracy: 0.75


In [50]:
# 앙상블 모델의 테스트 데이터의 첫번째 샘플에 대한 예측 진행
print(f'Ensemble prediction : {voting_clf.predict(X_test[:1])}')

# 개별 모델을 사용하여 첫번째 샘플에 대한 예측 진행
results = [clf.predict(X_test[:1]) for clf in voting_clf.estimators_]
print(f'Logistic prediction : {results[0]}')
print(f'SVC prediction : {results[1]}')
print(f'Bag_DT prediction : {results[2]}')

Ensemble prediction : [1]
Logistic prediction : [1]
SVC prediction : [1]
Bag_DT prediction : [0]


### **실험 2. DT의 n_estimator를 100으로 설정**

- LogisticRegression
- SVM
- Bagging을 적용한 Decision Tree
  - n_estimator : 100
  - 랜덤 패치 방식으로 특성 샘플링 진행
    - max_samples : 0.8
    - max_features : 0.8

In [51]:
# Bagging으로 결정 트리 설정 (OOB 평가 활성화)
bagged_dt = BaggingClassifier(
    DecisionTreeClassifier(random_state=42),
    n_estimators=100,
    max_samples=0.8, max_features=0.8,
    oob_score=True,
    random_state=42)

# 간접 투표 방식의 앙상블 모델
voting_clf = VotingClassifier(
    estimators=[
        ('lr', LogisticRegression(random_state=42)),
        ('svc', SVC(probability=True, random_state=42)),
        ('bag_dt', bagged_dt)
    ],
    voting = 'soft'
)

voting_clf.fit(X_train, y_train)

In [54]:
# 전체 테스트 세트에 대한 앙상블 모델의 정확도
print(f'Ensemble test accuracy: {voting_clf.score(X_test, y_test):.2f}')

Ensemble test accuracy: 0.85


In [52]:
# 개별 모델의 테스트 세트에 대한 정확도 확인
for name, clf in voting_clf.named_estimators_.items():
  if name == 'bag_dt':
    print(f"{name} OOB accuracy: {clf.oob_score_:.2f}")  # OOB 평가 결과 출력
  print(f'{name} accuracy: {clf.score(X_test, y_test):.2f}')

lr accuracy: 0.84
svc accuracy: 0.86
bag_dt OOB accuracy: 0.76
bag_dt accuracy: 0.78


In [53]:
# 앙상블 모델의 테스트 데이터의 첫번째 샘플에 대한 예측 진행
print(f'Ensemble prediction : {voting_clf.predict(X_test[:1])}')

# 개별 모델을 사용하여 첫번째 샘플에 대한 예측 진행
results = [clf.predict(X_test[:1]) for clf in voting_clf.estimators_]
print(f'Logistic prediction : {results[0]}')
print(f'SVC prediction : {results[1]}')
print(f'Bag_DT prediction : {results[2]}')

Ensemble prediction : [1]
Logistic prediction : [1]
SVC prediction : [1]
Bag_DT prediction : [0]


### **실험 3. DT의 n_estimator를 200으로 설정**

- LogisticRegression
- SVM
- Bagging을 적용한 Decision Tree
  - n_estimator : 200
  - 랜덤 패치 방식으로 특성 샘플링 진행
    - max_samples : 0.8
    - max_features : 0.8

In [58]:
# Bagging으로 결정 트리 설정 (OOB 평가 활성화)
bagged_dt = BaggingClassifier(
    DecisionTreeClassifier(random_state=42),
    n_estimators=200,
    max_samples=0.8, max_features=0.8,
    oob_score=True,
    random_state=42)

# 간접 투표 방식의 앙상블 모델
voting_clf = VotingClassifier(
    estimators=[
        ('lr', LogisticRegression(random_state=42)),
        ('svc', SVC(probability=True, random_state=42)),
        ('bag_dt', bagged_dt)
    ],
    voting = 'soft'
)

voting_clf.fit(X_train, y_train)

In [59]:
# 전체 테스트 세트에 대한 앙상블 모델의 정확도
print(f'Ensemble test accuracy: {voting_clf.score(X_test, y_test):.2f}')

Ensemble test accuracy: 0.86


In [61]:
# 개별 모델의 테스트 세트에 대한 정확도 확인
for name, clf in voting_clf.named_estimators_.items():
  if name == 'bag_dt':
    print(f"{name} OOB accuracy: {clf.oob_score_:.2f}")  # OOB 평가 결과 출력
  print(f'{name} accuracy: {clf.score(X_test, y_test):.2f}')

lr accuracy: 0.84
svc accuracy: 0.86
bag_dt OOB accuracy: 0.78
bag_dt accuracy: 0.76


In [62]:
# 앙상블 모델의 테스트 데이터의 첫번째 샘플에 대한 예측 진행
print(f'Ensemble prediction : {voting_clf.predict(X_test[:1])}')

# 개별 모델을 사용하여 첫번째 샘플에 대한 예측 진행
results = [clf.predict(X_test[:1]) for clf in voting_clf.estimators_]
print(f'Logistic prediction : {results[0]}')
print(f'SVC prediction : {results[1]}')
print(f'Bag_DT prediction : {results[2]}')

Ensemble prediction : [1]
Logistic prediction : [1]
SVC prediction : [1]
Bag_DT prediction : [0]


### **실험 4. DT의 n_estimator를 200으로 설정, 특성 샘플링 파라미터 조정(높임)**

- LogisticRegression
- SVM
- Bagging을 적용한 Decision Tree
  - n_estimator : 200
  - 랜덤 패치 방식
    - max_samples : 0.9
    - max_features : 0.9

In [72]:
# Bagging으로 결정 트리 설정 (OOB 평가 활성화)
bagged_dt = BaggingClassifier(
    DecisionTreeClassifier(random_state=42),
    n_estimators=200,
    max_samples=0.9, max_features=0.9,
    oob_score=True,
    random_state=42)

# 간접 투표 방식의 앙상블 모델
voting_clf = VotingClassifier(
    estimators=[
        ('lr', LogisticRegression(random_state=42)),
        ('svc', SVC(probability=True, random_state=42)),
        ('bag_dt', bagged_dt)
    ],
    voting = 'soft'
)

voting_clf.fit(X_train, y_train)

In [73]:
# 전체 테스트 세트에 대한 앙상블 모델의 정확도
print(f'Ensemble test accuracy: {voting_clf.score(X_test, y_test):.2f}')

Ensemble test accuracy: 0.86


In [74]:
# 개별 모델의 테스트 세트에 대한 정확도 확인
for name, clf in voting_clf.named_estimators_.items():
  if name == 'bag_dt':
    print(f"{name} OOB accuracy: {clf.oob_score_:.2f}")  # OOB 평가 결과 출력
  print(f'{name} accuracy: {clf.score(X_test, y_test):.2f}')

lr accuracy: 0.84
svc accuracy: 0.86
bag_dt OOB accuracy: 0.77
bag_dt accuracy: 0.76


In [75]:
# 앙상블 모델의 테스트 데이터의 첫번째 샘플에 대한 예측 진행
print(f'Ensemble prediction : {voting_clf.predict(X_test[:1])}')

# 개별 모델을 사용하여 첫번째 샘플에 대한 예측 진행
results = [clf.predict(X_test[:1]) for clf in voting_clf.estimators_]
print(f'Logistic prediction : {results[0]}')
print(f'SVC prediction : {results[1]}')
print(f'Bag_DT prediction : {results[2]}')

Ensemble prediction : [1]
Logistic prediction : [1]
SVC prediction : [1]
Bag_DT prediction : [0]


### **실험 5. 랜덤 서브스페이스 방식의 특성 샘플링을 적용**

- LogisticRegression
- SVM
- Bagging을 적용한 Decision Tree
  - n_estimator : 200
  - 랜덤 서브스페이스 방식
    - max_samples : 1.0
    - max_features : 0.9

In [76]:
# Bagging으로 결정 트리 설정 (OOB 평가 활성화)
bagged_dt = BaggingClassifier(
    DecisionTreeClassifier(random_state=42),
    n_estimators=200,
    max_samples=1.0, max_features=0.9,
    oob_score=True,
    random_state=42)

# 간접 투표 방식의 앙상블 모델
voting_clf = VotingClassifier(
    estimators=[
        ('lr', LogisticRegression(random_state=42)),
        ('svc', SVC(probability=True, random_state=42)),
        ('bag_dt', bagged_dt)
    ],
    voting = 'soft'
)

voting_clf.fit(X_train, y_train)

In [77]:
# 전체 테스트 세트에 대한 앙상블 모델의 정확도
print(f'Ensemble test accuracy: {voting_clf.score(X_test, y_test):.2f}')

Ensemble test accuracy: 0.86


In [78]:
# 개별 모델의 테스트 세트에 대한 정확도 확인
for name, clf in voting_clf.named_estimators_.items():
  if name == 'bag_dt':
    print(f"{name} OOB accuracy: {clf.oob_score_:.2f}")  # OOB 평가 결과 출력
  print(f'{name} accuracy: {clf.score(X_test, y_test):.2f}')

lr accuracy: 0.84
svc accuracy: 0.86
bag_dt OOB accuracy: 0.76
bag_dt accuracy: 0.75


In [81]:
# 앙상블 모델의 테스트 데이터의 첫번째 샘플에 대한 예측 진행
print(f'Ensemble prediction : {voting_clf.predict(X_test[:1])}')

# 개별 모델을 사용하여 첫번째 샘플에 대한 예측 진행
results = [clf.predict(X_test[:1]) for clf in voting_clf.estimators_]
print(f'Logistic prediction : {results[0]}')
print(f'SVC prediction : {results[1]}')
print(f'Bag_DT prediction : {results[2]}')

Ensemble prediction : [1]
Logistic prediction : [1]
SVC prediction : [1]
Bag_DT prediction : [0]


### **결과분석**

실험 3의 결과가 가장 좋은 성능을 보였다.

실험 3의 앙상블 방법과 파라미터 조합은 다음과 같다.

- LogisticRegression
- SVM
- Bagging을 적용한 Decision Tree
  - n_estimator : 200
  - 랜덤 패치 방식으로 특성 샘플링 진행
    - max_samples : 0.8
    - max_features : 0.8

<br>
전체 테스트 세트에 대한 앙상블 모델의 정확도는 0.86으로, 실험 4, 실험5의 정확도와 같게 나왔지만, 개별 모델의 테스트 세트에 대한 정확도 평가에서 Decision Tree의 OOB 정확도가 실험 3에서 가장 높게 나왔다. <br> 실험 3 에서는 bag_dt의 OOB 정확도가 0.78, bag_dt의 테스트 정확도는 0.76이 나왔고, 이를 통해 실험 3의 모델이 학습과정에서 사용되지 않은 외부 데이터셋에서 일반화를 더 잘 한다는 것을 알 수 있다. <br>
실험 4, 5 에서도 모두 bag_dt에 대한 OOB 정확도가 테스트 정확도 보다 높아 실험 3,4,5 모두 학습 데이터에 과대적합되지 않음을 알 수 있었지만, 그 중에서 실험 3의 OOB 정확도가 가장 높았으므로 실험 3의 결과가 가장 성능이 좋았음을 알 수 있었다.