# **1.분류 & 결정 트리**

## 문제 1: 다른 데이터셋 (Digits) 활용
- `sklearn.datasets.load_digits()`을 사용하여 `Digits` 데이터셋을 불러오세요.
- `DecisionTreeClassifier` 모델을 학습한 후 테스트 데이터에 대해 예측하고, 정확도를 출력하세요

In [None]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# 문제 1: 데이터셋 (Digits) 활용
# 답안
digits = load_digits()
X, y = digits.data, digits.target

#데이터셋 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)

#의사결정 나무 분류
clf = DecisionTreeClassifier(random_state = 42)
clf.fit(X_train, y_train)

#예측
y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

#정확도 출력
print(f"Decision Tree Classifier Accuracy:{accuracy:.4f}")

Decision Tree Classifier Accuracy:0.8417


## 문제 2: 결정 트리의 max_depth 설정하기
- `DecisionTreeClassifier(max_depth=3)`로 모델을 학습하세요.
- `max_depth=3`을 설정했을 때와 설정하지 않았을 때의 성능을 비교하세요.

In [None]:
# 문제 2: 결정 트리의 max_depth 설정하기
# 답안

#max_depth = 3 설정 X
clf_default = DecisionTreeClassifier(random_state = 42)
clf_default.fit(X_train, y_train)

y_pred_default = clf_default.predict(X_test)
accuracy_default = accuracy_score(y_test, y_pred_default)
print(f"default Accuracy:{accuracy_default:.4f}")


#max_depth = 3 설정
clf_depth = DecisionTreeClassifier(max_depth = 3, random_state = 42)
clf_depth.fit(X_train, y_train)

y_pred_depth = clf_depth.predict(X_test)
accuracy_depth = accuracy_score(y_test, y_pred_depth)
print(f"max_depth = 3 Accuracy:{accuracy_default:.4f}")

default Accuracy:0.8417
max_depth = 3 Accuracy:0.8417


## 문제 3: 피처 중요도 출력
- 학습된 결정 트리 모델에서 각 피처의 중요도를 출력하세요.

In [None]:
# 문제 3: 피처 중요도 출력
clf = DecisionTreeClassifier(random_state = 42)
clf.fit(X_train, y_train)
print("Feature Importances:", clf.feature_importances_)

Feature Importances: [0.         0.         0.00887071 0.00879473 0.00372281 0.06186624
 0.         0.         0.         0.00292376 0.03167032 0.
 0.00915329 0.00103113 0.00351319 0.00197203 0.00151764 0.00123735
 0.01607867 0.01031511 0.04876271 0.10218427 0.         0.00103113
 0.00153196 0.00077334 0.06868146 0.06456474 0.01061157 0.
 0.00470776 0.         0.         0.05952415 0.00366745 0.0077273
 0.08259308 0.01595139 0.0046714  0.         0.         0.
 0.12712724 0.04639961 0.         0.00235686 0.01637011 0.
 0.         0.00077334 0.00970623 0.01066063 0.00349863 0.00447832
 0.01724102 0.         0.         0.         0.00963409 0.00201069
 0.06260576 0.03400693 0.00524193 0.0082379 ]


## 문제 4: train_test_split 비율 변경
- `train_test_split`을 사용하여 학습 데이터와 테스트 데이터를 **70:30** 비율로 나누세요.
- 기존의 80:20 비율과 비교하여 정확도를 출력하세요.

In [None]:
# 문제 4: train_test_split 비율 변경
# 70:30
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
model = DecisionTreeClassifier()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"70:30 Accuracy:{accuracy:.4f}")

#80:20
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
model = DecisionTreeClassifier()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"80:20 Accuracy:{accuracy:.4f}")


70:30 Accuracy:0.8463
80:20 Accuracy:0.8528


## 문제 5: GridSearchCV를 활용한 최적 하이퍼파라미터 찾기
- `GridSearchCV`를 사용하여 `max_depth`와 `min_samples_split`에 대한 최적의 하이퍼파라미터를 찾으세요.
- 최적의 하이퍼파라미터와 최고 정확도를 출력하세요.

In [None]:
# 문제 5: GridSearchCV를 활용한 최적 하이퍼파라미터 찾기
from sklearn.model_selection import GridSearchCV

params = {'max_depth':[3,5,10],
          'min_samples_split':[2,5,10]}

#GridSearch
grid_search = GridSearchCV(DecisionTreeClassifier(), params, cv=5, scoring = 'accuracy')
grid_search.fit(X_train, y_train)

#최적의 하이퍼 파라미터
best_params = grid_search.best_params_
print("Best Parameters:", best_params)

#최고 정확도
best_score = grid_search.best_score_
print("Best Score:", best_score)

Best Parameters: {'max_depth': 10, 'min_samples_split': 2}
Best Score: 0.8392445799457995


# **2. 앙상블**

## **1) wine 데이터셋 로드 및 훈련/테스트 분리**
wine 데이터를 불러온 후, 훈련 세트와 테스트 세트로 나눠주세요.
*   test_size = 0.25
*   random_state = 11

In [None]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split

# 데이터 로드 및 분리
## 답안 ##
wine = load_wine()
X_train, X_test, y_train , y_test = train_test_split(wine.data, wine.target, test_size = 0.25, random_state = 11)

## **2) SVC, RandomForest, GradientBoosting 모델 학습 및 정확도 평가**
다음 모델을 사용해 개별 학습/예측/정확도 평가를 진행하세요.
*   서포트 벡터 머신: probability=True
*   랜덤 포레스트: n_estimators=100, random_state=11
*   GradientBoostingClassifier: random_state=11




In [None]:
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.metrics import accuracy_score

# 모델 정의
## 답안 ##

#SVC
svc = SVC(probability = True)
svc.fit(X_train, y_train)
y_pred_svc = svc.predict(X_test)
accuracy_svc = accuracy_score(y_test, y_pred_svc)
print("SVC Accuracy:", accuracy_svc)

#RandomForest
rf = RandomForestClassifier(n_estimators = 100, random_state = 11)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)
accuracy_rf = accuracy_score(y_test, y_pred_rf)
print("RandomForest Accuracy:", accuracy_rf)

#GradientBoostingClassifier
gb = GradientBoostingClassifier(random_state = 11)
gb.fit(X_train, y_train)
y_pred_gb = gb.predict(X_test)
accuracy_gb = accuracy_score(y_test, y_pred_gb)
print("GradientBoostingClassifier Accuracy:", accuracy_gb)

SVC Accuracy: 0.8
RandomForest Accuracy: 0.9777777777777777
GradientBoostingClassifier Accuracy: 0.9555555555555556


## **3) 하드 보팅 분류기 생성 및 평가**
위에서 만든 모델 3개를 기반으로 하드 보팅 방식의 분류기를 만들고, 학습 및 테스트 정확도를 출력하세요.

In [None]:
from sklearn.ensemble import VotingClassifier

# 하드 보팅
## 답안 ##

hard_clf = VotingClassifier(estimators = [('svc', svc), ('rf', rf), ('gb', gb)], voting = 'hard')
hard_clf.fit(X_train, y_train)
y_pred_hard = hard_clf.predict(X_test)

print("Hard Voting Accuracy:", accuracy_score(y_test, y_pred_hard))

Hard Voting Accuracy: 0.9555555555555556


## **4) 소프트 보팅 분류기 생성 및 평가**
같은 모델 3개로 소프트 보팅 방식의 분류기를 만들어서 학습/평가하세요.

In [None]:
# 소프트 보팅
## 답안 ##
soft_clf = VotingClassifier(estimators = [('svc', svc), ('rf', rf), ('gb', gb)], voting = 'soft')
soft_clf.fit(X_train, y_train)
y_pred_soft = soft_clf.predict(X_test)

print("Soft Voting Accuracy:", accuracy_score(y_test, y_pred_soft))

Soft Voting Accuracy: 0.9555555555555556


## **5) OOB 평가**
다음 조건에 맞춰 BaggingClassifier를 사용하여 OOB 평가를 수행하세요.

*   Base 모델: GradientBoostingClassifier()
*   n_estimators = 50
*   bootstrap=True

OOB 점수를 출력하세요.

In [None]:
from sklearn.ensemble import BaggingClassifier

## 답안 ##

bag_clf = BaggingClassifier(GradientBoostingClassifier(), n_estimators=50, bootstrap=True, oob_score=True)
bag_clf.fit(X_train, y_train)
print("OOB Score:", bag_clf.oob_score_)

OOB Score: 0.9548872180451128


# **3. 랜덤 포레스트(Random Forest)**

**1) 사이킷런의 load_wine 데이터셋을 RandomForestClassifier을 이용해 예측하시오.**

In [None]:
# 필요한 라이브러리 임포트
import numpy as np
import pandas as pd
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# 데이터셋 로드
wine = load_wine()
X = wine.data
y = wine.target

# 데이터셋을 학습 세트와 테스트 세트로 분리(test_size=0.2, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)

# 랜덤 포레스트 모델 생성 및 훈련
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# 테스트 세트로 예측
y_pred = model.predict(X_test)

# 정확도 평가
accuracy = accuracy_score(y_test, y_pred)
print('랜덤 포레스트 정확도: {0:.4f}'.format(accuracy))

랜덤 포레스트 정확도: 1.0000


**2) load_wine 데이터셋을 이용해 GradientBoostingClassifier 모델을 학습하고, GridSearchCV를 활용해 최적의 하이퍼 파라미터를 찾으시오.**

✅ 조건
1. 데이터셋: load_wine() 사용
2. 훈련 데이터(80%) / 테스트 데이터(20%)로 분리
3. 하이퍼파라미터 튜닝(GridSearchCV 사용)
4. learning_rate: [0.01, 0.1, 0.2]
   n_estimators: [100, 200, 300]
   max_depth: [3, 5, 7]
5. 최적의 하이퍼파라미터를 찾은 후 모델 학습 & 평가
6. 테스트 데이터에서 정확도를 출력

✅ 참고사항

실행 시간이 오래 소요될 수 있습니다!

In [2]:
# 필요한 라이브러리 임포트
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import accuracy_score

# 데이터셋 로드
wine = load_wine()
X = wine.data
y = wine.target

# 훈련 세트와 테스트 세트로 분리(test_size=0.2, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size = 0.2, random_state = 42)

# 하이퍼파라미터 그리드 설정
params = {'learning_rate': [0.01, 0.1, 0.2],
          'n_estimators': [100, 200, 300],
          'max_depth': [3, 5, 7]
}

# GradientBoostingClassifier 객체 생성 후 GridSearchCV 수행
gb_clf = GradientBoostingClassifier(random_state=42)
grid_cv = GridSearchCV(gb_clf, param_grid=params, cv=5, n_jobs=-1)

# 모델 학습
grid_cv.fit(X_train, y_train)

# 최적 하이퍼파라미터 출력
print('최적 하이퍼파라미터:\n', grid_cv.best_params_)

# 최적 모델로 테스트 데이터 예측
y_pred = grid_cv.best_estimator_.predict(X_test)


# 정확도 출력
accuracy = accuracy_score(y_test, y_pred)
print('예측 정확도: {0:.4f}'.format(accuracy))


최적 하이퍼파라미터:
 {'learning_rate': 0.2, 'max_depth': 3, 'n_estimators': 100}
예측 정확도: 0.9444


## **서포트 벡터 머신(SVM)**

**1) 가우시안 RBF 커널을 사용하여 gamma 값이 1이고, 하이퍼파라미터 C의 값이 0.001인 SVM 분류기를 만드시오.**


In [4]:
# 필요한 라이브러리 임포트
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import PolynomialFeatures
from sklearn.svm import SVC
from sklearn.datasets import make_moons

# moons 형태의 데이터 생성
X, y = make_moons(n_samples=200, noise=0.25)

# Pipeline 생성
rbf_kernel_svm_clf = Pipeline([
    ("scaler", StandardScaler()),
    ("svm_clf", SVC(kernel = "rbf", gamma = 1, C = 0.001))
])

# 모델학습
##답변##
rbf_kernel_svm_clf.fit(X,y)