# **1.분류 & 결정 트리**

## 문제 1: 다른 데이터셋 (Digits) 활용
- `sklearn.datasets.load_digits()`을 사용하여 `Digits` 데이터셋을 불러오세요.
- `DecisionTreeClassifier` 모델을 학습한 후 테스트 데이터에 대해 예측하고, 정확도를 출력하세요

In [None]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# 문제 1: 데이터셋 (Digits) 활용
# 답안

# Digits 데이터셋 로딩, 학습/테스트 데이터 세트 분리
digit_data = load_digits()
X_train, X_test, y_train, y_test = train_test_split(digit_data.data, digit_data.target, test_size=0.2)

# DecisionTreeClassifier 모델 학습, 예측, 평가
dt_clf = DecisionTreeClassifier()
dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도: 0.8472


## 문제 2: 결정 트리의 max_depth 설정하기
- `DecisionTreeClassifier(max_depth=3)`로 모델을 학습하세요.
- `max_depth=3`을 설정했을 때와 설정하지 않았을 때의 성능을 비교하세요.

In [None]:
# 문제 2: 결정 트리의 max_depth 설정하기
# 답안
dt_clf = DecisionTreeClassifier(max_depth = 3)
dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도: 0.4111


max_depth를 설정하지 않았을 때의 예측 정확도: 0.8333

max_depth=3일 때의 예측 정확도: 0.4611

## 문제 3: 피처 중요도 출력
- 학습된 결정 트리 모델에서 각 피처의 중요도를 출력하세요.

In [None]:
# 문제 3: 피처 중요도 출력
print("피처 중요도:\n{0}".format(dt_clf.feature_importances_))

# 피처별 중요도 매핑
print("\n0.0을 제외한 피처별 중요도:")
for name, value in zip(digit_data.feature_names, dt_clf.feature_importances_):
  if value != 0:
    print("{0}: {1:.4f}".format(name, value))

피처 중요도:
[0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.26121868 0.         0.
 0.         0.         0.         0.         0.13551868 0.
 0.         0.         0.         0.         0.         0.
 0.20950393 0.         0.         0.         0.         0.
 0.20138748 0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.19237122 0.         0.         0.        ]

0.0을 제외한 피처별 중요도:
pixel_2_5: 0.2612
pixel_3_4: 0.1355
pixel_4_4: 0.2095
pixel_5_2: 0.2014
pixel_7_4: 0.1924


## 문제 4: train_test_split 비율 변경
- `train_test_split`을 사용하여 학습 데이터와 테스트 데이터를 **70:30** 비율로 나누세요.
- 기존의 80:20 비율과 비교하여 정확도를 출력하세요.

In [None]:
# 문제 4: train_test_split 비율 변경
print('80:20 데이터 비율일 때의 예측 정확도: {0:.4f}'.format(accuracy_score(pred, y_test)))

# 학습 데이터와 테스트 데이터 70:30 비율로 나누기
X_train, X_test, y_train, y_test = train_test_split(digit_data.data, digit_data.target, test_size=0.3)
dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
print('70:30 데이터 비율일 때의 예측 정확도: {0:.4f}'.format(accuracy_score(pred, y_test)))

80:20 데이터 비율일 때의 예측 정확도: 0.4111
70:30 데이터 비율일 때의 예측 정확도: 0.4685


## 문제 5: GridSearchCV를 활용한 최적 하이퍼파라미터 찾기
- `GridSearchCV`를 사용하여 `max_depth`와 `min_samples_split`에 대한 최적의 하이퍼파라미터를 찾으세요.
- 최적의 하이퍼파라미터와 최고 정확도를 출력하세요.

In [None]:
# 문제 5: GridSearchCV를 활용한 최적 하이퍼파라미터 찾기
from sklearn.model_selection import GridSearchCV

params = {
    'max_depth': [6,8,10,12,16,20,24],
    'min_samples_split': [8, 16, 24]
}

# 최적 하이퍼파라미터로 학습 및 정확도 출력
grid_cv = GridSearchCV(dt_clf, param_grid=params, scoring='accuracy', cv=5, verbose=1)
grid_cv.fit(X_train, y_train)
print('GridSearchCV 최적 하이퍼 파라미터: ', grid_cv.best_params_)
print('GridSearchCV 최고 평균 정확도 수치: {0:.4f}'.format(grid_cv.best_score_))

Fitting 5 folds for each of 21 candidates, totalling 105 fits
GridSearchCV 최적 하이퍼 파라미터:  {'max_depth': 8, 'min_samples_split': 8}
GridSearchCV 최고 평균 정확도 수치: 0.8409


# **2. 앙상블**

## **1) wine 데이터셋 로드 및 훈련/테스트 분리**
wine 데이터를 불러온 후, 훈련 세트와 테스트 세트로 나눠주세요.
*   test_size = 0.25
*   random_state = 11

In [None]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split

# 데이터 로드 및 분리
## 답안 ##

wine_data = load_wine()

# 피처 종류 출력해보기
import pandas as pd
wine_df = pd.DataFrame(wine_data.data, columns=wine_data.feature_names)
wine_df['target'] = wine_data.target
print(wine_df)

# 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(wine_data.data, wine_data.target, test_size=0.25, random_state=11)

     alcohol  malic_acid   ash  alcalinity_of_ash  magnesium  total_phenols  \
0      14.23        1.71  2.43               15.6      127.0           2.80   
1      13.20        1.78  2.14               11.2      100.0           2.65   
2      13.16        2.36  2.67               18.6      101.0           2.80   
3      14.37        1.95  2.50               16.8      113.0           3.85   
4      13.24        2.59  2.87               21.0      118.0           2.80   
..       ...         ...   ...                ...        ...            ...   
173    13.71        5.65  2.45               20.5       95.0           1.68   
174    13.40        3.91  2.48               23.0      102.0           1.80   
175    13.27        4.28  2.26               20.0      120.0           1.59   
176    13.17        2.59  2.37               20.0      120.0           1.65   
177    14.13        4.10  2.74               24.5       96.0           2.05   

     flavanoids  nonflavanoid_phenols  proanthocyan

## **2) SVC, RandomForest, GradientBoosting 모델 학습 및 정확도 평가**
다음 모델을 사용해 개별 학습/예측/정확도 평가를 진행하세요.
*   서포트 벡터 머신: probability=True
*   랜덤 포레스트: n_estimators=100, random_state=11
*   GradientBoostingClassifier: random_state=11




In [None]:
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.metrics import accuracy_score

# 모델 정의
## 답안 ##

# 서포트 벡터 머신
svc = SVC(probability=True)
svc.fit(X_train, y_train)
svc_pred = svc.predict(X_test)
print('서포트 벡터 머신 정확도:{0:.4f}'.format(accuracy_score(svc_pred, y_test)))

# 랜덤포레스트
rf_clf = RandomForestClassifier(n_estimators=100, random_state=11)
rf_clf.fit(X_train, y_train)
rf_clf_pred = rf_clf.predict(X_test)
print('랜덤 포레스트 정확도:{0:.4f}'.format(accuracy_score(rf_clf_pred, y_test)))

# 그래디언트 부스팅
gb_clf = GradientBoostingClassifier(random_state=11)
gb_clf.fit(X_train, y_train)
gb_clf_pred = gb_clf.predict(X_test)
print('그래디언트 부스팅 정확도:{0:.4f}'.format(accuracy_score(gb_clf_pred, y_test)))

서포트 벡터 머신 정확도:0.8000
랜덤 포레스트 정확도:0.9778
그래디언트 부스팅 정확도:0.9556


## **3) 하드 보팅 분류기 생성 및 평가**
위에서 만든 모델 3개를 기반으로 하드 보팅 방식의 분류기를 만들고, 학습 및 테스트 정확도를 출력하세요.

In [None]:
from sklearn.ensemble import VotingClassifier

# 하드 보팅
## 답안 ##
hvo_clf = VotingClassifier(estimators=[('SVC', svc), ('RF', rf_clf), ('GDB', gb_clf)])
hvo_clf.fit(X_train, y_train)
hvo_pred = hvo_clf.predict(X_test)
print('하드 보팅 정확도: {0:.4f}'.format(accuracy_score(y_test, hvo_pred)))

하드 보팅 정확도: 0.9556


## **4) 소프트 보팅 분류기 생성 및 평가**
같은 모델 3개로 소프트 보팅 방식의 분류기를 만들어서 학습/평가하세요.

In [None]:
# 소프트 보팅
## 답안 ##
svo_clf = VotingClassifier(estimators=[('SVC', svc), ('RF', rf_clf), ('GDB', gb_clf)], voting='soft')
svo_clf.fit(X_train, y_train)
svo_pred = svo_clf.predict(X_test)
print('소프트 보팅 정확도: {0:.4f}'.format(accuracy_score(y_test, svo_pred)))

소프트 보팅 정확도: 0.9556


## **5) OOB 평가**
다음 조건에 맞춰 BaggingClassifier를 사용하여 OOB 평가를 수행하세요.

*   Base 모델: GradientBoostingClassifier()
*   n_estimators = 50
*   bootstrap=True

OOB 점수를 출력하세요.

In [None]:
from sklearn.ensemble import BaggingClassifier

## 답안 ##
bag_clf = BaggingClassifier(estimator=GradientBoostingClassifier(), n_estimators=50, bootstrap=True, oob_score=True)
bag_clf.fit(X_train, y_train)
bag_clf.fit(X_train, y_train)
print('OOB 평가 결과: {0:.4f}'.format(bag_clf.oob_score_))

OOB 평가 결과: 0.9624


# **3. 랜덤 포레스트(Random Forest)**

**1) 사이킷런의 load_wine 데이터셋을 RandomForestClassifier을 이용해 예측하시오.**

In [None]:
# 필요한 라이브러리 임포트
import numpy as np
import pandas as pd
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# 데이터셋 로드
wine = load_wine()
X = wine.data
y = wine.target

# 데이터셋을 학습 세트와 테스트 세트로 분리(test_size=0.2, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 랜덤 포레스트 모델 생성 및 훈련
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# 테스트 세트로 예측
y_pred = model.predict(X_test)

# 정확도 평가
accuracy = accuracy_score(y_test, y_pred)
print('랜덤 포레스트 정확도: {0:.4f}'.format(accuracy))

랜덤 포레스트 정확도: 1.0000


**2) load_wine 데이터셋을 이용해 GradientBoostingClassifier 모델을 학습하고, GridSearchCV를 활용해 최적의 하이퍼 파라미터를 찾으시오.**

✅ 조건
1. 데이터셋: load_wine() 사용
2. 훈련 데이터(80%) / 테스트 데이터(20%)로 분리
3. 하이퍼파라미터 튜닝(GridSearchCV 사용)
4. learning_rate: [0.01, 0.1, 0.2]
   n_estimators: [100, 200, 300]
   max_depth: [3, 5, 7]
5. 최적의 하이퍼파라미터를 찾은 후 모델 학습 & 평가
6. 테스트 데이터에서 정확도를 출력

✅ 참고사항

실행 시간이 오래 소요될 수 있습니다!

In [None]:
# 필요한 라이브러리 임포트
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import accuracy_score

# 데이터셋 로드
wine = load_wine()
X = wine.data
y = wine.target

# 훈련 세트와 테스트 세트로 분리(test_size=0.2, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 하이퍼파라미터 그리드 설정
params = {
    'learning_rate' : [0.01, 0.1, 0.2],
    'n_estimators' : [100, 200, 300],
    'max_depth' : [3,5,7]
}

# GradientBoostingClassifier 객체 생성 후 GridSearchCV 수행
gb_clf = GradientBoostingClassifier(random_state=42)
grid_cv = GridSearchCV(gb_clf, param_grid=params, cv=5, n_jobs=-1)

# 모델 학습
grid_cv.fit(X_train, y_train)

# 최적 하이퍼파라미터 출력
print('최적 하이퍼파라미터:\n', grid_cv.best_params_)

# 최적 모델로 테스트 데이터 예측
y_pred = grid_cv.predict(X_test)

# 정확도 출력
accuracy = accuracy_score(y_test, y_pred)
print('예측 정확도: {0:.4f}'.format(accuracy))


최적 하이퍼파라미터:
 {'learning_rate': 0.2, 'max_depth': 3, 'n_estimators': 100}
예측 정확도: 0.9444


## **서포트 벡터 머신(SVM)**

**1) 가우시안 RBF 커널을 사용하여 gamma 값이 1이고, 하이퍼파라미터 C의 값이 0.001인 SVM 분류기를 만드시오.**


In [None]:
# 필요한 라이브러리 임포트
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import PolynomialFeatures
from sklearn.svm import SVC
from sklearn.datasets import make_moons

# moons 형태의 데이터 생성
X, y = make_moons(n_samples=200, noise=0.25)

# Pipeline 생성
## 가우시안 RBF 커널 사용하기
rbf_kernel_svm_clf = Pipeline([
    ("scaler", StandardScaler()),
    ("svm_clf", SVC(kernel="rbf", gamma=1, C=0.001))
])

# 모델학습
rbf_kernel_svm_clf.fit(X, y)