<a href="https://colab.research.google.com/github/zzhining/python_ml_dl2/blob/main/answer/5_3_hyperparameter.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 문제1
붓꽃 데이터를 사용하여 DecisionTreeClassifer를 생성하려고 한다. 아래 조건을 참고하여 DecisionTreeClassifer의 하이퍼파라미터 튜닝을 진행하시오.

- `GridSearchCV` 사용
- 설정할 파라미터: { 'max_depth': [3, 5, 10], 'min_samples_split': [2, 5, 10], 'min_samples_leaf': [1, 2, 5] }
- `scoring`: 정확도, cv: 5


In [1]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

# 붓꽃 데이터셋 로드
X, y = load_iris(return_X_y=True)

# 훈련 데이터와 테스트 데이터로 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 의사결정나무 모델 정의
dt = DecisionTreeClassifier(random_state=42)

<힌트>
```
GridSearchCV()
```

In [2]:
# 코드 작성

from sklearn.model_selection import GridSearchCV

# 하이퍼파라미터 그리드 정의
param_grid = {
    'max_depth': [3, 5, 10],  # 최대 깊이
    'min_samples_split': [2, 5, 10],  # 분할을 위한 최소 샘플 수
    'min_samples_leaf': [1, 2, 5]  # 리프 노드의 최소 샘플 수
}

# GridSearchCV 객체 정의
grid_search = GridSearchCV(estimator=dt, param_grid=param_grid, cv=5, scoring='accuracy')

# 모델 학습
grid_search.fit(X_train, y_train)

# 최적 하이퍼파라미터 및 성능 출력
print(f"최적 조건: {grid_search.best_params_}")
print(f"최적 성능: {round(grid_search.best_score_, 3)}")

# 테스트 데이터에 대한 성능 평가
test_accuracy = grid_search.score(X_test, y_test)
print(f"테스트셋의 정확도: {test_accuracy}")

최적 조건: {'max_depth': 5, 'min_samples_leaf': 1, 'min_samples_split': 10}
최적 성능: 0.943
테스트셋의 정확도: 1.0


# 문제2
붓꽃 데이터를 사용하여 DecisionTreeClassifer를 생성하려고 한다. 아래 조건을 참고하여 DecisionTreeClassifer의 하이퍼파라미터 튜닝을 진행하시오.
- `RandomizedSearchCV` 사용
- 설정할 파라미터: {'max_depth': [3, 5, 10], 'min_samples_split': 2부터 20 사이의 임의 값 10개, 'min_samples_leaf': 1부터 20 사이의 임의 값 10개}
- `scoring`: 정확도, `cv`: 5, `n_iter`: 100, `random_state`=42


In [4]:
# 코드 작성

from sklearn.model_selection import RandomizedSearchCV
import numpy as np

# 하이퍼파라미터 분포 정의
param_dist = {
    'max_depth': [3, 5, 10],  # 최대 깊이
    'min_samples_split': np.random.randint(1, 20, size=10),  # 2부터 20 사이의 임의 값 10개
    'min_samples_leaf': np.random.randint(1, 20, size=10),  # 1부터 20 사이의 임의 값 10개
}

# RandomizedSearchCV 객체 정의
random_search = RandomizedSearchCV(estimator=dt, param_distributions=param_dist, n_iter=100, cv=5, scoring='accuracy', random_state=42)

# 모델 학습
random_search.fit(X_train, y_train)

# 최적 하이퍼파라미터 및 성능 출력
print(f"최적 조건: {random_search.best_params_}")
print(f"최적 성능: {round(random_search.best_score_, 3)}")

# 테스트 데이터에 대한 성능 평가
test_accuracy = random_search.score(X_test, y_test)
print(f"테스트셋의 정확도: {test_accuracy}")

최적 조건: {'min_samples_split': 12, 'min_samples_leaf': 4, 'max_depth': 5}
최적 성능: 0.943
테스트셋의 정확도: 1.0
