In [51]:
### Machine Running library install
from sklearn.neighbors import KNeighborsClassifier


from sklearn.linear_model import LogisticRegression

### 선형, 다중, 다항 회귀모델 라이브러리 정의
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso

### 앙상블 모델
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import ExtraTreesRegressor

from sklearn.ensemble import GradientBoostingRegressor
from sklearn.ensemble import HistGradientBoostingRegressor
from xgboost import XGBRegressor

### visualization library
import matplotlib.pyplot as plt

# Definition of the NumPy library
import numpy as np

### Definition of Library (Preprocessing Library)
from sklearn.model_selection import train_test_split

### 평가 라이브러리 정의
# 평균절대오차(MAE)
from sklearn.metrics import mean_absolute_error
# 평균제곱오차(MSE)
from sklearn.metrics import mean_squared_error
# 결정계수(R2-score)
from sklearn.metrics import r2_score

### 오차행렬 및 오차행렬도 라이브러리 정의하기
from sklearn.metrics import confusion_matrix
from sklearn.metrics import ConfusionMatrixDisplay

# - 변환기 모델(클래스) 라이브러리 정의하기
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import RobustScaler

# 정확도
from sklearn.metrics import accuracy_score
# 정밀도
from sklearn.metrics import precision_score
# 재현율
from sklearn.metrics import recall_score
# f1-score
from sklearn.metrics import f1_score


# - 결정트리 모델(클래스) 라이브러리 정의
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import plot_tree

import pandas as pd 

import seaborn as sns


### 라이브러리 정의
from scipy.stats import spearmanr

### 라이브러리 정의
from scipy.stats import pearsonr

### 라이브러리 정의
from scipy.stats import randint, uniform


### 하이퍼파라미터 튜닝 모델(클래스) 정의하기
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RandomizedSearchCV

plt.rc("font", family="Malgun Gothic")

plt.rcParams["axes.unicode_minus"] = False

### 경고 메시지 없애기
# - 사이킷런 버전에 따라 오류가 아니니 안내(경고)메시지가 자주 나타남
# - 안내(경고) 메시지 없이 실행할 수 있도록 처리
from sklearn import set_config
set_config(display="text")


In [2]:
"""
 1. wine.csv 데이터 읽어들이기: 변수명 wine
 2. 독립/훈련 데이터 분리: 변수명 data, target
 3. 훈련/검증/테스트 데이터로 분리: 분리비율 6:2:2, 변수명: **_input, **_target
"""

file_path = "./data/08_wine.csv"
wine = pd.read_csv(file_path)
print(wine.info())
print(wine.describe())
print(wine.head(2))


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6497 entries, 0 to 6496
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   alcohol  6497 non-null   float64
 1   sugar    6497 non-null   float64
 2   pH       6497 non-null   float64
 3   class    6497 non-null   float64
dtypes: float64(4)
memory usage: 203.2 KB
None
           alcohol        sugar           pH        class
count  6497.000000  6497.000000  6497.000000  6497.000000
mean     10.491801     5.443235     3.218501     0.753886
std       1.192712     4.757804     0.160787     0.430779
min       8.000000     0.600000     2.720000     0.000000
25%       9.500000     1.800000     3.110000     1.000000
50%      10.300000     3.000000     3.210000     1.000000
75%      11.300000     8.100000     3.320000     1.000000
max      14.900000    65.800000     4.010000     1.000000
   alcohol  sugar    pH  class
0      9.4    1.9  3.51    0.0
1      9.8    2.6  3.20    0.0


In [3]:
data = wine.iloc[:, :-1]
target = wine["class"]

print(data)
print(target)

      alcohol  sugar    pH
0         9.4    1.9  3.51
1         9.8    2.6  3.20
2         9.8    2.3  3.26
3         9.8    1.9  3.16
4         9.4    1.9  3.51
...       ...    ...   ...
6492     11.2    1.6  3.27
6493      9.6    8.0  3.15
6494      9.4    1.2  2.99
6495     12.8    1.1  3.34
6496     11.8    0.8  3.26

[6497 rows x 3 columns]
0       0.0
1       0.0
2       0.0
3       0.0
4       0.0
       ... 
6492    1.0
6493    1.0
6494    1.0
6495    1.0
6496    1.0
Name: class, Length: 6497, dtype: float64


In [4]:
### 변수명: **_input, **_target
### stratify=target: 분리 비율이 안맞는 경우 오류 발생 -> 이경우 속성 제외하고 진행

train_input, val_input, train_target, val_target = train_test_split(data, target, test_size=0.4, random_state=42, stratify=target)
val_input, test_input, val_target, test_target = train_test_split(val_input, val_target, test_size=0.5, random_state=42, stratify=val_target)

print(train_input.shape, train_target.shape)
print(val_input.shape, val_target.shape)
print(test_input.shape, test_target.shape)


(3898, 3) (3898,)
(1299, 3) (1299,)
(1300, 3) (1300,)


### 결정트리(의사결정나무), DT모델로 과적합 여부 확인

In [5]:
###  하이퍼파라미터 없이, 랜덤규칙만 넣어서 진행
# - 훈련/검증/테스트 정확도 모두 확인
dt = DecisionTreeClassifier(max_depth=11, random_state=42)
dt.fit(train_input, train_target)

train_score = dt.score(train_input, train_target)
val_score = dt.score(val_input, val_target)
test_score = dt.score(test_input, test_target)

print(f"훈련 정확도: {train_score}, 검증 정확도: {val_score}, 테스트 정확도: {test_score}, 과적합 여부: {train_score - val_score}")

훈련 정확도: 0.9486916367367881, 검증 정확도: 0.8629715165511932, 테스트 정확도: 0.8569230769230769, 과적합 여부: 0.08572012018559494


### 교차검증

In [6]:
"""
<교차검증을 수행하는 경우>
- 데이터의 양이 적은 경우에는 훈련/검증/테스트로 분리하기 어려움
  (훈련 데이터가 부족한 경우 정확도가 낮아짐)
- 훈련과 테스트 데이터로 분리 후 훈련 데이터를 이용해서 수행할 때 성능을 높이는 방법으로 사용

<교차검증 작동 방식>
- 훈련모델 내부에서 훈련 데이터를 훈련/검증 데이터로 분리하여 사용하게됨
- 정의된 Fold의 갯수를 이용하여 훈련 데이터를 분리하여 사용
- 훈련(fit) 중에 모델이 Fold의 갯수에 따라 자유롭게 분리하여 훈련을 수행

<교차검증 주요 키워드>
 - n폴드-교차검증: 훈련데이터를 n폴드 갯수만큼 구간을 나우어서 훈련 수행
 - 구간마다 훈련과 검증데이터를 분리시킴
 - n폴드-교차검증은 보통 3폴드, 5폴드, 10폴드로 정의하여 교차검증 진행
 - 교차검증을 위해서는 훈련과 테스트 데이터 분리비율을 보통 8:2로 하는 것이 일반적임
 
<3폴드-교차검증 예시>
 - 3폴드에서 사용되는 훈련데이터 분리: 데이터(1) : 데이터(2) : 데이터(3)
 (1폴드) 훈련데이터(데이터1 + 데이터2) / 검증데이터(데이터3) -> 결과롤 1폴드 훈련정확도
 (2폴드) 훈련데이터(데이터1 + 데이터3) / 검증데이터(데이터2) -> 결과롤 2폴드 훈련정확도
 (1폴드) 훈련데이터(데이터2 + 데이터3) / 검증데이터(데이터1) -> 결과롤 3폴드 훈련정확도
 
<최종 훈련 정확도>
 - 각 폴드의 훈련정확도의 "평균값"이 "최종 훈련 정확도"가 됩니다.
 
<교차검증 수행 순서>
 - 사용할 모델 생성
 - 교차검증 함수 정의: 교차검증 함수에 사용할 모델, 훈련 독립, 종속변수 넣기, 폴드 정의
                     : 폴드는 정의하지 않으면 기본값 5가 사용됨
 - 교차검증은 훈려에 대한 정확도를 높이는 방법을 제시하는 개념일 뿐
   교차검증의 결과로 훈련 이후 예측으로 사용되지는 않습니다.
   -> 폴드를 이용한 교차검증을 적용한 모델을 사용해야함(CV가 포함된 모델)
 
<교차검증 라이브러리>
 - 사용 패키지: sklearn.model_selection
 - 사용함수: cross_validate
 
<폴드 라이브러리>
 - 사용 패키지: sklearn.model_selection
 - 사용 클래스: StratifiedKFold
"""

'\n<교차검증을 수행하는 경우>\n- 데이터의 양이 적은 경우에는 훈련/검증/테스트로 분리하기 어려움\n  (훈련 데이터가 부족한 경우 정확도가 낮아짐)\n- 훈련과 테스트 데이터로 분리 후 훈련 데이터를 이용해서 수행할 때 성능을 높이는 방법으로 사용\n\n<교차검증 작동 방식>\n- 훈련모델 내부에서 훈련 데이터를 훈련/검증 데이터로 분리하여 사용하게됨\n- 정의된 Fold의 갯수를 이용하여 훈련 데이터를 분리하여 사용\n- 훈련(fit) 중에 모델이 Fold의 갯수에 따라 자유롭게 분리하여 훈련을 수행\n\n<교차검증 주요 키워드>\n - n폴드-교차검증: 훈련데이터를 n폴드 갯수만큼 구간을 나우어서 훈련 수행\n - 구간마다 훈련과 검증데이터를 분리시킴\n - n폴드-교차검증은 보통 3폴드, 5폴드, 10폴드로 정의하여 교차검증 진행\n - 교차검증을 위해서는 훈련과 테스트 데이터 분리비율을 보통 8:2로 하는 것이 일반적임\n \n<3폴드-교차검증 예시>\n - 3폴드에서 사용되는 훈련데이터 분리: 데이터(1) : 데이터(2) : 데이터(3)\n (1폴드) 훈련데이터(데이터1 + 데이터2) / 검증데이터(데이터3) -> 결과롤 1폴드 훈련정확도\n (2폴드) 훈련데이터(데이터1 + 데이터3) / 검증데이터(데이터2) -> 결과롤 2폴드 훈련정확도\n (1폴드) 훈련데이터(데이터2 + 데이터3) / 검증데이터(데이터1) -> 결과롤 3폴드 훈련정확도\n \n<최종 훈련 정확도>\n - 각 폴드의 훈련정확도의 "평균값"이 "최종 훈련 정확도"가 됩니다.\n \n<교차검증 수행 순서>\n - 사용할 모델 생성\n - 교차검증 함수 정의: 교차검증 함수에 사용할 모델, 훈련 독립, 종속변수 넣기, 폴드 정의\n                     : 폴드는 정의하지 않으면 기본값 5가 사용됨\n - 교차검증은 훈려에 대한 정확도를 높이는 방법을 제시하는 개념일 뿐\n   교차검증의 결과로 훈련 이후 예측으로 사용되지는 않습니다.\n   -> 폴드를 이용한 

In [7]:
### 교차검증 및 폴드 사용을 위한 라이브러리 정의
from sklearn.model_selection import cross_validate
from sklearn.model_selection import StratifiedKFold

In [8]:
### 결정트리 모델을 이용하여 교차검증 수행해 보기
### 1. 교차검증을 위해서는 모델 생성만 합니다.

dt = DecisionTreeClassifier(random_state=42)

### 2. 교차검증 수행
# - 폴드: 기본값 5 사용(폴드 정의 생략 가능)
# - 교차검증은 자체적으로 훈련모델을 이용해서 훈련(fit)을 수행합니다.
# - 기본값 5폴드의 갯수로 훈련데이터를 5개로 분리
# - 각 폴드별로 데이터를 조합하여 훈련 진행
# - 각 폴드마다 정확도, 수행시간을 출력해 줍니다.
# - 5폴드를 사용했기에 -> 5개의 데이터가 나옵니다
scores = cross_validate(dt, train_input, train_target)
scores

{'fit_time': array([0.00511789, 0.00523806, 0.00499868, 0.0050025 , 0.00572777]),
 'score_time': array([0.00100255, 0.00200129, 0.00100088, 0.00119448, 0.00259209]),
 'test_score': array([0.8474359 , 0.83846154, 0.85      , 0.84467266, 0.84852375])}

In [9]:
### 최종 정확도 확인하기
# - 최종 정확도 = 각 폴드의 정확도 평균
(scores["test_score"]).mean()

0.8458187683091406

### 폴드(Fold)갯수 정의하기

In [10]:
"""
* 폴드(Fold)의 갯수는 훈련의 성능에 영향을 미치는 하이퍼파라미터
* 사용되는 라이브러리 클래스: StratifiedKFold
* 용어정의: KFold라고 칭함
"""

'\n* 폴드(Fold)의 갯수는 훈련의 성능에 영향을 미치는 하이퍼파라미터\n* 사용되는 라이브러리 클래스: StratifiedKFold\n* 용어정의: KFold라고 칭함\n'

In [11]:
### KFold 정의
cv = StratifiedKFold(
    # 폴드(Fold)의 갯수(기본값 5)
    n_splits=10,
    # 데이터 섞기(기본값=False)
    shuffle=True,
    # 랜던규칙 정의
    random_state=42
)
cv

StratifiedKFold(n_splits=10, random_state=42, shuffle=True)

In [12]:
### 교차검증 수행하기
# - 사용할 모델 생성하기
dt = DecisionTreeClassifier(random_state=42)

# - 교차검증 수행
# - cv: 교차검증 분할기라고 칭하며, 보통 폴드 갯수라고 
scores = cross_validate(dt, train_input, train_target, cv=cv)
scores

### 최종 score 평균값 계산
(scores["test_score"]).mean()


0.8589011930657175

### AutoML(교차검증 + 하이퍼파라미터 튜닝 + 최적의 모델 찾기)

In [None]:
"""
 - AutoML: 교차검증, 하이퍼파라미터튜닝, 최적의 모델찾기 등 훈련을 자동으로 수행하는 개념
 - 최적의 하이퍼파라미터 값을 찾을 때 주로 사용되는 모델
 - 훈련까지 진행되며, 가장 최적의 모델을 반환해 줌
   (최적의 모델이라는 의미와 가장 좋은 모델이라는 의미는 다름)
 - 훈련 시 교차검증(KFold)을 자동으로 수행해줌
 - 안정적(일반화된)인 훈련모델을 선정할 수 있음
 - AutoML을 이용할 수 없는 모델들도 있음
 - AutoML 모델(튜닝모델): GridSearchCV, RandomizedSearchCV
 - GridsearchCVL        : 하이퍼파라미터의 값들(범위)를 어느 정도 미리 정할 수 있을 경우 사용 (주로 사용됨)
 - RandomizedSearchCV   : 하이퍼파라미터의 값들(범위)를 미리 정할 수 없을 경우 사용
"""

In [32]:
### AutoML에 적용할 모델 생성하기
# - 사용할 모델: DT모델 사용: 랜덤규칙만 적용
dt = DecisionTreeClassifier(random_state=42)

### AutoML에 적용할 하이퍼파라미터 정의
# - max_depth: 3~19의 값 사용
param_grid = {'max_depth': list(range(3, 20))}

### GridSearchCV 튜닝모델 생성
# - CPU core: 모두 사용
# - 튜닝모델 설정값은 적용안함(튜닝모델 자체 기본값 사용)
grid_search = GridSearchCV(estimator=dt, param_grid=param_grid, n_jobs=-1)

### 훈련시키기
grid_search.fit(train_input, train_target)

# 최적의 하이퍼파라메터 확인하기
best_params = grid_search.best_params_
print(f"최적의 하이퍼파라메터 : {best_params}")

# 최적의 성능(결정계수) 확인하기
best_score = grid_search.best_score_
print(f"최적의 성능(결정계수) : {best_score:.5f}")

# 최적의 모델 확인하기
best_model = grid_search.best_estimator_
print(f"최적의 모델 : {best_model}")

    


최적의 하이퍼파라메터 : {'max_depth': 7}
최적의 성능(결정계수) : 0.86095
최적의 모델 : DecisionTreeClassifier(max_depth=7, random_state=42)


In [33]:
### 훈련 및 검증 데이터를 과적합 여부 확인하기
train_score = best_model.score(train_input, train_target)
val_score = best_model.score(val_input, val_target)

print(f"훈련 정확도: {train_score}, 테스트 정확도: {val_score}, 과적합 여부: {train_score - val_score}")

훈련 정확도: 0.8932786044125193, 테스트 정확도: 0.8429561200923787, 과적합 여부: 0.050322484320140526


In [34]:
### AutoML이 수행한 모든 처리 결과 확인하기
grid_search.cv_results_

{'mean_fit_time': array([0.00384674, 0.00487061, 0.00428309, 0.0045835 , 0.00497985,
        0.00502334, 0.00459175, 0.00589323, 0.00522323, 0.00738368,
        0.00552707, 0.00618515, 0.00679302, 0.00665503, 0.0049304 ,
        0.00456977, 0.00529079]),
 'std_fit_time': array([0.00074766, 0.00068587, 0.0014671 , 0.00113003, 0.00054924,
        0.00064568, 0.00068503, 0.00128097, 0.00098401, 0.00099384,
        0.00107446, 0.00166204, 0.00161521, 0.00179176, 0.00089851,
        0.0004528 , 0.0011067 ]),
 'mean_score_time': array([0.00221615, 0.00085397, 0.00263596, 0.00162892, 0.00180063,
        0.00191679, 0.00179291, 0.00199051, 0.00219288, 0.00150986,
        0.00180559, 0.00176201, 0.00195107, 0.00254941, 0.00133848,
        0.00138965, 0.00100527]),
 'std_score_time': array([0.00043235, 0.00085577, 0.00134502, 0.00069282, 0.00074906,
        0.00107812, 0.00096599, 0.00124217, 0.00132104, 0.00119355,
        0.00157234, 0.00089925, 0.00105481, 0.00075969, 0.00111988,
        0.00

In [42]:
### DT모델에 여러개의 하이퍼파라미터를 이용해서 AutoML 훈련 수행하기
dt = DecisionTreeClassifier(random_state=42)

### DT모델 하이퍼파라미터 정의
param_grid = {
    # 트리의 깊이(가지치기)
    "max_depth" : range(3, 20),
    # 노드를 나누기 위한 최소 sample수
    "min_samples_split" : range(2, 100),
    # 노드를 분할 시 gini(불순도) 감소 최소량
    "min_impurity_decrease" : np.arange(0.0001, 0.001, 0.0001)
}
### 튜닝 모델 생성하기
grid_search = GridSearchCV(estimator=dt, param_grid=param_grid, n_jobs=-1)

### 튜닝 모델 훈련 시키기
grid_search.fit(train_input, train_target)

GridSearchCV(estimator=DecisionTreeClassifier(random_state=42), n_jobs=-1,
             param_grid={'max_depth': range(3, 20),
                         'min_impurity_decrease': array([0.0001, 0.0002, 0.0003, 0.0004, 0.0005, 0.0006, 0.0007, 0.0008,
       0.0009]),
                         'min_samples_split': range(2, 100)})

In [44]:
best_model = grid_search.best_estimator_
best_model

DecisionTreeClassifier(max_depth=16, min_impurity_decrease=0.0004,
                       min_samples_split=14, random_state=42)

In [45]:
grid_search.cv_results_

{'mean_fit_time': array([0.00701108, 0.00766325, 0.00951667, ..., 0.00418458, 0.00372691,
        0.00398006]),
 'std_fit_time': array([0.00197444, 0.00268536, 0.00278809, ..., 0.00141093, 0.00242614,
        0.00133145]),
 'mean_score_time': array([0.00320983, 0.00461159, 0.00506268, ..., 0.00040164, 0.00124264,
        0.00149646]),
 'std_score_time': array([0.00040664, 0.00183709, 0.00166388, ..., 0.00080328, 0.00167165,
        0.00133328]),
 'param_max_depth': masked_array(data=[3, 3, 3, ..., 19, 19, 19],
              mask=[False, False, False, ..., False, False, False],
        fill_value=999999),
 'param_min_impurity_decrease': masked_array(data=[0.0001, 0.0001, 0.0001, ..., 0.0009000000000000001,
                    0.0009000000000000001, 0.0009000000000000001],
              mask=[False, False, False, ..., False, False, False],
        fill_value=1e+20),
 'param_min_samples_split': masked_array(data=[2, 3, 4, ..., 97, 98, 99],
              mask=[False, False, False, ..., Fal

In [46]:
### 훈련 및 검증 데이터를 과적합 여부 확인하기
train_score = best_model.score(train_input, train_target)
val_score = best_model.score(val_input, val_target)

print(f"훈련 정확도: {train_score}, 테스트 정확도: {val_score}, 과적합 여부: {train_score - val_score}")

훈련 정확도: 0.9035402770651616, 테스트 정확도: 0.8552732871439569, 과적합 여부: 0.048266989921204706


In [None]:
### 튜닝 모델의 하이퍼파라미터(KFold) 설정하기
# - KFold의 fold갯수는 10, 섞기, 랜덤규치 적용하여 생성하기
cv = StratifiedKFold(
    # 폴드(Fold)의 갯수(기본값 5)
    n_splits=10,
    # 데이터 섞기(기본값=False)
    shuffle=True,
    # 랜던규칙 정의
    random_state=42
)

# - DT 모델 생성(랜덤규칙만 적용)
dt = DecisionTreeClassifier()

### DT모델 하이퍼파라미터 정의
param_grid = {
    # 트리의 깊이(가지치기)
    "max_depth" : range(3, 20),
    # 노드를 나누기 위한 최소 sample수
    "min_samples_split" : range(2, 100),
    # 노드를 분할 시 gini(불순도) 감소 최소량
    "min_impurity_decrease" : np.arange(0.0001, 0.001, 0.0001)
}

# - 튜닝모델 생성: DT모델의 하이퍼파라미터는 위에서 정의한 param_grid 사용
grid_search = GridSearchCV(estimator=dt, param_grid=param_grid, n_jobs=-1, cv=cv)

# - 튜닝모델 훈련 시키기
grid_search.fit(train_input, train_target)

# - 최적의 모델 추출
best_model = grid_search.best_estimator_

# - 과적합 여부 확인
train_score = best_model.score(train_input, train_target)
val_score = best_model.score(val_input, val_target)

print(f"훈련 정확도: {train_score}, 테스트 정확도: {val_score}, 과적합 여부: {train_score - val_score}")

훈련 정확도: 0.913545407901488, 테스트 정확도: 0.8575827559661278, 과적합 여부: 0.05596265193536021


In [None]:
### 튜닝 모델의 하이퍼파라미터(KFold) 설정하기
# - KFold의 fold갯수는 10, 섞기, 랜덤규치 적용하여 생성하기
cv = StratifiedKFold(
    # 폴드(Fold)의 갯수(기본값 5)
    n_splits=3,
    # 데이터 섞기(기본값=False)
    shuffle=True,
    # 랜던규칙 정의
    random_state=42
)

# - DT 모델 생성(랜덤규칙만 적용)
dt = DecisionTreeClassifier()

### DT모델 하이퍼파라미터 정의
param_grid = {
    # 트리의 깊이(가지치기)
    "max_depth" : range(3, 20),
    # 노드를 나누기 위한 최소 sample수
    "min_samples_split" : range(2, 100),
    # 노드를 분할 시 gini(불순도) 감소 최소량
    "min_impurity_decrease" : np.arange(0.0001, 0.001, 0.0001)
}

# - 튜닝모델 생성: DT모델의 하이퍼파라미터는 위에서 정의한 param_grid 사용
grid_search = GridSearchCV(estimator=dt, param_grid=param_grid, n_jobs=-1, cv=cv)

# - 튜닝모델 훈련 시키기
grid_search.fit(train_input, train_target)

# - 최적의 모델 추출
best_model = grid_search.best_estimator_

# - 과적합 여부 확인
train_score = best_model.score(train_input, train_target)
val_score = best_model.score(val_input, val_target)

print(f"훈련 정확도: {train_score}, 테스트 정확도: {val_score}, 과적합 여부: {train_score - val_score}")

### cv=3 일때
# 훈련 정확도: 0.900974858902001, 테스트 정확도: 0.8568129330254042, 과적합 여부: 0.04416192587659684

###(해석)
# - 알콜, 농도, 당도를 이용하여 와인종류를 분류하는 모델의 하이퍼파라미터의 값은
# - KFold=3, max_depth=13, min_impurity_decrease = 0.0004,
#   min_samples_split=20, random_state=42 DT모델에 사용하였을 때 가장 좋은 성능을 발휘함


훈련 정확도: 0.900974858902001, 테스트 정확도: 0.8568129330254042, 과적합 여부: 0.04416192587659684


In [70]:
best_model

DecisionTreeClassifier(max_depth=13, min_impurity_decrease=0.0004,
                       min_samples_split=20)

### 랜덤서치(Random Search) 튜닝 모델 사용하기

In [None]:
"""
<랜덤서치(Random Search)>
 - 하이퍼파라미터의 범위나 간격을 미리 정하기 어려운 경우 사용(그리드 서치도 유사)
 - 너무 많은 하이퍼파라미터를 사용하는 경우 GridSearchCV는 속도가 오래 걸림
  -> 이보다 빠른 튜닝 모델로 Random Search 모델이 개발 되었음
 - 사용 패키지: sklearn.model_selection
 - 사용 클래스: RandomizedSearchCV
 
<처리 방식>
 - GridSearchCV      : 하이퍼파라미터의 범위 값들을 하나씩 전달 받아서 처리하는 방식
 - RandomizedSearchCV: 값의 범위를 확률적으로 처리 후, 확률분포가 높은 값들을 선정하여 정의 및 처리하는 방식
 
<값의 범위 설정 방법>
 - 확률분포 값으로 정의
 - 확률분포 사용 패키지: scipy.stats
 - 사용 라이브러리     : uniform, randint
 - randint(): 정수값의 확률 분포 함수
 _ uniform(): 실수값의 확률 분포 함수
"""

In [54]:
### randint() 사용해보기
# - 0~1000범위 내엣 확률분포값 1000개 생성 후,
rcnt = randint(0, 1000)
rcnt
# - 정수값 100개 랜덤하게 추출하기
rcnt.rvs(100)

array([626, 266,  17, 925, 593, 608, 510, 259, 438, 544, 493, 382, 345,
       986, 378, 858, 892,  47, 870, 810, 732, 291, 852, 715, 440, 523,
       520, 758, 627, 894, 190, 669, 479, 846, 292, 443, 683, 603, 244,
        99, 413, 277, 886, 762,  50, 728, 582, 511, 590, 987, 814, 686,
       630, 574, 887, 548, 968,   9, 431, 713, 855, 959, 394, 359, 643,
       901, 579, 862, 806, 694, 422, 244, 574, 524, 653, 930, 898, 373,
       116, 197, 574,  98, 977, 512, 277, 246, 880, 817, 633, 580, 999,
       302, 528, 906,   3, 352, 689, 914, 207,  67], dtype=int64)

In [55]:
###  uniform() 사용해보기
# - 0~1사이의 확률분포 실수값 생성하기
ucnt = uniform(0, 1000)
ucnt
# - 정수값 100개 랜덤하게 추출하기
ucnt.rvs(100)

array([541.97519083, 324.72918584, 930.57767119, 669.15252667,
       997.04872443, 747.46127706, 490.63752295, 321.22744671,
       942.27196384, 425.76664977, 932.14956583,  11.67218993,
       644.1057215 , 379.12536528,  95.84816246, 986.83151273,
       617.09366268, 269.90944116, 655.24341715, 716.68500104,
       841.51739831, 476.61638134, 461.19735835, 400.20665742,
       781.02296895, 586.2834279 , 530.26538536, 668.59641529,
       826.93017566, 167.55132888, 300.96822521, 507.02900485,
       158.53133202, 248.37863863, 566.61560429, 573.20016774,
       662.85247045, 294.08117854, 791.02161416, 168.24249154,
       804.48469687, 850.29103316, 377.41647655, 648.06301774,
       478.15768778, 981.3822736 , 391.3903841 , 259.56152134,
        60.21876734, 655.41819176, 799.76439335,  52.89695776,
       855.72215073, 388.30380302,  84.08282836, 727.43830333,
        21.5096569 , 522.73237795,   3.67405666, 515.72806499,
       952.07698   , 222.95828389, 831.01092136, 915.46

In [None]:
### DT 훈련모델 생성: 랜던규칙만 적용
dt = DecisionTreeClassifier(random_state=42)

### 훈련 모델에 사용 할 하이퍼파라미터 정의
# - max_depth: 정수 확률분포 값 20~50의 범위 내에서 생성
# - min_samples_split: 정수 확률분포 값 2~25의 범위 내에서 생성
# - min_impurity_decrease: 실수 확률분포 값 0.0001~0.001의 범위 내에서 생성
# ** 각 확률분포 값을 생성 후 -> 별도로 선정은 하지 않습니다. 튜닝 모델이 알아서 선정해야 사용함
param_distributions = {
    # 트리의 깊이(가지치기)
    "max_depth" : randint(20, 50),
    # 노드를 나누기 위한 최소 sample수
    "min_samples_split" : randint(2, 25),
    # 노드를 분할 시 gini(불순도) 감소 최소량
    "min_impurity_decrease" : uniform(0.0001, 0.001)
}

### Random Search 튜닝 모델 생성
# - CPU core 갯수 모두 사용
# - cv는 기본값 사용(생략)
# - n_iter: 훈련 반복 횟수(랜덤 서치 모델에서 사용하는 하이퍼파라미터)
random_search = RandomizedSearchCV(estimator=dt, param_distributions=param_distributions, n_jobs=-1, n_iter=100)

### 튜닝 모델 훈련시키기
random_search.fit(train_input, train_target)

# - 최적의 모델 추출
best_model = random_search.best_estimator_

# - 과적합 여부 확인
train_score = best_model.score(train_input, train_target)
val_score = best_model.score(val_input, val_target)

print(f"훈련 정확도: {train_score}, 테스트 정확도: {val_score}, 과적합 여부: {train_score - val_score}")


### 그리드 서치cv=3 일때
# 훈련 정확도: 0.900974858902001, 테스트 정확도: 0.8568129330254042, 과적합 여부: 0.04416192587659684
# 랜덤서치 cv=5 일 때
# 훈련 정확도: 0.9022575679835814, 테스트 정확도: 0.8545034642032333, 과적합 여부: 0.047754103780348056

###(해석)
# - 알콜, 농도, 당도를 이용하여 와인종류를 분류하는 모델의 하이퍼파라미터의 값은
# - KFold=5, max_depth=49
#   min_impurity_decrease=0.00042022413765400936,
#   min_samples_split=14을 DT모델에 사용하였을 때 가장 좋은 성능을 발휘함

훈련 정확도: 0.9022575679835814, 테스트 정확도: 0.8545034642032333, 과적합 여부: 0.047754103780348056
