In [10]:
### Machine Running library install
from sklearn.neighbors import KNeighborsClassifier


from sklearn.linear_model import LogisticRegression

### 선형, 다중, 다항 회귀모델 라이브러리 정의
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso

### 앙상블 모델
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import ExtraTreesRegressor

from sklearn.ensemble import GradientBoostingRegressor
from sklearn.ensemble import HistGradientBoostingRegressor
from xgboost import XGBRegressor

### visualization library
import matplotlib.pyplot as plt

# Definition of the NumPy library
import numpy as np

### Definition of Library (Preprocessing Library)
from sklearn.model_selection import train_test_split

### 평가 라이브러리 정의
# 평균절대오차(MAE)
from sklearn.metrics import mean_absolute_error
# 평균제곱오차(MSE)
from sklearn.metrics import mean_squared_error
# 결정계수(R2-score)
from sklearn.metrics import r2_score

### 오차행렬 및 오차행렬도 라이브러리 정의하기
from sklearn.metrics import confusion_matrix
from sklearn.metrics import ConfusionMatrixDisplay

# - 변환기 모델(클래스) 라이브러리 정의하기
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import RobustScaler

# 정확도
from sklearn.metrics import accuracy_score
# 정밀도
from sklearn.metrics import precision_score
# 재현율
from sklearn.metrics import recall_score
# f1-score
from sklearn.metrics import f1_score


# - 결정트리 모델(클래스) 라이브러리 정의
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import plot_tree

import pandas as pd 

import seaborn as sns


### 라이브러리 정의
from scipy.stats import spearmanr

### 라이브러리 정의
from scipy.stats import pearsonr

### 하이퍼파라미터 튜닝 모델(클래스) 정의하기
from sklearn.model_selection import GridSearchCV

plt.rc("font", family="Malgun Gothic")

plt.rcParams["axes.unicode_minus"] = False

### 경고 메시지 없애기
# - 사이킷런 버전에 따라 오류가 아니니 안내(경고)메시지가 자주 나타남
# - 안내(경고) 메시지 없이 실행할 수 있도록 처리
from sklearn import set_config
set_config(display="text")


In [11]:
"""
 1. wine.csv 데이터 읽어들이기: 변수명 wine
 2. 독립/훈련 데이터 분리: 변수명 data, target
 3. 훈련/검증/테스트 데이터로 분리: 분리비율 6:2:2, 변수명: **_input, **_target
"""

file_path = "./data/08_wine.csv"
wine = pd.read_csv(file_path)
print(wine.info())
print(wine.describe())
print(wine.head(2))


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6497 entries, 0 to 6496
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   alcohol  6497 non-null   float64
 1   sugar    6497 non-null   float64
 2   pH       6497 non-null   float64
 3   class    6497 non-null   float64
dtypes: float64(4)
memory usage: 203.2 KB
None
           alcohol        sugar           pH        class
count  6497.000000  6497.000000  6497.000000  6497.000000
mean     10.491801     5.443235     3.218501     0.753886
std       1.192712     4.757804     0.160787     0.430779
min       8.000000     0.600000     2.720000     0.000000
25%       9.500000     1.800000     3.110000     1.000000
50%      10.300000     3.000000     3.210000     1.000000
75%      11.300000     8.100000     3.320000     1.000000
max      14.900000    65.800000     4.010000     1.000000
   alcohol  sugar    pH  class
0      9.4    1.9  3.51    0.0
1      9.8    2.6  3.20    0.0


In [12]:
data = wine.iloc[:, :-1]
target = wine["class"]

print(data)
print(target)

      alcohol  sugar    pH
0         9.4    1.9  3.51
1         9.8    2.6  3.20
2         9.8    2.3  3.26
3         9.8    1.9  3.16
4         9.4    1.9  3.51
...       ...    ...   ...
6492     11.2    1.6  3.27
6493      9.6    8.0  3.15
6494      9.4    1.2  2.99
6495     12.8    1.1  3.34
6496     11.8    0.8  3.26

[6497 rows x 3 columns]
0       0.0
1       0.0
2       0.0
3       0.0
4       0.0
       ... 
6492    1.0
6493    1.0
6494    1.0
6495    1.0
6496    1.0
Name: class, Length: 6497, dtype: float64


In [13]:
### 변수명: **_input, **_target
### stratify=target: 분리 비율이 안맞는 경우 오류 발생 -> 이경우 속성 제외하고 진행

train_input, val_input, train_target, val_target = train_test_split(data, target, test_size=0.4, random_state=42, stratify=target)
val_input, test_input, val_target, test_target = train_test_split(val_input, val_target, test_size=0.5, random_state=42, stratify=val_target)

print(train_input.shape, train_target.shape)
print(val_input.shape, val_target.shape)
print(test_input.shape, test_target.shape)


(3898, 3) (3898,)
(1299, 3) (1299,)
(1300, 3) (1300,)


### 결정트리(의사결정나무), DT모델로 과적합 여부 확인

In [14]:
###  하이퍼파라미터 없이, 랜덤규칙만 넣어서 진행
# - 훈련/검증/테스트 정확도 모두 확인
dt = DecisionTreeClassifier(max_depth=11, random_state=42)
dt.fit(train_input, train_target)

train_score = dt.score(train_input, train_target)
val_score = dt.score(val_input, val_target)
test_score = dt.score(test_input, test_target)

print(f"훈련 정확도: {train_score}, 검증 정확도: {val_score}, 테스트 정확도: {test_score}, 과적합 여부: {train_score - val_score}")

훈련 정확도: 0.9486916367367881, 검증 정확도: 0.8629715165511932, 테스트 정확도: 0.8569230769230769, 과적합 여부: 0.08572012018559494


### 교차검증

In [15]:
"""
<교차검증을 수행하는 경우>
- 데이터의 양이 적은 경우에는 훈련/검증/테스트로 분리하기 어려움
  (훈련 데이터가 부족한 경우 정확도가 낮아짐)
- 훈련과 테스트 데이터로 분리 후 훈련 데이터를 이용해서 수행할 때 성능을 높이는 방법으로 사용

<교차검증 작동 방식>
- 훈련모델 내부에서 훈련 데이터를 훈련/검증 데이터로 분리하여 사용하게됨
- 정의된 Fold의 갯수를 이용하여 훈련 데이터를 분리하여 사용
- 훈련(fit) 중에 모델이 Fold의 갯수에 따라 자유롭게 분리하여 훈련을 수행

<교차검증 주요 키워드>
 - n폴드-교차검증: 훈련데이터를 n폴드 갯수만큼 구간을 나우어서 훈련 수행
 - 구간마다 훈련과 검증데이터를 분리시킴
 - n폴드-교차검증은 보통 3폴드, 5폴드, 10폴드로 정의하여 교차검증 진행
 - 교차검증을 위해서는 훈련과 테스트 데이터 분리비율을 보통 8:2로 하는 것이 일반적임
 
<3폴드-교차검증 예시>
 - 3폴드에서 사용되는 훈련데이터 분리: 데이터(1) : 데이터(2) : 데이터(3)
 (1폴드) 훈련데이터(데이터1 + 데이터2) / 검증데이터(데이터3) -> 결과롤 1폴드 훈련정확도
 (2폴드) 훈련데이터(데이터1 + 데이터3) / 검증데이터(데이터2) -> 결과롤 2폴드 훈련정확도
 (1폴드) 훈련데이터(데이터2 + 데이터3) / 검증데이터(데이터1) -> 결과롤 3폴드 훈련정확도
 
<최종 훈련 정확도>
 - 각 폴드의 훈련정확도의 "평균값"이 "최종 훈련 정확도"가 됩니다.
 
<교차검증 수행 순서>
 - 사용할 모델 생성
 - 교차검증 함수 정의: 교차검증 함수에 사용할 모델, 훈련 독립, 종속변수 넣기, 폴드 정의
                     : 폴드는 정의하지 않으면 기본값 5가 사용됨
 - 교차검증은 훈려에 대한 정확도를 높이는 방법을 제시하는 개념일 뿐
   교차검증의 결과로 훈련 이후 예측으로 사용되지는 않습니다.
   -> 폴드를 이용한 교차검증을 적용한 모델을 사용해야함(CV가 포함된 모델)
 
<교차검증 라이브러리>
 - 사용 패키지: sklearn.model_selection
 - 사용함수: cross_validate
 
<폴드 라이브러리>
 - 사용 패키지: sklearn.model_selection
 - 사용 클래스: StratifiedKFold
"""

'\n<교차검증을 수행하는 경우>\n- 데이터의 양이 적은 경우에는 훈련/검증/테스트로 분리하기 어려움\n  (훈련 데이터가 부족한 경우 정확도가 낮아짐)\n- 훈련과 테스트 데이터로 분리 후 훈련 데이터를 이용해서 수행할 때 성능을 높이는 방법으로 사용\n\n<교차검증 작동 방식>\n- 훈련모델 내부에서 훈련 데이터를 훈련/검증 데이터로 분리하여 사용하게됨\n- 정의된 Fold의 갯수를 이용하여 훈련 데이터를 분리하여 사용\n- 훈련(fit) 중에 모델이 Fold의 갯수에 따라 자유롭게 분리하여 훈련을 수행\n\n<교차검증 주요 키워드>\n - n폴드-교차검증: 훈련데이터를 n폴드 갯수만큼 구간을 나우어서 훈련 수행\n - 구간마다 훈련과 검증데이터를 분리시킴\n - n폴드-교차검증은 보통 3폴드, 5폴드, 10폴드로 정의하여 교차검증 진행\n - 교차검증을 위해서는 훈련과 테스트 데이터 분리비율을 보통 8:2로 하는 것이 일반적임\n \n<3폴드-교차검증 예시>\n - 3폴드에서 사용되는 훈련데이터 분리: 데이터(1) : 데이터(2) : 데이터(3)\n (1폴드) 훈련데이터(데이터1 + 데이터2) / 검증데이터(데이터3) -> 결과롤 1폴드 훈련정확도\n (2폴드) 훈련데이터(데이터1 + 데이터3) / 검증데이터(데이터2) -> 결과롤 2폴드 훈련정확도\n (1폴드) 훈련데이터(데이터2 + 데이터3) / 검증데이터(데이터1) -> 결과롤 3폴드 훈련정확도\n \n<최종 훈련 정확도>\n - 각 폴드의 훈련정확도의 "평균값"이 "최종 훈련 정확도"가 됩니다.\n \n<교차검증 수행 순서>\n - 사용할 모델 생성\n - 교차검증 함수 정의: 교차검증 함수에 사용할 모델, 훈련 독립, 종속변수 넣기, 폴드 정의\n                     : 폴드는 정의하지 않으면 기본값 5가 사용됨\n - 교차검증은 훈려에 대한 정확도를 높이는 방법을 제시하는 개념일 뿐\n   교차검증의 결과로 훈련 이후 예측으로 사용되지는 않습니다.\n   -> 폴드를 이용한 

In [16]:
### 교차검증 및 폴드 사용을 위한 라이브러리 정의
from sklearn.model_selection import cross_validate
from sklearn.model_selection import StratifiedKFold

In [26]:
### 결정트리 모델을 이용하여 교차검증 수행해 보기
### 1. 교차검증을 위해서는 모델 생성만 합니다.

dt = DecisionTreeClassifier(random_state=42)

### 2. 교차검증 수행
# - 폴드: 기본값 5 사용(폴드 정의 생략 가능)
# - 교차검증은 자체적으로 훈련모델을 이용해서 훈련(fit)을 수행합니다.
# - 기본값 5폴드의 갯수로 훈련데이터를 5개로 분리
# - 각 폴드별로 데이터를 조합하여 훈련 진행
# - 각 폴드마다 정확도, 수행시간을 출력해 줍니다.
# - 5폴드를 사용했기에 -> 5개의 데이터가 나옵니다
scores = cross_validate(dt, train_input, train_target)
scores

{'fit_time': array([0.00340176, 0.        , 0.01279259, 0.00213456, 0.        ]),
 'score_time': array([0.        , 0.        , 0.00201273, 0.        , 0.        ]),
 'test_score': array([0.8474359 , 0.83846154, 0.85      , 0.84467266, 0.84852375])}

In [27]:
### 최종 정확도 확인하기
# - 최종 정확도 = 각 폴드의 정확도 평균
(scores["test_score"]).mean()

0.8458187683091406

### 폴드(Fold)갯수 정의하기

In [None]:
"""
* 폴드(Fold)의 갯수는 훈련의 성능에 영향을 미치는 하이퍼파라미터
* 사용되는 라이브러리 클래스: StratifiedKFold
* 용어정의: KFold라고 칭함
"""

In [29]:
### KFold 정의
cv = StratifiedKFold(
    # 폴드(Fold)의 갯수(기본값 5)
    n_splits=10,
    # 데이터 섞기(기본값=False)
    shuffle=True,
    # 랜던규칙 정의
    random_state=42
)
cv

StratifiedKFold(n_splits=10, random_state=42, shuffle=True)

In [31]:
### 교차검증 수행하기
# - 사용할 모델 생성하기
dt = DecisionTreeClassifier(random_state=42)

# - 교차검증 수행
# - cv: 교차검증 분할기라고 칭하며, 보통 폴드 갯수라고 
scores = cross_validate(dt, train_input, train_target, cv=cv)
scores

### 최종 score 평균값 계산
(scores["test_score"]).mean()


0.8589011930657175

### AutoML(교차검증 + 하이퍼파라미터 튜닝 + 최적의 모델 찾기)