In [1]:
# 데이터 불러오기 
import pandas as pd 
wine = pd.read_csv('./data/08_wine.csv')
wine.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6497 entries, 0 to 6496
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   alcohol  6497 non-null   float64
 1   sugar    6497 non-null   float64
 2   pH       6497 non-null   float64
 3   class    6497 non-null   float64
dtypes: float64(4)
memory usage: 203.2 KB


In [2]:
# 독립 종속 분리 
data = wine[['alcohol', 'sugar', 'pH']].to_numpy()
target = wine['class'].to_numpy()

print(target.shape, data.shape)

(6497,) (6497, 3)


In [3]:
# train, test 분리 
from sklearn.model_selection import train_test_split
train_input, test_input,train_target, test_target = train_test_split(data, target, test_size = 0.2, random_state = 42)
print(train_input.shape, train_target.shape)
print (test_input.shape, test_target.shape)

(5197, 3) (5197,)
(1300, 3) (1300,)


In [4]:
# 여러개의 데이터로 정확도를 확인하는 것  
# 일반적인 데이터 분류의 기준 
# 훈련 : 검증 : 테스느 = 6 :2:2

sub_input, val_input,sub_target, val_target = train_test_split(data, target, test_size = 0.2, random_state = 42)
print(train_input.shape, train_target.shape)
print (test_input.shape, test_target.shape)     
        

(5197, 3) (5197,)
(1300, 3) (1300,)


In [8]:
# dt 훈련하기 
from sklearn.tree import DecisionTreeClassifier
dt = DecisionTreeClassifier(random_state= 42)
# 훈련시키기 
dt.fit(sub_input, sub_target)
# 분류정확도 확인하기 
print(dt.score(sub_input, sub_target))
print(dt.score(val_input, val_target))

0.996921300750433
0.8584615384615385


In [9]:
print(dt.score(test_input, test_target))

0.8584615384615385


## 교차검증

In [11]:
# - 내부적으로 훈련/ 검증 데이터로 구분하여 사용하는 알고리즘 
# - 내부적으로 구분해 사용하는 데이터는 위에서 구분한 train 뎅터 사용
# - 데이터 준비는 기존과 동일하게 훈련 및 테스트 데이터만 목 있음 된다 

In [13]:
# 교파검등 라이브러리 호출 
from sklearn.model_selection import cross_validate 

#교차검증 수행 
scores = cross_validate(dt, train_input, train_target)
print(scores)

{'fit_time': array([0.00797772, 0.00619602, 0.        , 0.        , 0.02184963]), 'score_time': array([0.00099874, 0.        , 0.        , 0.        , 0.        ]), 'test_score': array([0.86923077, 0.84615385, 0.87680462, 0.84889317, 0.83541867])}


In [16]:
# 교차검증 주요 키워드 : '폴드'
#     훈련데이터(train_input)를 폴드의 개수 만큼 나누어서 교차하면서 훈련하는 방식 
#     각 폴더 단위별로 훈련한 검증 결과를 평균한 값이 최종 검증결과가 된다  
# 폴드 값 5개 평균내기 
import numpy as np 
np.mean(scores['test_score'])

0.855300214703487

In [18]:
from sklearn.model_selection import cross_validate
scores = cross_validate(dt, train_input, train_target)
print(scores)

{'fit_time': array([0.00598288, 0.0089457 , 0.        , 0.01483989, 0.        ]), 'score_time': array([0.0020082, 0.       , 0.       , 0.       , 0.       ]), 'test_score': array([0.86923077, 0.84615385, 0.87680462, 0.84889317, 0.83541867])}


In [19]:
# 폴드 분할 컨트롤하기 
# cv(cross validation) 분할기라고 칭한다 
# cv에 StratifiedKFold() 클래스 사용 
# 클래스에 아무값도 넣지 않으면, 기본 폴드는 5를 사용함 

from sklearn.model_selection import StratifiedKFold
scores = cross_validate(dt, train_input, train_target, cv= StratifiedKFold())
print(np.mean(scores["test_score"]))

0.855300214703487


In [23]:
# n_splits : 훈련 데이털르 몇 개 폴드로 나눌 것인지 결정 (폴드의 개수 기본 5)
# shuffle : 훈련 데이터 섞기 (기본값 = Flase) 
# 훈련용 과 검증용의 분리 
splitter = StratifiedKFold(n_splits=10, shuffle=True, random_state=42)
scores = cross_validate(dt, train_input, train_target, 
                        cv= splitter )
print(np.mean(scores["test_score"]))

0.8574181117533719


### 하이퍼파리미터 튜닝(AutoML)

In [24]:
# - 교차검증, 하이퍼파리미터 찾기 , 모델훈련을 한번에 자동으로 수행하는 개념
# - 사용 패키지 : sklearn.model_selection
# - 사용 클래스 : GridSearchCV (그리드 서치라고 칭한다)
# - 

In [25]:
# 트리의 깊이(max_depth) 값 찾기 
# 라이브러리 읽어오기 
from sklearn.model_selection import GridSearchCV

# max_depth의 값을 찾기위한 범위 지정하기 
# range : 훈련 횟수
params = {"max_depth" : range(5,20,1)}
# 하이퍼파라미터 그리드 서치 객체 생성하기 
# 자신이 사용할 모델 이름 넣으면 된다
# n_jobs : 사용할 CPU코어 개수 지정 (-1은 모든 코어 사용)
gs = GridSearchCV(DecisionTreeClassifier(random_state=42),
                 params, n_jobs=-1)
#스스로 하이퍼파라미터 찾기 
gs.fit(train_input, train_target)
# 자동으로 찾은 하이퍼 파라미터 값 출력하기
print(gs.best_estimator_)

DecisionTreeClassifier(max_depth=8, random_state=42)


In [28]:
# 검증하기 
dt = gs.best_estimator_
print(dt.score(train_input,train_target))
print(dt.score(test_input,test_target))

0.9003271117952665
0.8584615384615385
