# 머신러닝04_Model Selection 모듈 소개_0722.2021

### (1) 학습/테스트 데이터 셋 분리하지 않고 예측

In [1]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

iris_data = load_iris()
dt_clf = DecisionTreeClassifier()

train_data = iris_data.data
train_label = iris_data.target

# 학습 수행
dt_clf.fit(train_data, train_label)

# 테스트
pred = dt_clf.predict(train_data)
print("예측 정확도:", accuracy_score(train_label, pred))

예측 정확도: 1.0


- 예측을 train_Data로 했기 때문에 결과 1.0으로 출력(잘못됨)
- 예측은 테스트 데이터로 해야 함

### (2) 학습/테스트 데이터 셋 분리하고 예측

In [2]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

iris_data = load_iris()
dt_clf = DecisionTreeClassifier()

# 학습/테스트 데이터 분할(split)
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size=0.2, random_state=4)

print(y_train)

[1 0 2 0 1 2 2 1 1 0 2 0 1 0 2 0 0 1 1 2 0 1 2 2 1 1 0 1 2 1 0 1 0 1 2 1 2
 1 0 2 2 0 1 2 0 2 1 2 1 0 2 1 2 0 2 1 2 1 2 1 1 2 1 1 2 1 1 0 2 0 1 0 1 1
 1 1 0 2 2 1 1 1 0 0 2 2 0 0 0 2 0 0 2 2 1 0 0 0 2 1 0 0 2 1 2 0 0 2 1 1 1
 2 2 1 2 1 1 2 2 2]


In [3]:
# 학습 수행
dt_clf.fit(X_train, y_train)

# 예측 수행
pred = dt_clf.predict(X_test)
print("예측정확도:", accuracy_score(y_test, pred))

예측정확도: 0.9666666666666667


#### 넘파이 ndarray뿐만 아니라 판다스 DataFrame/Series도 train_test_split() 분할 가능

In [8]:

import pandas as pd

iris_df = pd.DataFrame(iris_data.data, columns=iris_data.feature_names)
iris_df['target']=iris_data.target
iris_df.head(3)


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


In [9]:
# 피처 데이터프레임 반환 (마지막 열 전까지, 마지막 열 제외)
feature_df = iris_df.iloc[:, :-1]

# 타깃 데이터프레임 반환
target_df = iris_df.iloc[:, -1]

# 학습/테스트 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(feature_df,
                                                    target_df,
                                                    test_size=0.3,
                                                    random_state=4)

In [10]:
type(X_train)

pandas.core.frame.DataFrame

In [11]:
dt_clf = DecisionTreeClassifier()
dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
print('예측정확도: {0:.3f}'.format(accuracy_score(y_test, pred)))

예측정확도: 0.978


#### 홀드-아웃 방식
- 데이터를 두 개 세트로 나누어 각각 Train과 Test 세트로 사용
- Train과 Test의 비율을 7:3~9:1로 널리 사용하나, 알고리즘의 특성 및 상황에 따라 적저란 비율을 사용

#### 학습/테스트 데이터 셋 분리 시 문제점
- 과적합(overfitting) 문제 발생
- 부적합한 데이터 선별로 인한 알고리즘 성능 저하

### 교차검증(Cross Validation, CV)
- K-fold Cross Validation 이라고도 함
- 전체 데이터 세트를 임의로 k개의 그룹으로 나누고, 그 가운데 하나의 그룹을 돌아가면서 테스트 데이터 세트로, 나머지 k-1개 그룹은 학습용 데이터 세트로 사용하는 방법
- 별도의 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가를 수행

- 사용 목적
    - 데이터에 적합한 알고리즘인지 평가하기 위해
    - 모델에 적절한 hyperparameter 찾기 위해
    - 과대적합 예방
    - 데이터 편증을 막기 위해

#### 교차 검증 방법
- K 폴드 교차 검증
- Stratified K 폴드 교차 검증

#### K 폴드 교차 검증
- k개의 데어터 폴드 세트를 만들어서
- k번만큼 각 폴드 세트에 학습과 검증 평가를 반복적으로 수행
- 가장 보편적으로 사용되는 교차 검증 기법
- 5/10-폴드 교차 검증

#### K 폴드 교차 검증 프로세스 구현을 위한 사이킷런 클래스
(1) KFold 클래스 : 폴드 세트로 분리하는 객체 생성
- kfold = KFold(n_splits=5)

(2) split()메소드 : 폴드 데이터 세트로 분리
- kfold.split(featrues)
- 각 폴드마다 학습용, 검증용, 테스트 데이터 추출, 학습용 및 예측 수행, 정확도 측정

(3) 최종 평균 정확도 계산

In [None]:
###

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold

iris = load_iris()
features = iris.data
label = iris.target

features.shape

In [None]:
# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state=156)

# 5개의 폴드 세트로 분리하는 KFold 객체 생성
kfold = KFold(n_splits=5)

# 폴드 세트별 정확도를 담을 리스트 객체 생성
cv_accuaracy = []

In [None]:
# 폴드 별 학습용, 검증용 데이터 세트의 행 인덱스 확인
for train_index, test_index in kfold.split(features):
    print(train_index, test_index)

In [None]:
import numpy as np

for train_index, test_index in kfold.split(features):
    X_train = features[train_index]
    X_test = features[test_index]
    y_train = label[train_index]
    y_test = label[test_index]
    
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    
    acc = np.round(accuracy_score(y_test, pred), 3) # 반올림 3자리로
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    
    print('정확도: %f, 학습데이터크기 : %d, 검증데이터크기: %d' %(acc, train_size, test_size))
    cv_accuaracy.append(acc)
    
print('평균 검증 정확도: ', np.mean(cv_accuaracy))

### Stratified K 폴드 교차 검증
- 불균형한 분포도를 가진 레이블(결정 클래스) **데이터 집합을 위한 K 폴드 방식**

#### 불균형한 데이터(imbalanced data)문제
- 관심 대상 데이터가 상대적으로 매우 적은 비율로 나타나는 데이터 문제
- 분류 문제인 경우 : 클래스들이 균일하게 분포하지 않은 문제를 의미
    - ex) 불량률이 1%인 생산라인에서 양푸뫄 불량품을 예측하는 문제
    - 사기감지탐지(fraud detection), 이상거래감지(anomaly detection), 의료진단(medical diagnosis)등 에서 자주 나타남
- 회긔 문제인 경우 : 극단값이 포함되어 있는 '치우친'데이터 사례
    - ex) 산불에 의한 피해 면적을 예측하는 문제

**우회/극복하는 방법**
- 데이터 추가 확버
- Re-Sampling
    - Under-sampling(과소표집)
        - 다른 클래스에 비하여 상대적으로 많이 나타나는 클래스의 개수를 줄임
        - 균형은 유지할 수 있으나 유용한 정보에 대한 손실이 있을 수 있음
    - Over-Sampling(과대표집)
        - 상대적으로 적게 나타나는 클래스의 데이터를 복제하여 데이터의 개수를 늘림
        - 정보 손실은 없이 학습 성능은 높아지는 반면, 과적합의 위험이 있음
        - 이를 회피하기 위해서 SMOTE와 같이 임의의 값을 생성하여 추가하는 방법 사용

In [None]:
import pandas as pd

iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df.head()

In [None]:
iris_df['label'].value_counts()
# 레이블 값은 0,1,2 값 모두 50개로 동일
# 즉, setosa, versicolor, virginica 각 품종 50 개씩

In [None]:
# 3개 폴드를 구성
kfold = KFold(n_splits=3)

n=0
for train_index, test_index in kfold.split(iris_df):
    n += 1
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    print('[교차검증: %d]' %(n))
    print(' 학습용 : \n',label_train.value_counts())
    print(' 검증용 : \n',label_train.value_counts())

### StratifiedKFold 클래스
- KFfold 사용법과 거의 비슷
- 차이점
    - 레이블 데이터 분포도에 따라 학습/검증 데이터를 나누기 때문에 split() 메서드에 인자로 피처 데이터 세트뿐 아니라 레이블 데이터 세트도 반드시 필요하다는 것

In [None]:
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=3)
n=0

for train_index, test_index in skf.split(iris_df, iris_df['label']):
    n = n + 1
    
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    print('[교차검증 : %d]' %n)
    print('학습용 레이블 분포 : \n', label_train.value_counts())
    print('검증용 레이블 분포 : \n', label_test.value_counts())

In [None]:
# StratifiedKFold를 이용해 붓꽃 데이터 교차 검증

dt_clf = DecisionTreeClassifier(random_state=156)

# 3개의 폴드 세트로 분리하는 StratifiedKFold 객체 생성
skfold = StratifiedKFold(n_splits=3)

# 폴드 세트별 정확도를 담을 리스트 객체 생성
cv_accuracy = []
n = 0

for train_index, test_index in skfold.split(features, label):
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    # 학습 및 예측
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    
    # 반복 시 마다 정확도 측정
    n += 1
    acc = np.round(accuracy_score(y_test, pred), 3)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('%d \n정확도 : %f, 학습데이터 크기: %d, 검증데이터 크기: %d' %(n, acc,train_size, test_size))
    cv_accuracy.append(acc)

print('\n ## 평균 검증 정확도:', np.mean(cv_accuracy))

### 붓꽃 자료를 3개 폴드로 분할하여 학습 및 검증

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score , cross_validate
from sklearn.datasets import load_iris
import numpy as np

iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state=156)

features = iris.data
label = iris.target

scores = cross_val_score(dt_clf, features, label, scoring = 'accuracy', cv=3)
print('교차 검증별 정확도:', scores)
print('평균 검증 정확도:', np.round(np.mean(scores), 4))

## 교차 검증과 최적의 하이퍼파라미터 튜닝을 한번에

하이퍼파라미터(Hyper parameter)
- 머신러닝 알고리즘을 구성하는 요소
- 이 값들을 조정해 알고리즘의 예측 성능을 개선할 수 있음

### 사이킷런의 GridSearchCV클래스
- Classifier나 Regressor와 같은 알고리즘에 사용되는 하이퍼 파라미터를 순차적으로 입력하면서 최덕의 파라미터를 편리하게 도출할 수 있는 방법 제공

### GridSearchCV 클래스 생성자의 주요 파라미터
- estimator : classifier, regressor, peipeline
- param_grid : key + 리스트 값을 가지는 딕셔너리 (estimator 튜닝을 위한 하이퍼 파라미터)
    - key: 파라미터명, 리스트값:파라미터값
- scoring: 예측 성능을 측정할 평가 방법
    - 성능 평가 지표를 지정하는 문자열
- cv : 교차 검증을 위해 분할되는 학습/테스트 세트의 개서
- refit: 최적의 하이퍼 파라미터를 찾은 뒤 입력된 estimator 객체를 해당 하이퍼 파라미터로 재학습 여부
    - 디폴트 : True

In [None]:
# GridSearchCV 를 이용해 결정 트리 알고맂ㅁ의 여러가지 최적화 파라미터를 숝차적으로 적용해서 붗꽃 데이터 예측 분석

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import accuracy_score

iris = load_iris()
X_train, X_test, y_train, y_tst = train_test_split(iris.data, iris.target, test_size=0.2,random_state=121)
st_clf = DecisionTreeClassifier()

parameter = {'max_depth': [1,2,3], 'min_samples_split': [2,3]}
# 하이퍼파라미터는 딕셔너리 형식으로 지정
# key : 결정트리의 하이파라미터
# value : 하이퍼파라미터의 값

In [None]:
grid_tree = GridSearchCV(dt_clf, param_grid=parameter, cv=3, refit=True, return_train_score=True)

grid_tree.fit(X_train, y_train)

scores_df = pd.DataFrame(grid_tree.cv_results_)
scores_df

In [None]:
# GridSearchCV 결과 세트로 딕셔너리 형태인 cv_results_를
# DataFrame으로 변환 후 # 일부 파라미터 확인

scores_df[['params','mean_test_score', 'rank_test_score']]

In [None]:
# 최고 성능을 가지는 파라미터 조합 및 예측 성능 1위 값 출력
print('최적 파라미터: ', grid_tree.best_params_)
print('최고 정확도:', grid_tree.best_score_)

In [None]:
# GridSearchCV 객체의 생성 파라미터로 refit=True 로 설정된 경우(디폴트)
# GridSearchCV가 최적 성능을 나타내는 하이퍼 파라미터로 Estimator를 학습하고
# best_estimator_ 로 저장

best_dt = grid_tree.best_estimator_

# best_estimator_는 이미 최적 학습이 됐으므로 별도 학습 필요 없이 바로 예측 가능
pred = best_dt.predict(X_test)
accuracy_score(y_test, pred)