### 머신러닝 개념 (ML)
- 데이터를 기반으로 패턴을 학습하고 결과를 추론하는 알고리즘 기법
- 지도학습(Supervised Learning), 비지도학습(Unsupervised Learning), 강화학습(Reinforcement Learning)
- 분류(Classfication), 회귀(Regression)
- 비지도학습 : 군집화(Clustering), 차원축소(PCA)

### 머신러닝 용어
- 피처(feature) : 데이터의 일반 속성
- 레이블, 클래스, 타겟값, 결정값 : 정답데이터를 의미

In [60]:
import numpy as np
import pandas as pd

import sklearn
from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split, KFold, StratifiedKFold, cross_val_score, cross_validate
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

sklearn.__version__

'0.23.2'

In [16]:
iris = load_iris()
print('type : ', type(iris))
print('keys : ', iris.keys())

type :  <class 'sklearn.utils.Bunch'>
keys :  dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [17]:
print('target : ', iris.target)
print()
print('target name : ', iris.target_names)
print()
print('feature name : ', iris.feature_names)
print()
print('data : ', iris.data)

target :  [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]

target name :  ['setosa' 'versicolor' 'virginica']

feature name :  ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

data :  [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 

**Supervised Learning - classification**

#### 교차검증(Cross Validation)
- 과적합(overfitting)을 방지하기 위한 방법
- 데이터의 편중을 막기 위함
- KFold 방식

In [45]:
fold_iris = load_iris()

features = fold_iris.data
label = fold_iris.target

fold_dt_clf = DecisionTreeClassifier(random_state = 100)

In [46]:
print('5개의 폴드 세트를 분리하여 각 폴드 세트별 정확도를 담기')
cv_accuracy = []
kfold = KFold(n_splits = 5)

5개의 폴드 세트를 분리하여 각 폴드 세트별 정확도를 담기


In [47]:
n_iter = 0

for train_idx, test_idx in kfold.split(features) : 
    X_train, X_val = features[train_idx], features[test_idx]
    y_train, y_val = label[train_idx], label[test_idx]
    
    # 학습과 예측
    fold_dt_clf.fit(X_train, y_train)
    fold_pred = fold_dt_clf.predict(X_val)
    
    n_iter += 1
    
    # 학습데이터에 대한 검증 정확도 측정
    acc = accuracy_score(y_val, fold_pred)
    print('{} 교차검증 정확도 : {}, 학습 데이터 크기 : {}, 검증 데이터 크기 : {}'.format(n_iter, acc, X_train.shape[0], X_val.shape[0]))
    print()
    cv_accuracy.append(acc)
    
print('교차검증 평균 정확도 : ', np.mean(cv_accuracy))

1 교차검증 정확도 : 1.0, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30

2 교차검증 정확도 : 0.9666666666666667, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30

3 교차검증 정확도 : 0.9, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30

4 교차검증 정확도 : 0.9333333333333333, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30

5 교차검증 정확도 : 0.7333333333333333, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30

교차검증 평균 정확도 :  0.9066666666666666


- 불균형한 분포도를 가진 레이블 데이터 집합을 위한 KFold 방식 : Stratified KFold
- 레이블의 분포를 먼저 고려한 뒤 이 분포와 동일하게 학습, 검증 데이터 세트로 분할

In [24]:
print('기존 KFold 방식의 문제점을 확인 - ')
print()

fold_iris_frm = pd.DataFrame(data = fold_iris.data,
                            columns = fold_iris.feature_names)
fold_iris_frm['target'] = fold_iris.target

print('value counts - ')
print(fold_iris_frm['target'].value_counts())

기존 KFold 방식의 문제점을 확인 - 

value counts - 
2    50
1    50
0    50
Name: target, dtype: int64


In [33]:
bad_fold_iris = KFold(n_splits = 3)
n_iter = 0

for train_idx, test_idx in bad_fold_iris.split(fold_iris_frm) : 
    # print(train_idx, test_idx) # (데이터가 붓꽃 종별로 몰려 있음을 확인할 수 있다.)
    n_iter += 1
    label_train = fold_iris_frm['target'].iloc[train_idx]
    label_val = fold_iris_frm['target'].iloc[test_idx]
    print('교차검증 횟수 : ', n_iter)
    print('학습 레이블 데이터 분포 : \n', label_train.value_counts())
    print('검증 레이블 데이터 분포 : \n', label_val.value_counts())
    print()

교차검증 횟수 :  1
학습 레이블 데이터 분포 : 
 2    50
1    50
Name: target, dtype: int64
검증 레이블 데이터 분포 : 
 0    50
Name: target, dtype: int64

교차검증 횟수 :  2
학습 레이블 데이터 분포 : 
 2    50
0    50
Name: target, dtype: int64
검증 레이블 데이터 분포 : 
 1    50
Name: target, dtype: int64

교차검증 횟수 :  3
학습 레이블 데이터 분포 : 
 1    50
0    50
Name: target, dtype: int64
검증 레이블 데이터 분포 : 
 2    50
Name: target, dtype: int64



- Stratified KFold를 사용하면 ?

In [36]:
skf = StratifiedKFold(n_splits = 3)
n_iter = 0

for train_idx, test_idx in skf.split(fold_iris_frm, fold_iris_frm['target']) : # target 인자를 추가해야 함 
    n_iter += 1
    label_train = fold_iris_frm['target'].iloc[train_idx]
    label_val = fold_iris_frm['target'].iloc[test_idx]
    print('교차검증 횟수 : ', n_iter)
    print('학습 레이블 데이터 분포 : \n', label_train.value_counts())
    print('검증 레이블 데이터 분포 : \n', label_val.value_counts())
    print()

교차검증 횟수 :  1
학습 레이블 데이터 분포 : 
 2    34
1    33
0    33
Name: target, dtype: int64
검증 레이블 데이터 분포 : 
 1    17
0    17
2    16
Name: target, dtype: int64

교차검증 횟수 :  2
학습 레이블 데이터 분포 : 
 1    34
2    33
0    33
Name: target, dtype: int64
검증 레이블 데이터 분포 : 
 2    17
0    17
1    16
Name: target, dtype: int64

교차검증 횟수 :  3
학습 레이블 데이터 분포 : 
 0    34
2    33
1    33
Name: target, dtype: int64
검증 레이블 데이터 분포 : 
 2    17
1    17
0    16
Name: target, dtype: int64



#### iris 데이터를 이용한 StratifiedKFold 교차검증 실습
- random_state = 100
- StratifiedKFold 교차검증을 (3, 5) 진행 후 평균 정확도를 확인
- 회귀 X, 분류 O
- 회귀에서 지원되지 않는 이유는 회귀는 연속된 숫자 값이기 때문

In [59]:
fold_iris = load_iris()

features = fold_iris.data
labels = fold_iris.target

fold_dt_clf = DecisionTreeClassifier(random_state = 100)
skf = StratifiedKFold(n_splits = 5)
n_iter = 0
cv_accuracy = []

for train_idx, test_idx in skf.split(features, labels) : 
    X_train, X_val = features[train_idx], features[test_idx]
    y_train, y_val = labels[train_idx], labels[test_idx]
    
    # 학습과 예측
    fold_dt_clf.fit(X_train, y_train)
    fold_pred = fold_dt_clf.predict(X_val)
    
    n_iter += 1
    
    # 학습데이터에 대한 검증 정확도 측정
    acc = accuracy_score(y_val, fold_pred)
    print('{} 교차검증 정확도 : {}, 학습 데이터 크기 : {}, 검증 데이터 크기 : {}'.format(n_iter, acc, X_train.shape[0], X_val.shape[0]))
    print()
    cv_accuracy.append(acc)
    
print('교차검증 평균 정확도 : ', np.mean(cv_accuracy))

1 교차검증 정확도 : 0.9666666666666667, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30

2 교차검증 정확도 : 0.9666666666666667, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30

3 교차검증 정확도 : 0.9, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30

4 교차검증 정확도 : 0.9333333333333333, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30

5 교차검증 정확도 : 1.0, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30

교차검증 평균 정확도 :  0.9533333333333334


- cross_val_score(예측모델(분류/회귀), 피처세트, 레이블, 성능평가지표, fold 수) : 위 과정을 한 번에 수행
- fold 설정 -> 반복을 통해서 학습 및 테스트의 인덱스 추출 -> 학습과 예측

In [77]:
fold_iris = load_iris()

features = fold_iris.data
labels = fold_iris.target

fold_dt_clf = DecisionTreeClassifier(random_state = 100)

# 성능평가지표 : accuracy, 교차검증 5회 수행
scores = cross_val_score(fold_dt_clf, features, labels, scoring = 'accuracy', cv = 5)
print('1. cross_val_score type : ', type(scores))
print('2. fold 정확도(=scores): ', scores,'\n3. 평균 정확도 : ', scores.mean())
print()
print()
scores = cross_validate(fold_dt_clf, features, labels, scoring = 'accuracy', cv = 5)
print('1. cross_validate type : ', type(scores))
print('2. cross_validate : \n', scores)
print('3. fold 정확도 : ', scores['test_score'], '\n4. 평균 정확도 : ', scores['test_score'].mean())

1. cross_val_score type :  <class 'numpy.ndarray'>
2. fold 정확도(=scores):  [0.96666667 0.96666667 0.9        0.93333333 1.        ] 
3. 평균 정확도 :  0.9533333333333334


1. cross_validate type :  <class 'dict'>
2. cross_validate : 
 {'fit_time': array([0.00199842, 0.00264788, 0.00191379, 0.00324225, 0.00230145]), 'score_time': array([0.00100398, 0.0010941 , 0.        , 0.00100064, 0.00093794]), 'test_score': array([0.96666667, 0.96666667, 0.9       , 0.93333333, 1.        ])}
3. fold 정확도 :  [0.96666667 0.96666667 0.9        0.93333333 1.        ] 
4. 평균 정확도 :  0.9533333333333334
