# 4. 사이킷런(Scikit-Learn) / 학습 데이터 준비

사이킷런(scikit-learn)은 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리로 다양한 머신러닝 모듈을 제공합니다.

- **Example Data**
    - sklearn.datasets : 예제 데이터 세트 제공
---
- **feature 처리**
    - sklearn.preprocessing : 데이터 전처리에 필요한 다양한 가공 기능 제공
    - sklearn.feature_selection : 중요한 feature를 우선순위로 선택하기 위한 수행 기능 제공
    - sklearn.feature_extraction : 데이터의 벡터화된 feature 추출 기능 제공
---
- **feature 처리 & 차원 축소** 
    - sklearn.decomposition : 차원 축소와 관련된 알고리즘 제공
---
- **데이터 분리, 검증 & 파라미터 튜닝** 
    - sklearn.model_selection : 교차 검증을 위한 데이터 세트 분리(Train & Test), GridSearch)로 파라미터 추출 등 API 제공
---
- **평가 (Evaluation)** 
    - sklearn.metrics : Classification, Regression, Clustering 등 성능 측정 방법 제공
---
- **ML 알고리즘** 
    - sklearn.ensemble : 앙상블 알고리즘 제공
    - sklearn.linear_model : 선형 회귀 및 로지스틱 회귀 등 Regression 관련 알고리즘 지원
    - sklearn.naive_bayes : 나이브 베이즈 알고리즘 제공
    - sklearn.neighbors : 최근접 이웃 알고리즘 제공
    - sklearn.svm : Support Vector Machine 알고리즘 제공
    - sklearn.tree : 의사 결정 트리 알고리즘 제공
    - sklearn.cluster : 비지도 클러스터링 (Unsupervised Clustering) 알고리즘 제공
---
- **유틸리티** 
    - sklearn.pipeline : feature 처리 등의 변환과 ML 알고리즘 학습, 예측 등을 함께 묶어서 실행할 수 있는 유틸리티 제공

---
### Split 

올바른 학습을 위해 데이터 세트를 Train data와 Test data로 나누어야 합니다.
이를 위해 train_test_split() 함수를 사용합니다.
 
 --- 
- train_test_split(arrays, test_size, train_size, random_state, shuffle, stratify)

(1) Parameter
   - arrays : 분할시킬 데이터를 입력 (Python list, Numpy array, Pandas dataframe 등..)
   - test_size : 테스트 데이터셋의 비율(float)이나 갯수(int) (default = 0.25)
   - train_size : 학습 데이터셋의 비율(float)이나 갯수(int) (default = test_size의 나머지)
   - random_state : 데이터 분할시 셔플이 이루어지는데 이를 위한 시드값 (int나 RandomState로 입력)
   - shuffle : 셔플여부설정 (default = True)
   - stratify : 지정한 Data의 비율을 유지한다. 예를 들어, Label Set인 Y가 25%의 0과 75%의 1로 이루어진 Binary Set일 때, stratify=Y로 설정하면 나누어진 데이터셋들도 0과 1을 각각 25%, 75%로 유지한 채 분할된다.

(2) Return
   - X_train, X_test, Y_train, Y_test : arrays에 데이터와 레이블을 둘 다 넣었을 경우의 반환이며, 데이터와 레이블의 순서쌍은 유지된다.
   - X_train, X_test : arrays에 레이블 없이 데이터만 넣었을 경우의 반환

In [1]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Iris 데이터 세트 불러오기
iris = load_iris()

# Classification에 사용할 머신러닝 모델 불러오기
dt_clf = DecisionTreeClassifier()

# 전체 데이터로 학습
dt_clf.fit(iris.data, iris.target)

# 전체 데이터로 검증
pred = dt_clf.predict(iris.data)

# 검증 정확도 출력
# 학습한 데이터를 그대로 검증 데이터로 사용하면 정확도가 100%가 나오게 됩니다.
# 그러나 올바른 학습과 검증의 과정이 아닙니다.
print("검증 정확도(accuracy) : {0:.2f}%".format(accuracy_score(iris.target, pred) * 100))


# 전체 데이터를 학습 데이터와 검증 데이터로 나누어 머신러닝 모델을 평가합니다.
# 데이터 세트를 나눔으로써 머신러닝 모델을 좀 더 일반화할 수 있습니다.
X_train, X_test, Y_train, Y_test =  train_test_split(iris.data, iris.target, test_size = 0.3, random_state = 123, shuffle = True)# 데이터 분할

# 학습 데이터로 모델 학습 진행
dt_clf.fit(X_train, Y_train)  

# 검증 데이터로 성능 평가
pred = dt_clf.predict(X_test)

# 검증 정확도 출력
print("검증 정확도(accuracy) : {0:.2f}%".format( accuracy_score(Y_test, pred) * 100))   

검증 정확도(accuracy) : 100.00%
검증 정확도(accuracy) : 95.56%


---
### High Bias & High Variance

   - High bias : 훈련 데이터를 제대로 표현하지 못함. **Underfit**
   - High variance : 훈련 데이터를 지나치게 자세하게 표현. 새로운 데이터를 오히려 제대로 예측하지 못함. **Overfit**
   - Validation : 데이터는 train 셋으로 학습한 모델이 Overfit (Sample Bias)되지 않았는지 확인

### Validation
  - 데이터 셋이 작다면 train/valid/test 세 개로 분류하기 어려움
  - 데이터가 적을 때는 **Cross validation (교차검증)**사용
  
#### Hold Out
 - train / test 두 개로 나눔

#### K-Fold
 - train 데이터셋을 K개로 나눈다.
 - K개 중 한 개를 valid, 나머지를 training 용으로 사용하여 학습
 - K개의 모델의 Hyper-parameter의 평균을 최종 결과로 사용한다.<br>
 +) 모든 데이터를 train/valid 용으로 사용 가능<br>
 +) 적은 데이터로도 높은 정확도<br>
 -) 느림<br>
 
 
 
 - KFold(n_splits)
    - n_splits : fold 개수
- split(X)
    - X : Data

In [4]:
#[4-3] K-fold 교차 검증

import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import KFold
from sklearn.metrics import accuracy_score


# Iris 데이터 세트 불러오기
iris = load_iris() 
# Classification에 사용할 모델 불러오기
dt_clf = DecisionTreeClassifier()

# 몇 개의 Fold로 나눌지 결정합니다.
n_iter = 0
kfold = KFold(n_splits = 5)
cv_accuracy = []

for train_idx, test_idx in kfold.split(iris.data):    # Data를 K만큼 나누기
    X_train, X_test = iris.data[train_idx], iris.data[test_idx] # 나눈 데이터 저장
    y_train, y_test = iris.target[train_idx], iris.target[test_idx]

    dt_clf.fit(X_train,y_train)     # 모델 학습
    pred = dt_clf.predict(X_test)   # 검증 데이터로 결과 예측
    n_iter += 1

    accuracy = np.round(accuracy_score(y_test, pred), 4)    # 각 Iter 별 정확도 측정
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]

    print("Iter : {0} Cross-Validation Accuracy : {1}, Train Data 크기 : {2}, Test Data 크기 : {3}"
          .format(n_iter, accuracy, train_size, test_size))

    cv_accuracy.append(accuracy)

print("평균 검증 정확도 : ", np.mean(cv_accuracy)) # 평균 검증 정확도 출력

Iter : 1 Cross-Validation Accuracy : 1.0, Train Data 크기 : 120, Test Data 크기 : 30
Iter : 2 Cross-Validation Accuracy : 1.0, Train Data 크기 : 120, Test Data 크기 : 30
Iter : 3 Cross-Validation Accuracy : 0.9, Train Data 크기 : 120, Test Data 크기 : 30
Iter : 4 Cross-Validation Accuracy : 0.9333, Train Data 크기 : 120, Test Data 크기 : 30
Iter : 5 Cross-Validation Accuracy : 0.7667, Train Data 크기 : 120, Test Data 크기 : 30
평균 검증 정확도 :  0.9199999999999999


---
#### Stratified K-Fold
 - 각 fold가 특수하게 나뉜 경우에는 K-Fold 정확도가 좋지 않음
 - 그러므로 각 fold 데이터 클래스의 분포가 같도록 만들어준다.<br>
 +) 각 fold가 전체 데이터셋을 잘 대표<br>
 +) 모델을 학습시킬 때 편향되지 않게 학습 가능<br>


 - StratifiedKFold(n_splits)
      - n_splits : fold 개수
      
      
 - split(X, y)
      - X : Data
      - y : label

In [5]:
#[4-4] Stratified K-Fold 교차 검증

import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import accuracy_score

# Iris 데이터 세트 불러오기
iris = load_iris()

# 데이터 분포를 확인하기 위해 DataFrame을 만들어줍니다.
iris_df = pd.DataFrame(data = iris.data, columns = iris.feature_names)
iris_df['label'] = iris.target

# Classification에 사용할 모델 불러오기
dt_clf = DecisionTreeClassifier()

# Iris 데이터는 3개의 Class로 이루어져 있습니다.
# 2. 그러므로 3개의 Fold로 데이터를 나눕니다.
n_iter = 0
skf = StratifiedKFold(n_splits = 3)
avg_acc = []

for train_idx, test_idx in skf.split(iris.data,iris.target):    # iris 데이터에서 나누기
    # Iter 수 증가
    n_iter += 1
    
    # 3. K 개수 만큼 Fold 나누기
    train_label = iris_df['label'].iloc[train_idx]                  
    test_label = iris_df['label'].iloc[test_idx]
    X_train, X_test = iris.data[train_idx],iris.data[test_idx]
    y_train, y_test = iris.target[train_idx],iris.target[test_idx]
    
    print("Iteration :", n_iter)
    print("--------------------")
    print("학습 데이터 분포 : \n", train_label.value_counts())
    print("--------------------")
    print("검증 데이터 분포 : \n", test_label.value_counts())
    print("--------------------")
    
    # 4. 학습 데이터로모델 학습
    dt_clf.fit(X_train,y_train)
    
    # 검증 데이터로 성능 평가
    pred = dt_clf.predict(X_test)

    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]

    print("Iter : {0}, 정확도 : {1}%, 학습 데이터 개수 : {2}, 검증 데이터 개수 : {3}\n"
          .format(n_iter, accuracy*100, train_size, test_size))

    avg_acc.append(accuracy)
    
print("평균 검증 정확도 : {0:.4f}%".format(np.mean(avg_acc)* 100))


Iteration : 1
--------------------
학습 데이터 분포 : 
 2    33
1    33
0    33
Name: label, dtype: int64
--------------------
검증 데이터 분포 : 
 2    17
1    17
0    17
Name: label, dtype: int64
--------------------
Iter : 1, 정확도 : 98.04%, 학습 데이터 개수 : 99, 검증 데이터 개수 : 51

Iteration : 2
--------------------
학습 데이터 분포 : 
 2    33
1    33
0    33
Name: label, dtype: int64
--------------------
검증 데이터 분포 : 
 2    17
1    17
0    17
Name: label, dtype: int64
--------------------
Iter : 2, 정확도 : 92.16%, 학습 데이터 개수 : 99, 검증 데이터 개수 : 51

Iteration : 3
--------------------
학습 데이터 분포 : 
 2    34
1    34
0    34
Name: label, dtype: int64
--------------------
검증 데이터 분포 : 
 2    16
1    16
0    16
Name: label, dtype: int64
--------------------
Iter : 3, 정확도 : 100.0%, 학습 데이터 개수 : 102, 검증 데이터 개수 : 48

평균 검증 정확도 : 96.7333%


---
#### Leave One Out (LOO)

- K-Fold의 특수한 경우
- K (데이터의 총 개수), 각 fold에는 데이터 한 개만<br>
+) 작은 데이터셋에서 좋은 결과<br>
-) 데이터셋이 커질수록 매우 느려짐<br>

#### Leave P Out

- LOO와 비슷하지만, 여기서는 p개 만큼 제외하고 train/test셋을 만든다.
- 총 N개의 데이터에 대해 train_size=N-p, valid_size=p 
- 총 N개의 데이터에 대해 nCp 만큼 연산. LOO보다 더 느리다.

#### Shuffle - Split

- 반복 횟수를 train fold 수, valid fold 개수와 독립적으로 조절
- train / valid fold의 합을 전체 fold 수와 다르게 설정도 가능

#### Bootstrap

- 데이터가 적어서 모집단을 추정하기 어려울 때, 데이터들의 분산, 평균, 편차 등을 구하는 통계기법
- 데이터 양이 적을 때, 모델의 통계적 신뢰도를 높이기 위함
- 데이터 셋 내에서 복원추출 방법을 이용해 새로운 샘플을 만든다
- 충분히 많은 샘플이 생긴다면 모집단의 통계적 추정이 가능