# 데이터 분리<br>
#### 홀드아웃 방법의 이론과 실현<br>

데이터를 분리하는 방법  

- 홀드아웃 방법


- k-분할 교차검증

---

홀드아웃 방법 : 주어진 데이터셋을 train 데이터와 test 데이터 2가지로 분할하는 방법.  

scikit-learn 라이브러리(파이썬의 오픈소스 머신러닝 라이브러리)로 홀드아웃 방법을 실현.  

- `train_test_split()` 함수 사용

`x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=XXX, random_state=66)`  

random_state 를 지정하지 않으면 테스트 시, 데이터셋이 고정되지 않고 매번 무작위로 선택됨  

데이터셋이 매번 바뀌기 때문에 정밀도도 매번 달라져서 정밀도를 비교하거나 실험을 재현하기 힘들어짐.

In [2]:
# 코드 실행에 필요한 모듈을 import합니다.
from sklearn import datasets
from sklearn.model_selection import train_test_split

# Iris 데이터 세트 불러오기
iris = datasets.load_iris()
X = iris.data
y = iris.target

# X_train, X_test, y_train, y_test에 데이터 저장
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
random_state=0)

# 훈련 데이터와 테스트 데이터의 세이프 확인
print ("X_train :", X_train.shape)
print ("y_train :", y_train.shape)
print ("X_test :", X_test.shape)
print ("y_test :", y_test.shape)

X_train : (120, 4)
y_train : (120,)
X_test : (30, 4)
y_test : (30,)


#### k-분할 교차검증의 이론<br>

k-분할 교차검증 : 비복원 추출 이용, 훈련 데이터셋을 k개로 분할 후, k-1개의 데이터는 학습 데이터로, 나머지 1개는 모델 테스트에 사용  

k개의 모델과 성능 평가를 k개 얻는다. 즉, k회 학습과 평가를 반복하고 k개 성능 평가의 평균(`mean()`)으로 성능을 산출  

장단점 : 모든 조합을 시험하기 때문에 보다 안정되고 정확한 모델 평가가 가능, but 홀드아웃 방법보다 k배의 연산이 필요하다는 단점
> 즉, 장점은 보유한 데이터를 최대한으로 활용한 성능 측정에 있다  

일반적으로 사용되는 k의 값 : 5 ~ 10 (데이터셋이 큰 경우 k값을 크게하여 분할 수를 늘려 좋은 결과를 얻을 수 있다)<br>

---

k-분할 교차검증 안에는 또 다른 특별한 방법도 있다.
- 리브-원-아웃 교차검증 (Leave-One-Out cross-validation, LOOCV)
> 작은 데이터셋(예로 50~100행 이하)을 취급하는 경우, 이 방법을 권장  

---

`scores = cross_val_score(모델, X, y, cv=5)`  

* `sklearn.cross_validation`은 `버전 0.20`에서 더 이상 지원되지 않습니다.  

* 따라서, `sklearn.model_selection`의 `cross_val_score`를 사용합니다.  

In [None]:
# 코드의 실행에 필요한 모듈을 로드
from sklearn import svm, datasets
from sklearn.model_selection import cross_val_score

# "Iris"라는 데이터 세트를 가져옵니다
iris = datasets.load_iris()
X = iris.data
y = iris.target

# 머신 러닝 알고리즘 SVM을 사용합니다
svc = svm.SVC(C=1, kernel="rbf", gamma=0.001)

# 교차 검증법을 이용하여 점수를 요구합니다
# 내부에서는 X, y가 각각 X_train, X_test, y_train, y_test처럼 분할 처리됩니다
scores = cross_val_score(svc, X, y, cv=5)

# 학습 데이터와 테스트 데이터의 크기를 확인합니다
print (scores)
print ("평균 점수: ", scores.mean())

#### 무엇이 좋은 것인지 아직 잘 모르겠다...  
우리는 어떻게 데이터 분리를 해야하는 것인가? Kfold vs TTS (train_test_split)  
https://stackoverflow.com/questions/49134338/kfolds-cross-validation-vs-train-test-split

## 과적합<br>

주어진 데이터에 과하게 적용되어 올바른 기준을 구축하지 못한 것.

즉, 컴퓨터가 데이터를 과하게 학습한 상태를 과적합(overfitting) or 과대적합이라고 한다.

---  

#### 과적합의 회피<br>

- 딥러닝의 `드롭아웃`
> 학습시 무작위로 일부 뉴런을 없애는 방법
- `정규화`(regularization, normalization)
> 편향된 데이터의 영향을 없애는 방법  

---

과적합 : 데이터를 과하게 학습한 상태

과소적합 : 데이터를 제대로 학습하지 못한 상태  

- 과적합 모델은 분산(variance)가 크다고 이야기

- 과소적합 모델은 편향(bias)가 크다고 이야기  




## 앙상블 학습<br>

ensemble learning은 여러 모델을 학습시킴으로써 일반화를 획득하려는 시도  

- 배깅(bagging) : 복수 모델을 동시 학습시켜 예측 결과의 평균을 취하는 것으로 예측 결과의 일반화를 시도

- 부스팅(boosting) : 모델 예측 결과에 대한 모델을 만들어 일반화 성능을 높이는 기술
