# 01. 학습/테스트 데이터 세트 분리 - train_test_split()
- test_size : 전체 데이터에서 데이터 세트 크기를 얼마로 샘플링할 것인가 결정한다. (default:0.25)
- train_size : 전체 데이터에서 학습용 세트 크기를 얼마로 샘플링할 것인가 결정한다. (보통 test_size만 이용)
- shuffle : 데이터를 분리하기 전 데이터를 미리 섞을지 결정한다. (default : True)
- random_state : random_state를 지정하지 않으면 수행할 때마다 다른 학습/테스트 용 데이터를 생성한다.
- 반환값은 튜플 형태이다.

1. 모듈 불러오기

In [1]:
from sklearn import datasets
from sklearn.model_selection import train_test_split

2. 데이터 불러오기

In [2]:
iris = datasets.load_iris()
iris.data

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [3]:
iris.data.shape

(150, 4)

---

3. 순차적 train,test 데이터 분할(7:3)
- shuffle = False를 지정해주었다.
- 순차적으로 추출했기 때문에, iris.data와 순서는 변함이 없다.
- 데이터 수는 지정한 비율로 나뉜다.

In [4]:
x_train1,x_test1,y_train1,y_test1 = train_test_split(iris.data,iris.target,test_size=0.3,shuffle=False)

In [5]:
# 순서는 분할 전과 같음
x_train1

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [7]:
# 분할된 데이터
x_train1.shape, y_train1.shape, x_test1.shape, y_test1.shape

((105, 4), (105,), (45, 4), (45,))

---

4. 랜덤으로 train,test 데이터 분할 (7:3, shuffle = True)
- shuffle = True가 default 값임으로 따로 지정해주지 않았다.
- iris.data와 다르게 랜덤으로 샘플링 된다.
- 데이터 수는 지정한 비율로 나뉜다.

In [1]:
x_train2, x_test2, y_train2, y_test2 = train_test_split(iris.data, iris.target, test_size=0.3)

NameError: name 'train_test_split' is not defined

In [9]:
x_train2

array([[5.9, 3. , 4.2, 1.5],
       [6.5, 3.2, 5.1, 2. ],
       [4.8, 3.4, 1.6, 0.2],
       [6.4, 2.8, 5.6, 2.1],
       [6.2, 2.8, 4.8, 1.8],
       [6.7, 3.1, 4.7, 1.5],
       [6.1, 2.8, 4.7, 1.2],
       [6. , 2.2, 4. , 1. ],
       [6.7, 3.1, 4.4, 1.4],
       [6.3, 3.3, 4.7, 1.6],
       [7.9, 3.8, 6.4, 2. ],
       [5.8, 2.7, 3.9, 1.2],
       [7.2, 3.6, 6.1, 2.5],
       [4.9, 3.1, 1.5, 0.1],
       [5. , 3.6, 1.4, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.6, 3.2, 1.4, 0.2],
       [5. , 3.2, 1.2, 0.2],
       [6.4, 3.2, 5.3, 2.3],
       [6.1, 2.8, 4. , 1.3],
       [5.1, 3.8, 1.9, 0.4],
       [5.7, 2.5, 5. , 2. ],
       [5.4, 3.7, 1.5, 0.2],
       [7.7, 2.8, 6.7, 2. ],
       [6.3, 3.3, 6. , 2.5],
       [5.7, 2.6, 3.5, 1. ],
       [5.6, 3. , 4.1, 1.3],
       [5.5, 2.3, 4. , 1.3],
       [4.9, 2.4, 3.3, 1. ],
       [6.1, 2.6, 5.6, 1.4],
       [5.6, 2.5, 3.9, 1.1],
       [7.7, 3.8, 6.7, 2.2],
       [5.6, 2.9, 3.6, 1.3],
       [6.4, 2.9, 4.3, 1.3],
       [5.7, 3

In [10]:
x_train2.shape, y_train2.shape, x_test2.shape, y_test2.shape

((105, 4), (105,), (45, 4), (45,))

---

4. 층화추출법으로 train,test set 분할(층은 target변수의 종류로 지정 == 3종류) (stratify = iris.target)
- 랜덤과 다름을 눈으로 확인하기는 힘들지만, 층화추출법으로 데이터가 샘플링 된다.
- 층화추출법 : 모집단을 먼저 중복되지 않도록 층으로 나눈 다음 각 층에서 표본을 추출하는 방법

In [11]:
x_train3, x_test3, y_train3, y_test3 = train_test_split(iris.data, iris.target, test_size=0.3, stratify = iris.target)

In [12]:
x_train3

array([[5.7, 2.8, 4.5, 1.3],
       [5.2, 4.1, 1.5, 0.1],
       [5.8, 2.7, 4.1, 1. ],
       [4.9, 2.5, 4.5, 1.7],
       [5.6, 2.7, 4.2, 1.3],
       [7. , 3.2, 4.7, 1.4],
       [5.1, 3.4, 1.5, 0.2],
       [6.6, 2.9, 4.6, 1.3],
       [5. , 3.4, 1.5, 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [5.4, 3.9, 1.7, 0.4],
       [6.1, 2.8, 4. , 1.3],
       [6.1, 2.9, 4.7, 1.4],
       [6.2, 2.8, 4.8, 1.8],
       [6.4, 3.2, 4.5, 1.5],
       [5.5, 3.5, 1.3, 0.2],
       [5.1, 2.5, 3. , 1.1],
       [6.1, 3. , 4.6, 1.4],
       [7.9, 3.8, 6.4, 2. ],
       [6.5, 3. , 5.5, 1.8],
       [6.3, 3.3, 4.7, 1.6],
       [5.5, 2.4, 3.7, 1. ],
       [6.3, 3.3, 6. , 2.5],
       [4.6, 3.2, 1.4, 0.2],
       [5.7, 3.8, 1.7, 0.3],
       [5.8, 2.7, 3.9, 1.2],
       [5.2, 3.5, 1.5, 0.2],
       [6.7, 3.1, 5.6, 2.4],
       [6. , 3.4, 4.5, 1.6],
       [4.9, 3. , 1.4, 0.2],
       [6.3, 2.7, 4.9, 1.8],
       [5.9, 3.2, 4.8, 1.8],
       [5.7, 4.4, 1.5, 0.4],
       [5. , 3.5, 1.3, 0.3],
       [7.7, 2

5, 

---
---

# 02. 교차검증 : cross_val_score()
- 데이터셋을 k개로 나누고 k번 반복하면서 평가하는 작업을 처리해 주는 함수
- 주요매개변수
    - estimator : 학습할 평가모델 객체
    - X : feature
    - y : label
    - scroing : 평가지표
    - cv : 나눌 개수(K)
- 반환값 : array - 각 반복마다의 평가점수


In [40]:
# cross_val_score()
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
import numpy as np
import pandas as pd

In [36]:
iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state=156)

data = iris_data.data
label = iris_data.target

In [39]:
scores = cross_val_score(dt_clf, data, label, scoring='accuracy', cv=3)
print('교차 검증별 정확도:', np.round(scores, 4))
print('평균 검증 정확도:', np.round(np.mean(scores),4))

교차 검증별 정확도: [0.98 0.94 0.98]
평균 검증 정확도: 0.9667
