### 학습/테스트 데이터 셋 분리 - train_test_split()

In [4]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

iris = load_iris()
dt_clf = DecisionTreeClassifier()
train_data = iris.data
train_label = iris.target
dt_clf.fit(train_data, train_label)

#학습 데이터 셋으로 예측 수행
#예측은 테스트데이터로 해야한다.
pred = dt_clf.predict(train_data)
print('예측 정확도:',accuracy_score(train_label, pred))

예측 정확도: 1.0


In [5]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

dt_clf = DecisionTreeClassifier()
iris_data = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target,
                                                   test_size=0.3, random_state=121)

In [7]:
dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도: 0.9556


### 넘파이 ndarray 뿐만 아니라 판다스 DataFrame/Series도 train_test_split() 으로 분할가능

In [8]:
import pandas as pd

iris_df = pd.DataFrame(data=iris_data.data, columns=iris_data.feature_names)
iris_df['target'] = iris_data.target
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [9]:
ftr_df = iris_df.iloc[:, :-1] #피처데이터셋 추출
tgt_df = iris_df.iloc[:, -1]  #타겟데이터셋 추출
X_train, X_test, y_train, y_test = train_test_split(ftr_df, tgt_df,
                                                   test_size=0.3, random_state=121)

In [10]:
print(type(X_train), type(X_test), type(y_train), type(y_test))

<class 'pandas.core.frame.DataFrame'> <class 'pandas.core.frame.DataFrame'> <class 'pandas.core.series.Series'> <class 'pandas.core.series.Series'>


In [11]:
dt_clf = DecisionTreeClassifier()
#학습용 데이터를 학습시킴
dt_clf.fit(X_train, y_train) 
#학습시킨 학습용 데이터셋으로 테스트용 피처데이터셋을 예측
pred = dt_clf.predict(X_test) 
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test, pred))) 

예측 정확도: 0.9556


### 교차 검증
* K 폴드 

In [14]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

iris = load_iris()
features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state=150)

#5개의 폴드 세트로 분리하는 KFold 객체와 폴드 세트별 정확도를 담을 리스트 객체 생성
kfold = KFold(n_splits=5) #5번의 학습과 검증
cv_accuracy = [] #5번 학습과 검증의 성능을 담을 리스트
print('붓꽃 데이터 세트 크기:',features.shape[0])

붓꽃 데이터 세트 크기: 150


In [None]:
n_iter = 0

#KFold 객체의 split() 호출하면 폴드 별 학습용, 검증용 테스트의 로우 인덱스를 array 로 변환
