## Model Selection 소개
#### 학습 데이터와 테스트 데이터
- 학습 데이터 세트
    - 머신러닝 알고리즘의 학습을 위해 사용
    - 데이터의 속성들과 결정값(레이블) 값 모두를 가지고 있음
    - 학습 데이터를 기반으로 머신러닝 알고리즘이 데이터 속성과 결정값의
    - 패턴을 인지하고 학습
- 테스트 데이터 세트
    - 테스트 데이터 세트에서 학습된 머신러닝 알고리즘을 테스트
    - 테스트 데이터는 속성 데이터만 머신러닝 알고리즘에 제공하며, 머신러닝
    - 알고리즘은 제공된 데이터를 기반으로 결정값을 예측
    - 테스트 데이터는 학습 데이터와 별도의 데이터 세트로 제공되어야 함

#### train_test_split()

``` py
X_train, X_test, y_train, y_test = train_test_split(독립변수,
종속변수, test_size=0.3, random_state=121)
```
- sklearn.model_selection의 train_test_split()함수
    - test_size : 전체 데이터에서 테스트 데이터 세트 크기를 얼마로 샘플링 할 것인가를 결정. 디폴트는 0.25, 즉 25%
    - train_size : 전체 데이터에서 학습용 데이터 세트 크기를 얼마로 샘플링 할 것인가를 결정
    - shuffle : 데이터를 분리하기 전에 데이터를 미리 섞을지를 결정. 디폴트는 True. 데이터를 분산시켜서 더 효율적인 학습 및 테스트 데이터 세트를 만드는 데 사용
    - random_state : 호출할 때 마다 동일한 학습/테스트용 데이터 세트를 생성하기 위해 주어지는 난수 값

In [1]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
iris = load_iris()
dt_clf = DecisionTreeClassifier()
train_data = iris.data
train_label = iris.target
dt_clf.fit(train_data, train_label)
# 학습 데이터 셋으로 예측 수행
pred = dt_clf.predict(train_data)
print('예측 정확도:',accuracy_score(train_label,pred))

예측 정확도: 1.0


- 위에서처럼 학습/테스트 데이터 셋을 분리하지 않고 학습 데이터로 예측까지 수행하게 되면 예측률이 100%로 아무 의미 없는 모델이 생성된다.
- 따라서 의미있는 모델 생성을 위해서는 학습/테스트 데이터셋으로 분리하여 테스트 데이터셋으로 예측을 수행해야 한다.

#### 1. Numpy ndarray의 Train/Test DataSet 분리

In [2]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

dt_clf = DecisionTreeClassifier( )

iris_data = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target,
 test_size=0.3, random_state=121)

In [3]:
dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test,pred)))

예측 정확도: 0.9556


#### 2. DataFrame의 Train/Test DataSet 분리

In [4]:
import pandas as pd
iris_df = pd.DataFrame(iris_data.data, columns=iris_data.feature_names)
iris_df['target']= iris_data.target
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [13]:
# 독립변수 지정
X = iris_df.iloc[:,0:-1]

# 종속변수 지정
Y = iris_df.iloc[:,-1]

# 항상 x_train,x_test,y_train,y_test 이 순서로 지정해줘야함. 주의!!
x_train,x_test,y_train,y_test = train_test_split(X,Y,test_size = 0.3,random_state = 121)


##### ** 항상 x_train,x_test,y_train,y_test 이 순서로 지정해줘야함. 주의!!

In [14]:
dt_clf = DecisionTreeClassifier( )
dt_clf.fit(x_train, y_train)
pred = dt_clf.predict(x_test)
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test,pred)))

예측 정확도: 0.9556
