In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import sklearn

## 훈련과 테스트 데이터
* 머신러닝 모델을 만들기 위해서는 훈련(학습)에 필요한 데이터집합이 있어야 함
* 하지만, 전체 데이터 모드를 학습에 사용하면 과적합 문제 발생

In [3]:
# train/test 데이터 분할의 필요성 알아보기
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

In [4]:
# 데이터 적재
iris = load_iris()
data = iris.data     # 특성/독립변수
label= iris.target   # 레이블/종속변수

In [5]:
# 의사결정나무 모델 생성을 위해 주어진 변수들로 학습(fit)을 시켜봄

dtclf = DecisionTreeClassifier()
dtclf.fit(data,label)

DecisionTreeClassifier()

In [6]:
# 생성된 모델에 기존 변수를 이용해서 예측(predict)을 해봄

pred = dtclf.predict(data)

In [7]:
# 예측값과 실제값으로 정확도를 알아봄
accuracy_score(label, pred)

1.0

In [8]:
# 모델을 학습할때 사용한 데이터를
# 모델을 평가할때도 사용함 -> 정확도 : 1 => 과적합

## 데이터를 학습용/평가용 데이터로 분할1
* 분할 비율 = 7 : 3
* iris 데이터 건수 : 150 => 105:45로 결정

In [9]:
train_data = iris.data[:105,]
test_data = iris.data[105:,]

In [10]:
train_target = iris.target[:105,]
test_target = iris.target[105:,]

In [11]:
dtclf = DecisionTreeClassifier()
dtclf.fit(train_data, train_target)

DecisionTreeClassifier()

In [12]:
pred = dtclf.predict(test_data)
accuracy_score(test_target, pred)

0.7777777777777778

In [13]:
# 데이터 분할이 잘 되었는지 확인
pd.Series(train_target).value_counts()

0    50
1    50
2     5
dtype: int64

In [14]:
pd.Series(test_target).value_counts()

2    45
dtype: int64

In [15]:
# 데이터를 앞에서 부터 순서대로 나눴기 때문에 종속변수 비율이 일정하지 않음
# setosa, versicolor, virginica의 비율이 모두 같아야하는데
# train에는 setosa, versicolor 위주로
# test에는 verginica 위주로 데이터가 분할됨

## 데이터를 학습용/평가용 데이터로 분할2
* 독립변수의 속성들이 분포를 고려한 표본추출 필요
  + sklearn의 train_test_split 함수 사용
* train_test_split(독립변수, 종속변수, 훈련데이터크기, 평가데이터크기, [계층추출여부(분류용)], 시드값)

In [16]:
from sklearn.model_selection import train_test_split

In [27]:
Xtrain, Xtest, ytrain, ytest = train_test_split(iris.data, iris.target, train_size=0.7, test_size=0.3, random_state=211040945)

In [28]:
pd.Series(ytrain).value_counts()
pd.Series(ytest).value_counts()

1    19
2    17
0     9
dtype: int64

In [29]:
dtclf = DecisionTreeClassifier()
dtclf.fit(Xtrain, ytrain)

DecisionTreeClassifier()

In [30]:
pred = dtclf.predict(Xtest)
accuracy_score(ytest, pred)

0.9111111111111111

In [31]:
Xtrain, Xtest, ytrain, ytest = train_test_split(iris.data, iris.target, train_size=0.7, test_size=0.3, 
                                                stratify=iris.target, random_state=211040945)

In [32]:
pd.Series(ytrain).value_counts()
pd.Series(ytest).value_counts()

0    15
1    15
2    15
dtype: int64

In [33]:
dtclf = DecisionTreeClassifier()
dtclf.fit(Xtrain, ytrain)

DecisionTreeClassifier()

In [34]:
pred = dtclf.predict(Xtest)
accuracy_score(ytest, pred)

0.9555555555555556

## 데이터를 학습용/평가용 데이터로 분할3
* 데이터수가 작은 경우 데이터의 일부인 평가데이터도 작음
  + 성능평가의 신뢰도 의심
* 데이터를 동일한 크기로 k개 나누고 이들중 훈련/평가데이터로 구분지어  
  + 순환적으로 훈련 및 평가를 k번 실시함 => K fold 교차검증이라 함
* cross_val_score(모델객체, 독립변수, 종속변수, 평가방법, 검증횟수)

In [35]:
from sklearn.model_selection import cross_val_score

In [37]:
dtclf = DecisionTreeClassifier()

scores = cross_val_score(dtclf, iris.data, iris.target, scoring='accuracy', cv=5)

In [38]:
scores

array([0.96666667, 0.96666667, 0.9       , 0.96666667, 1.        ])

In [39]:
np.mean(scores)

0.9600000000000002