In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import sklearn

## 훈련과 테스트 데이터
* 머신러닝 모델을 만들기 위해서는 훈련(학습)에 필요한 데이터집합이 있어야 함
* 하지만, 전체 데이터 모두를 학습에 사요하면 과적합(Overfiting) 문제 발생


In [2]:
# train/test 뎅이터 분할의 필요성 알아보자
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

In [3]:
# 데이터 적재
iris = load_iris()
data = iris.data   # 특성/독립변수
label = iris.target # 레이블/종속변수

In [4]:
# 의사결정나무 모델 생성을 위해 주어진 변수들로 학습을 시켜본다.
dtclf = DecisionTreeClassifier()
dtclf.fit(data, label)

DecisionTreeClassifier()

In [5]:
# 생성된 모델에 기존 변수를 이용해서 예측(predict)을 해보자 
pred = dtclf.predict(data)

In [6]:
# 예측값과 실제값을 비교해서 정확도를 알아봄
accuracy_score(label, pred)

1.0

In [7]:
# 모델을 학습할때 사용한 데이터를 
# 모델을 평가할때도 사용함 -> 정확도 : 1 -> 과적합

## 데이터를 학습용/평가용 데이터로 분할 1
* 분할 비율 = 7:3
* iris 데이터의 건수 : 150 -> 105 : 45

In [13]:
train_data = iris.data[:105, ]
test_data = iris.data[105:,]

train_target = iris.target[:105, ]
test_target = iris.target[105:, ]

In [15]:
dtclf = DecisionTreeClassifier()
dtclf.fit(train_data, train_target)

pred = dtclf.predict(test_data)
accuracy_score(test_target, pred)

0.7333333333333333

In [24]:
# 데이터분할이 잘되었는지 확인
print(pd.Series(train_target).value_counts())
print(pd.Series(test_target).value_counts())

0    50
1    50
2     5
dtype: int64
2    45
dtype: int64


In [25]:
# 데이터를 앞에서부터 순서대로 나눴기 때문에 종속변수의 비율이 일정하지 않음
# setosa, versicolor, verginica의 비율이 모두 같아야하는데 
# train에는 setosa, versicolor 위주로 test에는 verginica위주로 데이터 분할되었다.