In [1]:
# Load Data

from sklearn.datasets import load_iris

iris = load_iris()

iris_feature = iris.data
iris_target = iris.target

# 데이터를 불러왔으면 반드시 shape을 확인
print("feature shape : {}".format(iris_feature.shape))
print("target shape : {}".format(iris_target.shape))

feature shape : (150, 4)
target shape : (150,)


In [2]:
import pandas as pd

feature_names = iris.feature_names

iris_df = pd.DataFrame(
    data=iris_feature,
    columns=feature_names
)

iris_df['target'] = iris_target
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [3]:
# 분류 문제에서 확인할 제일 중요한 내용 : 타겟의 개수
# value_counts() 통해 타겟의 개수를 확인하여 데이터를 증강하던지 삭제하던지 파악해야 한다.
iris_df['target'].value_counts()

0    50
1    50
2    50
Name: target, dtype: int64

## 학습 데이터 /테스트 데이터 분리

In [4]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    iris_df.drop("target", axis=1), # Feature 행렬 / 2차원 형태로 배열 되고 있으니. N*M 에서 target 을 제외한(drop) 나머지를 추출하기 위함
    iris_df['target'], # target 벡터
    test_size = 0.2, # 테스트(검증) 세트의 비율, 보통 0.2 ~ 0.3
    random_state = 42 # 랜덤 시드 고정값
)

print("훈련 데이터 shape : {}".format(X_train.shape))
print("테스트 데이터 shape : {}".format(X_test.shape))

훈련 데이터 shape : (120, 4)
테스트 데이터 shape : (30, 4)


## 모델 훈련

In [5]:
# 의사결정나무 분류기 사용
from sklearn.tree import DecisionTreeClassifier

# 모델 객체 생성
dt_clf = DecisionTreeClassifier()

# 모델 훈련
dt_clf.fit(X_train, y_train)

DecisionTreeClassifier()

## 테스트 데이터 예측

In [6]:
pred = dt_clf.predict(X_test) # 예측 할 때는 Feature만 넣기

print("테스트 세트의 예측 결과 : {}".format(pred))

테스트 세트의 예측 결과 : [1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0]


## 평가
- 예측 정확도(Accuracy) 평가


In [7]:
from sklearn.metrics import accuracy_score

acc_result = accuracy_score(y_test, pred)
print("예측 정확도 : {:.4f}".format(acc_result))

예측 정확도 : 1.0000
