In [1]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
# 사이킷런 패키지 내의 모듈명은 sklearn으로 시작합니다. sklearn.datasets 내의 모듈은 사이킷런에서 자체적으로 제공하는 데이터 세트를 
# 생성하는 모듈의 모임입니다. sklearn.tree 내의 모듈은 트리 기반 ml 알고리즘을 구현한 클래스의 모임입니다. sklearn.model_selection은
# 학습 데이터와 검증 데이터, 예측 데이터로 데이터를 분리하거나 최적의 하이퍼 파라미터로 평가하기 위한 다양한 모듈의 모임입니다.

# 데이터 세트를 학습 데이터와 테스트 데이터로 분리하는 데는 train_test_split() 함수를 사용할 것입니다.
# load_iris() 함수를 이용해 붓꽃 데이터 세트를 로딩한 후, 피처들과 데이터 값이 어떻게 구성돼 있는지 확인하기 위해 DataFrame으로
# 변환하겠습니다.

import pandas as pd

# 붓꽃 데이터 로딩
iris = load_iris()

# iris.data는 iris 데이터에서 feature마능로 된 데이터를 numpy로 갖고 있다.
iris_data = iris.data 

# iris.target은 붓꽃 데이터에서 레이블 데이터를 numpy로 갖고있다.
# target data는 정답을 의미한다. 
iris_label = iris.target
print('iris target : ', iris_label)
#print('iris target 명:'. iris.target_names)

# 붓꽃 데이터 세트를 자세히 보기 위해 DataFrame으로 변환
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(3)
# feature에는 sepal length, sepal width, petal length, petal width가 있고 레이블은 0,1,2 로 되어있다.
# 각 레이블은 품종을 의미한다.

iris target :  [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


In [2]:
# 다음으로 학습용 데이터와 테스트용 데이터를 분리
# 이를 위해 사이킷런은 train_test_split() API 를 제공함
# train_test_split()을 이용하면 학습 데이터와 테스트 데이터를 test_size 파라미터 입력값의 비율로 분할한다.
# test_size=0.2 로 입력하면 테스트 데이터는 20%, 학습 데이터는 80%가 된다. 

X_train, X_test, Y_train, Y_test = train_test_split(iris_data, iris_label, test_size=0.2,random_state=11)
#train_test_split()의 첫번째 파라미터인 iris_Data는 feature 데이터 세트이다. 
# 두번째 파라미터인 iris_label은 레이블 데이터 세트
# test_size=0.2는 전체 데이터 중에 테스트 데이터 세트의 비율이다.
# 마지막으로 random_State는 호출할 때마다 같은 학습/데이터 용 데이터 세트를 생성하기 위해 주어지는 난수 발생 값이다.( seed 값임_)


In [6]:
# 이제 학습 데이터를 확보했으니 이 데이터를 기반으로 머신러닝 분류 알고리즘의 하나인 의사 결정 트리를 이용해 학습과 예측을 수행해 보겠습니다.
# 사이킷런의 의사 결정 트리 클래스인 DecisionTreeClassifier를 객체로 생성합니다.
# DecisionClassfier 객체의 fit()메소드에 학습용 피처 데이터와 레이블 데이터 세트를 입력해 호출하면 학습을 수행합니다.

#DecsionTreeClassifier 객체 생성
df_clf = DecisionTreeClassifier(random_state=11)
df_clf.fit(X_train,Y_train)

# 예측은 반드시 학습 데이터가 아닌 다른 데이터를 사요앻야 하면, predict()메소드를 사용하면 예측값을 반환한다.

pred = df_clf.predict(X_test)

# 예측 결과를 바타으로 성능을 평가해 본다. 정확도 측정을 위해 accuracy_score()메소드 사용
from sklearn.metrics import accuracy_score
print('예측 정확도: {0:.4f}'.format(accuracy_score(Y_test, pred)))

예측 정확도: 0.9333


In [None]:
# 학습한 의사 결정 트리 알고리즘 예측 정확도가 0.93333(93%) 로 측정됐습니다.