In [1]:
import sklearn
import pandas as pd
import numpy as np

In [2]:
# 사이킷런 버전 확인
sklearn.__version__

'1.0.2'

In [3]:
# 데이터셋 정의 - iris_data()
from sklearn.datasets import load_iris
iris = load_iris()
x_features = iris.data
y_label = iris.target

col_names = ['sep.len', 'sep.wid', 'pet.len', 'pet.wid']
iris_df = pd.DataFrame(data=x_features, columns=col_names)
iris_df['label'] = y_label

In [4]:
iris_df

Unnamed: 0,sep.len,sep.wid,pet.len,pet.wid,label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


### 학습용 데이터와 테스트용 데이터를 분리 (반드시 분리)

In [5]:
from sklearn.model_selection import train_test_split

In [6]:
# train_test_split의 용례
array1 = np.arange(1, 11)
array_train, array_test = train_test_split(array1, test_size=0.2, random_state=11)

In [7]:
# 두 줄로 코드를 쓴다면
# x_train, x_test = train_test_split(x_features, test_size=0.2, random_state=11)
# y_train, y_test = train_test_split(y_label, test_size=0.2, random_state=11)

In [8]:
# 위에 코드를 실무와 현실에선 이렇게 적용
x_train, x_test, y_train, y_test = train_test_split(x_features, y_label, test_size=0.2, random_state=11)

In [9]:
# 각 쓰일 데이터들의 shape를 확인
x_train.shape

(120, 4)

In [10]:
y_train.shape

(120,)

In [11]:
x_test.shape

(30, 4)

In [12]:
y_test.shape

(30,)

In [13]:
# 쓰일 알고리즘 loading - 의사결정나무(DecisionTreeClassifier)
# Black - Box
from sklearn.tree import DecisionTreeClassifier

In [14]:
# 알고리즘 객체화
dtree_clf = DecisionTreeClassifier(random_state=11)

In [15]:
# 학습을 수행 fit() => estimator를 활용 (적합시킨다.)
dtree_clf.fit(x_train, y_train)  # 전체데이터 중에서 150 => 120개 학습에 적용

DecisionTreeClassifier(random_state=11)

In [16]:
# 학습된 dtree_clf 모델을 토대로
# 분류예측을 수행한다. => x_test 값만 넣는다.

y_pred = dtree_clf.predict(x_test)  # 30개만 현재 데이터에 예측의 재료로 사용

In [17]:
y_pred  # 예측값

array([2, 2, 1, 1, 2, 0, 1, 0, 0, 1, 1, 1, 1, 2, 2, 0, 2, 1, 2, 2, 1, 0,
       0, 1, 0, 0, 2, 1, 0, 1])

In [18]:
y_test  # 실제값

array([2, 2, 2, 1, 2, 0, 1, 0, 0, 1, 2, 1, 1, 2, 2, 0, 2, 1, 2, 2, 1, 0,
       0, 1, 0, 0, 2, 1, 0, 1])

In [19]:
# y_pred 예측값은 y_test 실제값과 오차 2개 (정답률 28/30)

# 평가지표 호출
from sklearn.metrics import accuracy_score as acc_sc

In [21]:
acc_sc(y_test, y_pred)

0.9333333333333333