In [1]:
from sklearn.datasets import load_iris

iris = load_iris()

iris_feature = iris.data
iris_target  = iris.target

# 데이터를 불러 왔으면 반드시 shape을 확인
print("feature shape : {}".format(iris_feature.shape))
print("target shape :{}".format(iris_target.shape))




feature shape : (150, 4)
target shape :(150,)


In [2]:
import pandas as pd

feature_names = iris.feature_names

iris_df = pd.DataFrame(
    data=iris_feature,
    columns=feature_names
)

iris_df['target'] = iris_target
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [3]:
# 분류 문제에서 가장 중요하게 확인할 내용: 타겟의 갯수 확인 (비율 확인)
# + 회귀에서는 분포가 가장 중요하게 확인할 내용


iris_df['target'].value_counts()

0    50
1    50
2    50
Name: target, dtype: int64

# 학습 데이터 / 테스트 데이터 분리

In [4]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    iris_df.drop('target', axis=1), # feature Matrix
    iris_df['target'], # Target Vector
    test_size = 0.2, # 테스트 세트의 비율. 통상적으로 0.2~0.3
    random_state=11 #랜덤 시드 고정값
    )

print("훈련 데이터의 shape : {}".format(X_train.shape))
print("테스트 데이터의 shape : {}".format(X_test.shape))


# 이 코드는 scikit-learn의 train_test_split 함수를 사용하여 아이리스 데이터셋을 훈련 세트와 테스트 세트로 분할합니다. 
# 분할 후, 훈련 데이터와 테스트 데이터의 형태를 출력합니다.

# 좀 더 구체적으로 설명드리자면:
# train_test_split 함수는 데이터를 훈련 세트와 테스트 세트로 분할합니다.
# iris_df.drop('target', axis=1)은 타겟 열을 제외한 특징 데이터를 선택합니다.
# iris_df['target']은 타겟 열 데이터를 선택합니다.
# test_size=0.2는 데이터의 20%를 테스트 세트로 사용함을 나타냅니다.
# random_state=11은 랜덤 시드를 고정하여 결과의 재현성을 보장합니다.


훈련 데이터의 shape : (120, 4)
테스트 데이터의 shape : (30, 4)


# 모델 훈련

In [5]:
# 의사결정나무 분류기 사용
from sklearn.tree import DecisionTreeClassifier

# 모델 객체 생성 - 모델의 각종 옵션(하이퍼 파라미터)을 설정한다
dt_clf = DecisionTreeClassifier()

# 모델 훈련 - 훈련이 다 끝나면, 학습된 모델이 Return 된다.
dt_clf.fit(X_train, y_train)


# 이 코드는 scikit-learn 라이브러리를 사용하여 결정 트리 분류 모델을 생성하고, 이를 학습하는 과정을 포함하고 있습니다.

# 좀 더 구체적으로 설명드리자면:
# DecisionTreeClassifier 클래스를 사용하여 결정 트리 분류 모델 객체를 생성합니다.
# fit 메서드를 사용하여 생성된 결정 트리 모델을 학습 데이터에 맞추어 학습시킵니다.


# 테스트 데이터 예측 수행

In [6]:
pred = dt_clf.predict(X_test) 
# 예측 할 때는 Feature만 넣어주기. 테스트 데이터의 차원 = 훈련 데이터의 차원

print("테스트 세트의 예측 결과 : {}".format(pred))

# 이 코드는 학습된 결정 트리 모델을 사용하여 테스트 세트에 대한 예측을 수행하고, 그 결과를 출력하는 과정입니다.

# 좀 더 구체적으로 설명드리자면:
# # dt_clf.predict(X_test): 학습된 결정 트리 모델을 사용하여 X_test 데이터에 대한 예측을 수행합니다. 결과는 테스트 세트에 대한 예측 레이블(타겟)을 담은 배열입니다.
# print(f"테스트 세트의 예측 결과 : {pred}"): 예측 결과를 출력합니다.


테스트 세트의 예측 결과 : [2 2 1 1 2 0 1 0 0 1 1 1 1 2 2 0 2 1 2 2 1 0 0 1 0 0 2 1 0 1]


# 평가

예측 정확도(Accuracy) 평가

In [7]:
from sklearn.metrics import accuracy_score

acc_result = accuracy_score(y_test,pred)
print("예측 정확도 : {:.4f}".format(acc_result))

# pred = dt_clf.predict(X_test): X_test 데이터에 대해 학습된 결정 트리 모델을 사용하여 예측합니다.

# acc_result = accuracy_score(y_test, pred): y_test (실제 레이블)와 pred (예측 레이블)을 비교하여 예측 정확도를 계산합니다.
# print(f"예측 정확도 : {acc_result:.4f}"): 계산된 예측 정확도를 소수점 네 자리까지 출력합니다.


예측 정확도 : 0.9333
