## 사이킷런을 이용하여 붓꽃(iris) 데이터 품종 예측하기

In [1]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

In [2]:
iris = load_iris()
iris.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [3]:
print(iris.target_names)
iris.feature_names

['setosa' 'versicolor' 'virginica']


['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [5]:
import pandas as pd

# 붓꽃 데이터 세트를 로딩합니다.
iris = load_iris()

#iris.data에 iris 데이터셋에서 특성(feature)만으로 된 데이터를 numpy배열로 저장.
iris_data = iris.data

#iris.target에 Iris 데이터셋의 클래스(=레이블=결정 값)에 해당하는 값들을 NumPy 배열로 저장
iris_label = iris.target 

print('iris target값:', iris_label) # Iris 데이터셋의 클래스 레이블 값을 확인
print('iris target명:',iris.target_names) #Iris 데이터셋의 클래스 레이블에 해당하는 이름을 확인


#iris_data를 기반으로 DataFrame을 생성하고, 
#열(column) 이름으로 iris.feature_names를 사용하여 각 특성에 해당하는 열 이름을 지정
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)

#iris_df에 'label'이라는 새로운 열을 추가하고, 해당 열에 iris.target 값을 할당
iris_df['label']=iris.target
iris_df.head(3)

iris target값: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명: ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


In [6]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
 4   label              150 non-null    int32  
dtypes: float64(4), int32(1)
memory usage: 5.4 KB


위의 내용은 데이터 분석을 위해 사용되는 Python 패키지인 Pandas를 이용하여 DataFrame 객체를 생성한 것입니다. 

150개의 데이터가 포함되어 있으며, 5개의 열(column)로 구성되어 있습니다. 열(column)은 "sepal length (cm)", "sepal width (cm)", "petal length (cm)", "petal width (cm)", "label"로 구성되어 있습니다. 

또한, 열(column)은 각각 float64와 int32로 데이터 타입이 지정되어 있습니다. 

각 열(column)은 아래와 같은 데이터를 나타냅니다.
- sepal length (cm) : 꽃받침(sepal)의 길이를 센티미터(cm) 단위로 나타낸 값
- sepal width (cm) : 꽃받침(sepal)의 너비를 센티미터(cm) 단위로 나타낸 값
- petal length (cm) : 꽃잎(petal)의 길이를 센티미터(cm) 단위로 나타낸 값
- petal width (cm) : 꽃잎(petal)의 너비를 센티미터(cm) 단위로 나타낸 값
- label : 붓꽃의 종류를 나타내는 값으로, 0, 1, 2 중 하나의 값을 가집니다.

In [8]:
X_train, X_test,y_train,y_test = train_test_split(iris_data,iris_label,
                                                 test_size=0.2, random_state=11)

위 코드는 머신러닝 모델을 학습시키기 위해 전체 데이터셋을 학습 데이터와 테스트 데이터로 나누는 과정을 수행하는 코드입니다.

- iris_data : 붓꽃 데이터의 feature 값들을 담고 있는 데이터 프레임입니다.
- iris_label : 붓꽃 데이터의 label 값을 담고 있는 데이터 프레임입니다.
- test_size : 전체 데이터셋에서 테스트 데이터셋의 비율을 설정하는 값입니다. 위 코드에서는 전체 데이터셋의 20%가 테스트 데이터셋으로 사용됩니다.
- random_state : 데이터셋을 나누는 과정에서 랜덤으로 나누기 때문에, 결과를 재현하기 위한 시드값입니다. 위 코드에서는 11을 시드값으로 사용합니다.

위 코드를 실행하면, 학습에 사용될 데이터와 레이블을 담은 X_train과 y_train, 그리고 테스트에 사용될 데이터와 레이블을 담은 X_test와 y_test가 반환됩니다. 이렇게 나뉘어진 데이터셋을 이용하여 머신러닝 모델을 학습시키고, 테스트를 수행할 수 있습니다.

In [9]:
len(X_train)

# 위 코드에서는 전체 데이터셋에서 20%를 테스트 데이터셋으로 사용하고 있으므로, 
# 학습에 사용되는 데이터의 개수는 전체 데이터셋(150개)에서 테스트 데이터셋(20%)을 제외한 나머지인 
# 80%의 개수인 120개입니다. 따라서 len(X_train)을 실행하면 120이 출력됩니다.

120

In [14]:
# DecisionTreeClassifier 객체 생성 
df_clf = DecisionTreeClassifier(random_state =11)

#학습 수행
df_clf.fit(X_train, y_train)

🔍 사용자 쿼리에서는 DecisionTreeClassifier 객체를 생성하고 학습을 수행하는 코드가 포함되어 있습니다. 이 코드는 머신러닝에서 의사결정나무(Decision Tree) 알고리즘을 사용하여 학습을 수행하는 코드입니다. 

DecisionTreeClassifier 객체 생성 코드에서는 random_state를 11로 설정하여 랜덤 시드를 고정하고, X_train과 y_train 데이터를 사용하여 학습을 수행합니다.

In [12]:
#학습이 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행
pred = dt_clf.predict(X_test)

위 코드는 학습이 완료된 의사결정나무(Decision Tree) 모델인 dt_clf를 사용하여, X_test 데이터셋에 대한 예측값을 구하는 코드입니다. predict() 메서드는 모델에 입력 데이터를 주면, 모델이 예측한 결과값을 반환합니다. 이 코드에서는 dt_clf 모델에 X_test 데이터셋을 입력하여, 각 붓꽃에 대한 품종 예측 결과를 반환하고, 이를 pred 변수에 저장하고 있습니다.

In [13]:
from sklearn.metrics import accuracy_score
print('예측 정확도:{0:.4f}'.format(accuracy_score(y_test,pred)))

예측 정확도:0.9333


위 코드에서 출력된 0.9333은 붓꽃 데이터셋에 대한 의사결정나무(Decision Tree) 모델의 예측 정확도입니다. 

accuracy_score() 함수는 y_test와 pred 값을 비교하여 일치하는 비율을 계산합니다. 따라서 y_test 데이터셋과 pred 변수에 저장된 각 붓꽃에 대한 품종 예측값을 비교하여, 전체 붓꽃 데이터셋에서 정확하게 예측한 비율을 계산한 결과가 0.9333이 나오게 됩니다.

이는 의사결정나무 모델이 붓꽃 데이터셋에서 새로운 데이터를 93.33% 정확도로 예측할 수 있다는 것을 의미합니다.

format() 메서드를 사용하여 예측 정확도를 소수점 4자리까지 출력하고 있습니다.