### 사이킷런을 이용하여 붓꽃(lris) 데이터 품종 예측하기

In [19]:
from sklearn.datasets import load_iris               # load_iris는 iris 데이터셋을 불러오는 함수. 거기서 붓꽃 데이터를 임포트함
from sklearn.tree import DecisionTreeClassifier      # DecisionTreeClassifier는 scikit-learn에서 제공하는 의사결정나무 분류 모델
from sklearn.model_selection import train_test_split # train_test_split은 데이터를 학습용 데이터와 검증용 데이터로 분리하는 함수

In [20]:
iris = load_iris()
iris.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [24]:
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [14]:
print(iris.target_names)    # 레이블 값들, 
iris.feature_names

['setosa' 'versicolor' 'virginica']


['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [10]:
import pandas as pd

# 붓꽃 데이터 세트를 로딩
iris = load_iris()

# iris.data는 lris 데이터 세트에서 피처(feature)만으로 된 데이터를 numpy로 가지고 있다.
iris_data = iris.data

# iris.target은 붓꽃 데이터 세트에서 레이블(결정 값) 데이터를 numpy로 가지고 있다.
iris_label = iris.target
print('iris target 값:', iris_label)
print('iris target 명:', iris.target_names)

# 붓꽃 데이터 세트(피처와 데이터 값의 구성)를 자세히 보기 위해 DataFrame으로 변환
iris_df = pd.DataFrame(data=iris_data, columns = iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(3)

iris target 값: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target 명: ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


- 비즈니스 이슈로부터 데이터과제 정의, 데이터 수집, 이에 대한 가용성 확인
-> 데이터 전처리, 탐색, 통계적인 시각화, 파생변수를 포함한 피처엔지니어링 
- 피처, 도메인 지식이 없으면 못함. 
-> 분석용 데이터셋 
- 피처를 뽑았지만 거기서 구매행동 패턴의 변화 등 이를 어떻게 지수화할지는 cagr, 등급의 변동 등 분석을 위한 지식이 있어야 함.
-> 모델링 
-> 성능 평가 및 개선 
- 결과 가지고 2차 분석
ex) 구매감소가 예상되는 고객의 원인들을 그룹화해서 분석함
- 군집분석(비지도학습)
-> 활용
- 특히, 도메인 지식 없으면 못함. 마케팅에 대한 지식이 없는.

In [25]:
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


In [27]:
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, 
                                                   test_size = 0.2, random_state = 11)

# 학습용 데이터 train, 검증용 데이터 test의 순임!

X_train과 X_test는 데이터셋을 학습 데이터셋과 검증 데이터셋으로 나누는 과정에서 사용되는 변수들입니다. 보통 지도학습 모델을 만들 때, 데이터셋을 학습용과 검증용으로 나누어서 모델을 만들고 검증을 수행합니다. 학습용 데이터셋을 사용하여 모델을 학습하고, 검증용 데이터셋을 사용하여 모델의 성능을 평가합니다.

X_train은 학습용 데이터셋에서 입력(input) 데이터를 의미하며, Y_train은 학습용 데이터셋에서 출력(output) 데이터를 의미합니다. 이때, 입력 데이터와 출력 데이터는 대응되는 데이터들끼리 함께 묶여 있습니다. 학습용 데이터셋에서는 입력 데이터와 출력 데이터가 모두 주어지므로, 모델은 입력 데이터와 출력 데이터의 관계를 학습할 수 있습니다.

X_test는 검증용 데이터셋에서 입력 데이터를 의미하며, Y_test는 검증용 데이터셋에서 출력 데이터를 의미합니다. 검증용 데이터셋에서는 입력 데이터만 주어지고, 모델이 예측한 출력 데이터와 실제 출력 데이터를 비교하여 모델의 성능을 평가합니다.

따라서, X_train, X_test, Y_train, Y_test는 지도학습 모델을 만들기 위해 사용되는 데이터셋에서 입력과 출력을 나타내는 변수들입니다. 이들을 이용하여 모델을 학습하고, 검증하여 모델의 성능을 평가할 수 있습니다.

In [29]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
 4   label              150 non-null    int32  
dtypes: float64(4), int32(1)
memory usage: 5.4 KB


In [28]:
len(X_train)          # 나머지 30개는 검증용데이터

120

In [33]:
# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state=11)     # (random_state=11) 안해줘도 됨

# 학습수행 fit(학습용데이터)
dt_clf.fit(X_train, y_train)    #(데이터, 레이블)

DecisionTreeClassifier(random_state=11)

In [34]:
# 학습이 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행.
pred = dt_clf.predict(X_test)

In [35]:
from sklearn.metrics import accuracy_score      # 정확도를 평가해주는 
print('예측 정확도: {0: .4f}'.format(accuracy_score(y_test,pred)))



# 예측 정확도가 0.9가 안되면 개선을 위한 방법
# 1) 모델바꾸기, 혼합모델도 해보는 등
# 2) 파라미터 튜닝. 하이퍼 파라미터라는 것은 분석가가 정해줌


# 붓꽃 데이터로 개량할 때 활용. 꽃이 성장하는 조건, 어떻게 영향을 미치는지 활용할 수 있는 것.

예측 정확도:  0.9333
