# 사이킷런을 이용하여 붓꽃(Iris) 품종 예측하기

* 데이터 로딩

In [None]:
# 사이킷런이 제공하는 iris 데이터 로딩
from sklearn.datasets import load_iris
import pandas as pd

In [None]:
# 붓꽃 데이터 로딩
iris = load_iris()

type(iris)

In [None]:
iris

In [None]:
'''
# feature(특성) : 예측을 수행할 때 사용되는 입력(독립, 설명) 변수
# target(label, 정답) : 예측을 수행할 때 사용되는 출력(종속, 목적) 변수

--------------------------------------------------------------------------
# Bunch 객체 데이터 세트
 - data : 피처의 데이터 세트
 - target : 레이블(정답) 값
 - target_name : 레이블 이름
 - featuer_names : 각 피처의 이름
 - DESCR : 데이터세트에 대한 설명, 각 피처에 대한 설명
'''

In [None]:
# 데이터 세트에서 필요한 정보를 따로 추출해서 확인

# 개별 확인
print(iris['data'])
print('-'*40)
print(iris.feature_names)

In [None]:
# target data 확인
print(iris.target)
print('-'*40)
print(type(iris.target))

In [None]:
# 간단한 데이터 탐색 - 데이터프레임 형태로 변경
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['label'] = iris.target

iris_df.head()

In [None]:
iris_df.tail()

In [None]:
# 데이터 기본 요약 정보
iris_df.info()

In [None]:
# 학습용 데이터세트와 테스트용데이터 세트를 분리
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=11)

In [None]:
print(X_train.shape, X_test.shape)

In [None]:
print(y_train.shape, y_test.shape)

In [None]:
# 모델 생성 - 결정트리알고리즘
from sklearn.tree import DecisionTreeClassifier

# 모델 객체 생성
dt_clf = DecisionTreeClassifier(random_state=11)

In [None]:
# 학습 수행 - 지도학습
dt_clf.fit(X_train, y_train)

In [None]:
# 예측 - 학습데이터로 쓰지 않았던 새로운 데이터로 예측을 하도록 하는 것이 권장사항
pred = dt_clf.predict(X_test)

pred

In [None]:
len(pred)

In [None]:
# 평가 - 모델이 예측한 결과를 바탕으로 이 모델의 예측 성능을 확인
#      - 정확도
from sklearn.metrics import accuracy_score

print('학습모델의 예측 정확도 : {0:.4f}'.format(accuracy_score(y_test, pred)))

## 머신러닝 프로세스 정리 (지도학습)

* 데이터 로딩

* 데이터 탐색

* 데이터 전처리 (모델이 요구하는 형식)

* 데이터 세트 분리 - 학습/<검정>/테스트로 분리

* 모델 생성 -> 학습 : 학습데이터를 기반으로 최적의 ML 알고리즘을 적용해서 모델을 학습시킴

* 예측 수행 - 학습된 ML 모델을 이용해서 새로운 데이터를 적용하여 예측을 수행

* 평가 : 학습된 모델이 예측한 결과값과 새로운 데이터의 실제 결과값(label)을 비교해서 ML 모델의 성능을 평가

In [None]:
# 데이터 세트를 분리하지 않은 경우
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

In [None]:
iris = load_iris()

dt_clf = DecisionTreeClassifier()

# 학습데이터와 테스트데이터를 분리하지 않음
train_feature = iris.data
test_label = iris.target

dt_clf.fit(train_feature, test_label)

pred = dt_clf.predict(train_feature)

print('모델의 예측 정확도 : ,', accuracy_score(test_label, pred))

## 교차 검증

* K-폴드 : 가장 보편적으로 사용하는 교차검증 기법

* Stratified K-폴드 : 불균형한 분포도를 가진 레이블 데이터 집합을 위한 K-폴드 방식 (ex. 대출 사기, 금융 사기 데이터 예측)

In [None]:
from IPython.display import Image

Image('./kfold.png')

In [None]:
# K-fold를 이용한 교차 검증 모델
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score   # 교차검증 수행 객체
import numpy as np

In [None]:
iris = load_iris()

dt_clf = DecisionTreeClassifier(random_state=121)

# 학습데이터와 테스트데이터를 분리하지 않음
train_feature = iris.data
test_label = iris.target

# 교차검증 세트 3개, 성능 지표는 정확도, default는 Stratified K-폴드
scores = cross_val_score(dt_clf, train_feature, test_label, cv=3, scoring='accuracy')

print('교차 검증별 정확도 : ', np.round(scores, 4))
print('평균 검증 정확도 : ', np.round(np.mean(scores), 4))

In [None]:
import numpy as np

np.random.seed(0)

np.random.randint(1, 10, 10)

In [None]:
np.random.randint(1, 10, 10)