# **붓꽃 품종 분류**

In [1]:
# 사이킷런 버전 확인
import sklearn
print(sklearn.__version__)

0.23.2


**붓꽃 예측을 위한 사이킷런 필요 모듈 로딩**

In [4]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

사이킷런 패키지 모듈
- 명명 규칙 : 모듈명은 sklearn으로 시작
- sklearn.datasets : 사이킷런에서 자체적으로 제공하는 데이터 세트를 생성하는 모듈 모임
- sklearn.tree : 트리 기반 ML 알고리즘을 구현한 클래스 모임
- sklearn.model_selection : 학습 데이터와 검증 데이터, 예측 데이터로 데이터를 분리 하거나 최적의 하이퍼 파라미터로 평가하기 위한 다양한 모듈의 모임

**붓꽃 데이터 예측 프로세스에서 사용하는 함수 및 클래스**
- load_iris() 함수 : 붓꽃 데이터 세트
- DecisionTreeClassifier 클래스 : ML알고리즘은 의사결정 트리 알고리즘 이용
- train_test_split() 함수 : 데이터 세트를 학습 데이터와 테스트 데이터로 분리

**데이터 세트 로딩**

In [5]:
import pandas as pd

In [10]:
# 붓꽃 데이터 세트 로딩
iris = load_iris()
#print(iris)

In [16]:
# iris.data : iris 데이터 세트에서
# 피처만으로 된 데이터를 numpy로 가지고 있음
iris_data = iris.data
print(iris_data[:10])

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]]


In [21]:
# iris.target은 붓꽃 데이터 세트에서
# 레이블(결정 값) 데이터를 numpy로 가지고 있음(숫자)
# 레이블 = 결정값 = 정답 (품종을 숫자로 표현)
iris_label = iris.target
print(iris_label)
print(iris.target_names)
print(iris.feature_names)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
['setosa' 'versicolor' 'virginica']
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [26]:
# 붓꽃 데이터를 DataFrame으로 변환
iris_df = pd.DataFrame(data = iris_data, columns = iris.feature_names)
iris_df['label'] = iris.target
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [36]:
iris_df2 = iris_df
iris_df2.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label,label_name
0,5.1,3.5,1.4,0.2,0,0
1,4.9,3.0,1.4,0.2,0,0
2,4.7,3.2,1.3,0.2,0,0
3,4.6,3.1,1.5,0.2,0,0
4,5.0,3.6,1.4,0.2,0,0


In [37]:
def label_name(label):
    if label == 0:
        name = 'setosa'
    elif label == 1:
        name = 'versicolor'
    else:
        name = 'virginica'
    return name

In [39]:
iris_df2['label_name'] = iris_df2.apply(lambda x: label_name(x['label']), axis = 1)

In [40]:
iris_df2

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label,label_name
0,5.1,3.5,1.4,0.2,0,setosa
1,4.9,3.0,1.4,0.2,0,setosa
2,4.7,3.2,1.3,0.2,0,setosa
3,4.6,3.1,1.5,0.2,0,setosa
4,5.0,3.6,1.4,0.2,0,setosa
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2,virginica
146,6.3,2.5,5.0,1.9,2,virginica
147,6.5,3.0,5.2,2.0,2,virginica
148,6.2,3.4,5.4,2.3,2,virginica


### **학습 데이터와 테스트 데이터 세트로 분리**
**train_test_split() 함수** 사용
- train_test_split(iris_data, iris_label, test_size = 0.3, random_state = 11)
- train_test_split(피처 데이터 세트, 레이블 데이터 세트, 테스트 데이터 세트 비율, 난수 발생값)
    - 피처 데이터 세트 : 피처 만으로 된 데이터(numpy)
    - 레이블 데이터 세트 : 레이블(결정 값) 데이터 (numpy)
    - test_size (테스트 데이터 세트 비율) : 전체 데이터 세트 중 테스트 데이터 세트 비율
    - random_state (난수 발생값) : 수행할 때마다 동일한 데이터 세트로 분리하기 위해 시드값 고정

**train_test_split()** 반환값 
- X_train : 학습용 피처 데이터 세트 (feature)
- X_test : 테스트용 피처 데이터 세트 (feature)
- y_train : 학습용 레이블 데이터 세트 (target)
- y_test : 테스트용 레이블 데이터 세트 (target)
- feature : 대문자 X_
- label(target) : 소문자 y_

In [42]:
# 학습 데이터와 테스트 데이터 세트로 분리
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size = 0.3, random_state = 11)

In [43]:
# 학습용 피처 데이터 세트
X_train[:10]

array([[5.1, 2.5, 3. , 1.1],
       [6.6, 2.9, 4.6, 1.3],
       [5. , 3.2, 1.2, 0.2],
       [7.4, 2.8, 6.1, 1.9],
       [5.1, 3.8, 1.6, 0.2],
       [6.8, 3.2, 5.9, 2.3],
       [6.9, 3.1, 5.1, 2.3],
       [5.9, 3. , 4.2, 1.5],
       [4.9, 2.5, 4.5, 1.7],
       [6.7, 3.1, 4.7, 1.5]])

In [44]:
# 테스트용 피처 데이터 세트
X_test[:10]

array([[6.8, 3. , 5.5, 2.1],
       [6.7, 3. , 5.2, 2.3],
       [6.3, 2.8, 5.1, 1.5],
       [6.3, 3.3, 4.7, 1.6],
       [6.4, 2.7, 5.3, 1.9],
       [4.9, 3.1, 1.5, 0.1],
       [6.7, 3.1, 4.4, 1.4],
       [5.7, 4.4, 1.5, 0.4],
       [4.8, 3.1, 1.6, 0.2],
       [6.1, 2.9, 4.7, 1.4]])

In [45]:
# 학습용 레이블 데이터 세트
y_train[:10]

array([1, 1, 0, 2, 0, 2, 2, 1, 2, 1])

In [46]:
# 테스트용 레블 데이터 세트
y_test[:10]

array([2, 2, 2, 1, 2, 0, 1, 0, 0, 1])

### **학습 데이터 세트로 학습(Train) 수행**
ML알고리즘으로 의사결정 트리 알고리즘을 이용해서 학습과 예측 수행
DecisionTreeClassifier클래스의 fit() / predict() 메소드 사용
fit() : 학습 수행 (학습용 데이터)
- fit(학습용 피처 데이터, 학습용 레이블(정답) 데이터)
- fit(X_train, y_train)
predict() : 예측 수행
- predict(테스트용 피처 데이터)
- predict(X_test)

+)
- X_train : 학습용 피처 데이터 세트 (feature)
- X_test : 테스트용 피처 데이터 세트 (feature)
- y_train : 학습용 레이블 데이터 세트 (target)
- y_test : 테스트용 레이블 데이터 세트 (target)
- feature : 대문자 X_
- label(target) : 소문자 y

In [47]:
# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state = 11)

In [48]:
# 학습 수행
dt_clf.fit(X_train, y_train)

# 학습용 피처 데이터, 학습용 레이블(정답) 데이터

DecisionTreeClassifier(random_state=11)

### **테스트 데이터 세트로 예측(Predict) 수행**

In [50]:
# 학습이 완료된 객체에서 테스트 데이터 세트로 예측 수행
pred = dt_clf.predict(X_test)

# 테스트용 피처 데이터

In [51]:
pred

array([2, 2, 1, 1, 2, 0, 1, 0, 0, 1, 1, 1, 1, 2, 2, 0, 2, 1, 2, 2, 1, 0,
       0, 1, 0, 0, 2, 1, 0, 1, 0, 2, 2, 0, 0, 2, 2, 2, 0, 2, 1, 2, 0, 1,
       2])

### **예측 정확도(accurancy)평가**
- 정확도 측정을 위해 사이킷런에서 제공하는 accurancy_score()함수 사용
- accurancy_score(실제 테스트용 레이블 데이터 세트, 예측된 레이블 데이터 세트)


In [52]:
from sklearn.metrics import accuracy_score
accuracy_score(y_test, pred)

0.9111111111111111

In [53]:
print(type(iris_data))

<class 'numpy.ndarray'>


### **사이킷런의 내장 데이터 세트 구성과 의미**

In [59]:
from sklearn.datasets import load_iris
iris_data = load_iris()
print(type(iris_data))

<class 'sklearn.utils.Bunch'>


In [60]:
keys = iris_data.keys()
print(keys)

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [66]:
# data
print("data type", type(iris_data.data))
print("data shape", iris_data.data.shape)
#print(iris_data['data'])

data type <class 'numpy.ndarray'>
data shape (150, 4)


In [67]:
# target
print("target type", type(iris_data.target))
print("target shape", iris_data.target.shape)
print(iris_data['target'])

target type <class 'numpy.ndarray'>
target shape (150,)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


In [76]:
# taret_names
print("target_names type", type(iris_data.target_names))
print("target_names shape", len(iris_data.target_names))
print(iris_data.target_names)

target_names type <class 'numpy.ndarray'>
target_names shape 3
['setosa' 'versicolor' 'virginica']


In [75]:
# feature_names
print("feature_names type", type(iris_data.feature_names))
print("feature_names shape", len(iris_data.feature_names))
print(iris_data.feature_names)

feature_names type <class 'list'>
feature_names shape 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [68]:
# DESCR : 데이터 세트 설명, 각 피처 설명 (string)
iris_data.DESCR

