이번에 사용할 패키지
* scikit-leran
* matplotlib
* pandas

<img src="./img/Iris.PNG"></img>

## 오늘의 목표 
### 지도학습 : 분류 - Decision Tree 모델
붓꽃을 통해 petal(꽃잎) 과 sepal(꽃받침) 을 구분하는 머신러닝 프로그램을 개발한다.

굳이 붓꽃으로 하는 이유는
머신러닝 라이브러리 사이킷런(scikit-learn) 에 내장되어 있기 때문에!

쉽게쉽게 가자 꽃 분류할려고 등산부터 할 순 없자너

[Scikit-Learn 공식 사이트](https://scikit-learn.org/stable/datasets.html)

scikit-learn 은 간단하고 작은 Toy-dataset 부터 복잡하고 큰 Real world dataset 을 제공한다.

우리가 사용하는 데이터 셋을 살펴보도록 하겠다.
IRIS

<img src="./img/Iris_data_summary.PNG"></img>

설명

1. 총 150개의 데이터.(1개의 데이터당 4개의 정보)
2. 4개의 정보
 - 꽃받침 길이
 - 꽃받침 너비
 - 꽃잎 길이
 - 꽃잎 너비
 (단위 : cm)


3. 이런 데이터에 Setosa, Versicolour, Virginica 세 종류가 있는데 이걸 class로 구분했다.
---
데이터는 안에 있으므로 불러와 보겠다.


In [17]:
from sklearn.datasets import load_iris

iris = load_iris()

print(dir(iris))
# dir()는 객체가 어떤 변수와 메서드를 가지고 있는지 나열함

['DESCR', 'data', 'data_module', 'feature_names', 'filename', 'frame', 'target', 'target_names']


In [18]:
iris.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

아이리스의 자료구조를 살펴 보겠다.  
우선 커다란 딕셔너리 안에 총 8개의 키값이 존재한다.  

---
1. data는 아까 말한 4개의 데이터가 array 객체로 묶여 총 150개.  
2. target은 꽃 품종의 종류가 0,1,2,로 구분되어 150개.  
3. frame : None,  
4. target_names는 0이 Setosa, 1이 versicolor, 2가 virginica 임을 어레이객체로 보여주고 있다.  
5.  DESCR (;Descript) 는 자료에 대해 구구절절 설명해준다  
6.  feature_names 는 data의 네 정보가 무엇인지 리스트로 담겨 보여주고 있다.(꽃받침 길이/너비, 꽃잎 길이/너비)  
7. filename : 'iris.csv'  
9. data_module : sklearn.dataset.data (데이터 형태)
---
이 data를 통해서 우리는?
머신러닝 모델에게 1.data 만을 주어서 
2.target이 무엇일지 예측할 수 있도록 학습시킬 것이다.

# 데이터 핸들링  
pandas를 이용

In [24]:
import pandas as pd

iris_data = iris.data #꽃잎, 꽃받침에 대한 정보
iris_label = iris.target #꽃 종류에 대한 정보

print("붓꽃 하나의 정보 :",iris_data[0])
print('이것을 Dataframe으로 나열하여 정리')

iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df

#data 속성은 행, col 속성은 열로 들어간다.

붓꽃 하나의 정보 : [5.1 3.5 1.4 0.2]
이것을 Dataframe으로 나열하여 정리


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


데이터 설명에도 나와 있듯이 4개의 꽃잎,꽃받침 정보가  
150개의 붓꽃별로 정리되어 있다.

In [22]:
iris_df["label"] = iris.target
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


이런식으로 딕셔너리 형태로 값을 집어넣으면 우측에 하나의 열이 더 생긴다. 그 열에는 각 데이터가 어떤 종류의 붓꽃인지를 나타내었다.  
0 = Setosa  
1 = versicolor  
2 = verginica  

상단에 보면 4col 에서 5col 이 된 것도 확인할 수가 있다.

---
우리는 이 데이터를 가지고 머신러닝 학습을 시킬 것이다.

## 000 Train 데이터, Test 데이터 분류

In [25]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(iris_data, 
                                                    iris_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

print('X_train 개수: ', len(X_train),', X_test 개수: ', len(X_test))

X_train 개수:  120 , X_test 개수:  30


train_test_split 함수는 

train 과 test를 나누고 싶은 x,y 값을 넣으면 자동으로 2분할 해주는 함수이다. 

train_test_split(x,y,test_size,random_state)  
x : Figure 자료. train / test 로 나뉜다.  
y : Label 자료. train / test 로 나뉜다.  

test_size 는 전체 양 대비 test에 넣을 비율을 말한다.  
random_state 는 얼마나 뒤죽박죽 섞을지를 말한다. 0~150을 순서대로 끊어서 데이터를 가져올 것이 아니기 때문이다.

---
자 이제 의사결정 나무를 불러 데이터를 학습시켜보도록 하자

In [33]:
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state=32)
print(decision_tree._estimator_type) #의사결정 모델 타입

classifier


In [34]:
decision_tree.fit(X_train, y_train)
#train 데이터를 의사결정나무 모델에 학습.

DecisionTreeClassifier(random_state=32)

In [37]:
y_pred = decision_tree.predict(X_test)

# 의사결정 나무가 예측한 X_test의 라벨링 값 :
print(y_pred)

#실제 데이터 라벨링 
print(y_test)

[2 1 0 1 2 0 1 1 0 1 2 1 0 2 0 2 2 2 0 0 1 2 1 1 2 2 1 1 2 2]
[2 1 0 1 2 0 1 1 0 1 1 1 0 2 0 1 2 2 0 0 1 2 1 2 2 2 1 1 2 2]


오 얼추 맞는데? 그럼 이거 적중률이 얼만지 알 수 있는 함수 있나?  
있다,

In [39]:
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, y_pred)
#y_test 에 비해 y_pred 가 얼마나 맞췄는가?
accuracy

0.9

해당 모델의 정확도는 90%
내가 저번에 했던 가위바위보 분류표보다 훨씬 낫네..

필요한 코드를 종합하면 아래와 같다.

In [41]:
# (1) 필요한 모듈 import
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report

# (2) 데이터 준비
iris = load_iris()
iris_data = iris.data
iris_label = iris.target

# (3) train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(iris_data, 
                                                    iris_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

# (4) 모델 학습 및 예측
decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.91      0.83      0.87        12
           2       0.83      0.91      0.87        11

    accuracy                           0.90        30
   macro avg       0.91      0.91      0.91        30
weighted avg       0.90      0.90      0.90        30



In [42]:
# 앙상블 랜덤포레스트 사용하는법

from sklearn.ensemble import RandomForestClassifier

X_train, X_test, y_train, y_test = train_test_split(iris_data, 
                                                    iris_label, 
                                                    test_size=0.2, 
                                                    random_state=21)

random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        11
           1       1.00      0.83      0.91        12
           2       0.78      1.00      0.88         7

    accuracy                           0.93        30
   macro avg       0.93      0.94      0.93        30
weighted avg       0.95      0.93      0.93        30



In [43]:
#svm 모델 이용하는법 support vector Machine - 선형 분류 알고리즘

from sklearn import svm
svm_model = svm.SVC()

print(svm_model._estimator_type)

svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

print(classification_report(y_test, y_pred))

classifier
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        11
           1       0.91      0.83      0.87        12
           2       0.75      0.86      0.80         7

    accuracy                           0.90        30
   macro avg       0.89      0.90      0.89        30
weighted avg       0.91      0.90      0.90        30



In [44]:
# Stochastic Gradient Descent Classifier (SGDClassifier) 경사하강법 알고리즘

from sklearn.linear_model import SGDClassifier
sgd_model = SGDClassifier()

print(sgd_model._estimator_type)

sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

print(classification_report(y_test, y_pred))

classifier
              precision    recall  f1-score   support

           0       0.69      1.00      0.81        11
           1       1.00      0.42      0.59        12
           2       0.78      1.00      0.88         7

    accuracy                           0.77        30
   macro avg       0.82      0.81      0.76        30
weighted avg       0.83      0.77      0.74        30



In [45]:
#Logistic Regression 선형 분류 알고리즘

from sklearn.linear_model import LogisticRegression
logistic_model = LogisticRegression()

print(logistic_model._estimator_type)

logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

print(classification_report(y_test, y_pred))

classifier
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        11
           1       1.00      0.83      0.91        12
           2       0.78      1.00      0.88         7

    accuracy                           0.93        30
   macro avg       0.93      0.94      0.93        30
weighted avg       0.95      0.93      0.93        30

