### 분류(Classification) 모델
: 예측 값이 범주로 미리 정해지는 경우
- 2가지 범주 : 0과 1,'음성' or '양성', Logistic Regression, Binary Classification
- 3개 이상의 범주 : 'A' ~ 'F'학점, Multi Classification

<sklearn 의 분류 모델 클래스>
* Decision Tree(결정트리)
* Logistic Regression
* Naive Bayes
* Support Vector Machine
* Nearest Neighbor(최소 근접 알고리즘)

### 결정 트리(Decision Tree)
#### 의사 결정 트리, 의사 결정 나무라고도함, 대표적인 분류 학습 모델, 회귀도 가능, 스무고개와 유사
#### 나무를 거꾸로 뒤집어 놓은 모양 : 루트 노드 --> 규칙 노드(중간 노드) --> 리프노드(끝노드)

#### [1] 불순도(impurity): 해당 범주안에 서로 다른 데이터가 얼마나 섞여있는지를 말한다, 불확실성, 무질서도
#### [2] 엔트로피(Entropy) : 불순도를 수치적으로 나타내는 척도, 엔트로피가 높다는 것은 불순도가 높다, 1이면 불순도가 최대
#### [3] 정보이득(Information Gain) : 1 - 엔트로피
* 결정트리는 분류(구분)한 뒤 각 영역의 순도가 증가, 불순도가 감소하는 방향으로 학습을 진행, 정보이론에서는 정보이득

#### [4] 지니계수(Gini Coefficient) : 1 - (각 범주별 데이터 비율의 제곱의 합), 0 이면 최소(끝노드), 1이면 최대

### Iris(붓꽃) 품종 예측하기

In [1]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
# iris의 품종 : [0:'setosa',1:'versicolor',2:'virginica']
# 붓꽃의 데이터 세트를 로딩
iris = load_iris()
type(iris)   # Bunch : sklearn의 고유한 타입, DataFrame이 아님

# x값,피쳐만 추출
iris_data = iris.data
iris_data.shape  # (150, 4), 2차원 ndarray
print(type(iris_data))
print(iris.feature_names) # sepal:꽃받침    petal:꽃잎
#['sepal length (cm)','sepal width (cm)','petal length (cm)','petal width (cm)']

# y값 ,target, 답(label)만 추출
iris_label = iris.target
print(iris_label.shape)  # (150,)
print(iris.target_names) # ['setosa' 'versicolor' 'virginica']

iris_df = pd.DataFrame(data=iris_data,columns=iris.feature_names)
iris_df['label'] = iris_label
print(iris_df['label'].value_counts())   # 50,50,50 [150개]
iris_df

<class 'numpy.ndarray'>
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
(150,)
['setosa' 'versicolor' 'virginica']
label
0    50
1    50
2    50
Name: count, dtype: int64


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


In [3]:
# train(학습)데이터와 test(검증)데이터 세트로 분리: 80:20%, 120개(train),30개(test)
X_train,X_test,y_train,y_test = train_test_split(iris_data,iris_label,
                                                test_size=0.2,
                                                random_state=11) # random seed를 고정
X_train.shape,X_test.shape,y_train.shape,y_test.shape

((120, 4), (30, 4), (120,), (30,))

In [6]:
# 학습(Train)
dt_clf = DecisionTreeClassifier(random_state=11)  # random seed를 고정
dt_clf.fit(X_train,y_train)

In [7]:
# 예측 수행
pred = dt_clf.predict(X_test)
pred,y_test

(array([2, 2, 1, 1, 2, 0, 1, 0, 0, 1, 1, 1, 1, 2, 2, 0, 2, 1, 2, 2, 1, 0,
        0, 1, 0, 0, 2, 1, 0, 1]),
 array([2, 2, 2, 1, 2, 0, 1, 0, 0, 1, 2, 1, 1, 2, 2, 0, 2, 1, 2, 2, 1, 0,
        0, 1, 0, 0, 2, 1, 0, 1]))

In [11]:
# 정확도 측정 : accuracy
from sklearn.metrics import accuracy_score,classification_report
print('정확도:',accuracy_score(y_test,pred))

cl_report = classification_report(y_test,pred)
print('리포트:\n',cl_report)

정확도: 0.9333333333333333
리포트:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00         9
           1       0.83      1.00      0.91        10
           2       1.00      0.82      0.90        11

    accuracy                           0.93        30
   macro avg       0.94      0.94      0.94        30
weighted avg       0.94      0.93      0.93        30

