# E1 sklearn으로 분류하기

일시: 2020년 1월 7일 목요일

## (1) 필요한 모듈 import하기

In [6]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier #의사결정나무
from sklearn.ensemble import RandomForestClassifier # 랜덤포레스트
from sklearn import svm #서포트 벡터 머신
from sklearn.linear_model import SGDClassifier # SGD 분류기
from sklearn.linear_model import LogisticRegression # 로지스틱 회귀
from sklearn.metrics import confusion_matrix # 오차행렬

## (2) 데이터 준비

In [7]:
wine = load_wine()

## (3) 데이터 이해하기

In [11]:
print(type(dir(wine))) #  객체가 어떤 변수와 메서드를 가지고 있는지 나열
print(wine.keys()) # digits에 담긴 정보 확인
print(wine.feature_names) # fearture의 이름 확인(64개)

##(i) Feature Data 지정하기
wine_data = wine.data
print(wine_data.shape) # 데이터 크기 확인 

##(ii) Label Data 지정하기
wine_label = wine.target # 머신러닝 모델이 출력해야 하는 정답인 라벨, 타겟 보기
print(wine_label.shape)

##(iii) Target Names 출력해 보기
print(wine.target_names) # 라벨 이름 확인

##(iv) 데이터 Describe해 보기
print(wine.DESCR) # 데이터셋 설명

<class 'list'>
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])
['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']
(178, 13)
(178,)
['class_0' 'class_1' 'class_2']
.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                  

## (4) train, test 데이터 분리

In [12]:
X_train, X_test, y_train, y_test = train_test_split(wine_data, 
                                                    wine_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

## (i) 분리가 잘 되었나 보기
print(X_train.shape,y_train.shape)
print(X_test.shape,y_test.shape)

(142, 13) (142,)
(36, 13) (36,)


## (5) 모델 학습 및 예측

### (i) 의사결정나무

In [23]:
decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred))

accuracy = accuracy_score(y_test, y_pred)
print("의사결정나무의 정확도: ", accuracy)
confusion_matrix(y_test, y_pred)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.89      1.00      0.94        17
           2       1.00      0.83      0.91        12

    accuracy                           0.94        36
   macro avg       0.96      0.94      0.95        36
weighted avg       0.95      0.94      0.94        36

의사결정나무의 정확도:  0.9444444444444444


array([[ 7,  0,  0],
       [ 0, 17,  0],
       [ 0,  2, 10]])

### (ii) 랜덤포레스트

In [22]:
random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

print(classification_report(y_test, y_pred))

accuracy = accuracy_score(y_test, y_pred)
print("랜덤포레스트의 정확도: ", accuracy)
confusion_matrix(y_test, y_pred)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       1.00      1.00      1.00        17
           2       1.00      1.00      1.00        12

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36

랜덤포레스트의 정확도:  1.0


array([[ 7,  0,  0],
       [ 0, 17,  0],
       [ 0,  0, 12]])

### (iii) 서포트 벡터 머신

In [21]:
svm_model = svm.SVC()

svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

print(classification_report(y_test, y_pred))

accuracy = accuracy_score(y_test, y_pred)
print("서포트 벡터 머신의 정확도: ", accuracy)
confusion_matrix(y_test, y_pred)

              precision    recall  f1-score   support

           0       0.86      0.86      0.86         7
           1       0.58      0.88      0.70        17
           2       0.33      0.08      0.13        12

    accuracy                           0.61        36
   macro avg       0.59      0.61      0.56        36
weighted avg       0.55      0.61      0.54        36

서포트 벡터 머신의 정확도:  0.6111111111111112


array([[ 6,  0,  1],
       [ 1, 15,  1],
       [ 0, 11,  1]])

### (iv) SGD 분류기

In [27]:
sgd_model = SGDClassifier()

sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

print(classification_report(y_test, y_pred))

accuracy_score(y_test, y_pred)
print("SGD 분류기의 정확도: ",accuracy)
confusion_matrix(y_test, y_pred)

              precision    recall  f1-score   support

           0       0.27      1.00      0.42         7
           1       0.90      0.53      0.67        17
           2       0.00      0.00      0.00        12

    accuracy                           0.44        36
   macro avg       0.39      0.51      0.36        36
weighted avg       0.48      0.44      0.40        36

SGD 분류기의 정확도:  0.9722222222222222


  _warn_prf(average, modifier, msg_start, len(result))


array([[ 7,  0,  0],
       [ 8,  9,  0],
       [11,  1,  0]])

### (v) 로지스틱 회귀

In [25]:
logistic_model = LogisticRegression(solver='lbfgs', max_iter=4000)

logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

print(classification_report(y_test, y_pred))

accuracy = accuracy_score(y_test, y_pred)
print("로지스틱 회귀의 정확도: ", accuracy)
confusion_matrix(y_test, y_pred)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.94      1.00      0.97        17
           2       1.00      0.92      0.96        12

    accuracy                           0.97        36
   macro avg       0.98      0.97      0.98        36
weighted avg       0.97      0.97      0.97        36

로지스틱 회귀의 정확도:  0.9722222222222222


array([[ 7,  0,  0],
       [ 0, 17,  0],
       [ 0,  1, 11]])

 모델의 성능은 정확도로만 표현하면 안되고, 특히 label이 불균형하게 분포되어있는 데이터를 다룰 때는 더 조심해야 합니다. 
 
 해당 데이터는 report의 support를 보면 알 수 있듯이, class 0의 개수가 다른 class보다 현저히 적습니다. 따라서 정확도를 성능지표로 보고 모델을 평가하면 안될 것으로 사료됩니다. 또한 SGD 분류기의 경우, 정확도는 높게 나오지만 오차행렬의 값이나 정밀도, 재현율을 보면 현저히 낮습니다. 이는 정확도를 지표로 사용하면 안된다는 또다른 근거가 될 수 있습니다.
  
 그래서 wine 분류에서는 F1 score를 평가지표로 보겠습니다. 재현율과 정밀도가 둘 다 비슷해보여 두 지표의 조화평균을 지표로 삼는 것이 가장 타당하다고 생각했습니다.
 
 지표를 수십분 고민한 것이 살짝은 무색한 결과지만 이 분류의 경우 가장 성능이 좋은 모델은 '랜덤포레스트'입니다. 라벨을 모두 맞추어 모든 면에서 1의 결과를 도출했기 때문입니다. 