In [1]:
import sklearn
print(sklearn.__version__)

1.0


In [2]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# call and read digits dataset

wine = load_wine()

print(dir(wine))
print(wine.target_names)
print(wine.DESCR)

# assign data for later use

wine_feature = wine.data
wine_label = wine.target

['DESCR', 'data', 'feature_names', 'frame', 'target', 'target_names']
['class_0' 'class_1' 'class_2']
.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.

In [3]:
from sklearn.model_selection import train_test_split

# split data for model training and model testing

data_train, data_test, label_train, label_test = train_test_split(wine_feature, wine_label, test_size = 0.2, random_state=7)
                                                     
print('data_train 개수: ', len(data_train),', data_test 개수: ', len(data_test))
print(data_train.shape, label_train.shape)
print(data_test.shape, label_test.shape)

data_train 개수:  142 , data_test 개수:  36
(142, 13) (142,)
(36, 13) (36,)


In [4]:
# import models

from sklearn.tree import DecisionTreeClassifier 
from sklearn.ensemble import RandomForestClassifier  
from sklearn import svm  
from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import LogisticRegression 

# import metrics

from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

---
## Trying Decision Tree model


In [5]:
decision_tree = DecisionTreeClassifier(random_state=32) 
decision_tree.fit(data_train, label_train)
label_prediction = decision_tree.predict(data_test)

print(confusion_matrix(label_test, label_prediction))
print(classification_report(label_test, label_prediction))

[[ 7  0  0]
 [ 0 17  0]
 [ 0  2 10]]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.89      1.00      0.94        17
           2       1.00      0.83      0.91        12

    accuracy                           0.94        36
   macro avg       0.96      0.94      0.95        36
weighted avg       0.95      0.94      0.94        36



---
## Trying Randome Foreest model

In [6]:
# trying Random Forest model

random_forest = RandomForestClassifier(random_state=32) 
random_forest.fit(data_train, label_train)
label_prediction = random_forest.predict(data_test)

print(confusion_matrix(label_test, label_prediction))
print(classification_report(label_test, label_prediction))

[[ 7  0  0]
 [ 0 17  0]
 [ 0  0 12]]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       1.00      1.00      1.00        17
           2       1.00      1.00      1.00        12

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36



---
## Trying Support Vector Machine

In [7]:
# trying Support Vector Machine

svm_model = svm.SVC()
svm_model.fit(data_train, label_train)
label_prediction = svm_model.predict(data_test)

print(confusion_matrix(label_test, label_prediction))
print(classification_report(label_test, label_prediction))

[[ 6  0  1]
 [ 1 15  1]
 [ 0 11  1]]
              precision    recall  f1-score   support

           0       0.86      0.86      0.86         7
           1       0.58      0.88      0.70        17
           2       0.33      0.08      0.13        12

    accuracy                           0.61        36
   macro avg       0.59      0.61      0.56        36
weighted avg       0.55      0.61      0.54        36



---
## Trying Stochastic Gradient Descent model

In [8]:
sgd_model = SGDClassifier()
sgd_model.fit(data_train, label_train)
label_prediction = sgd_model.predict(data_test)

print(confusion_matrix(label_test, label_prediction))
print(classification_report(label_test, label_prediction))

[[ 7  0  0]
 [ 2 12  3]
 [ 4  4  4]]
              precision    recall  f1-score   support

           0       0.54      1.00      0.70         7
           1       0.75      0.71      0.73        17
           2       0.57      0.33      0.42        12

    accuracy                           0.64        36
   macro avg       0.62      0.68      0.62        36
weighted avg       0.65      0.64      0.62        36



---
## Trying Logistic Regression

In [9]:
logistic_model = LogisticRegression(max_iter=20000) # 최대 반복횟수 증가
logistic_model.fit(data_train, label_train)
label_prediction = logistic_model.predict(data_test)

print(confusion_matrix(label_test, label_prediction))
print(classification_report(label_test, label_prediction))

[[ 7  0  0]
 [ 0 17  0]
 [ 0  1 11]]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.94      1.00      0.97        17
           2       1.00      0.92      0.96        12

    accuracy                           0.97        36
   macro avg       0.98      0.97      0.98        36
weighted avg       0.97      0.97      0.97        36



## 모델을 평가해 보기
와인의 등급을 판별하는 문제의 경우, 각 등급에 따라 정밀도와 재현율의 중요성이 달라지는 점이 특이하다. 높은 등급의 와인을 낮은 등급으로 잘못 판정했을 경우, 낮은 와인 판별의 재현율과 높은 등급 와인 판별의 정밀도가 떨어지지만, 그 판정을 믿고 와인을 구매한 소비자 입장에서는 큰 불만을 제기하지 않을 것이다. 반면, 낮은 등급 와인을 높은 등급 와인으로 잘못 판정했을 경우, 낮은 와인 판별의 정밀도와 높은 등급 와인 판별의 재현율이 떨어지며, 소비자는 큰 불만을 제기할 것이다. 이런 점에서 소비자는 높은 등급 와인 판정에는 재현율이 중요하다고 여길 것이며, 낮은 등급 와인 판정에는 재현율이 덜 중요하다고 여길 것이다. 반대로, 판매자의 입장에서는 높은 등급 와인의 정밀도가 중요하다고 여길 것이며, 낮은 등급 와인 판정에는 정밀도가 덜 중요하다고 여길 것이다. 이를 종합할 경우 모델 전반적인 정확도보다 높은 등급 와인 판정의 정확도가 더 중요하다.

해당 평가기준에 따라 5가지 모델을 비교하면 다음과 같다.

|모델명|모델 전체의 w.avg of f1-score|class 2의 f1-score|순위|
|---|---|---|---|
|의사결정나무|0,94|0.91|3|
|랜덤포레스트|1.0|1.0|1|
|SVM|0.54|0.13|4|
|SGD|0.62|0.42|5|
|로지스틱|0.97|0.96|2|

하위권에 위치한 SVM과 SGD의 경우, 모델 전체의 정확도 순위와 class 2의 정확도 순위가 다른 것을 확인할 수 있다. 