In [1]:
# 라이브러리 버전 확인
import sklearn

print(sklearn.__version__)

1.0.2


모듈 import하기

In [2]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

데이터 준비

In [3]:
wine = load_wine()

print(dir(wine))

['DESCR', 'data', 'feature_names', 'frame', 'target', 'target_names']


In [4]:
# wine에 담긴 정보 확인
wine.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])

In [5]:
# 데이터 크기 확인 
wine_data = wine.data

print(wine_data.shape)  # shape는 배열의 형상정보를 출력

(178, 13)


In [6]:
# 0번째 데이터
wine_data[0]

array([1.423e+01, 1.710e+00, 2.430e+00, 1.560e+01, 1.270e+02, 2.800e+00,
       3.060e+00, 2.800e-01, 2.290e+00, 5.640e+00, 1.040e+00, 3.920e+00,
       1.065e+03])

In [7]:
# wine의 타겟 정보
wine_label = wine.target
print(wine_label.shape)
wine_label

(178,)


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2])

In [8]:
# 라벨의 이름
wine.target_names

array(['class_0', 'class_1', 'class_2'], dtype='<U7')

In [9]:
# wine에 대한 설명
print(wine.DESCR)

# 총 178개의 데이터
# 각 데이터에는 13개의 속성

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0

In [10]:
# feature에 대한 설명
wine.feature_names

['alcohol',
 'malic_acid',
 'ash',
 'alcalinity_of_ash',
 'magnesium',
 'total_phenols',
 'flavanoids',
 'nonflavanoid_phenols',
 'proanthocyanins',
 'color_intensity',
 'hue',
 'od280/od315_of_diluted_wines',
 'proline']

In [11]:
# wine 데이터셋을 DataFrame으로 변환
import pandas as pd

wine_df = pd.DataFrame(data=wine_data, columns=wine.feature_names)
wine_df

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.20,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.50,16.8,113.0,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740.0
174,13.40,3.91,2.48,23.0,102.0,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750.0
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835.0
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840.0


In [12]:
# 컬럼 'label' 추가
wine_df["label"] = wine.target
wine_df

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,label
0,14.23,1.71,2.43,15.6,127.0,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,0
1,13.20,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050.0,0
2,13.16,2.36,2.67,18.6,101.0,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185.0,0
3,14.37,1.95,2.50,16.8,113.0,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480.0,0
4,13.24,2.59,2.87,21.0,118.0,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740.0,2
174,13.40,3.91,2.48,23.0,102.0,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750.0,2
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835.0,2
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840.0,2


데이터 나누기

In [13]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(wine_data,
                                                    wine_label,
                                                    test_size=0.2,
                                                    random_state=7)

print('X_train 개수: ', len(X_train), ', X_test 개수: ', len(X_test))

X_train 개수:  142 , X_test 개수:  36


In [14]:
# 데이터셋 확인
X_train.shape, y_train.shape

((142, 13), (142,))

In [15]:
# 데이터셋 확인
X_test.shape, y_test.shape

((36, 13), (36,))

In [16]:
# Decision Tree 사용
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state=32)
print(decision_tree._estimator_type)

classifier


In [17]:
# 모델 학습시키기
decision_tree.fit(X_train, y_train)

DecisionTreeClassifier(random_state=32)

In [18]:
# 예측
y_pred = decision_tree.predict(X_test)
y_pred

array([2, 0, 2, 2, 1, 2, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 2, 0, 0, 1, 1,
       1, 1, 0, 2, 1, 2, 2, 2, 1, 0, 2, 1, 1, 1])

In [19]:
# 실제 정답
# 예측과 어느정도 잘 맞는 것을 확인
y_test

array([2, 0, 2, 2, 1, 2, 1, 0, 1, 2, 0, 1, 2, 1, 1, 1, 1, 2, 0, 0, 1, 1,
       1, 1, 0, 2, 1, 2, 2, 2, 1, 0, 2, 1, 1, 1])

In [20]:
# 정확도 확인
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, y_pred)
accuracy

0.9444444444444444

train, test 분리

In [21]:
X_train, X_test, y_train, y_test = train_test_split(wine_data,
                                                    wine_label,
                                                    test_size=0.2,
                                                    random_state=7)

Decision Tree

In [22]:
from sklearn.tree import DecisionTreeClassifier

# train
decision_tree = DecisionTreeClassifier()
decision_tree.fit(X_train, y_train)

# test
y_pred_dt = decision_tree.predict(X_test)

Random Forest

In [23]:
from sklearn.ensemble import RandomForestClassifier

# train
random_forest = RandomForestClassifier()
random_forest.fit(X_train, y_train)

# test
y_pred_rf = random_forest.predict(X_test)

SVM

In [24]:
from sklearn import svm

# train
svm_model = svm.SVC()
svm_model.fit(X_train, y_train)

# test
y_pred_svm = svm_model.predict(X_test)

SGD Classifier

In [25]:
from sklearn.linear_model import SGDClassifier

# train
sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)

# test
y_pred_sgd = sgd_model.predict(X_test)

Logistic Regression

In [26]:
from sklearn.linear_model import LogisticRegression

# train
logistic_model = LogisticRegression(max_iter=3000)
logistic_model.fit(X_train, y_train)

# test
y_pred_log = logistic_model.predict(X_test)

성능 지표 : 정밀도

In [30]:
from sklearn.metrics import precision_score
  
print('Decision Tree의 정밀도       : {}'.format(precision_score(y_test, y_pred_dt, average='weighted')))
print('Random Forest의 정밀도       : {}'.format(precision_score(y_test, y_pred_rf, average='weighted')))
print('SVM의 정밀도                 : {}'.format(precision_score(y_test, y_pred_svm, average='weighted')))
print('SGD의 정밀도                 : {}'.format(precision_score(y_test, y_pred_sgd, average='weighted')))
print('Logistic Regression의 정밀도 : {}'.format(precision_score(y_test, y_pred_log, average='weighted')))

Decision Tree의 정밀도       : 0.904320987654321
Random Forest의 정밀도       : 1.0
SVM의 정밀도                 : 0.5502136752136751
SGD의 정밀도                 : 0.7188888888888889
Logistic Regression의 정밀도 : 0.9737654320987654


모델 평가

In [28]:
from sklearn.metrics import classification_report

print("Decision Tree")
print(classification_report(y_test, y_pred_dt))
print("------------------------------------------------------")
print()

print("Random Forest")
print(classification_report(y_test, y_pred_rf))
print("------------------------------------------------------")
print()

print("SVM")
print(classification_report(y_test, y_pred_svm))
print("------------------------------------------------------")
print()

print("SGD Classifier")
print(classification_report(y_test, y_pred_sgd))
print("------------------------------------------------------")
print()

print("Logistic Regression")
print(classification_report(y_test, y_pred_log))

Decision Tree
              precision    recall  f1-score   support

           0       0.78      1.00      0.88         7
           1       0.89      0.94      0.91        17
           2       1.00      0.75      0.86        12

    accuracy                           0.89        36
   macro avg       0.89      0.90      0.88        36
weighted avg       0.90      0.89      0.89        36

------------------------------------------------------

Random Forest
              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       1.00      1.00      1.00        17
           2       1.00      1.00      1.00        12

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36

------------------------------------------------------

SVM
              precision    recall  f1-score   support

           0       0.86      0.86      

Confusion Matrix

In [29]:
from sklearn.metrics import confusion_matrix

confusion_matrix(y_test, y_pred_rf)

array([[ 7,  0,  0],
       [ 0, 17,  0],
       [ 0,  0, 12]])

🌟 모델 평가

* wine 데이터를 살펴보면 총 13가지 종류의 와인이 있고 3개의 class로 구성되어 있다. 그래서 와인의 품종을 분류하는 것이므로 성능 지표로 Precision이 적합하다. 또한, class가 0, 1, 2로 분류되어 있기 때문에 0을 0, 1을 1, 2를 2로 예측하는 모델을 생성하는 것이 옳다고 판단된다.

* 5가지 모델의 정밀도를 비교해보면, Random Forest가 1.0으로 매우 높은 정밀도를 지닌 것을 확인할 수 있다. 그 뒤를 이어 Logistic Regression이 약 0.974, Decision Tree이 약 0.950을 기록하였다. 이에 반해 SVM은 비교적 낮은 정확도를 지닌 것을 알 수 있다.

* 가장 높은 정밀도를 기록한 Random Froest으로 오차행렬을 확인해본다. 그 결과, Random Forest는 클래스끼리 혼동하지 않음을 통하여 오차가 없는 상태임을 확인할 수 있다.

* 정리하면, 와인의 품종을 분류할 때 정확도를 이용하였다. 5가지 모델을 이용하여 정밀도를 측정한 결과, Random Forest가 압도적인 정밀도를 보였으며, 그 다음으로 Logistic Regression, Decision Tree 순으로 우수한 성능을 보였다. 이에 따라 Random Forest의 오차행렬을 살펴보았을 때, 오차가 없는 상태임을 확인 할 수 있었다.

✍ **회고**

* Logistic Regression 모델을 사용하였을 때, 
'extra_warning_msg=_LOGISTIC_SOLVER_CONVERGENCE_MSG' convergence warning이 떴다. 이는 총 반복 횟수가 너무 적어서 한계에 도달한 것이며, 반복 횟수를 늘리거나(max_iter) 데이터 크기를 조정하라는 solution을 받았다. 그래서 max_iter = 3000으로 설정한 후 진행한 결과, Logistic Regression 모델이 정상적으로 작동하였다.
(이전 프로젝트에서 해결한 것을 바탕으로 쉽게 해결할 수 있었다.)

* 아직까지 많은 프로젝트를 해보진 않았지만 Random Forest의 정밀도가 1.0이 나온 것이 신기하면서 당황스러웠다. 처음으로 완벽한 정밀도를 관측하였기 때문에 잘못된 결과를 도출하고 있는 것일지도 모른다는 의심이 들었다.

* 인터넷에서 나와있는 와인의 품종을 분류한 자료들을 보면, 일부 특징값의 분포와 상관관계를 히스토그램과 스캐터플롯으로 시각화한 것을 보았다. 다양한 자세로 시각화 구현에 도전하며, 점진적으로 시각화를 편하게 대할 수 있는 수준에 도달하고 싶다.

🥕 참고자료


https://jfun.tistory.com/108