# Exploration 과제 2-2. load_wine 데이터셋을 이용한 와인 품종 분류 모델
본 과제는 와인 데이터셋을 세 가지 카테고리로 분류하는 모델로써, 다섯 가지 모델 중에서 어느 모델을 사용해야 가장 효율적으로 분류 가능한지를 확인한다.

In [1]:
# 모듈 import
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

## 데이터 준비
load_wine 메서드를 import하여 와인 데이터를 준비한다.

In [22]:
wine = load_wine() # wine 변수에 데이터 저장
wine.keys() # 와인 데이터의 키 값 확인

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])

In [3]:
# 데이터의 구성 확인
wine_data = wine.data
wine_data.shape

(178, 13)

총 178개의 데이터가 존재하며, 각 데이터는 13개의 정보로 구성되었음을 알 수 있다.

In [4]:
# 첫 번째 데이터의 샘플 확인
wine_data[0]

array([1.423e+01, 1.710e+00, 2.430e+00, 1.560e+01, 1.270e+02, 2.800e+00,
       3.060e+00, 2.800e-01, 2.290e+00, 5.640e+00, 1.040e+00, 3.920e+00,
       1.065e+03])

In [5]:
# 데이터셋의 target 데이터 구하기
wine_label = wine.target
print(wine_label.shape)
wine_label

(178,)


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2])

총 178개의 데이터가 들어 있으며, 각 값은 0, 1, 2로 표현되고 있다. 각 숫자들의 의미를 아래의 코드를 통해 파악할 수 있다.

In [6]:
wine.target_names

array(['class_0', 'class_1', 'class_2'], dtype='<U7')

In [7]:
print(wine.DESCR) # 데이터셋의 세부 정보 확인

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0

In [8]:
wine.feature_names

['alcohol',
 'malic_acid',
 'ash',
 'alcalinity_of_ash',
 'magnesium',
 'total_phenols',
 'flavanoids',
 'nonflavanoid_phenols',
 'proanthocyanins',
 'color_intensity',
 'hue',
 'od280/od315_of_diluted_wines',
 'proline']

13개의 각 feature에 대한 설명이 담겨 있다.

## 학습 데이터와 테스트 데이터 세팅

In [9]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(wine_data, # 모델이 답을 맞추기 위해 입력받는 특징
                                                    wine_label, # 모델이 맞추어야 하는 정답값
                                                    test_size=0.2, # 테스트 데이터셋의 크기 조절, 여기서는 전체의 20%를 테스트 데이터로 사용
                                                    random_state=7) # 학습 데이터와 테스트 데이터를 분리하는 데 적용되는 무작위성을 결정

print('X_train 개수: ', len(X_train),', X_test 개수: ', len(X_test))

X_train 개수:  142 , X_test 개수:  36


In [10]:
X_train.shape, y_train.shape

((142, 13), (142,))

In [11]:
X_test.shape, y_test.shape

((36, 13), (36,))

## Decision Tree를 통한 학습 및 예측

In [12]:
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.89      1.00      0.94        17
           2       1.00      0.83      0.91        12

    accuracy                           0.94        36
   macro avg       0.96      0.94      0.95        36
weighted avg       0.95      0.94      0.94        36



In [13]:
# 모델의 정확도 평가

from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, y_pred)
accuracy

0.9444444444444444

36개의 데이터에 대한 예측 결과, 94%의 정확도를 보여주고 있다. 맞은 데이터의 개수는 36x0.94=34개이며, 틀린 데이터의 개수는 2개로 분류되었다.

## Random Forest를 통한 학습

In [14]:
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       1.00      1.00      1.00        17
           2       1.00      1.00      1.00        12

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36



In [15]:
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, y_pred)
accuracy

1.0

36개의 데이터에 대한 예측 결과, 100%의 정확도를 보여주고 있다. 맞은 데이터의 개수는 36개이며, 틀린 데이터의 개수는 0개로 분류되었다.

## SVM을 통한 학습

In [16]:
from sklearn import svm
svm_model = svm.SVC()

svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.86      0.86      0.86         7
           1       0.58      0.88      0.70        17
           2       0.33      0.08      0.13        12

    accuracy                           0.61        36
   macro avg       0.59      0.61      0.56        36
weighted avg       0.55      0.61      0.54        36



In [17]:
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, y_pred)
accuracy

0.6111111111111112

36개의 데이터에 대한 예측 결과, 61%의 정확도를 보여주고 있다. 맞은 데이터의 개수는 36x0.61=22개이며, 틀린 데이터의 개수는 14개로 분류되었다.

## SGD Classifier를 통한 학습

In [18]:
from sklearn.linear_model import SGDClassifier
sgd_model = SGDClassifier()

sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.54      1.00      0.70         7
           1       0.65      0.88      0.75        17
           2       0.00      0.00      0.00        12

    accuracy                           0.61        36
   macro avg       0.40      0.63      0.48        36
weighted avg       0.41      0.61      0.49        36



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


In [19]:
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, y_pred)
accuracy

0.6111111111111112

36개의 데이터에 대한 예측 결과, 61%의 정확도를 보여주고 있다. 맞은 데이터의 개수는 36x0.61=22개이며, 틀린 데이터의 개수는 14개로 분류되었다.

## Logistic Regression를 통한 학습

In [20]:
from sklearn.linear_model import LogisticRegression
logistic_model = LogisticRegression()

logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.86      0.92         7
           1       0.94      1.00      0.97        17
           2       1.00      1.00      1.00        12

    accuracy                           0.97        36
   macro avg       0.98      0.95      0.96        36
weighted avg       0.97      0.97      0.97        36



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [21]:
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, y_pred)
accuracy

0.9722222222222222

36개의 데이터에 대한 예측 결과, 97%의 정확도를 보여주고 있다. 맞은 데이터의 개수는 36x0.97=35개이며, 틀린 데이터의 개수는 1개로 분류되었다.