In [1]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# 1. 데이터 준비

In [2]:
wine = load_wine()

# 2. 데이터 이해하기

In [3]:
# Feature Data 지정하기
wine_data = wine.data
# Label Data 지정하기
wine_label = wine.target
# 데이터 Describe 해 보기
print(wine.DESCR)

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0

## 2.1 wine에 어떤 정보가 있는가?

In [4]:
print(wine.keys())

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])


## 2.2 wine의 입력 데이터는 어떤 구조인가?

In [5]:
print(wine_data.shape)

(178, 13)


## 2.3 wine의 출력 데이터는 어떤 구조인가?

In [6]:
print(wine_label.shape)

(178,)


In [7]:
# Target Names 출력해 보기
print(wine.target_names)

['class_0' 'class_1' 'class_2']


# 3. 데이터 전처리

In [8]:
# train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(wine_data, wine_label, test_size=0.2, random_state=7)

# 4. 여러 모델로 학습 해보기

## 4.1 Decision Tree 모델 학습 및 예측

In [9]:
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.89      1.00      0.94        17
           2       1.00      0.83      0.91        12

    accuracy                           0.94        36
   macro avg       0.96      0.94      0.95        36
weighted avg       0.95      0.94      0.94        36



## 4.2 Random Forest 모델 학습 및 예측

In [10]:
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       1.00      1.00      1.00        17
           2       1.00      1.00      1.00        12

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36



## 4.3 SVM 모델 학습 및 예측

In [11]:
from sklearn import svm

svm_model = svm.SVC()
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.86      0.86      0.86         7
           1       0.58      0.88      0.70        17
           2       0.33      0.08      0.13        12

    accuracy                           0.61        36
   macro avg       0.59      0.61      0.56        36
weighted avg       0.55      0.61      0.54        36



## 4.4 SGD Classifier 모델 학습 및 예측

In [14]:
from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.70      1.00      0.82         7
           1       0.90      0.53      0.67        17
           2       0.56      0.75      0.64        12

    accuracy                           0.69        36
   macro avg       0.72      0.76      0.71        36
weighted avg       0.75      0.69      0.69        36



## 4.5 Logistic Regression 모델 학습 및 예측

In [13]:
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression(max_iter=10000)
logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.94      1.00      0.97        17
           2       1.00      0.92      0.96        12

    accuracy                           0.97        36
   macro avg       0.98      0.97      0.98        36
weighted avg       0.97      0.97      0.97        36



# 5. 모델 평가

### Wine dataset에서 사용한 여러 모델중 정확도와 percision, recall 모든 지표가 좋은 모델은 Decision Tree, Random Forest, Logistic Regression 모델이였다.
### 위 3가지 모델 중 Random Forest는 과적합때문에 100%의 정확도가 나왔다고 생각한다.
### 때문에 Random Forest는 모델 후보군에서 제외하고자 한다.
# 
### Decision Tree와 Logistic Regression는 좋은 정확도와 적절한 percision, recall을 보여주었다.
### 와인 등급 선별 모델은 구성 성분에 따라 와인 등급을 구별해야하므로, Percision 지표가 가장 중요하다고 생각한다.
### 두 후보군 중, Logistic Regression의 Persicion이 가장 좋은 결과를 나타냈으므로 Logistic Regression를 사용하고자 한다.
# 
### sklearn.metrics모듈에서는 회귀 메트릭이 적합하다고 생각한다.
### 훈련 데이터가 수치로 나타낼 수 있는 수치형 데이터이기 때문이다.