## (1) 필요한 모듈 import하기

In [21]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

## (2) 데이터 준비
`load_wine` 메서드를 사용합니다.

In [22]:
data = load_wine()

dir(data)

['DESCR', 'data', 'feature_names', 'frame', 'target', 'target_names']

## (3) 데이터 이해하기
지피지기면 백전불태! 다루어야 할 데이터를 자세히 살펴봅시다.

- Feature Data 지정하기
- Label Data 지정하기
- Target Names 출력해 보기
- 데이터 Describe 해 보기

In [23]:
import pandas as pd

feature_data = data.data
label_data = data.target

feature_data.shape, label_data.shape

((178, 13), (178,))

In [24]:
data.target_names

array(['class_0', 'class_1', 'class_2'], dtype='<U7')

In [25]:
print(data.DESCR)

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0.98  3.88    2.29  0.63
    Fl

## (4) train, test 데이터 분리
모델 학습과 테스트용 문제지와 정답지를 준비해 봅시다.  
X_train, X_test, y_train, y_test를 생성하는 방법을 참고해 보세요.


In [26]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(feature_data, label_data,
                                                    test_size=0.2, stratify=label_data,
                                                    random_state=42)

X_train.shape, X_test.shape, y_train.shape, y_test.shape

((142, 13), (36, 13), (142,), (36,))

## (5) 다양한 모델로 학습시켜보기
학습데이터 X_train, y_train 을 활용해 분류기 모델을 만들어 봅시다. 어떤 모델이 가장 좋은 성능을 보일까요?

- Decision Tree 사용해 보기
- Random Forest 사용해 보기
- SVM 사용해 보기
- SGD Classifier 사용해 보기
- Logistic Regression 사용해 보기

In [27]:
from sklearn.tree import DecisionTreeClassifier

# 학습
DecisionTreeClassifier_model = DecisionTreeClassifier()
DecisionTreeClassifier_model.fit(X_train, y_train)

# 평가
y_pred = DecisionTreeClassifier_model.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.92      0.96        12
           1       0.88      1.00      0.93        14
           2       1.00      0.90      0.95        10

    accuracy                           0.94        36
   macro avg       0.96      0.94      0.95        36
weighted avg       0.95      0.94      0.94        36



In [28]:
from sklearn.ensemble import RandomForestClassifier

# 학습
RandomForestClassifier_model = RandomForestClassifier()
RandomForestClassifier_model.fit(X_train, y_train)

# 평가
y_pred = RandomForestClassifier_model.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        12
           1       1.00      1.00      1.00        14
           2       1.00      1.00      1.00        10

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36



In [29]:
from sklearn.svm import SVC

# 학습
SVC_model = SVC(probability=True)
SVC_model.fit(X_train, y_train)

# 평가
y_pred = SVC_model.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.92      0.92      0.92        12
           1       0.61      1.00      0.76        14
           2       0.00      0.00      0.00        10

    accuracy                           0.69        36
   macro avg       0.51      0.64      0.56        36
weighted avg       0.54      0.69      0.60        36



In [30]:
from sklearn.linear_model import SGDClassifier

# 학습
SGDClassifier_model = SGDClassifier()
SGDClassifier_model.fit(X_train, y_train)

# 평가
y_pred = SGDClassifier_model.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.79      0.92      0.85        12
           1       0.64      1.00      0.78        14
           2       0.00      0.00      0.00        10

    accuracy                           0.69        36
   macro avg       0.47      0.64      0.54        36
weighted avg       0.51      0.69      0.58        36



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


In [31]:
from sklearn.linear_model import LogisticRegression

# 학습
LogisticRegression_model = LogisticRegression()
LogisticRegression_model.fit(X_train, y_train)

# 평가
y_pred = LogisticRegression_model.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        12
           1       0.93      1.00      0.97        14
           2       1.00      0.90      0.95        10

    accuracy                           0.97        36
   macro avg       0.98      0.97      0.97        36
weighted avg       0.97      0.97      0.97        36



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


- `RandomForest`, `LogisticRegression`, `DecisionTreeClassifier_model`의 성능이 높게 왔다.
  - 그 중 `RandomForest`의 성능이 가장 높게 나왔다.
- SVC, SGDClassifier의 경우 성능이 낮게나왔다.
  - 왜 낮게 나왔을까? 🤔

## (6) 모델을 평가해 보기
학습된 모델들의 테스트데이터 예측 결과를 어떻게 해석해야 할까요? 모델의 성능을 평가하는 지표로는 무엇이 좋을까요?  
sklearn.metrics 에서 제공하는 평가지표 중 적절한 것을 선택해 보세요. 선택하신 이유도 설명해 주세요.

- 와인 등급을 예측하는 모델이기 때문에 되도록이면 정확한 등급이 필요할 것이다.
  - Precision 지표를 사용하는게 좋을 것이다.

In [34]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score

y_pred = RandomForestClassifier_model.predict(X_test)
y_pred_proba = RandomForestClassifier_model.predict_proba(X_test)

print(f"Accuracy Score: {accuracy_score(y_test, y_pred)}")
print(f"Precision Score: {precision_score(y_test, y_pred, average='weighted')}")
print(f"Recall Score: {recall_score(y_test, y_pred, average='weighted')}")
print(f"F1 Score: {f1_score(y_test, y_pred, average='weighted')}")
print(f"ROC AUC Score: {roc_auc_score(y_test, y_pred_proba, multi_class='ovo')}")

Accuracy Score: 1.0
Precision Score: 1.0
Recall Score: 1.0
F1 Score: 1.0
ROC AUC Score: 1.0
