<a href="https://colab.research.google.com/github/EUNSOLLEE-aiffel/AI-rephyx/blob/master/24_12_18_6_2_%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8_(2)_load_wine.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [37]:
# (1) 필요한 모듈 import하기
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

In [38]:
# (2) 데이터 준비
from sklearn.datasets import load_wine
wine = load_wine()
print(wine.keys())

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])


In [39]:
# (3) 데이터 이해하기

# Feature Data 지정하기
wine_data = wine.data
print("Feature Data Shape:", wine_data.shape)

# Label Data 지정하기
wine_labels = wine.target
print("Label Data Shape:", wine_labels.shape)

# Target Names 출력해 보기
target_names = wine.target_names
print("Target Names:", target_names)

# 데이터 Describe 해 보기
print(wine.DESCR)

Feature Data Shape: (178, 13)
Label Data Shape: (178,)
Target Names: ['class_0' 'class_1' 'class_2']
.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

:Number of Instances: 178
:Number of Attributes: 13 numeric, predictive attributes and the class
:Attribute Information:
    - Alcohol
    - Malic acid
    - Ash
    - Alcalinity of ash
    - Magnesium
    - Total phenols
    - Flavanoids
    - Nonflavanoid phenols
    - Proanthocyanins
    - Color intensity
    - Hue
    - OD280/OD315 of diluted wines
    - Proline
    - class:
        - class_0
        - class_1
        - class_2

:Summary Statistics:

                                Min   Max   Mean     SD
Alcohol:                      11.0  14.8    13.0   0.8
Malic Acid:                   0.74  5.80    2.34  1.12
Ash:                          1.36  3.23    2.36  0.27
Alcalinity of Ash:            10.6  30.0    19.5   3.3
Magnesium:                    70.0 162.0    99.7  14.3
Total Ph

In [40]:
# (4) train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(wine_data,
                                                    wine_labels,
                                                    test_size=0.2,
                                                    random_state=7)

In [41]:
# (5) 다양한 모델로 학습시켜보기

# Decision Tree 사용해 보기
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state=32) # 객체 생성
decision_tree.fit(X_train, y_train) # 훈련
y_pred = decision_tree.predict(X_test) # 예측


# (6) 모델을 평가해 보기

print('[ Decision Tree 결과 지표 ]')
print()

# 혼동 행렬 (confusion_matrix)
from sklearn.metrics import confusion_matrix
matrix=confusion_matrix(y_test, y_pred)
print("** confusion_matrix:\n",matrix)
# 7개 : 실제 0인 데이터를 모델이 0으로 예측
# 0개 : 실제 0인 데이터를 모델이 1로 예측
# 0개 : 실제 0인 데이터를 모델이 2로 예측
# 0개 : 실제 1인 데이터를 모델이 0으로 예측
# 17개 : 실제 1인 데이터를 모델이 1로 예측
# 0개 : 실제 1인 데이터를 모델이 2로 예측
# 0개 : 실제 2인 데이터를 모델이 0으로 예측
# 2개 : 실제 2인 데이터를 모델이 1로 예측
# 10개 : 실제 2인 데이터를 모델이 2로 예측
# 즉, 이 모델은 2개의 데이터를 잘못 예측함
print()

# 정확도 (Accuracy)
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, y_pred)
print("** Accuracy:\n", accuracy)
# 정확도 : 94%
print()

# 정밀도 (Precision), 재현율 (Recall), F1-Score
print("** Precision, Recall, F1-Score:\n",classification_report(y_test, y_pred))
# "0"의 정밀도, 재현율, F1-Score : 100%, 100%, 100%

[ Decision Tree 결과 지표 ]

** confusion_matrix:
 [[ 7  0  0]
 [ 0 17  0]
 [ 0  2 10]]

** Accuracy:
 0.9444444444444444

** Precision, Recall, F1-Score:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.89      1.00      0.94        17
           2       1.00      0.83      0.91        12

    accuracy                           0.94        36
   macro avg       0.96      0.94      0.95        36
weighted avg       0.95      0.94      0.94        36



In [42]:
# Random Forest 사용해 보기
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=32) # 객체 생성
random_forest.fit(X_train, y_train) # 훈련
y_pred = random_forest.predict(X_test) # 예측


# (6) 모델을 평가해 보기

print('[ Random Forest 결과 지표 ]')
print()

# 혼동 행렬 (confusion_matrix)
from sklearn.metrics import confusion_matrix
matrix=confusion_matrix(y_test, y_pred)
print("** confusion_matrix:\n",matrix)
# 이 모델은 잘못 예측한 데이터가 없음
print()

# 정확도 (Accuracy)
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, y_pred)
print("** Accuracy:\n", accuracy)
# 정확도 : 100%
print()

# 정밀도 (Precision), 재현율 (Recall), F1-Score
print("** Precision, Recall, F1-Score:\n",classification_report(y_test, y_pred))
# "0"의 정밀도, 재현율, F1-Score : 100%, 100%, 100%

[ Random Forest 결과 지표 ]

** confusion_matrix:
 [[ 7  0  0]
 [ 0 17  0]
 [ 0  0 12]]

** Accuracy:
 1.0

** Precision, Recall, F1-Score:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       1.00      1.00      1.00        17
           2       1.00      1.00      1.00        12

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36



In [43]:
# SVM 사용해 보기
from sklearn import svm

svm_model = svm.SVC() # 객체 생성
svm_model.fit(X_train, y_train) # 훈련
y_pred = svm_model.predict(X_test) # 예측


# (6) 모델을 평가해 보기

print('[ SVM 결과 지표 ]')
print()

# 혼동 행렬 (confusion_matrix)
from sklearn.metrics import confusion_matrix
matrix=confusion_matrix(y_test, y_pred)
print("** confusion_matrix:\n",matrix)
# 이 모델은 14개의 데이터를 잘못 예측함
print()

# 정확도 (Accuracy)
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, y_pred)
print("** Accuracy:\n", accuracy)
# 정확도 : 61%
print()

# 정밀도 (Precision), 재현율 (Recall), F1-Score
print("** Precision, Recall, F1-Score:\n",classification_report(y_test, y_pred))
# "0"의 정밀도, 재현율, F1-Score : 86%, 86%, 86%

[ SVM 결과 지표 ]

** confusion_matrix:
 [[ 6  0  1]
 [ 1 15  1]
 [ 0 11  1]]

** Accuracy:
 0.6111111111111112

** Precision, Recall, F1-Score:
               precision    recall  f1-score   support

           0       0.86      0.86      0.86         7
           1       0.58      0.88      0.70        17
           2       0.33      0.08      0.13        12

    accuracy                           0.61        36
   macro avg       0.59      0.61      0.56        36
weighted avg       0.55      0.61      0.54        36



In [44]:
# SGD Classifier 사용해 보기
from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier() # 객체 생성
sgd_model.fit(X_train, y_train) # 훈련
y_pred = sgd_model.predict(X_test) # 예측


# (6) 모델을 평가해 보기

print('[ SGD Classifier 결과 지표 ]')
print()

# 혼동 행렬 (confusion_matrix)
from sklearn.metrics import confusion_matrix
matrix=confusion_matrix(y_test, y_pred)
print("** confusion_matrix:\n",matrix)
# 이 모델은 17개의 데이터를 잘못 예측함
print()

# 정확도 (Accuracy)
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, y_pred)
print("** Accuracy:\n", accuracy)
# 정확도 : 53%
print()

# 정밀도 (Precision), 재현율 (Recall), F1-Score
print("** Precision, Recall, F1-Score:\n",classification_report(y_test, y_pred, zero_division=0))
# "0"의 정밀도, 재현율, F1-Score : 37%, 100%, 54%

[ SGD Classifier 결과 지표 ]

** confusion_matrix:
 [[ 7  0  0]
 [ 5 12  0]
 [ 7  5  0]]

** Accuracy:
 0.5277777777777778

** Precision, Recall, F1-Score:
               precision    recall  f1-score   support

           0       0.37      1.00      0.54         7
           1       0.71      0.71      0.71        17
           2       0.00      0.00      0.00        12

    accuracy                           0.53        36
   macro avg       0.36      0.57      0.41        36
weighted avg       0.40      0.53      0.44        36



In [45]:
# Logistic Regression 사용해 보기
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression(solver='liblinear',max_iter=1000) # 객체 생성
logistic_model.fit(X_train, y_train) # 훈련
y_pred = logistic_model.predict(X_test) # 예측


# (6) 모델을 평가해 보기

print('[ Logistic Regression 결과 지표 ]')
print()

# 혼동 행렬 (confusion_matrix)
from sklearn.metrics import confusion_matrix
matrix=confusion_matrix(y_test, y_pred)
print("** confusion_matrix:\n",matrix)
# 이 모델은 1개의 데이터를 잘못 예측함
print()

# 정확도 (Accuracy)
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, y_pred)
print("** Accuracy:\n", accuracy)
# 정확도 : 97%
print()

# 정밀도 (Precision), 재현율 (Recall), F1-Score
print("** Precision, Recall, F1-Score:\n",classification_report(y_test, y_pred))
# "0"의 정밀도, 재현율, F1-Score : 88%, 100%, 93%

[ Logistic Regression 결과 지표 ]

** confusion_matrix:
 [[ 7  0  0]
 [ 1 16  0]
 [ 0  0 12]]

** Accuracy:
 0.9722222222222222

** Precision, Recall, F1-Score:
               precision    recall  f1-score   support

           0       0.88      1.00      0.93         7
           1       1.00      0.94      0.97        17
           2       1.00      1.00      1.00        12

    accuracy                           0.97        36
   macro avg       0.96      0.98      0.97        36
weighted avg       0.98      0.97      0.97        36



# (6) 모델을 평가해 보기
1. 학습된 모델들의 테스트데이터 예측 결과를 어떻게 해석해야 할까요?
```
상기 코드란에 주석으로 작성하였습니다.
```
2. 모델의 성능을 평가하는 지표로는 무엇이 좋을까요? sklearn.metrics 에서 제공하는 평가지표 중 적절한 것을 선택해 보세요.
선택하신 이유도 설명해 주세요.
```
모델의 성능을 평가하는 가장 적절한 평가지표는 정밀도와 재현율의 균형을 고려하는 **F1-score** 입니다.
와인 종류를 정확히 분류하는 것이 중요한 목표이기 때문입니다. 와인을 다른 종류로 잘못 분류하면, 고객이 원하는 와인을 받을 수 없게 되고 컴플레인이 발생할 수 있습니다.
한 종류의 와인을 잘못 예측하는 것보다, 모든 와인의 종류를 고르게 잘 분류하는 것이 중요하므로, F1-score를 비중 있게 고려하여야 합니다.
```