## load_wine : 와인 분류하기
커널정보 = base (python 3.9.7)

### 0. 루브릭
***

|**평가문항**|**상세기준**|
|------------|-------------|
|1. 3가지 데이터셋의 구성이 합리적으로 진행되었는가?|feature와 label 선정을 위한 데이터 분석과정이 체계적으로 전개됨|
|2. 3가지 데이터셋에 대해 각각 5가지 모델을 성공적으로 적용하였는가?|모델학습 및 테스트가 정상적으로 수행되었음|
|3. 3가지 데이터셋에 대해 모델의 평가지표가 적절히 선택되었는가?|평가지표 선택 및 이유 설명이 타당함|


### 1. 필요한 모듈 import

In [58]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn import svm
from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import numpy as np

print('done')

done


### 2. 데이터 준비
***

In [59]:
wine = load_wine() # wine 자료 불러오기

print(dir(wine)) # dir()는 객체가 어떤 변수와 메서드를 가지고 있는지 나열함

wine.keys() # wine에 담겨있는 정보 확인

['DESCR', 'data', 'feature_names', 'frame', 'target', 'target_names']


dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])

### 3. 데이터 이해하기
***

#### 3.1 Feature Data 지정하기

In [60]:
wine_data = wine.data 

print(wine_data.shape)

wine_data[0] # wine_data 중 0번 샘플 확인

(178, 13)


array([1.423e+01, 1.710e+00, 2.430e+00, 1.560e+01, 1.270e+02, 2.800e+00,
       3.060e+00, 2.800e-01, 2.290e+00, 5.640e+00, 1.040e+00, 3.920e+00,
       1.065e+03])

In [61]:
wine.feature_names

['alcohol',
 'malic_acid',
 'ash',
 'alcalinity_of_ash',
 'magnesium',
 'total_phenols',
 'flavanoids',
 'nonflavanoid_phenols',
 'proanthocyanins',
 'color_intensity',
 'hue',
 'od280/od315_of_diluted_wines',
 'proline']

#### 3.2 Label Data 지정하기

In [62]:
wine_label = wine.target
print(wine_label.shape)
wine_label

(178,)


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2])

#### 3.3 Target Names 출력하기

In [63]:
wine.target_names

array(['class_0', 'class_1', 'class_2'], dtype='<U7')

#### 3.4 데이터 Describe 읽어보기

In [64]:
print(wine.DESCR)

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0

### 4. 학습 데이터 & 테스트 데이터 준비
***

In [65]:
wine_df = pd.DataFrame(data=wine_data, columns=[wine.feature_names]) # pandas dataframe으로 변환
wine_df

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.20,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.50,16.8,113.0,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740.0
174,13.40,3.91,2.48,23.0,102.0,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750.0
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835.0
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840.0


#### 4.1 학습데이터와 테스트 데이터 분리

In [66]:
X_train, X_test, y_train, y_test = train_test_split(wine_data,  # 모델이 맞춰야하는 정답값, label
                                                    wine_label, 
                                                    test_size=0.3, # test dataest의 크기 조절. 전체의 30%를 정답지로
                                                    random_state=12) # 데이터를 분리하는데 적용되는 랜덤성

print('X_train 개수: ', len(X_train),', X_test 개수: ', len(X_test))

X_train 개수:  124 , X_test 개수:  54


In [67]:
X_train.shape, y_train.shape

((124, 13), (124,))

In [68]:
X_test.shape, y_test.shape

((54, 13), (54,))

In [69]:
y_train, y_test

(array([0, 0, 2, 0, 1, 1, 1, 1, 0, 0, 0, 1, 2, 1, 1, 2, 2, 1, 1, 2, 0, 1,
        0, 0, 0, 2, 0, 1, 1, 2, 1, 0, 2, 0, 1, 0, 0, 2, 2, 0, 1, 2, 2, 2,
        2, 1, 2, 0, 0, 1, 1, 1, 2, 0, 0, 2, 2, 2, 1, 0, 1, 1, 2, 1, 2, 0,
        1, 0, 0, 2, 0, 1, 1, 0, 0, 1, 1, 1, 1, 0, 2, 2, 1, 1, 1, 0, 1, 1,
        0, 1, 0, 0, 0, 1, 0, 1, 1, 1, 1, 2, 2, 1, 1, 1, 0, 1, 1, 0, 1, 1,
        1, 1, 1, 2, 2, 2, 0, 0, 1, 0, 2, 2, 2, 1]),
 array([2, 2, 1, 0, 1, 2, 0, 2, 1, 2, 2, 2, 1, 1, 2, 0, 0, 0, 0, 2, 0, 0,
        1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 2, 0, 2, 1, 0, 1, 1, 0, 0, 1, 0,
        0, 2, 1, 0, 1, 2, 1, 2, 2, 2]))

### 5. 다양한 모델을 활용해 학습시키기
***
사용할 모델 list  
    1. DecisionTree  
    2. Random Forest  
    3. svm(support Vector Machine)  
    4. sgd(Stocchastic Gradient De)  
    5. Logistic Regression  

In [70]:
# 의사결정나무(DecisionTree)
decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train)

# Random Forest
random_forest = RandomForestClassifier(random_state=5)
random_forest.fit(X_train, y_train)

# SVM
svm_model = svm.SVC()
svm_model.fit(X_train, y_train)

# SGD
sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)

# Logistic Regression
logistic_model = LogisticRegression(max_iter=2300) # 2300 미만일 때 컨버전 워닝 발생
logistic_model.fit(X_train, y_train) 

print('done')

done


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


### 6. 모델 평가
***

#### 6.1 학습된 모델들의 테스트데이터 예측 결과 해석

##### 6.1.1 의사결정나무(DecisionTree)

In [71]:
y_pred = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred))
print("훈련 세트 정확도: {:.3f}".format(decision_tree.score(X_train,y_train))) # 학습 정확도 표기
print("테스트 세트 정확도: {:.3f}".format(decision_tree.score(X_test,y_test))) # 테스트 정확도 표기

              precision    recall  f1-score   support

           0       0.95      1.00      0.98        20
           1       0.94      0.89      0.91        18
           2       0.94      0.94      0.94        16

    accuracy                           0.94        54
   macro avg       0.94      0.94      0.94        54
weighted avg       0.94      0.94      0.94        54

훈련 세트 정확도: 1.000
테스트 세트 정확도: 0.944


##### 6.1.2 Random Forest

In [72]:
y_pred = random_forest.predict(X_test)

print(classification_report(y_test, y_pred))
print("훈련 세트 정확도: {:.3f}".format(random_forest.score(X_train,y_train))) # 학습 정확도 표기
print("테스트 세트 정확도: {:.3f}".format(random_forest.score(X_test,y_test))) # 테스트 정확도 표기

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        20
           1       1.00      0.94      0.97        18
           2       0.94      1.00      0.97        16

    accuracy                           0.98        54
   macro avg       0.98      0.98      0.98        54
weighted avg       0.98      0.98      0.98        54

훈련 세트 정확도: 1.000
테스트 세트 정확도: 0.981


##### 6.1.3 Support Vector Machine (SVM)

In [73]:
y_pred = svm_model.predict(X_test)

print(classification_report(y_test, y_pred, labels=np.unique(y_pred))) # labels=np.unique(y_pred)로 warning 문구 제거
print("훈련 세트 정확도: {:.3f}".format(svm_model.score(X_train,y_train))) # 학습 정확도 표기
print("테스트 세트 정확도: {:.3f}".format(svm_model.score(X_test,y_test))) # 테스트 정확도 표기

              precision    recall  f1-score   support

           0       1.00      0.85      0.92        20
           1       0.49      1.00      0.65        18

   micro avg       0.65      0.92      0.76        38
   macro avg       0.74      0.93      0.79        38
weighted avg       0.76      0.92      0.79        38

훈련 세트 정확도: 0.685
테스트 세트 정확도: 0.648


##### 6.1.4 Stochastic Gradient Descent Classifier (SGDClassifier)

In [74]:
y_pred = sgd_model.predict(X_test)

print(classification_report(y_test, y_pred, labels=np.unique(y_pred))) # labels=np.unique(y_pred)로 warning 문구 제거
print("훈련 세트 정확도: {:.3f}".format(sgd_model.score(X_train,y_train))) # 학습 정확도 표기
print("테스트 세트 정확도: {:.3f}".format(sgd_model.score(X_test,y_test))) # 테스트 정확도 표기

              precision    recall  f1-score   support

           0       0.51      1.00      0.68        20
           1       0.67      0.56      0.61        18

   micro avg       0.56      0.79      0.65        38
   macro avg       0.59      0.78      0.64        38
weighted avg       0.59      0.79      0.64        38

훈련 세트 정확도: 0.548
테스트 세트 정확도: 0.556


##### 6.1.5 Logistic Regression

In [75]:
y_pred = logistic_model.predict(X_test)

print(classification_report(y_test, y_pred))
print("훈련 세트 정확도: {:.3f}".format(logistic_model.score(X_train,y_train))) # 학습 정확도 표기
print("테스트 세트 정확도: {:.3f}".format(logistic_model.score(X_test,y_test))) # 테스트 정확도 표기

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        20
           1       1.00      0.89      0.94        18
           2       0.89      1.00      0.94        16

    accuracy                           0.96        54
   macro avg       0.96      0.96      0.96        54
weighted avg       0.97      0.96      0.96        54

훈련 세트 정확도: 0.992
테스트 세트 정확도: 0.963


#### 6.2 해당 주제에서 모델 성능 평가의 지표로 중요한 것과 그 이유
(sklearn.metrics 평가지표 중 선택)

**accuracy** 값이 가장 중요하다고 생각한다.  
load_wine test data의 클래스 분포는 20, 18, 16개로 데이터의 불균형이 있다고 볼 수 없고, 모델이 진단하는 내용 또한 예측의 정확도가 중요하다. 따라서 recall이나 f1-score보다 accuracy 값을 성능 평가의 기준으로 생각한다.

다섯가지 모델 중 와인 분류 모델로는 accuracy 값이 가장 높은 random forest가 적합해보인다.



#### 6.3 고민해볼 점

* svm과 sgd 모델에서 Precision and F-score are ill-defined and being set to 0.0 in labels with no predicted samples 오류가 발생한다. 구글링으로 오류를 제거하는 코드를 찾아 추가했지만, 어떤 이유로 오류가 발생하는지 그리고 이 코드는 어떤 원리로 오류를 제거하는지 이해하지 못했다.

* svm과 sgd의 정확도가 유독 낮았다.  
load_wine 상세 페이지를 읽어보니 Magnesium과 proline 의 값이 다른 feature에 비해 유독 큰데, 이 부분이 svm과 sgd에 영향을 준 것 같다.
데이터 정규화를 시행하고 다시 모델 평가를 해본다면 훨씬 좋은 결과가 나올 것으로 보인다.