# 와인 분류

## 1) 필요 모듈 임포트

In [1]:
from sklearn.datasets import load_wine
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score,precision_score,recall_score,f1_score,classification_report

## 2) 데이터 준비

In [2]:
wine = load_wine()

## 3) 데이터 이해
- Feature Data 지정
- Label Data 지정
- Target Names 출력
- Data Describe

### 키 확인

In [3]:
wine.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])

## Feature Data

In [4]:
wine.feature_names

['alcohol',
 'malic_acid',
 'ash',
 'alcalinity_of_ash',
 'magnesium',
 'total_phenols',
 'flavanoids',
 'nonflavanoid_phenols',
 'proanthocyanins',
 'color_intensity',
 'hue',
 'od280/od315_of_diluted_wines',
 'proline']

- 알콜
- 말릭 산
- 애쉬
- 마그네슘
- 페놀의 토탈 양
- 플레이버노이드
- 색 진하기

와인에 대한 도메인 지식이 없어서 그냥 다양한 정보가 있다는 것을 알겠다!

In [5]:
wine_data = wine.data

In [6]:
wine_data.shape

(178, 13)

In [7]:
wine_df = pd.DataFrame(wine_data, columns=wine.feature_names)

In [8]:
print(wine_df)

     alcohol  malic_acid   ash  alcalinity_of_ash  magnesium  total_phenols  \
0      14.23        1.71  2.43               15.6      127.0           2.80   
1      13.20        1.78  2.14               11.2      100.0           2.65   
2      13.16        2.36  2.67               18.6      101.0           2.80   
3      14.37        1.95  2.50               16.8      113.0           3.85   
4      13.24        2.59  2.87               21.0      118.0           2.80   
..       ...         ...   ...                ...        ...            ...   
173    13.71        5.65  2.45               20.5       95.0           1.68   
174    13.40        3.91  2.48               23.0      102.0           1.80   
175    13.27        4.28  2.26               20.0      120.0           1.59   
176    13.17        2.59  2.37               20.0      120.0           1.65   
177    14.13        4.10  2.74               24.5       96.0           2.05   

     flavanoids  nonflavanoid_phenols  proanthocyan

- 데이터는 모두 수치형 데이터이다.
- 수치 범위가 컬럼마다 정규화가 필요해보인다.

## Label Data 확인

In [9]:
wine.target_names

array(['class_0', 'class_1', 'class_2'], dtype='<U7')

- 세 종류의 라벨이 있다

In [10]:
wine.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2])

In [11]:
wine.target.shape

(178,)

- 178개의 데이터 샘플에 대한 라벨

### 데이터 describe

In [12]:
print(wine.DESCR)

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0

## 4) train,test 데이터 분리

In [13]:
x_train, x_test, y_train, y_test = train_test_split(wine_data, wine.target,
                                                   test_size=0.2,
                                                   random_state=324)

In [14]:
print(f'x_train : {x_train.shape}, x_test : {x_test.shape}\ny_train : {y_train.shape}, y_test : {y_test.shape}')

x_train : (142, 13), x_test : (36, 13)
y_train : (142,), y_test : (36,)


## 5) 베이스 라인 모델
- 전처리를 거치지 않은 원본 데이터를 의사결정나무 모델로 학습

In [15]:
base = DecisionTreeClassifier()
base.fit(x_train,y_train)
base_pred = base.predict(x_test)

In [16]:
print(classification_report(y_test, base_pred))

              precision    recall  f1-score   support

           0       1.00      0.94      0.97        16
           1       0.82      0.90      0.86        10
           2       0.90      0.90      0.90        10

    accuracy                           0.92        36
   macro avg       0.91      0.91      0.91        36
weighted avg       0.92      0.92      0.92        36



- 92%의 정확도

## 6) 데이터 전처리
- 사이킷런이 제공하는 `MinMaxScaler` 사용한다.
- 학습데이터를 기준으로 스케일러를 `fit()`한 후 학습 데이터와 테스트 데이터를 스케일링 한다.

In [17]:
scaler = MinMaxScaler()
scaler.fit(x_train)
X_train = scaler.transform(x_train)
X_test = scaler.transform(x_test)
print(X_train)
print(X_test)

[[0.34029851 0.14031621 0.54248366 ... 0.78861789 0.34686347 0.0606777 ]
 [0.31044776 0.28063241 0.30718954 ... 0.30894309 0.73431734 0.07880221]
 [0.35223881 0.08893281 0.03267974 ... 0.6504065  0.65682657 0.34672971]
 ...
 [0.18208955 0.26086957 0.49673203 ... 0.42276423 0.53874539 0.31678487]
 [0.56716418 0.40909091 0.65359477 ... 0.23577236 0.37638376 0.2537431 ]
 [0.65671642 0.50592885 0.37908497 ... 0.06504065 0.08118081 0.31284476]]
[[ 0.23283582  0.27272727  0.67973856  0.54787234  0.69565217  0.21602787
   0.1371308   0.01886792  0.36277603  0.10409556  0.38211382  0.35793358
   0.27344366]
 [ 0.54328358  0.16996047  0.53594771  0.35106383  0.27173913  0.52264808
   0.42827004  0.24528302  0.33123028  0.22610922  0.49593496  0.86346863
   0.58077226]
 [ 0.33731343  0.17193676  0.39869281  0.61702128  0.2173913   0.27874564
   0.28481013  0.56603774  0.36277603  0.09982935  0.69105691  0.35793358
   0.17100079]
 [ 0.67164179  0.17786561  0.74509804  0.2287234   0.43478261  0.56

In [None]:
# 데이터셋 전체를 기준으로 스케일링을 진행했을 때의 코드
'''X_train, X_test, y_train, y_test = train_test_split(wine_data_norm, wine.target,
                                                   test_size=0.2,
                                                   random_state=324)'''

## 7) 다양한 모델로 학습
- `Decision Tree`
- `Random Forest`
- `SVM`
- `SGD Classifier`
- `Logistic Regression`

In [19]:
dt = DecisionTreeClassifier()
rf = RandomForestClassifier()
svm = SVC()
sgd = SGDClassifier()
logi = LogisticRegression()

dt.fit(X_train,y_train)
dt_pred = dt.predict(X_test)

rf.fit(X_train,y_train)
rf_pred = rf.predict(X_test)

svm.fit(X_train,y_train)
svm_pred = svm.predict(X_test)

sgd.fit(X_train,y_train)
sgd_pred = sgd.predict(X_test)

logi.fit(X_train,y_train)
logi_pred = logi.predict(X_test)

# 8) 모델 평가
### 사용한 평가 척도
- `재현율`, `정밀도`, `정확도`를 전반적으로 보고자 한다.
- `classification_report` 를 통해 카테고리 별 `재현율`과 `정밀도`를 보고 모든 카테고리의 `재현율`, `정밀도`의 평균을 통해 학습 성능을 평가할 것이다.

In [21]:
model_dict = {'DecisionTree' : dt_pred, 'RandomForest' : rf_pred, 'SVM' : svm_pred, 'SGD': sgd_pred, 'LogiticRegression':logi_pred}
measure=pd.DataFrame(columns=model_dict.keys(),index=['정확도','정밀도','재현율'])
for k, v in model_dict.items():
    accuracy=accuracy_score(y_test,v)
    precisions=precision_score(y_test, v, average=None)
    recalls=recall_score(y_test,v, average=None)
    measure[k]['정확도']=accuracy
    measure[k]['정밀도']=sum(precisions)/3
    measure[k]['재현율']=sum(recalls)/3
    print(f'==========={k}의 성능===========')
    print('요약')
    print(classification_report(y_test,v))
    print(f'정확도 : {accuracy}')
    print(f'정밀도 : {sum(precisions)/3}')
    print(f'재현율 : {sum(recalls)/3}')
    
print('===============총정리================')
print(measure)

요약
              precision    recall  f1-score   support

           0       1.00      0.94      0.97        16
           1       0.83      1.00      0.91        10
           2       1.00      0.90      0.95        10

    accuracy                           0.94        36
   macro avg       0.94      0.95      0.94        36
weighted avg       0.95      0.94      0.95        36

정확도 : 0.9444444444444444
정밀도 : 0.9444444444444445
재현율 : 0.9458333333333333
요약
              precision    recall  f1-score   support

           0       1.00      0.94      0.97        16
           1       0.91      1.00      0.95        10
           2       1.00      1.00      1.00        10

    accuracy                           0.97        36
   macro avg       0.97      0.98      0.97        36
weighted avg       0.97      0.97      0.97        36

정확도 : 0.9722222222222222
정밀도 : 0.9696969696969697
재현율 : 0.9791666666666666
요약
              precision    recall  f1-score   support

           0       1.00 

## 전처리 전/후 모델 학습 성능 비교

- 다른 모델에서는 얼마나 차이가 있을지 궁금해져서 정규화 하기 이전 데이터로 다시 학습을 진행

In [22]:
base_dt = DecisionTreeClassifier()
base_rf = RandomForestClassifier()
base_svm = SVC()
base_sgd = SGDClassifier()
base_logi = LogisticRegression()

base_dt.fit(x_train,y_train)
base_dt_pred = base_dt.predict(x_test)

base_rf.fit(x_train,y_train)
base_rf_pred = base_rf.predict(x_test)

base_svm.fit(x_train,y_train)
base_svm_pred = base_svm.predict(x_test)

base_sgd.fit(x_train,y_train)
base_sgd_pred = base_sgd.predict(x_test)

base_logi.fit(x_train,y_train)
base_logi_pred = base_logi.predict(x_test)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


In [23]:
model_dict = {'DecisionTree' : base_dt_pred, 'RandomForest' : base_rf_pred, 'SVM' : base_svm_pred, 'SGD': base_sgd_pred, 'LogiticRegression':base_logi_pred}
base_measure=pd.DataFrame(columns=model_dict.keys(),index=['정확도','정밀도','재현율'])
for k, v in model_dict.items():
    accuracy=accuracy_score(y_test,v)
    precisions=precision_score(y_test, v, average=None)
    recalls=recall_score(y_test,v, average=None)
    base_measure[k]['정확도']=accuracy
    base_measure[k]['정밀도']=sum(precisions)/3
    base_measure[k]['재현율']=sum(recalls)/3
    print(f'==========={k}의 성능===========')
    print('요약')
    print(classification_report(y_test,v))
    print(f'정확도 : {accuracy}')
    print(f'정밀도 : {sum(precisions)/3}')
    print(f'재현율 : {sum(recalls)/3}')
    
print('===============전처리 안한 데이터 총정리================')
print(base_measure)

요약
              precision    recall  f1-score   support

           0       1.00      0.94      0.97        16
           1       0.82      0.90      0.86        10
           2       0.90      0.90      0.90        10

    accuracy                           0.92        36
   macro avg       0.91      0.91      0.91        36
weighted avg       0.92      0.92      0.92        36

정확도 : 0.9166666666666666
정밀도 : 0.9060606060606061
재현율 : 0.9125
요약
              precision    recall  f1-score   support

           0       1.00      0.94      0.97        16
           1       0.91      1.00      0.95        10
           2       1.00      1.00      1.00        10

    accuracy                           0.97        36
   macro avg       0.97      0.98      0.97        36
weighted avg       0.97      0.97      0.97        36

정확도 : 0.9722222222222222
정밀도 : 0.9696969696969697
재현율 : 0.9791666666666666
요약
              precision    recall  f1-score   support

           0       0.83      0.94   

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


In [24]:
print('===========전처리 전============')
print(base_measure)
print('===========전처리 후============')
print(measure)

    DecisionTree RandomForest       SVM       SGD LogiticsRegression
정확도     0.916667     0.972222  0.694444  0.666667           0.944444
정밀도     0.906061     0.969697  0.462963  0.469841           0.944444
재현율     0.912500     0.979167  0.645833  0.625000           0.945833
    DecisionTree RandomForest       SVM  SGD LogiticsRegression
정확도     0.944444     0.972222  0.972222  1.0                1.0
정밀도     0.944444     0.969697  0.969697  1.0                1.0
재현율     0.945833     0.979167  0.979167  1.0                1.0


- 수치형 데이터의 전처리 성능은 모델에 따라 영향을 많이 받는다.

- 스케일링을 할 때의 데이터셋이 모집단인지 분리된 학습 데이터 셋인지 여부가 학습 성능에 미치는 영향도 생각외로 컸다.

- `MinMaxScaler`를 적용한 후 데이터 셋을 분리했을 때는 `RandomForest` 모델의 정확도, 정밀도, 재현율이 1이었는데 학습, 테스트 데이터 셋을 분리한 후 학습 데이터에 스케일러를 `fit()` 한 후 테스트 데이터에 적용하니 전처리 전과 후에 같은 수치가 나왔다.

- 그러나 생각해보면 실제 모델이 사용될 때는 이미 학습이 완료된 후 들어오는 새로운 데이터에 대해 예측해야할 것이니 학습 데이터 셋을 기준으로 스케일링을 진행하는 것이 논리적으로 더 타당해보인다.

- `SVM`, `SGD`, `LogisticRegression`은 역시 데이터가 가우시안 분포를 가지고 있다는 가정하에 구현된 모델이어서 그런지 `MinMaxScaler`를 적용한 후가 월등히 정확도가 높았다.

# 추후 학습 방향
- `MinMaxScaler` 외의 스케일러를 적용했을 때의 성능 변화를 알아보고 싶다