## 모듈 import

In [1]:
import sklearn                      # 필요한 라이브러리와 함수들을 import

from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

import pandas as pd                 # pandas 라이브러리를 pd라는 약칭으로 호출

## 데이터 준비

In [40]:
wine = load_wine()             # wine data를 wine 변수에 저장

print(type(wine))              # wine 변수의 type 확인
print(dir(wine))               # 객체가 가진 변수와 메서드 확인
wine.keys()                    # Dataset의 정보(key) 확인

<class 'sklearn.utils.Bunch'>
['DESCR', 'data', 'feature_names', 'frame', 'target', 'target_names']


dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])

In [41]:
wine_data = wine.data            # data 컬럼을 wine_data 변수에 저장

print(wine_data.shape)           # 실행 결과 : 178개의 dat가 13개의 값을 가지고 있음

wine_data[0]                     # 실행 결과 : 0번 인덱스의 값이 소수값으로 이뤄진 값들을 가졌음을 확인

(178, 13)


array([1.423e+01, 1.710e+00, 2.430e+00, 1.560e+01, 1.270e+02, 2.800e+00,
       3.060e+00, 2.800e-01, 2.290e+00, 5.640e+00, 1.040e+00, 3.920e+00,
       1.065e+03])

In [42]:
wine.feature_names               # 실행 결과 : 위 소수값들이 아래 정보들에 대한 값임을 확인(성분이나 함량 등에 대한 값인 듯 하다. 그래서 소수로 표현되는 듯)

['alcohol',
 'malic_acid',
 'ash',
 'alcalinity_of_ash',
 'magnesium',
 'total_phenols',
 'flavanoids',
 'nonflavanoid_phenols',
 'proanthocyanins',
 'color_intensity',
 'hue',
 'od280/od315_of_diluted_wines',
 'proline']

In [43]:
wine.target_names               # 실행 결과 : 와인들은 class_0 / class_1 / class_2 로 분류 될 것임(종류를 의미하는 듯)

array(['class_0', 'class_1', 'class_2'], dtype='<U7')

In [44]:
wine_label = wine.target        # target 컬럼을 wine_label 변수에 저장

print(wine_label.shape)         # 실행 결과 : 178개의 dat들

wine_label                      # 실행 결과 : 178개의 인덱스 값들이 0~2로 이뤄짐을 확인 / 위에서 확인한 0~2까지의 클래스들을 의미함을 알 수 있다.

(178,)


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2])

## 데이터 이해하기

* Feature Data 지정하기
* Label Data 지정하기
* Target Names 출력해 보기
* 데이터 Describe 해 보기

In [45]:
## Feature Data / Label Data 지정

wine_df = pd.DataFrame(data=wine_data, columns=wine.feature_names)
                                    # Array자료형을 Dataframe자료형으로 wine_df에 저장
wine_df                             # 실행 결과 : 178개의 데이터와 13개의 값(분류에 사용 될)들 확인

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.20,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.50,16.8,113.0,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740.0
174,13.40,3.91,2.48,23.0,102.0,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750.0
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835.0
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840.0


In [46]:
wine_df["label"] = wine.target  # 생성한 wine_df에 wine.target을 label이라는 컬럼으로 새로 추가

wine_df                         # 실행 결과 : (class)0~2의 label 컬럼이 추가됨을 확인

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,label
0,14.23,1.71,2.43,15.6,127.0,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,0
1,13.20,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050.0,0
2,13.16,2.36,2.67,18.6,101.0,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185.0,0
3,14.37,1.95,2.50,16.8,113.0,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480.0,0
4,13.24,2.59,2.87,21.0,118.0,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740.0,2
174,13.40,3.91,2.48,23.0,102.0,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750.0,2
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835.0,2
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840.0,2


In [47]:
## Target Names 출력

wine.target_names                 # Target Names 출력

array(['class_0', 'class_1', 'class_2'], dtype='<U7')

In [48]:
## Data Describe

print(wine.DESCR)                 # wine의 Describe 출력

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0

## Train / Test 데이터 분리

In [49]:
X_train, X_test, y_train, y_test = train_test_split(wine_data,                  # Feature
                                                    wine_label,                 # Label
                                                    test_size=0.2)              # 80%는 학습용 / 20%는 평가용으로 분리
                                                    #random_state=7)             # 다른 모델과 동일한 조건으로 평가하기 위해 재현 가능한 랜덤값으로 섞음


print('X_train 개수: ', len(X_train),', X_test 개수: ', len(X_test))            # 배열 길이를 확인함으로써 train 갯수와 test 갯수를 확인
                                                                                # -> 이로써 test 할 준비가 완료되었음
                                                                                # 이전의 코드와 동일한 부분임

X_train 개수:  142 , X_test 개수:  36


## 다양한 모델로 학습시켜보기

* Decision Tree 사용해 보기
* Random Forest 사용해 보기
* SVM 사용해 보기
* SGD Classifier 사용해 보기
* Logistic Regression 사용해 보기

In [50]:
## 학습에 필요한 다양한 모델 import

from sklearn.tree import DecisionTreeClassifier           # 의사결정나무
from sklearn.ensemble import RandomForestClassifier       # 랜덤포레스트
from sklearn import svm                                   # Support Vector Machine
from sklearn.linear_model import SGDClassifier            # 확률적 경사 하강
from sklearn.linear_model import LogisticRegression       # 로지스틱 회귀

In [51]:
## Decision Tree

decision_tree = DecisionTreeClassifier(random_state=32)                 # 결정트리분류기의 객체를 만든다.
decision_tree.fit(X_train, y_train)                                     # 분류기에 x와 y의 훈련 데이터를 넣어 훈련 시킨다.
y_pred = decision_tree.predict(X_test)                                  # 훈련된 분류기에 X_test라는 테스트 데이터셋을 넣어 얼마나 예측했는지 확인한다.

print(classification_report(y_test, y_pred))                            # 결과를 지표로 확인하기 위해 classification_report를 활용해 y_test, y_pred 값을 넣어 확인한다.

              precision    recall  f1-score   support

           0       1.00      0.95      0.97        19
           1       0.83      1.00      0.91        10
           2       1.00      0.86      0.92         7

    accuracy                           0.94        36
   macro avg       0.94      0.93      0.94        36
weighted avg       0.95      0.94      0.95        36



In [52]:
## Random Forest

random_forest = RandomForestClassifier(random_state=64)                 # RandomForest분류기 객체를 생성

random_forest.fit(X_train, y_train)                                     # 훈련
y_pred = random_forest.predict(X_test)                                  # 예측

print(classification_report(y_test, y_pred))                            # 결과 지표를 확인

              precision    recall  f1-score   support

           0       1.00      0.89      0.94        19
           1       0.83      1.00      0.91        10
           2       1.00      1.00      1.00         7

    accuracy                           0.94        36
   macro avg       0.94      0.96      0.95        36
weighted avg       0.95      0.94      0.95        36



In [53]:
## SVM

svm_model = svm.SVC()                                 # 모델 객체를 만든다.

svm_model.fit(X_train, y_train)                       # 훈련
y_pred = svm_model.predict(X_test)                    # 예측

print(classification_report(y_test, y_pred))          # 결과 지표 확인

              precision    recall  f1-score   support

           0       1.00      0.74      0.85        19
           1       0.50      1.00      0.67        10
           2       0.50      0.14      0.22         7

    accuracy                           0.69        36
   macro avg       0.67      0.63      0.58        36
weighted avg       0.76      0.69      0.68        36



In [60]:
## SDG

sgd_model = SGDClassifier()                           # 모델 객체 생성

sgd_model.fit(X_train, y_train)                       # SGD 모델로 Train 데이터를 훈련
y_pred = sgd_model.predict(X_test)                    # SGD 모델로 Test 데이터를 예측

print(classification_report(y_test, y_pred))          # 결과 지표를 확인

#import numpy as np
#print(classification_report(y_test,y_pred,labels=np.unique(y_pred)))      * warning을 해결하기 위해 구글링하여 얻은 코드(솔직히 뭔지 몰라서 그냥 안씀)

              precision    recall  f1-score   support

           0       1.00      0.74      0.85        19
           1       0.70      0.70      0.70        10
           2       0.50      0.86      0.63         7

    accuracy                           0.75        36
   macro avg       0.73      0.76      0.73        36
weighted avg       0.82      0.75      0.77        36



In [61]:
# Logistic Regression

logistic_model = LogisticRegression(max_iter=5000)    # 모델 객체 생성

logistic_model.fit(X_train, y_train)                  # Train 데이터 훈련
y_pred = logistic_model.predict(X_test)               # Test 데이터 예측

print(classification_report(y_test, y_pred))          # 결과 지표를 확인

              precision    recall  f1-score   support

           0       1.00      0.95      0.97        19
           1       0.91      1.00      0.95        10
           2       1.00      1.00      1.00         7

    accuracy                           0.97        36
   macro avg       0.97      0.98      0.98        36
weighted avg       0.97      0.97      0.97        36



## 모델을 평가해 보기
* 와인의 3가지 class 중 정확한 한가지를 분류하는게 핵심이었다. 세 번째 프로젝트(breast_cancer)와는 달리 class 0은 0이고, class 1은 1이라고 정확히 분류를 하는 것이 중요하기에 accuracy가 가장 높은 Logistic Regression을 적합한 모델로 평가했다.

## Discussion
* accuracy 성적이 안좋은 SVM, SDG 모델에 대해서는 다양한 분류 요소가 있는데 적절한 preprocessing이 이루어지지 않아서가 아닐까? 전처리에 대해 이론적인 부분은 배웠지만 실제 응용을 하지 못하여 두 모델에 대해서 저조한 성적을 얻은 것 같다. 주어진 데이터에 대해서 적절한 전처리가 반드시 필요하다는 걸 알 수 있었던 프로젝트였다.