# E2.2 - 와인 분류

### (1) 필요한 모듈 import하기

In [2]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
import numpy as np

### (2) 데이터 준비

In [3]:
wine = load_wine()

### (3) 데이터 이해하기

* Feature Data 지정하기
* Label Data 지정하기
* Target Names 출력해 보기
* 데이터 Describe 해 보기

In [4]:
# 데이터 이해하기 
print(dir(wine))

['DESCR', 'data', 'feature_names', 'frame', 'target', 'target_names']


In [5]:
# target 이해하기  - label 이름은 class 0, 1, 2 3이고 그에 따른 target value는 0,1,2로 나뉜다. 
print(wine.target_names)
np.unique(wine.target)

['class_0' 'class_1' 'class_2']


array([0, 1, 2])

In [6]:
# wine data description
wine.DESCR



In [7]:
# label 지정하기 
wine_label = wine.target 

In [8]:
# data 지정하기 
wine_data = wine.data

In [9]:
print(wine_data.shape) # 와인은 178개가 있고 feature 는 13개다. 
print(wine.feature_names) # feature 종류

(178, 13)
['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']


### (4) train, test 데이터 분리

In [10]:
# test size = 20% 
X_train, X_test, y_train, y_test = train_test_split(wine_data, wine_label, test_size=0.2, random_state=7)

### (5) 다양한 모델로 학습시켜보기

아래와 같은 모델 사용해 보기

* Decision Tree
* Random Forest
* SVM
* SGD Classifier
* Logistic Regression

### (5)(a) Decision Tree 

In [11]:
from sklearn.tree import DecisionTreeClassifier

# wine_dt 변수 만들어 주기 
wine_dt = DecisionTreeClassifier(random_state=32)

# model fitting
wine_dt.fit(X_train, y_train)

# y predict 만들어주기 
y_pred_dt = wine_dt.predict(X_test)


### (5)(b) Random Forest 

In [12]:
from sklearn.ensemble import RandomForestClassifier

# wine_rf 변수 만들어 주기 
wine_rf = RandomForestClassifier(random_state=32)

# model fitting
wine_rf.fit(X_train, y_train)

# y predict 만들어주기 
y_pred_rf = wine_rf.predict(X_test)


### (5)(c) SVM

In [13]:
from sklearn import svm

# wine_svm 변수 만들어 주기 
wine_svm = svm.SVC()

# model fitting
wine_svm.fit(X_train, y_train)

# y predict 만들어주기 
y_pred_svm = wine_svm.predict(X_test)


### (5)(d) SGD Classifier

In [14]:
from sklearn.linear_model import SGDClassifier

# wine_sgd 변수 만들어 주기 
wine_sgd = SGDClassifier()

# model fitting
wine_sgd.fit(X_train, y_train)

# y predict 만들어주기 
y_pred_sgd = wine_sgd.predict(X_test)

### (5)(e) Logistic Regression

In [15]:
from sklearn.linear_model import LogisticRegression

# wine lr 변수 만들어 주기. max_iter 을 붙이지 않았을때 에러가 나서 첨부했다.
wine_lr = LogisticRegression(max_iter=5000) 

# model fitting
wine_lr.fit(X_train, y_train)

# y predict 만들어주기 
y_pred_lr = wine_lr.predict(X_test)

### (6) 모델을 평가해 보기

1. Wine data descr에 따르면 lable의 distribution은 다음과 같다 - class_0 (59), class_1 (71), class_2 (48). 데이터가 한쪽으로 편향 되지 않고 비교적 고르게 분포 되어있다. 그러므로 accuracy score를 사용해서 모델을 평가해도 괜찮을 것 같다.  
2. 모델별 accuracy score 는 다음과 같다. 
    model| accuracy_score
    ---|---
    decision tree| 0.94
    random forest| 1
    svm | 0.61
    sgd | 0.55
    logistic regression | 0.97  
3. **결론: accuracy score를 기준으로 random forest가 1로 정확도가 가장 높으며 와인분류에 적합한 모델인것 같다.** 다만, logistic regression 모델도 97%의 높은 정확도를 가지고 있으므로 고려해 볼만 하다. 


In [16]:
# 필요한 모듈 설치
from sklearn.metrics import accuracy_score 

In [17]:
# (5)(a) Decision Tree 
print("Decision Tree: ")
print(accuracy_score(y_test, y_pred_dt))

Decision Tree: 
0.9444444444444444


In [18]:
# (5)(b) Random Forest 
print("Random Forest: ")
print(accuracy_score(y_test, y_pred_rf))

Random Forest: 
1.0


In [19]:
# (5)(c) SVM
print("SVM: ")
print(accuracy_score(y_test, y_pred_svm))

SVM: 
0.6111111111111112


In [21]:
# (5)(d) SGD classification report 방식 
print("SGD: ")
print(accuracy_score(y_test, y_pred_sgd))

SGD: 
0.5555555555555556


In [22]:
# (5)(e) Logistic Regression 
print("Logistic Regression: ")
print(accuracy_score(y_test, y_pred_lr))

Logistic Regression: 
0.9722222222222222
