# 2-12. 프로젝트 (2) load_wine : 와인을 분류해 봅시다

### (1) 필요한 모듈 import하기

In [2]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score

### (2) 데이터 준비

In [3]:
# digits 에 데이터를 할당
wine = load_wine()
wine_data = wine.data

# wine_data.shape 와 wine.keys()를 통해 wine의 데이터를 확인
print(wine_data.shape)
print(wine.keys())

(178, 13)
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])


### (3) 데이터 이해하기

In [5]:
# Feature Data 지정하기
wine.feature_names

# Label Data 지정하기
wine_label = wine.target
print(wine_label.shape)

# Target Names 출력해 보기
print(wine.target_names)

# 데이터 Describe 해 보기
print(wine.DESCR)

(178,)
['class_0' 'class_1' 'class_2']
.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  1

### (4) train, test 데이터 분리

In [5]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(wine_data,
                                                    wine_label,
                                                    test_size=0.2,
                                                    random_state=25)

print('X_train 개수: ', len(X_train), ', X_test 개수: ', len(X_test))

X_train 개수:  142 , X_test 개수:  36


### (5) 다양한 모델로 학습시켜보기

###    - 각 모델들의 정확도 비교를 위해 wine_accuracy 딕셔너리를 생성

In [9]:
wine_accuracy = {}

#### Case 1. Decision Tree 사용해 보기

In [10]:
# 모듈 import
from sklearn.tree import DecisionTreeClassifier

# 데이터 준비

wine = load_wine()
wine_data = wine.data
wine_label = wine.target

# train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(wine_data, 
                                                    wine_label, 
                                                    test_size=0.2, 
                                                    random_state=25)

# Decision Tree 모델 학습 및 예측
decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)

# 학습 결과 체크
wine_accuracy['Decision Tree'] = accuracy_score(y_test, y_pred)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.91      0.91      0.91        11
           1       0.94      0.89      0.91        18
           2       0.88      1.00      0.93         7

    accuracy                           0.92        36
   macro avg       0.91      0.93      0.92        36
weighted avg       0.92      0.92      0.92        36



#### Case 2. Random Forest 사용해 보기

In [11]:
# 모듈 import
from sklearn.ensemble import RandomForestClassifier

# 데이터 준비
digits = load_wine()
digits_data = wine.data
digits_label = wine.target

# train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(wine_data, 
                                                    wine_label, 
                                                    test_size=0.2, 
                                                    random_state=25)

# Random Forest 모델 학습 및 예측
random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

# 학습 결과 체크
wine_accuracy['Random Forest'] = accuracy_score(y_test, y_pred)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        11
           1       1.00      1.00      1.00        18
           2       1.00      1.00      1.00         7

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36



### Case 3. SVM 사용해 보기

In [14]:
# 모듈 import
from sklearn import svm
svm_model = svm.SVC()

# 데이터 준비
wine = load_wine()
wine_data = wine.data
wine_label = wine.target

# SVM 모델 학습 및 예측
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

# 학습 결과 체크
wine_accuracy['SVM'] = accuracy_score(y_test, y_pred)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.89      0.73      0.80        11
           1       0.82      0.78      0.80        18
           2       0.40      0.57      0.47         7

    accuracy                           0.72        36
   macro avg       0.70      0.69      0.69        36
weighted avg       0.76      0.72      0.74        36



### Case 4. SGD Classifier 사용해 보기

In [15]:
# 모듈 import
from sklearn.linear_model import SGDClassifier
sgd_model = SGDClassifier()

# 데이터 준비
wine = load_wine()
wine_data = wine.data
wine_label = wine.target

# SGD Classifier 모델 학습 및 예측
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

# 학습 결과 체크
wine_accuracy['SGD Classifier'] = accuracy_score(y_test, y_pred)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.89      0.73      0.80        11
           1       1.00      0.17      0.29        18
           2       0.25      0.86      0.39         7

    accuracy                           0.47        36
   macro avg       0.71      0.58      0.49        36
weighted avg       0.82      0.47      0.46        36



### case 5. Logistic Regression 사용해 보기

In [20]:
# 모듈 import
from sklearn.linear_model import LogisticRegression
logistic_model = LogisticRegression()

# 데이터 준비
wine = load_wine()
wine_data = wine.data
wine_label = wine.target

# Logistic Regression 모델 학습 및 예측
logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

# 학습 결과 체크
wine_accuracy['Logistic Regression'] = accuracy_score(y_test, y_pred)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.92      1.00      0.96        11
           1       1.00      0.94      0.97        18
           2       1.00      1.00      1.00         7

    accuracy                           0.97        36
   macro avg       0.97      0.98      0.98        36
weighted avg       0.97      0.97      0.97        36



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


### (6) 모델을 평가해 보기

In [21]:
for keys, values in wine_accuracy.items():
    print(keys,":", values)

Decision Tree : 0.9166666666666666
Random Forest : 1.0
SVM : 0.7222222222222222
SGD Classifier : 0.4722222222222222
Logistic Regression : 0.9722222222222222


해당 문제는 Recall, Precision 등의 오차 행렬 성능 지표에 큰 영향을 받지 않으므로

accuracy로 성능을 평가해도 좋을 것이라 판단합니다.

그러므로 accuracy의 결과 값으로만 판단 하였을 때에는

100% 의 accuracy 를 보여준 Random Forest 모델이 가장 적합해 보입니다.

하지만, Random Forest의 경우 많은 데이터를 사용하면 속도가 느려질 수 있다는 단점이 있습니다.

그렇기 때문에, wine 데이터를 데이터를 활용한 모델을 선정할 때에는

가장 높은 accuracy (97.2%)를 보여준 Logistic Regression 모델을 사용하는 것이

해당 케이스에는 조금 더 적합할 것이라고 생각합니다..