# 와인 분류
- 솔직히 말하면 정확히 무슨 데이터인지 감이 안온다.
- 아마도 와인등급을 상 중 하 로 구분한 것 같다.
- 이때 가장 손해인 것은 상으로 분류되어야 할 와인이 중이나 하로 분류되는 것이다...

### Precision 이 중요하다 (Recall인가?)
- 정확도(Accuracy) : 전체 예측 중 정답을 맞춘 비율
- 재현율(Recall) : 실제 정답 중 정답으로 예측된 비율
- 정밀도(Precision) : 예측 중에서 실제 정답인 비율
- F1 score : 재현율과 정밀도의 조화평균 (재현율*정밀도 / 재현율+정밀도)

In [1]:
# 모듈 improt 
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

wine = load_wine()
wine_data = wine.data
wine_label = wine.target

- load_wine() 메소드를 이용하여 변수 wine에 데이터를 할당
- wine_data에 Feature data 할당
- wine_label에 Label data 할당 (target)

In [3]:
# 데이터 이해하기 

# Feature Data 지정하기
# Label Data 지정하기
# Target Names 출력해 보기
# 데이터 Describe 해 보기

wine_data = wine.data
print(wine_data.shape) # 1797개 데이터, 8x8=64의 픽셀값

wine_label = wine.target # 1797개 데이터에 대한 정답
print(wine_label.shape) # 정답이니까 당연히 하나

print(wine.target_names) # 정답값으로 어떤 것들이 있는지에 대한 탐색

print()
print("요기서부터는 데이터 요약 정리 내용입니다.")

print(wine.DESCR) # 데이터 간단요약정리!

(178, 13)
(178,)
['class_0' 'class_1' 'class_2']

요기서부터는 데이터 요약 정리 내용입니다.
.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:      

- wine_data에 저장된 데이터 양과 형식을 확인
- 178개의 wine 데이터가 저장되어 있음을 확인
- feature는 총 13개
- wine_label에 저장된 데이터 양과 형식을 확인
- 178개의 데이터가 저장되어 있음을 확인
- 저장된 label은 class 0, 1, 2의 세 가지 카테고리로 확인

# 데이터셋 나누기

- wine 데이터 셋을 학습용 데이터와 테스트용 데이터로 분리
- test 데이터 셋의 크기는 전체 데이터셋의 20%
- 즉, 178개의 데이터 셋 중에서 학습용 데이터는 142개, 테스트용 데이터는 36개
- 기존에 정렬된 데이터를 랜덤으로 섞어서 train set과 test set으로 분리

In [5]:
# train, test 데이터 분리

X_train, X_test, y_train, y_test = train_test_split(wine_data,
                                                   wine_label,
                                                   test_size=0.2,
                                                   random_state=7)

print('number of X_train:', len(X_train), 'number of X_test:', len(X_test))
print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

number of X_train: 142 number of X_test: 36
(142, 13) (142,)
(36, 13) (36,)


# 모델 학습 및 평가

In [6]:
# Decision Tree 사용해 보기
from sklearn.tree import DecisionTreeClassifier

# 의사결정트리 정의 및 학습!
decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train)

# 의사결정트리 예측!
y_pred = decision_tree.predict(X_test)
print(y_pred) # 예측값 출력
print(y_test) # 정답값 출력

print("이렇게 보니까 너무 구려요!! 그럼 어떻게? ==> 정확도와 report는 따로 출력해봅시다")
print("\n\n")
# 정확도만 봅시다
from sklearn.metrics import accuracy_score
accuracy1 = accuracy_score(y_test, y_pred)

print("정확도 :", accuracy1)
print("\n\n")
# 이쁘게 리포트해봅시다
print("Classification report 입니다")
print(classification_report(y_test, y_pred))

[2 0 2 2 1 2 1 0 1 1 0 1 1 1 1 1 1 2 0 0 1 1 1 1 0 2 1 2 2 2 1 0 2 1 1 1]
[2 0 2 2 1 2 1 0 1 2 0 1 2 1 1 1 1 2 0 0 1 1 1 1 0 2 1 2 2 2 1 0 2 1 1 1]
이렇게 보니까 너무 구려요!! 그럼 어떻게? ==> 정확도와 report는 따로 출력해봅시다



정확도 : 0.9444444444444444



Classification report 입니다
              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.89      1.00      0.94        17
           2       1.00      0.83      0.91        12

    accuracy                           0.94        36
   macro avg       0.96      0.94      0.95        36
weighted avg       0.95      0.94      0.94        36



- Precision을 확인해보면, 'class 1'에서 평균 precision(macro avg)보다 낮은 값을 갖는다.
- 'class 0', 'class 2'의 경우, 다른 class에 비해서 정밀한 예측을 했다고 말할 수 있다.
- Recall을 확인해보면, 'class 2'에서 평균 recall(macro avg)보다 낮은 값을 갖는다.
- 'class 0', 'class 1'의 경우, 해당 class 내에서 정확한 예측을 했다고 말할 수 있다.

In [8]:
# Random Forest 사용해 보기
from sklearn.ensemble import RandomForestClassifier

X_train, X_test, y_train, y_test = train_test_split(wine_data, 
                                                    wine_label, 
                                                    test_size=0.2, 
                                                    random_state=25)

random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

# 정확도만 봅시다
from sklearn.metrics import accuracy_score
accuracy2 = accuracy_score(y_test, y_pred)
print("정확도 :", accuracy2)
print("\n\n")

print("report")
print(classification_report(y_test, y_pred))

# 모두 1? 한번 봅시다.
from sklearn.metrics import confusion_matrix 
confusion_matrix(y_test, y_pred)

정확도 : 1.0



report
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        11
           1       1.00      1.00      1.00        18
           2       1.00      1.00      1.00         7

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36



array([[11,  0,  0],
       [ 0, 18,  0],
       [ 0,  0,  7]])

- Random Fores 모델의 정확도는 100%이다.

In [9]:
# SVM 사용해 보기
from sklearn import svm

svm_model = svm.SVC()
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

# 정확도만 봅시다
from sklearn.metrics import accuracy_score
accuracy3 = accuracy_score(y_test, y_pred)
print("정확도 :", accuracy3)
print("\n\n")

print("report")
print(classification_report(y_test, y_pred))

정확도 : 0.7222222222222222



report
              precision    recall  f1-score   support

           0       0.89      0.73      0.80        11
           1       0.82      0.78      0.80        18
           2       0.40      0.57      0.47         7

    accuracy                           0.72        36
   macro avg       0.70      0.69      0.69        36
weighted avg       0.76      0.72      0.74        36



- SVM  모델의 정확도는 72%로, 굉장히 낮은 정확도가 측정되었다.
- 따라서 해당 Wine 데이터 분류 모델로서는 적합하지 않다.

In [12]:
# SGD Classifier 사용해 보기
from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

# 정확도만 봅시다
from sklearn.metrics import accuracy_score
accuracy4 = accuracy_score(y_test, y_pred)
print("정확도 :", accuracy4)
print("\n\n")

print("report")
print(classification_report(y_test, y_pred))

정확도 : 0.7222222222222222



report
              precision    recall  f1-score   support

           0       1.00      0.73      0.84        11
           1       0.64      1.00      0.78        18
           2       0.00      0.00      0.00         7

    accuracy                           0.72        36
   macro avg       0.55      0.58      0.54        36
weighted avg       0.63      0.72      0.65        36



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


- 해당 모델의 정확도는 61%로, 굉장히 낮은 정확도가 측정되었다.
- 따라서 해당 Wine 데이터 분류 모델로서는 적합하지 않다.

In [13]:
# Logistic Regression 사용해 보기
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression()
logistic_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

# 정확도만 봅시다
from sklearn.metrics import accuracy_score
accuracy5 = accuracy_score(y_test, y_pred)
print("정확도 :", accuracy5)
print("\n\n")

print("report")
print(classification_report(y_test, y_pred))

정확도 : 0.7222222222222222



report
              precision    recall  f1-score   support

           0       0.89      0.73      0.80        11
           1       0.82      0.78      0.80        18
           2       0.40      0.57      0.47         7

    accuracy                           0.72        36
   macro avg       0.70      0.69      0.69        36
weighted avg       0.76      0.72      0.74        36



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


# 결론

## - accuracy
- Decision Tree: 94%
- Random Forest: 100%
- SVM: 72%
- SGD Classifier: 72%
- Logistic Regression: 72%


- SVM, SGD Classifier, Logistic Regression를 제외한 나머지 3개의 모델은 90% 이상의 정확도를 보여줌
- confusion_matrix를 확인해 본 결과, SVM, SGD Classifier는 오답률이 높았음
- 따라서, SVM과 SGD Classifier 모델은 해당 wine 데이터를 분류하기에 적합한 모델이 아니라고 판단
- Random Forest의 경우, 100%라는 굉장히 높은 정확도를 보여줌
- 따라서 해당 프로젝트에서는 Random Forest를 사용하는 것이 가장 적합하다고 판단